What are the best LLaMA.cpp tutorials for beginners?

Pick guides that walk you through build, model download (GGUF), and a first prompt with copy/paste commands for Mac, Windows, and Linux. The best LLaMA.cpp tutorials also include troubleshooting and legal model sourcing.

Do I need a GPU to run LLaMA.cpp well?

No, CPU-only works, especially with 7B Q4_0 quantized models. A GPU (Metal, CUDA, or ROCm) speeds things up and the best LLaMA.cpp tutorials show how to enable GPU layers safely.

Which model format should I use with LLaMA.cpp?

Use GGUF—it’s the modern format supported by current LLaMA.cpp builds. The best LLaMA.cpp tutorials explain GGUF vs. quantization levels like Q4 and Q5 for speed and quality.

Why is my local model output so slow?

Check build type (Release), thread count, and GPU offload settings. The best LLaMA.cpp tutorials recommend smaller quantized models, fewer GPU layers if you’re hitting vRAM limits, and closing those 47 Chrome tabs.

How do I serve LLaMA.cpp as an API?

Use the built-in server mode with a GGUF model and set `--host`, `--port`, and `--ctx-size`. Many of the best LLaMA.cpp tutorials include an OpenAI-style endpoint example for easy app integration.

சிறந்த LLaMA.cpp பயிற்சிகள்: உள்ளூர் AI-ஐ இயக்குவதற்கான உங்கள் நேரடியான, முக்கியமான வழிகாட்டி

இரு, உங்கள் லேப்டாப்பில் ஒரு பெரும் AI மாதிரியை விரும்புகிறீர்களா? அழகாய்! இதை நிச்சயமாக செயல்படச்செய்யலாம்.

உங்கள் கையை உயர்த்துங்கள், நீங்கள் ஏதாவது ஒரு AI மாதிரியுடன் உள்ளூர் இயங்க முயன்றது, ஆனால் 12 மர்மமான டெர்மினல் விண்டோக்கள், ஒரு கோபமடைந்த பனியை கொண்டிருந்த லேப்டாப் பறக்கும் முன் தயாராக இருக்... என்று நினைத்தீர்களே நாங்கள் போன்றே இருக்கிறோம். அதனால்தான் சிறந்த LLaMA.cpp பாடங்களுக்கான தேடுதல் கற்றலுக்குத்தான் அல்ல, அது உயிர் வாழ்வுக்காக. நீங்கள் விரும்புவது வேகமான, எளிய மற்றும் 2008 லினக்ஸ் ஃபோரம் போல் இல்லாதது.

ஆகையால், நான் இணையத்தின் AI வேதியியல் குகைகளைக் கண்ணோட்டமாக ஆராய்ந்து, சிறந்த LLaMA.cpp பாடங்களை கண்டுபிடித்தேன் - ஆரம்பத்துக்கு ஏற்றவையும், சமீபத்தியதும், எளிதான ஆங்கிலத்தில் அமைந்ததும். நாம் எப்படி உங்கள் வழியை தெரிவு செய்வது (Mac, Windows, Linux), எந்த கட்டளைகளை பயன்படுத்துவது, எங்கே சரியான மாதிரிகளை பெறுவது மற்றும் உங்கள் வார இறுதியை சேதமடையாமல் வைத்துக்கொள்ளுவது பற்றி பேசப் போகிறோம்.

முக்கிய வார்த்தை: நாம் “சிறந்த LLaMA.cpp பாடங்கள்” என்பதை தேடிக் கொண்டிருக்கிறோம். அது உங்கள் கம்பஸ், உங்கள் சிற்றுண்டி தொகுப்பு, உங்கள் நம்பகமான தோழன். நான் இயல்பாக வைத்துக் கொண்டு, நீங்கள் அதிகம் தேடும் இடத்தில் அது தோன்றுவதை உறுதி செய்ய்பேன்.

சுருக்கமான பதிப்பு: பாடத்தைத் தேர்ந்தெடுப்பதற்கு முன்னர் தெரிந்து கொள்ள வேண்டியது

LLaMA.cpp = CPU (மற்றும் GPU விரும்பினால்) இல் LLaMA குடும்ப மாதிரிகளை உள்ளூராக இயக்கு எளிதான C/C++ திட்டம். அதாவது லேப்டாப்புக்கு நட்பானது.

சிறந்த LLaMA.cpp பாடங்கள் உங்களைப் பின்வருமாறு வழிநடத்தும்: சார்புகள் நிறுவல், மாதிரி பெறுதல், மாற்றுதல்/குவாண்டைசிங் மற்றும் முதல் கேள்வி இயக்குதல் - எந்த மகா டாக்டர் பட்டமும் தேவையில்லை.

உங்கள் OS முக்கியம். Mac பயனாளர்கள் Metal துருக்கோட்டை பெறுவார்கள், Windows பயனாளர்கள் WSL அல்லது இயல்பான கட்டமைப்புகளைப் பெறுவார்கள், Linux பயனாளர்கள் ஏற்கனவே சந்தோஷமாக இருக்கிறார்கள். GPU? விருப்பமானது ஆனால் நல்லது.

“Q4_0,” “GGUF,” மற்றும் “quantization” போன்ற வார்த்தைகள் தோன்றலாம். ஆழ்ந்த மூச்சு விடுங்கள். இவை மாதிரியின் சிறிய, வேகமான பதிப்புகள் மட்டுமே.

ஒரு கட்டுப்படுத்தக்கூடிய chatbot ஐ ஒரு மணி நேரத்திலும் குறைவிலும் இயக்கு முடியும். இது 2025. நீங்கள் விரைந்து உள்ளூர் AI பெறுமிடும்.

குறிப்பு: கட்டளைகளை சரிபார்க்கவோ டெர்மினல் படிகளை மற்றும் ஆவணங்களை ஒரே இடத்தில் இணைக்கவோ நீங்களே விரும்பினால், Sider.AI ஒரு தெளிவான, கிளிக்கக்கூடிய நடைமுறை வரைபடத்தை உருவாக்க உதவும். நீங்கள் பதிவு இழக்காமல் அனைவரும் முழுமையாக்க குழுவின் உதவியளிக்கும் நண்பனாகப் பாருங்கள்.

உங்கள் பாதையைத் தேர்வு செய்வது: 5 சிறந்த LLaMA.cpp பாடங்கள் (பயன்பாட்டு வழக்கில்)

1) “நான் பிஸியாக இருக்கிறேன் என்று கற்றுக்கொடு” பாடம் (ஆரம்பத்திற்கானது, பல வலைத்தளங்களுக்கு)

நீங்கள் விரைந்து முதல் கேள்விக்குச் செல்ல சிறந்த LLaMA.cpp பாடங்களைத் தேடினால், வழிகாட்டிகள்:

GGUF மாதிரிகள் மற்றும் GGML இடையே வேறுபாடு விளக்குங்கள் (குறிப்பு: GGUF என்பது LLaMA.cpp இல் பயன்படுத்தப்படும் நவீன வடிவம்)

லயசென்ஸுக்கு முரணாகாமல் ஒரு குவாண்டைசிங் மாதிரியை எவ்வாறு பதிவிறக்குவது காட்டுங்கள்

Mac, Windows மற்றும் Linux க்கான காப்பிட/ஒட்ட கட்டளைகள் கொடுங்கள்

முதல் இயக்கத் துவக்க உதாரணம் main -m ... -p "Hello" அல்லது சர்வர் மோடு அடங்கட்டும்

ஒரு சிறந்த ஆரம்ப பாடத்தில் நீங்கள் காண வேண்டிய செய்முறை:

நிறுவுக: “macOS இல்: brew install cmake; brew install llvm; git clone; make” அல்லது “cmake -B build -D...; cmake --build build -j”.

மாதிரி: “அங்கீகரிக்கப்பட்ட மூலத்திலிருந்து 7B GGUF மாதிரியை பதிவிறக்கவும்.”

இயக்கு: ./main -m ./models/llama-7b.Q4_0.gguf -p "காப்பி பற்றி ஹைகூ எழுதுக."

விருப்ப சர்வர்: ./server -m ./models/llama-7b.Q4_0.gguf --port 8080

தவிர்க்க வேண்டிய சிவப்பு கொடி குறியீடுகள்:

இன்னும் GGML மட்டும் பயன்படுத்தும் வழிகாட்டிகள் (அந்த கப்பல் சென்றுவிட்டது)

லயசென்ஸ் மற்றும் மாதிரி மூலங்களைக் குறிப்பிடாதவை

Metal/CUDA/ROCm க்கான GPU குறிப்புகள் இல்லை

இதற்குக் காரணம்: எளிய அமைப்பு, சோதிக்கப்பட்ட கட்டளைகள் மற்றும் உடனடி பலன். நீங்கள் நிமிடங்களில் உங்கள் மாதிரியுடன் பேசுகிறீர்கள்.

2) “MacBook, Metal உணர்க” பாடம் (macOS GPU துருக்கோட்டை உடன்)

M1/M2/M3/M4 Mac உங்களிடம் உள்ளதா? Metal உடன் தொகுப்பது மற்றும் GPU அடுக்குகளை பயன்படுத்துவது எப்படி என்பதை காட்டும் சிறந்த LLaMA.cpp பாடத்தைத் தேர்ந்தெடுப்பீர்கள். நடவடிக்கைகள் இதுபோன்றவாக இருக்கும்:

brew install cmake மற்றும் Xcode கட்டளை வரி கருவிகள்

LLAMA_METAL=1 make அல்லது Metal இயக்கு கட்டமைப்புக் கொடிகள்

GPU அடுக்குகளை இயக்குவது: --n-gpu-layers 35 (மாதிரி அளவைப் பொறுத்தது)

செயற்பாட்டு முடிவுகள்: உங்கள் பனியை போராட்டம் எழுப்பாதாற்சொல்ல --threads -ஐ $(sysctl -n hw.ncpu) - 1 ஆக அமைக்கவும்

சகுக்கான விளக்கங்கள்:

உங்கள் மேக் க்கான எத்தனை GPU அடுக்குகளை ஆதரிக்க முடியும் என்ற தெளிவான விளக்கம்

பலனின்ப்பாராட்டுகள் அல்லது குறைந்தது “நன்று என்பது எப்படி” பகுதி

--flash-attn பயன்படுத்துவது குறித்த குறிப்புகள் (உங்கள் உருவாக்கத்தில் ஆதரவு இருந்தால்)

இதற்குக் காரணம்: உங்கள் லேப்டாப் ஒரு சிறிய AI ஸ்டூடியோ ஆகிறது, வெப்ப உற்பத்தி இயந்திரமல்ல.

3) “Windows வீரர்” பாடம் (நேடிவ் அல்லது WSL)

Windows இல், பழைய வழிகாட்டிகள் கடுமையாக இருக்கலாம். சிறந்த LLaMA.cpp பாடங்களைத் தேடுங்கள், அவை:

நேடிவ் MSVC கட்டமைப்பு மற்றும் WSL வீணாய்வு இரண்டையும் வழங்கும்

NVIDIA GPU இருந்தால் CUDA படிகள் உள்ளடக்கப்படும்

PowerShell மற்றும் கட்டளை வரி வேறுபாடுகளை விளக்குவது (பாதைகள், மேற்கோள்கள்)

நன்று என்பது:

git clone ரெப்போ, CMake/Visual Studio கட்டுமான கருவிகள் நிறுவுக

cmake -B build -DCMAKE_BUILD_TYPE=Release பிறகு cmake --build build --config Release

CUDA கட்டமைப்பு கொடிகள்: -DLLAMA_CUBLAS=ON வேண்டுமானால்

குவாண்டைசாஸான மாதிரியுடன் இயக்குதல்: .uild\bin\Release\main.exe -m .\models\llama-7b.Q4_0.gguf -p "பத்துக்கள் விளக்குக."

இதற்கு காரணம்: குறைவான கணிப்பு, அதிக டாகோச்கள்.

4) “Linux வார இறுதி திட்டம்” பாடம் (Ubuntu/Arch/Fedora)

Linux யில், சிறந்த LLaMA.cpp பாடங்கள்:

ஏற்கனவே நிறுவப்பட்ட காரியகருவிகளை apt, pacman, dnf போன்றவற்றை பயன்படுத்தியுள்ளன

cmake கட்டமைப்பும் விருப்ப CUDA/ROCm கொடிகளும் கொண்டு

ulimits மற்றும் நினைவக வரம்புகளை குறிப்பிடுகிறன (பெரிய மாதிரிகள் பெரிய ஆசைகள்)

விடிவிக்குமுறை:

sudo apt-get install build-essential cmake (Ubuntu)

cmake -B build -DGGML_CUDA=ON NVIDIA கார்காக அல்லது -DGGML_ROCM=ON AMD க்காக

./main -m ./models/llama-13b.Q4_0.gguf -p "2 வரிகளில் Ted Lasso சுருக்குக."

இதற்கு காரணம்: Linux தெளிவான கொடிகளை விரும்புகிறது. நீங்கள் FPS ஐ விரும்புவீர்கள்.

5) “Transformer கலைஞர்கள்” பாடம் (மேம்பட்டது: குவாண்டைசிங் மற்றும் நெருக்கமான பயிற்சி)

நீங்கள் கற்றுக்கொள்ள தயாரானபோது, சிறந்த LLaMA.cpp பாடங்கள்:

மாதிரிகளை GGUF க்கு மாற்றவும், Q4, Q5, Q8 ஆகியவற்றில் தேர்வு செய்யவும் (அளவு மற்றும் தரம்)

குறைந்த வரிசை தகுதி (LoRA) இணைய்தொடர்புகளை இயக்கவும்

server முறையுடன் API மூலம் மாதிரியை வழங்கவும், OpenAI-ஐப்போன்ற முகவரிகள் அமைக்கவும்

நொடி-ஒரு-வினாடியில் அளவீட்டு மாற்றங்கள் செய்யவும், வேகம் மற்றும் துல்லியத்திற்கான ஒருமைப்படுத்தல் செய்யவும்

நீங்கள் காண்பீர்கள்:

convert.py மாதிரி வடிவங்கள் மாற்றக்கூடிய நிரல்கள்

quantize பைனரிகள் FP16 இலிருந்து *.gguf உருவாக்க

--ctx-size, --temp, --top-k, --top-p, மற்றும் --mirostat அமைப்புகளுக்கான ஆவணங்கள்

இதற்கு காரணம்: நீங்கள் “இச running னது” என்பதை “நன்றாக இயங்கக்கூடியது” ஆக மாற்றுகிறீர்கள்.

நடைமுறை அங்காடி பட்டியல்: ஒரு சிறந்த பாடம் உங்களுக்கு என்ன நிறுவ சொல்லும்

CMake மற்றும் C/C++ தொகுப்பான் (clang, MSVC, gcc)

Git (நீங்கள் 1999 போல கிளோன் செய்கிறீர்கள் என்பதால்)

விருப்பமானது: NVIDIA க்கான CUDA கருவிகள், macOS இல் Metal இயக்கு, AMD க்கான ROCm

பயதான், பயிற்சியில் மாற்ற நிபந்தனைகள் இருந்தால்

சட்டபூர்வமான, அனுமதியளிக்கப்பட்ட GGUF வடிவில் மாதிரிகள் (எங்கே தேடுவது என்று நாமே பேசுவோம்)

தொழில்சார் அறிவுரை: சிறந்த LLaMA.cpp பாடங்கள், 70B மாதிரியை பதிவிறக்கும் முன் உங்கள் RAM மற்றும் vRAM ஐ சரிபார்க்க எச்சரிக்கும், அது அழகான குட்டி பூனையைப் போல மண்மேன் அல்ல, அது முழுவதும் வளர்ந்த புலி, காலை உணவாக நினைவகத்தை சாப்பிடும்.

செயல்படுத்த தயாரான கட்டளைகள் சிறந்த LLaMA.cpp பாடங்களில் காணப்படும்

கட்டுமானத்துக்கு பிறகு வழக்கமான முதல் ஓட்டத்திற்கான கட்டளைகள்:

CPU மட்டுமே விரைந்து சோதனை:

./main -m ./models/llama-7b.Q4_0.gguf -p "பிழைதிருத்தல் பற்றி லிமெரிக் எழுதுக."

GPU அடுக்குகளுடன் (macOS Metal அல்லது CUDA):

./main -m ./models/llama-7b.Q4_0.gguf --n-gpu-layers 35 -p "நான் மதிய உணவுக்கு தாமதமாகுகிறேன் போலவே வெகுமதி தரவுத்தளங்களை விளக்குக."

உள்ளூர் சர்வர் துவங்குக (OpenAI போன்ற API):

./server -m ./models/llama-7b.Q4_0.gguf --host 127.0.0.1 --port 8080 --ctx-size 4096

உரையாடல் UI முறை (சில கட்டுமானங்களில் எளிய இன்டராக்டிவ் உரையாடல் அடங்கும்):

./main -m ./models/llama-7b.Q4_0.gguf -ins -p "நீங்கள் உதவியாளர்." -r "பயனர்:" -r "உதவியாளர்:"

சிறந்த பாடம் விளக்கும் என்று எதிர்பார்க்கவும்:

சூழல் நீளம் (--ctx-size), வெப்பநிலை (--temp), மாதிரிவுப்பதிவுகள் (--top-k, --top-p)

Q4_0 அல்லது Q5_K_M போன்ற குவாண்டைசிங் வேகத்திற்கும் தரத்திற்கும் ஏன் முக்கியம்

உங்கள் மாதிரி உங்கள் கிடைக்கும் உறவுகிற சொந்தமான டாட்டாவை ஆரவாரமாகத் தவிர்க்க எப்படி

மாதிரி மூலங்கள்: சட்டப்படியும் குழப்பப்படாத பகுதி

சிறந்த LLaMA.cpp பாடங்கள் நினைவூட்டும்:

சட்ட அனுமதி பெறப்பட்ட மாதிரிகளை பயன்படுத்துங்கள். பலரும் பண்பாட்டு டியூன் செய்யப்பட்ட, குவாண்டைசிங் செய்யப்பட்ட GGUF பதிப்புகளை வழங்குகிறார்கள்.

மாதிரிக் கார்டில் அனுமதி, மதிப்பீடு புள்ளி, பரிந்துரைக்கப்பட்ட குவாண்டைசிங் பார்க்கவும்.

7B அல்லது 8B மாதிரிகளுடன் துவங்குங்கள், உங்கள் இயந்திரம் GPU டிராகன் ஆக இருக்கவில்லை என்றால். சிறிய மாதிரிகள் = வேகமான டோக்கன்கள்.

தொழில்முறை வலம்: உங்கள் மாதிரிகளை தெளிவான பெயர்களுடன் ./models கோப்பகத்தில் வைக்கவும்: llama-7b.Q4_0.gguf, llama-13b.Q5_K_M.gguf. எதிர்கால நீங்கள் கடந்த கால உங்களுக்கு நன்றி கூறுவார்.

இரக்கமின்றி செயல்திறன்: நிஜமான அமைப்புகள்

தைகள்: இயல்பான செயல்படுத்தல் கேர் எண்ணிக்கைக்கு அமைக்கவும் (அல்லது பாடம் வழிகாட்டும்). அதிகமாக இருந்தால் உங்கள் முக்குட்டிகள் போராட்ட பாடத்தை பாட்டு பாடும்.

GPU அடுக்குகள்: அதிக அடுக்குகள் வேகத்தை அதிகரிக்கும், வரை உங்கள் vRAM வரம்புகளை அடையும் பொழுதுவரை.

சூழல் அளவு: 2K–4K லேப்டாப் நிலை ஹார்ட்வேர் க்கான சிறந்த அளவு. பெரிய சூழல்கள் நினைவகத்தை அதிகமாக பயன்படுத்துகின்றன.

மாதிரிப்பதிவு: கடுமையான பணிகளுக்கு குறைந்த வெப்பநிலை, படைப்பாற்றலுக்கு அதிக வெப்பநிலை. top-k மற்றும் top-p வெளியீட்டை ஒழுங்குப்படுத்த உதவும்.

ஒரு சிறந்த பாடத்தில் “வேகமான”, “சமநிலை”, மற்றும் “தரம்” ஆகிய வெவ்வேறு முன்மொழிவுகளுக்கான கட்டளை வரிசைகள் காட்டப்படுகின்றன. அது காப்பி ஆர்டர் செய்வது போல, ஆனாலும் குறைவான தடர்ப்புதிய பார்டிஸ்ஸ்கள் இருந்தாலும்.

சிக்கல் தீர்த்தல்: ஏனெனில் பிரச்சனைகள் நடக்கும்

சிறந்த LLaMA.cpp பாடங்கள் விரைவில் தீர்க்கும் சிக்கல்கள்:

"இதை கட்ட முடியவில்லை": CMake பதிப்பு, தொகுப்பான் பதிப்பு மற்றும் நீங்கள் git submodule update --init --recursive ஓட்டியிருக்கிறீர்களா என்பதை சரிபார்க்கவும்.

"CUDA பிழைகள்": இயக்குநர்/கருவி பதிப்புகளை சரிபார்க்கவும். பிரச்சனைகளை வெவ்வேறு செய்ய CPU மட்டும் தொகுப்பை முயற்சி செய்யவும்.

"நினைவக இழப்பு": சிறிய குவாண்டைசிங்கிற்கு மாற்றவும் (Q4), GPU அடுக்குகளை குறைக்கவும் அல்லது குறைவான மாதிரியை தேர்வுசெய்யவும்.

"விதிவிலக்கான வெளியீடு": வெப்பநிலையை குறைக்கவும், top-k அதிகரிக்கவும், வேறு குவாண்டைசிங் கோப்பினை முயற்சிக்கவும்.

"மெல்லிய டோக்கன்கள்": GPU ஒஃப்லோடு பயன்படுத்தவும், Chrome தாவல்களை மூடவும், மற்றும் Release கட்டுமானங்களை உறுதிப்படுத்தவும், Debug அல்ல.

ஒரு பாடம் சிக்கல் தீர்க்கும் பகுதியை தவிர்க்கிறதெனில், கீழே செல்லவும். உங்கள் நிலை சிறந்ததாக இருக்க வேண்டும்.

வடிவ இனிமைகள்: ஏன் GGUF உங்கள் நண்பன்

சிறந்த LLaMA.cpp பாடங்கள் முக்கியத்தைக் காட்ட மறைக்க மாட்டார்கள்: GGUF புதிய LLaMA.cpp கட்டமைப்புகளுக்கு வடிவமைக்கப்பட்டுள்ளது—சுயமாக்கப்பட்ட மேட்டா தரவு, நட்பான ஏற்றல், எதிர்கால நம்பகத்தன்மை. ஒரு பாடம் GGML மட்டுமே பரிந்துரைத்தால், அதனை வரலாற்று படைப்பு என்று கருதுங்கள்—அழகானது ஆனால் 2025 இல் தேவையில்லை.

தெளிவான படிகள் தேடுங்கள்:

GGUF நேரடியாக பதிவிறக்கவும்

விருப்பமானது: provided scripts வழியாக safetensors அல்லது FP16 checkpoint இல் இருந்து மாற்றவும்

quantize கருவிகள் பயன்படுத்தி Q4_0, Q5_K_M போன்றவை உருவாக்கவும்.

வேகமான வாங்கும் வழிகாட்டி: 60 வித்தியாசத்தில் ஒரு பாடத்தை எவ்வாறு மதிப்பிடுவது

நவீனத்தன்மை தேதி: கடந்த 6–9 மாதங்களில் புதுப்பிக்கப்பட்டது

OS பரப்பு: குறைந்தது Mac மற்றும் Windows, உத்தமம் Linux உடன்

மாதிரி உதாரணங்கள்: 7B மற்றும் 13B GGUF உடன்

GPU வழிகாட்டி: Metal/CUDA கொடிகள் செயல்படுகின்றன

நகல்/ஒட்ட பகுதிகள்: ஒவ்வொரு கொடிக்கும் விளக்கங்கள் உடன்

லயசென்ஸ் குறிப்புகள்: மாதிரிகளை சட்டபூர்வமாக எங்கு பெறுவது

சிக்கல் தீர்த்தல்: தவிர்க்க முடியாது

இவை இருந்தால், அது உங்கள் சிறந்த LLaMA.cpp பாடமாகும்—இணைச்சொற்கள் மற்றும் கிளவுச்சுடன் அல்ல.

பூஜ்ஜியத்திலிருந்து உரையாடல் பொறியியலாளராக: நீங்கள் நகலேற்றக்கூடிய ஒருங்கிணைந்த நடைமுறை

சுருக்கமான, மேடை-ஆர்வம் இல்லாத நடைமுறையை இங்கே காணுங்கள்—சிறந்த LLaMA.cpp பாடங்கள் இதைப் பின்பற்ற வேண்டும். OS அடிப்படையில் கட்டளைகள் சரிசெய்க.

கோடுகளைப் பெறுக

git clone
cd llama.cpp
git submodule update --init --recursive

அதை கட்டவும் (CPU அடிப்படையாக)

cmake -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j

விருப்ப GPU கட்டமைப்புகள்

macOS Metal:

LLAMA_METAL=1 cmake -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j

NVIDIA CUDA:

cmake -B build -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build -j

GGUF மாதிரியை (சட்டப்பூர்வ மூலமும் 7B Q4_0 முதல்) பதிவிறக்கவும். அதை ./models இல் வையுங்கள்.

முதல் ஓட்டம்

./build/bin/main -m ./models/llama-7b.Q4_0.gguf -p "5 வயது குழந்தைக்கு AI-ஐ விளக்கும் 3 வழிகள் சொல்லவும்."

GPU அடுக்குகளுடன் வேகமாக

./build/bin/main -m ./models/llama-7b.Q4_0.gguf --n-gpu-layers 35 -p "கடல் கொள்ளைபிதா பாணியில் காய்கறிகள் பட்டியல் எழுதுக."

API வழங்கவும்

./build/bin/server -m ./models/llama-7b.Q4_0.gguf --port 8080 --ctx-size 4096

நேர்மறையாக மாற்றம் செய்யவும்

வாய்மை பணிகளுக்கு வெப்பநிலை குறைக்கவும்: --temp 0.2

மீண்டும் மீண்டும் திட்டத்தைத் தவிர்க்க: --repeat-penalty 1.1 முயற்சி செய்யவும்

மேலான நினைவகம்: --ctx-size 4096 (RAM பார்த்து பணியாற்றுக)

இந்த நடைமுறையை கடைப்பிடியுங்கள். இது உங்கள் அவசரப் பிருவம் ஆகும்.

தொழில்திறன் அடுக்கு: LLaMA.cpp ஐ செயலிகள் மற்றும் நீட்டிப்புகளுடன் பயன்படுத்துதல்

உள்ளூர் நோட்புக்: உங்களைப் பிடித்த நோட்புக் மற்றும் சர்வர் முகவரியின் கூட்டணி மூலம் கேள்வி மற்றும் தரவுக் கணக்கீடுகளை எழுதுங்கள்.

உரையாடல் UI கள்: பல் சமூக UI கள் LLaMA.cpp சர்வரை தொலைக்காட்சியுடன் இணைக்க முடியும்—GGUF ஐ ஆதரிக்கும் மற்றும் பிஎச்டி தேவையில்லாதவற்றில் ஒன்றைத் தேர்ந்தெடுக்கும்.

தானியக்கப்படுத்தல்: சாதாரண ஸ்கிரிப்ட்களை உருவாக்கி சர்வர் முகவரிக்கு கேள்விகள் அனுப்பி முடிவுகளை நோட்ட்களில் சேமிக்கவும்.

குறிப்பு: Sider.AI இங்கு உதவியாக இருக்க முடியும். உங்கள் கட்டளை படிகளை மற்றும் மாதிரி குறிப்புகளைச் சேர்த்து கிளிக்கக்கூடிய ரன்புக் உருவாக்குவார். இது டெர்மினல் கட்டளைகளுக்கான GPS போல—“திருத்திக் கொண்டே இருக்கிறது” பிரச்சனையின்றி.

பாதுகாப்பும் தனியுரிமையும்: ஏன் உள்ளூர் இயங்குதல் இன்றும் முக்கியம்

உள்ளூர் இயக்குவது மட்டும் பார்வை அல்ல. அது தனிப்பட்டது, வேகமானது, மற்றும் ஆஃப்லைனிலும் வேலை செய்கிறது. சிறந்த LLaMA.cpp பாடங்கள் இது குறித்து குறிப்பிடும்:

மாதிரி மூலத்தை நீங்கள் நம்பவில்லை எனின் சென்சிடிவ் தரவுகளை கேள்விகளில் குறைக்கவும்

உங்கள் இயந்திரத்தை புதுப்பிக்கவும் (டிரைவர்கள், OS, GPU கருவிகள்)

உங்கள் அமைப்புகளை பதிவு செய்யவும், எதிர்கால நீங்கள் இரவு 2 மணிக்கு உங்கள் சொந்த திறமையை மறுபரிசீலனை செய்ய வேண்டாம்.

மேம்பட்ட தொகுதிகள் சிறந்த பாடங்கள் நினைவில் வைத்திருக்க:

டோக்கனாக்கல் முக்கியம்: மோதுபடும் டோக்கனர்கள் வித்தியாசமான நடத்தை உண்டாக்கும்—GGUF உடன் வரும் டோக்கனரை மட்டுமே பயன்படுத்தவும்.

தொகுதி அளவு: அதிகப்படுத்த --batch-size (சர்வர் முறைக்கு), ஆனால் RAM பார்த்து பணியாற்றவும்.

முன்கூட்டிய குறிச்சொற்கள் மற்றும் ஃபிளாஷ் அட்டென்ஷன்: உங்கள் கட்டமைப்பு கிடைக்கும் போது, வேகத்தைக் கூடுதலாக அதிகரிக்க உதவும்.

கேள்வி வடிவமைப்பு: வழிகாட்டப்பட்ட மாதிரிகள் system/user/assistant அமைப்புகளை எதிர்பார்க்கின்றன. மாதிரி கார்டின் டெம்ப்ளேட்டை பின்பற்றவும்.

வास्तவமான ஹார்ட்வேர் குறிப்பு பட்டியல்

முதலீட்டு லேப்டாப் (8–16GB RAM, தனிய GPU இல்லை): 7B Q4_0 இயங்கும்; 13B தொலைவானது.

M-மேலை MacBook Pro: 7B மற்றும் 13B Metal துருக்கோட்டுடன் பிரகாசிக்கும். 33B நீங்கள் ஆவுடையானவர் என்றால்.

நடுத்தர NVIDIA GPU கொண்ட டெஸ்க்டாப் (8–12GB vRAM): 13B Q4_0 நல்லது; 33B கவனமாக அமைக்கும் பொழுது சாத்தியது.

வேலைநிறுத்தி GPU கள் (24GB+): பெரிய மாதிரிகளை இயக்கவும் அல்லது பல மாதிரிகளை வினோதமாகவும், ரசிப்புடனும் இயக்கவும்.

ஒரு பாடம் ஹார்ட்வேர் நிஜத்தை புறக்கணித்தால், அது சிறந்த LLaMA.cpp பாடங்களில் ஒன்றல்ல. அடுத்து செல்லவும்.

அனைத்தையும் ஒன்றாக சேர்த்தல்: உங்கள் சிறந்த LLaMA.cpp பாடத்தை எப்படி தேர்ந்தெடுக்க வேண்டும்

மூன்று கேள்விகளை கேளுங்கள்:

நான் OS மற்றும் ஹார்ட்வேர் க்கு ஏற்றதா?

ஒரு மணி நேரத்திற்கு குறைவில் வேலை செய்யும் கேள்விக்குச் சென்றுவிடுமா?

மாதிரி வடிவங்கள் மற்றும் பாதுகாப்பான மாதிரி மூலங்களைக் குறிக்கிறதா?

ஆம் என்றால், வாழ்த்துக்கள்—நீங்கள் உங்கள் அமைப்புக்கான சிறந்த LLaMA.cpp பாடங்களை கண்டுபிடித்துவிட்டீர்கள். அதை பிடித்து வைத்துக் கொண்டு, உங்கள் “AI க்ளிப்பி போலதா?” என்று கேட்கிற நண்பருக்கு பகிர்ந்து, அவர்கள் ஸ்கிரின்ஷாட்களை அனுப்புவதை நிறுத்த வைக்கவும்.

இறுதி சொல்லல்: உங்கள் லேப்டாப் ஸ்க்ரோல் செய்வதைவிட அதிகம் செய்யக்கூடியது

LLaMA.cpp உங்கள் கணினியை மதிப்புக்குரிய AI ஆய்வகமாக மாற்றுகிறது, மேகி விசை தேவையில்லை. சிறந்த LLaMA.cpp பாடங்கள் பெருமை காட்டுவதில்லை—தெளிவான படிகள், உண்மை கட்டளைகள் மற்றும் உங்களை உணர வைக்கும் செயல்திறன். சிறியதிலிருந்து துவங்கி, விரைவில் திருத்தி மற்றும் உங்கள் மாதிரிகளை பட்டியலிடும் வழியில் செய்க.

உங்கள் கருவியில் உதவியாளராக செல்ல விரும்பினால், Sider.AI உங்களுக்கு கொடிகளைக் குழப்பாமல் பின்தொடரவும், எது வேலை செய்தது கண்காணிக்கவும், ஓட்டங்களை ஒப்பிட உதவும். உங்கள் பூனை உங்கள் விசைப்பலகையில் அமருவதை நிறுத்தவில்லை, ஆனால் உண்மையில், எந்ததும் நிறுத்தாது.

இப்போது உங்கள் லேப்டாப்பை அந்த பனி சப்தத்திற்கு உரியவாறு ஈட்டுங்கள்.

அடிக்கடி கேட்கப்படும் கேள்விகள்

Q1: ஆரம்பக்காரர்களுக்கான சிறந்த LLaMA.cpp பாடங்கள் எவை? உட்கட்டுமானம், மாதிரி பதிவிறக்கம் (GGUF) மற்றும் முதல் கேள்வி வரை Mac, Windows மற்றும் Linux க்கான காப்பி/ஒட்ட கட்டளைகளுடன் வழிநடத்தும் வழிகாட்டிகளை தேர்வு செய்யுங்கள். சிறந்த LLaMA.cpp பாடங்கள் சிக்கல்களைத் தீர்ப்பதையும் சட்டபூர்வ மாதிரி மூலங்களையும் அடங்கும்.

Q2: LLaMA.cpp நன்கு இயக்க GPU அவசியமா? இல்லை, CPU மட்டும் வேலை செய்யும், குறிப்பாக 7B Q4_0 குவாண்டைசிங் மாதிரிகள் உடன். GPU (Metal, CUDA, அல்லது ROCm) வேகத்தை மேம்படுத்தும், சிறந்த LLaMA.cpp பாடங்கள் GPU அடுக்குகளை எவ்வாறு பாதுகாப்பாக இயக்கு என்பதைக் காட்டும்.

Q3: எந்த மாதிரி வடிவத்தை LLaMA.cpp க்காக பயன்படுத்த வேண்டும்? GGUF-ஐப் பயன்படுத்தவும்—அது தற்போதைய LLaMA.cpp கட்டமைப்ப்களால் ஆதரிக்கப்படுகிறது. சிறந்த LLaMA.cpp பாடங்கள் GGUF மற்றும் Q4, Q5 போன்ற குவாண்டைசிங் நிலைகள் வேகத்துக்கும் தரத்துக்கும் எப்படி முக்கியம் என்பதைக் விளக்கும்.

Q4: எனது உள்ளூர் மாதிரி வெளியீடு மிகவும் மெதுவா இருக்கிறது? கட்டமைப்பு வகை (Release), துறை எண்ணிக்கை மற்றும் GPU ஒஃப்லோடு அமைப்புகளை சரிபார்க்கவும். சிறந்த LLaMA.cpp பாடங்கள் சிறிய குவாண்டைசிங் மாதிரிகள், குறைந்த GPU அடுக்கு எண்ணிக்கை மற்றும் Chrome தாவல்களை மூடுவது பரிந்துரைக்கின்றன.

Q5: நான் LLaMA.cpp ஐ ஒரு API ஆக எவ்வாறு வழங்குவது? GGUF மாதிரியுடன் உள்ளமைக்கப்பட்ட சேவையக பயன்முறையைப் பயன்படுத்தி, --host, --port, மற்றும் --ctx-size ஆகியவற்றை அமைக்கவும். பல சிறந்த LLaMA.cpp பயிற்சிகளில், எளிதான பயன்பாட்டு ஒருங்கிணைப்புக்காக OpenAI-பாணி இறுதிப்புள்ளி எடுத்துக்காட்டு உள்ளது.