കാത്തിരിക്കൂ, നിങ്ങളുടെ ലാപ്ടോപിൽ ഒരു വലിയ AI മോഡൽ വേണോ? മനോഹരം. അത് യാഥാർത്ഥ്യത്തിൽ പ്രവർത്തിക്കാക്കാം.
നിങ്ങൾക്ക് ലോക്കൽ ആയിട്ട് AI മോഡൽ ഓടിക്കാൻ ശ്രമിച്ച് 12 അറിവില്ലാത്ത ടെർമിനൽ വിൻഡോകൾ, ഒരു കോപമുള്ള ഫാൻ, ആയി ലാപ്ടോപ്പ് പോലെ എയർപ്ലെയിന്്റെ സ്റ്റാർട്ടിനു ഒരുക്കം നടത്തുന്ന ശബ്ദം കേട്ടു കാണുമോ? എനിക്കും. അതുകൊണ്ടാണ് മികച്ച LLaMA.cpp പാഠങ്ങൾ തേടുന്നത് "കല്ക്കണം" എന്നതിനേക്കാൾ രക്ഷപ്പെടാനുള്ള ശ്രമമായി മാറിയത്. നിങ്ങൾക്ക് വേഗമേറിയത്, ലളിതമായത്, 2008 ലിൻക്സ് ഫോറം പോലെ രചിക്കാത്തതായതാകണം. നിങ്ങൾക്ക് LLaMA ലോക്കലായി സുരക്ഷിതമായി ഉപയോഗിക്കണം, നോമ്പോടെ.
എന്നാൽ ഞാൻ ഇന്റർനെറ്റിന്റെ AI ഗുഹകൾ തിരയിമറിച്ച് മികച്ച LLaMA.cpp പാഠങ്ങൾ കണ്ടെത്താൻ സമയം ചിലവഴിച്ചു—ആരംഭക്കാർക്കായി സൗഹൃദപരവും, ഇപ്പോഴത്തെത്തിയതുമായ, ലളിതമായ ഇംഗ്ലീഷിന് വിരുദ്ധമല്ലാത്തവയും. നമ്മൾ നിങ്ങളുടെ വഴി തിരഞ്ഞെടുക്കുന്നതെങ്ങനെ (മാക്, വിംഡോസ്, ലിനക്സ്), യഥാർത്ഥത്തിൽ ഉപയോഗിക്കുന്ന കമാൻഡുകൾ എന്തൊക്കെയെന്ന്, ശരിയായ മോഡലുകൾ എവിടെ നിന്നാണ് ലഭിക്കാവുന്നത്, ആഴ്ചാന്ത്യത്ത് പകര്ച്ചപടി ചെയ്യാതിരിക്കാനുള്ള മാർഗങ്ങൾ എന്നിവ കടന്നുപോയി നോക്കവേ.
കീവർഡിനെ കുറിച്ച് ശ്രദ്ധിക്കുക: ഞങ്ങൾ “മികച്ച LLaMA.cpp പാഠങ്ങൾ” എന്നതിനെ പിന്തുടരുകയാണ്. അത് നിങ്ങളുടെ ദിശാസൂചിക, ഭക്ഷണമേഖല, വിശ്വസ്ത സഹായി ആകും. ഞാൻ സ്വാഭാവികമായി അത് പ്രദർശിപ്പിക്കും, നിങ്ങൾ ഏറ്റവും ആവശ്യമുള്ളിടങ്ങളിൽ.
ചുരുക്കം: പാഠം തിരഞ്ഞെടുക്കുന്നതിന് മുമ്പ് 알아രു കാരണങ്ങൾ
- LLaMA.cpp = CPU-യിലും (GPU-യും ഉപയോഗിക്കും എന്നെങ്കിൽ) LLaMA കുടുംബ മോഡലുകൾ ലോക്കലായി ഓടിക്കാൻ സഹായിക്കുന്ന എളുപ്പമുള്ള C/C++ പ്രോജക്ട്. വിവർത്തനം: ലാപ്ടോപ്പുകൾക്ക് സുഹൃദു.
- മികച്ച LLaMA.cpp പാഠങ്ങൾ നിങ്ങളുടെ കൈ പിടിച്ച് നിൽക്കും: ആശ്രിതങ്ങൾ ഇൻസ്റ്റാൾ ചെയ്യുക, മോഡൽ പിടിക്കാം, അത് മാറ്റം/ക്വാണ്ടൈസിംഗ് ചെയ്യുക, ആദ്യ പ്രൊംപ്റ്റ് ഓടിക്കുക എളുപ്പത്തിൽ - ഒരു വിദഗ്ധ ഡിഗ്രിയില്ലാതെ.
- നിങ്ങളുടെ ഓപ്പറേറ്റിംഗ് സിസ്റ്റം പ്രധാനമാണ്. മാക് ഉപയോക്താക്കൾക്ക് മെറ്റൽ ആക്സലറേഷൻ, വിൻഡോസ് ഉപയോക്താക്കൾക്ക് WSL അല്ലെങ്കിൽ നേറ്റീവ് ബിൽഡുകൾ, ലിനക്സ് ഉപയോക്താക്കൾക്ക് അഭിമാനം മിക്കം. GPU? ഒപ്ഷണലും നല്ലതുമാണ്.
- “Q4_0,” “GGUF,” “ക്വാണ്ടൈസേഷൻ” പോലുള്ള പദങ്ങൾ കാണാം. ശ്വസിക്കുക. ഇവ മോഡലിന്റെ ചെറുതും വേഗമുള്ള പതിപ്പുകളാണ്.
- ഒരു കുറഞ്ഞ സമയത്തിനകം നിങ്ങൾക്ക് നല്ല ചാറ്റ് ബോട്ട് ഓടിക്കാൻ കഴിയും. 2025 ആണ്. നിങ്ങൾ വേഗതയുള്ള ലോക്കൽ AI-യ്ക്ക് യോഗ്യൻ.
തയുടെ കാര്യങ്ങൾ പരിശോധിക്കാനും ടെർമിനൽ കമാൻഡുകൾ ഒറ്റ സ്ഥലത്ത് ബന്ധിപ്പിക്കാനും നിങ്ങൾക്ക് ആഗ്രഹമുണ്ടെങ്കിൽ, Sider.AI സഹായിക്കും ഒരു പാഠം ക്ലിക്കുചെയ്യാവുന്ന ഫ്ലോ ആയി മാറ്റാൻ. അതെന്താണെന്ന് സൂക്ഷിക്കുക, നിങ്ങൾക്ക് ഐക്യ സ്ക്രൂ നഷ്ടപ്പെടുന്നതിന് മുമ്പെ ഐക്യ മാധ്യമം വിഭജിക്കുന്ന സുഹൃത്ത് പോലെ. നിങ്ങളുടെ വഴി തിരഞ്ഞെടുക്കൽ: മികച്ച 5 LLaMA.cpp പാഠങ്ങൾ (ഉപയോഗത്തിനനുസരിച്ച്)
1) “നിങ്ങൾ ജോലി തിരക്കിലാണ്” പാഠം (ആരംഭക്കാർക്ക്, ക്രോസ്-പ്ലാറ്റ്ഫോം)
നിങ്ങൾക്ക് വേഗത്തിൽ പൂരംപ്റ്റിലേക്ക് എത്തിക്കുന്ന മികച്ച LLaMA.cpp പാഠങ്ങൾ വേണെങ്കിൽ, ഇങ്ങനെ ഉള്ള ഗൈഡുകൾ തിരഞ്ഞെടുക്കുക:
- GGUF മോഡലുകൾ എങ്ങനെ GGML-വിനെതിരെ വ്യത്യാസപ്പെടുന്നു എളിപ്പെടുത്തുക (ലക്ഷ്യം: GGUF LLaMA.cpp-ന് ഉപയോഗിക്കുന്ന ആധുനിക ഫോർമാറ്റ് ആണ്)
- ക്വാണ്ടൈസ്ഡ് മോഡൽ നിയമം ലംഘിക്കാതെ എങ്ങനെ ഡൗൺലോഡ് ചെയ്യാമെന്നു കാണിക്കുക
- Mac, Windows, Linux ഒക്കെക്കായി കോപ്പി/പേസ്റ്റുചെയ്യാവുന്ന കമാൻഡുകൾ നൽകുക
- “പ്രഥമ ഓടിക്കൽ” ഉദാഹരണവുമായി
main -m ... -p "Hello" അല്ലെങ്കിൽ സെർവർ മോഡ് ഉൾപ്പെടുത്തുക
ഒരു വലിയ തുടക്കക്കാരന് പാഠത്തിൽ കാണേണ്ട ഉദാഹരണ പ്രവാഹം:
- ഇൻസ്റ്റാൾ ചെയ്യുക: "macOS-ൽ: brew install cmake; brew install llvm; git clone; make" അല്ലെങ്കിൽ "cmake -B build -D...; cmake --build build -j".
- മോഡൽ: “അധികൃത സ്രോതസ്സിൽ നിന്ന് 7B GGUF മോഡൽ ഡൗൺലോഡ് ചെയ്യുക.”
- ഓടിക്കുക:
./main -m ./models/llama-7b.Q4_0.gguf -p "കാപ്പി കുറിച്ചുള്ള ഒരു ഹായ്കു എഴുതുക."
- ഓപ്ഷണൽ സെർവർ:
./server -m ./models/llama-7b.Q4_0.gguf --port 8080
തടയേണ്ട റെഡ് ഫ്ലാഗുകൾ:
- ഇനിയും GGML മാത്രം ഉപയോഗിക്കുന്ന കൃതികൾ (അത് പഴക്കമാണ്)
- ലൈസൻസ് ഉദ്ധരണി ഇല്ലാതെയും മോഡൽ സ്രോതസ്സുകൾ കാണിക്കുന്നില്ലാതെയും
- Metal/CUDA/ROCm-ഓട്ട് GPU കുറിപ്പുകൾ ഇല്ലാതെയുള്ളത്
ഇത് എന്തുകൊണ്ട് പ്രവര്ത്തിക്കുന്നു: ലളിതമായ ഘടന, പരീക്ഷിച്ച കമാൻഡുകൾ, തൽഛഗൈത ഫലം. നിങ്ങൾ ഒരു മിനിറ്റിനുള്ളിൽ നിങ്ങളുടെ മോഡലുമായി സംസാരിക്കുന്നു.
2) “മാക്ബുക്ക്, മെറ്റൽ കണ്ടുമുട്ടുക” പാഠം (macOS GPU ആക്സലറേഷൻ)
M1/M2/M3/M4 മാക് ഉണ്ടോ? മെറ്റലുമായി കംപൈൽ ചെയ്യാനും GPU ലെയറുകൾ ഉപയോഗിക്കാനും ഏത് മികച്ച LLaMA.cpp പാഠം ശരിക്കും കാണിക്കുന്നു എന്നത് നോക്കുക. ഇത്തരത്തിലുള്ള ഘട്ടങ്ങൾ പ്രതീക്ഷിക്കുക:
brew install cmake കൂടാതെ Xcode കമാൻഡ് ലൈന്സും
LLAMA_METAL=1 make അല്ലെങ്കിൽ മെറ്റൽ সক্ষমമാക്കുന്ന ബിൽഡ് ഫ്ലാഗുകൾ
- GPU ലെയറുകൾ ഓടിക്കുന്നത്:
--n-gpu-layers 35 (മോഡലിന്റെ വലുപ്പത്തിൽ ആശ്രയം)
- പെർഫോർമൻസ് ടിപ്പുകൾ: ഫാൻ പ്രതിഷേധം ഒഴിവാക്കാൻ
--threads നെ $(sysctl -n hw.ncpu) - 1 ആയി ക്രമീകരിക്കുക
ഹരിതദീപങ്ങൾ:
- നിങ്ങളുടെ മാക് എത്ര GPU ലെയറുകൾ കൈകാര്യം ചെയ്യാമെന്ന് വ്യക്തമാക്കുക
- ബെഞ്ച്മാർക്ക് അല്ലെങ്കിൽ കുറഞ്ഞത് “അഭിനയം എങ്ങനെ ഉണ്ടാകണം” വിഭാഗം
- നിങ്ങളുടെ ബിൽഡിൽ
--flash-attn പിന്തുണ ഉണ്ടെങ്കിൽ അത് ഉപയോഗിക്കുന്നത് കുറിപ്പു
ഇത് എന്തുകൊണ്ട് ആണ് പ്രവർത്തിക്കുന്നത്: നിങ്ങളുടെ ലാപ്ടോപ് ഒരു ചെറിയ AI സ്റ്റുഡിയോ ആയി മാറുന്നു, സ്പേസ് ഹീറ്റർ അല്ല.
3) “വിംഡോസ് അല്ലാഹു” പാഠം (നേറ്റീവ് അല്ലെങ്കിൽ WSL)
വിംഡോസിൽ പഴയ ഗൈഡുകൾ ചിലപ്പോൾ... കഠിനമായി പോകും. മികച്ച LLaMA.cpp പാഠങ്ങൾ ഈ വശങ്ങൾ കാണിക്കും:
- നേറ്റീവ് MSVC ബിൽഡ് നിർദ്ദേശങ്ങളും WSL ബാക്ക്ഫാളും നൽകുക
- നിങ്ങളുടെ NVIDIA GPU ഉണ്ടെങ്കിൽ CUDA ഘട്ടങ്ങൾ ഉൾപ്പെടുത്തുക
- പവർഷെൽ മതി കമാൻഡ് പ്രോഞ്ചിന്റെ വ്യത്യാസങ്ങൾ വിശദമാക്കുക (പാത്തുകൾ, ഉദ്ധരണി)
എങ്ങനെ ശരിയായ ഈർപ്പം കാണാം:
git clone റെപ്പോ, CMake/Visual Studio Build Tools ഇൻസ്റ്റാൾ ചെയ്യുക
cmake -B build -DCMAKE_BUILD_TYPE=Release തുടർന്ന് cmake --build build --config Release
- CUDA ബിൽഡ് ഫ്ലാഗുകൾ, ഉദാ:
-DLLAMA_CUBLAS=ON (പ്രയോഗം ലഭ്യമായാൽ)
- ക്വാണ്ടൈസ്ഡ് മോഡലിൽ ഓടിക്കൽ:
.uild\bin\Release\main.exe -m .\models\llama-7b.Q4_0.gguf -p "ടാക്കോസ് വിവരിക്കുക."
ഇത് എങ്ങനെ വൈം? കുറവ് അനുമാനം, കൂടുതൽ ടാക്കോസ്.
4) “ലിനക്സ് ആഴ്ചാന്ത്യ പദ്ധതി” പാഠം (Ubuntu/Arch/Fedora)
ലിനക്സിൽ ആണെങ്കിൽ, മികച്ച LLaMA.cpp പാഠങ്ങൾ ഈ വശങ്ങള് കൈകാര്യം ചെയ്യണം:
- പാക്കേജ് മാനേജർ ഉപയോഗിച്ച് ആശ്രിതങ്ങൾ (apt, pacman, dnf) ഇന്സ്റ്റാൾ ചെയ്യുക
cmake ബിൽഡ് നിർദ്ദേശങ്ങളും CUDA/ROCm ഓപ്ഷനുകളും നൽകുക
- ulimts, മെമ്മറി നിയന്ത്രണങ്ങൾ (വലിയ മോഡലുകൾ, വലിയ ആവശ്യങ്ങൾ) കാട്ടുക
ഉദാഹരണ മാർഗം:
sudo apt-get install build-essential cmake (Ubuntu)
cmake -B build -DGGML_CUDA=ON NVIDIAയ്ക്കും -DGGML_ROCM=ON AMD ക്കും
./main -m ./models/llama-13b.Q4_0.gguf -p "ടെഡ് ലാസ്സോ 2 വരികളിൽ സംഗ്രഹിക്കുക."
ഇത് എന്തുകൊണ്ട് പ്രവർത്തിക്കുന്നു: ലിനക്സ് വ്യക്തമായ ഫ്ലാഗുകൾ ഇഷ്ടപ്പെടുന്നു. നമുക്ക് FPS ഇഷ്ടപ്പെടും.
5) “ട്രാൻസ്ഫോർമർ ടെങ്കേഴ്സ്” പാഠം (അഡ്വാൻസ്: ക്വാണ്ടൈസേഷൻ & ഫൈൻ-ട്യൂണിംഗ്)
നിങ്ങൾ റെഡിയാകുമ്പോൾ, ഏറ്റവും മികച്ച LLaMA.cpp പാഠങ്ങൾ കാണിക്കും:
- മോഡലുകൾ GGUF-യിലേക്ക് മാറ്റുന്നത്, Q4, Q5, Q8 ലെവലുകൾ തിരഞ്ഞെടുക്കൽ (വലുപ്പം, ഗുണമേന്മ)
- കുറഞ്ഞ റാങ്ക് അഡാപ്ഷൻ (LoRA) മർച്ചുകൾ ഓടിക്കുക
- API മുഖേന
server മോഡ് ഉപയോഗിച്ച് മോഡൽ സർവ്വ് ചെയ്യുക, OpenAI-സമാന എൻഡ്പോയിന്റുകൾ
- ടോക്കനുകൾ പ്രതിസെക്കന്റ് അളക്കൽ, വേഗത്തേയും കൃത്യതയേയും ക്രമീകരിക്കൽ
നിങ്ങൾ കാണാൻ പോകുന്നത്:
convert.py പോലുള്ള സ്ക്രിപ്റ്റുകൾ മോഡൽ ഫോർമാറ്റുകൾക്കായി
- FP16 മുതലുള്ള
*.gguf സൃഷ്ടിക്കാൻ quantize ബൈനറികൾ
--ctx-size, --temp, --top-k, --top-p, --mirostat സെറ്റിങ്ങുകളുടെ ഡോക്യുമെന്റേഷൻ
ഇത് എന്തുകൊണ്ട് പ്രവർത്തിക്കുന്നു: "അത് ഓടുന്നു" ത്തിൽ നിന്ന് "അത് നന്നായി ഓടുന്നു" യിലേക്കാണ് നിങ്ങൾ എത്തുന്നത്.
പ്രായോഗിക ഷോപ്പിംഗ് ലിസ്റ്റ്: മികച്ച പാഠം നിങ്ങളോട് പറയുന്ന ഇൻസ്റ്റാൾ ചെയ്യേണ്ടതുകള്
- CMake എഡ C/C++ കമ്പൈലർ (clang, MSVC, gcc)
- Git (കോണറൂപത്തിൽ 1999ലെ പോലെ ക്ലോൺ ചെയ്യാൻ)
- ഒപ്ഷണൽ: NVIDIA-ക്ക് CUDA ടൂൾക്കിറ്റ്, macOS-ൽ മെറ്റൽ, AMD-യ്ക്ക് ROCm
- പൈതൺ (കൺവേഴ്ഷൻ സ്ക്രിപ്റ്റുകൾ ഉപയോഗിക്കുന്ന പക്ഷം)
- നിയമാനുസൃതമായ, അംഗീകൃത GGUF ഫോർമാറ്റിലുള്ള മോഡൽ (എവിടെ നോക്കാമെന്നത് വിശദീകരിക്കാം)
പ്രൊ-ടിപ്പ്: മികച്ച LLaMA.cpp പാഠങ്ങൾ ഒരു 70B മോഡൽ ഡൗൺലോഡ് ചെയ്യുന്നതിന് മുമ്പ് നിങ്ങളുടെ RAM, VRAM പരിശോധിക്കണം എന്ന് മുന്നറിയിപ്പ് നൽകും. എങ്കിൽ അത് ഒരു കുഞ്ഞപ്പായ അല്ല, സകല ഫലം ജീർണ്ണീകരിക്കുന്ന പുള്ളിപ്പുള്ളി ആണ്.
മികച്ച LLaMA.cpp പാഠങ്ങളിൽ കാണുന്ന ഓടിക്കാൻ തയ്യാറുള്ള കമാൻഡുകൾ
ബിൽഡ് കഴിഞ്ഞ് സാധാരണ ആദ്യ ഓട്ടത്തിനായി:
- CPU മാത്രം വേഗം പരിശോധിക്കുക:
./main -m ./models/llama-7b.Q4_0.gguf -p "ഡിബഗ്ഗിംഗിനെപ്പറ്റി ഒരു ലിമെറിക്ക് എഴുതൂ."
- GPU ലെയറുകളോടുകൂടി (macOS Metal അല്ലെങ്കിൽ CUDA):
./main -m ./models/llama-7b.Q4_0.gguf --n-gpu-layers 35 -p "ഉച്ചഭക്ഷണത്തിന് വൈകുന്നു എന്ന് തോന്നുമ്പോൾ വെക്ടർ ഡാറ്റാബേസ് എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നു വിശദീകരിക്കുക."
- ലോകൽ സെർവർ ആരംഭിക്കുക (OpenAI ഇഷ്ട API):
./server -m ./models/llama-7b.Q4_0.gguf --host 127.0.0.1 --port 8080 --ctx-size 4096
- ചാറ്റ് UI മോഡ് (ചില ബിൽഡുകൾ ലളിതമായ ഇൻററാക്ടീവ് ചാറ്റ് ഉൾക്കൊള്ളുന്നു):
./main -m ./models/llama-7b.Q4_0.gguf -ins -p "നിങ്ങൾ ഒരു സഹായിയായിരിക്കുന്നു." -r "ഉപയോക്താവ്:" -r "സഹായി:"
ഒരു നല്ല പാഠം വ്യക്തമാക്കേണ്ടത്:
- കാണ്ഡകത്തിലുള്ള ദൈർഘ്യം (
--ctx-size), താപനില (--temp), സാമ്പിളിംഗ് ക്രമീകരണങ്ങൾ (--top-k, --top-p)
- എന്തുകൊണ്ട് Q4_0 അല്ലെങ്കിൽ Q5_K_M പോലുള്ള ക്വാണ്ടൈസേഷൻ വേഗത്തിലും ഗുണനിലവാരത്തിലും എങ്ങനെ ബാധിക്കുന്നു
- ഒരു മോഡൽ താന്നെ ആവർത്തിക്കുന്നത് എങ്ങനെ തടയാം (നിങ്ങളുടെ അത്യധികം ഉത്സാഹമുള്ള മുണ്ടൻപോലെ)
മോഡൽ സ്രോതസ്സുകൾ: നിയമ തള്ളാനിടയില്ലാത്ത വകുപ്പ്
മികച്ച LLaMA.cpp പാഠങ്ങൾ നിങ്ങൾക്ക് ഓർമ്മപ്പെടുത്തും:
- സാധുവായ ലൈസൻസുകൾ കീഴ്വഴക്കമുള്ള മോഡലുകൾ ഉപയോഗിക്കുക. പല മോഡലുകളും ഇൻസ്ട്രക്ഷൻ-ട്യൂൺ ചെയ്ത, ക്വാണ്ടൈസ്ഡ് GGUF പതിപ്പുകൾ നൽകുന്നു.
- ലിസൺസിംഗ് സ്റ്റാറ്റസ്, പരിശോധനാ കണക്കുകൾ, ശുപാർശ ചെയ്ത ക്വാണ്ടൈസേഷൻ മോഡൽ കാർഡിൽ പരിശോധിക്കുക.
- 7B അല്ലെങ്കിൽ 8B മോഡലുകളിൽ ആരംഭിക്കുക, നിങ്ങളുടെ യന്ത്രം GPU-ഡ്രാഗൺ അല്ലെങ്കിൽ എങ്കിൽ. ചെറിയ മോഡലുകൾ = വേഗം കൂടുതൽ ടോക്കനുകൾ.
പ്രൊ-മൂവ്: മോഡലുകൾ ./models ഫോൾഡറിൽ വ്യക്തമായ പേരുകളോടെ സൂക്ഷിക്കുക: llama-7b.Q4_0.gguf, llama-13b.Q5_K_M.gguf. ഭവിഷ്യത്ത് നിങ്ങള് തികച്ചും നന്ദിയോടെ കാണും.
ബോര്ണിന് വിപരീതം പ്രകടനം: യാഥാർത്ഥ്യ പരിമിതികൾ
- തുർ-നിഗ്ദ്ധം: ഫിസിക്കൽ കോറുകളുടെ എണ്ണം (അഥവാ പാഠം നിങ്ങളെ ഗൈഡ് ചെയ്യും) അനുസരിച്ച് ക്രമീകരിക്കുക. അതിരുമേൽക്കുമ്പോൾ നിങ്ങളുടെ ഫാൻ പ്രക്ഷേപണ ഗാനം തുടങ്ങും.
- GPU ലെയറുകൾ: കൂടുതൽ ലെയറുകൾ ഓഫ്ലോഡ് ചെയ്യുക = വേഗം കൂടി, എന്നാൽ VRAM പരിധി വരെ.
- കാണ്ടെക്സ്റ്റ് വലിപ്പം: 2K–4K ലാപ്ടോപ്പ് തലത്തിൽ ഉത്തമം. വലുതായാൽ RAM ഗമ്മി കാട്ടും.
- സാംപിൾ: ഗുരുതരമായ ജോലികൾക്കു താഴ്ന്ന താപനില, സൃഷ്ടിപരമായതിനേക്കാൾ ഉയർന്നത്.
top-k & top-p ഔട്ട്പുട്ട് മനസ്സിലാക്കാൻ സഹായം.
ഒരു നല്ല പാഠം വേഗം, ബാലൻസ്, ഗുണനിലവാരത്തിന് പ്രിസെറ്റ് കമാൻഡ് ലൈനുകൾ കാണിക്കും. കോഫി ഓർഡർ ചെയ്യുന്നതുപോലെയാണ്, പക്ഷെ കുറവായി നിരീക്ഷണമുള്ള ബാരിസ്റ്റകൾക്ക്.
ട്രബിൾഷൂട്ടിംഗ്: കാരണങ്ങൾ സംഭവിക്കും
ഇവയാണ് മികച്ച LLaMA.cpp പാഠങ്ങൾ തിരുത്തുന്ന കാര്യങ്ങൾ:
- "ഇത് ബിൽഡ് ചെയ്യില്ല": CMake പതിപ്പ്, കമ്പൈലർ പതിപ്പ്, നിങ്ങൾക്ക്
git submodule update --init --recursive റൺ ചെയ്തിരിക്കുന്നുണ്ടോ പരിശോധിക്കുക.
- "CUDA പിശകുകൾ": ഡ്രൈവർ/ടൂൾകിറ്റ് പതിപ്പുകൾ പരിശോധിക്കുക. പ്രശ്നം CPU മാത്രം ബിൽഡിൽ വേര്തിരിക്കുക.
- "മെമ്മറി തീർന്നു": ചെറിയ ക്വാണ്ടിലേക്കേക്ക് (Q4), കുറവ് GPU ലെയറുകൾ, അല്ലെങ്കിൽ ചെറിയ മോഡൽ തിരിക്കുക.
- "അസാധാരണ ഔട്ട്പുട്ട്": താപനില കുറയ്ക്കുക,
top-k ഉയർത്തുക, വേറെ ക്വാണ്ടൈസ് ചെയ്ത ഫയൽ പരിശോധിക്കുക.
- "വേഗം കുറവ് ടോക്കനുകൾ": GPU ഓഫ്ലോഡ് ഉപയോഗിക്കുക, Chrome ടാബുകൾ അടയ്ക്കുക (ക്ഷമിക്കണം), റീലീസ് ബിൽഡ് ഉറപ്പാക്കുക, ഡീബഗ് അല്ല.
ഒരു പാഠം ട്രബിൾഷൂട്ടിങ് വകഭാഗം ഒഴിവാക്കുകയാണെങ്കിൽ, താഴേക്ക് സ്രോളിംഗ് തുടരെ. നിങ്ങൾക്ക് കൂടുതൽ നല്ലതിനെ ലഭിക്കാൻ പോകാം.
ഫോർമാറ്റ് പ്രധാനമാണ്: എങ്ങനെ GGUF നിങ്ങളുടെ സുഹൃത്താണ്
മികച്ച LLaMA.cpp പാഠങ്ങൾ കാര്യങ്ങൾ മറയ്ക്കില്ല: GGUF ഒരു പുതിയത് LLaMA.cpp ബിൽഡുകൾക്കായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു—സ്വയം സംയോജിത മെറ്റാടേറ്റ, സുഹൃത്തായ ലോഡിംഗ്, ഭാവി സംരക്ഷണം. ഏതെങ്കിലും പാഠം GGML ന്റെみに ദിശയിൽ പോകുകയാണെങ്കിൽ, അത് ചരിത്ര വെസ്റ്റായായി കണക്കാക്കുക—സുന്ദരം, പക്ഷെ 2025-ൽ നിങ്ങൾക്കാവശ്യം ഇല്ല.
വ്യക്തമായ ഘട്ടങ്ങൾ തേടുക:
- GGUF നേരിട്ട് ഡൗൺലോഡ് ചെയ്യുക
- ഓപ്ഷണൽ: safetensors അല്ലെങ്കിൽ FP16 ചെക്ക്പോയിന്റിൽ നിന്നുള്ള കൺവേർട്ട് സ്ക്രിപ്റ്റുകൾ ഉപയോഗിച്ച്
quantize ഉപകരണങ്ങൾ ഉപയോഗിച്ച് Q4_0, Q5_K_M തുടങ്ങിയതായി ക്വാണ്ടൈസ് ചെയ്യുക
വേഗം വാങ്ങൽ ഗൈഡ്: ഒരു പാഠം 60 സെക്കൻഡിൽ എങ്ങനെ വിലയിരുത്താം
- പുതിയത്: കഴിഞ്ഞ 6–9 മാസങ്ങളിൽ പുതുക്കിയതായിരിക്കണം
- ഓ.എസ്. ഉപയോഗം: കുറഞ്ഞപക്ഷം മാക്, വിൻഡോസ്; ഐഡിയൽ ലിനക്സ്
- മോഡൽ ഉദാഹരണങ്ങൾ: 7B, 13B GGUF ഫോർമാറ്റിൽ
- GPU മാർഗ്ഗനിർദ്ദേശം: മെറ്റൽ/CUDA ഫ്ലാഗുകൾ ശരിക്കും പ്രവർത്തിക്കുന്നവ
- കോപ്പി/പേസ്റ്റ് ബ്ലോക്കുകൾ: ഓരോ ഫ്ലാഗിനും വിശദീകരണത്തോടെ
- ലൈസൻസ് കുറിപ്പുകൾ: നിയമം പാലിക്കുന്ന മോഡൽ ഉറവിടങ്ങൾ
- ട്രബിൾഷൂട്ടിങ്: നിർബന്ധമാണ്
ഇത് ഉണ്ടായാൽ, അത് മികച്ച LLaMA.cpp പാഠങ്ങളിൽ ഒരാളാണ്—കോറ്റേഷനുകളില്ല, ഒപ്പിടലുകളും ഇല്ല.
സീറോ മുതൽ ചാറ്റ് ബോട്ട് വരെ: നിങ്ങൾക്കായി ച stolen ടം ഫ്ലോ
ഇതാണ് ലഘുചിത്രീകൃതമായ, പ്ലാറ്റ്ഫോം-അഗ്നോസ്റ്റിക് വാക്ക്. ഓ.എസ് അനുസരിച്ച് കമാൻഡുകൾ ക്രമീകരിക്കുക.
git clone
cd llama.cpp
git submodule update --init --recursive
- അതിന്റെ ബിൽഡ് (CPU അടിസ്ഥാന)
cmake -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j
LLAMA_METAL=1 cmake -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j
cmake -B build -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build -j
- ഒരു നിയമാനുസൃതമായ GGUF മോഡൽ പിടിക്കുക (7B Q4_0- ആദ്യമെടുത്തത്). അത്
./models ലാക്കി ഇടുക.
./build/bin/main -m ./models/llama-7b.Q4_0.gguf -p "5 വയസ്സുള്ള കുഞ്ഞിന് AI എങ്ങനെ വിശദീകരിക്കാമെന്ന് മൂന്ന് മാർഗങ്ങൾ പറയൂ."
- GPU ലെയറുകളോടുകൂടാ വേഗത്തിൽ
./build/bin/main -m ./models/llama-7b.Q4_0.gguf --n-gpu-layers 35 -p "കടൽക്കച്ചവടം പട്ടിക pirate ഭാഷയിൽ എഴുതൂ."
./build/bin/server -m ./models/llama-7b.Q4_0.gguf --port 8080 --ctx-size 4096
- വాస్తവ കാര്യങ്ങൾക്ക് താഴ്ന്ന താപനില:
--temp 0.2
- ആവർത്തനങ്ങൾ ഒഴിവാക്കാൻ:
--repeat-penalty 1.1 പരീക്ഷിക്കുക
- നീണ്ട മെമ്മറി:
--ctx-size 4096 (RAM ശ്രദ്ധിക്കുക)
ഈ ഫ്ലോ ശ്രദ്ധിക്കുക. ഇത് നിങ്ങളുടെ അടിയന്തിര പതനപുരോഗതി ആണ്.
ഉല്പാദന ശേഷി ലെയർ: LLaMA.cpp ആപ്പുകളും എക്സ്റ്റൻഷൻസുമായുള്ള സംയോജനം
- ലോകൽ നോട്ട്ബുക്കുകൾ: നിങ്ങൾക്ക് ഇഷ്ടമുള്ള നോട്ട്ബുക്കുമായി സെർവർ എൻഡ്പോയിന്റ് ചേരുത്തി പ്രൊംപ്റ്റുകൾ ശേഖരിച്ച് ബെഞ്ച്മാർക്കുകൾ നടത്താം.
- ചാറ്റ് UIകൾ: നിരവധി കമ്മ്യൂണിറ്റി UIകൾ LLaMA.cpp സെർവറെ പിന്തുടരാം—GGUF പിന്തുണയുള്ള, PhD ആവശ്യമില്ലാത്ത ഒന്നിനെ തിരഞ്ഞെടുക്കുക.
- ഓട്ടോമേഷൻ: ലളിതമായ സ്ക്രിപ്റ്റുകൾ തയ്യാറാക്കിയുള്ളവ, പ്രൊംപ്റ്റുകൾ സെർവറിലേക്ക് അയച്ച് ഫലം കുറിപ്പുകളിലേക്ക് ഇടുന്നു.
ഗുരുതരമായി: Sider.AI ഇവിടെ സഹായിക്കും. നിങ്ങളുടെ കമാൻഡ് ഘട്ടങ്ങളും മോഡൽ കുറിപ്പുകളും വയ്ക്കുക, ക്ലിക്കുചെയ്യാവുന്ന റൺബുക്ക് ആക്കി ആക്കി മാറ്റാൻ. അതെ ഡ്യൂൽ നാവിഗേറ്ററിനെപ്പോലെ ആണ് – "പുനരന്വേഷണം" എന്ന പിഴവ് കൂടാതെ. സുരക്ഷയും സ്വകാര്യതയും: ലോക്കൽ എന്തുകൊണ്ട് ഇപ്പോഴും പ്രധാനമാണ്
ലോക്കലിലെ ഓടിക്കൽ ഒറ്റ ഒരു രുചിയല്ല. അതു സ്വകാര്യവുമാണ്, വേഗവുമാണ്, ഓഫ്ലൈൻ പ്രവർത്തിക്കും. മികച്ച LLaMA.cpp പാഠങ്ങൾ ഇതിനെ കുറിച്ച് പറയും:
- ഭരിക്കുന്ന ഡേറ്റ പ്രൊംപ്റ്റുകളിൽ കുറയ്ക്കുക, മോഡൽ ഉറവിടം കൃത്യമല്ലെങ്കിൽ
- നിങ്ങളുടെ യന്ത്രം അപ്ഡേറ്റ് ചെയ്തിരിക്കുന്നുവെന്ന് ഉറപ്പാക്കുക (ഡ്രൈവർ, OS, GPU ടൂൾകിറ്റ്)
- നിങ്ങളുടെ ക്രമീകരണങ്ങൾ രേഖപ്പെടുത്തുക, പരിഭവമുള്ള രാത്രിപ്രഭാ സമയം നിങ്ങളുടെ സ്വന്തം പ്രതിഭ പുനരവിഷ്കരിച്ചെടുക്കാൻ വേണ്ടി അല്ല.
മുകളിൽ പറഞ്ഞ മികച്ച പാഠങ്ങൾ മറക്കാതെ ചേർക്കുന്ന അഡ്വാൻസ്ഡ് ടീപ്പുകൾ
- ടോക്കണൈസേഷൻ പ്രധാനമാണ്: മോഡലിന്റെ GGUF-ന്റെ ടോക്കണൈസറിനോട് ഒത്തുനിൽക്കുക. അല്ലെങ്കിൽ അപ്രതിക്ഷിത പെരുമാറ്റം ഉണ്ടാകും.
- ബാച്ച് സൈസ്: വർധിപ്പിക്കുക
--batch-size ട്രൂഫ്ത്രൂക്കിന് (സർവർ മോഡ്), പക്ഷെ RAM ശ്രദ്ധിക്കുക.
- സ്പെകുലേറ്റീവ് ഡിസ്കോഡിംഗ്, ഫ്ലാഷ് അറ്റൻഷൻ: നിങ്ങൾക്ക് build പിന്തുണ നൽകുന്നത് എങ്കിൽ, കൂടാതെ വേഗത വർധിക്കും, അധിക മായാജാലമില്ലാതെ.
- പ്രൊംപ്റ്റ് ഫോർമാറ്റിംഗ്: ഇൻസ്ട്രക്ഷൻ-ട്യൂൺ ചെയ്ത മോഡലുകൾ സിസ്റ്റം/ഉപയോക്താവ്/സഹായി മാറ്റം പ്രതീക്ഷിക്കുന്നു. മോഡൽ കാർഡിലെ ഫോർമാറ്റ് പിന്തുടരുക.
യാഥാർത്ഥ്യ യന്ത്രസാധനങ്ങൾ ചീറ്റ്ഷീറ്റ്
- ആരംഭ ലാപ്ടോപ് (8–16GB RAM, GPU ഇല്ല): 7B Q4_0 ഓടും; 13B അഭിലാഷോദ്യമം.
- M-സീരീസ് മാക്ബുക്ക് പ്രോ: 7B, 13B മെറ്റൽ ഓഫ്ലോഡുമായി പാളപ്പെടും. 33B ധൈര്യമായി പരീക്ഷിക്കാനാകും.
- മിഡ്-ടിയർ NVIDIA GPU (8–12GB VRAM) ഡെസ്ക്ടോപ്പ്: 13B Q4_0 മനോഹരമാണ്; 33B ജാഗ്രതയോടെ സാധ്യമാണ്.
- വർക്ക്സ്റ്റേഷൻ GPUകൾ (24GB+): വലിയവ, അല്ലെങ്കിൽ ഒരുവട്ടം കലയ്ക്ക് models ഏകദേശം മോഷ്ടിക്കുക (പലപ്പോഴും വിനോദത്തിനാണ്).
ഒരു പാഠം യന്ത്രസാധന യാഥാർത്ഥ്യങ്ങൾ അവഗണിച്ചാൽ, അത് മികച്ച LLaMA.cpp പാഠങ്ങളിൽ ഒന്നല്ല. മുന്നോട്ട് പോയി.
എല്ലാം കൂടി: നിങ്ങളുടെ മികച്ച LLaMA.cpp പാഠം തിരഞ്ഞെടുക്കുക
മൂന്നു ചോദ്യങ്ങൾ ചോദിക്കുക:
- എന്റെ ഓ.എസ്.യും ഹാർഡ്വെയറിനും അനുയോജ്യമായതാണോ?
- ഒരു മണിക്കൂറിനുള്ളിൽ ഞാൻ പ്രവർത്തനപ്രാപ്തി നേടുമോ?
- മോഡൽ ഫോർമാറ്റുകൾ വിശദമാക്കുന്നു, സുരക്ഷിത മൊഡൽ ഉറവിടങ്ങളുണ്ടോ?
ഉത്തരം “അതെ” ആണെങ്കിൽ, അഭിനന്ദനങ്ങൾ—നിങ്ങൾക്കായി ഏറ്റവും മികച്ച LLaMA.cpp പാഠം കണ്ടെത്തി. ബുക്ക്മാർക്ക് ചെയ്യുക. പിന്നെ, എവിടെ “AI ക്ലിപ്പിയെപോലെയാണോ?” എന്ന് ചോദിക്കുന്ന ആ സുഹൃത്തിനും പങ്കിടൂ, അവൻ നിങ്ങളുടെ സ്ക്രീൻഷോട്ടുകൾ അയക്കുന്നത് അവസാനിപ്പിക്കാൻ.
അന്തിമ വാക്ക്: നിങ്ങളുടെ ലാപ്ടോപ് സ്ക്രോൾ ചെയ്യുന്നതിനു മങ്ങിയാണ്
LLaMA.cpp നിങ്ങളുടെ കമ്പ്യൂട്ടറിനെ ശക്തമായ AI ലാബായി മാറ്റുന്നു, ക്ലൗഡ് കിയുടെ ആവശ്യവുമില്ലാതെ. മികച്ച LLaMA.cpp പാഠങ്ങൾ അധികം അഭിമാനം പുലർത്താതെ അടുക്കള പോലുള്ള ഘട്ടങ്ങൾ, യഥാർത്ഥ കമാൻഡ്లు, പ്രകടനം എന്നിവയിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. വലുതാകാതെ തുടങ്ങുക, വേഗത്തിൽ ഭേദഗതി ചെയ്യുക, മോഡലുകൾ ശാന്തിയുടെ പേരിൽ ലേബൽ ചെയ്യുക.
നിങ്ങൾക്ക് സഹകരി വേണമെന്നെങ്കിൽ, അറിയുക: Sider.AI ഫ്ലാഗുകളും ട്രാക്കുകളും നിയന്ത്രിക്കാനും ഓടലുകൾ താരതമ്യം ചെയ്തും സഹായിക്കും. നിങ്ങളുടെ പൂച്ച കീബോർഡിൽ ഇരിക്കാൻ തടയുകയില്ല, പക്ഷെ അതിനു വേണ്ടി യാതൊരു മാർഗ്ഗവും ഇല്ല. ഇപ്പൊൾ പോകൂ, നിങ്ങളുടെ ലാപ്ടോപ്പ് ആ ഫാൻ ശബ്ദം പ്രാപ്തമാക്കാൻ.
അടിവെട്ടുകൾ
Q1: നാല്പ്പുറത്ത് തുടങ്ങുന്നവർക്ക് ഏറ്റവും മികച്ച LLaMA.cpp പാഠങ്ങൾ ഏതെല്ലാം?
നിർമാണം, മോഡൽ ഡൗൺലോഡ് (GGUF), ആദ്യ പ്രൊംപ്റ്റ് കോപ്പി/പേസ്റ്റ് കമാൻഡുകൾ മാക്, വിൻഡോസ്, ലിനക്സിനായി എല്ലാം നടത്തുന്നത് നയിക്കുന്ന ദിശാനിർദ്ദേശങ്ങൾ തിരഞ്ഞെടുക്കുക. ഏറ്റവും മികച്ച LLaMA.cpp പാഠങ്ങളിൽ ട്രബിൾഷൂട്ടിങ്, നിയമാനുസൃത മോഡൽ ഉറവിടങ്ങളും ഉൾപ്പെടും.
Q2: LLaMA.cpp നല്ല രീതിയിൽ ഓടിക്കാൻ GPU ആവശ്യമുണ്ടോ?
ഇല്ല, CPU-മാത്രവും പ്രവർത്തിക്കും, പ്രത്യേകിച്ച് 7B Q4_0 ക്വാണ്ടൈസ്ഡ് മോഡലുകൾക്ക്. GPU (Metal, CUDA, ROCm) വേഗത കൂട്ടും, മികച്ച LLaMA.cpp ਪੱਠങ്ങൾ GPU ലെയർ സുരക്ഷിതമായി എങ്ങനെ പ്രാപിക്കാമെന്ന് കാണിക്കും.
Q3:LLaMA.cpp ഉപയോഗിക്കാൻ ഏത് മോഡൽ ഫോർമാറ്റ് ഉപയോഗിക്കണം?
GGUF ഉപയോഗിക്കുക—ഇതാണ് ഇപ്പോഴത്തെ LLaMA.cpp ബിൽഡുകൾക്ക് പിന്തുണയുള്ള ആധുനിക ഫോർമാറ്റ്. ഏറ്റവും മികച്ച LLaMA.cpp പాఠങ്ങൾ GGUF-ഉം ക്വാണ്ടൈസേഷൻ ലെവലുകളും (Q4, Q5) വേഗം ഗുണമേന്മയുടെ കാര്യത്തിൽ വിശദീകരിക്കും.
Q4:എന്തുകൊണ്ട് എന്റെ ലോക്കൽ മോഡൽ പുറത്തിറക്കൽ അന്യമായിരിക്കുന്നു?
ബിൽഡ് തരം (Release), ത്രെഡ് എണ്ണവും GPU ഓഫ്ലോഡ് ക്രമീകരണങ്ങളും പരിശോധിക്കുക. മികച്ച LLaMA.cpp പാഠങ്ങൾ ചെറിയ ക്വാണ്ടൈസ്ഡ് മോഡലുകൾ, കുറവ് GPU ലെയറുകൾ (vRAM പരിധി ഉള്ളപ്പോൾ), Chrome ടാബുകൾ അടക്കാൻ നിർദേശിക്കുന്നു.
ചോദ്യം 5: LLaMA.cpp-യെ ഒരു API ആയി എങ്ങനെ ഉപയോഗിക്കാം?
ഒരു GGUF മോഡലിനൊപ്പം അന്തർനിർമ്മിത സെർവർ മോഡ് ഉപയോഗിക്കുക, കൂടാതെ --host, --port, --ctx-size എന്നിവ സജ്ജമാക്കുക. എളുപ്പത്തിൽ ആപ്ലിക്കേഷൻ സംയോജനത്തിനായി OpenAI-ശൈലിയിലുള്ള എൻഡ്പോയിന്റ് ഉദാഹരണം മികച്ച LLaMA.cpp ട്യൂട്ടോറിയലുകളിൽ പലതിലും ഉൾപ്പെടുന്നു.