What are the best LLaMA.cpp tutorials for beginners?

Pick guides that walk you through build, model download (GGUF), and a first prompt with copy/paste commands for Mac, Windows, and Linux. The best LLaMA.cpp tutorials also include troubleshooting and legal model sourcing.

Do I need a GPU to run LLaMA.cpp well?

No, CPU-only works, especially with 7B Q4_0 quantized models. A GPU (Metal, CUDA, or ROCm) speeds things up and the best LLaMA.cpp tutorials show how to enable GPU layers safely.

Which model format should I use with LLaMA.cpp?

Use GGUF—it’s the modern format supported by current LLaMA.cpp builds. The best LLaMA.cpp tutorials explain GGUF vs. quantization levels like Q4 and Q5 for speed and quality.

Why is my local model output so slow?

Check build type (Release), thread count, and GPU offload settings. The best LLaMA.cpp tutorials recommend smaller quantized models, fewer GPU layers if you’re hitting vRAM limits, and closing those 47 Chrome tabs.

How do I serve LLaMA.cpp as an API?

Use the built-in server mode with a GGUF model and set `--host`, `--port`, and `--ctx-size`. Many of the best LLaMA.cpp tutorials include an OpenAI-style endpoint example for easy app integration.

Pinakamahusay na Mga Tutorial sa LLaMA.cpp: Ang Iyong Praktikal at Diretsong Gabay sa Pagpapatakbo ng Lokal na AI

Teka, Gusto Mo ng Isang Napakalaking AI Model sa Iyong Laptop? Ang cute. Gawin Natin Itong Talagang Gumana.

Itaas ang iyong kamay kung sinubukan mong patakbuhin ang isang AI model nang lokal at napunta sa 12 misteryosong terminal windows, isang galit na fan, at isang laptop na parang naghahanda nang lumipad. Same. Kaya naman ang paghahanap para sa pinakamahusay na LLaMA.cpp tutorials ay hindi lang tungkol sa "pag-aaral"—ito ay tungkol sa kaligtasan. Gusto mo ng mabilis, simple, at hindi isinulat na parang isang 2008 Linux forum. Gusto mong patakbuhin ang LLaMA nang lokal, ligtas, at may dignidad.

Kaya gumugol ako ng oras sa paggalugad sa mga kuweba ng AI sa internet upang mahanap ang pinakamahusay na LLaMA.cpp tutorials—beginner-friendly, talagang napapanahon, at hindi allergic sa simpleng Ingles. Sasakupin natin kung paano piliin ang iyong landas (Mac, Windows, Linux), kung anong mga command ang talagang gagamitin mo, kung saan mo kukunin ang mga tamang model, at kung paano hindi masira ang iyong weekend.

Heads up sa keyword: hinahabol natin ang “best LLaMA.cpp tutorials.” Iyan ang iyong compass. Ang iyong snack pack. Ang iyong mapagkakatiwalaang sidekick. Pananatilihin ko itong natural at sisiguraduhin na lilitaw ito kung saan mo ito pinakakailangan.

Ang Maikling Bersyon: Ang Kailangan Mong Malaman Bago Pumili ng Tutorial

LLaMA.cpp = isang lightweight na C/C++ project na nagbibigay-daan sa iyong patakbuhin ang mga model na kabilang sa pamilya ng LLaMA nang lokal sa CPU (at GPU kung gusto mong maging fancy). Translation: friendly sa mga laptop.

Ang mga best na LLaMA.cpp tutorials ay aalalayan ka sa: pag-install ng mga dependencies, pagkuha ng model, pag-convert/quantize nito, at pagpapatakbo ng iyong unang prompt—nang walang wizard degree.

Mahalaga ang iyong OS. Ang mga gumagamit ng Mac ay makakakuha ng metal acceleration, ang mga gumagamit ng Windows ay makakakuha ng WSL o native builds, ang mga gumagamit ng Linux ay smug na. GPU? Opsyonal pero maganda.

Makakakita ka ng mga salita tulad ng “Q4_0,” “GGUF,” at “quantization.” Huminga. Ang mga ito ay mas maliit at mas mabilis na bersyon lamang ng model.

Talagang makakapagpatakbo ka ng isang solidong chatbot nang wala pang isang oras. 2025 na. Nararapat sa iyo ang mabilis na lokal na AI.

Mahalagang tandaan: Kung mas gusto mong i-sanity-check ang mga command o pagsama-samahin ang mga terminal steps at docs sa isang lugar, makakatulong ang Sider.AI na i-map ang isang tutorial sa isang malinaw at clickable na flow. Isipin ito bilang kaibigan na nagha-highlight ng iyong IKEA manual bago ka mawalan ng screw—literally.

Pagpili ng Iyong Landas: Ang 5 Pinakamahusay na LLaMA.cpp Tutorials (Ayon sa Use Case)

1) Ang Tutorial na “Turuan Mo Ako na Parang Abala Ako” (Beginner, Cross-Platform)

Kung gusto mo ang mga best na LLaMA.cpp tutorials na magdadala sa iyo mula zero hanggang prompt nang mabilis, maghanap ng mga gabay na:

Ipaliwanag ang mga GGUF model kumpara sa GGML (hint: Ang GGUF ang modernong format na ginagamit ng LLaMA.cpp)

Ipakita sa iyo kung paano mag-download ng isang quantized model nang hindi lumalabag sa mga lisensya

Bigyan ka ng copy/paste commands para sa Mac, Windows, at Linux

Isama ang isang halimbawa ng “first run” na may main -m ... -p "Hello" o ang server mode

Halimbawang flow na dapat mong makita sa isang mahusay na beginner tutorial:

Install: "Sa macOS: brew install cmake; brew install llvm; git clone; make" o "cmake -B build -D...; cmake --build build -j".

Model: “Mag-download ng isang 7B GGUF model mula sa isang awtorisadong source.”

Run: ./main -m ./models/llama-7b.Q4_0.gguf -p "Sumulat ng isang haiku tungkol sa kape."

Opsyonal na Server: ./server -m ./models/llama-7b.Q4_0.gguf --port 8080

Mga red flags na dapat iwasan:

Mga gabay na gumagamit pa rin lamang ng GGML (lipas na iyon)

Walang banggit sa paglilisensya at mga model sources

Walang GPU notes para sa Metal/CUDA/ROCm

Bakit ito gumagana: Simpleng structure, tested commands, at agarang payoff. Nakikipag-usap ka sa iyong model sa loob ng ilang minuto.

2) Ang Tutorial na “MacBook, Kilalanin ang Metal” (macOS na may GPU Acceleration)

Mayroon kang M1/M2/M3/M4 Mac? Gusto mo ng isang best LLaMA.cpp tutorials pick na nagpapakita nang eksakto kung paano mag-compile gamit ang Metal at gumamit ng mga GPU layers. Asahan ang mga hakbang tulad ng:

brew install cmake at Xcode command line tools

LLAMA_METAL=1 make o build flags na nagpapagana ng Metal

Pagpapatakbo gamit ang mga GPU layers: --n-gpu-layers 35 (ang numero ay depende sa laki ng model)

Mga tip sa pagganap: itakda ang --threads sa $(sysctl -n hw.ncpu) minus 1 upang hindi magprotesta ang iyong fan

Mga green lights:

Malinaw na paliwanag kung ilang GPU layers ang kaya ng iyong Mac

Mga benchmark o kahit isang seksyon na “kung ano ang magandang hitsura”

Isang note tungkol sa paggamit ng --flash-attn kung suportado sa iyong build

Bakit ito gumagana: Ang iyong laptop ay nagiging isang mini AI studio, hindi isang space heater.

3) Ang Tutorial na “Windows Warrior” (Native o WSL)

Sa Windows, ang mga mas lumang gabay ay maaaring maging… crunchy. Maghanap ng mga best na LLaMA.cpp tutorials na:

Nag-aalok ng parehong native na MSVC build instructions at WSL fallback

Isama ang mga CUDA steps kung mayroon kang isang NVIDIA GPU

Ipaliwanag ang mga pagkakaiba sa PowerShell vs. Command Prompt (paths, quoting)

Kung ano ang magandang hitsura:

git clone ang repo, i-install ang CMake/Visual Studio Build Tools

cmake -B build -DCMAKE_BUILD_TYPE=Release pagkatapos ay cmake --build build --config Release

CUDA build flags tulad ng -DLLAMA_CUBLAS=ON kung naaangkop

Pagpapatakbo gamit ang isang quantized model: .\build\bin\Release\main.exe -m .\models\llama-7b.Q4_0.gguf -p "Ipaliwanag ang tacos."

Bakit ito gumagana: Mas kaunting panghuhula, mas maraming tacos.

4) Ang Tutorial na “Linux Weekend Project” (Ubuntu/Arch/Fedora)

Kung ikaw ay nasa Linux, gusto mo ang mga best na LLaMA.cpp tutorials na:

Gumamit ng mga package managers para sa mga dependencies (apt, pacman, dnf)

Magbigay ng cmake build at opsyonal na CUDA/ROCm flags

Banggitin ang ulimits at memory constraints (malalaking model, malaking gana)

Isang solidong halimbawang landas:

sudo apt-get install build-essential cmake (Ubuntu)

cmake -B build -DGGML_CUDA=ON para sa NVIDIA o -DGGML_ROCM=ON para sa AMD

./main -m ./models/llama-13b.Q4_0.gguf -p "Ibuod ang Ted Lasso sa 2 linya."

Bakit ito gumagana: Gusto ng Linux ang malinaw na flags. Magugustuhan mo ang FPS.

5) Ang Tutorial na “Transformer Tinkerers” (Advanced: Quantization & Fine-Tuning)

Kapag handa ka nang mag-graduate, ipapakita sa iyo ng mga best na LLaMA.cpp tutorials kung paano:

I-convert ang mga model sa GGUF, pumili ng Q4 vs Q5 vs Q8 (laki vs quality)

Patakbuhin ang low-rank adaptation (LoRA) merges

I-serve ang iyong model sa pamamagitan ng API na may server mode at OpenAI-compatible endpoints

Sukatin ang tokens-per-second at i-tune para sa bilis kumpara sa accuracy

Kung ano ang makikita mo:

Mga script tulad ng convert.py para sa mga model formats

quantize binaries upang lumikha ng *.gguf mula sa FP16

Dokumentasyon sa --ctx-size, --temp, --top-k, --top-p, at --mirostat settings

Bakit ito gumagana: Ginagawa mong “it runs” sa “it runs well.”

Ang Praktikal na Shopping List: Kung Ano ang Sasabihin sa Iyo ng Isang Mahusay na Tutorial na I-install

CMake at isang C/C++ compiler (clang, MSVC, gcc)

Git (dahil nagki-clone ka na parang 1999)

Opsyonal: CUDA toolkit para sa NVIDIA, Metal enabled sa macOS, ROCm para sa AMD

Python kung gumagamit ang tutorial ng mga conversion scripts

Isang legal, awtorisadong model sa GGUF format (pag-uusapan natin kung saan hahanapin)

Pro-tip: Babalaan ka rin ng mga best na LLaMA.cpp tutorials na suriin ang iyong RAM at vRAM bago mag-download ng isang 70B model na parang isang cute na kuting. Hindi ito. Ito ay isang ganap na tiger na kumakain ng memory para sa almusal.

Mga Run-Ready Commands na Makikita Mo sa mga Best na LLaMA.cpp Tutorials

Para sa isang tipikal na first run pagkatapos mag-build:

CPU-only quick test:

./main -m ./models/llama-7b.Q4_0.gguf -p "Sumulat ng isang limerick tungkol sa debugging."

Gamit ang mga GPU layers (macOS Metal o CUDA):

./main -m ./models/llama-7b.Q4_0.gguf --n-gpu-layers 35 -p "Ipaliwanag ang mga vector database na parang late na ako sa lunch."

Magsimula ng isang lokal na server (OpenAI-ish API):

./server -m ./models/llama-7b.Q4_0.gguf --host 127.0.0.1 --port 8080 --ctx-size 4096

Chat UI mode (kasama sa ilang builds ang simpleng interactive chat):

./main -m ./models/llama-7b.Q4_0.gguf -ins -p "Ikaw ay isang matulunging assistant." -r "User:" -r "Assistant:"

Asahan na ipaliwanag ng isang mahusay na tutorial:

Context length (--ctx-size), temperature (--temp), sampling tweaks (--top-k, --top-p)

Bakit mahalaga ang quantization tulad ng Q4_0 o Q5_K_M para sa bilis kumpara sa quality

Kung paano pigilan ang model na ulitin ang sarili nito nang higit pa sa iyong overexcited na uncle sa Thanksgiving

Mga Model Sources: Ang Seksyon na Hindi Ka Makakasuhan

Ipapaalala sa iyo ng mga best na LLaMA.cpp tutorials:

Gumamit ng mga model na ipinamahagi sa ilalim ng mga valid licenses. Marami ang nag-aalok ng instruction-tuned, quantized GGUF versions.

Suriin ang model card para sa pinapayagang paggamit, eval stats, at inirerekomendang quantization.

Magsimula sa 7B o 8B models maliban kung ang iyong machine ay isang GPU dragon. Mas maliit na models = mas mabilis na tokens.

Pro move: Panatilihin ang iyong mga model sa isang ./models folder na may malinaw na mga pangalan: llama-7b.Q4_0.gguf, llama-13b.Q5_K_M.gguf. Pasasalamatan ka ng future you.

Pagganap Nang Walang Init: Makatotohanang Settings

Threads: Itakda sa bilang ng mga physical cores (o hayaan kang gabayan ng tutorial). Masyadong mataas at kakantahin ng iyong mga fans ang awit ng kanilang mga tao.

GPU layers: Mas maraming layers na offloaded = mas maraming bilis, hanggang sa maabot mo ang mga vRAM limits.

Context size: Ang 2K–4K ay ang sweet spot para sa laptop-level na hardware. Ang mas malalaking contexts ay kumakain ng RAM na parang gummy bears.

Sampling: Mas mababang temperature para sa mga seryosong gawain, mas mataas para sa creative. Tumutulong ang top-k at top-p upang panatilihing maayos ang output.

Magpapakita ang isang mahusay na tutorial ng ilang preset na command lines para sa “mabilis,” “balanse,” at “quality.” Parang nag-o-order ng kape, ngunit may mas kaunting judgmental baristas.

Troubleshooting: Dahil May Nangyayari

Narito kung ano ang mabilis na nilulutas ng mga best na LLaMA.cpp tutorials:

"Hindi ito magbi-build": Suriin ang CMake version, compiler version, at kung talagang pinatakbo mo ang git submodule update --init --recursive.

"Mga CUDA errors": I-verify ang mga driver/toolkit versions. Subukan ang isang CPU-only build upang ihiwalay ang mga isyu.

"Out of memory": Bumaba sa isang mas maliit na quant (Q4), mas kaunting GPU layers, o isang mas maliit na model.

"Kakaibang output": Bawasan ang temperature, itaas ang top-k, subukan ang ibang quantized file.

"Mababang tokens": Gumamit ng GPU offload, isara ang mga Chrome tabs (sorry), at tiyakin ang Release builds, hindi Debug.

Kung lumaktaw ang isang tutorial sa isang troubleshooting section, magpatuloy sa pag-scroll. Nararapat sa iyo ang mas mahusay.

Mahalaga ang Format: Bakit Kaibigan Mo ang GGUF

Hindi ililibing ng mga best na LLaMA.cpp tutorials ang lede: Ang GGUF ay idinisenyo para sa mga mas bagong LLaMA.cpp builds—self-contained na metadata, mas madaling i-load, future-proofed. Kung ang isang tutorial ay mapunta lamang sa GGML land, ituring ito bilang isang historical artifact—cute, ngunit hindi ang kailangan mo sa 2025.

Maghanap ng mga malinaw na hakbang tulad ng:

Mag-download ng GGUF nang direkta

Opsyonal: i-convert mula sa isang safetensors o FP16 checkpoint gamit ang mga ibinigay na scripts

I-quantize gamit ang quantize tools sa Q4_0, Q5_K_M, atbp.

Mabilis na Buyer’s Guide: Paano Hatulan ang Isang Tutorial sa Loob ng 60 Segundo

Petsa ng pagiging bago: Na-update sa loob ng huling 6–9 na buwan

OS coverage: Hindi bababa sa Mac at Windows, perpekto ang Linux

Mga halimbawa ng model: 7B at 13B na may GGUF

GPU guidance: Metal/CUDA flags na talagang gumagana

Mga copy/paste blocks: May mga komento na nagpapaliwanag sa bawat flag

Mga tala sa lisensya: Kung saan kukuha ng mga model nang legal

Troubleshooting: Hindi opsyonal

Kung natugunan ng isang tutorial ang mga iyon, ito ay kasali sa pagiging isa sa mga best na LLaMA.cpp tutorials—walang quotation marks, walang asterisks.

Mula Zero hanggang Chatbot: Isang Sample Flow na Maaari Mong Nakawin

Narito ang isang compact, platform-agnostic walkthrough—ang uri na dapat gayahin ng mga best na LLaMA.cpp tutorials. Ayusin ang mga command bawat OS.

Kunin ang code

git clone
cd llama.cpp
git submodule update --init --recursive

I-build ito (CPU baseline)

cmake -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j

Opsyonal na GPU builds

macOS Metal:

LLAMA_METAL=1 cmake -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j

NVIDIA CUDA:

cmake -B build -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build -j

Kumuha ng isang GGUF model (legal source, 7B Q4_0 upang magsimula). Ilagay ito sa ./models.

Unang patakbo

./build/bin/main -m ./models/llama-7b.Q4_0.gguf -p "Bigyan mo ako ng tatlong paraan upang ipaliwanag ang AI sa isang 5-taong-gulang."

Mas mabilis, gamit ang mga GPU layers

./build/bin/main -m ./models/llama-7b.Q4_0.gguf --n-gpu-layers 35 -p "Sumulat ng isang grocery list sa pirate."

Mag-serve ng isang API

./build/bin/server -m ./models/llama-7b.Q4_0.gguf --port 8080 --ctx-size 4096

I-tweak para sa sanity

Mas mababang temp para sa mga factual na gawain: --temp 0.2

Iwasan ang mga pag-uulit: subukan ang --repeat-penalty 1.1

Mas mahabang memory: --ctx-size 4096 (bantayan ang RAM)

I-pin ang flow na ito. Ito ang iyong emergency parachute.

Productivity Layer: Paggamit ng LLaMA.cpp Sa Mga Apps at Extensions

Mga lokal na notebooks: Ipares ang server endpoint sa iyong paboritong notebook upang i-script ang mga prompts at benchmarks.

Chat UIs: Maraming community UIs ang maaaring tumuro sa LLaMA.cpp server—pumili ng isa na sumusuporta sa GGUF at hindi nangangailangan ng PhD upang i-theme.

Automation: Lumikha ng mga simpleng script na nagpapasa ng mga prompts sa server endpoint at nagtatapon ng mga resulta sa mga notes.

Mahalagang tandaan: Maaaring sumabay ang Sider.AI dito. I-drop ang iyong mga command steps at model notes at hayaan itong mag-compile ng isang clickable runbook. Ito ay parang isang GPS para sa mga terminal commands—minus ang "recalculating" meltdown.

Kaligtasan at Privacy: Bakit Mahalaga Pa Rin ang Lokal

Ang pagpapatakbo nang lokal ay hindi lamang isang vibe. Ito ay pribado, mabilis, at gumagana offline. Babanggitin ng mga best na LLaMA.cpp tutorials:

I-minimize ang sensitibong data sa mga prompts kung hindi ka sigurado tungkol sa model provenance

Panatilihing updated ang iyong machine (drivers, OS, GPU toolkit)

Idokumento ang iyong mga settings upang hindi balikan ng future you ang iyong sariling genius sa ganap na 2 a.m.

Mga Advanced na Tip na Talagang Naaalala ng mga Best na Tutorials na Isama

Mahalaga ang Tokenization: Ang mga mismatched tokenizers ay humahantong sa kakaibang pag-uugali—dumikit sa tokenizer na kasama ng GGUF.

Batch size: Taasan ang --batch-size para sa throughput (server mode), ngunit bantayan ang RAM.

Speculative decoding at flash attention: Kung suportado ng iyong build ang mga ito, makakakita ka ng mga speed bumps nang walang dagdag na magic.

Prompt formatting: Inaasahan ng mga instruction-tuned models ang mga system/user/assistant patterns. Sundin ang template ng model card.

Ang Makatotohanang Hardware Cheat Sheet

Entry laptop (8–16GB RAM, walang dedicated GPU): Gumagana ang 7B Q4_0; ang 13B ay… ambitious.

MacBook Pro na may M-series: Gumagana nang mahusay ang 7B at 13B na may Metal offload. 33B kung gusto mong mamuhay nang mapanganib.

Desktop na may mid-tier na NVIDIA GPU (8–12GB vRAM): Maganda ang 13B Q4_0; posible ang 33B na may maingat na settings.

Workstation GPUs (24GB+): Lumaki, o magpatakbo ng maraming models para sa kasiyahan at kita (karamihan ay kasiyahan).

Kung binabalewala ng isang tutorial ang mga hardware realities, hindi ito isa sa mga best na LLaMA.cpp tutorials. Magpatuloy.

Pagsasama-sama ng Lahat: Paano Pumili ng IYONG Best na LLaMA.cpp Tutorial

Magtanong ng tatlong katanungan:

Tugma ba ito sa aking OS at hardware?

Dinadala ba ako nito sa isang gumaganang prompt sa loob ng wala pang isang oras?

Ipinaliliwanag ba nito ang mga model formats at binibigyan ako ng mga ligtas na model sources?

Kung oo, congratulations—nakakita ka ng isa sa mga best na LLaMA.cpp tutorials para sa iyong setup. I-bookmark ito. Pagkatapos, marahil, ibahagi ito sa kaibigan na patuloy na nagtatanong ng “So is AI like Clippy?” upang sa wakas ay tumigil na sila sa pagpapadala sa iyo ng mga screenshots.

Huling Salita: Higit Pa ang Kaya ng Iyong Laptop Kaysa Mag-scroll

Ginagawa ng LLaMA.cpp ang iyong computer na isang kagalang-galang na AI lab, hindi na kailangan ng cloud key. Hindi nagmamayabang ang mga best na LLaMA.cpp tutorials—nagpo-focus ang mga ito: malinis na hakbang, tunay na commands, at pagganap na mararamdaman mo. Magsimula nang maliit, umulit nang mabilis, at panatilihing may label ang iyong mga model na parang isang matinong tao.

At kung gusto mo ng isang co-pilot habang nagti-tinker ka, mahalagang tandaan: Matutulungan ka ng Sider.AI na lutasin ang mga flags, subaybayan kung ano ang gumana, at ihambing ang mga runs. Hindi nito pipigilan ang iyong pusa na umupo sa iyong keyboard, ngunit sa totoo lang, wala nang makakapigil doon.

Ngayon, gawin mong pagtrabahuhan ng iyong laptop ang ingay ng fan na iyon.

FAQ

Q1: Ano ang mga best na LLaMA.cpp tutorials para sa mga beginners? Pumili ng mga gabay na gagabay sa iyo sa build, pag-download ng model (GGUF), at isang unang prompt na may copy/paste commands para sa Mac, Windows, at Linux. Kasama rin sa mga best na LLaMA.cpp tutorials ang troubleshooting at legal na model sourcing.

Q2: Kailangan ko ba ng isang GPU upang gumana nang maayos ang LLaMA.cpp? Hindi, gumagana ang CPU-only, lalo na sa 7B Q4_0 quantized models. Pinapabilis ng isang GPU (Metal, CUDA, o ROCm) ang mga bagay at ipinapakita ng mga best na LLaMA.cpp tutorials kung paano paganahin ang mga GPU layers nang ligtas.

Q3: Aling model format ang dapat kong gamitin sa LLaMA.cpp? Gumamit ng GGUF—ito ang modernong format na suportado ng kasalukuyang LLaMA.cpp builds. Ipinaliliwanag ng mga best na LLaMA.cpp tutorials ang GGUF kumpara sa mga quantization levels tulad ng Q4 at Q5 para sa bilis at quality.

Q4: Bakit ang bagal ng output ng aking lokal na model? Suriin ang build type (Release), thread count, at GPU offload settings. Inirerekomenda ng mga best na LLaMA.cpp tutorials ang mas maliliit na quantized models, mas kaunting GPU layers kung naabot mo ang mga vRAM limits, at pagsasara ng 47 Chrome tabs na iyon.

Q5: Paano ko magagamit ang LLaMA.cpp bilang isang API? Gawin ang built-in server mode gamit ang isang GGUF model at itakda ang --host, --port, at --ctx-size. Marami sa mga pinakamahusay na tutorial sa LLaMA.cpp ang naglalaman ng halimbawa ng OpenAI-style endpoint para sa madaling pagsasama sa app.