Vai esi kādreiz mēģinājis salikt IKEA mēbeli bez mazā karikatūras vīriņa? Tieši tāda varētu būt sajūta, uzsākot darbu ar lokālajiem AI modeļiem. Daudz detaļu, noslēpumaini nosaukumi un nepārtrauktas bailes, ka esi palaidis garām skrūvi ar nosaukumu “LLM izpildlaiks”. Iepazīstieties ar Ollama. Tas ir sešskaldņu atslēga lielu valodu modeļu darbināšanai savā datorā — ātri, privāti un pārsteidzoši, nevis spīdzināšanas ierīce.
Šajā rokasgrāmatā mēs faktiski izmantosim Ollama. Ne tikai lasīsim par to. Mēs to lejupielādēsim, palaidīsim modeli, pielāgosim to, ievadīsim to jūsu iecienītākajos rīkos, atrisināsim jautājumu “kāpēc mans ventilators kliedz?” un apgūsim iestatījumus, kuriem varat patiešām uzticēties. Jā, pat bezsaistē. Jā, pat lidmašīnā. Nē, jums nav vajadzīgs doktora grāds vai serveru ferma.
Lūk, kā lietot Ollama kā profesionālim — nesabojājot savu klēpjdatoru vai prātu.
Kas ir Ollama (un kāpēc jums par to būtu jārūpējas)?
Ollama ir vienkāršs veids, kā lokāli palaist lielus valodu modeļus (LLM). Padomājiet par ChatGPT, bet modelis atrodas jūsu datorā. Priekšrocības:
- Privātums: jūsu dati paliek jūsu datorā. Nekādu noslēpumainu ceļojumu uz mākoni.
- Ātrums: nav jāgaida serveris. Ir pienācis jūsu CPU/GPU laiks spīdēt.
- Kontrole: izvēlieties modeli, versiju, izmēru un uzvedību.
Ja esat kādreiz domājis: “Es vēlos pajautāt AI lietas, nesūtot savas personīgās piezīmes uz Neptūnu,” tas ir paredzēts jums.
Ātrākais veids, kā lietot Ollama
Jūs atnācāt, lai uzzinātu, kā to darīt. Darīsim to.
1. darbība: instalējiet Ollama
- macOS: izmantojiet instalētāju no oficiālās vietnes vai
brew install --cask ollama, ja vēlaties justies varens.
- Windows: paņemiet instalētāju. Tas ir parasts iestatījums — next, next, install.
- Linux: viena rindiņa, izmantojot oficiālo skriptu. Uz 30 sekundēm kļūstiet par sistēmas administratoru.
Pēc instalēšanas Ollama darbojas kā lokāls pakalpojums. Jūs sazināties ar to, izmantojot Terminal, PowerShell vai citas lietotnes, kas ar to integrējas.
2. darbība: iegūstiet savu pirmo modeli
Savā terminālā:
Pirmo reizi Ollama lejupielādē modeļa parametrus. Padomājiet par to kā par lielas Netflix filmas kešatmiņu. Pēc tam tas notiek acumirklī. Jūs saņemsiet uzvedni, kurā varat rakstīt un tērzēt.
Izmēģiniet testu: “Uzrakstiet 2 teikumu kopsavilkumu par Wikipedia ierakstu par pingvīniem — bez liekvārdības.” Ja tas atbild ar pingvīnu TED sarunu, jūs zināt, ka tas ir dzīvs.
3. darbība: pārslēdziet modeļus tāpat kā atskaņošanas sarakstus
Populāri modeļi, kurus varat izmēģināt:
Katram ir dažādas stiprās puses. Mistral ir ātrs. Llama 3.1 ir vispusīgs. Phi ir viegls un šokējoši gudrs savam izmēram. Varat iegūt konkrētus tagus, piemēram, llama3:8b-instruct vai mazākus kvantizētus variantus.
Profesionāļa padoms: izmantojiet ollama pull <model>, lai lejupielādētu iepriekš. Izmantojiet ollama list, lai redzētu, kas jums ir, un ollama rm <model>, ja jūsu SSD raud.
4. darbība: tērzējiet no termināla kā hakeris ar sociālām prasmēm
- Sāciet sesiju:
ollama run llama3
- Sniedziet sistēmas ziņojumu:
ollama run llama3 --system "Jūs esat kodolīgs kodēšanas palīgs."
- Sniedziet vienreizēju uzvedni, neieejot tērzēšanas režīmā:
ollama run llama3 -p "Paskaidrojiet Kubernetes tā, it kā man būtu pieci gadi."
Jūs sāksiet izklausīties kā burvis. Pieklājīgs burvis.
5. darbība: izmantojiet Ollama ar savām iecienītākajām lietotnēm
Šeit kļūst jautri, kā lietot Ollama. Ollama runā HTTP. Tas nozīmē, ka daudzi rīki var ar to sazināties.
- Vietējie tīmekļa lietotāja interfeisi: daudzi AI tērzēšanas lietotāja interfeisi var izveidot savienojumu ar jūsu Ollama galapunktu. Jūs iegūstat skaistu logu, atsevišķas tērzēšanas un vēsturi.
- Kodu redaktori: VS Code paplašinājumi var novirzīt jūsu uzvednes uz Ollama — iekļautas koda skaidrojumi, refaktori un testi.
- Piezīmju lietotnes: dažas ļauj izveidot savienojumu ar lokālu modeli kopsavilkumiem un domu vētrai. Lieliski piemērots sapulču piezīmēm, kas faktiski kaut kur nonāk.
Uzmanību: ja vēlaties īpaši tīru, uz pārlūkprogrammu balstītu tērzēšanas un izpētes darbplūsmu, ir vērts atzīmēt — Sider.AI var izveidot savienojumu ar vietējiem un mākoņa modeļiem, organizēt tērzēšanas un palīdzēt jums testēt uzvednes blakus. Kad esmu neizpratnē starp “modelis A ir gudrāks” un “modelis B ir ātrāks”, tas mani tur godīgu. Iesācēja plāns: jūsu pirmā produktīvā stunda ar Ollama
Jums ir 60 minūtes. Pārvērtīsim “huh?” par “ak, jā!”.
- Instalējiet Ollama. Kafijas malks. Gatavs.
- Iegūstiet
llama3:8b-instruct. Tas ir lielisks punkts kvalitātei un ātrumam lielākajā daļā klēpjdatoru.
- Izveidojiet sistēmas uzvedni, kas atbilst jūsu darbam: “Jūs esat mans pētniecības asistents. Vienmēr norādiet avotus un aizzīmju punktus. Saglabājiet atbildes īsākas par 200 vārdiem, ja vien es nesaku citādi.”
- Pārbaudiet trīs uzdevumus, ko faktiski veicat:
- Apkopojiet rakstu ielīmēšanu, kas mazāka par 250 vārdiem.
- Domu vētra 10 virsrakstu idejas jūsu informatīvajam izdevumam.
- Pārvērtiet sapulces piezīmes par rīcības vienumiem ar īpašniekiem un datumiem.
- Saglabājiet sev tīkamās uzvednes. Izmantojiet tos atkārtoti. Tādā veidā jūs pārejat no spēlēšanās ar AI uz faktisku tā izmantošanu.
Bonuss: ja rakstāt kodu, iegūstiet codellama vai ar kodu pielāgotu modeli un ievadiet tajā savu funkciju. Lūdziet testus, refaktorus vai docstrings. Jūs jutīsieties par 30% gudrāks, kas ir likumīgais ierobežojums vietējam AI.
Kā izvēlēties pareizo modeli (bez galvassāpēm)
Modeļa izvēle ir kā straumēšanas plāna izvēle: jūs absolūti varat pārmaksāt par lietām, kas jums nav vajadzīgas.
- Rakstīšanai un domu vētrai:
llama3 vai mistral ir lieliski.
- Īpaši viegli klēpjdatori: izmēģiniet
phi3 vai mazākas kvantizētas lielāku modeļu versijas.
- Palīdzība kodēšanā:
codellama, deepseek coder vai ar kodu optimizēts variants.
- Daudzvalodu:
qwen ģimenes veic stabilu daudzvalodu darbu.
- Ilgāks konteksts: meklējiet modeļus, kas apzīmēti ar lielākiem konteksta logiem, ja ievadāt lielus dokumentus.
Ja jūsu ventilators pārvēršas par helikopteru katru reizi, kad veicat uzvedni, samaziniet modeļa izmēru vai izmēģiniet agresīvāku kvantēšanu.
Slepenā mērce: Modelfiles un pielāgota uzvedība
Šeit Ollama kļūst pārsteidzoši apburoša. Varat izveidot Modelfile — būtībā recepti —, kas definē jūsu modeli un tā personību un noklusējuma iestatījumus.
Modelfile piemērs (konceptuāls):
FROM llama3:8b-instruct
SYSTEM "Jūs esat precīzs, draudzīgs palīgs. Izmantojiet aizzīmju punktus un īsus teikumus."
PARAMETER temperature 0.5
Saglabājiet to kā Modelfile mapē un pēc tam palaidiet:
ollama create crisp-assistant -f Modelfile
ollama run crisp-assistant
Tagad jums ir pielāgots palīgs, kuru varat atkārtoti izmantot visur. Tas ir kā izveidot savu privāto ChatGPT garšu — vaniļas, ar espresso šotiem.
Runājiet JSON ar mani: Ollama HTTP API izmantošana
Ja jums ir pat vieglas izstrādātāja tendences, API liks jums pasmaidīt.
- Galapunkts: ` teksta ģenerēšanai.
- Nosūtiet JSON slodzi ar
model, prompt un izvēles stream.
- Jūs saņemsiet atpakaļ marķierus straumē. Tas ir kā romāna lasīšana reāllaikā, pa vienai rakstzīmei vienlaikus.
Kāpēc izmantot API?
- Automatizējiet informatīvo izdevumu kopsavilkumus.
- Izveidojiet tērzēšanas robotu savos dokumentos.
- Izveidojiet skriptus, lai masveidā pārrakstītu produktu aprakstus. (Vienkārši nepadariet tos visus par robotu, kurš reiz ir piedalījies improvizācijā.)
Kā lietot Ollama ar saviem failiem (RAG bez dusmām)
RAG — izguves papildināta ģenerēšana — ievada jūsu failus modelim, lai tas atbildētu ar faktiem no jūsu materiāliem, nevis no savas neskaidrās atmiņas.
Pamata ceļš:
- Izmantojiet vietējo iegulšanas rīku, lai indeksētu savus dokumentus.
- Uz katru jautājumu meklējiet labākās daļas.
- Nosūtiet visatbilstošāko tekstu kā kontekstu savā uzvednē uz Ollama.
Padomājiet par to kā par atvērto grāmatu testēšanu AI. Tam nav jā“atceras” jūsu darbinieku rokasgrāmata — tam vienkārši tā ir jācitē.
Profesionāļa gājiens: saglabājiet savas daļas mazas (200–600 vārdi), pievienojiet virsrakstus un iekļaujiet avota saites uzvednē, lai modelis iemācītos citēt.
Veiktspējas regulēšana: lieciet Ollama lidot (nesakausējot savu galdu)
- Kvantēšanai ir nozīme: Q4 ir mazāks/ātrāks, Q8 ir lielāks/gudrāks. Sāciet ar mazu, pārejiet uz augšu.
- Izmantojiet GPU, ja tas ir pieejams: Apple Silicon darbojas lieliski. Jaunākas NVIDIA kartes? Šefpavāra skūpsts.
- Temperatūra: zemāka (0,2–0,5) precīzām atbildēm; augstāka (0,8+) radošam haosam.
- Maksimālais marķieru skaits: nelūdziet 3000 vārdu romānu, ja tas jums patiešām nav vajadzīgs. Jūsu klēpjdators vēlētos dzīvot.
Ja atbildes šķiet lēnas:
- Izmēģiniet mazāku modeli.
- Aizveriet Chrome cilnes. Jā, visas 47.
- Īslaicīgi atspējojiet fona sinhronizācijas lietotnes.
Drošība un privātums: īstais iemesls, kāpēc cilvēki izmanto Ollama
Vietējais nozīmē vietējo. Bet neļaujieties paviršībām.
- Jutīgi dati: jūs esat drošāks nekā mākonis, bet šifrējiet savu disku un droši dublējiet.
- Modeļu avoti: iegūstiet no uzticamiem repozitorijiem. Ja modeļa apraksts izskatās tā, it kā to būtu rakstījis kaķis, kas staigā pa tastatūru, iespējams, izlaidiet to.
- Tīkla piekļuve: Ollama darbojas lokāli; neatklājiet portu publiskajos tīklos, ja nezināt, ko darāt.
Ikdienas darbplūsmas, ko jūs faktiski izmantosiet
Jo “wow neat” nav tas pats, kas “es to izmantoju katru dienu”. Lūk, kā lietot Ollama reālajā dzīvē:
- Sapulču tīrītājs: ielīmējiet piezīmes, lūdziet rīcības vienumus pa personām un pieprasiet turpmākā e-pasta melnrakstu.
- Pētījumu draugs: ielīmējiet rakstu. Lūdziet pretargumentu, 3 avotus, lai apstiprinātu apgalvojumus, un 60 sekunžu kopsavilkumu.
- Kodēšanas otrais pilots: lūdziet docstrings, testus vai drošāku regex. Lieciet tam izskaidrot izmaiņas atpakaļ jums vienkāršā valodā.
- Rakstīšanas sprints: vispirms izklāstiet, pēc tam paplašiniet, pēc tam pastipriniet toni. Saglabājiet sistēmas ziņojumu, kas definē jūsu balsi.
- Mācīšanās: iemāciet man SSH tā, it kā jūs būtu mans pacietīgais vecākais brālēns. Pēc tam pārbaudiet mani.
Uzmanību: ja vēlaties to visu glabāt vienuviet — tērzēšanas vēsturi, modeļu testus blakus un ātrus tīmekļa meklējumus —, Sider.AI labi darbojas ar vietējiem modeļiem un nodrošina tīrāku vadības paneli. Tas ir kā misijas vadība jūsu uzvednēm. Traucējummeklēšana: kad Ollama kļūst kaprīzs
- “Modelis nav atrasts.” Jūs to vēl neesat ieguvis.
ollama pull <model>.
- “Atmiņa ir pilna.” Izmantojiet mazāku kvantēšanu vai modeļa izmēru.
- “Tas ir tik lēns, ka es dzirdu, kā mans klēpjdators noveco.” Samaziniet maksimālo marķieru skaitu, pārslēdziet modeļus vai izmantojiet GPU paātrinājumu.
- “Atbildes ir pārāk neskaidras.” Pazeminiet temperatūru un pievienojiet piemērus savai uzvednei.
- “Tas nepārtraukti ignorē manus norādījumus.” Ievietojiet noteikumus sistēmas uzvednē, nevis tikai lietotāja uzvednē.
Profesionāļa padoms: saglabājiet uzvednes, kas darbojas. Labas uzvednes ir kā labas kafijas receptes. Nākotnes jūs pateiksies pagātnes jums.
Uzlaboti gājieni: vairāku modeļu, rīku un automatizācija
- Ķēdes doma lite: lūdziet tai uzskaitīt darbības pirms atbildēšanas. “Vispirms izklāstiet, pēc tam rakstiet rindkopu pa rindkopai.”
- Vairāku modeļu darbplūsma: rīkojiet domu vētru ar radošu modeli, pārbaudiet ar precīzu modeli. Padomājiet par draugu policistu filmu.
- Rīka izmantošana: aptiniet tīmekļa meklēšanu, kalkulatorus vai koda izpildi ap Ollama, izmantojot skriptus. Ļaujiet modelim izlemt, kuru rīku izsaukt, bet validējiet izvades.
- Pakešu darbi: ievadiet produktu aprakstu CSV failu skriptā, kas izsauc API un ieraksta rezultātus atpakaļ. Kafija, palaidiet, gatavs.
Kā droši lietot Ollama komandās
Ja esat neoficiāla IT persona (atvainojiet), iestatiet aizsargmargas:
- Standartizējiet dažus apstiprinātus modeļus.
- Kopīgojiet Modelfile komandas balsij un formatēšanai.
- Uzturiet uzvedņu bibliotēku atkārtotiem uzdevumiem.
- Reģistrējiet ievadi/izvadi noteiktām darbplūsmām — lokāli —, lai jūs varētu pārskatīt kvalitāti, nelūdzoties cilvēkiem.
Jautājums “Vai man ir nepieciešams mākonis?”
Dažreiz jā. Ja jums ir nepieciešama liela konteksta izpēte, vismodernākā spriešana vai vairāku režīmu burvestība, mākoņa modelis joprojām var uzvarēt. Hibrīda gājiens ir gudrs:
- Izmantojiet Ollama lokāli melnrakstiem, privātiem dokumentiem un ātrai atkārtošanai.
- Izmantojiet mākoņa modeli sarežģītai spriešanai vai milzīgām ievadēm.
- Salīdziniet rezultātus vienā un tajā pašā saskarnē, lai jūs izvēlētos ar acīm, nevis ar noskaņu.
Ir vērts atzīmēt: Sider.AI padara šo salīdzinājumu nesāpīgu. Jūs varat novirzīt to pašu uzvedni uz lokālo Ollama un mākoņa modeli, pēc tam izvēlēties labāko atbildi vai apvienot tos. Tas ir kā divu kafiju degustācija un saprašana, ka tās var sajaukt. Jūsu viena nedēļas plāns, lai kļūtu par biroja Ollama čukstētāju
1. diena: instalējiet, iegūstiet llama3, iestatiet sistēmas uzvedni.
2. diena: izveidojiet Modelfile savam tonim. Izmēģiniet divus modeļus un atzīmējiet atšķirības.
3. diena: pievienojiet piezīmju vai kodēšanas rīku Ollama.
4. diena: izveidojiet nelielu RAG prototipu ar dažiem PDF failiem.
5. diena: automatizējiet vienu nogurdinošu uzdevumu ar API.
6. diena: kopīgojiet uzvedņu bibliotēku ar savu komandu.
7. diena: pārskatiet, kas darbojās, iztīriet to, kas nedarbojās, un iestatiet noklusējumus.
Tajā brīdī jūs ne tikai zināsiet, kā lietot Ollama — jūs to izmantosiet, nedomājot par to, kas ir visu rīku jēga, ko mēs glabājam.
Secinājums
Kā lietot Ollama ir atkarīgs no trim lietām:
- Lai sāktu, saglabājiet to lokālu un vienkāršu. Iegūstiet vienu modeli, veiciet trīs reālus uzdevumus.
- Pielāgojiet uzvedību ar sistēmas uzvednēm un Modelfiles, lai tas atbilstu jūsu smadzenēm, nevis otrādi.
- Integrējiet to vietā, kur strādājat — redaktorā, pārlūkprogrammā, piezīmēs —, lai tas nebūtu vēl viena cilne, kuru aizmirstat.
Ollama nepadarīs jūsu klēpjdatoru maģisku. Tas padarīs to vairāk jūsu. Un pasaulē, kur katra lietotne mēģina novirzīt jūsu datus uz kāda cita serveri, tas ir diezgan atsvaidzinošs jauninājums.
Tagad ejiet un lūdziet savam vietējam AI uzrakstīt labāku ziņojumu par atrašanos ārpus biroja. Un varbūt atgādiniet sev faktiski paņemt brīvu dienu.
FAQ
Q1:Kāds ir vienkāršākais veids, kā sākt darbu ar Ollama?
Instalējiet to, iegūstiet draudzīgu modeli, piemēram, llama3:8b-instruct, un veiciet dažus reālus uzdevumus — kopsavilkumus, izklāstus vai e-pasta melnrakstus. Saglabājiet zemu temperatūru, lai iegūtu skaidras, paredzamas atbildes, un saglabājiet visas uzvednes, kas darbojas labi.
Q2:Kuru modeli man vajadzētu izmantot Ollama rakstīšanai un kodēšanai?
Rakstīšanai sāciet ar llama3 vai mistral, lai iegūtu līdzsvarotu kvalitāti un ātrumu. Kodēšanai izmēģiniet codellama vai ar kodu optimizētu modeli; turiet temperatūru ap 0,2–0,4, lai būtu mazāk halucināciju.
Q3:Vai es varu izmantot savus dokumentus ar Ollama (RAG)?
Jā — indeksējiet savus failus ar iegulšanas rīku, izgūstiet labākās daļas katrā vaicājumā un iekļaujiet šīs daļas kā kontekstu savā uzvednē uz Ollama. Tas ir kā atvērto grāmatu režīms jūsu AI, un tas krasi uzlabo faktu precizitāti.
Q4:Kāpēc Ollama ir lēns manā klēpjdatorā un kā es to varu paātrināt?
Izmantojiet mazāku kvantizētu modeli (piemēram, Q4), samaziniet maksimālo marķieru skaitu un vajadzības gadījumā pazeminiet temperatūru. Ja jums ir Apple Silicon vai moderna NVIDIA GPU, iespējojiet aparatūras paātrinājumu, lai iegūtu ievērojamu palielinājumu.
Q5:Kā Sider.AI iederas Ollama darbplūsmā?
Sider.AI var izveidot savienojumu ar jūsu vietējiem Ollama modeļiem un mākoņa modeļiem vienā saskarnē, padarot to viegli salīdzināt izvades un organizēt tērzēšanas. Tas ir noderīgi, lai testētu uzvednes, uzturētu vēsturi kārtībā un izvēlētos labāko atbildi, nežonglējot ar piecām lietotnēm.