What’s the easiest way to get started with Ollama?

Install it, pull a friendly model like llama3:8b-instruct, and run a few real tasks—summaries, outlines, or email drafts. Keep the temperature low for clear, predictable answers and save any prompts that work well.

Which model should I use in Ollama for writing and coding?

For writing, start with llama3 or mistral for balanced quality and speed. For coding, try codellama or a code-optimized model; keep temperature around 0.2–0.4 for fewer hallucinations.

Can I use my own documents with Ollama (RAG)?

Yes—index your files with an embedding tool, retrieve the top chunks on each query, and include those chunks as context in your prompt to Ollama. It’s like open-book mode for your AI, and it drastically improves factual accuracy.

Why is Ollama slow on my laptop and how do I speed it up?

Use a smaller quantized model (e.g., Q4), reduce max tokens, and lower temperature if needed. If you have Apple Silicon or a modern NVIDIA GPU, enable hardware acceleration for a noticeable boost.

How does [Sider.AI](https://sider.ai) fit into an Ollama workflow?

[Sider.AI](https://sider.ai) can connect to your local Ollama models and cloud models in one interface, making it easy to compare outputs and organize chats. It’s handy for testing prompts, keeping history tidy, and picking the best answer without juggling five apps.

Kako koristiti Ollamu bez gubitka razuma (ili vikenda)

Jeste li ikada pokušali sastaviti komad IKEA namještaja bez onog malog crtanog lika? E, tako izgleda pokretanje lokalnih AI modela. Puno dijelova, tajanstvena imena i stalni strah da vam je promaknuo vijak označen kao “LLM runtime.” Tu nastupa Ollama. To je imbus ključ za pokretanje velikih jezičnih modela na vlastitom računalu—brzo, privatno i iznenađujuće nije naprava za mučenje.

U ovom vodiču ćemo zapravo koristiti Ollama. Ne samo čitati o njemu. Preuzet ćemo ga, pokrenuti model, prilagoditi ga, provući ga kroz vaše omiljene alate, popraviti trenutak “zašto moj ventilator vrišti?” i otići s postavkom kojoj zapravo možete vjerovati da će obaviti posao. Da, čak i offline. Da, čak i u avionu. Ne, ne treba vam doktorat znanosti ili poslužiteljska farma.

Evo kako koristiti Ollama kao profesionalac—bez da uništite svoje prijenosno računalo ili svoje zdravlje.

Što je Ollama (i zašto bi vas to trebalo zanimati)?

Ollama je lagan način za lokalno pokretanje velikih jezičnih modela (LLM-ova). Zamislite ChatGPT, ali model živi na vašem računalu. Prednosti:

Privatnost: Vaši podaci ostaju na vašem računalu. Nema tajanstvenih putovanja u oblak.

Brzina: Nema čekanja servera. Vrijeme je da vaš CPU/GPU zablistaju.

Kontrola: Odaberite model, verziju, veličinu i ponašanje.

Ako ste ikada pomislili: “Volio bih pitati AI stvari bez slanja svojih osobnih bilješki na Neptun,” ovo je za vas.

Najbrži način za korištenje Ollame

Došli ste po upute. Učinimo to.

Korak 1: Instalirajte Ollama

macOS: Koristite instalacijski program s službene stranice ili brew install --cask ollama ako se želite osjećati moćno.

Windows: Preuzmite instalacijski program. To je normalna instalacija—dalje, dalje, instaliraj.

Linux: Jednolinijski putem službene skripte. Kanalizirajte svog unutarnjeg administratora sustava na 30 sekundi.

Nakon instalacije, Ollama pokreće lokalnu uslugu. Razgovarate s njom putem terminala, PowerShell-a ili drugih aplikacija koje se integriraju s njom.

Korak 2: Povucite svoj prvi model

U svom terminalu:

ollama run llama3

Prvi put, Ollama preuzima težine modela. Zamislite to kao predmemoriranje velikog Netflix filma. Nakon toga, to je trenutno. Dobit ćete upit gdje možete tipkati i razgovarati.

Isprobajte test: “Napišite sažetak u 2 rečenice Wikipedijinog unosa o pingvinima—bez uljepšavanja.” Ako odgovori s TED govorom o pingvinima, znate da je živ.

Korak 3: Mijenjajte modele kao što mijenjate popise pjesama

Popularni modeli koje možete isprobati:

ollama run llama3.1

ollama run mistral

ollama run phi3

ollama run qwen

ollama run gemma

Svaki ima različite snage. Mistral je brz. Llama 3.1 je dobro zaokružen. Phi je lagan i iznenađujuće pametan za svoju veličinu. Možete povući određene oznake, npr. llama3:8b-instruct ili manje kvantizirane varijante.

Profesionalni savjet: Koristite ollama pull <model> za preuzimanje unaprijed. Koristite ollama list da vidite što imate i ollama rm <model> ako vaš SSD plače.

Korak 4: Razgovarajte s terminala kao haker sa socijalnim vještinama

Pokrenite sesiju: ollama run llama3

Navedite poruku sustava: ollama run llama3 --system "Vi ste jezgrovit pomoćnik za kodiranje."

Dajte jednokratni upit bez ulaska u način rada za razgovor: ollama run llama3 -p "Objasnite Kubernetes kao da imam pet godina."

Počet ćete zvučati kao čarobnjak. Pristojan čarobnjak.

Korak 5: Koristite Ollama sa svojim omiljenim aplikacijama

Ovdje postaje zabavno kako koristiti Ollama. Ollama govori HTTP. To znači da mnogi alati mogu razgovarati s njim.

Lokalna web sučelja: Mnoga sučelja za AI chat mogu se povezati s vašom Ollama krajnjom točkom. Dobivate lijep prozor, odvojene razgovore i povijest.

Uređivači koda: Proširenja za VS Code mogu usmjeriti vaše upite na Ollama—objašnjenja u retku koda, refaktori i testovi.

Aplikacije za bilježenje: Neke vam omogućuju povezivanje s lokalnim modelom za sažetke i razmišljanje. Savršeno za bilješke sa sastanaka koje zapravo idu negdje.

Važna napomena: Ako želite super čisto sučelje za chat i istraživački tijek rada zasnovan na pregledniku, vrijedi napomenuti—Sider.AI se može povezati s lokalnim modelima i modelima u oblaku, organizirati razgovore i pomoći vam da testirate upite usporedo. Kad sam rastrgan između “model A je pametniji” i “model B je brži,” to me drži iskrenim.

Početni nacrt: Vaš prvi produktivan sat s Ollamom

Imate 60 minuta. Pretvorimo “ha?” u “ma da!”

Instalirajte Ollama. Gutljaj kave. Gotovo.

Povucite llama3:8b-instruct. To je slatka točka za kvalitetu i brzinu na većini prijenosnih računala.

Stvorite sistemski upit koji odgovara vašem radu: “Ti si moj istraživački asistent. Uvijek navedite izvore i točke s grafičkim oznakama. Držite odgovore ispod 200 riječi, osim ako ne kažem drugačije.”

Testirajte tri zadatka koja zapravo radite:

Sažmite zalijepljeni članak ispod 250 riječi.

Osmislite 10 ideja za naslove svog biltena.

Pretvorite bilješke sa sastanka u akcijske stavke s vlasnicima i datumima.

Spremite upite koji vam se sviđaju. Ponovno ih upotrijebite. Ovako prelazite s igranja s umjetnom inteligencijom na stvarno korištenje.

Bonus: Ako pišete kod, povucite codellama ili model podešen za kod i unesite svoju funkciju. Zatražite testove, refaktore ili docstringove. Osjećat ćete se 30% pametnije, što je zakonska granica za lokalnu umjetnu inteligenciju.

Kako odabrati pravi model (bez glavobolje)

Odabir modela je poput odabira plana za streaming: apsolutno možete preplatiti stvari koje vam ne trebaju.

Pisanje i razmišljanje: llama3 ili mistral su odlični.

Super lagana prijenosna računala: isprobajte phi3 ili manje kvantizirane verzije većih modela.

Pomoć pri kodiranju: codellama, deepseek coder, ili varijanta optimizirana za kod.

Višejezično: qwen obitelji rade solidan višejezični posao.

Duži kontekst: Potražite modele označene većim kontekstnim prozorima ako unosite velike dokumente.

Ako se vaš ventilator pretvori u helikopter svaki put kad nešto zatražite, smanjite veličinu modela ili isprobajte agresivniju kvantizaciju.

Tajni sastojak: Modelfiles i prilagođena ponašanja

Ovdje Ollama postaje iznenađujuće divan. Možete stvoriti Modelfile—u osnovi recept—koji definira vaš model plus njegovu osobnost i zadane postavke.

Primjer Modelfile (konceptualno):

FROM llama3:8b-instruct SYSTEM "Vi ste jasan, prijateljski pomoćnik. Koristite točke s grafičkim oznakama i kratke rečenice." PARAMETER temperature 0.5

Spremite ga kao Modelfile u mapu, a zatim pokrenite:

ollama create crisp-assistant -f Modelfile

ollama run crisp-assistant

Sada imate prilagođenog pomoćnika kojeg možete ponovno upotrijebiti posvuda. To je kao da napravite vlastiti privatni okus ChatGPT-a—vanilija, s dozom espressa.

Pričaj mi JSON: Korištenje Ollaminog HTTP API-ja

Ako imate čak i blage developerske sklonosti, API će vas nasmijati.

Krajnja točka: ` za generiranje teksta.

Pošaljite JSON nosivost s model, prompt i opcionalnim stream.

Dobit ćete tokene natrag u streamu. Osjećaj je kao da čitate roman u stvarnom vremenu, jedan po jedan znak.

Zašto koristiti API?

Automatizirajte sažetke biltena.

Izgradite chatbot na svojim dokumentima.

Stvorite skripte za masovno prepisivanje opisa proizvoda. (Samo nemojte dopustiti da svi zvuče kao robot koji je jednom išao na improvizaciju.)

Kako koristiti Ollama s vlastitim datotekama (RAG bez bijesa)

RAG—generiranje obogaćeno pretraživanjem—unosi vaše datoteke u model tako da odgovara činjenicama iz vaših stvari, a ne iz svog nejasnog sjećanja.

Osnovni put:

Upotrijebite lokalni alat za ugrađivanje za indeksiranje svojih dokumenata.

Za svako pitanje potražite najbolje dijelove.

Pošaljite najrelevantniji tekst kao kontekst u svom upitu Ollami.

Zamislite to kao testiranje otvorenih knjiga za umjetnu inteligenciju. Ne mora se “sjećati” vašeg priručnika za zaposlenike—samo ga treba citirati.

Profesionalni potez: Neka vaši dijelovi budu mali (200–600 riječi), dodajte naslove i uključite izvorne poveznice u upit kako bi model naučio citirati.

Podešavanje performansi: Neka Ollama leti (bez topljenja vašeg stola)

Kvantizacija je važna: Q4 je manji/brži, Q8 je veći/pametniji. Počnite s malim, pomaknite se prema gore.

Upotrijebite GPU ako je dostupan: Apple Silicon radi sjajno. Novije NVIDIA kartice? Poljubac kuhara.

Temperatura: Niža (0,2–0,5) za precizne odgovore; viša (0,8+) za kreativni kaos.

Maksimalni broj tokena: Nemojte tražiti roman od 3000 riječi, osim ako vam stvarno ne treba. Vaše prijenosno računalo bi željelo živjeti.

Ako se odgovori osjećaju sporo:

Isprobajte manji model.

Zatvorite kartice Chromea. Da, svih 47.

Privremeno onemogućite aplikacije za sinkronizaciju u pozadini.

Sigurnost i privatnost: Pravi razlog zašto ljudi koriste Ollama

Lokalno znači lokalno. Ali nemojmo biti nemarni.

Osjetljivi podaci: Sigurniji ste od oblaka, ali šifrirajte svoj pogon i sigurno ga sigurnosno kopirajte.

Izvori modela: Povucite iz pouzdanih repozitorija. Ako opis modela izgleda kao da ga je napisala mačka koja hoda po tipkovnici, možda ga preskočite.

Mrežni pristup: Ollama radi lokalno; nemojte izlagati priključak na javnim mrežama, osim ako ne znate što radite.

Svakodnevni tijekovi rada koje ćete zapravo koristiti

Jer “vau, uredno” nije isto što i “koristim ovo svakodnevno.” Evo kako koristiti Ollama u stvarnom životu:

Čistač sastanaka: Zalijepite bilješke, zatražite akcijske stavke po osobi i zatražite nacrt e-pošte za praćenje.

Prijatelj za istraživanje: Zalijepite članak. Zatražite protuargument, 3 izvora za provjeru tvrdnji i sažetak od 60 sekundi.

Kopilot za kodiranje: Zatražite docstringove, testove ili sigurniji regex. Neka vam objasni promjenu natrag na jednostavnom hrvatskom jeziku.

Sprint za pisanje: Prvo napravite obris, zatim proširite, a zatim zategnite ton. Zadržite poruku sustava koja definira vaš glas.

Učenje: Nauči me SSH kao da si moj strpljivi stariji rođak. Zatim me ispitaj.

Važna napomena: Ako želite sve ovo držati na jednom mjestu—povijest razgovora, usporedne testove modela i brza web pretraživanja—Sider.AI se lijepo igra s lokalnim modelima i daje vam čišći kokpit. To je kao kontrola misije za vaše upite.

Rješavanje problema: Kada Ollama postane neraspoložen

“Model nije pronađen.” Još ga niste povukli. ollama pull <model>.

“Nedostatak memorije.” Upotrijebite manju kvantizaciju ili veličinu modela.

“Tako je sporo da čujem kako moje prijenosno računalo stari.” Smanjite maksimalni broj tokena, promijenite modele ili upotrijebite GPU ubrzanje.

“Odgovori su previše nejasni.” Smanjite temperaturu i dodajte primjere svom upitu.

“Stalno ignorira moje upute.” Stavite pravila u sistemski upit, a ne samo u korisnički upit.

Profesionalni savjet: Spremite upite koji rade. Dobri upiti su poput dobrih recepata za kavu. Budući ćete zahvaliti prošlom sebi.

Napredni potezi: Više modela, alati i automatizacija

Lanac misli lite: Zamolite ga da navede korake prije odgovaranja. “Prvo napravite obris, zatim pišite odlomak po odlomak.”

Tijek rada s više modela: Razmislite s kreativnim modelom, provjerite s preciznim. Zamislite film o policijskim partnerima.

Upotreba alata: Omotajte web pretraživanja, kalkulatore ili izvršavanje koda oko Ollame putem skripti. Neka model odluči koji alat pozvati, ali potvrdite izlaze.

Skupni poslovi: Usmjerite CSV opisa proizvoda u skriptu koja poziva API i vraća rezultate natrag. Kava, pokreni, gotovo.

Kako sigurno koristiti Ollama u timovima

Ako ste neslužbena IT osoba (žao mi je), postavite zaštitne ograde:

Standardizirajte se na nekoliko odobrenih modela.

Podijelite Modelfile za timski glas i formatiranje.

Vodite biblioteku upita za ponavljajuće zadatke.

Zabilježite ulaz/izlaz za određene tijekove rada—lokalno—kako biste mogli pregledati kvalitetu bez njuškanja po ljudima.

Pitanje “Trebam li oblak?”

Ponekad da. Ako trebate istraživanje divovskog konteksta, vrhunsko zaključivanje ili višemodalno čarobnjaštvo, model u oblaku još uvijek može pobijediti. Hibridni potez je pametan:

Koristite Ollama lokalno za nacrte, privatne dokumente i brzu iteraciju.

Koristite model u oblaku za složeno zaključivanje ili ogromne unose.

Usporedite rezultate u istom sučelju tako da birate očima, a ne vibracijama.

Vrijedi napomenuti: Sider.AI olakšava tu usporedbu. Možete usmjeriti isti upit na lokalni Ollama i model u oblaku, a zatim odabrati najbolji odgovor ili ih spojiti. To je kao da kušate dvije kave i shvatite da ih možete pomiješati.

Vaš tjedni plan da postanete šaptač u uredu Ollama

1. dan: Instalirajte, povucite llama3, postavite sistemski upit. 2. dan: Izradite Modelfile za svoj ton. Isprobajte dva modela i zabilježite razlike. 3. dan: Povežite alat za bilježenje ili kodiranje s Ollamom. 4. dan: Stvorite mali RAG prototip s nekoliko PDF-ova. 5. dan: Automatizirajte jedan zamoran zadatak s API-jem. 6. dan: Podijelite biblioteku upita sa svojim timom. 7. dan: Pregledajte što je uspjelo, uklonite što nije i postavite zadane postavke.

U tom trenutku nećete samo znati kako koristiti Ollama—koristit ćete ga bez razmišljanja o tome, što je cijela poanta alata koje držimo.

Zaključak

Kako koristiti Ollama svodi se na tri stvari:

Neka bude lokalno i jednostavno za početak. Povucite jedan model, obavite tri stvarna zadatka.

Prilagodite ponašanje sistemskim upitima i Modelfiles tako da odgovara vašem mozgu, a ne obrnuto.

Integrirajte ga tamo gdje radite—uređivač, preglednik, bilješke—tako da to nije još jedna kartica koju zaboravite.

Ollama neće učiniti vaše prijenosno računalo čarobnim. Učinit će ga više vašim. A u svijetu u kojem svaka aplikacija pokušava prebaciti vaše podatke na nečiji drugi poslužitelj, to je prilično osvježavajuća nadogradnja.

Sada idite pitati svoju lokalnu umjetnu inteligenciju da napiše bolju poruku izvan ureda. I možda da vas podsjeti da zapravo uzmete slobodan dan.

Često postavljana pitanja

P1:Koji je najlakši način za početak s Ollamom? Instalirajte ga, povucite prijateljski model kao što je llama3:8b-instruct i pokrenite nekoliko stvarnih zadataka—sažetke, obrise ili nacrte e-pošte. Držite nisku temperaturu za jasne, predvidljive odgovore i spremite sve upite koji dobro funkcioniraju.

P2:Koji model trebam koristiti u Ollami za pisanje i kodiranje? Za pisanje, počnite s llama3 ili mistral za uravnoteženu kvalitetu i brzinu. Za kodiranje, isprobajte codellama ili model optimiziran za kod; držite temperaturu oko 0,2–0,4 za manje halucinacija.

P3:Mogu li koristiti vlastite dokumente s Ollamom (RAG)? Da—indeksirajte svoje datoteke alatom za ugrađivanje, dohvatite najbolje dijelove za svaki upit i uključite te dijelove kao kontekst u svom upitu Ollami. To je kao način rada s otvorenom knjigom za vašu umjetnu inteligenciju i drastično poboljšava činjeničnu točnost.

P4:Zašto je Ollama spor na mom prijenosnom računalu i kako ga ubrzati? Upotrijebite manji kvantizirani model (npr. Q4), smanjite maksimalni broj tokena i smanjite temperaturu ako je potrebno. Ako imate Apple Silicon ili modernu NVIDIA GPU, omogućite hardversko ubrzanje za osjetno poboljšanje.

P5:Kako se Sider.AI uklapa u tijek rada Ollame? Sider.AI se može povezati s vašim lokalnim Ollama modelima i modelima u oblaku u jednom sučelju, što olakšava usporedbu izlaza i organiziranje razgovora. To je korisno za testiranje upita, održavanje uredne povijesti i odabir najboljeg odgovora bez žongliranja s pet aplikacija.