Ooit geprobeerd een IKEA-meubel in elkaar te zetten zonder het kleine cartoonmannetje? Dat is hoe het kan voelen om lokale AI-modellen op te zetten. Veel onderdelen, mysterieuze namen en een aanhoudende angst dat je een schroef hebt gemist met het label "LLM runtime". Maak kennis met Ollama. Het is de inbussleutel voor het draaien van grote taalmodellen op je eigen machine - snel, privé en verrassend genoeg geen martelwerktuig.
In deze handleiding gaan we Ollama daadwerkelijk gebruiken. Niet alleen erover lezen. We downloaden het, draaien een model, passen het aan, leiden het naar je favoriete tools, lossen het moment "waarom schreeuwt mijn ventilator?" op, en gaan weg met een setup die je daadwerkelijk kunt vertrouwen om werk te doen. Ja, zelfs offline. Ja, zelfs in een vliegtuig. Nee, je hebt geen Ph.D. of een serverpark nodig.
Hier lees je hoe je Ollama als een pro gebruikt - zonder je laptop of je gezond verstand te vernielen.
Wat is Ollama (en waarom zou je het belangrijk vinden)?
Ollama is een lichtgewicht manier om grote taalmodellen (LLM's) lokaal te draaien. Denk aan ChatGPT, maar dan leeft het model op je computer. De voordelen:
- Privacy: Je gegevens blijven op je machine. Geen mysterieuze cloudtrip.
- Snelheid: Geen wachttijden op een server. Het is tijd voor je CPU/GPU om te schitteren.
- Controle: Kies het model, de versie, de grootte en het gedrag.
Als je ooit hebt gedacht: "Ik wou dat ik een AI dingen kon vragen zonder mijn persoonlijke notities naar Neptunus te sturen," dan is dit iets voor jou.
De snelste manier om Ollama te gebruiken
Je kwam voor de how-to. Laten we de how-to doen.
Stap 1: Installeer Ollama
- macOS: Gebruik het installatieprogramma van de officiële site of
brew install --cask ollama als je je krachtig wilt voelen.
- Windows: Download het installatieprogramma. Het is een normale setup - volgende, volgende, installeren.
- Linux: One-liner via het officiële script. Laat je innerlijke systeembeheerder 30 seconden los.
Na installatie draait Ollama een lokale service. Je communiceert ermee via Terminal, PowerShell of andere apps die ermee integreren.
Stap 2: Download je eerste model
In je terminal:
De eerste keer downloadt Ollama de modelgewichten. Zie het als het cachen van een grote Netflix-film. Daarna is het direct. Je krijgt een prompt waar je kunt typen en chatten.
Probeer een test: "Schrijf een samenvatting van 2 zinnen van Wikipedia's entry over pinguïns - geen onzin." Als het antwoord een pinguïn TED Talk is, weet je dat het leeft.
Stap 3: Wissel van model alsof je van afspeellijst wisselt
Populaire modellen die je kunt proberen:
Elk heeft verschillende sterke punten. Mistral is pittig. Llama 3.1 is veelzijdig. Phi is lichtgewicht en verrassend slim voor zijn grootte. Je kunt specifieke tags downloaden, bijv. llama3:8b-instruct of kleinere gekwantiseerde varianten.
Pro tip: Gebruik ollama pull <model> om van tevoren te downloaden. Gebruik ollama list om te zien wat je hebt en ollama rm <model> als je SSD huilt.
Stap 4: Chat vanuit de terminal als een hacker met sociale vaardigheden
- Start een sessie:
ollama run llama3
- Geef een systeembericht:
ollama run llama3 --system "Je bent een beknopte codeerassistent."
- Geef een eenmalige prompt zonder de chatmodus te openen:
ollama run llama3 -p "Leg Kubernetes uit alsof ik vijf ben."
Je gaat klinken als een tovenaar. Een beleefde tovenaar.
Stap 5: Gebruik Ollama met je favoriete apps
Hier wordt het leuk om Ollama te gebruiken. Ollama spreekt HTTP. Dat betekent dat veel tools ermee kunnen praten.
- Lokale web UI's: Veel AI-chat UI's kunnen verbinding maken met je Ollama-endpoint. Je krijgt een mooi venster, aparte chats en geschiedenis.
- Code-editors: Extensies voor VS Code kunnen je prompts naar Ollama routeren - inline code-uitleg, refactors en tests.
- Notitie-apps: Sommige laten je verbinding maken met een lokaal model voor samenvattingen en brainstormen. Perfect voor vergaderingsnotities die daadwerkelijk ergens naartoe gaan.
Let op: Als je een super schone, browser-gebaseerde chat- en onderzoeksworkflow wilt, is het de moeite waard om op te merken dat Sider.AI verbinding kan maken met lokale en cloudmodellen, chats kan organiseren en je kan helpen prompts side-by-side te testen. Wanneer ik verscheurd ben tussen "model A is slimmer" en "model B is sneller," houdt het me eerlijk. De blauwdruk voor beginners: Je eerste productieve uur met Ollama
Je hebt 60 minuten. Laten we "huh?" veranderen in "ja zeker."
- Installeer Ollama. Koffieslurpen. Klaar.
- Download
llama3:8b-instruct. Het is een sweet spot voor kwaliteit en snelheid op de meeste laptops.
- Maak een systeemprompt die bij je werk past: "Je bent mijn onderzoeksassistent. Geef altijd bronnen en opsommingstekens. Houd antwoorden onder de 200 woorden, tenzij ik anders zeg."
- Test drie taken die je daadwerkelijk doet:
- Vat een geplakt artikel samen in minder dan 250 woorden.
- Brainstorm 10 titelideeën voor je nieuwsbrief.
- Zet vergadernotities om in actiepunten met eigenaren en datums.
- Sla prompts op die je leuk vindt. Hergebruik ze. Zo ga je van spelen met AI naar het daadwerkelijk gebruiken ervan.
Bonus: Als je code schrijft, download dan codellama of een code-afgestemd model en voer het je functie in. Vraag om tests, refactors of docstrings. Je zult je 30% slimmer voelen, wat de wettelijke limiet is voor lokale AI.
Hoe je het juiste model kiest (zonder hoofdpijn)
Een model kiezen is als het kiezen van een streamingabonnement: je kunt absoluut te veel betalen voor dingen die je niet nodig hebt.
- Schrijven en brainstormen:
llama3 of mistral zijn geweldig.
- Superlichte laptops: probeer
phi3 of kleinere gekwantiseerde versies van grotere modellen.
- Codeerhulp:
codellama, deepseek coder, of een code-geoptimaliseerde variant.
- Meertalig:
qwen families doen solide meertalig werk.
- Langere context: Zoek naar modellen die zijn gelabeld met grotere contextvensters als je grote documenten invoert.
Als je ventilator in een helikopter verandert elke keer dat je een prompt geeft, verlaag dan de modelgrootte of probeer een agressievere kwantisatie.
De geheime saus: Modelfiles en aangepaste gedragingen
Hier wordt Ollama verrassend leuk. Je kunt een Modelfile maken - eigenlijk een recept - dat je model plus zijn persoonlijkheid en standaardinstellingen definieert.
Voorbeeld Modelfile (conceptueel):
FROM llama3:8b-instruct
SYSTEM "Je bent een heldere, vriendelijke assistent. Gebruik opsommingstekens en korte zinnen."
PARAMETER temperature 0.5
Sla het op als Modelfile in een map en voer vervolgens uit:
ollama create crisp-assistant -f Modelfile
ollama run crisp-assistant
Nu heb je een aangepaste assistent die je overal kunt hergebruiken. Het is alsof je je eigen private ChatGPT-smaak maakt - vanille, met espresso shots.
Praat JSON tegen me: Ollama's HTTP API gebruiken
Als je zelfs maar milde ontwikkelaar neigingen hebt, zal de API je doen grijnzen.
- Endpoint: ` voor tekstgeneratie.
- Stuur een JSON-payload met
model, prompt en optionele stream.
- Je krijgt tokens terug in een stream. Het voelt alsof je in realtime een roman leest, één teken tegelijk.
Waarom de API gebruiken?
- Automatiseer nieuwsbrief samenvattingen.
- Bouw een chatbot op je documenten.
- Maak scripts om productbeschrijvingen in bulk te herschrijven. (Zorg er alleen niet voor dat ze allemaal klinken als een robot die ooit een improvisatieles heeft gevolgd.)
Hoe je Ollama gebruikt met je eigen bestanden (RAG zonder woede)
RAG - retrieval-augmented generation - voert je bestanden naar het model zodat het antwoordt met feiten uit je spullen, niet zijn vage geheugen.
Basispad:
- Gebruik een lokale embedding tool om je documenten te indexeren.
- Zoek bij elke vraag naar de beste stukken.
- Stuur de meest relevante tekst als context in je prompt naar Ollama.
Zie het als een openboek tentamen voor de AI. Het hoeft je personeelshandboek niet te "onthouden" - het hoeft het alleen maar te citeren.
Pro tip: Houd je stukken klein (200-600 woorden), voeg kopjes toe en voeg bronlinks toe in de prompt, zodat het model leert te citeren.
Prestatie tuning: Laat Ollama vliegen (zonder je bureau te laten smelten)
- Kwantisatie is belangrijk: Q4 is kleiner/sneller, Q8 is groter/slimmer. Begin klein, ga omhoog.
- Gebruik GPU indien beschikbaar: Apple Silicon doet het geweldig. Nieuwere NVIDIA-kaarten? Chef's kiss.
- Temperatuur: Lager (0,2-0,5) voor precieze antwoorden; hoger (0,8+) voor creatieve chaos.
- Max tokens: Vraag niet om een roman van 3.000 woorden, tenzij je die echt nodig hebt. Je laptop wil graag blijven leven.
Als reacties traag aanvoelen:
- Probeer een kleiner model.
- Sluit Chrome tabs. Ja, alle 47.
- Schakel tijdelijk apps voor achtergrondsynchronisatie uit.
Beveiliging en privacy: De echte reden waarom mensen Ollama gebruiken
Lokaal betekent lokaal. Maar laten we niet slordig worden.
- Gevoelige gegevens: Je bent veiliger dan de cloud, maar versleutel je schijf en maak veilig een back-up.
- Modelbronnen: Download van vertrouwde repo's. Als een modelbeschrijving eruitziet alsof deze is geschreven door een kat die op een toetsenbord loopt, sla deze dan misschien over.
- Netwerktoegang: Ollama draait lokaal; stel de poort niet bloot op openbare netwerken, tenzij je weet wat je doet.
Dagelijkse workflows die je daadwerkelijk zult gebruiken
Omdat "wauw, netjes" niet hetzelfde is als "ik gebruik dit dagelijks." Hier lees je hoe je Ollama in het echte leven gebruikt:
- Vergaderingsreiniger: Plak notities, vraag om actiepunten per persoon en vraag een concept voor een follow-up e-mail aan.
- Onderzoeksvriend: Plak een artikel. Vraag om een tegenargument, 3 bronnen om beweringen te valideren en een samenvatting van 60 seconden.
- Codeer co-piloot: Vraag om docstrings, tests of een veiligere regex. Laat het de wijziging in gewoon Engels aan je uitleggen.
- Schrijfsprint: Schets eerst, breid dan uit, span dan de toon aan. Bewaar een systeembericht dat je stem definieert.
- Leren: Leer me SSH alsof je mijn geduldige oudere neef bent. Test me dan.
Let op: Als je dit allemaal graag op één plek bewaart - chatgeschiedenissen, side-by-side modeltests en snelle webzoekopdrachten - speelt Sider.AI goed samen met lokale modellen en geeft je een schonere cockpit. Het is als mission control voor je prompts. Probleemoplossing: Wanneer Ollama humeurig wordt
- "Model niet gevonden." Je hebt het nog niet gedownload.
ollama pull <model>.
- "Geheugen tekort." Gebruik een kleinere kwantisatie of modelgrootte.
- "Het is zo traag dat ik mijn laptop hoor verouderen." Verminder het maximale aantal tokens, wissel van model of gebruik GPU-acceleratie.
- "Antwoorden zijn te vaag." Verlaag de temperatuur en voeg voorbeelden toe aan je prompt.
- "Het blijft mijn instructies negeren." Plaats regels in de systeemprompt, niet alleen de gebruikersprompt.
Pro tip: Sla prompts op die werken. Goede prompts zijn als goede koffierecepten. Toekomstige jij zal de vroegere jij dankbaar zijn.
Geavanceerde moves: Multi-model, tools en automatisering
- Chain-of-thought lite: Vraag het om stappen op te sommen voordat het antwoordt. "Schets eerst, schrijf dan alinea voor alinea."
- Multi-model workflow: Brainstorm met een creatief model, verifieer met een nauwkeurig model. Denk buddy cop movie.
- Toolgebruik: Wrap webzoekopdrachten, rekenmachines of code-uitvoering rond Ollama via scripts. Laat het model beslissen welke tool het moet aanroepen, maar valideer de outputs.
- Batch jobs: Leid een CSV met productbeschrijvingen naar een script dat de API aanroept en resultaten terugschrijft. Koffie, draaien, klaar.
Hoe je Ollama veilig gebruikt in teams
Als je de onofficiële IT-persoon bent (sorry), stel dan vangrails in:
- Standaardiseer op een paar goedgekeurde modellen.
- Deel een Modelfile voor de teamstem en -opmaak.
- Bewaar een promptbibliotheek voor herhaalde taken.
- Log input/output voor bepaalde workflows - lokaal - zodat je de kwaliteit kunt beoordelen zonder mensen te besluipen.
De vraag "Heb ik de cloud nodig?"
Soms wel. Als je gigantisch contextonderzoek, geavanceerde redeneringen of multi-modale tovenarij nodig hebt, kan een cloudmodel nog steeds winnen. De hybride move is slim:
- Gebruik Ollama lokaal voor concepten, private documenten en snelle iteratie.
- Gebruik een cloudmodel voor complexe redeneringen of enorme inputs.
- Vergelijk resultaten in dezelfde interface, zodat je met je ogen kiest, niet met vibes.
De moeite waard om op te merken: Sider.AI maakt die vergelijking pijnloos. Je kunt dezelfde prompt naar lokale Ollama en een cloudmodel routeren en vervolgens het beste antwoord kiezen of ze samenvoegen. Het is alsof je twee koffiesoorten proeft en je realiseert dat je ze kunt mixen. Je eenweekse plan om de kantoor Ollama-fluisteraar te worden
Dag 1: Installeer, download llama3, stel een systeemprompt in.
Dag 2: Bouw een Modelfile voor je toon. Probeer twee modellen en noteer verschillen.
Dag 3: Sluit een notitie- of codetool aan op Ollama.
Dag 4: Maak een klein RAG-prototype met een paar PDF's.
Dag 5: Automatiseer een vervelende taak met de API.
Dag 6: Deel een promptbibliotheek met je team.
Dag 7: Bekijk wat werkte, snoei wat niet werkte en stel standaardwaarden in.
Op dat moment weet je niet alleen hoe je Ollama moet gebruiken - je gebruikt het zonder erover na te denken, wat het hele punt is van tools die we bewaren.
De bottom line
Hoe je Ollama gebruikt, komt neer op drie dingen:
- Houd het lokaal en simpel om te beginnen. Download één model, doe drie echte taken.
- Pas het gedrag aan met systeemprompts en Modelfiles, zodat het bij je hersenen past, niet andersom.
- Integreer het waar je werkt - editor, browser, notities - zodat het geen tabblad is dat je vergeet.
Ollama maakt je laptop niet magisch. Het zal het meer van jou maken. En in een wereld waar elke app probeert je gegevens naar de server van iemand anders te verplaatsen, is dat een behoorlijk verfrissende upgrade.
Vraag nu je lokale AI om een betere out-of-office-melding te schrijven. En misschien om je eraan te herinneren om de dag daadwerkelijk vrij te nemen.
FAQ
V1:Wat is de gemakkelijkste manier om aan de slag te gaan met Ollama?
Installeer het, download een vriendelijk model zoals llama3:8b-instruct en voer een paar echte taken uit - samenvattingen, overzichten of e-mailconcepten. Houd de temperatuur laag voor duidelijke, voorspelbare antwoorden en sla alle prompts op die goed werken.
V2:Welk model moet ik gebruiken in Ollama voor schrijven en coderen?
Begin voor het schrijven met llama3 of mistral voor een evenwichtige kwaliteit en snelheid. Probeer voor het coderen codellama of een code-geoptimaliseerd model; houd de temperatuur rond 0,2-0,4 voor minder hallucinaties.
V3:Kan ik mijn eigen documenten gebruiken met Ollama (RAG)?
Ja - indexeer je bestanden met een embedding tool, haal de beste stukken op bij elke query en neem die stukken op als context in je prompt naar Ollama. Het is als een openboek modus voor je AI en het verbetert de feitelijke nauwkeurigheid drastisch.
V4:Waarom is Ollama traag op mijn laptop en hoe kan ik het versnellen?
Gebruik een kleiner gekwantiseerd model (bijv. Q4), verminder het maximale aantal tokens en verlaag indien nodig de temperatuur. Als je Apple Silicon of een moderne NVIDIA GPU hebt, schakel dan hardwareversnelling in voor een merkbare boost.
V5:Hoe past Sider.AI in een Ollama-workflow?
Sider.AI kan verbinding maken met je lokale Ollama-modellen en cloudmodellen in één interface, waardoor het gemakkelijk is om outputs te vergelijken en chats te organiseren. Het is handig voor het testen van prompts, het netjes houden van de geschiedenis en het kiezen van het beste antwoord zonder met vijf apps te jongleren.