What’s the easiest way to get started with Ollama?

Install it, pull a friendly model like llama3:8b-instruct, and run a few real tasks—summaries, outlines, or email drafts. Keep the temperature low for clear, predictable answers and save any prompts that work well.

Which model should I use in Ollama for writing and coding?

For writing, start with llama3 or mistral for balanced quality and speed. For coding, try codellama or a code-optimized model; keep temperature around 0.2–0.4 for fewer hallucinations.

Can I use my own documents with Ollama (RAG)?

Yes—index your files with an embedding tool, retrieve the top chunks on each query, and include those chunks as context in your prompt to Ollama. It’s like open-book mode for your AI, and it drastically improves factual accuracy.

Why is Ollama slow on my laptop and how do I speed it up?

Use a smaller quantized model (e.g., Q4), reduce max tokens, and lower temperature if needed. If you have Apple Silicon or a modern NVIDIA GPU, enable hardware acceleration for a noticeable boost.

How does [Sider.AI](https://sider.ai) fit into an Ollama workflow?

[Sider.AI](https://sider.ai) can connect to your local Ollama models and cloud models in one interface, making it easy to compare outputs and organize chats. It’s handy for testing prompts, keeping history tidy, and picking the best answer without juggling five apps.

Com utilitzar Ollama sense perdre el cap (ni el cap de setmana)

Alguna vegada has intentat muntar un moble d'IKEA sense el personatge de dibuixos animats? Això és el que pot semblar posar en marxa models d'IA locals. Moltes peces, noms misteriosos i la por persistent d'haver perdut un cargol etiquetat com a "temps d'execució LLM". Entra en joc Ollama. És la clau Allen per executar models de llenguatge grans a la teva pròpia màquina: ràpid, privat i, sorprenentment, no és un dispositiu de tortura.

En aquesta guia, farem servir Ollama de veritat. No només en llegirem. El descarregarem, executarem un model, el personalitzarem, l'integrarem a les teves eines preferides, solucionarem el moment de "per què crida el meu ventilador?" i marxarem amb una configuració en la qual pots confiar per treballar. Sí, fins i tot fora de línia. Sí, fins i tot en un avió. No, no necessites un doctorat ni una granja de servidors.

Aquí tens com utilitzar Ollama com un professional, sense inutilitzar el teu portàtil ni la teva salut mental.

Què és Ollama (i per què t'hauria d'importar)?

Ollama és una manera lleugera d'executar models de llenguatge grans (LLM) localment. Pensa en ChatGPT, però el model viu al teu ordinador. Els avantatges:

Privacitat: les teves dades es queden a la teva màquina. Cap viatge misteriós al núvol.

Velocitat: sense esperar un servidor. És el moment de brillar de la teva CPU/GPU.

Control: tria el model, la versió, la mida i el comportament.

Si alguna vegada has pensat: "M'agradaria poder preguntar coses a una IA sense enviar les meves notes personals a Neptú", això és per a tu.

La manera més ràpida d'utilitzar Ollama

Has vingut pel com fer-ho. Anem a fer el com fer-ho.

Pas 1: instal·la Ollama

macOS: utilitza l'instal·lador del lloc web oficial o brew install --cask ollama si t'agrada sentir-te poderós.

Windows: agafa l'instal·lador. És una configuració normal: següent, següent, instal·la.

Linux: una línia a través de l'script oficial. Canalitza el teu sysadmin interior durant 30 segons.

Un cop instal·lat, Ollama executa un servei local. Hi parles a través del Terminal, PowerShell o altres aplicacions que s'hi integren.

Pas 2: descarrega el teu primer model

Al teu terminal:

ollama run llama3

La primera vegada, Ollama descarrega els pesos del model. Pensa-hi com emmagatzemar en memòria cau una pel·lícula gran de Netflix. Després d'això, és instantani. Obtindràs un indicador on pots escriure i xatejar.

Prova una prova: "Escriu un resum de 2 frases de l'entrada de la Viquipèdia sobre els pingüins, sense palla". Si respon amb una xerrada TED de pingüins, saps que està viu.

Pas 3: canvia de model com si canviessis de llista de reproducció

Models populars que pots provar:

ollama run llama3.1

ollama run mistral

ollama run phi3

ollama run qwen

ollama run gemma

Cadascun té diferents punts forts. Mistral és àgil. Llama 3.1 és complet. Phi és lleuger i sorprenentment intel·ligent per la seva mida. Pots descarregar etiquetes específiques, per exemple, llama3:8b-instruct o variants quantificades més petites.

Consell professional: utilitza ollama pull <model> per descarregar per endavant. Utilitza ollama list per veure què tens i ollama rm <model> si el teu SSD està plorant.

Pas 4: xateja des del terminal com un hacker amb habilitats socials

Inicia una sessió: ollama run llama3

Proporciona un missatge del sistema: ollama run llama3 --system "Ets un assistent de codificació concís."

Dona una indicació única sense entrar en mode de xat: ollama run llama3 -p "Explica Kubernetes com si tingués cinc anys."

Començaràs a sonar com un mag. Un mag educat.

Pas 5: utilitza Ollama amb les teves aplicacions preferides

Aquí és on com utilitzar Ollama es torna divertit. Ollama parla HTTP. Això vol dir que moltes eines poden parlar-hi.

IU web locals: moltes IU de xat d'IA es poden connectar al teu punt final d'Ollama. Obtens una finestra bonica, xats separats i historial.

Editors de codi: les extensions per a VS Code poden encaminar les teves indicacions a Ollama: explicacions de codi en línia, refactoritzacions i proves.

Aplicacions per prendre notes: algunes et permeten connectar-te a un model local per fer resums i pluja d'idees. Perfecte per a notes de reunions que realment arriben a algun lloc.

Atenció: si vols un xat i un flux de treball d'investigació basats en navegador súper nets, val la pena assenyalar-ho: Sider.AI es pot connectar a models locals i al núvol, organitzar xats i ajudar-te a provar indicacions colze a colze. Quan estic dividit entre "el model A és més intel·ligent" i "el model B és més ràpid", em manté honest.

El pla bàsic per a principiants: la teva primera hora productiva amb Ollama

Tens 60 minuts. Convertim el "eh?" en "és clar que sí".

Instal·la Ollama. Un glop de cafè. Fet.

Descarrega llama3:8b-instruct. És un punt dolç per a la qualitat i la velocitat en la majoria dels portàtils.

Crea una indicació del sistema que s'adapti al teu treball: "Ets el meu assistent d'investigació. Sempre proporciona fonts i punts de bala. Mantén les respostes per sota de les 200 paraules tret que digui el contrari."

Prova tres tasques que realment fas:

Resumeix un article enganxat en menys de 250 paraules.

Brainstorm 10 idees de títols per al teu butlletí.

Converteix les notes de la reunió en elements d'acció amb propietaris i dates.

Desa les indicacions que t'agraden. Reutilitza-les. Així és com passes de jugar amb la IA a utilitzar-la realment.

Bonificació: si escrius codi, descarrega codellama o un model ajustat al codi i alimenta-li la teva funció. Demana proves, refactoritzacions o docstrings. Et sentiràs un 30% més intel·ligent, que és el límit legal per a la IA local.

Com triar el model adequat (sense mal de cap)

Triar un model és com triar un pla de streaming: pots pagar en excés per coses que no necessites.

Escriptura i pluja d'idees: llama3 o mistral són genials.

Portàtils súper lleugers: prova phi3 o versions quantificades més petites de models més grans.

Ajuda amb la codificació: codellama, deepseek coder o una variant optimitzada per al codi.

Multilingüe: les famílies qwen fan un treball multilingüe sòlid.

Context més llarg: busca models etiquetats amb finestres de context més grans si alimentes documents grans.

Si el teu ventilador es converteix en un helicòpter cada vegada que demanes una indicació, redueix la mida del model o prova una quantificació més agressiva.

La salsa secreta: fitxers de model i comportaments personalitzats

Aquí és on Ollama es torna sorprenentment deliciós. Pots crear un fitxer de model (bàsicament una recepta) que defineix el teu model més la seva personalitat i valors per defecte.

Exemple de fitxer de model (conceptual):

FROM llama3:8b-instruct SYSTEM "Ets un assistent nítid i amable. Utilitza punts de bala i frases curtes." PARAMETER temperature 0.5

Desa-ho com a fitxer de model en una carpeta i, a continuació, executa:

ollama create crisp-assistant -f Modelfile

ollama run crisp-assistant

Ara tens un assistent personalitzat que pots reutilitzar a tot arreu. És com fer el teu propi sabor privat de ChatGPT: vainilla, amb xarrups d'espresso.

Parla'm en JSON: utilitzar l'API HTTP d'Ollama

Si tens fins i tot tendències de desenvolupador lleus, l'API et farà somriure.

Punt final: ` per a la generació de text.

Envia una càrrega útil JSON amb model, prompt i stream opcional.

Recuperaràs tokens en un flux. Se sent com llegir una novel·la en temps real, un caràcter a la vegada.

Per què utilitzar l'API?

Automatitza els resums del butlletí.

Crea un chatbot als teus documents.

Crea scripts per reescriure massivament descripcions de productes. (Només no facis que totes sonin com un robot que va fer improvisació una vegada.)

Com utilitzar Ollama amb els teus propis fitxers (RAG sense ràbia)

RAG: la generació augmentada per recuperació alimenta els teus fitxers al model perquè respongui amb fets de les teves coses, no de la seva memòria difusa.

Ruta bàsica:

Utilitza una eina d'incrustació local per indexar els teus documents.

A cada pregunta, busca els fragments principals.

Envia el text més rellevant com a context a la teva indicació a Ollama.

Pensa-hi com si fos una prova de llibre obert per a la IA. No necessita "recordar" el teu manual d'empleats, només necessita citar-lo.

Moviment professional: mantén els teus fragments petits (200-600 paraules), afegeix encapçalaments i inclou enllaços de fonts a la indicació perquè el model aprengui a citar.

Ajust de rendiment: fes volar Ollama (sense fondre el teu escriptori)

La quantificació importa: Q4 és més petit/més ràpid, Q8 és més gran/més intel·ligent. Comença petit, puja.

Utilitza la GPU si està disponible: Apple Silicon ho fa molt bé. Targetes NVIDIA més noves? Un petó del xef.

Temperatura: més baixa (0,2-0,5) per a respostes precises; més alta (0,8+) per al caos creatiu.

Màxim de tokens: no demanis una novel·la de 3.000 paraules tret que realment la necessitis. Al teu portàtil li agradaria viure.

Si les respostes se senten lentes:

Prova un model més petit.

Tanca les pestanyes de Chrome. Sí, les 47.

Desactiva temporalment les aplicacions de sincronització en segon pla.

Seguretat i privadesa: la veritable raó per la qual la gent utilitza Ollama

Local significa local. Però no siguem descuidats.

Dades sensibles: estàs més segur que al núvol, però xifra la teva unitat i fes còpies de seguretat de forma segura.

Fonts del model: descarrega de repositoris de confiança. Si una descripció del model sembla que va ser escrita per un gat caminant sobre un teclat, potser omet-la.

Accés a la xarxa: Ollama s'executa localment; no exposis el port a xarxes públiques tret que sàpigues què estàs fent.

Fluxos de treball quotidians que realment utilitzaràs

Perquè "wow, genial" no és el mateix que "ho faig servir diàriament". Aquí tens com utilitzar Ollama a la vida real:

Netejador de reunions: enganxa notes, demana elements d'acció per persona i sol·licita un esborrany de correu electrònic de seguiment.

Company d'investigació: enganxa un article. Demana un contraargument, 3 fonts per validar les afirmacions i un resum de 60 segons.

Copilot de codificació: demana docstrings, proves o una expressió regular més segura. Fes que t'expliqui el canvi en anglès planer.

Sprint d'escriptura: fes un esquema primer, després amplia, després ajusta el to. Mantén un missatge del sistema que defineixi la teva veu.

Aprenentatge: ensenya'm SSH com si fossis el meu cosí gran pacient. Després posa'm a prova.

Atenció: si t'agrada mantenir tot això en un sol lloc (historials de xat, proves de models colze a colze i consultes web ràpides), Sider.AI funciona bé amb models locals i et proporciona una cabina més neta. És com el control de la missió per a les teves indicacions.

Resolució de problemes: quan Ollama es posa de mal humor

"Model no trobat". Encara no l'has descarregat. ollama pull <model>.

"Sense memòria". Utilitza una quantificació o una mida de model més petites.

"És tan lent que puc sentir que el meu portàtil envelleix". Redueix el màxim de tokens, canvia de model o utilitza l'acceleració de la GPU.

"Les respostes són massa vagues". Redueix la temperatura i afegeix exemples a la teva indicació.

"Segueix ignorant les meves instruccions". Posa les regles a la indicació del sistema, no només a la indicació de l'usuari.

Consell professional: desa les indicacions que funcionen. Les bones indicacions són com les bones receptes de cafè. El teu jo futur t'ho agrairà.

Moviments avançats: multi-model, eines i automatització

Cadena de pensament lite: demana-li que enumeri els passos abans de respondre. "Primer fes un esquema, després escriu paràgraf per paràgraf."

Flux de treball multi-model: fes una pluja d'idees amb un model creatiu, verifica amb un de precís. Pensa en una pel·lícula de policies amics.

Ús d'eines: embolcalla cerques web, calculadores o execució de codi al voltant d'Ollama mitjançant scripts. Deixa que el model decideixi quina eina trucar, però valida les sortides.

Treballs per lots: introdueix un CSV de descripcions de productes en un script que crida l'API i torna a escriure els resultats. Cafè, executa, fet.

Com utilitzar Ollama de forma segura en equips

Si ets la persona d'IT no oficial (ho sento), estableix mesures de protecció:

Estandarditza uns quants models aprovats.

Comparteix un fitxer de model per a la veu i el format de l'equip.

Mantén una biblioteca d'indicacions per a tasques repetides.

Registra l'entrada/sortida per a determinats fluxos de treball (localment) perquè puguis revisar la qualitat sense espiar la gent.

La pregunta "Necessito el núvol?"

A vegades sí. Si necessites una investigació de context gegant, un raonament d'avantguarda o una màgia multi-modal, un model al núvol encara podria guanyar. El moviment híbrid és intel·ligent:

Utilitza Ollama localment per a esborranys, documents privats i iteracions ràpides.

Utilitza un model al núvol per a un raonament complex o entrades enormes.

Compara els resultats a la mateixa interfície perquè estiguis triant amb els teus ulls, no amb vibracions.

Val la pena assenyalar: Sider.AI fa que aquesta comparació sigui indolora. Pots encaminar la mateixa indicació a Ollama local i a un model al núvol, i després triar la millor resposta o fusionar-les. És com tastar dos cafès i adonar-se que els pots barrejar.

El teu pla d'una setmana per convertir-te en el xiuxiuejador d'Ollama de l'oficina

Dia 1: Instal·la, descarrega llama3, estableix una indicació del sistema. Dia 2: crea un fitxer de model per al teu to. Prova dos models i anota les diferències. Dia 3: connecta una eina per prendre notes o de codificació a Ollama. Dia 4: crea un petit prototip de RAG amb uns quants PDF. Dia 5: automatitza una tasca tediosa amb l'API. Dia 6: comparteix una biblioteca d'indicacions amb el teu equip. Dia 7: revisa què ha funcionat, poda el que no ha funcionat i estableix valors per defecte.

En aquest punt, no només sabràs com utilitzar Ollama, sinó que l'estaràs utilitzant sense pensar-hi, que és l'objectiu principal de les eines que conservem.

La conclusió

Com utilitzar Ollama es redueix a tres coses:

Mantén-ho local i senzill per començar. Descarrega un model, fes tres tasques reals.

Personalitza el comportament amb indicacions del sistema i fitxers de model perquè s'adapti al teu cervell, no al revés.

Integra-ho on treballes (editor, navegador, notes) perquè no sigui una altra pestanya que oblidis.

Ollama no farà que el teu portàtil sigui màgic. El farà més teu. I en un món on cada aplicació intenta traslladar les teves dades al servidor d'algú altre, aquesta és una actualització força refrescant.

Ara vés a demanar a la teva IA local que escrigui un missatge de fora de l'oficina millor. I potser que et recordi que realment et prenguis el dia lliure.

PMF

P1: Quina és la manera més fàcil de començar amb Ollama? Instal·la'l, descarrega un model amigable com llama3:8b-instruct i executa algunes tasques reals: resums, esquemes o esborranys de correu electrònic. Mantén la temperatura baixa per obtenir respostes clares i predictibles i desa qualsevol indicació que funcioni bé.

P2: Quin model hauria d'utilitzar a Ollama per escriure i codificar? Per escriure, comença amb llama3 o mistral per obtenir una qualitat i velocitat equilibrades. Per codificar, prova codellama o un model optimitzat per al codi; mantén la temperatura al voltant de 0,2-0,4 per reduir les al·lucinacions.

P3: Puc utilitzar els meus propis documents amb Ollama (RAG)? Sí: indexa els teus fitxers amb una eina d'incrustació, recupera els fragments principals a cada consulta i inclou aquests fragments com a context a la teva indicació a Ollama. És com el mode de llibre obert per a la teva IA i millora dràsticament la precisió factual.

P4: Per què Ollama és lent al meu portàtil i com puc accelerar-lo? Utilitza un model quantificat més petit (per exemple, Q4), redueix el màxim de tokens i redueix la temperatura si cal. Si tens Apple Silicon o una GPU NVIDIA moderna, activa l'acceleració per maquinari per obtenir un impuls notable.

P5: Com s'adapta Sider.AI a un flux de treball d'Ollama? Sider.AI es pot connectar als teus models locals d'Ollama i als models al núvol en una sola interfície, cosa que facilita la comparació de sortides i l'organització de xats. És útil per provar indicacions, mantenir l'historial ordenat i triar la millor resposta sense fer malabars amb cinc aplicacions.