Pernah mencoba merakit furnitur IKEA tanpa panduan bergambar? Begitulah rasanya menjalankan model AI lokal. Banyak komponen, nama-nama misterius, dan kekhawatiran kalau ada sekrup penting bernama "runtime LLM" yang terlewat. Di sinilah Ollama hadir. Ia adalah kunci Allen untuk menjalankan model bahasa besar di mesin Anda sendiri—cepat, pribadi, dan yang mengejutkan, tidak menyiksa.
Dalam panduan ini, kita akan benar-benar menggunakan Ollama. Bukan hanya membacanya. Kita akan mengunduhnya, menjalankan model, menyesuaikannya, menyalurkannya ke alat favorit Anda, memperbaiki momen "kenapa kipas saya berteriak?", dan mendapatkan pengaturan yang benar-benar dapat Anda andalkan untuk bekerja. Ya, bahkan secara offline. Ya, bahkan di pesawat. Tidak, Anda tidak memerlukan gelar Ph.D. atau pusat server.
Berikut cara menggunakan Ollama seperti seorang profesional—tanpa merusak laptop atau kewarasan Anda.
Apa itu Ollama (dan mengapa Anda harus peduli)?
Ollama adalah cara ringan untuk menjalankan model bahasa besar (LLM) secara lokal. Anggap saja seperti ChatGPT, tetapi modelnya ada di komputer Anda. Keuntungannya:
- Privasi: Data Anda tetap berada di mesin Anda. Tidak ada perjalanan misterius ke cloud.
- Kecepatan: Tidak perlu menunggu server. Ini adalah saatnya CPU/GPU Anda bersinar.
- Kontrol: Pilih model, versi, ukuran, dan perilaku.
Jika Anda pernah berpikir, "Saya berharap saya bisa bertanya hal-hal kepada AI tanpa mengirim catatan pribadi saya ke Neptunus," ini adalah untuk Anda.
Cara Tercepat untuk Menggunakan Ollama
Anda datang untuk mencari panduan. Mari kita lakukan panduannya.
Langkah 1: Instal Ollama
- macOS: Gunakan penginstal dari situs resmi atau
brew install --cask ollama jika Anda ingin merasa hebat.
- Windows: Unduh penginstalnya. Ini adalah pengaturan biasa—next, next, install.
- Linux: Satu baris melalui skrip resmi. Salurkan jiwa sysadmin Anda selama 30 detik.
Setelah diinstal, Ollama menjalankan layanan lokal. Anda berkomunikasi dengannya melalui Terminal, PowerShell, atau aplikasi lain yang terintegrasi dengannya.
Langkah 2: Tarik model pertama Anda
Di terminal Anda:
Pertama kali, Ollama mengunduh bobot model. Anggap saja seperti menyimpan film Netflix besar dalam cache. Setelah itu, instan. Anda akan mendapatkan prompt tempat Anda dapat mengetik dan mengobrol.
Coba uji: "Tulis ringkasan 2 kalimat dari entri Wikipedia tentang penguin—tanpa basa-basi." Jika ia menjawab dengan TED Talk penguin, Anda tahu ia hidup.
Langkah 3: Ganti model seperti Anda mengganti daftar putar
Model populer yang dapat Anda coba:
Masing-masing memiliki kekuatan yang berbeda. Mistral cepat. Llama 3.1 serbaguna. Phi ringan dan sangat pintar untuk ukurannya. Anda dapat menarik tag tertentu, misalnya, llama3:8b-instruct atau varian terkuantisasi yang lebih kecil.
Tip pro: Gunakan ollama pull <model> untuk mengunduh sebelumnya. Gunakan ollama list untuk melihat apa yang Anda punya dan ollama rm <model> jika SSD Anda menangis.
Langkah 4: Mengobrol dari terminal seperti peretas dengan keterampilan sosial
- Mulai sesi:
ollama run llama3
- Berikan pesan sistem:
ollama run llama3 --system "Anda adalah asisten pengkodean yang ringkas."
- Berikan prompt sekali saja tanpa memasuki mode obrolan:
ollama run llama3 -p "Jelaskan Kubernetes seperti saya berumur lima tahun."
Anda akan mulai terdengar seperti penyihir. Penyihir yang sopan.
Langkah 5: Gunakan Ollama dengan aplikasi favorit Anda
Di sinilah cara menggunakan Ollama menjadi menyenangkan. Ollama berbicara HTTP. Itu berarti banyak alat dapat berkomunikasi dengannya.
- UI web lokal: Banyak UI obrolan AI dapat terhubung ke endpoint Ollama Anda. Anda mendapatkan jendela yang cantik, obrolan terpisah, dan riwayat.
- Editor kode: Ekstensi untuk VS Code dapat mengarahkan prompt Anda ke Ollama—penjelasan kode inline, refaktor, dan pengujian.
- Aplikasi pencatatan: Beberapa memungkinkan Anda terhubung ke model lokal untuk ringkasan dan brainstorming. Sempurna untuk catatan rapat yang benar-benar menghasilkan sesuatu.
Perhatian: Jika Anda menginginkan obrolan berbasis browser dan alur kerja penelitian yang sangat bersih, perlu dicatat—Sider.AI dapat terhubung ke model lokal dan cloud, mengatur obrolan, dan membantu Anda menguji prompt secara berdampingan. Ketika saya bimbang antara "model A lebih pintar" dan "model B lebih cepat," ia membuat saya jujur. Cetakan Biru Pemula: Jam Produktif Pertama Anda dengan Ollama
Anda punya 60 menit. Mari kita ubah "hah?" menjadi "hebat!"
- Instal Ollama. Sruput kopi. Selesai.
- Tarik
llama3:8b-instruct. Ini adalah titik manis untuk kualitas dan kecepatan di sebagian besar laptop.
- Buat prompt sistem yang sesuai dengan pekerjaan Anda: "Anda adalah asisten riset saya. Selalu berikan sumber dan poin-poin. Jaga jawaban di bawah 200 kata kecuali saya mengatakan sebaliknya."
- Uji tiga tugas yang benar-benar Anda lakukan:
- Rangkum artikel tempel di bawah 250 kata.
- Brainstorm 10 ide judul untuk newsletter Anda.
- Ubah catatan rapat menjadi item tindakan dengan pemilik dan tanggal.
- Simpan prompt yang Anda suka. Gunakan kembali. Ini adalah cara Anda beralih dari bermain dengan AI menjadi benar-benar menggunakannya.
Bonus: Jika Anda menulis kode, tarik codellama atau model yang disetel untuk kode dan berikan fungsi Anda. Minta pengujian, refaktor, atau docstring. Anda akan merasa 30% lebih pintar, yang merupakan batas legal untuk AI lokal.
Cara Memilih Model yang Tepat (Tanpa Sakit Kepala)
Memilih model seperti memilih paket streaming: Anda benar-benar dapat membayar terlalu mahal untuk hal-hal yang tidak Anda butuhkan.
- Menulis dan brainstorming:
llama3 atau mistral sangat bagus.
- Laptop super ringan: coba
phi3 atau versi terkuantisasi yang lebih kecil dari model yang lebih besar.
- Bantuan pengkodean:
codellama, deepseek coder, atau varian yang dioptimalkan untuk kode.
- Multilingual: Keluarga
qwen melakukan pekerjaan multilingual yang solid.
- Konteks yang lebih panjang: Cari model yang diberi label dengan jendela konteks yang lebih besar jika Anda memasukkan dokumen besar.
Jika kipas Anda berubah menjadi helikopter setiap kali Anda memberikan prompt, turunkan ukuran model atau coba kuantisasi yang lebih agresif.
Rahasia: Modelfiles dan Perilaku Kustom
Di sinilah Ollama menjadi sangat menyenangkan. Anda dapat membuat Modelfile—pada dasarnya resep—yang mendefinisikan model Anda plus kepribadian dan defaultnya.
Contoh Modelfile (konseptual):
FROM llama3:8b-instruct
SYSTEM "Anda adalah asisten yang cerdas dan ramah. Gunakan poin-poin dan kalimat pendek."
PARAMETER temperature 0.5
Simpan sebagai Modelfile di folder, lalu jalankan:
ollama create crisp-assistant -f Modelfile
ollama run crisp-assistant
Sekarang Anda punya asisten khusus yang dapat Anda gunakan kembali di mana saja. Ini seperti membuat rasa ChatGPT pribadi Anda sendiri—vanilla, dengan espresso shots.
Bicaralah JSON kepada Saya: Menggunakan HTTP API Ollama
Jika Anda memiliki kecenderungan pengembang ringan sekalipun, API akan membuat Anda tersenyum.
- Endpoint: ` untuk pembuatan teks.
- Kirim payload JSON dengan
model, prompt, dan opsional stream.
- Anda akan mendapatkan token kembali dalam stream. Rasanya seperti membaca novel secara real time, satu karakter pada satu waktu.
Mengapa menggunakan API?
- Otomatiskan ringkasan newsletter.
- Buat chatbot di dokumen Anda.
- Buat skrip untuk menulis ulang deskripsi produk secara massal. (Hanya saja, jangan buat semuanya terdengar seperti robot yang pernah mengikuti improvisasi.)
Cara Menggunakan Ollama dengan File Anda Sendiri (RAG tanpa Amarah)
RAG—retrieval-augmented generation—memberikan file Anda ke model sehingga ia menjawab dengan fakta dari materi Anda, bukan ingatan samar-samarnya.
Jalur dasar:
- Gunakan alat embedding lokal untuk mengindeks dokumen Anda.
- Pada setiap pertanyaan, cari potongan teratas.
- Kirim teks yang paling relevan sebagai konteks dalam prompt Anda ke Ollama.
Anggap saja seperti pengujian buku terbuka untuk AI. Ia tidak perlu "mengingat" buku panduan karyawan Anda—ia hanya perlu mengutipnya.
Langkah pro: Jaga agar potongan Anda tetap kecil (200–600 kata), tambahkan judul, dan sertakan tautan sumber dalam prompt sehingga model belajar untuk mengutip.
Penyetelan Kinerja: Buat Ollama Terbang (Tanpa Melelehkan Meja Anda)
- Kuantisasi penting: Q4 lebih kecil/lebih cepat, Q8 lebih besar/lebih pintar. Mulai dari yang kecil, naik ke atas.
- Gunakan GPU jika tersedia: Apple Silicon berfungsi dengan baik. Kartu NVIDIA yang lebih baru? Ciuman koki.
- Suhu: Lebih rendah (0.2–0.5) untuk jawaban yang tepat; lebih tinggi (0.8+) untuk kekacauan kreatif.
- Token maks: Jangan meminta novel 3.000 kata kecuali Anda benar-benar membutuhkannya. Laptop Anda ingin hidup.
Jika respons terasa lambat:
- Coba model yang lebih kecil.
- Tutup tab Chrome. Ya, semuanya 47.
- Nonaktifkan aplikasi sinkronisasi latar belakang untuk sementara.
Keamanan dan Privasi: Alasan Sebenarnya Orang Menggunakan Ollama
Lokal berarti lokal. Tetapi jangan ceroboh.
- Data sensitif: Anda lebih aman daripada cloud, tetapi enkripsi drive Anda dan buat cadangan dengan aman.
- Sumber model: Tarik dari repositori tepercaya. Jika deskripsi model terlihat seperti ditulis oleh kucing yang berjalan di atas keyboard, mungkin lewati saja.
- Akses jaringan: Ollama berjalan secara lokal; jangan ekspos port di jaringan publik kecuali Anda tahu apa yang Anda lakukan.
Alur Kerja Sehari-hari yang Akan Benar-Benar Anda Gunakan
Karena "wow rapi" tidak sama dengan "Saya menggunakan ini setiap hari." Berikut cara menggunakan Ollama dalam kehidupan nyata:
- Pembersih rapat: Tempel catatan, minta item tindakan per orang, dan minta draf email tindak lanjut.
- Teman riset: Tempel artikel. Minta argumen balasan, 3 sumber untuk memvalidasi klaim, dan ringkasan 60 detik.
- Pilot kode: Minta docstring, pengujian, atau regex yang lebih aman. Buat ia menjelaskan perubahan kembali kepada Anda dalam bahasa Inggris sederhana.
- Sprint menulis: Buat kerangka terlebih dahulu, lalu perluas, lalu kencangkan nada. Simpan pesan sistem yang mendefinisikan suara Anda.
- Pembelajaran: Ajari saya SSH seperti Anda adalah sepupu laki-laki saya yang sabar. Lalu uji saya.
Perhatian: Jika Anda suka menyimpan semua ini di satu tempat—riwayat obrolan, pengujian model berdampingan, dan pencarian web cepat—Sider.AI berfungsi dengan baik dengan model lokal dan memberi Anda kokpit yang lebih bersih. Ini seperti pusat kendali untuk prompt Anda. Pemecahan Masalah: Ketika Ollama Menjadi Murung
- "Model tidak ditemukan." Anda belum menariknya.
ollama pull <model>.
- "Kehabisan memori." Gunakan kuantisasi atau ukuran model yang lebih kecil.
- "Sangat lambat sehingga saya bisa mendengar laptop saya menua." Kurangi token maks, ganti model, atau gunakan akselerasi GPU.
- "Jawaban terlalu samar." Turunkan suhu dan tambahkan contoh ke prompt Anda.
- "Ia terus mengabaikan instruksi saya." Masukkan aturan dalam prompt sistem, bukan hanya prompt pengguna.
Tip pro: Simpan prompt yang berfungsi. Prompt yang baik seperti resep kopi yang baik. Anda di masa depan akan berterima kasih kepada Anda di masa lalu.
Langkah Lanjutan: Multi-model, Alat, dan Otomatisasi
- Chain-of-thought lite: Minta ia membuat daftar langkah-langkah sebelum menjawab. "Pertama buat kerangka, lalu tulis paragraf demi paragraf."
- Alur kerja multi-model: Brainstorm dengan model kreatif, verifikasi dengan model yang tepat. Pikirkan film buddy cop.
- Penggunaan alat: Bungkus pencarian web, kalkulator, atau eksekusi kode di sekitar Ollama melalui skrip. Biarkan model memutuskan alat mana yang akan dipanggil, tetapi validasi output.
- Pekerjaan batch: Salurkan CSV deskripsi produk ke dalam skrip yang memanggil API dan menuliskan kembali hasilnya. Kopi, jalankan, selesai.
Cara Menggunakan Ollama dengan Aman dalam Tim
Jika Anda adalah orang TI tidak resmi (maaf), tetapkan batasan:
- Standarisasi pada beberapa model yang disetujui.
- Bagikan Modelfile untuk suara dan pemformatan tim.
- Simpan perpustakaan prompt untuk tugas berulang.
- Catat input/output untuk alur kerja tertentu—secara lokal—sehingga Anda dapat meninjau kualitas tanpa menguntit orang.
Pertanyaan "Apakah Saya Membutuhkan Cloud?"
Terkadang ya. Jika Anda membutuhkan penelitian konteks raksasa, penalaran mutakhir, atau keajaiban multi-modal, model cloud mungkin masih menang. Langkah hibrida itu cerdas:
- Gunakan Ollama secara lokal untuk draf, dokumen pribadi, dan iterasi cepat.
- Gunakan model cloud untuk penalaran kompleks atau input besar.
- Bandingkan hasil di antarmuka yang sama sehingga Anda memilih dengan mata Anda, bukan getaran.
Perlu dicatat: Sider.AI membuat perbandingan itu tidak menyakitkan. Anda dapat mengarahkan prompt yang sama ke Ollama lokal dan model cloud, lalu memilih respons terbaik atau menggabungkannya. Ini seperti mencicipi dua kopi dan menyadari Anda dapat mencampurnya. Rencana Satu Minggu Anda untuk Menjadi Pembisik Ollama Kantor
Hari 1: Instal, tarik llama3, setel prompt sistem.
Hari 2: Buat Modelfile untuk nada Anda. Coba dua model dan catat perbedaannya.
Hari 3: Hubungkan alat pencatatan atau pengkodean ke Ollama.
Hari 4: Buat prototipe RAG kecil dengan beberapa PDF.
Hari 5: Otomatiskan satu tugas yang membosankan dengan API.
Hari 6: Bagikan perpustakaan prompt dengan tim Anda.
Hari 7: Tinjau apa yang berhasil, pangkas apa yang tidak, dan setel default.
Pada titik itu, Anda tidak hanya akan tahu cara menggunakan Ollama—Anda akan menggunakannya tanpa memikirkannya, yang merupakan keseluruhan poin dari alat yang kita simpan.
Intinya
Cara menggunakan Ollama bermuara pada tiga hal:
- Jaga agar tetap lokal dan sederhana untuk memulai. Tarik satu model, lakukan tiga tugas nyata.
- Sesuaikan perilaku dengan prompt sistem dan Modelfile sehingga sesuai dengan otak Anda, bukan sebaliknya.
- Integrasikan di tempat Anda bekerja—editor, browser, catatan—sehingga bukan tab lain yang Anda lupakan.
Ollama tidak akan membuat laptop Anda ajaib. Ia akan membuatnya lebih milik Anda. Dan di dunia di mana setiap aplikasi mencoba mengirimkan data Anda ke server orang lain, itu adalah peningkatan yang cukup menyegarkan.
Sekarang, pergilah dan minta AI lokal Anda untuk menulis pesan di luar kantor yang lebih baik. Dan mungkin untuk mengingatkan Anda untuk benar-benar mengambil cuti.
FAQ
Q1: Apa cara termudah untuk memulai dengan Ollama?
Instal, tarik model ramah seperti llama3:8b-instruct, dan jalankan beberapa tugas nyata—ringkasan, kerangka, atau draf email. Jaga suhu tetap rendah untuk jawaban yang jelas dan dapat diprediksi, dan simpan prompt apa pun yang berfungsi dengan baik.
Q2: Model mana yang harus saya gunakan di Ollama untuk menulis dan membuat kode?
Untuk menulis, mulai dengan llama3 atau mistral untuk kualitas dan kecepatan yang seimbang. Untuk pengkodean, coba codellama atau model yang dioptimalkan untuk kode; jaga suhu sekitar 0.2–0.4 untuk lebih sedikit halusinasi.
Q3: Bisakah saya menggunakan dokumen saya sendiri dengan Ollama (RAG)?
Ya—indeks file Anda dengan alat embedding, ambil potongan teratas pada setiap kueri, dan sertakan potongan tersebut sebagai konteks dalam prompt Anda ke Ollama. Ini seperti mode buku terbuka untuk AI Anda, dan itu secara drastis meningkatkan akurasi faktual.
Q4: Mengapa Ollama lambat di laptop saya dan bagaimana cara mempercepatnya?
Gunakan model terkuantisasi yang lebih kecil (mis., Q4), kurangi token maks, dan turunkan suhu jika diperlukan. Jika Anda memiliki Apple Silicon atau GPU NVIDIA modern, aktifkan akselerasi perangkat keras untuk peningkatan yang nyata.
Q5: Bagaimana Sider.AI cocok dengan alur kerja Ollama?
Sider.AI dapat terhubung ke model Ollama lokal dan model cloud Anda dalam satu antarmuka, sehingga memudahkan untuk membandingkan output dan mengatur obrolan. Ini berguna untuk menguji prompt, menjaga riwayat tetap rapi, dan memilih jawaban terbaik tanpa menyulap lima aplikasi.