你有沒有試過在沒有附上卡通人物說明書的情況下組裝 IKEA 家具?啟動本地 AI 模型可能就有這種感覺。一堆零件、神秘的名稱,還揮之不去地擔心你是不是漏掉了一顆標示為「LLM 執行時」的螺絲。Ollama 就是你的救星。它就像是用於在你自己的機器上執行大型語言模型的六角扳手——快速、私密,而且出乎意料地不是一種折磨人的工具。
在本指南中,我們將實際使用 Ollama。而不僅僅是閱讀它。我們會下載它、運行模型、自定義它、將它導入你最喜歡的工具中、解決「為什麼我的風扇在尖叫?」的時刻,並帶著一個你可以真正信任它來完成工作的設置離開。是的,即使離線也可以。是的,甚至在飛機上也可以。不,你不需要博士學位或伺服器農場。
以下是如何像專業人士一樣使用 Ollama——而不會讓你的筆記型電腦報廢或失去理智。
什麼是 Ollama(以及為什麼你應該關心)?
Ollama 是一種在本地運行大型語言模型 (LLM) 的輕量級方法。可以把它想像成 ChatGPT,但模型存在於你的電腦上。它的優點:
- 隱私:你的數據保留在你的機器上。不會神秘地傳送到雲端。
- 速度:無需等待伺服器。現在是你的 CPU/GPU 發光發熱的時候了。
如果你曾經想過,「我希望我可以在不把我的個人筆記送到海王星的情況下向 AI 提問」,那麼這就是為你準備的。
使用 Ollama 的最快方法
你是為了學習操作方法而來的。我們開始吧。
步驟 1:安裝 Ollama
- macOS:使用官方網站上的安裝程式,或者如果你喜歡掌握大權的感覺,可以使用
brew install --cask ollama。
- Windows:獲取安裝程式。這是一個普通的設置——下一步、下一步、安裝。
- Linux:通過官方腳本執行一行程式碼。讓你內心的系統管理員釋放 30 秒。
安裝完成後,Ollama 會運行一個本地服務。你可以通過終端、PowerShell 或其他與之集成的應用程式與它對話。
步驟 2:提取你的第一個模型
在你的終端中:
第一次運行時,Ollama 會下載模型權重。可以把它想像成緩存一部大型 Netflix 電影。之後,它就會立即啟動。你會看到一個提示符,你可以在那裡輸入和聊天。
試試看:「用兩句話總結維基百科關於企鵝的條目——不要廢話。」如果它回復了一個關於企鵝的 TED 演講,你就知道它還活著。
步驟 3:像切換播放列表一樣切換模型
你可以嘗試的熱門模型:
每個模型都有不同的優勢。Mistral 快速。Llama 3.1 全面。Phi 輕量級,並且以其尺寸來說非常聰明。你可以提取特定的標籤,例如 llama3:8b-instruct 或更小的量化變體。
專業提示:使用 ollama pull <model> 提前下載。使用 ollama list 查看你擁有的模型,如果你的 SSD 在哭泣,可以使用 ollama rm <model>。
步驟 4:像一個具有社交技能的駭客一樣從終端聊天
- 提供系統訊息:
ollama run llama3 --system "你是一位簡潔的程式碼助手。"
- 在不進入聊天模式的情況下,給出一次性的提示:
ollama run llama3 -p "像對五歲小孩一樣解釋 Kubernetes。"
你會開始聽起來像個巫師。一個有禮貌的巫師。
步驟 5:將 Ollama 與你最喜歡的應用程式一起使用
這就是如何使用 Ollama 變得有趣的地方。Ollama 使用 HTTP。這意味著很多工具都可以與之對話。
- 本地 Web UI:許多 AI 聊天 UI 都可以連接到你的 Ollama 端點。你會得到一個漂亮的視窗、單獨的聊天和歷史記錄。
- 程式碼編輯器:VS Code 的擴展程式可以將你的提示路由到 Ollama——內聯程式碼解釋、重構和測試。
- 筆記應用程式:有些應用程式允許你連接到本地模型以進行總結和腦力激盪。非常適合真正有所用途的會議記錄。
注意:如果你想要一個超乾淨、基於瀏覽器的聊天和研究工作流程,值得注意的是——Sider.AI 可以連接到本地和雲端模型、組織聊天,並幫助你並排測試提示。當我在「模型 A 更聰明」和「模型 B 更快」之間左右為難時,它可以讓我保持誠實。 初學者藍圖:你使用 Ollama 的第一個高效小時
你只有 60 分鐘。讓我們把「蛤?」變成「太棒了」。
- 提取
llama3:8b-instruct。對於大多數筆記型電腦來說,它在品質和速度之間取得了很好的平衡。
- 創建一個適合你工作的系統提示:「你是我的研究助理。始終提供來源和項目符號。除非我另有說明,否則答案保持在 200 字以下。」
- 保存你喜歡的提示。重複使用它們。這就是你從玩 AI 到實際使用它的方式。
獎勵:如果你編寫程式碼,請提取 codellama 或程式碼調整模型,並將你的函數提供給它。要求進行測試、重構或文檔字串。你會感覺自己聰明了 30%,這是本地 AI 的法定限額。
如何選擇正確的模型(而不會頭痛)
選擇模型就像選擇串流媒體計劃:你絕對可能為你不需要的東西支付過高的費用。
- 寫作和腦力激盪:
llama3 或 mistral 非常棒。
- 超輕量級筆記型電腦:嘗試
phi3 或更大的模型的小型量化版本。
- 程式碼幫助:
codellama、deepseek coder 或程式碼優化變體。
- 更長的上下文:如果你提供大型文檔,請尋找標記有更大上下文視窗的模型。
如果你的風扇每次收到提示時都變成直升機,請降低模型大小或嘗試更激進的量化。
秘訣:Modelfile 和自定義行為
Ollama 在這裡變得非常令人愉快。你可以創建一個 Modelfile——基本上是一個配方——它定義了你的模型及其個性和預設值。
Modelfile 範例(概念):
FROM llama3:8b-instruct
SYSTEM "你是一位簡潔友好的助手。使用項目符號和簡短的句子。"
PARAMETER temperature 0.5
將其另存為文件夾中的 Modelfile,然後運行:
ollama create crisp-assistant -f Modelfile
ollama run crisp-assistant
現在你有了一個可以在任何地方重複使用的自定義助手。這就像製作你自己的私人 ChatGPT 風味——香草味,帶有濃縮咖啡。
與我談 JSON:使用 Ollama 的 HTTP API
如果你有哪怕是很輕微的開發者傾向,API 都會讓你咧嘴一笑。
- 發送一個帶有
model、prompt 和可選 stream 的 JSON 負載。
- 你將在一個流中收到令牌。感覺就像在實時閱讀小說一樣,一次一個字元。
為什麼要使用 API?
- 創建腳本以批量重寫產品描述。(只是不要讓它們都聽起來像一個上過即興表演課的機器人。)
如何將 Ollama 與你自己的文件一起使用(沒有憤怒的 RAG)
RAG——檢索增強生成——將你的文件提供給模型,以便它使用來自你的內容的事實來回答,而不是其模糊的記憶。
基本路徑:
- 將最相關的文本作為上下文發送到 Ollama 的提示中。
可以把它想像成 AI 的開卷考試。它不需要「記住」你的員工手冊——它只需要引用它。
專業技巧:保持你的區塊小(200-600 字)、添加標題,並在提示中包含來源連結,以便模型學會引用。
效能調整:讓 Ollama 飛起來(而不會融化你的桌子)
- 量化很重要:Q4 更小/更快,Q8 更大/更聰明。從小處著手,逐步提升。
- 如果可用,請使用 GPU:Apple Silicon 表現出色。較新的 NVIDIA 顯示卡?廚師之吻。
- 溫度:較低 (0.2-0.5) 用於精確的答案;較高 (0.8+) 用於創造性的混亂。
- 最大令牌數:除非你真的需要,否則不要要求撰寫 3,000 字的小說。你的筆記型電腦想要活下去。
如果響應感覺遲緩:
安全性和隱私:人們使用 Ollama 的真正原因
本地意味著本地。但我們不要馬虎。
- 敏感數據:你比雲端更安全,但要加密你的驅動器並安全地備份。
- 模型來源:從受信任的存儲庫中提取。如果模型描述看起來像是貓在鍵盤上行走時寫的,那麼也許跳過它。
- 網路訪問:Ollama 在本地運行;除非你知道自己在做什麼,否則不要在公共網路上公開該端口。
你實際會使用的日常工作流程
因為「哇,好棒」與「我每天都使用它」是不一樣的。以下是如何在現實生活中使用 Ollama:
- 會議清潔器:粘貼筆記,按人要求行動項目,並請求撰寫後續電子郵件草稿。
- 研究夥伴:粘貼一篇文章。要求提出反駁、3 個來源來驗證聲明,以及一個 60 秒的摘要。
- 程式碼副駕駛:要求提供文檔字串、測試或更安全的正則表達式。讓它用簡單的英語向你解釋變更。
- 寫作衝刺:先列出大綱,然後擴展,然後收緊語氣。保留一個定義你聲音的系統訊息。
- 學習:像你耐心的堂兄一樣教我 SSH。然後考考我。
注意:如果你喜歡將所有這些都放在一個地方——聊天歷史記錄、並排模型測試和快速的 Web 查找——Sider.AI 可以很好地與本地模型配合使用,並為你提供更簡潔的駕駛艙。它就像你提示的任務控制中心。 疑難排解:當 Ollama 變得喜怒無常時
- 「找不到模型。」你還沒有提取它。
ollama pull <model>。
- 「它太慢了,我可以聽到我的筆記型電腦在老化。」減少最大令牌數、切換模型或使用 GPU 加速。
- 「答案太模糊了。」降低溫度並在你的提示中添加範例。
- 「它一直忽略我的指示。」將規則放在系統提示中,而不僅僅是用戶提示中。
專業提示:保存有效的提示。好的提示就像好的咖啡食譜。未來的你會感謝過去的你。
高級操作:多模型、工具和自動化
- 輕量級的思維鏈:要求它在回答之前列出步驟。「首先列出大綱,然後逐段寫作。」
- 多模型工作流程:使用一個有創意的模型進行腦力激盪,並使用一個精確的模型進行驗證。想想警匪片。
- 工具使用:通過腳本將 Web 搜索、計算器或程式碼執行封裝在 Ollama 周圍。讓模型決定調用哪個工具,但驗證輸出。
- 批次作業:將產品描述的 CSV 導入到一個調用 API 並將結果寫回的腳本中。喝咖啡、運行、完成。
如何在團隊中安全地使用 Ollama
如果你是非官方的 IT 人員(抱歉),請設置防護措施:
- 分享一個用於團隊聲音和格式的 Modelfile。
- 本地記錄某些工作流程的輸入/輸出,以便你可以在不監視人們的情況下查看品質。
「我需要雲端嗎?」這個問題
有時是需要的。如果你需要巨型的上下文研究、最前沿的推理或多模式的巫術,雲端模型可能仍然會勝出。混合策略是明智的:
- 在本地使用 Ollama 進行草稿、私人文檔和快速迭代。
- 在同一個介面中比較結果,以便你用眼睛而不是感覺來選擇。
值得注意的是:Sider.AI 使這種比較變得輕鬆。你可以將同一個提示路由到本地 Ollama 和雲端模型,然後選擇最佳響應或合併它們。這就像品嚐兩種咖啡,然後意識到你可以將它們混合在一起。 你成為辦公室 Ollama 低語者的為期一周的計劃
第 1 天:安裝、提取 llama3、設置系統提示。
第 2 天:為你的語氣構建一個 Modelfile。嘗試兩個模型並注意差異。
第 3 天:將筆記或程式碼工具連接到 Ollama。
第 4 天:使用幾個 PDF 創建一個小型 RAG 原型。
第 5 天:使用 API 自動執行一項繁瑣的任務。
第 6 天:與你的團隊分享一個提示庫。
第 7 天:查看哪些有效,刪除哪些無效,並設置預設值。
在那時,你不僅僅知道如何使用 Ollama——你將在使用它而不會考慮它,這就是我們保留工具的全部意義。
底線
如何使用 Ollama 歸結為三件事:
- 首先保持本地化和簡單化。提取一個模型,執行三個實際任務。
- 使用系統提示和 Modelfile 自定義行為,使其適合你的大腦,而不是反過來。
- 將它集成到你工作的地方——編輯器、瀏覽器、筆記——這樣它就不會成為你忘記的另一個標籤。
Ollama 不會讓你的筆記型電腦變得神奇。它會讓它更屬於你。在一個每個應用程式都試圖將你的數據傳輸到其他人的伺服器的世界中,這是一個非常令人耳目一新的升級。
現在去要求你的本地 AI 撰寫一條更好的外出辦公訊息。也許還要提醒你真正休假。
常見問題解答
Q1:開始使用 Ollama 的最簡單方法是什麼?
安裝它,提取一個友好的模型,例如 llama3:8b-instruct,並運行一些實際任務——摘要、大綱或電子郵件草稿。保持較低的溫度以獲得清晰、可預測的答案,並保存任何有效的提示。
Q2:我應該在 Ollama 中使用哪個模型進行寫作和編碼?
對於寫作,從 llama3 或 mistral 開始,以獲得平衡的品質和速度。對於編碼,請嘗試 codellama 或程式碼優化模型;將溫度保持在 0.2-0.4 左右,以減少幻覺。
Q3:我可以在 Ollama 中使用我自己的文檔 (RAG) 嗎?
可以——使用嵌入工具索引你的文件,檢索每個查詢的頂部區塊,並在你的提示中將這些區塊作為上下文包含到 Ollama 中。這就像你的 AI 的開卷模式,並且可以顯著提高事實準確性。
Q4:為什麼 Ollama 在我的筆記型電腦上運行緩慢,我該如何加速它?
使用較小的量化模型(例如,Q4)、減少最大令牌數,並在需要時降低溫度。如果你有 Apple Silicon 或現代 NVIDIA GPU,請啟用硬體加速以獲得顯著提升。
Q5:Sider.AI 如何融入 Ollama 工作流程?
Sider.AI 可以在一個介面中連接到你的本地 Ollama 模型和雲端模型,從而可以輕鬆地比較輸出和組織聊天。它對於測試提示、保持歷史記錄整潔以及選擇最佳答案而無需同時運行五個應用程式非常有用。