What’s the easiest way to get started with Ollama?

Install it, pull a friendly model like llama3:8b-instruct, and run a few real tasks—summaries, outlines, or email drafts. Keep the temperature low for clear, predictable answers and save any prompts that work well.

Which model should I use in Ollama for writing and coding?

For writing, start with llama3 or mistral for balanced quality and speed. For coding, try codellama or a code-optimized model; keep temperature around 0.2–0.4 for fewer hallucinations.

Can I use my own documents with Ollama (RAG)?

Yes—index your files with an embedding tool, retrieve the top chunks on each query, and include those chunks as context in your prompt to Ollama. It’s like open-book mode for your AI, and it drastically improves factual accuracy.

Why is Ollama slow on my laptop and how do I speed it up?

Use a smaller quantized model (e.g., Q4), reduce max tokens, and lower temperature if needed. If you have Apple Silicon or a modern NVIDIA GPU, enable hardware acceleration for a noticeable boost.

How does [Sider.AI](https://sider.ai) fit into an Ollama workflow?

[Sider.AI](https://sider.ai) can connect to your local Ollama models and cloud models in one interface, making it easy to compare outputs and organize chats. It’s handy for testing prompts, keeping history tidy, and picking the best answer without juggling five apps.

如何使用 Ollama 而不崩溃（或者浪费整个周末）

有没有试过在没有小卡通人指导的情况下组装家具？启动本地模型可能就是这种感觉。很多零件，神秘的名字，还有一种挥之不去的恐惧，害怕自己漏掉了一个标有“ 运行时”的螺丝。现在有了。它是用你自己的机器运行大型语言模型的内六角扳手——快速、私密，而且出奇的不是一种折磨人的工具。

在本指南中，我们将真正地使用。不仅仅是阅读它。我们将下载它，运行一个模型，定制它，将它连接到你最喜欢的工具中，解决“为什么我的风扇在尖叫？”的时刻，并带着一个你可以真正信任它来完成工作的设置离开。是的，即使离线也可以。是的，即使在飞机上也可以。不，你不需要博士学位或服务器集群。

下面是如何像专业人士一样使用 ——而不会毁掉你的笔记本电脑或你的理智。

什么是（以及为什么你应该关心）？

是一种在本地运行大型语言模型 () 的轻量级方法。可以把它想象成，只不过模型存在于你的电脑上。好处是：

隐私：你的数据保留在你的机器上。没有神秘的云端之旅。

速度：无需等待服务器。现在是你的大放异彩的时候了。

控制：选择模型、版本、大小和行为。

如果你曾经想过，“我希望我可以向提问，而不用把我的个人笔记发送到海王星”，那么这就是为你准备的。

使用的最快方法

你是为了学习如何使用而来的。让我们开始学习。

步骤 1：安装

：使用官方网站上的安装程序，或者如果你喜欢强大的感觉，可以使用 brew install --cask ollama。

：获取安装程序。这是一个正常的安装过程——下一步，下一步，安装。

：通过官方脚本执行单行命令。让你内在的系统管理员释放 30 秒。

安装完成后，会运行一个本地服务。你可以通过终端、或其他与其集成的应用程序与它通信。

步骤 2：拉取你的第一个模型

在你的终端中：

ollama run llama3

第一次，会下载模型权重。可以把它想象成缓存一部大型电影。之后，它就是即时的。你将获得一个提示，你可以在其中输入和聊天。

尝试一个测试：“用两句话总结维基百科关于企鹅的条目——不要废话。” 如果它回复的是一个企鹅，你就知道它还活着。

步骤 3：像切换播放列表一样切换模型

你可以尝试的热门模型：

ollama run llama3.1

ollama run mistral

ollama run phi3

ollama run qwen

ollama run gemma

每个模型都有不同的优势。反应迅速。面面俱到。轻量级，而且就其尺寸而言，非常聪明。你可以拉取特定的标签，例如 llama3:8b-instruct 或更小的量化变体。

专业提示：使用 ollama pull <model> 提前下载。使用 ollama list 查看你拥有的内容，如果你的在哭泣，可以使用 ollama rm <model>。

步骤 4：像一个具有社交技能的黑客一样从终端聊天

启动会话：ollama run llama3

提供系统消息：ollama run llama3 --system "你是一个简洁的编码助手。"

给出一个一次性提示，而无需进入聊天模式：ollama run llama3 -p "用我五岁也能听懂的方式解释 <b>Kubernetes</b>。"

你听起来会像一个巫师。一个礼貌的巫师。

步骤 5：将与你喜欢的应用程序一起使用

这就是如何使用变得有趣的地方。使用。这意味着很多工具都可以与它通信。

本地：许多聊天都可以连接到你的端点。你将获得一个漂亮的窗口、单独的聊天记录和历史记录。

代码编辑器：的扩展可以将你的提示路由到 ——内联代码解释、重构和测试。

笔记应用程序：有些允许你连接到本地模型以进行总结和头脑风暴。非常适合真正能有所作为的会议记录。

注意：如果你想要一个超级干净的、基于浏览器的聊天和研究工作流程，值得注意的是——Sider.AI 可以连接到本地和云模型，组织聊天，并帮助你并排测试提示。当我在“模型更聪明”和“模型更快”之间左右为难时，它可以让我保持诚实。

初学者蓝图：你使用的第一个高效小时

你只有 60 分钟。让我们把“咦？”变成“太棒了”。

安装。喝口咖啡。完成。

拉取 llama3:8b-instruct。对于大多数笔记本电脑来说，这是质量和速度的理想选择。

创建一个适合你工作的系统提示：“你是我的研究助理。始终提供来源和项目符号。除非我另有说明，否则答案保持在 200 字以下。”

测试你实际执行的三个任务：

将一篇文章粘贴的内容总结在 250 字以内。

为你的新闻稿集思广益 10 个标题创意。

将会议记录转换为包含负责人和日期的行动项目。

保存你喜欢的提示。重复使用它们。这就是你从玩到真正使用它的方式。

奖励：如果你编写代码，拉取 codellama 或一个代码调整模型，并将其输入到你的函数中。请求测试、重构或文档字符串。你会感觉自己聪明了 30%，这是本地的法定限额。

如何选择合适的模型（而不会头痛）

选择模型就像选择流媒体计划：你绝对可以为不需要的东西支付过高的费用。

写作和头脑风暴：llama3 或 mistral 非常棒。

超轻量级笔记本电脑：尝试 phi3 或更大模型的更小量化版本。

编码帮助：codellama、deepseek coder 或代码优化变体。

多语言：qwen 系列可以完成可靠的多语言工作。

更长的上下文：如果你提供大型文档，请查找标有更大上下文窗口的模型。

如果每次你发出提示时，你的风扇都会变成直升机，请降低模型尺寸或尝试更积极的量化。

秘方：和自定义行为

这是变得非常令人愉快的地方。你可以创建一个 ——基本上是一个配方——它定义了你的模型及其个性和默认值。

示例（概念）：

FROM llama3:8b-instruct SYSTEM "你是一个清晰、友好的助手。使用项目符号和短句。" PARAMETER temperature 0.5

将其另存为文件夹中的，然后运行：

ollama create crisp-assistant -f Modelfile

ollama run crisp-assistant

现在你拥有了一个可以在任何地方重复使用的自定义助手。这就像制作你自己的私人口味——香草味，加浓缩咖啡。

与我谈论：使用的

如果你有哪怕轻微的开发倾向，都会让你咧嘴笑。

端点：` 用于文本生成。

发送一个包含 model、prompt 和可选 stream 的有效负载。

你将在流中获得令牌。感觉就像实时阅读小说一样，一次一个字符。

为什么要使用？

自动执行新闻稿摘要。

在你的文档上构建一个聊天机器人。

创建脚本以批量重写产品描述。（只是不要让它们听起来像一个即兴表演过的机器人。）

如何将与你自己的文件一起使用（没有愤怒的）

——检索增强生成——将你的文件提供给模型，以便它使用你的内容中的事实而不是其模糊的记忆来回答。

基本路径：

使用本地嵌入工具为你的文档编制索引。

在每个问题上，搜索最上面的块。

在你的提示中将最相关的文本作为上下文发送给。

可以把它想象成的开卷测试。它不需要“记住”你的员工手册——它只需要引用它。

专业技巧：保持你的块较小（200-600 字），添加标题，并在提示中包含源链接，以便模型学习引用。

性能调整：让飞起来（而不会融化你的办公桌）

量化很重要：更小/更快，更大/更智能。从小处着手，逐步向上。

如果可用，请使用：表现出色。较新的显卡？厨师之吻。

温度：较低 (0.2–0.5) 用于精确答案；较高 (0.8+) 用于创意混乱。

最大令牌数：不要要求一篇 3,000 字的小说，除非你真的需要它。你的笔记本电脑想要活下去。

如果响应感觉迟缓：

尝试一个较小的模型。

关闭标签。是的，全部 47 个。

暂时禁用后台同步应用程序。

安全和隐私：人们使用的真正原因

本地意味着本地。但我们不要马虎。

敏感数据：你比云端更安全，但请加密你的驱动器并安全备份。

模型来源：从受信任的存储库中提取。如果模型描述看起来像一只猫在键盘上行走时写的，也许可以跳过它。

网络访问：在本地运行；除非你知道自己在做什么，否则不要在公共网络上公开端口。

你实际使用的日常工作流程

因为“哇，真整洁”与“我每天都使用它”不同。以下是如何在现实生活中使用：

会议清理器：粘贴笔记，按人要求行动项目，并请求后续电子邮件草稿。

研究伙伴：粘贴一篇文章。要求一个反驳，3 个来源来验证声明，以及一个 60 秒的摘要。

编码副驾驶：请求文档字符串、测试或更安全的正则表达式。让它用简单的英语向你解释更改。

写作冲刺：首先概述，然后扩展，然后收紧语气。保留一个定义你的声音的系统消息。

学习：像你耐心的大堂兄一样教我。然后测验我。

注意：如果你喜欢将所有这些内容放在一个地方——聊天历史记录、并排模型测试和快速网络查找——Sider.AI 可以很好地与本地模型配合使用，并为你提供一个更干净的驾驶舱。这就像你提示的任务控制中心。

故障排除：当变得喜怒无常时

“未找到模型。” 你还没有拉取它。ollama pull <model>。

“内存不足。” 使用较小的量化或模型尺寸。

“它太慢了，我都能听到我的笔记本电脑老化。” 减少最大令牌数，切换模型或使用加速。

“答案太模糊了。” 降低温度并在你的提示中添加示例。

“它一直在忽略我的指示。” 将规则放在系统提示中，而不仅仅是用户提示中。

专业提示：保存有效的提示。好的提示就像好的咖啡配方。未来的你会感谢过去的你。

高级操作：多模型、工具和自动化

轻量级思维链：要求它在回答之前列出步骤。“首先概述，然后逐段写作。”

多模型工作流程：与一个创意模型集思广益，用一个精确的模型验证。想想警察搭档电影。

工具使用：通过脚本将网络搜索、计算器或代码执行包装在周围。让模型决定调用哪个工具，但验证输出。

批量作业：将产品描述的传输到调用并写回结果的脚本中。喝咖啡，运行，完成。

如何在团队中安全地使用

如果你是非官方的人员（抱歉），请设置防护栏：

标准化一些批准的模型。

为团队声音和格式共享一个。

为重复任务保留一个提示库。

在本地记录某些工作流程的输入/输出，以便你可以在不监视人们的情况下查看质量。

“我需要云端吗？” 问题

有时需要。如果你需要巨型上下文研究、前沿推理或多模式巫术，云模型可能仍然会获胜。混合策略是明智的：

在本地使用进行草稿、私人文档和快速迭代。

使用云模型进行复杂的推理或巨大的输入。

在同一个界面中比较结果，以便你用眼睛而不是感觉来选择。

值得注意的是：Sider.AI 使这种比较变得毫不费力。你可以将相同的提示路由到本地和云模型，然后选择最佳响应或合并它们。这就像品尝两种咖啡，然后意识到你可以将它们混合在一起。

你成为办公室低语者的一周计划

第 1 天：安装，拉取 llama3，设置系统提示。第 2 天：为你的语气构建一个。尝试两个模型并注意差异。第 3 天：将一个笔记或编码工具连接到。第 4 天：使用一些创建一个小型原型。第 5 天：使用自动执行一项繁琐的任务。第 6 天：与你的团队分享一个提示库。第 7 天：回顾有效的内容，修剪无效的内容，并设置默认值。

那时，你不仅会知道如何使用 ——你还会不假思索地使用它，这就是我们保留工具的全部意义。

底线

如何使用归结为三件事：

保持本地化和简单化。拉取一个模型，完成三个实际任务。

使用系统提示和自定义行为，使其适合你的大脑，而不是相反。

将其集成到你的工作场所——编辑器、浏览器、笔记——这样它就不会成为你忘记的另一个标签。

不会让你的笔记本电脑变得神奇。它会让你更像你。在一个每个应用程序都试图将你的数据传递到其他人的服务器的世界中，这是一个非常令人耳目一新的升级。

现在去让你的本地编写一个更好的外出办公消息。也许可以提醒你真正休假。

常见问题解答

问题 1：开始使用的最简单方法是什么？安装它，拉取一个友好的模型，如，并运行一些实际任务——摘要、大纲或电子邮件草稿。保持较低的温度以获得清晰、可预测的答案，并保存任何效果良好的提示。

问题 2：在中，我应该使用哪个模型进行写作和编码？对于写作，请从或开始，以获得平衡的质量和速度。对于编码，请尝试或代码优化模型；将温度保持在左右，以减少幻觉。

问题 3：我可以在中使用我自己的文档 () 吗？可以——使用嵌入工具为你的文件编制索引，在每个查询中检索最上面的块，并将这些块作为上下文包含在你的提示中。这就像你的的开卷模式，并且大大提高了事实准确性。

问题 4：为什么在我的笔记本电脑上运行缓慢，我该如何加速它？使用较小的量化模型（例如），减少最大令牌数，并在需要时降低温度。如果你有或现代，请启用硬件加速以获得显着提升。

问题 5：Sider.AI 如何适应工作流程？ Sider.AI 可以在一个界面中连接到你的本地模型和云模型，从而轻松比较输出和组织聊天。它对于测试提示、保持历史记录整洁以及选择最佳答案而无需同时处理五个应用程序非常有用。

如何使用 Ollama 而不崩溃（或者浪费整个周末）

什么是 （以及为什么你应该关心）？

使用 的最快方法