你是否曾经尝试组装一件平板包装的家具,而说明书看起来像是被吸血鬼咬过一口?对于 2023 年的很多人来说,运行本地 AI 模型就像这样:诱人、赋能,但又令人困惑,足以让你想转行学习木工。 GPT4All 提供了一些帮助——友好的安装程序,不错的 UI——但也许它不太适合你。也许你想要更简单的模型管理、GPU 速度、可共享的 Web UI,或者一种极其简单的方式来“只是和我的文档聊天,拜托了”。
好消息是:一个完整的 GPT4All 替代方案社区已经蓬勃发展。它们专注于隐私、设备上的速度,以及不将你的数据发送到云端的温暖而模糊的感觉。今天,我将介绍一些顶级选择,解释每个方案的优势,并且——这是关键部分——向你展示一个正常人(你!)如何在家里、工作中,或者当你的 Wi-Fi 进入休息时间时,实际使用它们。
在我们开始之前,请注意:软件更新速度很快,功能会发生变化,并且你的体验会因你的计算机而异。请将此视为旅行指南,而不是《十诫》。如果你正在寻找人们在 2024-2025 年热议的本地 LLM 工具,那么简短的列表包括 Ollama、LM Studio、Text Generation WebUI (又名 oobabooga)、Jan、Llama.cpp、LocalAI 及其朋友。一些综述将这些名称放在首位,作为今年首选的本地 LLM 选择。
我们到底在优化什么?
如果“本地 LLM”对你来说是一个新词,它只是意味着在你自己的机器上运行 AI 模型——没有云,没有每月账单,没有数据发送到未知的服务器。你将会牺牲一些大型云模型的原始算力(目前是这样),但你会获得隐私、控制,并且如果你选择了正确的模型大小和硬件,速度会非常惊人。
现在,你如何选择正确的工具来运行这些模型?让我们按人格类型来排序。
- Ollama:只需“运行”的命令行礼宾
如果你曾经希望用一个词来安装和交换模型,Ollama 就像订购披萨:“ollama run llama3”,它会获取正确的面团、酱汁和配料。它是一项后台服务,可以处理不断增长的模型菜单的下载、量化和更新。你可以单独使用它,通过其本地 API 将其连接到其他应用程序,或者将其与 Web UI 配对。它就像本地 LLM 的通用遥控器。
它非常适合:
- 模型切换:这个小时测试 Llama 3,午饭后测试 Mistral 变体。
需要注意的事项:
- 对于更长的会话,你仍然需要一个 UI——Open WebUI 或任何与 Ollama API 通信的工具。
如果你只是浏览:Ollama 是摩擦消除器。较新的指南一直将其列为 2025 年最佳本地 LLM 工具之一。
- LM Studio:最适合人类的“应用式”体验
如果 Ollama 是命令行披萨,那么 LM Studio 就是你舒适的社区小餐馆。它是一个完整的桌面应用程序,具有可视化模型目录、一键下载、聊天窗口以及一些方便的上下文长度和系统提示旋钮。你甚至可以打开本地服务器,以便其他应用程序可以连接,这是一种花哨的说法,即“在家中使用 LM Studio 作为你的个人 AI 引擎”。
它非常适合:
- 尝试一个模型并切换到另一个模型而无需重新学习工具。
需要注意的事项:
- 高级用户可能会超出其默认设置,但如果你深入挖掘,就会有深度。
- 与所有本地工具一样,性能在很大程度上取决于你的硬件。
综述经常将 LM Studio 列为本地运行模型的首选——这是有充分理由的:它是对新手来说最平易近人的入门工具。
- Text Generation WebUI (oobabooga):瑞士军刀聊天实验室
这是一个修补匠的俱乐部:你可以在浏览器中运行的本地 Web 应用程序,具有扩展、角色卡、提示模板、微调助手,以及比餐馆菜单更多的滑块。如果你理想的星期五晚上是“比较六个模型和两个 GPU 的 token 采样设置”,那么这就是你的地方。
它非常适合:
需要注意的事项:
- 能力越大,复杂性越高。这是一个实验室,而不是一个温泉。
- Jan:友好的、捆绑的、无需互联网的应用程序
Jan 就像“AI 外卖”包:它捆绑了一个引擎和模型,因此你可以离线运行而无需摆弄。想想:“我只是想要一个私人的聊天助手,而无需学习本地 LLM 的秘密握手。”它旨在提供开箱即用的、以隐私为先、用户友好的体验。
它非常适合:
需要注意的事项:
- 与使用其他工具相比,高级用户可能会更快地遇到限制。
- Llama.cpp 及其朋友:性能管道
许多本地工具的底层是 Llama.cpp——一个高度优化的 C/C++ 实现,它使这些模型能够在 CPU 和消费级 GPU 上以惊人的速度运行。如果你喜欢低级控制,可以直接使用它,或者让 Ollama 和 LM Studio 等工具为你处理。如果你梦想着量化格式,欢迎回家。
它非常适合:
需要注意的事项:
- LocalAI:即插即用的 API 替代方案雄心
LocalAI 旨在在本地模拟流行的 AI API。如果你的应用程序需要 OpenAI 风格的端点,LocalAI 希望成为即插即用的替代品——在你的笔记本电脑或服务器上。对于开发人员来说,这可能是一种超能力:隐私加上可移植性,而无需重写一半的代码。
它非常适合:
- 想要一个本地的、私有的、“像云一样工作”的 API 的开发人员。
需要注意的事项:
- 与面向消费者的应用程序相比,需要更多的设置和维护。
- Open WebUI(及类似工具):引擎更友好的界面
将 Ollama 等后端与 Open WebUI 等前端配对,你就拥有了一个令人愉悦的、可共享的聊天界面,具有历史记录、文件上传和多模型切换功能。这就像给你的本地 AI 一个起居室,而不是让它坐在车库里的牛奶箱上。
它非常适合:
需要注意的事项:
你应该选择哪一个?本地 LLM 的人格测验
- “我想快速开始,而且我不介意命令行。” 选择 Ollama。
- “请给我一个带有按钮的漂亮应用程序。” 选择 LM Studio。
- “我修补,故我存在。” 选择 Text Generation WebUI。
- “我构建应用程序,并且想要一个本地 API。” 选择 LocalAI。
- “我想要最终的控制和速度旋钮。” 直接选择 Llama.cpp(或基于它构建的工具)。
关于性能和硬件的简要说明
本地模型在 GPU 上运行速度最快,但现代 CPU 在处理较小的、量化的模型时也能表现出色。翻译:如果你的无风扇笔记本电脑认为扫雷游戏很激烈,请不要下载 70B 参数的庞然大物。对于一般的写作和头脑风暴,尝试 3B-8B 模型;如果你有中档 GPU,则升级到 13B-14B;只有当你确定需要它时才选择更大的模型——并且你的电费已做好情感准备。
上下文窗口(模型可以“记住”多少文本)比你想象的更重要。如果你正在进行文档问答,请选择一个允许你发送更长上下文或使用检索增强生成 (RAG) 的模型和工具,以“先搜索,然后回答”。现在许多工具都内置了文档索引,因此你可以放入一个 PDF 文件,然后说“现在告诉我退款政策隐藏在哪一页”,而无需像浣熊一样在垃圾箱中滚动。
隐私怎么样?
本地 LLM 将你的数据保存在你的设备上,这是使用它们的一半原因。但请记住:插件、扩展程序和“从互联网下载此模型”仍然涉及……互联网。保持你的系统更新,从可信的中心下载模型,并将敏感文件视为敏感文件。本地并不意味着粗心大意。
如何在不后悔的情况下试用替代方案
这是一种低调的方式来尝试一些:
- 从 LM Studio 开始。它很友好,并且让你了解硬件上的模型大小和速度。
- 接下来安装 Ollama。将其用作后台引擎,并尝试像 Open WebUI 这样的前端。
- 如果你想更深入,请启动 Text Generation WebUI 以获得高级功能和角色扮演预设。
- 如果“离线捆绑”让你感到高兴,请尝试 Jan,看看它是否涵盖你的日常任务。
向每个工具提出以下问题:
- 它是否可以处理你的日常工作:电子邮件、笔记、代码片段或文档问答?
友好的现实检查:小型模型与大型期望
我们正处于“足够好的本地模型”的黄金时代。较小的模型比一年前好得多,并且量化技术允许你在普通计算机上运行它们。但是,7B 模型不太可能像顶级云模型那样编写出完美的法律动议或调试一千行代码库。如果你撞到了天花板,那不是你——那是物理学、数学,以及热力学中对我们皱眉的那条定律。
GPT4All 现在适合什么?
GPT4All 仍然是一个不错的选择,特别是对于其平易近人的应用程序和本地模型目录而言。但是,如果你渴望更简单的引擎管理 (Ollama)、更“原生应用程序”的感觉 (LM Studio)、最大的可调整性 (Text Generation WebUI) 或预捆绑的离线氛围 (Jan),你可能会在上面的替代方案中找到更合适的选择。最近的综述继续将 GPT4All 纳入其中——只是对于想要最少摩擦的新手来说,并不总是位于最顶部。
真实场景:哪个替代方案获胜?
- 周末作家:你正在起草博客文章、集思广益标题,并以更友好的声音重写段落。 LM Studio 加上 7B-8B 模型会感觉像一个增压的同义词库,它也能理解氛围。
- 专注于隐私的顾问:你总结客户文档并生成没有云的提案。将 Ollama 与 Open WebUI 和检索插件配对,以便你可以引用 PDF 文件。你将成为不会泄露秘密的代笔人。
- 家庭实验室修补匠:你试验采样参数、角色卡和用于创意写作的利基模型。 Text Generation WebUI 是你的游乐场。
- 开发人员:你想要一个本地 API 来原型化应用程序,而无需燃烧 token。 LocalAI(或 Ollama 的 API)插入,你的代码不会知道其中的区别,并且你的笔记本电脑可以扮演数据中心的角色。
- 旅行者:你将在没有 Wi-Fi 的飞机上,但仍然需要一个写作伙伴。 Jan 是你的随身助手。
故障排除角:当事情变得糟糕时
- 它很慢:尝试一个更小的、更积极量化的模型(如 Q4_K_M)。减少上下文长度。关闭占用大量内存的应用程序。如果你有独立 GPU,请确保该工具实际在使用它。
- 它容易遗忘:如果你的 RAM 允许,则增加上下文窗口。或者设置 RAG 工作流程,以便模型可以从你的文件中“查找”事实。
- 它很乏味:使用系统提示和示例。向它展示你喜欢的段落,然后说“像这样写,但是关于{主题}”。
- 更广泛地了解在本地运行模型的最佳工具——LM Studio、Jan、Llamafile、GPT4All、Ollama 和 Llama.cpp。
常见问题解答
问题 1:对于初学者来说,最好的 GPT4All 替代方案是什么?
从 LM Studio 开始,获得友好的、类似应用程序的体验,如果你想要轻松的模型切换和集成,请添加 Ollama。如果你喜欢具有许多功能的 Web UI,Text Generation WebUI 是修补匠的最爱。
问题 2:在典型的笔记本电脑上,哪个 GPT4All 替代方案最快?
速度取决于你的硬件和模型大小。 Ollama 加上一个量化良好的 7B-8B 模型(或运行相同的 LM Studio)通常感觉很流畅;如果可用,请使用你的 GPU 并保持合理的上下文长度。
问题 3:替换 GPT4All 的最简单的离线设置是什么?
尝试 Jan 以获得一体化的、离线友好的体验。如果你想要更多一点的灵活性而又不复杂,LM Studio 是一个接近的选择。
问题 4:GPT4All 替代方案可以处理私人文档问答吗?
可以——使用支持检索增强生成 (RAG) 或长上下文窗口的工具。将 Ollama 或 LM Studio 与 Web UI(如 Open WebUI)和 RAG 插件配对,以安全地查询你的 PDF 文件。
问题 5:我应该使用本地 LLM 还是像 Sider.AI 这样的浏览器助手?
在有意义的时候同时使用两者:本地 LLM 用于隐私和离线工作,Sider.AI 用于浏览、总结页面或起草回复。这是关于为任务选择正确的工具,而不是选择一个唯一的赢家。