How do I use FastChat with an OpenAI-compatible client?

Point your client’s base URL to the FastChat API server and keep the same chat/completions schema. The endpoint matches, but model behavior won’t—so test prompts and parameters against the actual model you’ll run.

What’s the best way to run FastChat on a single GPU?

Pick a model that fits your VRAM with room to spare, ideally quantized (4–8 bit) for comfort. Start one worker, stream tokens, and keep batch size tiny unless you like latency spikes.

Can FastChat handle multiple models at once?

Yes—the controller will track multiple workers and models. Route requests intentionally; don’t assume ‘same API’ means ‘interchangeable results’ across models.

How do I speed up FastChat without buying new hardware?

Quantize the model, enable KV cache reuse, stream responses, and right-size max_tokens. Caching common prompts helps more than most knob-twiddling.

Is FastChat good for RAG pipelines?

It works fine as the chat layer, but RAG quality depends on clean retrieval and disciplined prompts. FastChat won’t fix sloppy context; it just serves the model faster.

告别繁琐：如何高效使用FastChat

简介：关于“简单”聊天框架的一些事

那些自称“简单”的开发者工具，通常并不简单。它们的“简单”就像航空公司的登机流程一样“简单”。排队、分区，还有你找不到的登机牌，因为APP在登机口把你登出了。FastChat，这个人们常用来连接大型语言模型的开源聊天框架，经常被称为简单。但在实践中？如果你确切地知道自己在做什么，它才简单。如果你不知道，它就会变成一个由端口、模型和GPU运算组成的乱麻，看起来像是在克里斯托弗·诺兰的电影里试镜。

本指南将以通俗易懂的方式讲解如何使用 FastChat，而不会把你的周末变成调试的避难所。我们将学习如何在本地使用 FastChat，如何服务模型，如何连接 OpenAI 兼容的端点，以及如何运行一个不会在第一次接触现实时就崩溃的 UI。我会指出哪些是脆弱的，哪些是快速的，以及哪些是被宣传为快速的。（这通常是三个不同的东西。）

FastChat 到底是什么？

FastChat 是一个用于服务和与大型语言模型聊天的开源系统。可以把它想象成“OpenAI API 的克隆”，但你需要自带模型。它包括：

一个控制器（交通警察），

一个或多个模型工作者（实际执行工作的人），

一个 OpenAI 兼容的 REST API 层，

一个比没有好，但比任何专门构建的 UI 都要差的 Web UI。

如果你曾经用一行代码运行过一个本地 LLM，并且觉得：这不可能用于生产环境——你是对的。FastChat 正好相反：它想成为生产级别的。你需要连接各个组件，更像是 LEGO Technic 而不是 LEGO Duplo。好处是灵活性。代价是需要知道自己在做什么。

如何使用 FastChat：简短版本

安装 FastChat 及其依赖项（Python、CUDA，如果你关心速度，还有模型权重）。

启动控制器。

启动至少一个模型工作者，并将其指向控制器。

（可选但有用）启动 OpenAI 兼容的 API 服务器。

（可选但能拯救理智）启动 Web UI。

通过 OpenAI 风格的 API 或内置 UI 发送请求。重复操作，直到你不再骂人。

这就是核心循环。剩下的就是如何在不烧毁你的 GPU 或耐心的情况下做到这一点。

设置：那些稍后能为你节省数小时的枯燥部分

Python：使用一个不会被污染的虚拟环境。FastChat 对版本很挑剔。挑剔的软件不会道歉。

GPU：如果你有 NVIDIA 硬件，安装一个真正匹配你的驱动程序的 CUDA 工具包。如果没有，你将在 CPU 上运行，这就像开着一辆小型货车爬派克峰——可能，比你想象的要慢，而且你会想知道自己为什么要尝试。

模型：FastChat 不自带模型。你需要将它指向模型权重——Llama 变体、Mistral、Qwen 等。如果你的 GPU VRAM 更像“MacBook”而不是“数据中心”，你也可以运行量化模型。

基本安装：保持清洁

创建一个新的 Python venv。

。如果你需要启用 CUDA 的 PyTorch，请先安装它。如果你不知道是否需要它，那你可能需要。

验证 torch 是否能看到你的 GPU：如果不能，在责怪 FastChat 之前解决这个问题。因为缺少驱动程序而责怪框架，就像因为冬天责怪恒温器一样，是 devops 界的笑话。

启动控制器：空中交通管制塔

运行控制器。它跟踪模型工作者并路由请求。没有它，什么都无法相互通信。可以把它看作是你推理农场的 DNS。枯燥、必要，在它工作时是隐形的。

启动模型工作者：魔法真正发生的地方

选择一个你能在 VRAM 中负担得起的模型。一个 FP16 的 7B 参数模型仍然可以摧毁一个普通的 GPU。如果你的资源有限，可以尝试 4 位或 8 位量化。

启动一个工作者，将其指向控制器，并设置模型路径。如果加载失败，通常是因为模型精度不匹配或 tokenizer 不匹配。阅读日志。它们的语气就像外科医生一样直率。

OpenAI 兼容的 API：有用的部分

FastChat 公开了一个 OpenAI 风格的 API。这意味着你现有的期望 OpenAI 端点的脚本和工具，理论上，可以直接工作。在实践中，你需要调整基本 URL，并注意模型无法完成的功能（函数调用、图像输入），除非你的工作者支持它们。但事物的形状——JSON、聊天/完成端点——是一致的。这就是一个周末项目和你可以连接到服务中的东西之间的区别。

Web UI：因为有时候你想点击

内置 UI 适合测试。它不是一个产品；它是一个窗口。如果你只想为你的盒中大脑提供一个开发控制台，这就足够了。如果你想要工作区、线程、多模态输入或周到的生活质量功能，你仍然会编写自己的包装器——或者使用一个已经弄清楚了边缘情况的客户端。

如何使用 FastChat 进行本地开发

在单独的终端中启动控制器和一个工作者。在你信任它们之前，不要把它们埋在 tmux 中。

使用 curl 或一个小的 Python 脚本来访问 OpenAI 兼容的端点：发送一个简短而明确的测试提示。

调整生成参数：temperature、top_p、max_tokens。从保守开始。人们过度调整随机性，然后抱怨幻觉，好像模型醒来后变得调皮了。

确认 tokenization 行为符合你的期望。如果你经常更换模型，你会发现边缘情况。这不是 FastChat 的错。这是“LLM 很奇怪”。

如何使用 FastChat 进行团队原型设计

在一个稳定的主机上运行控制器。

运行多个具有相同模型的工作者来模拟一个池，或者通过能力混合模型。

在内部公开 OpenAI 兼容的端点。给你的团队一个 URL 和一个 API 密钥。

添加日志记录。这不是一个新颖的想法，但盲目运行的团队数量会让拉斯维加斯的体育博彩公司脸红。你需要提示和响应来进行调试；如果必须，可以编辑敏感部分。

性能：“快”的含义取决于你

FastChat 给你足够的空间来变得快速——或者用过于雄心勃勃的配置来扼杀自己。现实检查：

VRAM：如果你的 VRAM 不够，进行量化。如果仍然不够，使用更小的模型。没有框架可以改变物理定律。

批处理大小：对吞吐量有好处，但通常对延迟有坏处。选择一个。如果你两者都需要，你需要更多的工作者。

KV 缓存：如果你的工作者支持，重复使用它。否则，你就是在为你已经支付过的上下文付费。

Token 采样：一旦你的基本模型质量成为限制因素，花哨的解码方案就会获得递减的回报。

安全：它不是一个玩具

如果你把 FastChat 放在一个其他人可以访问的服务器上：

添加身份验证。即使是一个粗略的 API 密钥也胜过“希望”。

限制速率。当一个脚本在凌晨 2 点进入递归时，你未来的自己会感谢你。

如果你将许可权重与开放权重混合使用，请在公共模型和私有模型之间分割流量。律师喜欢歧义；不要喂他们。

如何将 FastChat 与实际工具一起使用

Notebooks：将你的 OpenAI 客户端指向 FastChat 基本 URL 并开始。这是数据科学家最不烦恼的路径。

CLI：手边保留一个小脚本用于冒烟测试。如果你在 10 秒内无法获得合理的响应，请停止并修复管道。

Web 应用程序：将 FastChat 视为内部微服务。健康检查、重试、超时。你不需要一本书来做到这一点——你需要纪律。

选择模型：每个人都在争论的部分

负责任地使用 FastChat 从模型选择开始。一些快速的启发式方法：

具有清晰答案的简短聊天：较小的指令调整模型通常可以发挥出超过其重量的作用。

代码繁重的提示：使用实际在具有宽松许可的代码上训练的模型。“足够接近”是不够的。

长上下文：如果你需要 32K+ tokens，首先规划你的硬件。然后降低你的期望。

多模态：FastChat 的兼容性各不相同。如果你需要图像或音频，请选择一个明确支持它的工作者和模型，或者不要假装你可以。

OpenAI 兼容性陷阱

OpenAI 兼容 API 的好处是你可以更换后端。不好的一点是人们开始把所有模型都当作是相同的。它们不是。一个看起来相同的端点可以在不同的模型中表现出截然不同的行为——推理、冗长、安全过滤器、整个个性。你的应用程序不会因为 JSON 模式匹配而神奇地适应。用你将要运行的实际模型进行测试。然后在你改变任何东西之后再次测试。

可观察性：你无法修复你无法看到的东西

记录提示、参数和延迟。

跟踪 token 计数并拒绝超出预算的提示。

维护每个模型的仪表板。是的，对于一个“聊天服务器”来说，这很多。这也是稳定性和感觉之间的区别。

失败模式：FastChat 反咬一口的地方

工作者在 OOM 下死亡：你对精度猜测得有点太高了。降低它或获得具有更多 VRAM 的 GPU——没有任何巫术可以可靠地将 FP16 13B 压缩到 8GB 中。

控制器失去对工作者的跟踪：网络故障。添加重试，并且不要像在咖啡店 LAN 派对上那样将所有内容部署在同一个不稳定的 Wi‑Fi 上。

糟糕的延迟峰值：你的批处理过于雄心勃勃，或者你的 CPU 正在限制 tokenization。在理论化之前进行分析。

如何在不失去一周的情况下使用 FastChat 进行 RAG

人们不断将 FastChat 连接到检索管道，并且对模型即兴创作而不是引用感到惊讶。提示：

在其他地方干净利落地完成检索（Vector DB、embeddings）并将简短的、结构化的上下文提供给模型。

保持提示的纪律。“用引用回答”不是一个咒语；这是一个建议。如果你需要引用，请在后处理中强制执行结构，或使用经过训练可以表现良好的模型。

缓存对重复查询的答案。大多数“动态”知识库都是 80% 相同六个问题的不同角度。

成本：时间是昂贵的部分

在纸面上，在本地运行 FastChat 很便宜，但在注意力上很昂贵。如果你的目标是学习，那很好。如果你的目标是交付，请考虑你的时间花费在哪里：打包、升级、监控、回退。如果你的实际评估工作不是“运行一个聊天服务器”，那么使用托管服务没有什么可耻的。

Sider.AI 的适用之处——以及不适用之处

如果你想要一个理智的客户端体验——线程、提示管理、在本地模型和云模型之间快速切换——Sider.AI 实际上可以工作，而无需请求你首先阅读三个 YAML 文件。你可以将它指向 OpenAI 兼容的端点（如 FastChat），或者在你的 GPU 开始喘息时使用托管模型。它不是 FastChat 的替代品；它是将你的粗糙边缘变成人们可以在没有开发人员站在旁边解释的情况下使用的东西的部分。如果你的首要任务是摆弄工作者和控制器，请留在 FastChat 中。如果是做实际工作，Sider 位于你的 FastChat 端点之上，是你不会后悔的部分。

如何逐步使用 FastChat（无需挥手）

安装依赖项：Python、CUDA（如果适用）、带有 CUDA 的 PyTorch。

在一个新的环境中安装 FastChat。

在一个可预测的端口上启动控制器。

下载一个你实际可以运行的模型。不要像青少年选择第一辆车一样，从排行榜上最大的东西开始。

用该模型启动一个工作者。确认 VRAM 使用情况和第一个 token。

启动 OpenAI 兼容的 API 服务器。

使用设置为你的本地基本 URL 的 OpenAI 客户端，用一个已知的良好提示进行测试。

调整解码参数，设置合理的默认值，并将它们锁定在配置中。

在其他人接触它之前，添加日志记录、基本身份验证和速率限制。

可选：启动 Web UI 或连接一个更好的客户端，如 Sider.AI。

你只会遇到一次的常见陷阱（如果你阅读了此内容）

混合的 CUDA/PyTorch 版本：在第一次实际加载之前，它看起来会很好。有目的地匹配版本。

Tokenizer 不匹配：Hugging Face 模型与 tokenizer 漂移会产生微妙的胡说八道。保持它们同步。

过长的系统提示：你正在为 pep 演讲支付 tokens。使系统提示简短、具体和无聊。

忽略流式传输：打开流式传输以提高响应能力。最终用户将“开始快速打字”等同于“聪明”，并且说实话，他们没有错。

扩展：当一个工作者不够时

水平工作者：注册到控制器的多个工作者。这不是火箭科学，但你确实需要一个关于每台机器上的模型权重的计划。

混合模型：将简短的答案路由到较小的模型；将难题发送给重量级选手。你需要路由逻辑；控制器不会为你的应用程序提供父级。

缓存：记忆常用提示。没有什么比跳过你已经完成的工作更快。

为什么选择 FastChat 而不是另一个框架？

因为你想要控制，而无需建造整个大教堂。控制器/工作者分离是明智的。OpenAI 兼容的 API 是务实的。它不会假装超出它的范围。如果你的雄心壮志在热力学定律范围内，你可以在一个下午从“想法”到“可用”。

但不要自欺欺人

如何好好使用 FastChat 意味着接受权衡：

你将放弃一些润色以换取灵活性。

你将阅读日志，并且它们至少有一次会是难以理解的。

你将受到诱惑去追逐基准测试的巨龙。抵制。对于大多数实际工作，模型选择比框架更重要。

如果你只记得五件事

从小处开始。更小的模型，更小的配置，更少的活动部件。

尽早通过 OpenAI 兼容的 API 进行测试。如果该路径有效，剩下的就是管道。

在损害稳定性之前进行量化。OOM 不会让你更快。

记录所有你以后不想猜测的内容。

使用一个体面的客户端。正确的 UI 使平庸的模型感觉有能力，而好的模型感觉很棒。Sider.AI 在这里是一个可靠的、无大惊小怪的层。

总结：诚实的看法

FastChat 是当开源发展到足以有用而又没有假装它是一个 SaaS 时发生的事情。它是模块化的、务实的，并且明显地对牵着你的手不感兴趣。如何使用 FastChat，主要是如何使用任何重视灵活性而不是仪式的工具：从一个明确的目标开始，连接最小可行的管道，并在它工作时停止。剩下的——仪表板、分布式工作者、模型动物园——可以等到有人问你一个正常运行时间数字。

对于大多数人来说，明智之举是在一个不会浪费你注意力的客户端背后运行 FastChat。对于修补匠来说，这是一个充满挑战的游乐场。对于每个人：如果你让它快速，它就快速，如果你保持简单，它就简单，并且它只和你选择的模型一样好。软件应该是这样，但很少是这样。

常见问题解答

Q1：如何将 FastChat 与 OpenAI 兼容的客户端一起使用？将你的客户端的基本 URL 指向 FastChat API 服务器，并保持相同的 chat/completions 模式。端点匹配，但模型行为不匹配——因此请根据你将运行的实际模型测试提示和参数。

Q2：在单个 GPU 上运行 FastChat 的最佳方式是什么？选择一个适合你的 VRAM 且有剩余空间的模型，最好是量化的（4-8 位）以获得舒适感。启动一个工作者，流式传输 tokens，并保持批处理大小很小，除非你喜欢延迟峰值。

Q3：FastChat 可以一次处理多个模型吗？是的——控制器将跟踪多个工作者和模型。有目的地路由请求；不要假设“相同的 API”意味着模型之间的“可互换结果”。

Q4：如何在不购买新硬件的情况下加速 FastChat？量化模型，启用 KV 缓存重用，流式传输响应，并正确调整 max_tokens。缓存常用提示比大多数旋钮调整更有帮助。

Q5：FastChat 适合 RAG 管道吗？它可以很好地用作聊天层，但 RAG 质量取决于干净的检索和有纪律的提示。FastChat 不会修复马虎的上下文；它只是更快地服务于模型。