关于“下一代”AI模型,它们总是带着两个行李箱而来:一个装满了基准测试数据,另一个则装满了承诺。
GLM‑4.6 也不例外。它带来了全新的图表、小数点后更多的位数,以及关于“推理”的新口号。这个词在 AI 营销中承担了重要的作用。它就像机器智能领域的“有机”概念——模糊地具有美德,有时有意义,但通常只是一个标签。
让我们去掉这个标签。如果你的问题是“什么是 GLM‑4.6,有什么新功能,以及我如何真正地使用它进行推理和代理?” 诚实的答案是:这是一个渐进但真实的进步,如果你关心实际的工作流程、结构化的工具使用,以及那些在你向它们抛出一个不熟悉的电子表格时不会崩溃的代理框架,那么它就非常重要。如果你想要一个炫技的功能,那么很多模型都可以做到。如果你想要一个能够保持任务的模型,那么 GLM‑4.6——取决于具体的工作——实际上会非常有趣。
这是一篇深入的探讨/解释,带有一个工作上的偏见:GLM‑4.6 如何改变推理管道和代理编排的日常工作,以及如何在此过程中不自欺欺人。
GLM‑4.6 的真正含义(以及不是什么)
“GLM”是一个大型语言模型的家族。4.x 系列倾向于多轮推理、工具使用和更广泛的上下文窗口。GLM‑4.6 是一个新的版本,它调整了只有在你实际构建时才会注意到的部分:更稳定的链式思考脚手架(内部)、更好的函数调用遵守、更少的跨长提示的自我矛盾,以及稍微更合理的结构化输入处理。这些工作在炫目的演示中并不显眼,但当你停止演示并开始交付产品时,它们就会显现出来。
它不是什么:它不是 AGI,它不是魔法,它也不会像新闻稿每周三暗示的那样取代所有其他模型。如果你期望一次性的证明或定理级别的严谨性,那是不可能的。如果你期望在处理多个工具调用和大型上下文时减少不必要的错误,那么它就更接近你的期望。
GLM‑4.6 中的新功能(重要的细节)
- 更长、更具粘性的上下文:不仅仅是更多的 tokens,而且在各个部分之间具有更好的保留能力。当你在第十二段调用一个工具时,它不太可能“忘记”你在第三段中设置的约束。
- 更严格的函数调用:参数的形成更加一致。减少了为了强制 JSON 成形而进行的繁琐操作,减少了幻觉键。如果你构建代理,你就会知道很多模型都是在这里被自己的鞋带绊倒的。
- 结构化推理偏见:你可以通过轻量的脚手架将 GLM‑4.6 推入计划-然后-行动的循环中。它不会假装像哲学家一样思考,但它会像一个像样的项目经理一样跟踪步骤。
- 多模态触感(如果你需要它们):图像感知的变体在表单读取和 UI 解析方面表现得更加可预测。不是艺术玩具之类的东西,而是枯燥但有用的东西。
- 延迟/成本调整:更少的峰值,更可预测的吞吐量。不,不是免费的;是的,足以在生产仪表板中产生影响。
基准测试?你会发现通常的那些——MMLU 这个,GSM8K 那个——都被向上调整了。标题不是数字;而是在负载下的一致性以及在工具链中减少了“到底发生了什么?”的时刻。
使用 GLM‑4.6 进行推理:停止幻想,开始限制
LLM 中的“推理”是统计模式补全,偏向于逐步文本。这很好。假装它是别的东西会导致糟糕的提示和更糟糕的系统。当你给 GLM‑4.6 提供以下内容时,它会变得更好:
- 约束胜于聪明:明确目标格式、验收测试和失败条件。如果数学的形状是清晰的,模型就会进行数学运算。
- 分解胜于独白:将问题分解为多个阶段——解析 → 计划 → 执行 → 验证。你可以将此嵌入到系统提示中,或者使用工具调用显式地执行此操作。
- 外部化记忆:不要让模型成为你的数据库。让它写入并读取外部草稿纸或向量存储。GLM‑4.6 不那么健忘,但它仍然是一条金鱼,偶尔会有清醒的时刻。
- 验证钩子:使用验证器进行第二次传递——有时是相同的模型,有时是较小的模型——可以捕捉到愚蠢的错误。如果在生产中它可以挽救一个错误的答案,那么它就不是多余的。
这是一个最小的、非常有效的表格推理循环:
- 步骤 1:要求 GLM‑4.6 从问题中提取模式和约束。
- 步骤 3:使用由模型进行 JSON 编码的参数来执行工具调用(SQL、Python,任何东西)。
- 步骤 4:将工具结果反馈回来,并要求一个最终答案,其理由与检索到的行绑定。
诀窍不是花哨的提示。而是拒绝让模型在不应该即兴发挥的地方即兴发挥。
使用 GLM‑4.6 的代理:放牧猫,现在有了牵引绳
代理是炒作伪装成产品管理的地方。大多数“自主”代理就像在 LEGO 商店里放生的 Roomba——很忙,但没有帮助。GLM‑4.6 本身并不能改变这一点。但它可以做到:
- 更可靠的工具合约:当你说调用 get_flights(origin, destination, date) 时,它会停止发明 cabin_class,除非你要求它这样做。这就是演示和退款之间的区别。
- 更好的步骤核算:如果你要求它将工具调用限制在 N 次或需要批准检查点,它会更频繁地服从。服从是被低估的。
- 可以容忍的长期任务:通过显式的里程碑和记忆存储,它可以执行多天的任务而不会陷入同人小说。
使用 GLM‑4.6 代理的制胜模式不是“放开它”。而是“紧密的循环,短的牵引绳,明确的奖励”。
一个实用的脚手架:从提示到管道
随便你怎么称呼它——“深思熟虑的推理”、“计划者-执行者”——管道看起来像这样:
- 系统:你是一个谨慎的计划者。没有计划,你不会调用任何工具。你必须以模式生成 JSON。
- 用户:任务(清晰、有界限,并提供好与坏答案的示例)。
- 工具调用:确定性的、类型化的参数。拒绝模式错误。记录一切。
- 助手(合成):模型将工具输出与计划集成,并返回一个最终结果。
- 验证器:轻量级检查——有时只是正则表达式和验收测试——以捕捉偏差。
GLM‑4.6 的贡献:更少的计划/执行不匹配和更一致的参数形状。不迷人。但有用。
不会欺骗你的提示
- 不要扮演天才。要求结构:“列出假设”、“显示单位转换”、“引用你使用的行”。
- 使用有约束力的防护栏。“如果你不确定,请要求澄清”是毫无价值的,除非你定义不确定并要求提出问题。
- 优先使用示例对,而不是长篇大论。两个好的例子胜过两页的氛围。
- 让模型说“我不知道”。从字面上允许这个短语。否则它永远不会使用它。
GLM‑4.6 比早期版本更愿意遵循这个程序。这就是进步:不是更聪明的谎言,而是更少的谎言。
数据、工具和函数调用的枯燥魔法
函数调用是推理停止成为表演的地方。对于 GLM‑4.6:
- 模式保持不变:教一次函数签名,并在多次调用中重复使用它。
- 多工具序列表现良好:计划 → 搜索 → 获取 → 总结不再变成计划 → 总结 → 再次总结。
- 快速失败:如果一个工具拒绝一个参数,将错误返回给模型并强制进行纠正。不要默默地修复;要求模型这样做。
如果你正在构建研究助手、客户支持机器人或数据代理,那么枯燥的魔法就是每次都能正确地进行工具调用。GLM‑4.6 更擅长枯燥。
长上下文:更多的漫游空间,更少的迷路借口
上下文窗口的增长是因为我们不断地将更多的内容粘贴到其中。GLM‑4.6 处理更长的上下文时,串扰更少。尽管如此,还是有一些规则:
- 分块和标题:使用简短、明确的标题。模型“记住”标签比记住段落更好。
- 指针胜于粘贴:如果指针和检索钩子可以完成,就不要填充附录。
- 承担责任地总结:要求模型引用章节 ID,而不仅仅是“文档说”。
回报是更少的幻影回忆和更多的有根据的摘要。
使用 GLM‑4.6 进行编码:不要让它随意发挥
如果你控制了差异,它擅长样板代码和体面的重构。对于重要的代码生成:
- 在实现之前进行单元测试。让模型编写测试,然后编写代码。运行测试。将失败反馈回来。
如果你坚持这种纪律,GLM‑4.6 会显得更聪明。它不是在伪装;你正在降低它偏离轨道的可能性。
GLM‑4.6 减少(但不能消除)的推理陷阱
- 锚定在早期的猜测上:要求它在决定之前列出替代方案。你会看到更少的“第一个想法就是最好的想法”的答案。
- 过度总结:要求可追溯的引用或行 ID。否则它会改写自己的改写。
- 计划-执行偏差:使计划成为一个合约。如果最终答案偏离,强迫它解释原因。
- 工具幻觉:维护一个注册表并拒绝未知的工具。模型会发明更少的工具——但目标是零。
评估 GLM‑4.6:你可以信任的基准(你自己的)
公共排行榜就像餐厅的星级一样有用:好的信号,但不是你的口味。你的基准应该是:
- 任务绑定:来自生产环境的 100-200 个真实提示,而不是精心挑选的。
- 使用验收测试进行评分:正则表达式、计算器、模式验证器。人类发现细微差别;机器捕捉愚蠢的东西。
- 成本核算:衡量每个正确答案的美元成本,而不仅仅是准确性。
当工作负载是工具密集型和多步骤时,GLM‑4.6 往往在“每个正确的成本”方面表现良好。如果你的工作是原始的散文,没有结构,你可能会发现与其他大牌的平价。
如何使用 GLM‑4.6 进行代理(一个不作伪装的剧本)
- 像 API 一样定义工具,而不是愿望:输入类型、错误代码、示例。
- 强制执行审查关卡:对于有风险的操作(电子邮件、订单),需要一个人工批准步骤,并提供一个单屏幕差异。
- 保持记忆外部化:项目注释、状态、文档——存储它们。模型读取和写入;它不负责携带。
- 测量一切:记录 tokens、工具参数、结果。如果你不能检查它,你就无法改进它。
- 有目的地重试:允许使用硬性规则进行一次纠正性传递。如果仍然失败,则关闭失败。
GLM‑4.6 为你提供更好的击球率。你仍然需要规则和记分牌。
安全性、隐私和交出钥匙的诱惑
- PII 防护:在模型看到它之前将其屏蔽。不要相信提示会保密。
- 工具沙箱:文件系统和网络调用应限制在白名单域和路径中。
- 提示注入:将所有检索到的文本视为不受信任的。清理,并约束工具调用可以执行的操作。
- 审计跟踪:保留完整的记录——提示、工具调用、输出。未来的你会感谢你。
GLM‑4.6 不会“决定”违反规则——但如果你允许它,它会很乐意遵循中毒的指令。
关于 Sider.AI 的简短说明(因为它确实在这里有所帮助)
Sider.AI 实际上是有效的——至少当你将它用于它擅长的方面时,奇怪的是,这与营销所说的并不完全一致。如果你的目标是将 GLM‑4.6 纳入推理或代理工作流程,那么 Sider 的优势在于那些不起眼的地方:坚持的提示脚手架、结构化的工具连接,以及可以查看哪里出了问题以及原因的合理的迭代循环。你不需要仪式;你需要运行、差异和防护栏。Sider 为你提供这些,而没有太多的表演。将其与 GLM‑4.6 配对,你将获得更少的神秘失败和更多可重复的胜利。 实现说明:小的杠杆,大的差异
- 温度:对于工具规划,降低温度(0.0–0.2),对于构思,提高温度(0.6–0.8)。如果可以,不要在一次调用中混合规划和散文。
- 最大 Tokens:积极限制中间调用;为合成保留预算。
- 停止序列:使用它们来限制 JSON 输出。你希望模型在括号关闭后闭嘴。
- 自我批评传递:一个简短的、单独的提示——“列出这个答案可能出错的三种方式”——可以捕捉到唾手可得的成果。
这些不是“黑客”。它们使模型变得可预测。
何时不使用 GLM‑4.6(或任何大型模型)
- 具有确定性解析器的任务:如果正则表达式可以做到,就使用正则表达式。
- 没有审查的零容忍领域:考虑合规信函或医疗建议。保持人工参与。
没有模型是万能的锤子。GLM‑4.6 是代理管道的坚固扳手,而不是所有事情的大锤。
GLM‑4.6 代理的简短、残酷诚实的设置
- 定义:tools = {search, fetch_doc, extract_table, run_sql, send_email(draft_only)}
- 计划提示:“返回带有步骤的 JSON,每个步骤要么是 THINK,要么是 TOOL(name,args),要么是 DECIDE。最多 6 个步骤。”
- 防护:拒绝与模式不匹配的输出。强制使用错误消息重试。
- 验证:在 DECIDE 之前,需要一个清单:引用的来源、陈述的假设、记录的风险。
- 人工关卡:只有 send_email 才能通过“Y/N”批准标志执行。
五行纪律可以节省你五十行事件报告。
GLM‑4.6 与该领域:它感觉更好的地方
- 工具链:格式错误的参数更少;每次调用的成功率更高。
- 长文档:使用显式章节 ID 进行更连贯的交叉引用。
如果你的应用程序的价值 90% 是“正确调用工具”,你就会注意到差异。如果它 90% 是“写一个漂亮的段落”,你可能不会。
辩证的观点:“推理”甚至是一个正确的词吗?
可能不是。但我们使用的词不会改变我们需要的行为。我们想要能够:
GLM‑4.6 将针头向正确的方向移动了一点。不戏剧化。不值得成为头条新闻。只是更接近我们真正关心的事情:减少问题和答案之间的错误转弯。
结论:枯燥的未来获胜
人工智能令人兴奋的未来不是烟花——而是承载能力的预测性。GLM‑4.6 是朝着这个方向迈出的一步:更稳定的函数调用、更平静的长上下文行为、稍微更少的虚构。你可以用它来构建。用清晰的合约、外部记忆和一个验证器来包装它,它会看起来比它实际上更聪明——因为你使系统比组件更聪明。这就是工程。而且它是可扩展的部分。
如果你是为了奇迹而来,你会失望的。如果你是为了减少工单、减少重试,并防止代理发送电子邮件“亲爱的 FIRST_NAME”,你会很高兴的。枯燥获胜。GLM‑4.6 帮助你到达那里。
常见问题解答
Q1: GLM‑4.6 在推理工作流程方面有哪些新功能?
GLM‑4.6 改进了函数调用,在长上下文中表现更好,并且更少地偏离计划-然后-行动提示。它不会施展魔法,但它会在多步骤推理管道中破坏更少的东西。
Q2: 如何在没有混乱的情况下使用 GLM‑4.6 进行 AI 代理?
保持短的牵引绳:严格的工具模式、审查关卡、外部记忆和一个验证器传递。GLM‑4.6 尊重步骤上限并产生更清晰的参数,这减少了代理的抖动。
Q3: 在工具使用方面,GLM‑4.6 是否比其他模型更好?
通常是的——尤其是当你关心正确、可重复的函数调用和多工具序列时。如果你的工作负载主要是散文,你可能会看到平价;如果它是工具密集型的,GLM‑4.6 往往会发光。
Q4: GLM‑4.6 推理的最佳提示风格是什么?
分解任务,定义输出模式,并要求引用的假设或行 ID。跳过角色扮演;与奉承相比,GLM‑4.6 在明确的步骤和防护栏方面做得更好。
Q5: GLM‑4.6 仍然有哪些不足之处?
没有验证的符号数学、没有屏蔽的隐私敏感型任务以及零容忍领域。它在结构化推理和代理方面更强大,而不是确定性工具的替代品。