關於「下一代」AI 模型的重點是,它們總是帶著兩個行李箱到來:一個裝滿了基準測試,另一個裝滿了承諾。
GLM‑4.6 也不例外。它帶著新的圖表、小數點後更多的位數,以及一個關於「推理」的新口號而來。這個詞在 AI 行銷中承擔了很多重任。它是機器智慧的「有機」——模糊地具有美德,有時有意義,通常只是一個標籤。
讓我們丟掉這個標籤。如果你的問題是「什麼是 GLM‑4.6,有什麼新功能,以及我如何實際使用它進行推理和代理?」,誠實的答案是:這是一個漸進但實際的步驟,如果你關心實際的工作流程、結構化的工具使用,以及不會在你向它們拋出一個不熟悉的試算表時就崩潰的代理框架,那麼這就很重要。如果你想要一個花招,很多模型都可以做到。如果你想要一個能夠保持任務的模型,GLM‑4.6——取決於具體的工作——實際上很有趣。
這是一個深入的探討/解釋,帶有一定的工作偏見:GLM‑4.6 如何改變推理管道和代理協調的日常工作,以及如何在這個過程中不自欺欺人。
GLM‑4.6 實際上是什麼(以及不是什麼)
「GLM」是一個大型語言模型的家族。4.x 系列傾向於多輪推理、工具使用和更廣泛的上下文窗口。GLM‑4.6 是一個新的點版本,它調整了你只有在使用它構建時才會注意到的部分:更穩定的鏈式思考支架(內部)、更好的函數調用遵從性、減少長提示中的自我矛盾,以及稍微更理智地處理結構化輸入。這類工作在花哨的演示中表現不佳,但在你停止演示並開始發布時就會顯現出來。
它不是什麼:它不是 AGI,它不是魔法,它不會像新聞稿每隔一個星期三所暗示的那樣取代所有其他模型。如果你期望一次性的證明或定理級別的嚴謹性,那麼不行。如果你期望在處理多個工具調用和大型上下文時減少不必要的錯誤,那麼更接近於可以。
GLM‑4.6 的新功能(重要的細節)
- 更長、更持久的上下文:不僅僅是更多的 tokens,而且在各個部分之間有更好的保留率。當你在第十二段調用一個工具時,它不太可能「忘記」你在第三段中設定的約束。
- 更嚴密的函數調用:參數的形成更加一致。減少了為了將 JSON 強制轉換成特定形狀的繁瑣工作,減少了幻覺的 keys。如果你構建代理,你就知道這是很多模型自己絆倒自己的地方。
- 結構化推理偏差:你可以通過輕量級的支架將 GLM‑4.6 推入一個計劃然後行動的循環中。它不會假裝像哲學家一樣思考,但它會像一個像樣的專案經理一樣跟踪步驟。
- 多模態觸摸(如果你需要它們):圖像感知變體在表單讀取和 UI 解析方面表現得更可預測。不是藝術玩具的東西——而是枯燥、有用的東西。
- 延遲/成本調整:更少的峰值,更可預測的吞吐量。不,不是免費的;是的,足以在生產儀表板中產生影響。
基準測試?你會發現通常的嫌疑人——MMLU 這個,GSM8K 那個——被推高了。標題不是數字;而是在負載下的穩定性,以及在工具鏈中減少「到底發生了什麼?」的時刻。
使用 GLM‑4.6 進行推理:停止希望,開始限制
LLM 中的「推理」是統計模式完成,帶有逐步文本的偏差。這很好。假裝它是別的東西會導致糟糕的提示和更糟糕的系統。當你給予 GLM‑4.6 以下內容時,它會變得更好:
- 約束勝於聰明:詳細說明目標格式、驗收測試和失敗條件。如果數學的形狀是清楚的,模型會進行數學運算。
- 分解勝於獨白:將問題分解為多個階段——解析 → 計劃 → 執行 → 驗證。你可以將其放入系統提示中,或者使用工具調用顯式地執行。
- 外部化記憶:不要讓模型成為你的資料庫。讓它寫入和讀取外部草稿紙或向量儲存。GLM‑4.6 不太健忘,但它仍然是一條偶爾清醒的金魚。
- 驗證鉤子:使用驗證器進行第二次傳遞——有時是同一個模型,有時是一個較小的模型——可以捕捉到愚蠢的錯誤。如果在生產中可以挽救一個錯誤答案,那麼它就不是多餘的。
這是一個最小的、非常有效的表格推理循環:
- 步驟 1:要求 GLM‑4.6 從問題中提取模式和約束。
- 步驟 3:使用模型 JSON 編碼的參數執行工具調用(SQL、Python 等)。
- 步驟 4:將工具結果反饋回去,並要求一個最終答案,其理由與檢索到的行相關聯。
訣竅不是花哨的提示。而是拒絕讓模型在不應該即興發揮的地方即興發揮。
使用 GLM‑4.6 的代理:現在可以用皮帶牽著的貓
代理是炒作偽裝成產品管理的地方。大多數「自主」代理就像一個在 LEGO 商店裡放鬆的 Roomba——忙碌,但沒有幫助。GLM‑4.6 本身並不能改變這一點。它所做的是:
- 更可靠的工具合約:當你說調用 get_flights(origin, destination, date) 時,除非你要求,否則它會停止發明 cabin_class。這就是演示和退款之間的區別。
- 更好的步驟會計:如果你要求它限制在 N 個工具調用或要求一個批准檢查點,它會更頻繁地服從。服從是被低估的。
- 可容忍的長週期任務:通過顯式的里程碑和記憶儲存,它可以執行一個多天的任務,而不會陷入同人小說。
使用 GLM‑4.6 代理的制勝模式不是「放手不管」。而是「緊密循環、短皮帶、明確的回報」。
一個實用的支架:從提示到管道
隨便你怎麼稱呼它——「深思熟慮的推理」、「計劃者-執行者」——管道看起來像這樣:
- 系統:你是一個謹慎的計劃者。沒有計劃,你不會調用工具。你必須在一個模式中生成 JSON。
- 用戶:任務(清晰、有界限,並帶有好與壞答案的例子)。
- 工具調用:確定性的、類型化的參數。拒絕模式錯誤。記錄一切。
- 助理(綜合):模型將工具輸出與計劃整合,並返回最終結果。
- 驗證器:輕量級檢查——有時只是 regexes 和驗收測試——以捕捉偏差。
GLM‑4.6 的貢獻:更少的計劃/執行不匹配和更一致的參數形狀。不迷人。但有用。
不會欺騙你的提示
- 不要扮演天才。要求結構:「列出假設」、「顯示單位轉換」、「引用你使用的行」。
- 使用有約束力的護欄。「如果不確定,請要求澄清」是毫無價值的,除非你定義了不確定並要求提出問題。
- 偏好示例對勝於長篇大論。兩個好的例子勝過兩頁的感覺。
- 讓模型說「我不知道」。確實允許這個短語。否則它永遠不會使用它。
GLM‑4.6 比早期版本更願意接受這個程序。這就是進步:不是更聰明的謊言,而是更少。
資料、工具和函數調用的枯燥魔法
函數調用是推理停止成為戲劇的地方。使用 GLM‑4.6:
- 模式保持不變:教授一次函數簽名,並在多個回合中重複使用它。
- 多工具序列的表現:計劃 → 搜尋 → 獲取 → 總結 不再變成 計劃 → 總結 → 再次總結。
- 快速失敗:如果一個工具拒絕一個參數,將錯誤返回到模型,並強制進行修正。不要靜默地修復;要求模型執行。
如果你正在構建研究助理、客戶支持機器人或資料代理,那麼枯燥的魔法就是每次都能正確地進行工具調用。GLM‑4.6 更擅長枯燥。
長上下文:更多的漫遊空間,更少的迷路藉口
上下文窗口增長是因為我們不斷地將更多的東西粘貼到其中。GLM‑4.6 處理較長的上下文,減少了串擾。儘管如此,還是有一些規則:
- 分塊和標題:使用簡短、明確的標題。模型「記住」標籤比記住段落更好。
- 指針勝過粘貼:如果指針和檢索鉤子可以做到,就不要塞滿附錄。
- 帶有問責制的總結:要求模型引用章節 ID,而不僅僅是「文件說」。
回報是更少的幻影回憶和更多受束縛的總結。
使用 GLM‑4.6 進行程式碼編寫:不要讓它隨意發揮
如果你控制 diff,它擅長樣板程式碼和像樣的重構。對於非平凡的程式碼生成:
- 在實施之前進行單元測試。讓模型編寫測試,然後編寫程式碼。運行測試。將失敗反饋回去。
如果你堅持這種紀律,GLM‑4.6 看起來會更聰明。它不是在偽造;你正在降低它脫軌的可能性。
GLM‑4.6 減少(但並未消除)的推理陷阱
- 錨定在早期的猜測上:在決定之前,要求它列出替代方案。你會看到更少的第一個想法就是最好的想法的答案。
- 過度總結:要求可追蹤的引用或行 ID。否則,它會改寫它自己的改寫。
- 計劃-執行漂移:使計劃成為合約。如果最終答案偏離,強迫它解釋原因。
- 工具幻覺:保持一個註冊表並拒絕未知的工具。模型會發明更少的工具——但目標是零。
評估 GLM‑4.6:你可以信任的基準(你自己的)
公共排行榜就像餐廳的星星一樣有用:好的信號,但不是你的口味。你的基準應該是:
- 任務綁定:來自生產的 100-200 個真實提示,而不是精心挑選的。
- 使用驗收測試進行評分:Regexes、計算器、模式驗證器。人類發現細微差別;機器捕捉愚蠢的東西。
- 成本核算:衡量每個正確答案的美元成本,而不僅僅是準確性。
當工作負載是工具密集型和多步驟時,GLM‑4.6 往往在「每個正確答案的成本」方面得分很高。如果你的工作是沒有結構的原始散文,你可能會發現與其他大牌的平價。
如何使用 GLM‑4.6 進行代理(一個不偽裝的劇本)
- 像 API 一樣定義工具,而不是願望:輸入類型、錯誤代碼、示例。
- 強制執行審核閘門:對於有風險的行動(電子郵件、訂單),需要一個帶有一屏差異的人工批准步驟。
- 保持記憶外部化:項目筆記、狀態、文檔——儲存它們。模型讀取和寫入;它不攜帶包。
- 監控一切:記錄 tokens、工具參數、結果。如果你無法檢查它,你就無法改進它。
- 有目的的重試:允許使用硬性規則進行一次修正。如果仍然失敗,則關閉。
GLM‑4.6 為你提供更好的打擊率。你仍然需要規則和一個記分牌。
安全性、隱私以及交出鑰匙的誘惑
- PII 圍欄:在模型看到它之前遮罩它。不要相信提示可以保守秘密。
- 工具沙箱:檔案系統和網絡調用應限制為白名單中的域和路徑。
- 提示注入:將所有檢索到的文本視為不受信任的。清理,並約束工具調用可以執行的操作。
- 審計跟踪:保留完整的記錄——提示、工具調用、輸出。未來的你會感謝你。
GLM‑4.6 不會「決定」違反規則——但如果你允許它,它會很樂意遵循一個被污染的指令。
關於 Sider.AI 的一句話(因為它實際上在這裡有所幫助)
Sider.AI 實際上有效——至少當你將它用於它擅長的事情時,奇怪的是,這與行銷所說的並不完全一致。如果你旨在將 GLM‑4.6 應用於推理或代理工作流程,Sider 的優勢在於不迷人的那些:堅持的提示支架、結構化的工具接線,以及你可以看到什麼地方出錯以及為什麼的理智迭代循環。你不需要儀式;你需要運行、差異和護欄。Sider 為你提供了這些,減少了戲劇性。將它與 GLM‑4.6 配對,你會得到更少的神秘失敗和更多可重複的勝利。 實施說明:小槓桿,大差異
- 溫度:對於工具計劃(0.0–0.2)較低,對於構思(0.6–0.8)較高。如果可以,不要在一次調用中混合計劃和散文。
- 最大 Tokens:在中間調用時積極限制;為綜合保留預算。
- 停止序列:使用它們來限制 JSON 輸出。你希望模型在方括號關閉後閉嘴。
- 自我批評傳遞:一個簡短的、單獨的提示——「列出這個答案可能錯誤的三種方式」——可以捕捉到唾手可得的成果。
這些不是「駭客」。它們是使模型可預測。
何時不應使用 GLM‑4.6(或任何大型模型)
- 沒有驗證的精確、符號數學:卸載到一個真正的求解器。
- 你無法遮罩的 PII 密集型工作負載:不要這樣做。
- 具有確定性解析器的任務:如果 regex 可以做到,就使用 regex。
- 沒有審查的零容忍域:考慮合規性信函或醫療建議。在循環中保持人工。
沒有模型是萬能的錘子。GLM‑4.6 是一個用於代理管道的堅固扳手,而不是用於所有事情的大錘。
GLM‑4.6 代理的一個簡短、非常誠實的設置
- 定義:tools = {search, fetch_doc, extract_table, run_sql, send_email(draft_only)}
- 計劃提示:「返回帶有步驟的 JSON,每個步驟都是 THINK、TOOL(name,args) 或 DECIDE。最多 6 個步驟。」
- 護欄:拒絕不符合模式的輸出。強制使用錯誤消息進行重試。
- 驗證:在 DECIDE 之前,需要一個清單:引用的來源、說明的假設、記錄的風險。
- 人工閘門:只有 send_email 才能通過「是/否」批准標誌執行。
五行紀律可以節省你五十行事故報告。
GLM‑4.6 與其他領域的比較:在哪裡感覺更好
- 工具鏈:更少的格式錯誤的參數;每次調用的成功率更高。
- 長文檔:通過顯式的章節 ID 進行更連貫的交叉引用。
- 成本/延遲:足夠可預測,可以在沒有祈禱蠟燭的情況下進行預算。
如果你的應用程序的價值是 90%「正確調用工具」,你會注意到這種差異。如果它是 90%「編寫一個漂亮的段落」,你可能不會。
辯證的位: “推理”甚至是一個正確的詞嗎?
可能不是。但是我們使用的詞不會改變我們需要的行為。我們想要可以做到以下幾點的系統:
GLM‑4.6 將針頭向正確的方向移動了一點。不戲劇性。不值得頭條新聞。只是更接近我們真正關心的東西:減少問題和答案之間錯誤的轉彎。
結論:枯燥的未來勝利
AI 令人興奮的未來不是煙花——而是承重的可預測性。GLM‑4.6 是朝著這個方向邁出的一步:更穩定的函數調用,更平靜的長上下文行為,稍微減少虛構。你可以用它來構建。用清晰的合約、外部記憶和驗證器來包裝它,它看起來會比實際更聰明——因為你使系統比組件更聰明。那是工程。這是擴展的部分。
如果你是為了奇蹟而來,你會感到失望。如果你是為了減少問題單、減少重試,並防止代理向“親愛的 FIRST_NAME”發送電子郵件而來,你會很高興。枯燥的勝利。GLM‑4.6 幫助你到達那裡。
常見問題
Q1:GLM‑4.6 在推理工作流程中有哪些新功能?
GLM‑4.6 收緊了函數調用,在長上下文中表現更好,並遵循計劃然後行動的提示,減少漂移。它不會創造奇蹟,但它會在多步驟推理管道中減少出錯的情況。
Q2:如何在沒有混亂的情況下將 GLM‑4.6 用於 AI 代理?
保持簡短的限制:嚴格的工具模式、審查閘門、外部記憶和驗證器傳遞。GLM‑4.6 尊重步驟上限並生成更清晰的參數,從而減少了代理衝突。
Q3:GLM‑4.6 在工具使用方面是否比其他模型更好?
通常是的——特別是當你關心正確、可重複的函數調用和多工具序列時。如果你的工作負載主要是散文,你可能會看到對等;如果它是工具密集型的,GLM‑4.6 往往會發光發熱。
Q4:GLM‑4.6 推理的最佳提示風格是什麼?
分解任務,定義輸出模式,並要求引用的假設或行 ID。跳過角色扮演;與奉承相比,GLM‑4.6 在顯式步驟和護欄方面做得更好。
Q5:GLM‑4.6 仍然缺少哪些方面?
沒有驗證的符號數學、沒有遮罩的隱私敏感型任務以及零容忍域。它在結構化推理和代理方面更強大,而不是確定性工具的替代品。