PPT 試圖讓 AI 看起來很簡單的部分
人工智慧中的決策制定,有趣的是,每個人都假裝理解它——直到它做出精彩的判斷,或是在顯而易見的錯誤中一敗塗地。然後突然間,它就變得「太複雜」或「黑箱作業」,彷彿數學滑倒在香蕉皮上。如果你曾經參加過人工智慧決策制定的 PPT 簡報,你就會知道這種套路:巨大的箭頭、流程圖和暗示必然性的剪貼畫。這並非必然。一切都是選擇。
這是一次深入探討用於 AI 決策的演算法——真正的演算法。不是帶有方框箭頭的投影片。目標是打破「AI 將為我們做決定」的假象,並討論這些系統實際上是如何選擇的。劇透一下:它們不像無所不知的預言家,更像是非常快速、非常字面的推理者,他們從未經歷過交通堵塞或與幼兒協商就寢時間。
我們所說的「AI 決策」是什麼意思(以及 PPT 很少承認的)
「人工智慧中的決策制定」聽起來很高大上,但實際上它是一組技術:基於規則的推理、搜尋、最佳化、機率推論、強化學習、規劃以及將整個混亂局面縫合在一起的混合系統。這些演算法不「想要」任何東西。它們在特定的約束條件下優化特定的函數。交換函數或約束條件,你就會得到不同的「智慧」。如果這聽起來很明顯,恭喜你——你已經領先 SlideShare 上一半的簡報。
大多數人工智慧決策制定 PPT 的真正問題不在於它們簡化了。而是它們朝錯誤的方向簡化。它們暗示模型之所以做出決定,是因為它們「學習」了。學習不是決策。學習會讓你獲得策略或模型;決策是在從未與訓練資料完全相同的環境中運行該策略。記住西洋棋開局和在殘局混亂中生存之間的區別——前者在要點中看起來不錯;後者才是獲勝的關鍵。
實際工具:從規則到獎勵
讓我們從聽起來很古老(但仍然重要)的東西,到驅動現代系統的技術,一步一步地了解。用簡單的語言,沒有浪漫色彩。
基於規則的系統:仍然沒有死,只是誠實
對於某些 AI 從業者來說,規則令人尷尬,就像穿涼鞋配襪子一樣。但是,基於規則的決策制定有一個很大的優勢:透明度。如果人工智慧決策制定的 PPT 將規則作為「遺留系統」跳過,那它就隱藏了一半的故事。專家系統將領域知識編碼為 if-then 語句。它們很脆弱,是的,但是它們可以審計。當你需要確定性和可追溯性時——合規性檢查、醫療分診協議——規則不僅仍然有效;它們的效果更好。
你知道規則系統何時失敗,因為它會告訴你。大多數現代系統都會悄無聲息地失敗。
搜尋和最佳化:將決策視為導航
在我們用海量資料訓練一切之前,我們進行了搜尋。廣度優先搜尋、深度優先搜尋、A*、束搜尋。它並不光彩,但無論何時你解決路徑查找問題——無論是字面意義還是隱喻意義——搜尋都是支柱。具有良好啟發式的 A* 勝過具有愚蠢目標的「智慧」模型。
最佳化概括了這一點:你設定一個目標函數和約束條件,然後在你擁有的計算能力下,努力獲得你能負擔得起的最佳解決方案。線性規劃、混合整數規劃、進化演算法——在截止日期前從「幾乎好」到「足夠好」的字母湯。
- 缺點:建模很難;目標可能會以微妙、災難性的方式被錯誤地指定
當模型做了一些奇怪的事情時,通常是因為你得到了你所要求的——只是不是你想要的。
機率推理:不確定性是一種特性
貝氏網路、隱藏式馬可夫模型、卡爾曼濾波器:經典之作。這些方法不是假裝世界是確定的,而是持續記錄不確定性,並選擇對沖不確定性的行動。換句話說,現實主義。
機率方法是大多數人工智慧決策制定 PPT 簡報中用「信心分數」來表示的。信心不是機率。機率是帶有收據的數學。
強化學習:獎勵制定規則
強化學習——Q 學習、策略梯度、演員-評論員變體——將決策制定構建為帶有記分牌的試錯。你選擇行動,環境給你獎勵,你將你的策略推向隨著時間推移而獲得回報的行動。這就是 AI 真正「做決定」的地方,因為它在玩遊戲——你設計的遊戲,無論你是否意識到。
- 優點:適用於序列決策任務;學習你沒有明確編碼的策略
- 缺點:獎勵駭客;樣本效率低;當世界發生哪怕一點點變化時,泛化能力也很脆弱
人們喜歡聲稱強化學習「就像人類的學習方式」。並非如此。人類有先驗知識、身體、無聊和常識。RL 代理有一個獎勵函數和無限的耐心來嘗試胡說八道,直到它起作用。
規劃和 POMDP:世界是半可見的
現實世界的決策很少帶有完美的信息。部分可觀察馬可夫決策過程 (POMDP) 明確地模擬了這種不確定性:你不知道狀態,只有暗示它的觀察結果。在部分可觀察性下進行規劃會迫使你保持一種信念狀態——「我們根據我們所看到的,認為正在發生的事情」的一個奇特術語。
如果你的 AI 決策制定 PPT 沒有至少低語「POMDP」,那麼它就是將現實視為可選設置。
混合系統和神經符號混合
神經網路看到並標記;符號系統解釋和約束。將它們粘合在一起,你就會得到有用的東西。用於感知的視覺模型,用於安全性的規則。用於候選行動的語言模型,用於可行性的規劃器。這些混合體不僅僅是時髦;它們反映了工程上的謙遜:在感知困難的地方使用學習模型,在高風險的地方使用顯式邏輯。
決策循環:用於機器的 OODA,縮寫更少
大多數 AI 決策系統都運行一個循環:觀察、推斷、計劃、行動、重複。投影片喜歡圓圈和箭頭;重要的是張力。每個步驟都會妥協。觀察(但不是所有事情)。推斷(但保持你的不確定性)。計劃(但在時間內)。行動(但不要燒毀世界)。
- 感知到符號:從原始資料到特徵。丟失資訊,希望是正確的資訊。
- 策略到計畫:從當前信念到一個行動序列,受計算和風險承受能力的限制。
- 行動到回饋:行動、衡量結果、更新信念和參數。如果你的循環沒有隨著經驗而變得更好,那就是自動化,而不是 AI。
在人工智慧決策制定 PPT 中,最大的錯誤是假裝循環是乾淨的。在生產中,感測器漂移、人類干預,並且指標相互鬥爭。偉大的系統是在世界聳聳肩時能優雅地降級的系統。
深入探討演算法(沒有流行語)
讓我們實際看一下人們使用的演算法——它們解決了什麼問題、它們如何失敗,以及它們在哪裡發光。
多臂老虎機:沒有戲劇性的探索
當你需要平衡嘗試新事物和利用有效事物時——廣告選擇、推薦調整、UI 實驗——多臂老虎機在速度上勝過 A/B 測試。湯普森抽樣是務實的首選:貝氏、簡單、有效。它沒有假裝是一個完整的 RL 代理。它在這方面做得更好。
- 不適用於:長期策略、複雜的依賴關係、安全關鍵的任何事物
蒙地卡羅樹搜尋:在預算內進行預測
MCTS 對未來進行抽樣,不是全部,只是足夠多的合理性。它是「讓我們仔細考慮一下,但不是整個下午」的演算法等價物。在遊戲和結構化規劃中,它會獲勝。在開放式混亂中,它會產生不存在的結構。
- 適用於:有界、良好建模的決策空間(遊戲、受約束的規劃)
- 不適用於:未建模的混亂(人類、市場、Twitter)
動態規劃:最佳,但有一個陷阱
貝爾曼方程、價值迭代、策略迭代。控制理論的皇冠上的寶石,皇冠由指數增長製成。如果狀態空間爆炸,你的樂觀情緒也會爆炸。
啟發式和元啟發式:樸實無華的主力
模擬退火、禁忌搜尋、遺傳演算法。這些都是經過美化的「嘗試很多事情,保持最好的,繼續前進」。這不是侮辱。大多數真實的決策在大規模上看起來都是這樣的,因為現實不會讓你坐在那裡解決一個精確的方程式,而時間卻在流逝。
因果模型:因為相關性是一個騙子
因果決策——是的,Pearl、圖表、干預——為你提供了一種詢問「如果我們真的改變了某些東西會怎麼樣?」的方法,而不是「上次發生了什麼?」如果你的 AI 決策制定 PPT 沒有提到因果推論,但你的產品做出的選擇會影響人們,那麼你正在構建一個後悔的推薦引擎。
兩個難題:目標和約束
AI 決策中的第一個謊言是我們正在優化「效能」。到底優化什麼?點擊次數?正常運行時間?收入?安全?公平?延遲?如果你不說清楚,你就不會有一個系統——你只有一個願望。目標函數是產品。像對待法律樣板文件一樣對待它,它會像法律樣板文件一樣反噬。
- 多目標權衡不是錯誤。它們是工作。明確地權衡它們,誠實地衡量痛苦,並且不要假裝柏拉圖前沿是道德指南針。
- 約束不是事後諸葛亮。它們是你如何限制傷害的。硬約束(不,真的,永遠不要超過 X)不同於軟懲罰(請不要超過 X,除非它有利可圖)。像你說的那樣寫下來。
業界最喜歡的自我欺騙是認為更多資料可以解決一個糟糕的目標。它不會。它會使錯誤的事情非常有效。
可解釋性不是可選的;它是背景
對可解釋 AI 的推動通常被認為是一種合規性障礙。這是倒退的。「可解釋性」是你如何與依賴該決策的人建立信任——即使他們是工程師。你需要知道模型為什麼說「左轉」,不是為了安撫監管機構,而是為了在崩潰再次發生之前對其進行除錯。
- 事後解釋(顯著性圖、SHAP)總比沒有好,但它們是口紅——有用的口紅——在一隻可能是賽馬的豬身上。
- 內建的可解釋性(單調模型、廣義加性模型、帶有學習閾值的規則)以犧牲一點原始準確性為代價,換取可預測的行為。在許多領域,這是一筆划算的交易。
如果你的 AI 決策制定 PPT 顯示一個色彩鮮豔的熱圖,並稱之為一天的工作,那麼你已經完全學會了如何在生產中不運行系統。
大型語言模型和決策海市蜃樓
是的,LLM 可以做出決定——或者至少它們可以用不可思議的流利程度提出決策。它們擅長草擬選項空間、列出權衡,甚至編寫規劃迴圈周圍的支架。但最具誘惑力的部分是最糟糕的部分:即使它們是在編造,它們聽起來也很自信。
安全的模式不是「讓模型做決定」。而是:讓模型提出建議,用規則約束,用規劃器或最佳化器驗證,並記錄每個步驟。將 LLM 放在迴圈中,而不是在方向盤上。你不會讓自動更正駕駛你的汽車。
從投影片到系統:什麼在生產中真正有效
AI 中功能正常的決策系統看起來不像投影片。它看起來像:
- 在必須是硬性的地方是硬性的,在可以是軟性的地方是軟性的約束。
- 一個混合了多種方法的決策引擎:學習感知、機率推論和可以說「我不確定」的策略。
最後一部分在某些圈子裡被認為是不得體的。「AI 應該是自主的。」也許吧。或者,專業的謙遜勝過新聞稿的男子氣概。
不可避免的「工具」問題
你可以使用一組庫和服務來組裝這個決策堆疊。很多都不錯。但很少是一致的。最好的設置減少了摩擦——編寫提示、檢查輸出、鏈式推理、測試邊緣案例——並且可以輕鬆地在重要的地方放置防護欄。
以 Sider.AI 作為一個實際例子來考慮。它並不是想向你出售一個有知覺的生物。它是一種工具,實際上可以幫助解決混亂的中間地帶:起草推理鏈、比較演算法選項,以及在 LLM 輔助具有生產力而不是表演性的地方進行插槽化。它擅長於不吸引人的部分——迭代、檢查以及「版本 12 和 13 之間發生了什麼變化?」在一個炒作的世界裡,「實際有效」是一種超能力。 來自 AI PPT 決策制定巡迴演講的常見神話
- 神話:「更多資料勝過更好的模型。」有時。通常它勝過糟糕的思考。具有適量資料的明確目標可以勝過針對錯誤指標的消防水帶。
- 神話:「黑箱是不可避免的。」不是。它有時很方便。你可以在不透明的核心周圍構建可解釋的層。你只需要關心。
- 神話:「探索是有風險的。」當然——停滯也是如此。土匪的存在是有原因的。
- 神話:「自主是目標。」自主是一種手段。可靠性是目標。
案例研究:理論與實踐的結合
- 物流路線:A* 用於可行性,MILP 用於成本,啟發式用於最後一哩的混亂。加入一個帶有不確定性的需求預測,你就會得到一個穩健的系統。不,一個單一的端到端深度網路在城市關閉一座橋樑的第二週不會做得更好。
- 醫療分診:用於硬性安全的規則,用於風險評分的機率模型,以及用於異常值的人工參與。該系統的優點不是速度;而是知道何時減速。
- 內容審核:用於分診的分類器,用於法律約束的策略規則,以及對人類的上訴。你不會「解決」這個問題,你會管理它——就像修剪橫向生長的草坪一樣。
如何判斷決策系統(而不是投影片)
問三個問題:
- 你到底在優化什麼?如果答案超過一句話或少於一句話,那就擔心。
- 當世界發生變化時會發生什麼?如果答案是「重新訓練」,那麼他們就沒有考慮過漂移。
建立你自己的深入探討:一個實用的綱要
如果你正在組裝你自己的 AI 決策制定 PPT——因為我們最終都會感到內疚——那就圍繞誠實來構建它:
- 從決策循環和你的目標函數開始。一張投影片,純文字。
- 展示你的約束以及它們為什麼是硬性的。一張投影片,沒有委婉語。
- 選擇用於感知、推論、規劃的演算法。對於每一個,列出失敗模式。
- 以未解決的風險結束。如果你沒有任何風險,那麼你就沒有完成。
說「我不知道」的寧靜力量
AI系統應該能夠放棄。可以稱之為具備不確定性意識的決策、選擇性預測等等。說“pass”的能力是工具和負債之間的區別。人類本能地做到這一點。我們構建了太多無法做到的系統。
這將我們帶向何處
人工智能的決策並非魔法,深入研究演算法不應像新興宗教的宣傳簡報。這是工程——仔細的目標、明確的約束、坦率的不確定性,以及願意為了可靠性而犧牲優雅。下次當PPT告訴你系統“學會了決策”時,問問它當橋樑斷裂、指標錯誤或使用者做出無人預料的事情時會發生什麼。
如果答案是更大的箭頭,你就知道該怎麼決定了。
關鍵字感知附錄(沒有關鍵字堆砌)
- 人工智能決策:在明確的目標和約束下,利用不確定性選擇行動的實踐。
- 深入研究演算法:不是隱喻——搜尋、優化、機率推理、強化學習、規劃、因果建模、混合。
- 實用要點:混合方法、加強約束、擁抱不確定性、監控一切,並抵制將幻燈片偽裝成系統的衝動。
常見問題解答
Q1:人工智能決策到底是什麼?
它是在具有明確目標和約束(而非感覺)的不確定性下選擇行動。有趣的部分不是模型;而是當世界拒絕與訓練集匹配時,模型、資料和防護措施如何協同工作。
Q2:哪些演算法對於深入研究AI決策至關重要?
搜尋、優化、機率推理、強化學習、規劃和因果模型是主幹。將學習到的感知與符號規則相結合的混合系統才是真正能在生產環境中生存的系統。
Q3:大型語言模型擅長決策嗎?
它們非常擅長提出選項和搭建計劃,但作為不受控制的決策者則很糟糕。在迴圈中使用LLM:建議、約束、驗證——然後記錄每個步驟,就像你需要向律師解釋一樣。
Q4:如何避免人工智能決策PPT中最大的錯誤?
將學習與決策分開,定義目標,並詳細說明約束。展示失效模式和監控——如果你的簡報全是箭頭而沒有權衡,那就是演戲,而不是工程。
Q5:Sider.AI在AI決策工作流程中扮演什麼角色?
Sider.AI 協助處理混亂的中間環節——編寫、比較和檢查推理工作流程——因此你可以將LLM輔助應用於它有效的地方,而不是行銷希望它有效的地方。考慮實際迭代,而不是魔術棒。