PPT 试图让 AI 看起来很简单
人工智能决策的有趣之处在于,每个人都假装理解它——直到它做出一个绝妙的决定,或者犯一个明显的错误。然后突然就变成了“太复杂”或“黑盒”,仿佛数学在香蕉皮上滑倒了。如果你曾经参加过关于人工智能决策的 PPT 演示,你就会知道其中的套路:巨大的箭头、流程图和暗示必然性的剪贴画。但事情并非必然。一切都是选择。
本文将深入探讨用于 AI 决策的算法——真正的算法。不是带有方框箭头的幻灯片。目标是打破“AI 将为我们做决定”的假象,并讨论这些系统实际上是如何选择的。剧透一下:它们不像无所不知的预言家,更像非常快、非常字面的推理者,而且它们从未经历过交通堵塞或与不肯睡觉的幼儿谈判。
我们所说的“AI 决策”是什么意思?(以及 PPT 很少承认的内容)
“人工智能决策”听起来很高大上,但实际上它是一套技术:基于规则的推理、搜索、优化、概率推理、强化学习、规划以及将所有这些结合在一起的混合系统。这些算法不“想要”任何东西。它们在特定的约束条件下优化特定的函数。交换函数或约束,你就会得到不同的“智能”。如果这听起来很明显,那么恭喜你——你已经超过了 SlideShare 上一半的幻灯片。
大多数人工智能决策 PPT 的真正问题不在于它们简化了内容,而在于它们朝着错误的方向简化。它们暗示模型做出决定是因为它们“学习”了。学习不是决定。学习会为你提供策略或模型;决策是在与训练数据不完全相同的上下文中运行该策略。这就像记住一个国际象棋开局和在混乱的中局中生存之间的区别——前者在要点中看起来不错;后者才是获胜的关键。
实际工具:从规则到奖励
让我们从听起来很古老(但仍然重要)的东西,到驱动现代系统的技术,逐步介绍。用朴实的语言,不带任何浪漫色彩。
基于规则的系统:尚未消亡,只是比较诚实
对于一些 AI 从业者来说,规则是很尴尬的,就像穿凉鞋配袜子一样。但是,基于规则的决策有一个很大的优势:透明性。如果人工智能决策的 PPT 跳过“传统”规则,那就掩盖了一半的事实。专家系统将领域知识编码为 if-then 语句。它们很脆弱,是的,但它们是可以审计的。当你需要确定性和可追溯性时——合规性检查、医疗分诊协议——规则不仅仍然有效,而且效果更好。
你知道规则系统何时失效,因为它会告诉你。大多数现代系统都会悄无声息地失效。
搜索和优化:将决策视为导航
在我们用海量数据训练一切之前,我们进行搜索。广度优先搜索、深度优先搜索、A*、束搜索。这并不迷人,但任何时候你都在解决寻路问题——无论是字面上还是隐喻上——搜索都是骨干。具有良好启发式的 A* 胜过具有愚蠢目标的“智能”模型。
优化概括了这一点:你设置一个目标函数和约束,然后朝着你能在截止日期前用现有计算资源负担得起的最佳解决方案推进。线性规划、混合整数规划、进化算法——在截止日期前从“几乎好”到“足够好”的各种方法。
- 缺点:建模困难;目标可能会以微妙的、灾难性的方式被错误地指定
当一个模型做出奇怪的事情时,通常是因为你得到了你所要求的——只是不是你想要的。
概率推理:不确定性是一种特征
贝叶斯网络、隐马尔可夫模型、卡尔曼滤波器:经典方法。这些方法没有假装世界是确定的,而是不断记录不确定性,并选择可以对冲不确定性的行动。换句话说,就是现实主义。
大多数关于人工智能决策的 PPT 演示都会用“置信度”来表示概率方法。置信度不是概率。概率是带有证明的数学。
强化学习:奖励制定规则
强化学习——Q-learning、策略梯度、actor-critic 变体——将决策制定定义为带有记分牌的试错。你选择行动,环境给你奖励,然后你将你的策略调整为随着时间的推移获得回报的行动。这就是 AI 真正“决定”的地方,因为它在玩一个游戏——你设计的游戏,无论你是否意识到。
- 优点:对于连续决策任务非常强大;学习你没有明确编码的策略
- 缺点:奖励黑客;样本效率低;当世界发生哪怕一点点变化时,泛化能力也很脆弱
人们喜欢声称强化学习“就像人类学习的方式”。并非如此。人类有先验知识、身体、厌倦和常识。强化学习代理有一个奖励函数和无限的耐心来尝试胡说八道,直到它奏效。
规划和 POMDP:世界是半可见的
现实世界的决策很少带有完美的信息。部分可观察马尔可夫决策过程 (POMDP) 明确地模拟了这种不确定性:你不知道状态,只知道暗示状态的观察结果。在部分可观察性下的规划迫使你保持一种信念状态——“我们根据我们所看到的认为正在发生的事情”的通俗说法。
如果你的关于人工智能决策的 PPT 至少没有低声提到“POMDP”,那么它就是将现实视为一种可选设置。
混合系统和神经符号混合
神经网络观察和标记;符号系统解释和约束。将它们粘合在一起,你就会得到一些有用的东西。用于感知的视觉模型,用于安全性的规则。用于候选动作的语言模型,用于可行性的规划器。这些混合体不仅仅是时髦;它们反映了工程上的谦逊:在感知困难的地方使用学习的模型,在高风险的地方使用显式逻辑。
决策循环:机器的 OODA,减少了首字母缩略词
大多数 AI 决策系统都运行一个循环:观察、推断、计划、行动、重复。幻灯片喜欢圆形和箭头;重要的是张力。每个步骤都有妥协。观察(但不是所有事情)。推断(但保持你的不确定性)。计划(但在时间内)。行动(但不要烧毁世界)。
- 感知到符号:从原始数据到特征。丢失信息,希望是正确的信息。
- 预测到信念:从特征到关于实际正在发生的事情的分布。
- 策略到计划:从当前信念到行动序列,受计算和风险偏好的限制。
- 行动到反馈:行动、衡量结果、更新信念和参数。如果你的循环没有随着经验的积累而变得更好,那就是自动化,而不是 AI。
在人工智能决策 PPT 中,最大的错误是假装循环是干净的。在生产中,传感器漂移,人类干预,指标相互竞争。伟大的系统是在世界耸耸肩时能够优雅地降级的系统。
深入研究算法(没有流行语)
让我们实际看一下人们使用的算法——它们解决什么问题,它们如何失败,以及它们在哪里闪耀。
多臂老虎机:没有戏剧性的探索
当你需要平衡尝试新事物与利用有效事物时——广告选择、推荐调整、UI 实验——多臂老虎机在速度上胜过 A/B 测试。 Thompson 抽样是务实的首选:贝叶斯、简单、有效。它并没有假装是一个完整的强化学习代理。这对它更好。
蒙特卡洛树搜索:有预算的远见
MCTS 对未来进行抽样,而不是全部抽样,只是足够多的似是而非的未来。它在算法上相当于“让我们仔细考虑一下,但不要整个下午都考虑”。在游戏和结构化规划中,它获胜。在开放式的混乱中,它会产生不存在的结构。
- 适用于:有界、良好建模的决策空间(游戏、受约束的规划)
- 不适用于:未建模的混乱(人类、市场、Twitter)
动态规划:最佳,但有一个陷阱
贝尔曼方程、值迭代、策略迭代。控制理论的皇冠上的明珠,但皇冠是由指数增长制成的。如果状态空间爆炸,你的乐观情绪也会爆炸。
启发式和元启发式:朴实无华的工具
模拟退火、禁忌搜索、遗传算法。这些都是美化的“尝试很多事情,保留最好的,继续前进”。这不是侮辱。大多数实际决策在规模上看起来都是这样的,因为现实不会让你坐在那里解决一个精确的方程式,而时钟却在耗尽。
因果模型:因为相关性是一个骗子
因果决策——是的,Pearl,图表,干预——为你提供了一种询问“如果我们真的改变了什么,会发生什么?”的方法,而不是“上次发生了什么?”如果你的关于人工智能决策的 PPT 没有提到因果推断,但你的产品做出的选择会影响人们,那么你就是在为遗憾构建推荐引擎。
两个难题:目标和约束
AI 决策中的第一个谎言是我们正在优化“性能”。究竟优化什么?点击次数?正常运行时间?收入?安全?公平?延迟?如果你不明确说明,你就没有一个系统——你只有一个愿望。目标函数就是产品。像对待法律样板一样对待它,它会像法律样板一样咬你。
- 多目标权衡不是错误。这是工作。明确地衡量它们,诚实地衡量痛苦,不要假装 Pareto 前沿是道德指南针。
- 约束不是事后诸葛亮。它们是你如何限制伤害的。硬约束(不,真的,永远不要超过 X)与软惩罚(请不要超过 X,除非它有利可图)不同。像你认真对待一样写下它们。
这个行业最喜欢的自我欺骗是认为更多的数据可以解决一个糟糕的目标。事实并非如此。它使错误的事情非常有效。
可解释性不是可选的;它是上下文
对可解释 AI 的推动通常被视为合规性障碍。这是倒退的。“可解释性”是你如何与依赖决策的人建立信任的方式——即使他们是工程师。你需要知道模型为什么说“左转”,不是为了安抚监管机构,而是为了在崩溃再次发生之前调试它。
- 事后解释(显着性图、SHAP)胜过没有,但它们是口红——有用的口红——在一头可能是赛马的猪身上。
- 内置的可解释性(单调模型、广义加性模型、具有学习阈值的规则)以牺牲一些原始准确性为代价来换取可预测的行为。在许多领域,这是一笔划算的交易。
如果你的关于人工智能决策的 PPT 显示一个色彩鲜艳的热图并就此结束,那么你已经完全学会了如何在生产中不运行一个系统。
大型语言模型和决策海市蜃楼
是的,LLM 可以决定——或者至少它们可以用不可思议的流畅性提出决策。它们擅长勾勒选项空间、列出权衡,甚至编写规划循环周围的脚手架。但最诱人的部分是最糟糕的部分:即使它们在编造,它们听起来也很自信。
安全的模式不是“让模型决定”。而是:让模型提出建议,用规则约束,用规划器或优化器验证,并记录每个步骤。将 LLM 放入循环中,而不是放在方向盘上。你不会让自动更正驾驶你的汽车。
从幻灯片到系统:什么在生产中真正有效
AI 中功能性决策系统看起来不像幻灯片。它看起来像:
- 一种混合方法的决策引擎:学习感知、概率推理和可以表达“我不确定”的策略。
最后一部分在某些圈子里被认为是粗俗的。“AI 应该是自主的。”也许吧。或者,也许专业的谦逊胜过新闻稿的男子气概。
不可避免的“工具”问题
你可以用大量的库和服务来组装这个决策堆栈。有很多都很好。但很少有能保持一致的。最好的设置减少了摩擦——编写提示、检查输出、链接推理、测试边缘情况——并且可以很容易地在重要的地方设置防护栏。
将Sider.AI 视为一个实际的例子。它不是试图向你推销一个有知觉的生物。它实际上是有助于解决混乱中间地带的工具:起草推理链、比较算法选项以及在 LLM 辅助功能有效而不是表演性的地方插入 LLM 辅助功能。它擅长不那么性感的部分——迭代、检查以及“版本 12 和 13 之间有什么变化?”在一个炒作的世界里,“真正有效”是一种超能力。 人工智能决策 PPT 巡回中的常见误解
- 误解:“更多的数据胜过更好的模型。”有时。通常它胜过糟糕的思考。具有适度数据的明确目标可以胜过瞄准错误指标的消防水带。
- 误解:“黑盒是不可避免的。”不是的。它有时很方便。你可以在不透明的核心周围构建可解释的层。你只需要关心。
- 误解:“探索是有风险的。”当然——停滞也是如此。土匪的存在是有原因的。
- 误解:“自主是目标。”自主是一种手段。可靠性是目标。
案例研究:理论与实践相结合的地方
- 物流路线:A* 用于可行性,MILP 用于成本,启发式用于最后一英里的混乱。撒入一个具有不确定性的需求预测,你就会得到一个强大的系统。不,一个单一的端到端深度网络在城市关闭一座桥梁的第二周不会做得更好。
- 医疗分诊:用于硬安全性的规则,用于风险评分的概率模型,用于异常值的人工参与。系统的优点不是速度;而是知道何时放慢速度。
- 内容审核:用于分诊的分类器,用于法律约束的政策规则,对人类的申诉。你不会“解决”这个问题,你会管理它——就像割一排横向生长的草坪一样。
如何判断一个决策系统(而不是幻灯片)
问三个问题:
- 你究竟在优化什么?如果答案超过一个句子或少于一个句子,请担心。
- 当世界发生变化时会发生什么?如果答案是“重新训练”,那么他们就没有考虑过漂移。
构建你自己的深入研究:一个实用的纲要
如果你要组装你自己的关于人工智能决策的 PPT——因为我们最终都会有罪——那就围绕诚实来构建它:
- 从决策循环和你的目标函数开始。一张幻灯片,纯文本。
- 展示你的约束以及它们为什么是硬性的。一张幻灯片,没有委婉语。
- 选择用于感知、推理、规划的算法。对于每一个,列出失败模式。
- 以未解决的风险结束。如果你没有任何风险,你就没有完成。
说“我不知道”的安静力量
AI系统应该能够放弃决策。可以称之为具有不确定性感知能力的决策、选择性预测等等。说“跳过”的能力是工具和累赘的区别。人类本能地会这样做。但我们构建了太多不具备这种能力的系统。
我们所处的位置
人工智能中的决策并非魔法,深入研究算法也不应该读起来像是一场新宗教的推介会。它是工程——谨慎的目标、明确的约束、坦诚的不确定性,以及为了可靠性而愿意牺牲优雅的意愿。下次当PPT告诉你系统“学会了决策”时,问问它当桥梁中断、指标错误或用户做出没人预测的事情时会发生什么。
如果答案是一个更大的箭头,你就已经做出了决定。
关键词感知附录(没有关键词堆砌)
- 人工智能中的决策:在明确的目标和约束下,在不确定性中选择行动的实践。
- 深入研究算法:不是隐喻——搜索、优化、概率推理、强化学习、规划、因果建模、混合。
- 实用要点:混合方法,加强约束,拥抱不确定性,检测一切,并抵制将幻灯片伪装成系统的冲动。
常见问题解答
问题1:人工智能中的决策到底是什么?
它是在明确的目标和约束下,在不确定性中选择行动——而不是靠感觉。有趣的部分不是模型;而是当世界拒绝与训练集匹配时,模型、数据和防护措施如何协同工作。
问题2:深入研究AI决策,哪些算法比较重要?
搜索、优化、概率推理、强化学习、规划和因果模型是骨干。将学习到的感知与符号规则相结合的混合系统才是真正能在生产中存活下来的。
问题3:大型语言模型擅长决策吗?
它们非常擅长提出选项和搭建计划框架,但作为未经检查的决策者则很糟糕。在循环中使用LLM:建议、约束、验证——然后像你需要向律师解释一样记录每个步骤。
问题4:如何避免人工智能决策PPT中最大的错误?
将学习与决策分开,定义目标,并阐明约束。展示失败模式和监控——如果你的PPT全是箭头而没有权衡,那就是表演,而不是工程。
问题5:Sider.AI 如何融入AI决策工作流程?
Sider.AI 帮助处理混乱的中间环节——编写、比较和检查推理工作流程——因此你可以将LLM辅助应用到它有效的地方,而不是营销希望它有效的地方。考虑实际迭代,而不是魔法棒。