PPTでAIを簡単に部分
人工知能における意思決定についてですが、誰もが理解しているふりをしています。それが素晴らしい判断を下すか、明らかな間違いで大失敗するまでは。そうなると、突然「複雑すぎる」とか「ブラックボックスだ」と言い出します。まるで数学がバナナの皮で滑ったかのように。人工知能における意思決定に関するPPTを見たことがある人なら、お決まりのパターンをご存知でしょう。大きな矢印、フローチャート、そして必然性を示唆するクリップアート。それは必然ではありません。どこまでも選択の連続です。
これは、AIの意思決定に使用されるアルゴリズム—本物のアルゴリズム—への深い探求です。箱型の矢印が描かれたスライドではありません。「AIが私たちのために決定する」という見せかけを切り裂き、これらのシステムが実際にどのように選択するかについて語ることを目標としています。ネタバレ:それらは全知全能の神託というよりは、交通渋滞に巻き込まれたり、幼児の就寝時間を交渉したりする必要のなかった、非常に高速で、非常に文字通りの推論者によく似ています。
「AIにおける意思決定」とは何を意味するのか(そしてPPTがめったに認めないこと)
「人工知能における意思決定」は崇高に聞こえますが、実際には、ルールベースの推論、探索、最適化、確率的推論、強化学習、計画、そして全体をまとめるハイブリッドシステムといった一連のテクニックです。アルゴリズムは何も「望んで」いません。それらは特定の制約下で特定の関数を最適化します。関数または制約を交換すると、異なる「知能」が得られます。それが当たり前のように聞こえるなら、おめでとうございます—あなたはSlideShareにあるスライドの半分よりも先を行っています。
ほとんどの人工知能における意思決定に関するPPTの本当の問題は、単純化することではありません。間違った方向に単純化することです。モデルが「学習した」から決定すると暗示しています。学習は決定ではありません。学習によってポリシーまたはモデルが得られます。意思決定とは、トレーニングデータとまったく同じではないコンテキストでそのポリシーを実行することです。チェスのオープニングを暗記することと、ミドルゲームのカオスを生き残ることの違い—前者は箇条書きでは見栄えが良いですが、後者が勝利をもたらします。
実際{The Actual Tools}: ルールから報酬まで
古風に聞こえるもの(それでも重要ですが)から、最新のシステムを動かすテクニックまで、順を追って見ていきましょう。平易な言葉で、ロマンスはありません。
ルールベースのシステム{Rule-Based Systems}: まだ死んでいない、ただ正直なだけ
ルールは、サンダルに靴下を履くように、一部のAI関係者にとって恥ずかしいものです。しかし、ルールベースの意思決定には大きな利点が1つあります。それは透明性です。人工知能における意思決定に関するPPTがルールを「レガシー」としてスキップする場合、それは話の半分を隠しています。エキスパートシステムは、ドメイン知識をif–thenステートメントとしてエンコードします。それらは脆いですが、監査可能です。決定論とトレーサビリティが必要な場合—コンプライアンスチェック、医療トリアージプロトコル—ルールはまだ機能するだけでなく、より効果的です。
- 長所{Pros}: 決定論的、説明可能、デバッグが容易
- 短所{Cons}: 脆い、厄介なドメイン全体でスケールするのが難しい
ルールシステムが失敗すると、それが教えてくれます。ほとんどの最新システムは静かに失敗します。
探索と最適化{Search and Optimization}: ナビゲーションとしての意思決定
すべてを大量のデータでトレーニングする前に、私たちは探索していました。幅優先探索、深さ優先探索、A*、ビーム探索。それは魅力的ではありませんが、文字通りまたは比喩的に、経路探索問題を解決する場合は常に、探索がバックボーンとなります。優れたヒューリスティックを備えたA*は、ばかげた目的を備えた「スマート」モデルよりも優れています。
最適化はこれを一般化します。目的関数と制約を設定し、次に、利用可能な計算量で可能な限り最良のソリューションに向かって進みます。線形計画法、混合整数計画法、進化的アルゴリズム—締め切りまでに「ほぼ良好」から「十分に良好」に到達するためのアルファベットスープ。
- 長所{Pros}: 証明可能な保証、制御可能なトレードオフ
- 短所{Cons}: モデリングは難しい。目的は、微妙で壊滅的な方法で誤って指定される可能性があります
モデルが奇妙なことをするのは、多くの場合、あなたが求めたものを正確に手に入れたからです—あなたが意図したものではありません。
確率的推論{Probabilistic Reasoning}: 不確実性は特徴
ベイズネットワーク、隠れマルコフモデル、カルマンフィルター:古典。世界が確実であるふりをする代わりに、これらの方法は不確実性の実行中の集計を維持し、それに対してヘッジするアクションを選択します。言い換えれば、リアリズム。
- 長所{Pros}: 不確実性下で原則的。解釈可能な構造
- 短所{Cons}: 高次元の混乱へのスケーリングは苦痛です。仮定は反撃します
確率論的方法は、ほとんどの人工知能における意思決定に関するPPTデッキが「信頼度スコア」で示すものです。信頼度は確率ではありません。確率は領収書付きの数学です。
強化学習{Reinforcement Learning}: 報酬がルールを作る
強化学習—Q学習、ポリシー勾配、アクタークリティックバリアント—は、意思決定をスコアボードを使用した試行錯誤として構成します。アクションを選択すると、環境から報酬が与えられ、時間の経過とともに有利になるアクションに向けてポリシーを調整します。これは、AIが文字通り「決定」する場所です。それは、あなたが設計したゲームをプレイするという意味で、あなたがそれを認識しているかどうかに関係なく。
- 長所{Pros}: 逐次的な意思決定タスクに強力。明示的にコーディングしなかった戦略を学習します
- 短所{Cons}: 報酬ハッキング。サンプル効率の悪さ。世界が少しでも変化した場合の脆弱な一般化
人々は、強化学習が「人間が学習する方法のようだ」と主張するのが大好きです。そうではありません。人間には先入観、体、退屈、常識があります。RLエージェントには、報酬関数と、それが機能するまでナンセンスを試す無限の忍耐力があります。
計画とPOMDP{Planning and POMDPs}: 世界は半分しか見えない
現実世界の意思決定は、完全な情報が提供されることはめったにありません。部分観測マルコフ決定過程(POMDP)は、その不確実性を明示的にモデル化します。状態を知らず、それを示唆する観測だけを知っています。部分観測可能性の下での計画は、信念状態—「私たちが見てきたことを考えると、何が起こっていると思うか」を表す派手な用語—を維持することを強制します。
- 長所{Pros}: 不確実性について正直。賢明な行動のための正式な基礎
- 短所{Cons}: 計算量が非常に大きい。近似は必要な悪です
人工知能における意思決定に関するPPTが少なくとも「POMDP」とささやかない場合、それは現実をオプションの設定として扱っています。
ハイブリッドシステムとニューロシンボリックマッシュアップ{Hybrid Systems and Neuro-Symbolic Mashups}
ニューラルネットワークは見てラベル付けします。シンボリックシステムは説明して制約します。それらをまとめると、役に立つものが得られます。知覚のためのビジョンモデル、安全のためのルール。候補アクションの言語モデル、実現可能性のプランナー。これらのハイブリッドは単に流行しているだけではありません。それらはエンジニアリングの謙虚さを反映しています。知覚が難しい場所では学習済みモデルを使用し、利害関係が高い場所では明示的なロジックを使用します。
- 短所{Cons}: 統合の頭痛の種、脆いインターフェース、重複した複雑さ
意思決定ループ{The Decision Loop}: 機械のためのOODA、頭字語は少なめ
ほとんどのAI意思決定システムは、観察、推論、計画、行動、反復というループを実行します。スライドデッキは円と矢印を好みます。重要なのは緊張感です。各ステップは妥協します。(すべてではありませんが)観察します。(ただし、不確実性を維持します)推論します。(ただし、時間内に)計画します。(ただし、世界を焼き払わないで)行動します。
- 知覚からシンボルへ{Perception to Symbols}: 生データから特徴へ。情報を失います。うまくいけば正しい情報。
- 予測から信念へ{Prediction to Belief}: 特徴から実際に何が起こっているかの分布へ。
- ポリシーから計画へ{Policy to Plan}: 現在の信念からアクションシーケンスへ。計算量とリスク許容度によって制限されます。
- アクションからフィードバックへ{Action to Feedback}: 行動し、結果を測定し、信念とパラメーターを更新します。ループが経験によって改善されない場合、それは自動化であり、AIではありません。
人工知能における意思決定に関するPPTの最大の過ちは、ループがクリーンであるふりをすることです。本番環境では、センサーがドリフトし、人間が干渉し、メトリックが互いに戦います。優れたシステムは、世界が肩をすくめるときに優雅に劣化するものです。
アルゴリズムへの詳細な調査{Deep Dive into Algorithms}(バズワードソースなし)
実際に人々が使用するアルゴリズムを覗いてみましょう。彼らが解決するもの、失敗する方法、そして彼らが輝く場所。
多腕バンディット{Multi-Armed Bandits}: ドラマのない探索
新しいことを試すことと、うまくいくことを活用することのバランスをとる必要がある場合—広告の選択、推奨の微調整、UI実験—多腕バンディットは速度のためにA/Bテストを打ち負かします。トンプソンサンプリングは、実用的なお気に入りです。ベイズ的、シンプル、効果的です。完全なRLエージェントであるとは主張していません。その方が優れています。
- 用途{Use it for}: フィードバックを伴う迅速なオンライン意思決定
- 用途{Don’t use it for}: 長期的な戦略、複雑な依存関係、安全が重要なもの
モンテカルロ木探索{Monte Carlo Tree Search}: 予算内での先見性の発揮
MCTSは未来をサンプリングします。すべてではなく、もっともらしいものだけを十分にサンプリングします。これは、「午後は考え抜かないまでも、考えてみましょう」というアルゴリズム的な同等物です。ゲームと構造化された計画では、それが勝ちます。オープンエンドの混乱では、そこにない構造を幻視します。
- 最適{Great for}: 境界のある、適切にモデル化された意思決定空間(ゲーム、制約付き計画)
- 不得意{Weak for}: モデル化されていないカオス(人間、市場、Twitter)
動的計画法{Dynamic Programming}: キャッチ付きの最適
ベルマン方程式、価値反復、ポリシー反復。制御理論の最高の宝石ですが、指数関数的な成長で作られた王冠が付いています。状態空間が爆発すると、楽観主義も爆発します。
- 最適{Great for}: 既知のダイナミクスを持つ小〜中程度のマルコフ世界
- 不得意{Weak for}: その他すべて。近似しない限り(つまり、常に)
ヒューリスティクスとメタヒューリスティクス{Heuristics and Metaheuristics}: 控えめな働き者
シミュレーテッドアニーリング、タブーサーチ、遺伝的アルゴリズム。これらは美化された「多くのことを試して、最良のものを維持し、継続する」です。それは侮辱ではありません。ほとんどの実際の決定は、規模的にはこのように見えます。なぜなら、現実では、時計がなくなるまで座って正確な方程式を解くことはできないからです。
- 最適{Great for}: 最適が幻想である難しい組み合わせ問題
- 不得意{Weak for}: 速度よりも保証が重要なドメイン
因果モデル{Causal Models}: 相関関係は詐欺師だから
因果的な意思決定—はい、パール、グラフ、介入—は、「最後に何が起こったのか」ではなく、「実際に何かを変えたらどうなるか」を尋ねる方法を提供します。人工知能における意思決定に関するPPTが因果推論に言及せず、製品が人々に影響を与える選択をする場合、後悔の推奨エンジンを構築しています。
- 最適{Great for}: ポリシー、医学、二次的影響のある製品の変更
- 不得意{Weak for}: 反実仮想が重要でない純粋な予測タスク
2つの難しい問題{The Two Hard Problems}: 目的と制約
AIの意思決定における最初の嘘は、私たちが「パフォーマンス」を最適化しているということです。一体何を最適化しているのでしょうか?クリック数ですか?稼働時間ですか?収益ですか?安全性ですか?公平性ですか?レイテンシーですか?それを明記しない場合、システムはありません—願望があります。目的関数は製品です。それを法的定型文のように扱うと、法的定型文のように噛みつきます。
- 多目的のトレードオフはバグではありません。それが仕事です。それらを明示的に重み付けし、痛みを正直に測定し、パレートフロントを道徳的な羅針盤であるかのように装わないでください。
- 制約は後付けではありません。それらは危害を制限する方法です。ハード制約(いいえ、本当に、Xを超えないでください)は、ソフトペナルティ(収益性がない限り、Xを超えないでください)とは異なります。あなたがそれを意味するように書き留めてください。
業界で最も好まれている自己欺瞞は、より多くのデータが悪い目的を修正すると考えることです。そうではありません。間違ったことを非常に効率的にします。
説明可能性はオプションではありません。それはコンテキストです
説明可能なAIへの推進は、多くの場合、コンプライアンスの迷惑として構成されます。それは逆です。「説明可能性」は、決定に依存する人々との信頼を築く方法です—たとえ彼らがエンジニアであっても。規制当局をなだめるためではなく、クラッシュが再び発生する前にデバッグするために、モデルが「左に曲がる」と言った理由を知る必要があります。
- 事後的な説明(顕著性マップ、SHAP)は何もないよりはましですが、それは口紅です—役立つ口紅です—競走馬である可能性のある豚につけられています。
- 組み込みの解釈可能性(単調モデル、一般化された加法モデル、学習されたしきい値を持つルール)は、予測可能な動作のために生の精度を少し犠牲にします。多くのドメインでは、それはお得な取引です。
人工知能における意思決定に関するPPTがカラフルなヒートマップを表示して1日を終える場合、本番環境でシステムを実行しない方法を正確に学習しました。
大規模言語モデルと意思決定の蜃気楼{Large Language Models and the Decision Mirage}
はい、LLMは決定できます—少なくとも彼らは不気味な流暢さで決定を提案できます。彼らはオプションスペースのスケッチ、トレードオフのリスト、さらには計画ループの周りの足場の作成に優れています。しかし、魅惑的な部分は最悪の部分です。彼らはでっち上げているときでさえ、自信があるように聞こえます。
安全なパターンは「モデルに決定させる」ではありません。それは「モデルに提案させ、ルールで制約し、プランナーまたはオプティマイザーで検証し、すべてのステップを記録する」です。LLMをループに入れ、ホイールに入れないでください。オートコレクトに車を運転させないでしょう。
スライドからシステムへ{From Slides to Systems}: 本番環境で実際に機能するもの
AIの機能的な意思決定システムは、スライドのようには見えません。それは次のように見えます:
- 厳守すべき場所では厳しく、柔軟に対応できる場所では柔軟な制約。
- 学習された知覚、確率的推論、「わかりません」と言えるポリシーなど、複数の方法を組み合わせた意思決定エンジン。
- 可観測性{Observability}: トレース、説明、ロールバック。
最後の部分は、一部のサークルでは下品と見なされます。「AIは自律的であるべきです」。多分。または、専門的な謙虚さがプレスリリースのマッチョイズムに勝るかもしれません。
必然的な「ツール」の質問{The Inevitable “Tools” Question}
ライブラリとサービスの組み合わせで、この意思決定スタックを組み立てることができます。多くは優れています。一貫性があるものは少ないです。最適なセットアップは、プロンプトの作成、出力の検査、推論の連鎖、エッジケースのテストなど、摩擦を軽減し、ガードレールを重要な場所に簡単に配置できるようにします。
実用的な例として{Sider.AI}を検討してください。それはあなたに知覚のある存在を売ろうとしているのではありません。それは実際に厄介な中間を解決するのに役立つツールです。推論チェーンの作成、アルゴリズムオプションの比較、および生産的な場所でLLM支援をスロットインします。それは退屈な部分—反復、検査、「バージョン12と13の間で何が変わったのか」—が得意です。誇大宣伝の世界では、「実際に機能する」ことは超能力です。
AI PPTサーキットの意思決定からの一般的な神話{Common Myths from the Decision Making in AI PPT Circuit}
- 神話{Myth}: 「より多くのデータはより良いモデルを打ち負かす」。時々。多くの場合、それは悪い考え方を打ち負かします。控えめなデータを使用した明確な目的は、間違ったメトリックに向けられた消防ホースよりも優れたパフォーマンスを発揮できます。
- 神話{Myth}: 「ブラックボックスは避けられない」。いいえ。便利な場合があります。不透明なコアの周りに解釈可能なレイヤーを構築できます。あなたはただ気にする必要があります。
- 神話{Myth}: 「探索は危険だ」。確かに—そして停滞もそうです。バンディットが存在するのには理由があります。
- 神話{Myth}: 「自律性が目標だ」。自律性は手段です。信頼性が目標です。
ケースレット{Caselets}: ゴムが道路に接触する場所
- ロジスティクスのルーティング{Logistics Routing}: 実現可能性のためのA*、コストのためのMILP、ラストマイルの混乱のためのヒューリスティクス。不確実性のある需要予測を加えて、堅牢なシステムを手に入れましょう。いいえ、都市が橋を閉鎖したとき、1つのエンドツーエンドのディープネットは2週目には改善されません。
- 医療トリアージ{Medical Triage}: ハードな安全のためのルール、リスクスコアリングのための確率的モデル、外れ値のためのヒューマンインザループ。システムの美徳は速度ではありません。減速するタイミングを知っていることです。
- コンテンツモデレーション{Content Moderation}: トリアージのための分類器、法的制約のためのポリシー規則、人間へのアピール。これを「解決」することはできません。横に成長する芝生を刈るように管理します。
意思決定システムを評価する方法{How to Judge a Decision System}(スライドデッキではありません)
3つの質問をしてください:
- 正確に何を最適化していますか?答えが1文を超えるか、1文未満の場合は、心配してください。
- 世界が変化するとどうなりますか?答えが「再トレーニング」の場合、彼らはドリフトについて考えていません。
- 間違っていることをどのようにして知りますか?答えが沈黙の場合は、立ち去ってください。
独自の詳細な調査を構築する{Building Your Own Deep Dive}: 実践的な概要
独自の人工知能における意思決定に関するPPTを組み立てている場合—私たちは最終的には全員有罪です—正直さを中心に構築してください:
- 意思決定ループと目的関数から始めます。1つのスライド、プレーンテキスト。
- 「学習」を「決定」から分離します。2つのスライド、例のみ。
- 制約とその理由を説明します。1つのスライド、婉曲表現はありません。
- 知覚、推論、計画のためのアルゴリズムを選択します。それぞれについて、故障モードをリストします。
- 監視について説明します{Explain monitoring}: ドリフト、オーバーライド、インシデントプレイブック。
- 未解決のリスクで終わります。何もない場合は、完了していません。
「わかりません」と言うことの静かな力{The Quiet Power of Saying “I Don’t Know”}
AIシステムは棄権できるべきです。不確実性を考慮した意思決定、選択的予測など、呼び方は何でも構いません。「パス」と言える能力があるかないかが、ツールと負債の違いです。人間は本能的にこれを行います。私たちは、それができないシステムをあまりにも多く構築してきました。
ここからどこへ向かうのか
人工知能における意思決定は魔法ではありません。アルゴリズムの深掘りは、新しい宗教の売り込み資料のように読めるべきではありません。それはエンジニアリングです。慎重な目標設定、明確な制約、率直な不確実性、そしてエレガンスよりも信頼性を優先する意欲が必要です。次にPPTでシステムが「決定することを学習した」と説明されたら、橋が落ちているとき、指標が間違っているとき、またはユーザーが誰も予測しなかったことをしたときに何が起こるのかを尋ねてください。
その答えがより大きな矢印であるならば、あなたの決断は決まっています。
キーワードを意識した付録(キーワードの詰め込みなし)
- 人工知能における意思決定:明示的な目的と制約を使用して、不確実な状況下で行動を選択すること。
- アルゴリズムの深掘り:比喩ではありません—探索、最適化、確率的推論、強化学習、計画、因果モデリング、ハイブリッド。
- 実践的な教訓:手法を融合し、制約を強化し、不確実性を受け入れ、すべてを計測し、スライドをシステムであるかのように見せかける誘惑に抵抗してください。
FAQ
Q1:人工知能における意思決定とは、実際には何ですか?
明示的な目的と制約の下で、不確実な状況下で行動を選択することです—雰囲気ではありません。興味深いのはモデルではなく、世界がトレーニングセットと一致することを拒否したときに、モデル、データ、およびガードレールがどのように連携するかです。
Q2:AI意思決定の深掘りにおいて、どのアルゴリズムが重要ですか?
探索、最適化、確率的推論、強化学習、計画、および因果モデルが背骨です。学習された認識と記号的なルールを組み合わせたハイブリッドシステムが、実際にプロダクションで生き残ります。
Q3:大規模言語モデルは意思決定に適していますか?
オプションを提案したり、計画の足場を組んだりするのには優れていますが、チェックされていない決定者としては最悪です。LLMをループで使用してください:提案、制約、検証—そして弁護士に説明する必要があるかのように、すべてのステップを記録してください。
Q4:人工知能における意思決定のPPTで、最大の誤りを避けるにはどうすればよいですか?
学習と決定を分離し、目的を定義し、制約を明記します。失敗モードとモニタリングを示してください—あなたの資料がすべて矢印だけでトレードオフがない場合、それは劇場であり、エンジニアリングではありません。
Q5:Sider.AIはAI意思決定ワークフローのどこに適合しますか?
Sider.AIは、煩雑な中間部分—推論ワークフローの作成、比較、および検査—を支援するため、マーケティングが望む場所ではなく、実際に機能する場所にLLM支援を配置できます。魔法の杖ではなく、実践的な反復思考です。