なぜエンタープライズAIエージェントは失敗するのか? GleanとAWSで本番環境に対応させる方法
大胆な主張をします。会議室でデモされるほとんどの「AIエージェント」は、真にエンタープライズに対応していません。プレッシャーの下でハルシネーションを起こし、実際のデータで動作を停止し、SOC 2監査に合格できません。法務、セキュリティ、ITチームが実際に承認し、従業員が実際に使用するAIが必要な場合は、エンタープライズグレードの検索(Glean)、堅牢なクラウドプリミティブ(AWS)、そしてスケールに耐えうる規律あるアーキテクチャを組み合わせた構築が必要です。
このガイドでは、GleanとAWSを使用してエンタープライズ対応のAIエージェントを構築する方法を、ID認識検索から安全なツール利用、レイテンシ予算から可観測性、そしてパイロットから本番環境まで、段階的に説明します。
質問主導の構成を使用するため、データアクセス、セキュリティ、アーキテクチャ、ロールアウトなど、最も重要な部分にスキップできます。
エンタープライズ対応のAIエージェントとはどういう意味ですか?
エンタープライズ対応のAIエージェントは、単なるチャットインターフェースではありません。これは、以下が可能な安全で監査可能なシステムです。
- 厳格なアクセス許可境界内で、企業知識を使用して質問に答える
- 承認されたツール(ServiceNowチケット、Jira課題、Slack投稿など)を通じてアクションを実行する
- エンタープライズSSO、SCIM、DLP制御の下で動作する
- データの所在地、ロギング、および保持要件に準拠する
- 予測可能なレイテンシとコストで数千人のユーザーにスケールする
GleanとAWSでAIエージェントを構築する際の利点はここにあります。Gleanは、アプリ全体でID認識エンタープライズ検索と検索を提供し、AWSは、本番環境で必要となるコンピューティング、オーケストレーション、ネットワーキング、およびガバナンスの基盤を提供します。
アーキテクチャの概要:Glean + AWS
システムを4つのレイヤーとして考えてください。
- Okta/Azure AD経由のSSO。プロビジョニング用のSCIM。ロールマッピング
- Gleanは、クエリ時にドキュメントレベルの権限を適用します
- AWS Cognitoまたは直接SAML/OIDCを使用して、トークンをサービスにブローカーする
- Google Drive、Slack、Confluence、Jira、GitHub、Box、Notionなどの統合インデックス
- クエリの書き換え、ハイブリッド検索、セマンティックなリランキング
- 推論とオーケストレーションレイヤー(AWS + モデル)
- ステートレスなエージェントステップ用のAWS LambdaまたはECS
- 最先端モデルへのマネージドアクセス用のAmazon Bedrock
- マルチツールワークフローとリトライ用のStep Functions
- キーとツールクレデンシャル用のSecrets Manager/Parameter Store
- アクションとツールレイヤー(エンタープライズ統合)
- 記録システム(ServiceNow、Salesforce、Jira、Slack)に対する読み取りおよび書き込み操作
- すべてのツール呼び出しに対するガードレール、承認、および監視
- 説明可能性のためのCloudWatch/OpenSearchの監査ログ
コア構築:GleanとAWSでエンタープライズ対応のAIエージェントを構築する方法
以下は、実践的なエンドツーエンドのパスです。スタックに合わせて調整してください。ただし、原則は守ってください。
1)最初にIDとガバナンスを設定する
- Okta/Azure AD経由でSSOを確立します。グループ/ロールをアプリの権限にマッピングします。
- 自動ユーザーライフサイクル(参加/移動/離脱)にSCIMを使用します。プロビジョニング解除はエージェントにカスケードする必要があります。
- 最小特権IAMロールでAWSアカウントを構成します。開発、ステージング、本番環境を分離します。必要に応じて、Bedrockおよびデータ流出制御用のVPCエンドポイントを適用します。
- プロンプト、応答、およびベクトル埋め込みを保存する期間であるデータ保持を定義します。ログとアーティファクトには、KMS暗号化されたS3バケットを使用します。
ヒント:IDをランタイムシグナルとして扱います。エージェントは、エンドユーザーのIDをGleanとツールに渡して、権限チェックが確実に維持されるようにする必要があります。
2)Gleanでソースを接続し、権限認識型の検索を有効にする
- フットプリントごとに、Slack、Drive、Confluence、Notion、GitHub、Jira、Box、およびメールを接続します。
- Gleanに最小特権でクロールおよびインデックスを作成させます。セキュリティでスコープを確認します。
- 権限の伝播を検証します。ユーザーは、ソースアプリで表示できるもののみを取得する必要があります。
- Gleanクエリ構成を調整します。クエリの書き換え、ハイブリッド検索、およびセマンティックなリランキングを有効にして、精度を向上させます。
重要な理由:ほとんどの企業では、「ハルシネーション」の問題の70〜90%は、実際には検索の問題です。Gleanを使用すると、AIエージェントはユーザーの権限に基づいて適切なドキュメントを取得し、リスクと無関係な回答を大幅に削減します。
3)Amazon Bedrock経由でモデルを選択し、ガードレールを設定する
- 汎用モデル(Bedrock経由のClaude、Llama、またはMistralなど)から開始し、ドメインプロンプトに対してA/Bテストを行います。
- Bedrock Guardrailsを安全フィルター、プロンプトインジェクションチェック、およびコンテンツポリシーに使用します。
- 応答を制約します。ドキュメントID/URLで引用を要求し、ツール出力にJSONスキーマを適用し、ステップごとに最大トークン数を設定します。
- レイテンシ予算を維持します。Q&Aの場合はP95エンドツーエンド<2.5秒、ツール使用フローの場合は<6秒を目標とします。
4)AWSでエージェントをオーケストレーションする
パターン:ReActスタイルの計画+ツール使用+グラウンディングされた回答。
- Step Functionsを使用してステップを調整します:取得→計画→ツール→検証→回答。
- 推論呼び出しはLambdaまたはECSで実行されます。バーストトラフィックにはLambdaを選択し、持続的なスループットにはECSを選択します。
- ツールアダプター(Jira、Slack、ServiceNow)は、AWS Secrets ManagerのIAMスコープ付きシークレットを持つステートレスLambdaです。
- 有効期限(TTL)付きのDynamoDBに短期間の会話状態を保存します。S3/Glue/Athenaに長期的な分析を保存します。
5)Gleanを使用した検索拡張生成(RAG)の実装
- ユーザーのIDトークンとユーザーの質問でGleanにクエリを実行します。
- 上位k個の結果(例:ハイブリッド:k=10セマンティック+10キーワード)を権限を尊重して取得します。
- Gleanの関連性でリランクします。上位の重複排除されたチャンクのみをモデルに渡します。
- エージェントにソースを引用し、信頼度スコアを含めるように要求します。
プロンプトスケルトン:
- システム:「あなたはグラウンディングされたエンタープライズアシスタントです。提供されたコンテキストのみを使用してください。無関係な場合は、フォローアップの質問をしてください。常にタイトルとリンクでソースを引用してください。」
- ツール:「Jira_CreateIssue、Slack_PostMessage、ServiceNow_CreateIncidentを呼び出すことができます。ランブックが自動化を承認しない限り、ユーザーに確認してから行動してください。」
6)安全なツール使用と承認の追加
- 各ツールをパラメーター検証とレート制限でラップします。
- 影響の大きいアクション(アクセス権のプロビジョニング、P1のクローズなど)には、人間の確認またはマネージャーの承認を要求します。
- すべてのツール呼び出し(誰が、何を、いつ、入力スキーマ、出力)をCloudWatchおよびS3に記録して監査します。
- Slack/Teamsの投稿の場合、送信前にプレビューするための「ドラフトモード」をサポートします。
7)可観測性、評価、およびドリフト制御
- 必要に応じて、プロンプト、コンテキストスニペット、引用、および応答を編集してキャプチャします。
- OpenSearchダッシュボードを使用して、precision@k、グラウンディング、および偏向率を監視します。
- オフライン評価を実行します。予想される回答と必要なソースを含む、100〜300の組織固有の質問のゴールドセットをキュレートします。
- コネクターまたは権限のドリフト(変更されたSlackチャネル、ドライブ移行など)を検出するために、カナリアをスケジュールします。
8)パフォーマンスとコストの調整
- ホットトピック(例:HRポリシー)について、ユーザーごとにGleanクエリを短いTTLでキャッシュします。
- ルーティングにはより小さなモデルを使用し、難しいクエリまたはマルチツール計画にはより大きなモデルのみを使用します。
- 可能な場合はバッチリランキングを行います。コンテキストを圧縮します。チャンクの重複排除を使用します。
- 解決されたタスクあたりのコストを追跡します。組織ごとおよびユーザーグループごとにクォータを設定します。
例:GleanとAWSで構築されたエンタープライズITアシスタント
GleanとAWSを使用してエンタープライズ対応のAIエージェントを構築する方法を示す具体的なシナリオを見てみましょう。
ユースケース:ITサポートのトリアージと解決。
- ユーザーは「アップデート後、macOS 14でVPNが失敗する—修正方法は?」と質問します。
- エージェントはITランブックトラックにルーティングします。
- 検索:ユーザーのIDでGleanにクエリを実行し、VPNランブック(Confluence)、#it-supportからのSlackスレッド、およびJamfポリシー文書を取得します。ユーザーがアクセスできるリソースのみが考慮されます。
- 計画:エージェントは、修正の共有、Jamfを介したデバイスコンプライアンスのチェック、および解決されない場合はServiceNowインシデントのオープンという手順を提案します。
- ツール呼び出し:Jamfステータス(読み取り専用)を読み取り、修正メッセージを下書きし、ユーザーにエスカレーションの確認を求めます。確認後、適切なテンプレートでインシデントを作成します。
- 回答:ランブックとSlackスレッドへの引用を含む簡潔な修正サマリーを、すべてユーザーの権限範囲内で提供します。
機能する理由:エージェントはGleanからの権限認識型検索に基づいており、AWSは実行、承認、およびロギングを処理します。
セキュリティとコンプライアンスのチェックリスト(これはスキップしないでください)
- 検索コンテキストをサーバー側に保持します。生のドキュメントコンテンツをクライアントに公開しないでください。
- KMSで保存時に暗号化します。転送中のTLS 1.2+を適用します。
- ユーザーIDをGleanおよびツールに渡します。検索に共有ボットIDを使用しないでください。
- IdPグループからツールスコープにRBACをマッピングします。
- Bedrock Guardrailsを有効にします。プロンプトでシークレットを許可しません。
- 必要に応じてPIIを編集し、保持期間を文書化します。
- オブジェクトロック付きのS3への不変ログ。SIEMにエクスポートします。
- インシデント対応とモデルロールバックのランブックを保持します。
実装ブループリント:本番環境への10ステップ
- 上位3つのエージェントユースケース(IT、HR、営業運用)と成功指標(偏向率、CSAT、解決までの時間)を定義します。
- AWSアカウント、VPC、IAMベースライン、およびBedrockアクセスをセットアップします。
- SSO/SCIMを統合します。ロールと承認フローをマッピングします。
- Gleanでコアソースを接続し、権限認識型の検索を検証します。
- Step Functionsを使用して最小限のオーケストレーションサービス(Lambda + API Gateway)を構築します。
- RAGプロンプトコントラクト、引用、およびソースフィルタリングを実装します。
- 2つのツールをエンドツーエンドで追加します(最初は読み取り専用、次に承認付きで書き込み)。
- ロギング、評価、およびダッシュボードをインストルメントします。150の質問のゴールドセットを作成します。
- 50〜100人のユーザーでクローズドベータを実行します。上位の問題を修正します。SLOを設定します。
- 広く展開します。毎週の変更レビューと毎月のモデル評価を確立します。
GleanとAWSでAIエージェントを構築する際によくある質問
エンタープライズエージェントのハルシネーションを減らすにはどうすればよいですか?
Gleanからの検索でモデルをグラウンディングし、厳密なプロンプトを適用します。提供されたコンテキストのみを使用し、常にソースを引用します。信頼度が低い回答は拒否し、明確にするための質問をします。権限認識型の検索に依存すると、ほとんどのハルシネーションがなくなります。
エージェントはアプリ全体のドキュメントレベルの権限を尊重できますか?
はい。GleanとAWSでAIエージェントを構築すると、Gleanはクエリ時に接続されたアプリからの権限を適用するため、エージェントはユーザーがアクセスできるもののみを表示します。常にユーザーのIDトークンを渡して、管理の連鎖を維持します。
AWSでどのモデルから始めるべきですか?
複数のモデルにアクセスするには、Amazon Bedrockを使用します。推論には強力な汎用モデルから始め、ルーティングにはより小さく、より高速なモデルを使用します。キュレートされたゴールドセットに対して、レイテンシ、コスト、および精度を評価します。
JiraやServiceNowなどのシステムでエージェントが安全にアクションを実行できるようにするにはどうすればよいですか?
各ツールを厳密なスキーマ、入力検証、および承認ワークフローでラップします。すべてのツール呼び出しをログに記録し、監査のために出力を保存します。影響の大きいアクションには、人間の確認ステップが必要です。
エージェントが本番環境に対応していることを証明するメトリックは何ですか?
グラウンディング(引用率)、回答精度、P95レイテンシ、解決/偏向率、および解決されたタスクあたりのコストを追跡します。ダッシュボードを構築し、ゴールドセットで毎週回帰チェックを実行します。
ちなみに:構築ループの加速
注目に値するのは、チームが頻繁にプロトタイプを作成する場合、調査と起草のためのコパイロットは、設計ドキュメント、ランブック、およびプロンプトの反復をスピードアップできることです。Sider.AIのようなツールは、チームが長いスレッドを要約し、評価プロンプトを下書きし、モデル出力を並べて比較するのに役立ちます。これは、GleanとAWSでエンタープライズ対応のAIエージェントを構築する方法を調整する際に役立ちます。 主なポイントと次のステップ
- GleanとAWSでAIエージェントを構築すると、ID認識型の検索とエンタープライズグレードのオーケストレーションが得られます。
- 派手な計画ロジックの前に、ID、ガバナンス、および権限認識型の検索から始めます。
- Bedrockガードレール、厳密なツールスキーマ、およびヒューマンインザループ承認を使用します。
- すべてをインストルメントします。評価、監査、およびコスト管理。
今週の次のステップ:
- Gleanで2つのコアソースを接続します。150の質問評価を実行します。
- 1つの読み取り専用ツールを使用して、最小限のLambda + Step Functionsオーケストレーターをセットアップします。
- パイロットが拡大する前に、レイテンシとコストの予算を設定します。
FAQ
Q1:AWSのAIエージェントにとってエンタープライズ対応とはどういう意味ですか?
これは、SSOとドキュメント権限を尊重し、引用を提供し、準拠インフラストラクチャで実行される安全で監査可能なエージェントを意味します。GleanとAWSでAIエージェントを構築すると、権限認識型の検索とクラウドグレードの可観測性が得られます。
Q2:GleanはAIの回答でどのようにデータ漏洩を防ぎますか?
Gleanは、クエリ時に接続された各アプリからのドキュメントレベルの権限を適用します。エージェントは、ユーザーがアクセスできるコンテンツのみを取得します。これは、GleanとAWSでエンタープライズ対応のAIエージェントを構築する際に重要です。
Q3:オーケストレーションにはどのAWSサービスを使用する必要がありますか?
実行にはLambdaまたはECS、マルチステップワークフローにはStep Functions、モデルとガードレールにはBedrock、クレデンシャルにはSecrets Managerを使用します。このスタックは、GleanとAWSでAIエージェントを構築するための実績のあるベースです。
Q4:精度を評価し、ハルシネーションを減らすにはどうすればよいですか?
質問のゴールドセットを作成し、引用を要求し、検索拡張生成を使用します。GleanとAWSを使用すると、権限認識型の検索とガードレールにより、ハルシネーションが大幅に削減されます。
Q5:AIエージェントは、チケットの作成やSlackへの投稿などのアクションを安全に実行できますか?
はい。スキーマ検証済みのツール、影響の大きいアクションの承認、および完全な監査ロギングを使用します。これは、GleanとAWSでエンタープライズ対応のAIエージェントを構築する際のコアパターンです。