企业级 AI Agent 为何会失败?—— 以及如何使用 Glean 和 AWS 使其达到可生产状态
这里有一个大胆的说法:在会议室演示的大多数“AI Agent”并非真正为企业做好准备。它们在压力下会产生幻觉,在真实数据上会崩溃,并且无法通过 SOC 2 审计。如果您想要法律、安全和 IT 团队真正批准的 AI,以及您的员工实际使用的 AI,那么您需要构建一个融合企业级检索(Glean)、强大的云原生组件(AWS)以及能够经受住规模考验的严谨架构的系统。
本指南将逐步介绍如何使用 Glean 和 AWS 构建企业级 AI Agent——从身份感知检索到安全工具使用,从延迟预算到可观测性,以及从试点到生产。
我们将使用问题引导的结构,以便您可以跳到最重要的部分:数据访问、安全性、架构和推广。
我们所说的企业级 AI Agent 是什么意思?
企业级 AI Agent 不仅仅是一个聊天界面。它是一个安全、可审计的系统,可以:
- 通过批准的工具执行操作(例如,ServiceNow 工单、Jira 问题、Slack 帖子)
这就是使用 Glean 和 AWS 构建 AI Agent 的优势所在:Glean 提供跨应用程序的身份感知企业搜索和检索,而 AWS 提供您在生产中所需的计算、编排、网络和治理基础。
架构概览:Glean + AWS
将系统视为四个层:
- 通过 Okta/Azure AD 实现 SSO;SCIM 用于配置;角色映射
- AWS Cognito 或直接 SAML/OIDC 将令牌代理到服务中
- 跨 Google Drive、Slack、Confluence、Jira、GitHub、Box、Notion 等的统一索引
- AWS Lambda 或 ECS 用于无状态 Agent 步骤
- Amazon Bedrock 用于托管式访问前沿模型
- Step Functions 用于多工具工作流和重试
- Secrets Manager/Parameter Store 用于密钥和工具凭据
- 对记录系统(ServiceNow、Salesforce、Jira、Slack)的读写操作
- CloudWatch/OpenSearch 中的审计日志,用于可解释性
核心构建:如何使用 Glean 和 AWS 构建企业级 AI Agent
以下是一个实用、端到端的路径。根据您的堆栈进行调整,但请遵守这些原则。
1) 首先设置身份和治理
- 通过 Okta/Azure AD 建立 SSO。将组/角色映射到应用程序权限。
- 使用 SCIM 进行自动用户生命周期管理(加入/转移/离开)。取消配置必须级联到 Agent。
- 使用最小权限 IAM 角色配置 AWS 账户。分离开发、暂存、生产环境。在需要时,为 Bedrock 强制执行 VPC 端点和数据出口控制。
- 定义数据保留:存储提示、响应和向量嵌入的时间。使用 KMS 加密的 S3 存储桶存储日志和工件。
提示:将身份视为运行时信号。Agent 必须通过 Glean 和工具传递最终用户的身份,以使权限检查保持完整。
2) 在 Glean 中连接源并启用权限感知检索
- 根据您的覆盖范围连接 Slack、Drive、Confluence、Notion、GitHub、Jira、Box 和电子邮件。
- 让 Glean 以最小权限进行爬网和索引;与安全团队确认范围。
- 验证权限传播:用户应仅检索他们可以在源应用程序中查看的内容。
- 调整 Glean 查询配置:启用查询重写、混合检索和语义重排序以获得更好的精度。
为什么这很重要:在大多数企业中,70-90% 的“幻觉”问题实际上是一个检索问题。借助 Glean,AI Agent 可以根据用户的权限检索正确的文档,从而大大降低风险和不相关的答案。
3) 通过 Amazon Bedrock 选择模型并设置安全防护
- 从通用模型(例如,通过 Bedrock 提供的 Claude、Llama 或 Mistral)开始,并针对领域提示进行 A/B 测试。
- 使用 Bedrock Guardrails 进行安全过滤器、提示注入检查和内容策略。
- 约束响应:要求按文档 ID/URL 引用,为工具输出强制执行 JSON 模式,并设置每个步骤的最大 token 数。
- 保持延迟预算:Q&A 的目标是 P95 端到端 < 2.5 秒,工具使用流程的目标是 < 6 秒。
4) 在 AWS 上编排 Agent
模式:ReAct 风格的规划 + 工具使用 + 基于事实的回答。
- 使用 Step Functions 协调步骤:检索 → 规划 → 工具 → 验证 → 回答。
- 推理调用在 Lambda 或 ECS 中运行;对于突发流量,选择 Lambda;对于持续吞吐量,选择 ECS。
- 工具适配器(Jira、Slack、ServiceNow)是无状态 Lambda,在 AWS Secrets Manager 中具有 IAM 范围的密钥。
- 将短时会话状态存储在具有 TTL 的 DynamoDB 中;将长期分析存储在 S3/Glue/Athena 中。
5) 使用 Glean 实施检索增强生成 (RAG)
- 检索 top-k 结果(例如,混合:k=10 语义 + 10 关键字),尊重权限。
- 使用 Glean 的相关性进行重排序;仅将顶部、重复数据删除的块传递给模型。
提示骨架:
- 系统:“你是一个基于事实的企业助手。仅使用提供的上下文。如果无关,请提出后续问题。始终按标题和链接引用来源。”
- 工具:“你可以调用 Jira_CreateIssue、Slack_PostMessage、ServiceNow_CreateIncident。除非运行手册授权自动化,否则只有在与用户确认后才能采取行动。”
6) 添加安全工具使用和批准
- 对于影响重大的操作(例如,配置访问权限、关闭 P1),需要人工确认或经理批准。
- 将每个工具调用(谁、什么、何时、输入模式、输出)记录到 CloudWatch 和 S3 以进行审计。
- 对于 Slack/Teams 帖子,支持“草稿模式”以便在发送前预览。
7) 可观测性、评估和漂移控制
- 捕获提示、上下文片段、引用和响应,并在需要时进行编辑。
- 使用 OpenSearch 仪表板监控 precision@k、groundedness 和偏转率。
- 运行离线评估:策划 100-300 个特定于组织的 gold set 问题,以及预期的答案和所需的来源。
- 安排 Canary 测试以检测连接器或权限漂移(例如,更改的 Slack 频道、驱动器迁移)。
8) 性能和成本优化
- 为热门主题(例如,HR 政策)缓存每个用户的 Glean 查询,并设置较短的 TTL。
- 对于路由使用较小的模型,仅对于困难的查询或多工具计划使用较大的模型。
- 尽可能批量重排序;压缩上下文;使用块重复数据删除。
- 跟踪每个已解决任务的成本;设置每个组织和每个用户组的配额。
示例:使用 Glean 和 AWS 构建的企业 IT 助手
让我们来看一个具体的场景,展示如何使用 Glean 和 AWS 构建企业级 AI Agent。
用例:IT 支持分类和解决。
- 用户提问:“更新后 macOS 14 上的 VPN 失败——有什么修复方法吗?”
- 检索:使用用户的身份查询 Glean,并获取 VPN 运行手册 (Confluence)、来自 #it-support 的 Slack 线程和 Jamf 策略文档。仅考虑用户可以访问的资源。
- 规划:Agent 建议步骤:分享修复程序,通过 Jamf 检查设备合规性,如果问题未解决,则打开一个 ServiceNow 事件。
- 工具调用:读取 Jamf 状态(只读),起草修复消息,并要求用户确认升级。经过确认,使用正确的模板创建一个事件。
- 答案:提供简洁的修复摘要,并引用运行手册和 Slack 线程,所有这些都在用户的权限范围内。
为什么它有效:Agent 基于 Glean 的权限感知检索,而 AWS 处理执行、批准和日志记录。
安全性和合规性清单(不要跳过此项)
- 将检索上下文保留在服务器端;不要将原始文档内容暴露给客户端。
- 使用 KMS 进行静态加密;强制执行传输中的 TLS 1.2+。
- 将用户身份传递给 Glean 和工具;永远不要使用共享的机器人身份进行检索。
- 启用 Bedrock Guardrails;不允许提示中包含密钥。
- 使用对象锁定将不可变日志记录到 S3;导出到您的 SIEM。
实施蓝图:实现生产的 10 个步骤
- 定义前 3 个 Agent 用例(IT、HR、销售运营)和成功指标(偏转率、CSAT、解决时间)。
- 启动 AWS 账户、VPC、IAM 基线和 Bedrock 访问。
- 使用 Step Functions 构建最小的编排服务(Lambda + API Gateway)。
- 端到端添加两个工具(先只读,然后写入并获得批准)。
- 记录日志、评估和仪表板;创建一个包含 150 个问题的 gold set。
- 运行包含 50-100 个用户的封闭 Beta 版;修复主要问题;设置 SLO。
使用 Glean 和 AWS 构建 AI Agent 时经常问到的问题
如何减少企业 Agent 中的幻觉?
使用 Glean 的检索来支持模型,并强制执行严格的提示:仅使用提供的上下文并始终引用来源。拒绝置信度低的答案并提出澄清问题。当您依赖权限感知检索时,大多数幻觉都会消失。
Agent 可以尊重跨应用程序的文档级权限吗?
是的。当您使用 Glean 和 AWS 构建 AI Agent 时,Glean 会在查询时强制执行来自连接应用程序的权限,因此 Agent 只能看到用户可以访问的内容。始终传递用户的身份令牌以维护监管链。
我应该从 AWS 上的哪些模型开始?
使用 Amazon Bedrock 访问多个模型。首先使用一个强大的通用模型进行推理,并使用一个较小、更快的模型进行路由。根据您策划的 gold set 评估延迟、成本和准确性。
如何安全地让 Agent 在 Jira 或 ServiceNow 等系统中执行操作?
使用严格的模式、输入验证和批准工作流程包装每个工具。记录每个工具调用并存储输出以进行审计。对于影响重大的操作,需要人工确认步骤。
哪些指标证明 Agent 已准备好投入生产?
跟踪 groundedness(引用率)、答案准确性、P95 延迟、解决/偏转率以及每个已解决任务的成本。构建仪表板并在您的 gold set 上运行每周回归检查。
顺便说一句:加速构建循环
值得注意的是:如果您的团队经常进行原型设计,那么用于研究和起草的 Copilot 可以加快设计文档、运行手册和提示迭代。诸如 Sider.AI 之类的工具可帮助团队总结长线程、起草评估提示以及并排比较模型输出——当您调整如何使用 Glean 和 AWS 构建企业级 AI Agent 时非常有用。 主要收获和后续步骤
- 使用 Glean 和 AWS 构建 AI Agent 可为您提供身份感知检索和企业级编排。
- 在进行花哨的规划逻辑之前,首先要考虑身份、治理和权限感知检索。
- 使用 Bedrock 安全防护、严格的工具模式和人工参与的批准。
本周的后续步骤:
- 在 Glean 中连接两个核心源;运行一个包含 150 个问题的评估。
- 使用一个只读工具启动一个最小的 Lambda + Step Functions 编排器。
常见问题解答
Q1:对于 AWS 上的 AI Agent,企业级意味着什么?
这意味着安全、可审计的 Agent,它们尊重 SSO 和文档权限,提供引用,并在合规的基础设施上运行。当您使用 Glean 和 AWS 构建 AI Agent 时,您将获得权限感知检索和云级可观测性。
Q2:Glean 如何防止 AI 答案中的数据泄露?
Glean 在查询时强制执行来自每个连接应用程序的文档级权限。Agent 仅检索用户可以访问的内容,这在使用 Glean 和 AWS 构建企业级 AI Agent 时至关重要。
Q3:我应该使用哪些 AWS 服务进行编排?
使用 Lambda 或 ECS 进行执行,Step Functions 用于多步骤工作流程,Bedrock 用于模型和安全防护,以及 Secrets Manager 用于凭据。此堆栈是使用 Glean 和 AWS 构建 AI Agent 的可靠基础。
Q4:如何评估准确性并减少幻觉?
创建一个 gold set 问题,要求引用,并使用检索增强生成。借助 Glean 和 AWS,权限感知检索加上安全防护可显著减少幻觉。
Q5:AI Agent 可以安全地执行创建工单或在 Slack 中发布等操作吗?
是的——通过模式验证工具、对高影响力操作的批准以及完整的审计日志记录。这是在使用 Glean 和 AWS 构建企业级 AI Agent 时的核心模式。