엔터프라이즈 AI 에이전트가 실패하는 이유 — Glean 및 AWS로 프로덕션 환경에 적용하는 방법
여기 대담한 주장이 있습니다. 회의실에서 시연되는 대부분의 “AI 에이전트”는 진정으로 엔터프라이즈 환경에 적용할 준비가 되어 있지 않습니다. 압박을 받으면 헛소리를 하고, 실제 데이터에서는 작동하지 않으며, SOC 2 감사를 통과할 수 없습니다. 법률, 보안 및 IT 팀이 실제로 승인하고 직원들이 실제로 사용할 AI를 원한다면 엔터프라이즈급 검색(Glean), 강력한 클라우드 기본 요소(AWS) 및 규모에 따라 유지되는 체계적인 아키텍처를 결합한 빌드가 필요합니다.
이 가이드에서는 Glean 및 AWS를 사용하여 엔터프라이즈 환경에 적용할 준비가 된 AI 에이전트를 구축하는 방법을 단계별로 안내합니다. ID 인식 검색에서 보안 도구 사용, 지연 시간 예산에서 관찰 가능성, 파일럿에서 프로덕션까지 다룹니다.
데이터 액세스, 보안, 아키텍처 및 롤아웃과 같이 가장 중요한 부분으로 바로 건너뛸 수 있도록 질문 중심으로 구성됩니다.
엔터프라이즈 환경에 적용할 준비가 된 AI 에이전트란 무엇을 의미할까요?
엔터프라이즈 환경에 적용할 준비가 된 AI 에이전트는 단순한 채팅 인터페이스가 아닙니다. 다음과 같은 기능을 수행할 수 있는 안전하고 감사 가능한 시스템입니다.
- 엄격한 권한 경계를 사용하여 회사 지식을 사용하여 질문에 답변
- 승인된 도구를 통해 작업 수행(예: ServiceNow 티켓, Jira 이슈, Slack 게시물)
- 엔터프라이즈 SSO, SCIM 및 DLP 제어 하에 운영
- 예측 가능한 지연 시간과 비용으로 수천 명의 사용자에게 확장
Glean 및 AWS를 사용하여 AI 에이전트를 구축하는 것이 뛰어난 이유가 바로 여기에 있습니다. Glean은 앱 전반에서 ID 인식 엔터프라이즈 검색 및 검색을 제공하고, AWS는 프로덕션 환경에 필요한 컴퓨팅, 오케스트레이션, 네트워킹 및 거버넌스 기반을 제공합니다.
아키텍처 개요: Glean + AWS
시스템을 4개의 레이어로 생각하십시오.
- ID 및 액세스 레이어(SSO, SCIM, 권한)
- Okta/Azure AD를 통한 SSO, 프로비저닝을 위한 SCIM, 역할 매핑
- Glean은 쿼리 시 문서 수준 권한을 적용합니다.
- AWS Cognito 또는 직접 SAML/OIDC를 사용하여 토큰을 서비스로 브로커링
- Google Drive, Slack, Confluence, Jira, GitHub, Box, Notion 등을 아우르는 통합 인덱스
- 쿼리 재작성, 하이브리드 검색, 시맨틱 재정렬
- 추론 및 오케스트레이션 레이어(AWS + 모델)
- 상태 비저장 에이전트 단계를 위한 AWS Lambda 또는 ECS
- 프론티어 모델에 대한 관리형 액세스를 위한 Amazon Bedrock
- 다중 도구 워크플로 및 재시도를 위한 Step Functions
- 키 및 도구 자격 증명에 대한 Secrets Manager/Parameter Store
- 기록 시스템(ServiceNow, Salesforce, Jira, Slack)에 대한 읽기 및 쓰기 작업
- 모든 도구 호출에 대한 가드레일, 승인 및 관찰
- 설명 가능성을 위한 CloudWatch/OpenSearch의 감사 로그
핵심 빌드: Glean & AWS로 엔터프라이즈 환경에 적용할 준비가 된 AI 에이전트를 구축하는 방법
다음은 실용적인 엔드 투 엔드 경로입니다. 스택에 맞게 조정하되 원칙은 유지하십시오.
1) 먼저 ID 및 거버넌스 설정
- Okta/Azure AD를 통해 SSO를 설정합니다. 그룹/역할을 앱 권한에 매핑합니다.
- 자동화된 사용자 라이프사이클(입사/이동/퇴사)에 SCIM을 사용합니다. 프로비저닝 해제는 에이전트로 계단식으로 이루어져야 합니다.
- 최소 권한 IAM 역할을 사용하여 AWS 계정을 구성합니다. 개발, 스테이징, 프로덕션을 분리합니다. 필요한 경우 Bedrock 및 데이터 반출 제어에 VPC 엔드포인트를 적용합니다.
- 프롬프트, 응답 및 벡터 임베딩을 저장할 기간인 데이터 보존을 정의합니다. 로그 및 아티팩트에 KMS 암호화된 S3 버킷을 사용합니다.
팁: ID를 런타임 신호로 취급합니다. 에이전트는 최종 사용자의 ID를 Glean 및 도구를 통해 전달하여 권한 검사가 손상되지 않도록 해야 합니다.
2) Glean에서 소스를 연결하고 권한 인식 검색 활성화
- 사용량에 따라 Slack, Drive, Confluence, Notion, GitHub, Jira, Box 및 이메일을 연결합니다.
- Glean이 최소 권한으로 크롤링 및 인덱싱하도록 허용합니다. 보안과 함께 범위를 확인합니다.
- 권한 전파 유효성 검사: 사용자는 소스 앱에서 볼 수 있는 것만 검색해야 합니다.
- 더 나은 정확도를 위해 Glean 쿼리 구성을 조정합니다. 쿼리 재작성, 하이브리드 검색 및 시맨틱 재정렬을 활성화합니다.
중요한 이유: 대부분의 기업에서 “환각” 문제의 70~90%는 실제로 검색 문제입니다. Glean을 사용하면 AI 에이전트가 사용자의 권한에 따라 올바른 문서를 검색하여 위험과 관련 없는 답변을 크게 줄입니다.
3) Amazon Bedrock을 통해 모델을 선택하고 가드레일 설정
- 일반 모델(예: Bedrock을 통한 Claude, Llama 또는 Mistral)로 시작하고 도메인 프롬프트에 대해 A/B 테스트를 수행합니다.
- 안전 필터, 프롬프트 주입 검사 및 콘텐츠 정책에 Bedrock Guardrails를 사용합니다.
- 응답 제한: 문서 ID/URL별 인용을 요구하고, 도구 출력에 대한 JSON 스키마를 적용하고, 단계별 최대 토큰 수를 설정합니다.
- 지연 시간 예산 유지: Q&A의 경우 P95 엔드 투 엔드 < 2.5초, 도구 사용 흐름의 경우 < 6초를 목표로 합니다.
4) AWS에서 에이전트 오케스트레이션
패턴: ReAct 스타일 계획 + 도구 사용 + 근거 있는 답변.
- Step Functions를 사용하여 단계 조정: 검색 → 계획 → 도구 → 유효성 검사 → 답변.
- 추론 호출은 Lambda 또는 ECS에서 실행됩니다. 간헐적인 트래픽에는 Lambda를 선택하고, 지속적인 처리량에는 ECS를 선택합니다.
- 도구 어댑터(Jira, Slack, ServiceNow)는 AWS Secrets Manager에 IAM 범위의 비밀이 있는 상태 비저장 Lambda입니다.
- TTL이 있는 DynamoDB에 수명이 짧은 대화 상태를 저장하고, S3/Glue/Athena에 장기 분석을 저장합니다.
5) Glean을 사용한 검색 증강 생성(RAG) 구현
- 사용자의 ID 토큰과 사용자의 질문으로 Glean을 쿼리합니다.
- 권한을 준수하면서 상위 k개 결과(예: 하이브리드: k=10 시맨틱 + 10 키워드)를 검색합니다.
- Glean의 관련성으로 재정렬합니다. 중복 제거된 상위 청크만 모델에 전달합니다.
- 에이전트가 출처를 인용하고 신뢰도 점수를 포함하도록 요구합니다.
프롬프트 골격:
- 시스템: “당신은 근거 있는 엔터프라이즈 도우미입니다. 제공된 컨텍스트만 사용하십시오. 관련이 없으면 후속 질문을 하십시오. 항상 제목과 링크로 출처를 인용하십시오.”
- 도구: “Jira_CreateIssue, Slack_PostMessage, ServiceNow_CreateIncident를 호출할 수 있습니다. 런북에서 자동화를 승인하지 않는 한 사용자와 확인한 후에만 행동하십시오.”
6) 안전한 도구 사용 및 승인 추가
- 각 도구를 매개변수 유효성 검사 및 속도 제한으로 래핑합니다.
- 영향력 있는 작업(예: 액세스 프로비저닝, P1 종료)에 대해 사람의 확인 또는 관리자 승인이 필요합니다.
- CloudWatch 및 S3에 모든 도구 호출(누가, 무엇을, 언제, 입력 스키마, 출력)을 기록하여 감사를 받습니다.
- Slack/Teams 게시물의 경우 보내기 전에 미리 보기를 위한 “초안 모드”를 지원합니다.
7) 관찰 가능성, 평가 및 드리프트 제어
- 필요한 경우 수정하여 프롬프트, 컨텍스트 스니펫, 인용 및 응답을 캡처합니다.
- OpenSearch 대시보드를 사용하여 precision@k, 근거 및 편향률을 모니터링합니다.
- 오프라인 평가 실행: 예상 답변 및 필요한 출처가 있는 100~300개의 조직별 질문으로 구성된 골드 세트를 큐레이팅합니다.
- 커넥터 또는 권한 드리프트(예: 변경된 Slack 채널, 드라이브 마이그레이션)를 감지하도록 카나리아를 예약합니다.
8) 성능 및 비용 조정
- 짧은 TTL로 인기 있는 주제(예: HR 정책)에 대해 사용자별 Glean 쿼리를 캐시합니다.
- 라우팅에는 더 작은 모델을 사용하고, 어려운 쿼리 또는 다중 도구 계획에는 더 큰 모델만 사용합니다.
- 가능한 경우 일괄 재정렬, 컨텍스트 압축, 청크 중복 제거를 사용합니다.
- 해결된 작업당 비용을 추적합니다. 조직별 및 사용자 그룹별 할당량을 설정합니다.
예: Glean 및 AWS로 구축된 엔터프라이즈 IT 도우미
Glean 및 AWS로 엔터프라이즈 환경에 적용할 준비가 된 AI 에이전트를 구축하는 방법을 보여주는 구체적인 시나리오를 살펴보겠습니다.
사용 사례: IT 지원 분류 및 해결.
- 사용자가 묻습니다. “업데이트 후 macOS 14에서 VPN이 실패합니다. 해결 방법이 있습니까?”
- 검색: 사용자의 ID로 Glean을 쿼리하고 VPN 런북(Confluence), #it-support의 Slack 스레드 및 Jamf 정책 문서를 가져옵니다. 사용자가 액세스할 수 있는 리소스만 고려됩니다.
- 계획: 에이전트는 수정 사항 공유, Jamf를 통한 장치 규정 준수 확인, 해결되지 않은 경우 ServiceNow 인시던트 열기 단계를 제안합니다.
- 도구 호출: Jamf 상태(읽기 전용)를 읽고, 수정 메시지를 작성하고, 사용자에게 에스컬레이션 확인을 요청합니다. 확인 후 올바른 템플릿으로 인시던트를 생성합니다.
- 답변: 런북 및 Slack 스레드에 대한 인용과 함께 간결한 수정 요약을 제공합니다. 모든 것은 사용자의 권한 범위 내에 있습니다.
작동 원리: 에이전트는 Glean의 권한 인식 검색에 기반을 두고 있으며 AWS는 실행, 승인 및 로깅을 처리합니다.
보안 및 규정 준수 체크리스트(건너뛰지 마십시오)
- 검색 컨텍스트를 서버 측에 유지합니다. 원시 문서 콘텐츠를 클라이언트에 노출하지 마십시오.
- KMS로 저장 시 암호화합니다. 전송 중에는 TLS 1.2+를 적용합니다.
- 사용자 ID를 Glean 및 도구에 전달합니다. 검색에 공유 봇 ID를 사용하지 마십시오.
- IdP 그룹에서 도구 범위로 RBAC를 매핑합니다.
- Bedrock Guardrails를 활성화합니다. 프롬프트에 비밀이 있는 것을 허용하지 마십시오.
- 필요한 경우 PII를 수정하고 데이터 보존 기간을 문서화합니다.
- Object Lock으로 S3에 변경 불가능한 로그를 저장합니다. SIEM으로 내보냅니다.
- 인시던트 응답 및 모델 롤백을 위한 런북을 유지합니다.
구현 청사진: 프로덕션까지 10단계
- 상위 3가지 에이전트 사용 사례(IT, HR, 영업 운영)와 성공 지표(편향률, CSAT, 해결 시간)를 정의합니다.
- AWS 계정, VPC, IAM 기준선 및 Bedrock 액세스를 설정합니다.
- SSO/SCIM을 통합합니다. 역할 및 승인 흐름을 매핑합니다.
- Glean에서 핵심 소스를 연결하고 권한 인식 검색의 유효성을 검사합니다.
- Step Functions로 최소 오케스트레이션 서비스(Lambda + API Gateway)를 구축합니다.
- RAG 프롬프트 계약, 인용 및 소스 필터링을 구현합니다.
- 두 개의 도구를 엔드 투 엔드로 추가합니다(먼저 읽기 전용, 그런 다음 승인과 함께 쓰기).
- 로깅, 평가 및 대시보드를 계측합니다. 150개의 질문으로 구성된 골드 세트를 만듭니다.
- 50~100명의 사용자로 폐쇄형 베타를 실행합니다. 주요 문제를 해결합니다. SLO를 설정합니다.
- 광범위하게 롤아웃합니다. 주간 변경 검토 및 월간 모델 평가를 설정합니다.
Glean 및 AWS로 AI 에이전트를 구축할 때 자주 묻는 질문
엔터프라이즈 에이전트에서 환각을 줄이는 방법은 무엇입니까?
Glean에서 검색으로 모델을 근거로 하고 엄격한 프롬프트를 적용합니다. 제공된 컨텍스트만 사용하고 항상 출처를 인용하십시오. 낮은 신뢰도의 답변을 거부하고 명확하게 하는 질문을 합니다. 권한 인식 검색에 의존하면 대부분의 환각이 사라집니다.
에이전트가 앱 전반에서 문서 수준 권한을 준수할 수 있습니까?
예. Glean 및 AWS로 AI 에이전트를 구축하면 Glean이 쿼리 시 연결된 앱의 권한을 적용하므로 에이전트는 사용자가 액세스할 수 있는 것만 볼 수 있습니다. 항상 사용자 ID 토큰을 전달하여 관리 체인을 유지하십시오.
AWS에서 어떤 모델로 시작해야 합니까?
여러 모델에 액세스하려면 Amazon Bedrock을 사용하십시오. 추론에는 강력한 일반 모델로 시작하고 라우팅에는 더 작고 빠른 모델로 시작하십시오. 큐레이팅된 골드 세트에 대해 지연 시간, 비용 및 정확도를 평가합니다.
Jira 또는 ServiceNow와 같은 시스템에서 에이전트가 안전하게 작업을 수행하도록 하는 방법은 무엇입니까?
엄격한 스키마, 입력 유효성 검사 및 승인 워크플로로 각 도구를 래핑합니다. 모든 도구 호출을 기록하고 감사를 위해 출력을 저장합니다. 영향력 있는 작업의 경우 사람의 확인 단계를 요구합니다.
에이전트가 프로덕션 환경에 적용할 준비가 되었다는 것을 증명하는 지표는 무엇입니까?
근거(인용률), 답변 정확도, P95 지연 시간, 해결/편향률 및 해결된 작업당 비용을 추적합니다. 대시보드를 구축하고 골드 세트에 대해 주간 회귀 검사를 실행합니다.
참고: 빌드 루프 가속화
주목할 가치가 있습니다. 팀이 자주 프로토타입을 제작하는 경우 연구 및 초안 작성을 위한 코파일럿을 사용하면 설계 문서, 런북 및 프롬프트 반복 속도를 높일 수 있습니다. Sider.AI와 같은 도구는 팀이 긴 스레드를 요약하고, 평가 프롬프트를 작성하고, 모델 출력을 나란히 비교하는 데 도움이 됩니다. Glean 및 AWS로 엔터프라이즈 환경에 적용할 준비가 된 AI 에이전트를 구축하는 방법을 조정할 때 유용합니다. 주요 내용 및 다음 단계
- Glean 및 AWS로 AI 에이전트를 구축하면 ID 인식 검색 및 엔터프라이즈급 오케스트레이션을 얻을 수 있습니다.
- 멋진 계획 논리 전에 ID, 거버넌스 및 권한 인식 검색으로 시작하십시오.
- Bedrock 가드레일, 엄격한 도구 스키마 및 휴먼 인 더 루프 승인을 사용하십시오.
- 모든 것을 계측하십시오. 평가, 감사 및 비용 제어.
이번 주 다음 단계:
- 상위 3가지 사용 사례 및 성공 지표를 작성하십시오.
- Glean에서 두 개의 핵심 소스를 연결합니다. 150개의 질문 평가를 실행합니다.
- 하나의 읽기 전용 도구를 사용하여 최소 Lambda + Step Functions 오케스트레이터를 설정합니다.
- 파일럿이 확장되기 전에 지연 시간 및 비용 예산을 설정하십시오.
FAQ
Q1:AWS에서 AI 에이전트에 대한 엔터프라이즈 환경에 적용할 준비가 되었다는 것은 무엇을 의미합니까?
SSO 및 문서 권한을 준수하고, 인용을 제공하고, 규정 준수 인프라에서 실행되는 안전하고 감사 가능한 에이전트를 의미합니다. Glean 및 AWS로 AI 에이전트를 구축하면 권한 인식 검색 및 클라우드급 관찰 가능성을 얻을 수 있습니다.
Q2:Glean은 AI 답변에서 데이터 유출을 어떻게 방지합니까?
Glean은 쿼리 시 각 연결된 앱의 문서 수준 권한을 적용합니다. 에이전트는 사용자가 액세스할 수 있는 콘텐츠만 검색합니다. 이는 Glean 및 AWS로 엔터프라이즈 환경에 적용할 준비가 된 AI 에이전트를 구축할 때 매우 중요합니다.
Q3:오케스트레이션에 어떤 AWS 서비스를 사용해야 합니까?
실행에는 Lambda 또는 ECS를 사용하고, 다단계 워크플로에는 Step Functions를 사용하고, 모델 및 가드레일에는 Bedrock을 사용하고, 자격 증명에는 Secrets Manager를 사용합니다. 이 스택은 Glean 및 AWS로 AI 에이전트를 구축하기 위한 입증된 기반입니다.
Q4:정확도를 평가하고 환각을 줄이는 방법은 무엇입니까?
질문 골드 세트를 만들고, 인용을 요구하고, 검색 증강 생성을 사용합니다. Glean 및 AWS를 사용하면 권한 인식 검색과 가드레일을 통해 환각을 크게 줄일 수 있습니다.
Q5:AI 에이전트가 티켓 생성 또는 Slack에 게시와 같은 작업을 안전하게 수행할 수 있습니까?
예—스키마 유효성이 검사된 도구, 영향이 큰 작업에 대한 승인 및 전체 감사 로깅을 통해 가능합니다. 이는 Glean 및 AWS로 엔터프라이즈 환경에 적용할 준비가 된 AI 에이전트를 구축할 때 핵심 패턴입니다.