What are the most important guardrails for AI agents?

Start with clear policy rules, least-privilege tool permissions, PII redaction, budget caps, and safety filters. Add human-in-the-loop approvals for high-risk actions and full observability to detect issues early.

How do you evaluate AI agent performance effectively?

Combine offline golden datasets and adversarial tests with online A/B tests and shadow mode. Track task success, safety violations, cost per task, latency, and user feedback for a complete view.

How can I prevent AI agents from hallucinating?

Use retrieval from curated sources, require citations, and implement self-check or verifier models. Set schema validation and conservative defaults when confidence is low.

When should a human review an AI agent’s work?

Route high-risk actions—funds movement, policy exceptions, sensitive communications—to human approval. You can relax thresholds over time as metrics stabilize.

What tools help set guardrails and monitor agents?

You’ll need policy-as-code configs, schema validators, safety classifiers, and tracing dashboards. Platforms like [Sider.AI](https://sider.ai) can centralize permissions, budget caps, and step-by-step traces to speed safe deployment.

AI 에이전트의 가드레일 설정 및 성능 평가 방법

안전하고 신뢰할 수 있는 AI 에이전트를 위한 실용적인 청사진

자율적인 AI 에이전트가 작업을 자신 있게 실행하고, 도구를 가동하고, 고객에게 메시지를 보낸다고 상상해 보세요. 그러다가 갑자기 단계를 잘못 인지하거나, API 예산을 초과하거나, 민감한 데이터 조각을 유출합니다. 버그 보고서 하나 때문에 기능을 롤백하고 어려운 질문에 답해야 합니다.

가드레일은 이러한 상황을 방지하는 방법입니다. 성능 평가는 이를 증명하는 방법입니다.

이 가이드에서는 몇 달이 아닌 몇 주 안에 배포할 수 있는 시스템을 통해 AI 에이전트의 가드레일을 설정하고 성능을 평가하는 방법을 보여줍니다. 정책, 런타임 제어, 오프라인 및 온라인 평가, 그리고 에이전트가 위험 범위 내에서 개선을 유지하도록 하는 피드백 루프에 대해 다룰 것입니다.

체크리스트, 예제 및 스택에 맞게 조정할 수 있는 템플릿을 사용하여 실용적이고 솔루션 지향적인 접근 방식을 사용할 것입니다.

AI 에이전트에 대한 "가드레일"은 실제로 무엇을 의미할까요?

가드레일은 합법적인 작업을 막지 않으면서 AI 에이전트가 할 수 있거나, 말할 수 있거나, 지출할 수 있는 것을 제한하는 명시적인 정책, 제약 조건 및 런타임 메커니즘입니다. 다음과 같은 조합이라고 생각하세요:

정책: 허용되거나 허용되지 않는 것 (예: PII 처리, 지출 제한, 브랜드 보이스, 도구 사용 범위).

실행: 해당 규칙을 구현하는 방법 (예: 콘텐츠 필터, 도구 권한 부여, 지출 상한).

관찰 가능성: 위반을 감지하는 방법 (예: 로깅, 추적, 안전 플래그).

개선: 규칙이 위반되었을 때 발생하는 일 (예: 롤백, 사람 승인, 사고 알림).

AI 에이전트에 대한 가드레일을 설정할 때 사용자 신뢰, 법적 준수 및 브랜드 무결성을 우선시하는 안전망을 설계하는 동시에 처리량을 높게 유지합니다.

7계층 가드레일 스택 (정책에서 런타임까지)

한 계층의 오류가 연쇄적으로 발생하지 않도록 이 계층화된 접근 방식을 사용하세요.

정책 및 의도 계층

목적과 경계 정의: 에이전트의 목적과 목적이 아닌 것.

짧고 테스트 가능한 정책 설명을 작성합니다. 예: "에이전트는 내부 티켓 ID를 고객에게 공개해서는 안 됩니다."

정책을 규정(PII에 대한 GDPR/CCPA, 로깅에 대한 SOC 2 제어, 부문별 규칙)에 매핑합니다.

ID 및 권한

각 에이전트에 고유한 서비스 ID를 할당합니다.

도구 권한 범위 (최소 권한 원칙): 읽기 전용 vs. 쓰기 vs. 관리자.

자격 증명을 로테이션합니다. 보안 관리자에 저장합니다.

고위험 작업(환불, 코드 배포)에 대한 명시적 기능 부여를 요구합니다.

데이터 액세스 및 수정

데이터 소스에 대한 허용 목록을 구현합니다. 정당한 이유가 없으면 원시 프로덕션 데이터베이스를 차단합니다.

수집 및 사전 출력 시 PII를 수정합니다.

비밀 (키, 토큰)을 마스킹하고 결정적 수정을 사용하여 로그를 유용하게 유지합니다.

검색 필터 적용: 시간 범위, 네임스페이스, 민감도 태그.

프롬프트 및 도구 사용 제약 조건

시스템 프롬프트: 정책을 명확하고 테스트 가능한 용어로 인코딩합니다 ("검증되지 않은 의학적 조언을 제공하지 마십시오").

도구 스키마: 입력 및 출력 유효성 검사 (JSON 스키마, enum 제약 조건).

예산 상한: 작업당 토큰, 시간 및 비용 상한; 폭주 루프에 대한 회로 차단기.

위험한 작업에 대한 반영 및 비판 단계 (작업 전 자체 점검).

콘텐츠 및 안전 필터

사전 및 사후 생성 분류: 독성, PII, 환각 위험, 브랜드 스타일.

민감한 주제(금융, 건강, 법률)에 대한 규칙 기반 폴백.

사람의 검토가 필요한 워터마크 출력.

사람 개입 루프 (HITL) 체크포인트

고위험 작업을 승인 대기열로 라우팅합니다.

검토자에게 구조화된 루브릭 (정확성, 어조, 규정 준수)을 제공합니다.

부분 승인(수정 승인, 환불 거부)을 지원합니다.

검토자 결정을 기록하여 나중에 더 나은 자동 승인을 훈련합니다.

관찰 가능성, 경고 및 사고 대응

입력, 출력 및 대기 시간으로 모든 도구 호출을 추적합니다.

이벤트 태그: policy_violation, safety_flag, override, customer_escalation.

지출 급증, 루프 스톰 및 반복된 거부에 대한 실시간 경고.

롤백 및 커뮤니케이션 템플릿이 포함된 사고 플레이북.

서류에서 프로덕션으로: 가드레일 설정 체크리스트

에이전트 목표와 목표가 아닌 것을 한 페이지에 정의합니다.

정책을 프롬프트 지침 및 도구 제약 조건으로 변환합니다.

검색 및 출력을 위한 데이터 필터 및 PII 수정 기능을 구축합니다.

예산 설정: 최대 토큰, 단계당 최대 도구, 작업당 최대 총 비용.

콘텐츠 필터 및 브랜드 스타일 검사를 추가합니다.

고위험 범주에 HITL을 요구합니다.

관찰 가능성 구현: 로그, 추적, 대시보드.

사고 플레이북 및 당직 경고를 만듭니다.

적대적 테스트를 실행합니다. 격차를 수정합니다. 출시 전에 다시 실행합니다.

AI 에이전트 성능 평가: 오프라인 및 온라인

측정하지 않으면 관리할 수 없습니다. 개발 수명 주기에 평가를 구축합니다.

1) 출시 전에 성공 지표 정의

작업 성공률: 에이전트가 목표를 완료했습니까?

첫 번째 패스 정확도: 검토 없이 초기 출력이 정확했습니까?

안전/규정 준수 점수: 1,000회 상호 작용당 위반 횟수.

성공적인 작업당 비용: 성공당 토큰 + 도구.

해결 대기 시간: 워크플로를 완료하는 데 걸리는 시간.

고객 경험: CSAT, 유용성, 에스컬레이션 비율.

환각 비율: 벤치마크 세트에서 100개 답변당 잘못된 사실 수.

2) 오프라인 (사전 프로덕션) 평가

골든 데이터 세트: ground-truth 답변이 있는 대표적인 작업을 큐레이팅합니다.

합성 에지 케이스: 적대적 프롬프트, 프롬프트 주입, 도구 오용.

프롬프트에 대한 단위 테스트: 회귀가 명확하도록 스냅샷 테스트.

도구 시뮬레이션: 외부 시스템을 스텁하여 매개변수 유효성 검사 및 재시도를 확인합니다.

정책 감사: 자신의 규칙에 대한 레드 팀.

출력 루브릭: 정확성, 어조 및 규정 준수에 대한 일관된 채점.

채점 접근 방식: 교정된 경우에만 자동화된 메트릭(스키마 유효성, PII 존재)과 LLM-as-judge를 혼합하여 사용합니다. 합의가 높을 때까지 항상 사람과 함께 스폿 검사를 수행합니다.

3) 온라인 (출시 후) 평가

섀도우 모드: 에이전트 초안; 사람이 결정합니다. 델타를 비교합니다.

A/B 테스트: 가드레일 변형 (엄격 vs. 허용) 및 프롬프트 버전.

인터리빙: 세션 내에서 대체 전략을 사용하여 미묘한 승리를 감지합니다.

카나리아 릴리스: 엄격한 모니터링으로 세션의 1–5%로 롤아웃합니다.

피드백 캡처: 찬성/반대, 빠른 태그 (잘못됨, 브랜드에서 벗어남, 안전하지 않음).

반사실적 로그: 재현할 수 있도록 실패한 세션에 대한 전체 추적을 저장합니다.

생산성을 저해하지 않는 가드레일 설계

과잉하기 쉽습니다. 목표는 비례 제어입니다. 위험이 높은 곳에서는 강력한 보호, 위험이 낮은 곳에서는 가벼운 터치입니다.

위험 계층 작업: 영향별로 작업 분류 (예: 계층 3 = 공개 콘텐츠; 계층 1 = 자금 이동). 계층이 증가함에 따라 더 강력한 가드레일을 적용합니다.

점진적 공개: 에이전트가 신뢰성을 입증함에 따라 더 많은 기능 잠금 해제.

적응형 임계값: 이상 급증 시 필터를 강화합니다. 안정될 때 완화합니다.

스마트 거부: 딱딱한 "안 돼" 대신 대안을 제시합니다.

캐싱 및 검색: 신뢰할 수 있는 검색 및 단기 메모리를 통해 환각을 줄입니다.

비용 인식 계획: 초안 작성에는 더 저렴한 모델을 권장합니다. 최종화에는 더 높은 품질의 모델을 사용합니다.

도메인별 구체적인 예

고객 지원 에이전트:

가드레일: 지식 베이스 검색으로 제한; PII 수정; 법률/의학적 조언 차단; 환불 >$50에 대한 HITL.

평가: 해결률, 첫 번째 응답 시간, 에스컬레이션율, 정책 위반율.

영업 아웃리치 에이전트:

가드레일: 브랜드 보이스 및 규정 준수 텍스트 시행; 전송 조절; 도메인 허용 목록; 옵트 아웃 존중.

평가: 답장률, 자격 있는 회의 예약, 스팸 불만, 구독 취소.

코딩 에이전트:

가드레일: 테스트 통과 시까지 읽기 전용; 샌드박스 실행; 종속성 허용 목록; 라이선스 스캐너.

평가: 테스트 통과율, PR당 검토 의견, 보안 결과, 빌드 시간.

데이터 분석가 에이전트:

가드레일: 매개변수화된 쿼리, 행 수준 보안, PII 마스킹, 시간 창 필터.

평가: 쿼리 비용, 골드 노트북 대비 정확성, 출력 재사용성.

프로덕션에서 작동하는 패턴

정책으로서의 시스템 프롬프트: 짧고 번호가 매겨지고 테스트 가능하게 유지합니다. 예: "1) 제공된 도구만 사용하십시오. 2) 내부 ID를 절대 공개하지 마십시오. 3) 요구 사항이 모호한 경우 한 번 명확한 설명을 요청하십시오."

JSON 우선 출력: 실패 시 자동 재시도가 있는 유효성 검사기가 시행하는 엄격한 스키마.

예산 봉투: 백오프 및 소진 시 요약이 포함된 단계별 및 에피소드별 상한.

듀얼 모델: 빠른 모델 초안 작성; 신뢰할 수 있는 모델이 확인하고 편집합니다.

도구 호출 회의론: 에이전트가 실행 전에 고위험 작업에 대해 자체적으로 정당화하도록 요구합니다.

재생 하네스: 각 변경 후 과거 실패를 다시 실행합니다. 회귀가 해결된 경우에만 배송합니다.

검색 및 메모리를 위한 가드레일

진실 소스 선택: 원시 웹 결과보다 큐레이팅된 코퍼스를 선호합니다.

속성 요구 사항: 에이전트에게 출처를 인용하거나 추적 가능한 ID를 제공하도록 요청합니다.

최신성 창: 시간에 민감한 답변에 대해 N일 이내에 업데이트된 문서로 제한합니다.

메모리 TTL: 오래되거나 과적합된 동작을 방지하기 위해 세션 메모리를 자동으로 만료합니다.

주입 방어: 검색된 콘텐츠에서 지침을 제거합니다. 콘텐츠 구분 기호 및 서명된 컨텍스트를 사용합니다.

중단 없이 안전 측정

안전 스코어카드: 주간 롤업—PII 사고, 차단된 작업, 재정의, 환불 반전.

목표 설정: 메트릭당 임계값 설정 (예: 세션 1k당 <0.1% PII 유출).

근본 원인 검토: 심각한 사건의 경우 프롬프트, 도구 또는 권한을 업데이트한 다음 다시 테스트합니다.

심각도 단독이 아닌 결과: 드물게 큰 금지보다 작고 잦은 수정 사항을 선호합니다.

도구 제안 (구축 vs. 구매)

정책으로서의 코드: 규칙에 구성 파일을 사용하여 버전을 지정하고, 검토하고, 롤백할 수 있습니다.

유효성 검사 계층: 도구에 대한 JSON 스키마 유효성 검사기, 유형 가드 및 계약 테스트.

안전 분류기: PII 및 독성에 대한 경량 텍스트 분류기; 규칙 목록과 결합합니다.

추적 및 분석: 스팬, 오류, 비용 및 사용자 피드백을 중앙 집중화합니다.

평가 하네스: 대시보드 및 차이 비교가 포함된 골든 세트용 배치 실행기.

HITL 콘솔: 루브릭으로 대기열에 넣고, 승인하고, 주석을 답니다.

참고: 프로토타입을 제작 중이고 에이전트를 가동하고, 가드레일을 적용하고, 추적을 검토할 수 있는 한 곳을 원한다면 Sider.AI가 워크플로를 간소화할 수 있습니다. 덧붙여서 팀은 이를 사용하여 도구 권한을 구성하고, 예산 상한을 설정하고, 단계별 추론 추적을 검사하고, 안전한 출시 시간을 단축하는 병렬 평가를 실행합니다.

이번 주에 가드레일을 설정하는 단계별 템플릿

1–2일차: 범위 및 정책

에이전트의 미션과 목표가 아닌 것을 작성합니다.

8–12개의 가드레일 규칙 초안을 작성합니다. 도구 및 프롬프트에 매핑합니다.

위험 계층 및 HITL 경계를 결정합니다.

3–4일차: 컨트롤 구현

데이터 필터링 및 수정 기능을 추가합니다.

도구 입력/출력에 대한 JSON 스키마를 인코딩합니다.

예산 상한 및 회로 차단기를 추가합니다.

안전 및 브랜드 스타일 검사를 통합합니다.

5일차: 관찰 가능성 및 테스트

추적 및 비용 대시보드를 켭니다.

에지 케이스가 있는 100–300개 항목 골든 세트를 구축합니다.

적대적 테스트를 실행합니다. 위반을 수정합니다.

사고 플레이북을 만듭니다.

2주차: 파일럿

섀도우 모드로 배송합니다.

피드백을 수집합니다. 더 엄격한 필터와 더 느슨한 필터를 A/B 테스트합니다.

프롬프트, 임계값 및 HITL 경로를 조정합니다.

카나리아 롤아웃으로 확장합니다.

피해야 할 일반적인 안티 패턴

키 규칙을 묻어버리는 너무 긴 시스템 프롬프트.

무한 도구 권한 ("*는 무엇이든 호출할 수 있습니다").

로그에 원시 PII 저장.

교정 없이 "LLM-as-judge"에만 의존.

위험한 작업에 대한 골든 세트 커버리지 없음.

사고 플레이북 없이 배송.

빠른 참조: 샘플 가드레일 정책

목적: 청구 질문에 대한 고객 지원 전환. 목표가 아닌 것: 법률, 의료 또는 HR 조언. 규칙:

KB 및 청구 API만 사용하십시오. 원시 사용자 테이블을 쿼리하지 마십시오.

명시적으로 요청한 경우 계정 ID의 마지막 4자리를 제외한 모든 PII를 출력에서 수정하십시오.

$50 이상의 환불에는 사람의 승인이 필요합니다.

내부 티켓 ID를 절대 공개하지 마십시오.

확실하지 않은 경우 답변하기 전에 명확하게 하는 질문을 하나 하십시오.

정책 답변에 대한 KB 기사 ID를 인용하십시오.

3번의 도구 호출 후 중지하십시오. 해결되지 않으면 요약하고 에스컬레이션하십시오.

안전 또는 규정 준수 필터가 트리거되면 중단하십시오.

메트릭: 해결률 ≥ 75%, 정책 위반 ≤ 0.1%/1k 세션, 평균 비용 ≤ 해결된 티켓당 $0.08.

함께 가져오기: 제어, 신뢰 및 지속적인 학습

훌륭한 AI 에이전트는 똑똑할 뿐만 아니라 예측 가능합니다. AI 에이전트에 대한 가드레일을 설정하고 성능을 평가하면 경계를 정의하고, 결과를 측정하고, 학습하고, 재배포하는 긴밀한 루프를 만듭니다. 주의 테이프가 아닌 자신감을 가지고 배송하기 때문에 더 빠르게 움직일 수 있습니다.

다음 단계:

오늘 코드 파일로 정책을 시작하십시오. 200줄 미만으로 유지하십시오.

30개의 적대적 프롬프트가 있는 첫 번째 150개 케이스 골든 세트를 구축하십시오.

다음 릴리스 전에 예산 상한 및 도구 스키마를 추가하십시오.

섀도우 모드와 명확한 A/B 가설로 파일럿하십시오.

안전 스코어카드를 매주 검토하고 메트릭이 안정화되면 수동 검사를 중단하십시오.

주요 내용:

레이어 가드레일: 정책 → 권한 → 데이터 → 도구 → 필터 → HITL → 관찰 가능성.

성공, 안전, 비용, 대기 시간 및 경험과 같이 중요한 것을 측정합니다.

위험 계층 및 점진적 기능으로 안전과 속도의 균형을 맞추십시오.

평가를 게이트가 아닌 피드백 엔진으로 취급하십시오.

FAQ

Q1: AI 에이전트에 대한 가장 중요한 가드레일은 무엇입니까? 명확한 정책 규칙, 최소 권한 도구 권한, PII 수정, 예산 상한 및 안전 필터로 시작하십시오. 고위험 작업에 대한 사람 개입 루프 승인을 추가하고 문제를 조기에 감지하기 위해 완전한 관찰 가능성을 추가하십시오.

Q2: AI 에이전트 성능을 효과적으로 평가하는 방법은 무엇입니까? 오프라인 골든 데이터 세트 및 적대적 테스트와 온라인 A/B 테스트 및 섀도우 모드를 결합하십시오. 작업 성공, 안전 위반, 작업당 비용, 대기 시간 및 사용자 피드백을 추적하여 전체적인 시각을 확보하십시오.

Q3: AI 에이전트가 환각하는 것을 방지하려면 어떻게 해야 합니까? 큐레이팅된 소스에서 검색을 사용하고, 인용을 요구하고, 자체 점검 또는 검증기 모델을 구현하십시오. 신뢰도가 낮을 때 스키마 유효성 검사 및 보수적인 기본값을 설정하십시오.

Q4: 사람이 AI 에이전트의 작업을 검토해야 하는 시기는 언제입니까? 고위험 작업(자금 이동, 정책 예외, 민감한 통신)을 사람 승인으로 라우팅하십시오. 메트릭이 안정화됨에 따라 시간 경과에 따라 임계값을 완화할 수 있습니다.

Q5: 가드레일을 설정하고 에이전트를 모니터링하는 데 도움이 되는 도구는 무엇입니까? 코드 구성, 스키마 유효성 검사기, 안전 분류기 및 추적 대시보드로서의 정책이 필요합니다. Sider.AI와 같은 플랫폼은 권한, 예산 상한 및 단계별 추적을 중앙 집중화하여 안전한 배포를 가속화할 수 있습니다.