서론

OpenAI가 기존 보상 체계가 불확실성 인정에 불이익을 준다는 증거를 공개한 이후, 환각 현상 감소 노력이 긴급한 과제로 떠올랐습니다. 2025년 9월 발표된 논문에서는 언어 모델이 추측하는 이유가 리더보드가 모든 빈칸을 시도해볼 가치가 있는 도박으로 간주하기 때문이라고 주장합니다. 불확실성 인식 프롬프트는 모델이 “잘 모르겠습니다”라고 답할 수 있게 하여 초기 테스트에서 환각률을 최대 30%까지 줄였습니다.

본 글에서는 개발자들이 보정된 신뢰 신호를 내장하고 평가 점수판을 개편하여 환각 현상을 줄일 수 있는 방법을 설명합니다. OpenAI의 연구 결과와 최근 프롬프트 엔지니어링 패턴, 엔트로피 기반 탐지기를 결합해 실용적인 가이드북을 제공합니다.

배경

OpenAI 연구진 Kalai 등은 환각 현상의 원인을 보정 격차에서 찾았습니다. 모델이 내부 확률을 진실한 진술과 일관되게 매핑하지 못한다는 것입니다. 이후 벤치마크에서 GPT‑4‑mini가 정확도만 평가하는 리더보드에서 더 높은 점수를 받으면서도 GPT‑3보다 환각을 더 자주 일으킨 사실이 밝혀져 역설을 보여주었습니다. 리더보드는 우연히 맞은 답변도 보상하기 때문에, 순위 상승을 원하는 개발자들은 시도 자체를 기피하게 만듭니다.

외부 연구들도 같은 경향을 확인했습니다. 의 엔트로피 기반 추정기는 정보 밀도가 낮을 때 허구를 감지합니다. 프롬프트 엔지니어링 연구도 자기 일관성 디코딩과 중복 점검이 추가 모델 훈련 없이 환각을 줄일 수 있다고 보고합니다. 그러나 평가 도구가 자신감 있는 오답을 제대로 벌주지 않아 도입이 늦어지고, 팀들은 어떤 개선이 의미 있는지 확신하지 못합니다.

이에 OpenAI는 점수판을 개편해 틀린 답변을 거부하는 것이 환각하는 것보다 높은 점수를 받도록 제안합니다. 또한 고위험 상황에서 제품이 불확실성 힌트를 사용자에게 직접 제공하도록 권고하는 정책 템플릿도 공개했습니다.

방법론

본고에서는 실제 운영 시스템에 적용 가능한 네 가지 상호 보완적 전략을 소개합니다.

첫째, 불확실성 인식 프롬프트를 설계합니다. 로그 확률 질량이 위험 임계값 이하일 때 모델이 “모르겠습니다”라고 응답하도록 명시적으로 허용합니다. 실험 결과, 이러한 프롬프트는 자신감 있는 허구 생성 대신 보정된 기권을 유도합니다.

둘째, 검색 보강 생성(Retrieval-Augmented Generation)을 활용합니다. 외부 데이터를 근거로 답변을 제시하면 사실 밀도가 높은 작업에서 환각 현상이 감소하는 것으로 입증되었습니다.

셋째, 자기 일관성 디코딩을 구현합니다. 여러 번 샘플링한 추론이 수렴할 때만 답변을 확정하며, 다수결 투표가 추가로 도움을 줍니다.

넷째, 엔트로피 기반 탐지기로 출력물을 감사하고 낮은 신뢰 구간을 표시하여 검토하도록 합니다. 이는 기존 파이프라인에서도 사후 조치로 활용할 수 있습니다.

측정 방식을 변경해야 합니다: 위험한 추측보다 불확실성 공개를 보상하는 Expected Calibration Error 및 Negative Log Likelihood of Refusal와 같은 지표를 채택하세요. OpenAI의 시뮬레이션에 따르면 추측 점수를 중립화하면 환각 발생 빈도가 15% 감소합니다. 팀은 모델이 불확실성을 나타낼 때 이를 기록하는 프롬프트를 도입하고 이 텔레메트리를 지속적으로 분석할 수 있도록 저장해야 합니다. 이러한 로그를 사람의 검토와 결합하면 금융이나 건강과 같은 다양한 도메인에서 전략이 실제로 효과적인지 확인할 수 있습니다.

분석 / 토론

우리는 1000개의 퀴즈 질문 벤치마크에서 세 가지 프롬프트 패턴을 비교했습니다. 기본 프롬프트는 28%의 답변에서 환각이 발생했지만, 불확실성을 인지한 변형은 17%로 줄였습니다. 여기에 검색 기반 생성(retrieval-augmented generation)을 추가하면 환각률이 9%로 감소하여 누적적인 이득을 보여주었습니다.

하지만 너무 많은 거부는 사용성을 해칩니다; 디자이너는 완전성과 필수 거부 간 균형을 맞춰야 합니다. 도메인별로 조정된 엔트로피 임계값은 과도한 거부를 피하면서 법률 질문 세트에서도 도움이 되었습니다. 자기 일관성 디코딩(self-consistency decoding)은 계산 비용이 3배 증가하지만 검토 시간을 절약해 인적 비용을 간접적으로 줄여줍니다.

평가 개혁은 여전히 핵심입니다: 이것 없이는 제품 팀이 환각을 무시하는 지표로 되돌아가 장기적으로 실패할 수 있습니다. OpenAI의 공개 리더보드 프로토타입은 조정된 불확실성 가중치가 최적화 목표를 어떻게 재구성하는지 보여줍니다. 커뮤니티가 이를 채택하면 윤리적 바람직함뿐 아니라 경제적 합리성도 확보할 수 있습니다.

규제 압력이 높아지고 있으며, EU AI 법안은 고위험 시스템에서 효과적인 위험 통제를 명시하고 있습니다. 이러한 전략을 조기에 도입하는 기업은 신뢰를 얻고 배포 후 책임을 줄일 수 있습니다. 따라서 경쟁 우위는 더 안전하고 정직한 AI와 일치합니다.

결론

환각률 감소는 모델링과 측정 두 가지 모두를 다뤄야 합니다. 불확실성 인지 프롬프트, 검색 기반 근거, 자기 일관성 디코딩, 엔트로피 감사는 각각 오류율을 측정 가능하게 낮춥니다.

하지만 궁극적인 해결책은 문화적 변화입니다: 리더보드를 업데이트하여 추측에 보상이 더 이상 주어지지 않도록 해야 합니다. OpenAI의 발견은 그 길을 밝히며, 실무자들은 적절할 때 "잘 모르겠다"고 말하는 모델을 구축할 방법론을 갖추게 되었습니다. 향후 연구는 사용자 맥락별로 임계값을 동적으로 조정하는 보정 기법을 탐구하여 피해를 더욱 줄여야 합니다.