What is AI hallucination in simple terms?

AI hallucination is when a model outputs fluent but false or unsupported information. It often happens when the model isn’t grounded in reliable sources or is asked ambiguous questions.

Does retrieval-augmented generation (RAG) stop hallucinations?

RAG reduces AI hallucination by anchoring answers to documents, but it doesn’t eliminate it. Models can still misread, cherry-pick, or misattribute passages.

How can I make AI stop making things up?

Use evidence-first prompts, require inline citations with quotes, add verification for entities and numbers, and set refusal rules when evidence is missing. A clarifying question step also helps.

What’s the best way to evaluate hallucination risk?

Measure factual precision/recall, citation fidelity, refusal quality, and robustness to ambiguity. Track time-to-correct and add a verifier model or rules for critical facts.

Do larger models hallucinate less?

Larger models generally hallucinate less but not zero. Without grounding, even state-of-the-art systems can produce confident, wrong answers on ambiguous or novel queries.

توضیح توهمات هوش مصنوعی: چرا رخ می‌دهند و چگونه می‌توان آن‌ها را در سال 2025 کاهش داد

هوک: پیشرفته‌ترین هوش مصنوعی هم می‌تواند حرف اشتباه را – با اطمینان – بزند. اگر تابه‌حال دیده‌اید که یک مدل منبعی را جعل می‌کند، ویژگی‌ای غیرموجود را تأیید می‌کند یا نموداری را اشتباه می‌خواند، شاهد توهم (Hallucination) هوش مصنوعی بوده‌اید. در سال ۲۰۲۵، با قدرت‌گرفتن سیستم‌های مولد (Generative) در جستجو، کدنویسی و عملیات تجاری، درک – و کاهش – توهم هوش مصنوعی دیگر اختیاری نیست، بلکه مأموریتی حیاتی است.

سبک نگارش انتخابی: انتقادی و تحقیقی

منظور ما از توهم هوش مصنوعی چیست (و چرا این اصطلاح جا افتاده است)

تعریف کوتاه: توهم هوش مصنوعی زمانی رخ می‌دهد که یک مدل محتوایی را تولید می‌کند که روان و محتمل به نظر می‌رسد، اما از نظر واقعی نادرست یا از نظر منطقی ناسازگار است.

چرا این مشکل پابرجاست: مدل‌های زبانی بزرگ (LLM) محتمل‌ترین توکن بعدی را تولید می‌کنند – نه لزوماً درست‌ترین آن را. بدون زمینه‌سازی (Grounding) (به‌عنوان‌مثال، بازیابی، ابزارها یا تأیید)، احتمال اغلب بر دقت غلبه می‌کند.

دو نوع اصلی توهم

توهم ذاتی (Intrinsic hallucination): مدل اظهارات نادرستی را بدون ارجاع به داده‌های خارجی تولید می‌کند – به‌عنوان‌مثال، جعل تاریخ تاریخی یا طبقه‌بندی نادرست یک مفهوم.

توهم بیرونی (Extrinsic hallucination): مدل به منابع خارجی استناد یا آن‌ها را خلاصه می‌کند، اما اشتباه می‌کند – به‌عنوان‌مثال، نقل‌قول نادرست از یک سند، جعل یک URL یا تفسیر نادرست یک نمودار.

چرا توهم هوش مصنوعی رخ می‌دهد

عدم تطابق هدف: آموزش برای احتمال و مفید بودن توکن بعدی بهینه می‌شود، نه برای حقیقت.

مشکلات داده: داده‌های آموزشی پر سروصدا، قدیمی یا متناقض منجر به الگوهای شکننده می‌شوند.

تعمیم بیش‌ازحد: مدل‌ها با اطمینان فراتر از مرزهای دانش خود تعمیم می‌دهند.

ابهام در Prompt: سؤالات مبهم مدل را تشویق می‌کنند که بداهه پردازی کند.

فقدان زمینه‌سازی (Grounding): بدون بازیابی یا ابزارها، مدل صرفاً به نمایش داخلی خود متکی است.

فشار خروجی: قالب‌های محدود یا بودجه‌های محدود توکن، حذف و تحریف را افزایش می‌دهند.

چه چیزی در سال ۲۰۲۵ تغییر کرده است: ابزارهای بهتر، همان مشکل دشوار

تولید مبتنی بر زمینه‌سازی (Grounded generation) به جریان اصلی تبدیل شده است: تولید تقویت‌شده با بازیابی (RAG) اکنون یک پیش‌فرض برای کارهای واقعی است، اما به‌طور کامل توهم را از بین نمی‌برد. مدل‌ها می‌توانند متن بازیابی‌شده را اشتباه بخوانند یا به‌صورت انتخابی گزینش کنند.

معیارهای جدید، درک دقیق: ارزیابی‌ها به‌طور فزاینده‌ای هم صحت واقعی و هم کیفیت اسناد را اندازه‌گیری می‌کنند و تشخیص می‌دهند که «پاسخ صحیح، منبع اشتباه» همچنان یک شکست برای گردش کار در سطح سازمانی است.

مدل‌های بزرگ‌تر جادو نیستند: مقیاس‌بندی کمک می‌کند، اما درمان قطعی نیست. حتی سیستم‌های پیشرفته نیز در سناریوهای مبهم یا باز، توهم قابل‌توجهی از خود نشان می‌دهند.

چگونه توهم هوش مصنوعی را قبل از رسیدن به کاربران تشخیص دهیم

Prompting با اولویت‌دهی به اسناد: مدل را مجبور کنید تا با ارجاعات خط/بخش به قطعات خاصی استناد کند.

امتیازدهی به شواهد: از مدل بخواهید قدرت شواهد خود را برای هر ادعا ارزیابی کند.

خودآزمایی: مدل را وادار کنید که خروجی خود را از نظر تناقضات یا اظهارات بدون پشتوانه مورد انتقاد قرار دهد.

اجماع بین مدلی: خروجی‌ها را در بین مدل‌های مختلف مقایسه کنید؛ اختلافات را برای بررسی علامت‌گذاری کنید.

تأیید پس از تولید: از تأییدکننده‌های مبتنی بر قانون یا آموخته‌شده برای بررسی موجودیت‌ها، تاریخ‌ها، ریاضیات و پیوندها استفاده کنید.

گردش کار با حضور انسان: خروجی‌های پرخطر (حقوقی، پزشکی، مالی) را به بازبین‌های انسانی هدایت کنید.

یک دفترچه راهنمای عملی برای کاهش توهم هوش مصنوعی

دامنه و محدودیت‌ها

وظیفه را محدود کنید: «فقط با استفاده از اسناد ارائه‌شده پاسخ دهید.»

محدودیت‌های نقش و دامنه را اضافه کنید: «شما یک دستیار مالیاتی برای اظهارنامه‌های فدرال ایالات‌متحده (۲۰۲۳–۲۰۲۵) هستید.»

شرایط امتناع را بیان کنید: «اگر اطمینان < ۰٫۷ باشد یا هیچ مدرک پشتیبانی پیدا نشد، یک سؤال شفاف‌کننده بپرسید یا از پاسخ دادن خودداری کنید.»

بازیابی که واقعاً کمک می‌کند

تنوع Top-k: قطعات متنوع را بازیابی کنید، نه فقط موارد نزدیک به هم.

تقسیم‌بندی مهم است: از قطعات معنادار معنایی (۲۰۰–۸۰۰ توکن) با همپوشانی برای حفظ زمینه استفاده کنید.

رتبه‌بندی مجدد: اسناد بازیابی‌شده را بر اساس سیگنال‌های خاص وظیفه مرتب کنید.

تازگی: یک فهرست با گرایش تازگی برای موضوعات حساس به زمان نگه دارید.

الگوهای تولید مبتنی بر زمینه‌سازی (Grounded generation)

استنادهای درون‌خطی: پس از هر ادعا، یک استناد با نقل‌قول از قطعه درج کنید.

جایگزین‌های زنجیره تفکر: اگر نمی‌توانید از استدلال کامل استفاده کنید، مدل را وادارید «یادداشت‌های شواهد» خصوصی تولید کند که بررسی می‌شوند اما به کاربران نشان داده نمی‌شوند.

ابزارهای گام‌به‌گام: برای مسائل ریاضی یا ساختاریافته، به‌جای متن آزاد، ماشین‌حساب‌ها، موتورهای SQL یا مفسرهای کد را فراخوانی کنید.

تأیید و محافظت‌ها

جداول واقعی: موجودیت‌های نام‌گذاری‌شده، تاریخ‌ها و مقادیر عددی را در برابر APIهای معتبر تأیید کنید.

بررسی‌های تناقض: یک Prompt پیگیری اجرا کنید: «اظهاراتی را فهرست کنید که ممکن است بدون پشتوانه یا متناقض باشند.»

Promptهای Red-team: با عبارت‌بندی خصمانه و موجودیت‌های مشابه، استرس را آزمایش کنید.

استراتژی‌های UX که خطر را کاهش می‌دهند

UX عدم قطعیت: نوارهای اطمینان یا نشان‌های کیفیت را نشان دهید.

بپرس-توضیح بخواه-بپرس: مدل را تشویق کنید قبل از پاسخ دادن به Promptهای مبهم، یک سؤال شفاف‌کننده بپرسد.

افشای تدریجی: پاسخ‌های کوتاه با استنادها و نقل‌قول‌های قابل گسترش ارائه دهید.

تکنیک‌های کاهش خطری که می‌توانید امروز اجرا کنید

تولید تقویت‌شده با بازیابی (RAG): خروجی‌ها را به یک پیکره مورد اعتماد متصل کنید. برای بهبود وفاداری، رتبه‌بندی مجدد و نقل‌قول از قطعه را اضافه کنید.

استفاده از ابزار و فراخوانی تابع: محاسبات حسابی، ریاضیات تاریخ و جستجوهای پایگاه داده را به ابزارهای قطعی واگذار کنید.

نمونه‌برداری خودسازگار: پاسخ‌های کاندیدای متعددی ایجاد کنید و اجماع اکثریت را برای کارهای واقعی انتخاب کنید.

رمزگشایی محدود: از الگوها، طرحواره‌های JSON یا محدودیت‌های regex برای محدود کردن تغییرپذیری خروجی استفاده کنید.

الگوهای مهندسی Prompt: قالب، شرایط امتناع و الزامات شواهد را به‌طور صریح مشخص کنید.

تنظیم دقیق با داده‌های ترجیحی: رفتارهایی مانند استناد به منابع، امتناع در صورت عدم اطمینان و اولویت‌بندی دقت نسبت به روان بودن را تقویت کنید.

تأییدکننده‌های پس از وقوع: طبقه‌بندی‌کننده‌های سبک‌وزن را برای تشخیص توهمات احتمالی و تحریک درخواست‌های مجدد آموزش دهید.

توهم در کجا بیشترین ضربه را می‌زند (مثال‌های صنعتی)

پشتیبانی مشتری: جزئیات نادرست خط‌مشی می‌تواند باعث بازپرداخت یا نقض انطباق شود.

مراقبت‌های بهداشتی: دوز نادرست یا دستورالعمل‌های قدیمی غیرقابل‌قبول است – انسان‌ها باید در این حلقه بمانند.

امور مالی: تفسیر نادرست پرونده‌ها یا جعل داده‌های بازار می‌تواند فاجعه‌بار باشد.

حقوقی: استنادهای نادرست پرونده یا نقل‌قول‌های جعلی برای استفاده حرفه‌ای رد صلاحیت می‌شوند.

آموزش: منابع جعلی اعتماد و نتایج یادگیری را تضعیف می‌کنند.

معماری‌ها و الگوهایی که سطح را بالا می‌برند

بازیابی + استدلال + تأیید (RRV): یک خط لوله سه‌مرحله‌ای – بازیابی، استدلال با شواهد صریح، تأیید.

انتقادات چند عاملی: یک «نویسنده» پیش‌نویس می‌کند؛ یک «واقعیت‌سنج» چالش می‌کند؛ یک «کتابدار» استنادها را بهبود می‌بخشد.

مسیریابی تطبیقی: سؤالات با عدم قطعیت بالا به مدل‌های بزرگ‌تر، بررسی انسانی یا یک ابزار تخصصی می‌روند.

تازگی دانش: همگام‌سازی با CMS، Confluence یا انبارهای داده؛ بی‌اعتبار کردن Embeddingsهای قدیمی در به‌روزرسانی.

ارزیابی سیستم خود (فراتر از دقت ساده)

دقت/بازخوانی واقعی: ادعاها چقدر درست و به‌درستی پشتیبانی می‌شوند؟

وفاداری استناد: آیا استنادها واقعاً از ادعا پشتیبانی می‌کنند و آیا بهترین استنادهای موجود هستند؟

کیفیت امتناع: آیا دستیار در صورت لزوم به‌خوبی از پاسخ دادن خودداری می‌کند؟

مقاومت در برابر ابهام: آیا درخواست توضیحات می‌کند؟

زمان اصلاح: سیستم با چه سرعتی می‌تواند یک اشتباه را در تولید تشخیص داده و اصلاح کند؟

Promptهایی که به‌طور قابل‌اعتمادی توهم را کاهش می‌دهند

«قطعه دقیق را استناد کنید و یک نقل‌قول برای هر ادعا درج کنید.»

«اگر ادعایی با اسناد ارائه‌شده قابل پشتیبانی نیست، «شواهد کافی نیست» را بیان کنید و متوقف شوید.»

«اگر درخواست مبهم است یا پارامتر اصلی را از دست داده است، یک سؤال شفاف‌کننده بپرسید.»

«یک امتیاز اطمینان (۰–۱) برای هر ادعا برگردانید و عواملی را که بر آن تأثیر گذاشته‌اند توضیح دهید.»

اشتباهات رایجی که باید از آن‌ها اجتناب کرد

اعتماد بیش‌ازحد به RAG: بازیابی کمک می‌کند، اما خواندن نادرست همچنان یک خطر است.

پنهان کردن عدم قطعیت: کاربران باید بدانند که مدل چه زمانی مطمئن نیست.

تخلیه زمینه‌ای غول‌پیکر: زمینه بدون ساختار بیش‌ازحد می‌تواند سردرگمی را افزایش دهد.

Promptهای ایستا: Prompt شما باید با شکست‌های واقعی کاربر تکامل یابد.

بدون حلقه بازخورد: بدون تله‌متری، نمی‌بینید که توهمات کجا رخ می‌دهند یا با گذشت زمان بهبود می‌یابند.

شایان‌ذکر است: یک کلاس رو به رشد از دستیاران هوش مصنوعی Promptهای ساختاریافته، بازیابی و محدودیت‌های نقش را برای کاهش توهمات از طریق طراحی یکپارچه می‌کنند. این سیستم‌ها از «هر چیزی را تایپ کنید، هر چیزی را دریافت کنید» به سمت «پاسخ‌های مبتنی بر شواهد با استنادهای واضح» حرکت می‌کنند، که به‌ویژه برای تیم‌هایی که هوش مصنوعی را در گردش کارهای حساس به کار می‌گیرند مفید است.

چک‌لیست عملی برای استقرار در این هفته

استنادهای درون‌خطی را با نقل‌قول برای همه کارهای دانش اضافه کنید.

برای بلیط‌های مبهم، یک سؤال شفاف‌کننده لازم است.

یک گذر تأییدکننده برای موجودیت‌ها، اعداد و تاریخ‌ها معرفی کنید.

از رتبه‌بندهای مجدد در خط لوله RAG خود استفاده کنید و اندازه قطعه را به ۴۰۰–۶۰۰ توکن کاهش دهید.

نرخ‌های امتناع و امتناع مثبت کاذب را برای تنظیم آستانه‌ها ردیابی کنید.

اجماع بین مدلی آزمایشی را برای ۲۰ پرسش پرخطر برتر خود راه‌اندازی کنید.

نکات کلیدی

توهم هوش مصنوعی از بین نمی‌رود – حتی مدل‌های درجه‌یک نیز اشتباهات مطمئنی مرتکب می‌شوند.

زمینه‌سازی، تأیید و امتناع، سه‌گانه عملی برای قابلیت اطمینان هستند.

با این موضوع به‌عنوان یک مسئله مهندسی برخورد کنید: ابزار دقیق، اندازه‌گیری، تکرار.

UX شما باید عدم قطعیت را قابل‌مشاهده و استنادها را درجه‌یک کند.

مراحل بعدی

با یک گردش کار باریک و ارزشمند (به‌عنوان‌مثال، پرسش و پاسخ خط‌مشی) شروع کنید و خروجی‌های مبتنی بر شواهد را اعمال کنید.

یک گذر تأییدکننده و بررسی انسانی برای دامنه‌های حیاتی اضافه کنید.

به‌تدریج گسترش دهید، از تله‌متری برای هدایت Prompt، بازیابی و بهبودهای تأیید استفاده کنید.

سؤالات متداول

س۱: توهم هوش مصنوعی به زبان ساده چیست؟ توهم هوش مصنوعی زمانی است که یک مدل اطلاعات روان اما نادرست یا بدون پشتوانه را خروجی می‌دهد. این اغلب زمانی اتفاق می‌افتد که مدل در منابع قابل‌اعتماد زمینه‌سازی نشده باشد یا سؤالات مبهم پرسیده شود.

س۲: آیا تولید تقویت‌شده با بازیابی (RAG) توهمات را متوقف می‌کند؟ RAG با لنگر انداختن پاسخ‌ها به اسناد، توهم هوش مصنوعی را کاهش می‌دهد، اما آن را از بین نمی‌برد. مدل‌ها همچنان می‌توانند قطعات را اشتباه بخوانند، به‌صورت انتخابی گزینش کنند یا به‌اشتباه نسبت دهند.

س۳: چگونه می‌توانم هوش مصنوعی را از ساختن چیزها بازدارم؟ از Promptهای اولویت‌دهنده شواهد استفاده کنید، استنادهای درون‌خطی را با نقل‌قول لازم کنید، تأیید را برای موجودیت‌ها و اعداد اضافه کنید و در صورت عدم وجود شواهد، قوانین امتناع را تنظیم کنید. یک مرحله سؤال شفاف‌کننده نیز کمک می‌کند.

س۴: بهترین راه برای ارزیابی خطر توهم چیست؟ دقت/بازخوانی واقعی، وفاداری استناد، کیفیت امتناع و مقاومت در برابر ابهام را اندازه‌گیری کنید. زمان اصلاح را ردیابی کنید و یک مدل یا قوانین تأییدکننده برای حقایق حیاتی اضافه کنید.

س۵: آیا مدل‌های بزرگ‌تر کمتر توهم می‌زنند؟ مدل‌های بزرگ‌تر عموماً کمتر توهم می‌زنند، اما نه صفر. بدون زمینه‌سازی، حتی سیستم‌های پیشرفته نیز می‌توانند پاسخ‌های مطمئن و نادرست را در پرسش‌های مبهم یا جدید تولید کنند.