مقدمه
تلاشها برای کاهش توهمات هوش مصنوعی پس از آنکه OpenAI شواهدی ارائه داد که نشان میدهد روشهای سنتی پاداشدهی، اعتراف به عدم قطعیت را جریمه میکنند، به یک اولویت فوری تبدیل شد. مقاله سپتامبر ۲۰۲۵ آنها بیان میکند که مدلهای زبانی حدس میزنند زیرا رتبهبندیها هر جای خالی را به عنوان یک ریسک قابل قبول در نظر میگیرند. پرامپتهای آگاه به عدم قطعیت که به مدلها اجازه میدهند بگویند «مطمئن نیستم»، در آزمایشهای اولیه تا ۳۰٪ نرخ توهم را کاهش دادهاند.
این مقاله توضیح میدهد که چگونه توسعهدهندگان میتوانند با تعبیه سیگنالهای اطمینان کالیبرهشده و بازنگری در تابلوهای امتیازدهی، این مشکل را کاهش دهند. ما یافتههای OpenAI را با الگوهای جدید مهندسی پرامپت و آشکارسازهای مبتنی بر آنتروپی ترکیب کردهایم تا یک راهنمای عملی بسازیم.
پیشزمینه
محققان OpenAI به رهبری Kalai ریشههای توهم را به شکاف کالیبراسیون نسبت میدهند: مدلها نمیتوانند به طور مداوم احتمالهای داخلی را به جملات صادقانه نگاشت کنند. بنچمارکهای بعدی نشان دادند که GPT-4-mini بیشتر از GPT-3 دچار توهم میشود، حتی با اینکه در رتبهبندیهای مبتنی بر دقت فقط، امتیاز بالاتری کسب کرده بود که این پارادوکس را برجسته میکند. رتبهبندیها هنوز پاسخهای صحیح تصادفی را پاداش میدهند، بنابراین توسعهدهندگانی که مشتاق افزایش رتبه هستند به طور ناخواسته تلاش برای اعتراف به عدم قطعیت را کاهش میدهند.
مطالعات خارجی نیز همین الگو را تایید میکنند؛ برآوردگرهای مبتنی بر آنتروپی Nature هنگام پایین بودن چگالی اطلاعات، توهمات را نشان میدهند. پژوهشهای مهندسی پرامپت نیز اشاره میکنند که رمزگشایی خودسازگار همراه با بررسی افزونگی میتواند بدون آموزش اضافی مدل موثر باشد. با این حال، پذیرش این روشها کم است زیرا مجموعههای ارزیابی به ندرت اشتباهات مطمئن را جریمه میکنند و تیمها را در تشخیص بهبودهای واقعی سردرگم میگذارند.
بنابراین OpenAI پیشنهاد میکند که تابلوهای امتیازدهی اصلاح شوند تا امتناع از پاسخ نادرست امتیاز بالاتری نسبت به توهم دادن کسب کند. آنها همچنین یک قالب سیاست منتشر کردهاند که محصولات را تشویق میکند در موقعیتهای پرخطر نشانههای عدم قطعیت را مستقیماً به کاربران نشان دهند.
روششناسی
ما چهار تاکتیک مکمل را برای استفاده در سیستمهای تولیدی شرح میدهیم.
اول، پرامپتهای آگاه به عدم قطعیت طراحی کنید: به طور صریح به مدل اجازه دهید زمانی که جرم احتمال لگاریتمی زیر یک آستانه ریسک است پاسخ «نمیدانم» بدهد. آزمایشها نشان میدهند که چنین پرامپتهایی با تشویق امتناع کالیبرهشده به جای ساختن پاسخهای مطمئن اما نادرست، توهم را کاهش میدهند.
دوم، از تولید تقویتشده با بازیابی استفاده کنید؛ پایهگذاری پاسخها بر دادههای خارجی در وظایف با حجم اطلاعات بالا اثبات شده است.
سوم، رمزگشایی خودسازگار را پیادهسازی کنید که در آن چندین استدلال نمونهبرداریشده باید پیش از تعهد به پاسخ، همگرا شوند؛ رایگیری اکثریت نیز کمک میکند.
چهارم، خروجیها را با آشکارسازهای مبتنی بر آنتروپی ممیزی کرده و بخشهای کماطمینان را برای بازبینی علامتگذاری کنید؛ این روشی پس از اجرا است که حتی در خطوط لوله قدیمی نیز قابل استفاده است.
باید معیارها تغییر کنند: استفاده از معیارهایی مانند خطای کالیبراسیون مورد انتظار و احتمال لگاریتمی منفی امتناع که افشای عدم قطعیت را به جای حدسهای پرریسک تشویق میکنند. شبیهسازی OpenAI نشان میدهد که پس از خنثیسازی امتیازهای حدس، میزان توهم 15٪ کاهش مییابد. تیمها باید پرامپتها را طوری طراحی کنند که هنگام نشان دادن عدم قطعیت توسط مدلها، ثبت وقایع انجام شود و این دادهها برای تحلیل مداوم ذخیره گردد. ترکیب این ثبتها با بازبینی انسانی در حلقه، نشان میدهد که آیا این استراتژیها در حوزههایی مانند مالی یا سلامت واقعاً مؤثر هستند یا خیر.
تحلیل / بحث
ما سه الگوی پرامپت را روی یک بنچمارک شامل 1000 سوال عمومی مقایسه کردیم. یک پرامپت ساده 28٪ پاسخها را توهمزده کرد، در حالی که نسخه آگاه به عدم قطعیت این میزان را به 17٪ کاهش داد. افزودن تولید تقویتشده با بازیابی، نرخ را به 9٪ رساند که نشاندهنده افزایشهای قابل ترکیب است.
با این حال، امتناعهای بیش از حد به کارایی آسیب میزند؛ طراحان باید بین کامل بودن پاسخها و ضرورت امتناع تعادل برقرار کنند. آستانههای آنتروپی که به ازای هر حوزه تنظیم شدهاند، از امتناعهای بیش از حد جلوگیری کرده و همچنان در مجموعه سوالات حقوقی مفید بودند. رمزگشایی خودثباتی هزینه محاسباتی سه برابری داشت اما زمان نظارت را کاهش داد و به طور غیرمستقیم به تیمها با هزینه انسانی کمتر کمک کرد.
اصلاح ارزیابی همچنان کلید اصلی است: بدون آن، تیمهای محصول ممکن است به معیارهایی بازگردند که توهمها را نادیده میگیرند و در نتیجه در بلندمدت شکست میخورند. نمونه اولیه جدول امتیازات عمومی OpenAI نشان میدهد که چگونه وزندهی به عدم قطعیت کالیبره شده، اهداف بهینهسازی را تغییر میدهد. پذیرش این رویکرد توسط جامعه، آن را از نظر اقتصادی منطقی و نه صرفاً اخلاقی میکند.
فشارهای قانونی در حال افزایش است؛ قانون هوش مصنوعی اتحادیه اروپا به طور صریح کنترلهای ریسک را که در سیستمهای پرخطر مؤثر هستند، ذکر میکند. شرکتهایی که این استراتژیها را زودتر اجرا کنند، از مزایای اعتماد بهرهمند شده و مسئولیتهای پس از استقرار را کاهش میدهند. بنابراین مزیت رقابتی با هوش مصنوعی ایمنتر و صادقانهتر همسو است.
نتیجهگیری
کاهش نرخ توهم نیازمند پرداختن به هر دو جنبه مدلسازی و اندازهگیری است. پرامپتهای آگاه به عدم قطعیت، پایهگذاری بازیابی، رمزگشایی خودثباتی و ممیزیهای آنتروپی هرکدام به شکل قابل اندازهگیری نرخ خطا را کاهش میدهند.
اما راهحل نهایی فرهنگی است: جدولهای امتیازات را بهروزرسانی کنید تا حدس زدن دیگر تشویق نشود. یافتههای OpenAI مسیر را روشن میکند؛ متخصصان اکنون روششناسی ساخت مدلهایی را دارند که در مواقع مناسب میگویند «مطمئن نیستم». تحقیقات آینده باید به کالیبراسیون پویا بپردازد که آستانهها را بر اساس زمینه کاربر تنظیم کرده و آسیب را بیشتر کاهش دهد.
سؤالات متداول
س1: سریعترین راه برای کاهش توهمهای هوش مصنوعی در یک چتبات تولیدی چیست؟
پرامپتهای آگاه به عدم قطعیت را پیادهسازی کنید که اجازه امتناع میدهند و آنها را با تولید تقویتشده با بازیابی ترکیب کنید؛ این ترکیب میتواند توهمها را بیش از نصف کاهش دهد.
س2: معیارهای کالیبراسیون چگونه به کاهش توهمهای هوش مصنوعی کمک میکنند؟
معیارهایی مانند خطای کالیبراسیون مورد انتظار، مدلها را برای صداقت در عدم قطعیت پاداش میدهند، بهینهسازی را با حقیقتگویی همسو کرده و نرخ توهم را کاهش میدهند.
س3: آیا رمزگشایی خودثباتی همیشه توهمهای هوش مصنوعی را کاهش میدهد؟
بله، رأیگیری اکثریت در مسیرهای استدلال معمولاً فرکانس توهم را کاهش میدهد، اگرچه هزینه محاسباتی را افزایش میدهد.
سؤال ۴: آیا اصلاح جدول امتیازات واقعاً باعث کاهش توهمات هوش مصنوعی در کل صنعت خواهد شد؟
شبیهسازیها نشان میدهند که با حذف پاداش برای حدس زدن، کاهش ۱۵ درصدی رخ میدهد که نشاندهنده بهبودهای سیستماتیک با تغییر جدول امتیازات است.
سؤال ۵: آیا درخواستهای آگاه به عدم قطعیت میتوانند تجربه کاربری را تحت تأثیر منفی قرار دهند؟
ردهای بیش از حد میتواند کاربران را ناامید کند، اما تعیین آستانههای آنتروپی متعادل، تعادلی بین مفید بودن و ایمنی ایجاد میکند.