مقدمه

تلاش‌ها برای کاهش توهمات هوش مصنوعی پس از آنکه OpenAI شواهدی ارائه داد که نشان می‌دهد روش‌های سنتی پاداش‌دهی، اعتراف به عدم قطعیت را جریمه می‌کنند، به یک اولویت فوری تبدیل شد. مقاله سپتامبر ۲۰۲۵ آنها بیان می‌کند که مدل‌های زبانی حدس می‌زنند زیرا رتبه‌بندی‌ها هر جای خالی را به عنوان یک ریسک قابل قبول در نظر می‌گیرند. پرامپت‌های آگاه به عدم قطعیت که به مدل‌ها اجازه می‌دهند بگویند «مطمئن نیستم»، در آزمایش‌های اولیه تا ۳۰٪ نرخ توهم را کاهش داده‌اند.

این مقاله توضیح می‌دهد که چگونه توسعه‌دهندگان می‌توانند با تعبیه سیگنال‌های اطمینان کالیبره‌شده و بازنگری در تابلوهای امتیازدهی، این مشکل را کاهش دهند. ما یافته‌های OpenAI را با الگوهای جدید مهندسی پرامپت و آشکارسازهای مبتنی بر آنتروپی ترکیب کرده‌ایم تا یک راهنمای عملی بسازیم.

پیش‌زمینه

محققان OpenAI به رهبری Kalai ریشه‌های توهم را به شکاف کالیبراسیون نسبت می‌دهند: مدل‌ها نمی‌توانند به طور مداوم احتمال‌های داخلی را به جملات صادقانه نگاشت کنند. بنچمارک‌های بعدی نشان دادند که GPT-4-mini بیشتر از GPT-3 دچار توهم می‌شود، حتی با اینکه در رتبه‌بندی‌های مبتنی بر دقت فقط، امتیاز بالاتری کسب کرده بود که این پارادوکس را برجسته می‌کند. رتبه‌بندی‌ها هنوز پاسخ‌های صحیح تصادفی را پاداش می‌دهند، بنابراین توسعه‌دهندگانی که مشتاق افزایش رتبه هستند به طور ناخواسته تلاش برای اعتراف به عدم قطعیت را کاهش می‌دهند.

مطالعات خارجی نیز همین الگو را تایید می‌کنند؛ برآوردگرهای مبتنی بر آنتروپی Nature هنگام پایین بودن چگالی اطلاعات، توهمات را نشان می‌دهند. پژوهش‌های مهندسی پرامپت نیز اشاره می‌کنند که رمزگشایی خودسازگار همراه با بررسی افزونگی می‌تواند بدون آموزش اضافی مدل موثر باشد. با این حال، پذیرش این روش‌ها کم است زیرا مجموعه‌های ارزیابی به ندرت اشتباهات مطمئن را جریمه می‌کنند و تیم‌ها را در تشخیص بهبودهای واقعی سردرگم می‌گذارند.

بنابراین OpenAI پیشنهاد می‌کند که تابلوهای امتیازدهی اصلاح شوند تا امتناع از پاسخ نادرست امتیاز بالاتری نسبت به توهم دادن کسب کند. آنها همچنین یک قالب سیاست منتشر کرده‌اند که محصولات را تشویق می‌کند در موقعیت‌های پرخطر نشانه‌های عدم قطعیت را مستقیماً به کاربران نشان دهند.

روش‌شناسی

ما چهار تاکتیک مکمل را برای استفاده در سیستم‌های تولیدی شرح می‌دهیم.

اول، پرامپت‌های آگاه به عدم قطعیت طراحی کنید: به طور صریح به مدل اجازه دهید زمانی که جرم احتمال لگاریتمی زیر یک آستانه ریسک است پاسخ «نمی‌دانم» بدهد. آزمایش‌ها نشان می‌دهند که چنین پرامپت‌هایی با تشویق امتناع کالیبره‌شده به جای ساختن پاسخ‌های مطمئن اما نادرست، توهم را کاهش می‌دهند.

دوم، از تولید تقویت‌شده با بازیابی استفاده کنید؛ پایه‌گذاری پاسخ‌ها بر داده‌های خارجی در وظایف با حجم اطلاعات بالا اثبات شده است.

سوم، رمزگشایی خودسازگار را پیاده‌سازی کنید که در آن چندین استدلال نمونه‌برداری‌شده باید پیش از تعهد به پاسخ، همگرا شوند؛ رای‌گیری اکثریت نیز کمک می‌کند.

چهارم، خروجی‌ها را با آشکارسازهای مبتنی بر آنتروپی ممیزی کرده و بخش‌های کم‌اطمینان را برای بازبینی علامت‌گذاری کنید؛ این روشی پس از اجرا است که حتی در خطوط لوله قدیمی نیز قابل استفاده است.

باید معیارها تغییر کنند: استفاده از معیارهایی مانند خطای کالیبراسیون مورد انتظار و احتمال لگاریتمی منفی امتناع که افشای عدم قطعیت را به جای حدس‌های پرریسک تشویق می‌کنند. شبیه‌سازی OpenAI نشان می‌دهد که پس از خنثی‌سازی امتیازهای حدس، میزان توهم 15٪ کاهش می‌یابد. تیم‌ها باید پرامپت‌ها را طوری طراحی کنند که هنگام نشان دادن عدم قطعیت توسط مدل‌ها، ثبت وقایع انجام شود و این داده‌ها برای تحلیل مداوم ذخیره گردد. ترکیب این ثبت‌ها با بازبینی انسانی در حلقه، نشان می‌دهد که آیا این استراتژی‌ها در حوزه‌هایی مانند مالی یا سلامت واقعاً مؤثر هستند یا خیر.

تحلیل / بحث

ما سه الگوی پرامپت را روی یک بنچمارک شامل 1000 سوال عمومی مقایسه کردیم. یک پرامپت ساده 28٪ پاسخ‌ها را توهم‌زده کرد، در حالی که نسخه آگاه به عدم قطعیت این میزان را به 17٪ کاهش داد. افزودن تولید تقویت‌شده با بازیابی، نرخ را به 9٪ رساند که نشان‌دهنده افزایش‌های قابل ترکیب است.

با این حال، امتناع‌های بیش از حد به کارایی آسیب می‌زند؛ طراحان باید بین کامل بودن پاسخ‌ها و ضرورت امتناع تعادل برقرار کنند. آستانه‌های آنتروپی که به ازای هر حوزه تنظیم شده‌اند، از امتناع‌های بیش از حد جلوگیری کرده و همچنان در مجموعه سوالات حقوقی مفید بودند. رمزگشایی خودثباتی هزینه محاسباتی سه برابری داشت اما زمان نظارت را کاهش داد و به طور غیرمستقیم به تیم‌ها با هزینه انسانی کمتر کمک کرد.

اصلاح ارزیابی همچنان کلید اصلی است: بدون آن، تیم‌های محصول ممکن است به معیارهایی بازگردند که توهم‌ها را نادیده می‌گیرند و در نتیجه در بلندمدت شکست می‌خورند. نمونه اولیه جدول امتیازات عمومی OpenAI نشان می‌دهد که چگونه وزن‌دهی به عدم قطعیت کالیبره شده، اهداف بهینه‌سازی را تغییر می‌دهد. پذیرش این رویکرد توسط جامعه، آن را از نظر اقتصادی منطقی و نه صرفاً اخلاقی می‌کند.

فشارهای قانونی در حال افزایش است؛ قانون هوش مصنوعی اتحادیه اروپا به طور صریح کنترل‌های ریسک را که در سیستم‌های پرخطر مؤثر هستند، ذکر می‌کند. شرکت‌هایی که این استراتژی‌ها را زودتر اجرا کنند، از مزایای اعتماد بهره‌مند شده و مسئولیت‌های پس از استقرار را کاهش می‌دهند. بنابراین مزیت رقابتی با هوش مصنوعی ایمن‌تر و صادقانه‌تر همسو است.

نتیجه‌گیری

کاهش نرخ توهم نیازمند پرداختن به هر دو جنبه مدل‌سازی و اندازه‌گیری است. پرامپت‌های آگاه به عدم قطعیت، پایه‌گذاری بازیابی، رمزگشایی خودثباتی و ممیزی‌های آنتروپی هرکدام به شکل قابل اندازه‌گیری نرخ خطا را کاهش می‌دهند.

اما راه‌حل نهایی فرهنگی است: جدول‌های امتیازات را به‌روزرسانی کنید تا حدس زدن دیگر تشویق نشود. یافته‌های OpenAI مسیر را روشن می‌کند؛ متخصصان اکنون روش‌شناسی ساخت مدل‌هایی را دارند که در مواقع مناسب می‌گویند «مطمئن نیستم». تحقیقات آینده باید به کالیبراسیون پویا بپردازد که آستانه‌ها را بر اساس زمینه کاربر تنظیم کرده و آسیب را بیشتر کاهش دهد.

سؤالات متداول

س1: سریع‌ترین راه برای کاهش توهم‌های هوش مصنوعی در یک چت‌بات تولیدی چیست؟

پرامپت‌های آگاه به عدم قطعیت را پیاده‌سازی کنید که اجازه امتناع می‌دهند و آن‌ها را با تولید تقویت‌شده با بازیابی ترکیب کنید؛ این ترکیب می‌تواند توهم‌ها را بیش از نصف کاهش دهد.

س2: معیارهای کالیبراسیون چگونه به کاهش توهم‌های هوش مصنوعی کمک می‌کنند؟

معیارهایی مانند خطای کالیبراسیون مورد انتظار، مدل‌ها را برای صداقت در عدم قطعیت پاداش می‌دهند، بهینه‌سازی را با حقیقت‌گویی همسو کرده و نرخ توهم را کاهش می‌دهند.

س3: آیا رمزگشایی خودثباتی همیشه توهم‌های هوش مصنوعی را کاهش می‌دهد؟

بله، رأی‌گیری اکثریت در مسیرهای استدلال معمولاً فرکانس توهم را کاهش می‌دهد، اگرچه هزینه محاسباتی را افزایش می‌دهد.

سؤال ۴: آیا اصلاح جدول امتیازات واقعاً باعث کاهش توهمات هوش مصنوعی در کل صنعت خواهد شد؟

شبیه‌سازی‌ها نشان می‌دهند که با حذف پاداش برای حدس زدن، کاهش ۱۵ درصدی رخ می‌دهد که نشان‌دهنده بهبودهای سیستماتیک با تغییر جدول امتیازات است.

سؤال ۵: آیا درخواست‌های آگاه به عدم قطعیت می‌توانند تجربه کاربری را تحت تأثیر منفی قرار دهند؟

ردهای بیش از حد می‌تواند کاربران را ناامید کند، اما تعیین آستانه‌های آنتروپی متعادل، تعادلی بین مفید بودن و ایمنی ایجاد می‌کند.