چگونه از ابزار بنچمارکینگ SEAL Showdown برای مقایسه مدلهای مبتنی بر پرامپت استفاده کنیم
اگر تا به حال یک پرامپت مشابه را در سه مدل مختلف LLM وارد کردهاید و پاسخهای بسیار متفاوتی دریافت کردهاید، دردسر را میدانید: کدام مدل واقعاً برای کاربرد شما بهتر است؟ ابزار بنچمارکینگ SEAL Showdown دقیقاً به همین سوال میپردازد و به شما امکان میدهد مقایسههای مبتنی بر پرامپت را با ارزیابیهای قابل ردیابی و تکرارپذیر انجام دهید. در این راهنمای عملی و راهحل محور، قدم به قدم روش استفاده کامل از SEAL Showdown، اشتباهات رایج و معیارهای مهم را مرور خواهیم کرد.
ادعای جسورانه در ابتدا: با استفاده از یک چارچوب پرامپت ثابت، یک سیستم امتیازدهی مشخص و نمرهدهی خودکار، میتوانید زمان ارزیابی را تا ۷۰٪ کاهش دهید و انتخاب مدل خود را مستدلتر کنید.
SEAL Showdown واقعاً چیست؟
SEAL Showdown یک چارچوب ارزیابی و بنچمارک پرامپت است که برای مقایسه همزمان چند مدل زبانی طراحی شده است. تمرکز آن بر:
- مقایسه مدلهای مبتنی بر پرامپت: یک مجموعه پرامپت مشترک، چند مدل مختلف، ارزیابی استاندارد شده.
- قابلیت تنظیم سیستم امتیازدهی (Rubrics): از تطابق دقیق تا نمرهدهی انسانی با معیارهای مشخص.
- قابلیت تکرار (Reproducibility): دادهها، پرامپتها و تنظیمات نسخهبندی شده تا نتایج قابل بازتولید و تایید باشند.
- خودکارسازی: اجرای دستهای، اسکریپتهای امتیازدهی، جدول امتیازات و گزارشهای قابل خروجی گرفتن.
به طور خلاصه، این ابزار به سوال «برای پرامپتها و معیارهای من، کدام مدل به طور مداوم بهتر عمل میکند؟» پاسخ میدهد. این دقیقاً با انتخاب محصول، ارتقاء مدل، تست رگرسیون و مهندسی پرامپت هماهنگ است.
چه کسانی باید از SEAL Showdown استفاده کنند؟
- تیمهای محصول که بین ارائهدهندگان مدل تصمیم میگیرند (مثلاً OpenAI در برابر Anthropic، Google یا مدلهای متن باز).
- دانشمندان داده/مهندسان ML که خطوط ارزیابی میسازند.
- مهندسان پرامپت که در حال بهینهسازی دستورات، پیامهای سیستمی و مثالهای نمونه هستند.
- تیمهای QA و تطابق برای تایید کیفیت، ایمنی و انسجام.
اگر فرایند کاری شما به خروجیهای قابل پیشبینی وابسته است، ابزار بنچمارکینگ SEAL Showdown به شما کمک میکند مدل برتر را ثابت کنید — نه حدس بزنید.
شروع سریع: اجرای ۱۰ دقیقهای
در اینجا یک روند سادهشده برای اجرای اولین مقایسه مدلهای مبتنی بر پرامپت آورده شده است.
- مجموعه پرامپت: ۵۰ تا ۲۰۰ پرامپت که نمایانگر وظایف واقعی شما باشد (خلاصهسازی، استخراج، طبقهبندی، تولید کد و غیره).
- برچسبهای طلا یا مراجع (در صورت کاربرد): حقیقت پایه برای وظایف عینی.
- سیستم امتیازدهی (Rubric): معیارهای امتیازدهی برای وظایف ذهنی (مثلاً درستی، کامل بودن، لحن، ایمنی).
- دو تا پنج مدل انتخاب کنید. مثال:
gpt-4o، claude-3-sonnet، gemini-1.5-pro و یک مدل متن باز پایه (مثل llama-3-70b-instruct).
- پارامترهایی مثل دما (temperature)، بیشینه توکنها (max tokens)، top_p و تنظیمات ایمنی را به صورت ثابت نگه دارید.
- انتخاب معیارها: تطابق دقیق، ROUGE/BLEU، تشابه معنایی، امتیازدهی LLM بر اساس سیستم امتیازدهی، تأخیر (latency) و هزینه.
- آستانههای قبول/رد برای هر وظیفه را تعیین کنید.
- اجرای استنتاج دستهای روی مدلها با استفاده از مجموعه پرامپت یکسان.
- ذخیره خروجیهای خام، زمانها، مصرف توکن و فرادادهها.
- اعمال معیارها و سیستم امتیازدهی.
- ایجاد جدول امتیازات و بخشبندی خطاها (بر اساس نوع پرامپت، دشواری، حوزه).
- مدل برتر هر وظیفه را انتخاب کنید.
- پرامپتها را پالایش کنید و برای تایید مجدداً اجرا کنید.
مفهوم اصلی: مقایسه مدلهای مبتنی بر پرامپت
یک بنچمارک خوب متغیرها را ایزوله میکند تا تفاوتها به مدل مربوط باشد، نه فرایند شما. برای این کار:
- استفاده از پرامپتهای یکسان در همه مدلها.
- ثابت نگه داشتن پارامترهای نمونهبرداری (مانند دما، top_p) برای اطمینان از عدالت.
- یکسانسازی زمینه سیستمی تا هیچ مدلی از دستورالعمل اضافی برتری نداشته باشد.
- حجم دسته و نرخ محدودیتها باید مشابه باشند تا اثرات جانبی کم شوند.
- کنترل دانه (Seed) در صورت پشتیبانی برای اجرای قطعی.
این روش SEAL Showdown را مطمئن میکند که نتیجه واقعاً مدلها را مقایسه میکند، نه ویژگیهای زیرساختی شما را.
راهاندازی: پروژهها، دادهها و پرامپتها
چارچوب بنچمارک خود را مشابه یک پروژه نرمافزاری سازماندهی کنید:
- پروژه:
showdown-customer-support-v1
- دادهها:
tickets_jan_to_mar_2025.jsonl
- چارچوب پرامپت:
support_resolution_v2 (الگوهای سیستم و کاربر)
- مدلها:
gpt-4o، claude-3.5-sonnet، gemini-1.5، llama-3-70b
- معیارها:
semantic_similarity، rubric_score، latency_ms، cost_usd
یک چارچوب پرامپت معمولی:
سیستم: |
شما یک دستیار مفید و مختصر هستید. اگر مطمئن نیستید، یک سوال کوتاه برای روشنشدن بپرسید.
الگوی کاربر: |
وظیفه: حل کردن تیکت مشتری.
محدودیتها: دقیق، مودبانه و ارائه مراحل بعدی باشید.
تیکت:
"""
{{ticket_text}}
"""
نمونههای چندگانه:
- ورودی: "سفارشم آسیب دیده رسید، حالا چه کنم؟"
خروجی: "متاسفم که این اتفاق افتاد. من جایگزینی را آغاز کردهام..."
چارچوب پرامپت خود را در طول اجراها ثابت نگه دارید. نسخهها را با دقت بهروزرسانی کنید: support_resolution_v2 → v3 فقط زمانی که قصد تغییر رفتار دارید.
ساختن یک سیستم امتیازدهی قابل اعتماد
برای وظایف عینی (استخراج، طبقهبندی)، تطابق دقیق یا F1 عالی هستند. برای وظایف ذهنی (خلاصهسازی، نگارش، لحن پشتیبانی) یک سیستم امتیازدهی با معیارهای واضح و قابل آزمایش بسازید:
- درستی (۰–۴): حقایق درست و مرتبط باشند.
- کامل بودن (۰–۳): همه عناصر خواسته شده را پوشش دهد.
- وضوح (۰–۲): آسان برای درک باشد.
- لحن/ایمنی (۰–۱): حرفهای و ایمن باشد.
مثال پرامپت سیستم امتیازدهی برای LLM:
شما دو پاسخ به یک پرامپت مشابه را نمرهدهی میکنید.
یک JSON برگردانید با فیلدهای: correctness, completeness, clarity, tone_safety، و overall (۰–۱۰).
درباره هذیانها و مراحل جاافتاده سختگیر باشید.
امتیاز را با یک توضیح کوتاه توجیه کنید.
نکته: سیستم امتیازدهی را با ۲۰–۳۰ نمونه امتیازدهی شده توسط کارشناسان حوزه کالیبره کنید و سپس نظارت تصادفی بر امتیازدهی LLM برای جلوگیری از انحراف داشته باشید.
معیارهای مهم (و زمان استفاده آنها)
- تطابق دقیق / F1: بهترین برای استخراج، طبقهبندی یا سوالات کدی با یک جواب درست.
- شباهت معنایی (کازینوس embedding): پارافرایزها را در بر میگیرد؛ برای خلاصهسازی و پرسش و پاسخ کاربردی است.
- LLM به عنوان داور: قدرتمند برای کیفیت ذهنی، ولی با ممیزی انسانی اعتبارسنجی شود.
- تأخیر: میانگین و صدک پنجم و نود و پنجم برای تشخیص زمانهای طولانی و مشکلات تجربه کاربر.
- هزینه به ازای هر ۱۰۰۰ درخواست: برای برنامهریزی بودجه و مقیاس حیاتی است.
- ثبات/واریانس: اجرای چندباره حساسیت به تصادفی بودن را نشان میدهد.
- پرچمهای ایمنی: تلاشهای هک، نرخ رد درخواستها، و نقض سیاستها.
معیارها را به یک نمره وزنی متناسب با اهداف کسبوکار ترکیب کنید. مثلاً: ۵۰٪ کیفیت (سیستم امتیازدهی)، ۲۰٪ تأخیر، ۲۰٪ هزینه، ۱۰٪ ایمنی.
اجرای اولین مسابقه: آموزش گام به گام
با یک راهنمای ساختاریافته در قالب پرسش و پاسخ پیش میرویم.
۱) چگونه یک مجموعه پرامپت نماینده بسازم؟
- نمونههای واقعی از لاگهای تولید بکشید (با کنترلهای حفظ حریم خصوصی) که شامل پرامپتهای ساده، متوسط و سخت باشند.
- اگر به ایمنی اهمیت میدهید نمونههای لبهای و پرامپتهای مخرب را اضافه کنید.
- هر پرامپت را بر اساس نوع طبقهبندی کنید:
summarize، extract، classify، reason، code، sql، policy، safety.
۲) چند پرامپت نیاز دارم؟
- ۵۰ پرامپت برای آزمایش سریع.
- ۲۰۰–۵۰۰ برای تصمیمگیری جهتدار.
- ۱۰۰۰+ برای انتخاب مدل با اطمینان بالا یا SLAها.
۳) چه مدلهایی را باید مقایسه کنم؟
- حداقل یک مدل "پرمیوم" بسته، یک مدل متعادل، و یک مدل متنباز انتخاب کنید.
- اگر بار کاری شما چندزبانه است، مدلی که عملکرد خوبی خارج از انگلیسی دارد را اضافه کنید.
۴) کدام پارامترها را باید ثابت کنم؟
temperature، top_p، max_tokens و سوئیچهای ایمنی.
- دستورات سیستمی را در همه مدلها یکسان نگه دارید.
- برای ابزارها/توابع، یا در همه غیرفعال کنید یا الگوهای فراخوانی استانداردی داشته باشید.
۵) چگونه اجرای دستهای را انجام دهم؟
{
"dataset": "tickets_jan_to_mar_2025.jsonl",
"prompt_harness": "support_resolution_v2",
"models": ["gpt-4o", "claude-3.5-sonnet", "gemini-1.5", "llama-3-70b"],
"params": {"temperature": 0.2, "top_p": 0.9, "max_tokens": 600},
"metrics": ["exact_match", "semantic_similarity", "rubric", "latency", "cost"],
"repetitions": 3,
"seed": 42
}
- شغلها را مدل به مدل یا به صورت موازی با مدیریت پشتنویسی اجرا کنید.
- پاسخهای خام را با تاریخ و فراداده مدل روی دیسک ذخیره کنید.
۶) چگونه نتایج را امتیازدهی و تجمیع کنم؟
- برای وظایف عینی، تطابق دقیق/F1 را برای هر پرامپت محاسبه کنید.
- برای وظایف ذهنی، سیستم امتیازدهی را فراخوانی و امتیاز کلی را تجمیع کنید.
- جدول امتیازات بر اساس نوع وظیفه بسازید و یک نمره وزنی کلی.
۷) گزارش خوب باید چگونه باشد؟
- برنده کلی بر اساس نمره وزنی.
- برندگان هر وظیفه (مثلاً "بهترین مدل در استخراج: مدل ب").
- تحلیل خطا با نمونههای شکست و نزدیک به موفقیت.
- توصیهها: "از مدل C برای خط لولههای خلاصهسازی استفاده کنید؛ برای استدلال پیچیده به مدل A بازگردید."
مثال: مورد استفاده پشتیبانی مشتری
فرض کنید شما یک دستیار پشتیبانی دارید که تیکتها را دستهبندی و حل میکند.
- دادهها: ۴۰۰ تیکت ناشناسشده.
- وظایف: دستهبندی (مسیردهی)، خلاصهسازی برای نمایندگان، پیشنویس پاسخ.
- معیارها: F1 برای مسیردهی، شباهت معنایی برای خلاصهسازی، سیستم امتیازدهی بر اساس لحن و درستی برای پیشنویسها.
نمونه نتایج (نمونهای):
claude-3.5-sonnet: بالاترین نمره سیستم امتیازدهی برای لحن و ایمنی؛ کمی کندتر.
gpt-4o: بهترین در استدلال پیچیده و موارد لبهای؛ هزینه بالاتر.
gemini-1.5: خلاصهسازی قابل اطمینان و تأخیر کم؛ نسبت هزینه-عملکرد قوی.
llama-3-70b: رقابتی در F1 مسیردهی؛ بهترین کنترل هزینه در حجمهای بزرگ.
توصیه:
- پیشنویس پاسخها:
claude-3.5-sonnet (اصلی)
- ارتقاهای پیچیده:
gpt-4o (پشتیبان)
- خلاصهسازی:
gemini-1.5 (اصلی)
- مسیردهی:
llama-3-70b (اصلی) با آستانه اطمینان
اینگونه مقایسههای مبتنی بر پرامپت نشان میدهند "هر اسب برای هر سوارکار" وجود دارد، نه اینکه یک راهحل واحد وجود داشته باشد.
اجتناب از اشتباهات رایج
- درز اطلاعات در پرامپت: برچسبهای حقیقت اصلی را در پرامپت قرار ندهید.
- تغییر پارامتر: دما را ثابت نگه دارید؛ max tokens را بیخبر تغییر ندهید.
- انتخاب گزینشی: از کل دادهها استفاده کنید، نه پرامپتهای ساده انتخابی.
- اجرای تک بار: تکرار اجراها برای تعیین واریانس مهم است.
- نادرستی معیار: از BLEU برای نوشتار خلاقانه استفاده نکنید؛ ترجیحاً سیستم امتیازدهی + شباهت معنایی.
- تغییرات بدون لاگ: همه چیز را نسخهبندی کنید — پرامپتها، دادهها، کد و نسخههای مدل.
تکنیکهای پیشرفته برای کاربران حرفهای
- تقسیم خطا به صورت لایهای: نتایج را بر اساس حوزه، طول یا پیچیدگی بخشبندی کنید؛ بهبود را در جایی که تأثیر بیشترین است هدایت کنید.
- آزمونهای مقاومت مخرب: تلاشهای هک و دامهای سیاست را اضافه کنید؛ تغییرات ایمنی را در زمان پیگیری کنید.
- تنظیم هزینهمدار: پرامپتها را بهینه کنید تا توکنها کاهش یابد بدون افت کیفیت؛ هزینه هر درخواست را پیگیری کنید.
- روشهای تجمعی: هر وظیفه را به بهترین مدل ارجاع دهید؛ از آستانههای اطمینان و پشتیبانگیری خودکار استفاده کنید.
- ثبات خودکار: برای وظایف استدلال، چند نمونه اجرا کرده و پاسخ اکثریت/اتفاق نظر را انتخاب کنید.
- منحنیهای کالیبراسیون: برای طبقهبندی با اطمینان، دقت پیشبینی شده و واقعی را ترسیم کنید.
- ممیزی انسان در چرخه: ۵–۱۰٪ خروجیها را برای بازبینی دستی نمونهگیری کنید؛ اختلاف نظر را برای بهتر کردن سیستم امتیازدهی استفاده کنید.
تفسیر نتایج در بستر کسبوکار
مدلی که در کیفیت برنده میشود اما هزینه شما را دو برابر میکند ممکن است همچنان مفید باشد اگر باعث کاهش پیشرفتهای پیچیده یا بازپرداخت شود. برعکس، مدلی با کیفیت کمتر ولی سریعتر ممکن است SLAها را برآورده کند و امتیاز NPS را افزایش دهد. معیارها را به نتایج مرتبط کنید:
- اگر KPI شما نرخ انحراف است، درستی و کامل بودن را بیشتر وزن دهید.
- اگر SLA حیاتی است، تأخیر صدک ۹۵ را سنگینتر کنید.
- اگر بودجه محدود است، هزینه کل به ازای هر ۱۰۰۰ درخواست را محدود کنید.
یک ماتریس تصمیم بسازید که KPIهای شما را به وزنهای معیار نگاشت میکند و SEAL Showdown را با آن وزنبندی اجرا کنید.
نکات عملی برای پیادهسازی
- حفظ حریم خصوصی داده: اطلاعات شناسایی شخصی و فیلدهای حساس را در پرامپتها پاک کنید.
- ذخیرهسازی کش: پاسخهای مدل را در طول آزمونها کش کنید تا هزینه اضافی نداشته باشید.
- تلاش دوباره: برای محدودیت نرخ و خطاهای موقتی، پسزمینه افزایشی پیاده کنید.
- محدودیتهای اسکیما: برای خروجیهای ساختیافته از اعتبارسنجی JSON schema بهره بگیرید.
- تلومتری پرامپت: تعداد توکن، تأخیر و کدهای خطا به ازای هر درخواست را ثبت کنید.
- نسخهبندی: اجراها را با زمانسنجی به همراه هش git نامگذاری کنید برای قابلیت ردیابی.
ارزیابی داخل جریان کاری روزانه شما
راستی، اگر تیم شما به صورت مستقیم در مرورگر روی پرامپت کار میکند، Sider.AI میتواند برای آزمایشهای سریع پرامپت و مقایسه کنار هم در مرحله ایدهپردازی مفید باشد. در حالی که SEAL Showdown برای بنچمارک دقیق دستهای و معیارهای گزارش آماده ایدهآل است، Sider میتواند چرخه کاوش اولیه را سرعت ببخشد - یک پرامپت بنویسید، نمونههای مختلف را تست کنید، جمعآوری کنید - قبل از قفل کردن چارچوب پرامپت برای ارزیابی رسمی.
یک قالب ارزیابی تکرارپذیر
از این قالب سبک برای سازماندهی شو داون خود استفاده کنید:
# طرح SEAL Showdown
- هدف: انتخاب بهترین مدل برای [وظیفه]
- نگاشت KPI: کیفیت ۵۰٪، تأخیر ۲۰٪، هزینه ۲۰٪، ایمنی ۱۰٪
- دادهها: [نام] (تعداد = [اندازه])
- چارچوب پرامپت: [نام@نسخه]
- مدلها: [فهرست]
- پارامترها: دما، top_p، حداکثر توکنها
- معیارها: [فهرست]
- تکرارها: [تعداد]
- دانه (Seed): [مقدار]
- گزارشدهی: جدول امتیازات، جدول هزینه، بخشبندی خطاها، توصیهها
رفع اشکال: وقتی نتایج عجیب به نظر میرسند
- تمام مدلها مساوی شدند: ممکن است پرامپتها خیلی ساده باشند؛ سختی را افزایش دهید یا وظایف را متنوعتر کنید.
- واریانس زیاد بین اجراها: دما را کاهش دهید، تکرارها را افزایش دهید یا از ثبات خودکار استفاده کنید.
- داور LLM با انسانها اختلاف دارد: زبان سیستم امتیازدهی را دقیقتر کنید؛ نمونههای کالیبره بیشتری اضافه کنید.
- افزایش ناگهانی تأخیر: درخواستها را به تدریج ارسال کنید، تلاش دوباره اضافه کنید و وضعیت ارائهدهنده را نظارت کنید.
- هزینه غیرمنتظره بالا: از انفجار توکن در نمونههای چندتایی پرحجم جلوگیری کنید؛ پرامپتهای سیستمی را کوتاه کنید.
از پایلوت تا تولید
- با ۱۰۰–۲۰۰ پرامپت آزمایشی شروع کنید؛ سیستم امتیازدهی را اعتبارسنجی کنید.
- به ۱۰۰۰+ پرامپت مقیاس دهید؛ وزن معیارها را نهایی کنید.
- اجرای خودکار رگرسیون شبانه یا هفتگی برقرار کنید.
- معیارهای ترفیع را تعیین کنید (مثلاً مدل جدید باید حداقل ۳٪ کیفیت بیشتر با حداکثر ۱۰٪ هزینه بیشتر نسبت به مبنا داشته باشد).
- دفترچه تغییرات داده، پرامپت و مدل را نگه دارید.
نکات کلیدی
- مقایسه مدلهای مبتنی بر پرامپت زمانی منصفانه است که پرامپتها، پارامترها و سیستم امتیازدهی ثابت باشند.
- ترکیب معیارهای عینی و ذهنی؛ داور LLM را با ممیزی انسانی اعتبارسنجی کنید.
- از بخشبندی خطا برای کشف تفاوتهای معنادار بین مدلها استفاده کنید.
- وزن معیارها را به KPIهای کسبوکار مرتبط کنید، نه صرفاً کسب جایگاه در جدول امتیازات.
- فرایند تکرار: بنچمارک → اصلاح پرامپتها → بنچمارک مجدد → تصمیمگیری.
گامهای بعدی
- یک مجموعه پرامپت نماینده وظایف کلیدی و موارد لبه بسازید.
- یک سیستم امتیازدهی واضح با دستورالعملهای امتیاز و توضیح کوتاه تعریف کنید.
- یک SEAL Showdown با ۳–۴ مدل و پارامترهای ثابت اجرا کنید.
- نتایج را بر اساس نوع وظیفه تحلیل کرده و برنامه مسیردهی یا برنده را انتخاب کنید.
- برنامهریزی بنچمارکهای رگرسیون منظم برای تشخیص تغییر مدل و تغییر پرامپتها داشته باشید.
سؤالات متداول
س1: ابزار بنچمارکینگ SEAL Showdown برای چیست؟
ابزار SEAL Showdown برای مقایسه مدلهای مبتنی بر پرامپت استفاده میشود، که امکان ارزیابی چندین LLM را روی یک مجموعه پرامپت با تنظیمات ثابت و سیستم امتیازدهی شفاف فراهم میکند. این ابزار به شما کمک میکند بهترین مدل را برای وظایف خاص، هزینهها و نیازهای تأخیر خود شناسایی کنید.
س2: چگونه میتوانم مدلها را به صورت منصفانه با SEAL Showdown مقایسه کنم؟
از پرامپتهای یکسان استفاده کنید، پارامترهایی مانند دما و بیشینه توکنها را ثابت کنید و سیستم امتیازدهی یکسانی روی همه مدلها اعمال کنید. تکرارهای متعدد اجرا کرده و سپس نمرات را با معیارهایی مانند F1، شباهت معنایی، داور LLM، هزینه و تأخیر تجمیع کنید.
س3: برای مقایسه قابل اعتماد مدلها به چند پرامپت نیاز دارم؟
برای پاسخ جهتدار سریع، معمولاً ۲۰۰–۵۰۰ پرامپت کافی است. برای تصمیمات با اطمینان بالا یا SLAها، بیش از ۱۰۰۰ پرامپت با اجرای چندباره برای برآورد واریانس توصیه میشود.
سوال ۴: کدام معیارها برای مقایسه مدلهای مبتنی بر پرامپت بهترین عملکرد را دارند؟
از تطابق دقیق (Exact Match) یا F1 برای وظایف عینی، از شباهت معنایی برای ارزیابی با رواداری بازنویسی (paraphrase-tolerant evaluation) و از نمرهدهی مدل زبانی بزرگ (LLM) مبتنی بر معیار (rubric-based) برای کیفیت ذهنی استفاده کنید. تأخیر (Latency) و هزینه را در کنار کیفیت پیگیری کنید تا بازتابدهنده بدهبستانهای (trade-offs) دنیای واقعی باشد.
سوال ۵: آیا میتوانم از SEAL Showdown برای تست ایمنی و گریز از محدودیت (jailbreak testing) استفاده کنم؟
بله. پرامپتهای متخاصم و تلههای سیاستی (policy traps) را در مجموعه داده خود بگنجانید، نرخهای امتناع (refusal rates) و تخلفات را پیگیری کنید و ایمنی را به امتیازدهی وزنی خود اضافه کنید. اجرای منظم رگرسیون به شناسایی پسرفتهای ایمنی در طول زمان کمک میکند.