What are the best open-source AI models for math reasoning in 2025?

Top picks include DeepSeek R1 distilled, Qwen2.5-Math, Llama 3.1 with math adapters, Mistral-based math variants, and Phi-4 math-tuned. These open-source AI models for math reasoning in 2025 balance accuracy, speed, and tooling support.

Which open-source model is best for competition math like AIME?

DeepSeek R1 distilled and Llama 3.1 70B with math-tuned adapters perform well with self-consistency sampling and a Python verifier. MiniF2F-tuned helpers are strong for proof-style and geometry reasoning.

How can I improve accuracy with open-source math models?

Use self-consistency (k=5–20), route arithmetic to Python or sympy, and add a lightweight verifier for units and constraints. Structured prompts—Assumptions, Plan, Derivation, Check—reduce errors.

What hardware do I need for these math reasoning models?

7B–14B models run on a single 12–24GB GPU or quantized CPU; 32B models need 2–4 GPUs; 70B models require multi-GPU setups. Quantization and speculative decoding help control cost.

Can I use [Sider.AI](https://sider.ai) with open-source math models?

Yes. [Sider.AI](https://sider.ai) can orchestrate prompt experiments, route requests across models, and attach Python/sympy tools for verification. It’s useful for educators and teams shipping math reasoning features.

۱۰ مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در سال ۲۰۲۵

مسئله ریاضی، صرفاً ریاضی نیست—بلکه استدلال است

اگر تا به حال دیده‌اید که یک مدل زبانی قدرتمند پس از نوشتن یک طرح اثبات بی‌نقص، در یک مرحله جبری ساده دچار اشتباه می‌شود، پس حقیقت را می‌دانید: ریاضیات فقط محاسبات نیست. بلکه درباره استدلال ساختاریافته است—حفظ متغیرها، رعایت محدودیت‌ها و رسیدن به یک پاسخ درست قابل تأیید. در سال 2025، 10 مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در نهایت با ترکیب برنامه‌ریزی زنجیره‌ای تفکر، استفاده از ابزارها (مانند Python و sympy)، مجموعه‌های ریاضی با دقت انتخاب‌شده و یادگیری تقویتی از سیگنال‌های قابل تأیید، شکاف خود را با سیستم‌های اختصاصی کم می‌کنند.

در این راهنما، 10 مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 را تجزیه و تحلیل می‌کنیم—در چه زمینه‌هایی عالی هستند، چگونه آموزش داده می‌شوند، چه زمانی باید از آن‌ها استفاده کرد و چگونه آن‌ها را در گردش‌کارهای واقعی ادغام کرد. شما بهترین توصیه‌ها را برای دوره‌های K–12، آمادگی مسابقات، ریاضیات نمادین و حل مسئله در سطح تحقیقاتی خواهید یافت.

توجه: برای وضوح و گستردگی، این را به عنوان یک فهرست عملی و راه‌حل‌محور با بررسی‌های عمیق ارائه می‌کنیم. در صورت لزوم، به بنچمارک‌هایی مانند GSM8K، MATH، AIME، OlympiadBench و MiniF2F نیز اشاره می‌کنیم تا قابلیت‌ها را پایه‌گذاری کنیم. کلیدواژه اصلی شما—10 مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025—در سراسر متن ظاهر می‌شود تا با هدف جستجو بدون استفاده بیش از حد از کلیدواژه مطابقت داشته باشد.

چگونه 10 مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 را ارزیابی کردیم

بنچمارک‌های خاص ریاضی: GSM8K (دوره ابتدایی)، MATH (دبیرستان/اوایل دانشگاه)، وظایف سبک AIME (مسابقه)، MiniF2F (مجموعه‌های مسئله رسمی) و تست‌های استرس استدلال.

شفافیت و مجوز: وزن‌های باز، داده‌های مستند، مجوزهای مجاز یا مناسب تحقیق.

استفاده از ابزار و قابلیت تأیید: ادغام با Python، sympy یا بررسی‌کننده‌های اثبات؛ استفاده از خودسازگاری و مدل‌های تأییدکننده.

کاربردی بودن: هزینه استنتاج، سرعت، طول متن و در دسترس بودن دستورالعمل‌ها/چک‌پوینت‌های تنظیم‌شده برای استدلال گام به گام ریاضی.

اکوسیستم: انجمن فعال، نوت‌بوک‌های نمونه و عامل‌هایی که برنامه‌ریزی → حل → تأیید را سازماندهی می‌کنند.

لیست: 10 مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025

در زیر ده مدلی قرار دارند که به طور مداوم در دقت، باز بودن و استقرار عملی برجسته هستند. ما یادداشت‌های مربوط به قابلیت، موارد استفاده ایده‌آل و نکات راه‌اندازی را نیز شامل می‌کنیم.

1) DeepSeek R1 (انواع تقطیرشده، وزن‌های باز)

چرا اینجا است: در میان قوی‌ترین مدل‌های باز برای وظایف اولویت‌دهنده استدلال، با آموزش سبک زنجیره‌ای تفکر و ردیابی‌های خودبازی تقطیرشده که استحکام را در ریاضیات چند مرحله‌ای بهبود می‌بخشد.

نقاط قوت: عالی در مسائل سبک GSM8K، رقابتی در MATH با نمونه‌برداری عمدی (به عنوان مثال، دما > 0 و خودسازگاری). استدلال قوی چندشاتی با صفحه یادداشت.

بهترین استفاده: معلم خصوصی ریاضیات عمومی، خطوط لوله کدنویسی+ریاضی، عامل‌هایی که پاسخ‌های عددی نهایی را تأیید می‌کنند.

نکته: از نمونه‌برداری n-بهترین با یک تأییدکننده سبک وزن که Python یا sympy را فراخوانی می‌کند استفاده کنید. زنجیره‌های ناسازگار را به طور خودکار هرس کنید.

2) Qwen2.5-Math (دستورالعمل و اندازه‌های 32B+)

چرا اینجا است: خانواده‌ای که به طور ویژه برای ریاضیات تنظیم شده‌اند و دارای پیروی قوی از دستورالعمل و تمایل به استفاده از ابزار هستند. چک‌پوینت‌های ریاضی برای جبر، حساب دیفرانسیل و انتگرال و مبانی نظریه اعداد بهینه شده‌اند.

نقاط قوت: قابلیت اطمینان بالا با زنجیره کوتاه تفکر؛ تعادل خوب بین تأخیر و دقت در اندازه‌های مختلف.

بهترین استفاده: آموزش تعاملی، مراحل حل ساختاریافته برای K–12 تا اوایل دانشگاه.

نکته: برای خروجی‌های تمیزتر، آن را با یک اعلان رتبه‌بندی ترکیب کنید ("فرضیات را بیان کنید، استخراج را نشان دهید، واحدها را تأیید کنید").

3) Llama 3.1 Instruct (70B و آداپتورهای تنظیم‌شده ریاضی 8B+)

چرا اینجا است: یک ستون فقرات پرکاربرد با ابزارهای بالغ و آداپتورهایی که به طور خاص روی ردیابی‌های استدلال ریاضی تنظیم شده‌اند.

نقاط قوت: تعمیم قوی، متن طولانی و رفتار پایدار با نمونه‌برداری خودسازگاری.

بهترین استفاده: استقرارهای سازمانی و خطوط لوله RAG+محاسبه؛ وظایف ترکیبی که ریاضیات را با متن دامنه ترکیب می‌کنند.

نکته: برای مسائل سبک مسابقه، چند شاتی با راه‌حل‌های با کیفیت بالا و اجرای جعبه پاسخ از طریق regex.

4) Mistral Large (مدل‌های مشتق‌شده وزن‌های باز و آداپتورهای Mixtral Math)

چرا اینجا است: کارایی مبتنی بر MOE با آداپتورهای متمرکز بر ریاضی که بالاتر از تعداد پارامترهای خود عمل می‌کنند.

نقاط قوت: سرعت و کنترل هزینه؛ اکوسیستم تنظیم دقیق انعطاف‌پذیر؛ ادغام خوب با استفاده از ابزار.

بهترین استفاده: خوشه‌های بدون سرور یا داخلی که در آن توان عملیاتی مهم است؛ برنامه‌های کاربردی تجزیه و تحلیل فشرده ریاضی.

نکته: از اعلان‌های روتر استفاده کنید تا تصمیم بگیرید چه زمانی یک ابزار Python را فراخوانی کنید در مقابل تکیه بر استدلال داخلی مدل.

5) Phi-4 (چک‌پوینت‌های انجمن تنظیم‌شده ریاضی)

چرا اینجا است: کوچک اما قدرتمند. با وجود اندازه کوچک، انواع Phi-4 تنظیم‌شده ریاضی، خروجی‌های گام به گام شگفت‌آور منضبطی ارائه می‌دهند.

نقاط قوت: کم‌مصرف، مقرون‌به‌صرفه؛ با محدودیت‌های ساختاری صریح به خوبی عمل می‌کند.

بهترین استفاده: دستگاه‌های لبه، کلاس‌های درس و برنامه‌های آموزش BYOD.

نکته: خروجی ساختاریافته را با سرفصل‌ها اجباری کنید: "دانسته‌ها"، "ناشناخته‌ها"، "برنامه"، "حل"، "بررسی".

6) مشتقات Llama تنظیم‌شده با OpenMathInstruct

چرا اینجا است: مدل‌های تنظیم‌شده انجمن که بر روی مجموعه‌داده‌های دستورالعمل ریاضی باز و ردیابی‌های راه‌حل انتخاب‌شده آموزش داده شده‌اند.

نقاط قوت: داده‌های شفاف، رفتار قابل کنترل و عملکرد قوی با حلقه‌های تأییدکننده.

بهترین استفاده: گردش‌کارهای تحقیقاتی که در آن بازتولیدپذیری و تبار داده مهم است.

نکته: آن را با یک بررسی‌کننده واحد و ساده‌کننده نمادین جفت کنید تا خطاهای علامت و ساده‌سازی را برطرف کنید.

7) Math-Shepherd (تأیید خود تقویتی)

چرا اینجا است: از یک حلال در حلقه یا آموزش تأییدکننده برای کاهش مراحل توهمی استفاده می‌کند.

نقاط قوت: دقت بهتر در مشتق‌گیری‌ها؛ پاسخ‌های نهایی عددی واضح.

بهترین استفاده: محاسبات مهندسی و وظایف مدل‌سازی مالی که در آن اشتباهات پرهزینه هستند.

نکته: یک بخش نهایی "بررسی صحت" را اجباری کنید: محدوده‌های بزرگی، تجزیه و تحلیل ابعادی و استخراج جایگزین.

8) WizardMath (انواع تنظیم‌شده دستورالعمل)

چرا اینجا است: تبار متخصص ریاضی منبع باز اولیه که با داده‌ها و روش‌های مدرن به بهبود خود ادامه می‌دهد.

نقاط قوت: خوب در دستکاری جبری و حل معادله؛ خروجی گام واضح.

بهترین استفاده: محتوای پل جبر به حساب دیفرانسیل و انتگرال؛ آمادگی SAT/ACT و تعیین سطح.

نکته: یک یادآوری "اشتباهات رایج" در اعلان سیستم اضافه کنید تا تبدیلات اضافی را سرکوب کنید.

9) آداپتورهای OpenHermes-Math / Hermes-Math

چرا اینجا است: مدل‌های انجمن که قالب‌بندی استدلال دقیق و پیروی قوی از سبک دستورالعمل را نشان می‌دهند.

نقاط قوت: قالب‌بندی تمیز، آهنگ توضیح-سپس-حل و عملکرد مناسب سبک AIME با نمونه‌برداری.

بهترین استفاده: دستیاران آموزشی برای مجموعه‌های مسئله و تولید بانک راه‌حل.

نکته: از خودسازگاری با 5–10 نمونه استفاده کنید. پاسخ‌هایی را انتخاب کنید که پس از ساده‌سازی نمادین توافق دارند.

10) کمک‌کننده‌های اثبات تنظیم‌شده MiniF2F (چک‌پوینت‌های مبتنی بر اثبات lean)

چرا اینجا است: گوشه‌ای اما قدرتمند: در ساختارهای استدلال رسمی و اسکلت‌های اثبات بهتر است.

نقاط قوت: استدلال هندسی، اثبات‌های معادل و مراحل استدلال ساختاریافته.

بهترین استفاده: هندسه سبک المپیاد و آموزش نوشتن اثبات.

نکته: برای تأیید رسمی جزئی یا کشف لم، با گردش‌کارهای Lean یا Coq ادغام کنید.

اینها 10 مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 هستند زیرا وضوح گام به گام، قابلیت همکاری ابزار و حرکت انجمن را با هم ترکیب می‌کنند. اگر بین آنها انتخاب می‌کنید، تناسب مناسب به نیازهای حفظ حریم خصوصی داده‌های شما، محاسبات موجود و میزان تحمل شما برای نمونه‌برداری به‌علاوه سربار تأیید بستگی دارد.

مقایسه سریع: نقاط قوت بر اساس سناریو

آموزش سریع و مقرون‌به‌صرفه: Phi-4 تنظیم‌شده ریاضی; انواع کوچک WizardMath.

بالاترین دقت با نمونه‌برداری: DeepSeek R1 تقطیرشده; Llama 3.1 70B با آداپتورهای ریاضی; Qwen2.5-Math 32B.

اثبات و هندسه: کمک‌کننده‌های اثبات تنظیم‌شده MiniF2F; Math-Shepherd.

تجزیه و تحلیل سازمانی با انطباق: مشتقات Llama 3.1 یا Mistral Large در محل.

تولیدپذیری تحقیق: مشتقات Llama تنظیم‌شده با OpenMathInstruct با انتخاب داده شفاف.

چه چیزی واقعاً دقت استدلال ریاضی را در سال 2025 افزایش می‌دهد

حتی بهترین مدل‌های هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 از سازماندهی فراتر از یک گذر رو به جلو بهره می‌برند.

نمونه‌برداری خودسازگاری: چندین زنجیره راه‌حل ایجاد کنید و به پاسخ‌ها رأی دهید. انتظار می‌رود 5 تا 15 امتیاز در GSM8K/MATH با 5 تا 20 نمونه به دست آید.

فراخوانی ابزار: محاسبات حسابی، ساده‌سازی جبری و حساب دیفرانسیل و انتگرال را به Python/sympy واگذار کنید. مدل‌ها بر برنامه‌ریزی و تفسیر تمرکز می‌کنند.

مدل‌های تأییدکننده: یک بررسی‌کننده سبک وزن برای علامت‌گذاری تناقضات، خطاهای ابعادی یا ناسازگاری‌های مرحله‌ای.

اعلان ساختاریافته: یک طرحواره را اجباری کنید—فرضیات → برنامه → استخراج → بررسی → نهایی—رانش را کاهش می‌دهد.

رمزگشایی درجه‌بندی شده برنامه درسی: برای ساختار حریصانه شروع کنید، برای مراحل خلاقانه به دمای بالاتر تغییر دهید.

بازیابی فرمول‌ها و قضایا: لم‌ها یا هویت‌های مرتبط را پیوست کنید تا "حقایق" توهمی را کاهش دهید.

اعلان‌های نمونه برای نتایج بهتر

از این الگوهای اعلان با هر یک از 10 مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 استفاده کنید.

جبر سبک مسابقه سیستم: شما یک حل‌کننده دقیق ریاضی مسابقه هستید. مراحل مختصر را نشان دهید و پاسخ عددی نهایی را تأیید کنید. کاربر: فرض کنید x و y اعداد حقیقی با x + y = 10 و xy = 16 هستند. x^2 + y^2 را پیدا کنید. دستیار:

فرضیات

برنامه

استخراج (از هویت x^2 + y^2 = (x+y)^2 − 2xy استفاده کنید)

بررسی

نهایی: 68

حساب دیفرانسیل و انتگرال با واحدها سیستم: شما یک دستیار ریاضی آگاه به فیزیک هستید. واحدها را پیگیری کنید و بررسی‌های ابعادی را انجام دهید. کاربر: A(t) = 3t^2 − 2t + 1 cm^2. نرخ تغییر را در t=5 s پیدا کنید. دستیار: dA/dt = 6t − 2 را استخراج کنید; در t=5 ارزیابی کنید; واحدها را وارد کنید: cm^2/s.

هندسه/طرح اثبات سیستم: شما یک دستیار نوشتن اثبات هستید. یک طرح اثبات کوتاه و مرتب منطقی ارائه دهید. کاربر: ثابت کنید که میانه‌های یک مثلث در یک نقطه همدیگر را قطع می‌کنند. دستیار: با استفاده از ویژگی‌های نقطه میانی و استدلال‌های برداری/مساحتی طرح کلی را ترسیم کنید; به ویژگی‌های مرکزوار استناد کنید.

طرح اولیه پیاده‌سازی: از مدل واحد تا حل‌کننده قوی

در اینجا یک خط لوله عملی وجود دارد که بیشترین استفاده را از 10 مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 می‌برد.

روتر: نوع وظیفه را تشخیص دهید (حل عددی، دستکاری نمادین، طرح اثبات).

برنامه‌ریز: مراحل پیش‌نویس مدل و ابزارهای مورد نیاز را شناسایی می‌کند (Python, CAS، بازیابی قضیه).

حل‌کننده: محاسبات را از طریق Python/sympy اجرا کنید.

تأییدکننده: محدودیت‌ها، واحدها یا مراحل رسمی را بررسی کنید; چندین زنجیره را مقایسه کنید.

توضیح‌دهنده: یک راه‌حل تمیز و دانشجوپسند تولید کنید.

ثبت‌کننده: اعلان‌ها، ردیابی‌ها و نتایج تأیید را برای اشکال‌زدایی و تجزیه و تحلیل یادگیری ذخیره کنید.

موارد حاشیه‌ای را در نظر بگیرید: پایداری ممیز شناور، انتخاب شاخه در مقادیر مطلق و ریشه‌های خارجی. یک تأییدکننده خوب این موارد را به طور سیستماتیک می‌گیرد.

یادداشت‌های سخت‌افزار و استقرار

کلاس 7B–14B (Phi-4، WizardMath کوچک): استنتاج GPU مدرن تک (12–24 گیگابایت) یا CPU با کوانتیزاسیون.

کلاس 32B (Qwen2.5-Math 32B): 2–4 GPU یا CPU با RAM بالا با وزن‌های کوانتیزه‌شده.

کلاس 70B (Llama 3.1 70B): Multi-GPU با موازی‌سازی تانسور. 4–8x کارت 24 گیگابایت + را در نظر بگیرید.

تاکتیک‌های توان عملیاتی: از رمزگشایی حدسی با یک مدل دستیار کوچک استفاده کنید; نتایج ابزار را کش کنید; نمونه‌برداری n-بهترین را دسته‌ای کنید.

موانع و نحوه اجتناب از آنها

بیش‌برازش به مثال‌های کار شده: نام‌های متغیرها و فرم‌های سطحی را در طول اعلان چندشاتی تصادفی کنید.

لغزش‌های حسابی بی‌صدا: همیشه حساب را به Python هدایت کنید و نتایج نهایی را دوباره بررسی کنید.

زنجیره تفکر بیش از حد طولانی: برنامه را فشرده نگه دارید; فقط در صورت نیاز به جزئیات در استخراج اجازه دهید.

تکان دادن دست اثبات: ارجاعات صریح به لم‌ها یا ویژگی‌ها را تشویق کنید; قطعات بازیابی کوتاه را پیوست کنید.

شایان ذکر است: تسریع کار ریاضی با Sider.AI

وقتی یک خط لوله را با 10 مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 راه‌اندازی می‌کنید، همچنان به یک رابط نیاز دارید تا روی اعلان‌ها تکرار کنید، اجراهای مدل را مقایسه کنید و ابزارها را وصل کنید. شایان ذکر است: Sider.AI محیطی را فراهم می‌کند که در آن می‌توانید به سرعت اعلان‌های A/B را آزمایش کنید، به مدل‌های باز مختلف هدایت کنید و اجراهای Python یا sympy را به صورت درون‌خطی پیوست کنید. این امر به ویژه برای مربیانی که بانک‌های مسئله می‌سازند یا تیم‌هایی که ویژگی‌های تجزیه و تحلیل را ارسال می‌کنند مفید است—زیرا می‌توانید زنجیره‌ها را مقایسه کنید، با یک تأییدکننده اعتبارسنجی کنید و قابل اعتمادترین خروجی را بدون DevOps سنگین ارسال کنید.

پلی‌بوک کوچک: بهترین انتخاب‌ها بر اساس هدف

برای کلاس‌های درس و لپ‌تاپ‌های مقرون‌به‌صرفه: Phi-4 تنظیم‌شده ریاضی با ساختار سخت; WizardMath کوچک.

برای دقت قوی با تأیید: DeepSeek R1 تقطیرشده + Python + خودسازگاری (k=10–20).

برای وظایف سازمانی متن + ریاضی مختلط: Llama 3.1 70B با آداپتور ریاضی، در محل، تأییدکننده در Rust/Python.

برای یادگیری سنگین اثبات: کمک‌کننده تنظیم‌شده MiniF2F یکپارچه با Lean برای بررسی‌های جزئی.

برای آموزش عملی روزمره: Qwen2.5-Math 32B با اعلان‌های رتبه‌بندی و بررسی واحد.

آینده استدلال ریاضی باز

انتظار سه روند در سال‌های 2025–2026 را داشته باشید:

آموزش اول تأییدکننده: مدل‌هایی که برای تشخیص و تعمیر مراحل خود آموزش دیده‌اند، به پیش‌فرض تبدیل می‌شوند.

عامل‌های بومی CAS: ادغام تنگاتنگ sympy/Maple/Mathematica، با ردیابی‌های معنایی و ساده‌سازی خودکار.

پل‌های پیوند رسمی: اتصالات بهتر از مراحل زبان طبیعی به دستیاران اثبات رسمی.

این تغییرات مدل‌های هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 را حتی به قابلیت اطمینان سطح معلم خصوصی نزدیک‌تر می‌کند—بدون قربانی کردن شفافیت.

نکات کلیدی

10 مدل برتر هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 هنگامی که با خودسازگاری، استفاده از ابزار و یک تأییدکننده جفت شوند، برتر هستند.

بر اساس محدودیت‌ها انتخاب کنید: بودجه محاسباتی، مجوز و نوع وظیفه (عددی در مقابل اثبات).

ساختار بهتر از سبک است: یک برنامه واضح → استخراج → جریان بررسی از اکثر خطاها جلوگیری می‌کند.

تأیید را رد نکنید: بررسی‌های نمادین و تجزیه و تحلیل واحد لغزش‌های بی‌صدا را می‌گیرند.

اکوسیستم مهم است: مدل‌هایی را با جوامع فعال و آداپتورهایی که می‌توانید تنظیم دقیق کنید، انتخاب کنید.

مراحل بعدی

دو نامزد مناسب برای سخت‌افزار خود را انتخاب کنید (به عنوان مثال، Qwen2.5-Math 32B و DeepSeek R1 تقطیرشده).

یک حلقه فراخوانی ابزار حداقلی را با Python/sympy و خودسازگاری پیاده‌سازی کنید.

یک تأییدکننده اضافه کنید که محدودیت‌ها و واحدها را بررسی می‌کند; همه زنجیره‌ها و تصمیمات را ثبت کنید.

از Sider.AI برای تکرار اعلان‌ها، مقایسه زنجیره‌های استدلال و استانداردسازی فرمت‌های راه‌حل استفاده کنید.

با 50–100 مسئله متنوع به صورت آزمایشی اجرا کنید; دقت و زمان تصحیح را اندازه‌گیری کنید.

سؤالات متداول

Q1:بهترین مدل‌های هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 کدامند? انتخاب‌های برتر شامل DeepSeek R1 تقطیرشده، Qwen2.5-Math، Llama 3.1 با آداپتورهای ریاضی، انواع ریاضی مبتنی بر Mistral و Phi-4 تنظیم‌شده ریاضی است. این مدل‌های هوش مصنوعی متن‌باز برای استدلال ریاضی در سال 2025 دقت، سرعت و پشتیبانی ابزار را متعادل می‌کنند.

Q2:کدام مدل متن‌باز برای ریاضی مسابقه مانند AIME بهترین است? DeepSeek R1 تقطیرشده و Llama 3.1 70B با آداپتورهای تنظیم‌شده ریاضی با نمونه‌برداری خودسازگاری و یک تأییدکننده Python به خوبی عمل می‌کنند. کمک‌کننده‌های تنظیم‌شده MiniF2F برای استدلال سبک اثبات و هندسه قوی هستند.

Q3:چگونه می‌توانم دقت را با مدل‌های ریاضی متن‌باز بهبود بخشم? از خودسازگاری (k=5–20) استفاده کنید، حساب را به Python یا sympy هدایت کنید و یک تأییدکننده سبک وزن برای واحدها و محدودیت‌ها اضافه کنید. اعلان‌های ساختاریافته—فرضیات، برنامه، استخراج، بررسی—خطاها را کاهش می‌دهند.

Q4:برای این مدل‌های استدلال ریاضی به چه سخت‌افزاری نیاز دارم? مدل‌های 7B–14B روی یک GPU 12–24 گیگابایتی تک یا CPU کوانتیزه‌شده اجرا می‌شوند; مدل‌های 32B به 2–4 GPU نیاز دارند; مدل‌های 70B به تنظیمات multi-GPU نیاز دارند. کوانتیزاسیون و رمزگشایی حدسی به کنترل هزینه کمک می‌کنند.

Q5:آیا می‌توانم از Sider.AI با مدل‌های ریاضی متن‌باز استفاده کنم? بله. Sider.AI می‌تواند آزمایش‌های اعلان را سازماندهی کند، درخواست‌ها را در بین مدل‌ها هدایت کند و ابزارهای Python/sympy را برای تأیید پیوست کند. برای مربیان و تیم‌هایی که ویژگی‌های استدلال ریاضی را ارسال می‌کنند مفید است.