What are the best open-source AI models for math reasoning in 2025?

Top picks include DeepSeek R1 distilled, Qwen2.5-Math, Llama 3.1 with math adapters, Mistral-based math variants, and Phi-4 math-tuned. These open-source AI models for math reasoning in 2025 balance accuracy, speed, and tooling support.

Which open-source model is best for competition math like AIME?

DeepSeek R1 distilled and Llama 3.1 70B with math-tuned adapters perform well with self-consistency sampling and a Python verifier. MiniF2F-tuned helpers are strong for proof-style and geometry reasoning.

How can I improve accuracy with open-source math models?

Use self-consistency (k=5–20), route arithmetic to Python or sympy, and add a lightweight verifier for units and constraints. Structured prompts—Assumptions, Plan, Derivation, Check—reduce errors.

What hardware do I need for these math reasoning models?

7B–14B models run on a single 12–24GB GPU or quantized CPU; 32B models need 2–4 GPUs; 70B models require multi-GPU setups. Quantization and speculative decoding help control cost.

Can I use [Sider.AI](https://sider.ai) with open-source math models?

Yes. [Sider.AI](https://sider.ai) can orchestrate prompt experiments, route requests across models, and attach Python/sympy tools for verification. It’s useful for educators and teams shipping math reasoning features.

Els 10 millors models d'IA de codi obert per al raonament matemàtic el 2025

El problema de matemàtiques no és matemàtiques, és raonament

Si alguna vegada has vist un model de llenguatge potent ensopegar amb un pas d'àlgebra senzill després d'escriure un esquema de prova perfecte, saps la veritat: les matemàtiques no tracten només de càlcul. Tracta de raonament estructurat: mantenir les variables rectes, respectar les restriccions i arribar a una resposta verificablement correcta. El 2025, els 10 millors models d'IA de codi obert per al raonament matemàtic finalment estan reduint la bretxa amb els sistemes propietaris combinant la planificació de la cadena de pensament, l'ús d'eines (com Python i sympy), corpus de matemàtiques curats amb cura i l'aprenentatge per reforç a partir de senyals verificables.

En aquesta guia, analitzem els 10 millors models d'IA de codi obert per al raonament matemàtic el 2025: en què són excel·lents, com s'entrenen, quan utilitzar-los i com integrar-los en fluxos de treball reals. Hi trobareu les millors recomanacions per a K–12, preparació de competicions, matemàtiques simbòliques i resolució de problemes a nivell de recerca.

Nota: per claredat i amplitud, ho presentem com una llista pràctica i orientada a la solució amb immersions profundes. Quan sigui rellevant, també assenyalem referències com GSM8K, MATH, AIME, OlympiadBench i MiniF2F per fonamentar la capacitat. La vostra paraula clau principal (top 10 open-source AI models for math reasoning in 2025) apareix a tot arreu per coincidir amb la intenció de cerca sense farcir paraules clau.

Com vam avaluar els 10 millors models d'IA de codi obert per al raonament matemàtic el 2025

Referències específiques de matemàtiques: GSM8K (primària), MATH (secundària/primers anys d'universitat), tasques d'estil AIME (competició), MiniF2F (conjunts de problemes formalitzats) i proves d'estrès de raonament.

Transparència i llicència: pesos oberts, dades documentades, llicències permissives o amigables per a la recerca.

Ús d'eines i verificabilitat: integració amb Python, sympy o verificadors de proves; ús de models d'autoconsistència i verificadors.

Practicitat: cost d'inferència, velocitat, longitud del context i disponibilitat d'instruccions/punts de control ajustats per al raonament matemàtic pas a pas.

Ecosistema: comunitat activa, notebooks d'exemple i agents que orquestren la planificació → resolució → verificació.

La llista: els 10 millors models d'IA de codi obert per al raonament matemàtic el 2025

A continuació, es mostren els deu models que destaquen constantment per la seva precisió, obertura i desplegament pràctic. Incloem notes de capacitat, casos d'ús ideals i consells de configuració.

1) DeepSeek R1 (variants destil·lades, pesos oberts)

Per què és aquí: entre els models oberts més forts per a tasques de raonament primer, amb un estil d'entrenament de cadena de pensament i traces d'auto-joc destil·lades que milloren la robustesa en matemàtiques de diversos passos.

Fortaleses: excel·lent en problemes d'estil GSM8K, competitiu en MATH amb mostreig deliberat (p. ex., temperatura > 0 i autoconsistència). Raonament sòlid amb pocs exemples amb bloc de notes.

Millor ús: tutor de matemàtiques de propòsit general, pipelines de codificació + matemàtiques, agents que verifiquen les respostes numèriques finals.

Consell: utilitzeu el mostreig n-best amb un verificador lleuger que cridi Python o sympy; retalleu automàticament les cadenes incoherents.

2) Qwen2.5-Math (instrucció i mides de 32B+)

Per què és aquí: família ajustada a les matemàtiques construïda expressament amb un fort seguiment d'instruccions i afinitat per l'ús d'eines. Els punts de control de matemàtiques estan optimitzats per a l'àlgebra, el càlcul i els conceptes bàsics de la teoria de nombres.

Fortaleses: fiabilitat sòlida amb una cadena de pensament curta; bon equilibri de latència i precisió entre mides.

Millor ús: tutoria interactiva, passos de solució estructurats per a K–12 fins a la universitat inicial.

Consell: combineu-ho amb una sol·licitud de rúbrica de qualificació ("indiqueu els supòsits, mostreu la derivació, verifiqueu les unitats") per obtenir sortides més netes.

3) Llama 3.1 Instruct (adaptadors de 70B i 8B+ ajustats a les matemàtiques)

Per què és aquí: una columna vertebral àmpliament adoptada amb eines madures i adaptadors específicament ajustats en traces de raonament matemàtic.

Fortaleses: forta generalització, context llarg i comportament estable amb mostreig d'autoconsistència.

Millor ús: desplegaments empresarials i pipelines RAG+compute; tasques híbrides que combinen matemàtiques amb text de domini.

Consell: per a problemes d'estil de competició, feu pocs exemples amb solucions d'alta qualitat i imposeu l'enquadrament de respostes mitjançant regex.

4) Mistral Large (models derivats de pesos oberts i adaptadors Mixtral Math)

Per què és aquí: eficiència basada en MOE amb adaptadors centrats en les matemàtiques que superen el seu recompte de paràmetres.

Fortaleses: control de velocitat i cost; ecosistema d'ajustament fi flexible; bona integració de l'ús d'eines.

Millor ús: clústers sense servidor o on-prem on la capacitat de processament és important; aplicacions d'anàlisi intensiva de matemàtiques.

Consell: utilitzeu indicacions d'encaminador per decidir quan cridar una eina de Python en comptes de confiar en el raonament intern del model.

5) Phi-4 (punts de control de la comunitat ajustats a les matemàtiques)

Per què és aquí: petit però poderós. Malgrat la seva mida, les variants Phi-4 ajustades a les matemàtiques ofereixen sortides pas a pas sorprenentment disciplinades.

Fortaleses: eficient energèticament, econòmic; funciona bé amb restriccions d'estructura explícites.

Millor ús: dispositius perifèrics, aules i aplicacions de tutoria BYOD.

Consell: forceu la sortida estructurada amb encapçalaments: "Conegut", "Desconegut", "Pla", "Resol", "Comprova".

6) Derivats Llama ajustats per OpenMathInstruct

Per què és aquí: models ajustats per la comunitat entrenats en conjunts de dades d'instruccions de matemàtiques obertes i traces de solucions seleccionades.

Fortaleses: dades transparents, comportament controlable i sòlid rendiment amb bucles de verificació.

Millor ús: fluxos de treball de recerca on la reproductibilitat i el llinatge de dades són importants.

Consell: combineu-ho amb un verificador d'unitats i un simplificador simbòlic per detectar errors de signe i simplificació.

7) Math-Shepherd (millorat amb l'autoverificació)

Per què és aquí: utilitza un solucionador al bucle o un entrenament orientat al verificador per reduir els passos al·lucinats.

Fortaleses: millor precisió en les derivacions; respostes finals numèriques nítides.

Millor ús: càlculs d'enginyeria i tasques de modelatge financer on els errors són costosos.

Consell: imposeu una secció final de "comprovació de coherència": límits de magnitud, anàlisi dimensional i derivació alternativa.

8) WizardMath (variants ajustades per instruccions)

Per què és aquí: llinatge especialitzat en matemàtiques de codi obert primerenc que continua millorant amb les dades i els mètodes moderns.

Fortaleses: bo en la manipulació algebraica i la resolució d'equacions; sortida de passos clara.

Millor ús: contingut de pont d'àlgebra a càlcul; preparació SAT/ACT i ubicació.

Consell: afegiu un recordatori de "errors comuns" a la sol·licitud del sistema per suprimir les transformacions estranyes.

9) OpenHermes-Math / adaptadors Hermes-Math

Per què és aquí: models de la comunitat que mostren un format de raonament acurat i una forta adherència a l'estil d'instrucció.

Fortaleses: format net, cadència d'explicació i resolució i un rendiment decent d'estil AIME amb mostreig.

Millor ús: ajudants de docència per a conjunts de problemes i generació de bancs de solucions.

Consell: utilitzeu l'autoconsistència amb 5–10 mostres; seleccioneu les respostes que coincideixin després de la simplificació simbòlica.

10) Ajudants de proves ajustats per MiniF2F (punts de control orientats a proves esveltes)

Per què és aquí: nínxol però potent: millor en estructures de raonament formal i esquelets de proves.

Fortaleses: raonament geomètric, proves d'equivalència i passos d'argument estructurats.

Millor ús: pedagogia d'escriptura de proves i geometria d'estil d'Olimpíada.

Consell: integriu-vos amb fluxos de treball Lean o Coq per a la verificació formal parcial o el descobriment de lemes.

Aquests són els 10 millors models d'IA de codi obert per al raonament matemàtic el 2025 perquè combinen claredat pas a pas, interoperabilitat d'eines i impuls de la comunitat. Si trieu entre ells, l'ajust adequat depèn de les vostres necessitats de privadesa de dades, la computació disponible i la vostra tolerància al mostreig més la sobrecàrrega de verificació.

Comparació ràpida: fortaleses per escenari

Tutoria ràpida i econòmica: Phi-4 ajustat a les matemàtiques; petites variants de WizardMath.

Màxima precisió amb el mostreig: DeepSeek R1 destil·lat; Llama 3.1 70B amb adaptadors de matemàtiques; Qwen2.5-Math 32B.

Prova i geometria: ajudants de prova ajustats per MiniF2F; Math-Shepherd.

Anàlisi empresarial amb compliment: Llama 3.1 o derivats Mistral Large on-prem.

Reproductibilitat de la investigació: derivats Llama ajustats per OpenMathInstruct amb curació de dades transparent.

Què augmenta realment la precisió del raonament matemàtic el 2025

Fins i tot els millors models d'IA de codi obert per al raonament matemàtic el 2025 es beneficien de l'orquestració més enllà d'una sola passada endavant.

Mostreig d'autoconsistència: genereu múltiples cadenes de solucions i voteu les respostes. Espereu guanys de 5–15 punts a GSM8K/MATH amb 5–20 mostres.

Crida d'eines: descarregueu l'aritmètica, la simplificació algebraica i el càlcul a Python/sympy; els models se centren en la planificació i la interpretació.

Models de verificació: un verificador lleuger per marcar contradiccions, errors dimensionals o inconsistències de pas.

Sol·licitud estructurada: forceu un esquema: Supòsits → Pla → Derivació → Comprovació → Final—redueix la deriva.

Descodificació classificada per currículum: comenceu amb avarícia per a l'estructura, canvieu a una temperatura més alta per als passos creatius.

Recuperació de fórmules i teoremes: adjunteu lemes o identitats rellevants per reduir els "fets" al·lucinats.

Exemples de sol·licituds per obtenir millors resultats

Utilitzeu aquests patrons de sol·licitud amb qualsevol dels 10 millors models d'IA de codi obert per al raonament matemàtic el 2025.

Àlgebra d'estil de competició Sistema: sou un solucionador de matemàtiques de competició acurat. Mostra passos concisos i verifica la resposta numèrica final. Usuari: Siguin x i y nombres reals amb x + y = 10 i xy = 16. Trobeu x^2 + y^2. Assistent:

Supòsits

Derivació (utilitzeu la identitat x^2 + y^2 = (x+y)^2 − 2xy)

Comprova

Final: 68

Càlcul amb unitats Sistema: sou un assistent de matemàtiques coneixedor de la física. Feu un seguiment de les unitats i feu comprovacions dimensionals. Usuari: A(t) = 3t^2 − 2t + 1 cm^2. Trobeu la taxa de canvi a t=5 s. Assistent: Deriveu dA/dt = 6t − 2; avaluar a t=5; incloeu les unitats: cm^2/s.

Geometria/esquema de prova Sistema: sou un assistent d'escriptura de proves. Proporcioneu un esbós de prova curt i ordenat lògicament. Usuari: Demostreu que les mitjanes d'un triangle s'intersequen en un punt. Assistent: Esbós mitjançant propietats de punt mitjà i arguments de vector/àrea; citeu propietats de centroide.

Pla d'implementació: d'un sol model a un solucionador robust

Aquí teniu un pipeline pràctic que treu el màxim profit dels 10 millors models d'IA de codi obert per al raonament matemàtic el 2025.

Encaminador: detecteu el tipus de tasca (resolució numèrica, manipulació simbòlica, esbós de prova).

Planificador: el model redacta els passos i identifica les eines necessàries (Python, CAS, recuperació de teoremes).

Solucionador: executeu càlculs mitjançant Python/sympy.

Verificador: comproveu les restriccions, les unitats o els passos formals; compareu diverses cadenes.

Explicador: produeix una solució neta i amigable per a l'estudiant.

Registrador: deseu les sol·licituds, les traces i els resultats de la verificació per a la depuració i l'anàlisi d'aprenentatge.

Tingueu en compte els casos límit: estabilitat de coma flotant, selecció de branca en valors absoluts i arrels estranyes. Un bon verificador els detecta sistemàticament.

Notes de maquinari i desplegament

Classe 7B–14B (Phi-4, petit WizardMath): inferència de GPU moderna única (12–24 GB) o CPU amb quantificació.

Classe 32B (Qwen2.5-Math 32B): 2–4 GPU o CPU d'alta RAM amb pesos quantificats.

Classe 70B (Llama 3.1 70B): multi-GPU amb paral·lelisme de tensors; tingueu en compte targetes de 4–8x 24 GB+.

Tàctiques de capacitat de processament: utilitzeu la descodificació especulativa amb un model d'assistent petit; emmagatzemeu en memòria cau els resultats de l'eina; agrupeu el mostreig n-best.

Esculls i com evitar-los

Sobreajustament a exemples treballats: aleatoritzeu els noms de les variables i les formes de superfície durant les sol·licituds amb pocs exemples.

Errors aritmètics silenciosos: encaminar sempre l'aritmètica a Python i tornar a comprovar els resultats finals.

Cadena de pensament massa llarga: mantingueu el pla compacte; permeteu els detalls a la derivació només quan sigui necessari.

Agitació de mans de prova: fomenteu referències explícites a lemes o propietats; adjunteu fragments de recuperació curts.

Val la pena destacar: accelerar el treball matemàtic amb Sider.AI

Quan configureu un pipeline amb els 10 millors models d'IA de codi obert per al raonament matemàtic el 2025, encara necessiteu una interfície per iterar les sol·licituds, comparar les execucions del model i connectar eines. Val la pena destacar: Sider.AI proporciona un entorn on podeu provar ràpidament A/B les sol·licituds, encaminar a diferents models oberts i adjuntar execucions de Python o sympy en línia. Això és especialment útil per als educadors que creen bancs de problemes o equips que envien funcions d'anàlisi, perquè podeu comparar cadenes, validar amb un verificador i enviar la sortida més fiable sense DevOps pesats.

Mini llibre de jugades: millors opcions per objectiu

Per a aules i portàtils econòmics: Phi-4 ajustat a les matemàtiques amb estructura estricta; WizardMath petit.

Per a una precisió robusta amb verificació: DeepSeek R1 destil·lat + Python + autoconsistència (k=10–20).

Per a tasques empresarials mixtes de text + matemàtiques: Llama 3.1 70B amb adaptador de matemàtiques, on-prem, verificador a Rust/Python.

Per a l'aprenentatge pesat de proves: ajudant ajustat per MiniF2F integrat amb Lean per a comprovacions parcials.

Per a la tutoria pràctica diària: Qwen2.5-Math 32B amb sol·licituds de rúbrica i comprovacions d'unitats.

El futur del raonament matemàtic obert

Espereu tres tendències el 2025–2026:

Entrenament primer de verificació: els models entrenats per detectar i reparar els seus propis passos es convertiran en els predeterminats.

Agents natius de CAS: integració ajustada de sympy/Maple/Mathematica, amb traces semàntiques i automatització-simplificació.

Ponts d'enllaç formal: millors connexions des de passos de llenguatge natural fins a assistents de prova formals.

Aquests canvis impulsaran els models d'IA de codi obert per al raonament matemàtic el 2025 encara més a prop de la fiabilitat a nivell de tutor, sense sacrificar la transparència.

Conclusiones clau

Els 10 millors models d'IA de codi obert per al raonament matemàtic el 2025 excel·leixen quan es combinen amb l'autoconsistència, l'ús d'eines i un verificador.

Trieu per restriccions: pressupost de càlcul, llicències i tipus de tasca (numèric vs. prova).

L'estructura supera l'estil: un pla clar → derivació → flux de comprovació evita la majoria d'errors.

No us salteu la verificació: les comprovacions simbòliques i l'anàlisi d'unitats detecten errors silenciosos.

L'ecosistema importa: trieu models amb comunitats actives i adaptadors que pugueu ajustar.

Propers passos

Trieu dos candidats adequats al vostre maquinari (p. ex., Qwen2.5-Math 32B i DeepSeek R1 destil·lat).

Implementeu un bucle de crida d'eines mínim amb Python/sympy i autoconsistència.

Afegiu un verificador que comprovi les restriccions i les unitats; registreu totes les cadenes i decisions.

Utilitzeu Sider.AI per iterar les sol·licituds, comparar les cadenes de raonament i estandarditzar els formats de solució.

Piloteu amb 50–100 problemes variats; mesureu la precisió i el temps de correcció.

Preguntes freqüents

P1:Quins són els millors models d'IA de codi obert per al raonament matemàtic el 2025? Les millors opcions inclouen DeepSeek R1 destil·lat, Qwen2.5-Math, Llama 3.1 amb adaptadors de matemàtiques, variants de matemàtiques basades en Mistral i Phi-4 ajustat a les matemàtiques. Aquests models d'IA de codi obert per al raonament matemàtic el 2025 equilibren la precisió, la velocitat i el suport d'eines.

P2:Quin model de codi obert és millor per a les matemàtiques de competició com AIME? DeepSeek R1 destil·lat i Llama 3.1 70B amb adaptadors ajustats a les matemàtiques funcionen bé amb el mostreig d'autoconsistència i un verificador de Python. Els ajudants ajustats per MiniF2F són forts per al raonament d'estil de prova i geometria.

P3:Com puc millorar la precisió amb models matemàtics de codi obert? Utilitzeu l'autoconsistència (k=5–20), encaminar l'aritmètica a Python o sympy i afegiu un verificador lleuger per a unitats i restriccions. Les sol·licituds estructurades—Supòsits, Pla, Derivació, Comprovació—redueixen els errors.

P4:Quin maquinari necessito per a aquests models de raonament matemàtic? Els models 7B–14B s'executen en una sola GPU de 12–24 GB o CPU quantificada; els models 32B necessiten 2–4 GPU; els models 70B requereixen configuracions multi-GPU. La quantificació i la descodificació especulativa ajuden a controlar el cost.

P5:Puc utilitzar Sider.AI amb models matemàtics de codi obert? Sí. Sider.AI pot orquestrar experiments de sol·licitud, encaminar sol·licituds entre models i adjuntar eines de Python/sympy per a la verificació. És útil per als educadors i els equips que envien funcions de raonament matemàtic.