La IA está cambiando la forma en que los matemáticos resuelven problemas y escriben demostraciones

El sistema AlphaProof de DeepMind resolvió cuatro de seis problemas en la Olimpiada Internacional de Matemáticas 2024, generando demostraciones formalmente verificadas mediante aprendizaje por refuerzo entrenado con millones de problemas autoformalizados. Ese resultado, reportado en un estudio reciente en Nature, señala un cambio más amplio. La inteligencia artificial no solo está ayudando a los matemáticos, sino que está reformando activamente la mecánica de cómo se redactan, verifican y descubren las demostraciones.

AlphaProof y el avance del aprendizaje por refuerzo

AlphaProof se inspira en AlphaZero, el agente jugador que dominó el ajedrez y el Go. Pero en lugar de posiciones de tablero, explora estados formales de prueba en el asistente de demostraciones Lean. El sistema aprende a encontrar demostraciones formales mediante aprendizaje por refuerzo, entrenando con millones de problemas que fueron traducidos automáticamente al lenguaje matemático formal. Cada prueba candidata es comprobada por un motor de verificación, creando un bucle de retroalimentación en el que el modelo mejora al confirmar qué pasos de razonamiento realmente se sostienen.

El desempeño en la IMO 2024 es llamativo porque los problemas de competición se sitúan en el límite de lo que los competidores humanos entrenados pueden manejar bajo presión de tiempo. AlphaProof operó en un entorno formal, lo que significa que cada paso que produjo era verificable por máquina en lugar de basarse en los saltos intuitivos que caracterizan las demostraciones manuscritas. Esa distinción importa. Una demostración verificada formalmente no deja huecos para errores ocultos, que es exactamente el estándar que los matemáticos escépticos exigen antes de confiar en un razonamiento generado por una máquina.

El pipeline de entrenamiento de AlphaProof también sugiere cómo podrían construirse los sistemas futuros. Al autoformalizar un gran número de problemas y luego usar aprendizaje por refuerzo para navegar el espacio de búsqueda resultante, los desarrolladores sortearon la escasez de demostraciones formales escritas a mano. El sistema aprendió efectivamente una política para la construcción de pruebas, guiada no por demostraciones humanas sino por las rígidas restricciones de un verificador de pruebas. En ese sentido, la demostración en la IMO es menos un truco publicitario y más una prueba de que la búsqueda de pruebas formales puede escalar hasta matemáticas genuinamente desafiantes.

De la geometría de las olimpiadas a la combinatoria

AlphaProof no es el único sistema que empuja estos límites. AlphaGeometry, publicado como un estudio revisado por pares en Nature, presentó un marco neuro-simbólico que empareja un modelo de lenguaje neuronal entrenado con datos sintéticos con un motor de deducción simbólica. El componente neuronal propone construcciones geométricas y pasos intermedios, mientras que el motor simbólico hace cumplir la consistencia lógica verificando cada movimiento deductivo. Esta división del trabajo permite al modelo explorar ideas geométricas creativas sin sacrificar el rigor del razonamiento formal.

Su sucesor, AlphaGeometry2, amplió este enfoque y fue evaluado en conjuntos históricos de problemas de geometría de olimpiadas. Según un preprint en arXiv, el sistema igualó el rendimiento de los mejores medallistas de oro humanos, resolviendo una fracción comparable de problemas en condiciones similares, y lo hizo sin depender de trazas de soluciones humanas durante el entrenamiento. Ese resultado sugiere que, al menos en dominios estructurados como la geometría euclidiana, la IA puede internalizar heurísticas de resolución de problemas que antes se consideraban requerían años de práctica humana especializada.

En el lado de la combinatoria, FunSearch siguió un camino diferente. En lugar de demostrar teoremas directamente, empleó un modelo de lenguaje grande dentro de un bucle de búsqueda evolutiva para generar programas candidatos, que luego fueron evaluados por su calidad matemática. Este enfoque, descrito en un artículo de Nature sobre nuevas construcciones combinatorias, produjo ejemplos novedosos de conjuntos cap y heurísticas mejoradas para el problema del empaquetamiento. El punto clave es que el sistema descubrió objetos matemáticos y algoritmos que no habían sido catalogados previamente por humanos, subrayando que los modelos generativos pueden aportar ideas genuinamente nuevas en lugar de limitarse a remezclar las existentes.

El cuello de botella de la formalización

A pesar de estos avances, un desafío persistente es la brecha entre cómo piensan los matemáticos y cómo funcionan los asistentes de pruebas. Las soluciones escritas por humanos, especialmente al nivel de las olimpiadas, a menudo se basan en ideas de alto nivel, sustituciones ingeniosas y diagramas informales. Convertir ese razonamiento en una prueba verificable por máquina suele requerir descomponer el argumento en muchos lemas pequeños, cada uno expresado en la sintaxis rígida de un asistente de pruebas. Un reciente análisis en arXiv de problemas de olimpiadas encontró que una sola pregunta de competición puede expandirse a docenas de pasos formales cuando se traduce a Lean, lo que ilustra lo rápido que explota la complejidad.

Este proceso de descomposición es laborioso, y la escasez de corpus formales grandes y de alta calidad ha limitado la rapidez con la que los demostradores neuronales pueden mejorar. DeepSeek-Prover, un sistema centrado en la autoformalización para las matemáticas formales, apunta directamente a este cuello de botella al traducir afirmaciones matemáticas informales a formales a gran escala. Al generar pares alineados de texto informal y formal, tales sistemas aspiran a crear los datos de entrenamiento que los modelos de lenguaje modernos necesitan para aprender estrategias de prueba robustas.

Por su parte, Lean-STaR adopta otro enfoque: en lugar de insistir en razonamientos puramente formales desde el principio, su modelo genera comentarios informales intercalados con pasos de prueba en Lean. Este estilo mixto ha mostrado un mejor rendimiento en el benchmark miniF2F, que agrega problemas de competiciones como la AMC, AIME y la IMO en múltiples asistentes de pruebas. La idea es que permitir que el modelo “piense en voz alta” en lenguaje natural puede guiarlo hacia mejores jugadas formales, al igual que los matemáticos humanos bosquejan ideas en prosa antes de llevarlas al rigor completo.

Los matemáticos son cautelosos por buenas razones

El creciente nivel de estos sistemas no ha silenciado el escepticismo. El matemático de UCLA Terence Tao, citado en una cobertura resumida por la sala de prensa de UCLA, ha enfatizado que los modelos de IA están volviéndose cada vez más proficientes en generar argumentos que parecen demostraciones reales. La palabra «convincente» tiene peso aquí: una demostración que parece sólida para un lector humano pero contiene errores sutiles puede ser más peligrosa que un intento evidentemente defectuoso, porque corre el riesgo de sembrar programas de investigación enteros sobre una base falsa.

Es precisamente aquí donde la verificación formal ofrece una red de seguridad. Cuando AlphaProof genera una solución en Lean, cada paso lógico es comprobado por el asistente de pruebas antes de que se acepte el resultado. El sistema no puede engañar al verificador; si un paso no se sigue de los anteriores, la prueba simplemente falla. Sin embargo, la mayor parte del razonamiento matemático generado por IA hoy en día no se produce dentro de asistentes de pruebas. Los modelos de lenguaje grandes estándar siguen siendo propensos a alucinaciones, ocasionalmente fabricando lemas, aplicando incorrectamente teoremas o saltándose casos cruciales incluso cuando suenan confiados.

Investigadores que trabajan bajo el paraguas AI4Math han argumentado que abordar esta brecha es tanto intelectualmente significativo como prácticamente esencial. Si la IA ha de asistir en dominios críticos para la seguridad, como el diseño de protocolos criptográficos o la verificación formal de hardware, su razonamiento matemático debe ser no solo creativo sino también confiablemente correcto. Eso requiere una mejor integración entre los modelos generativos y los sistemas formales que pueden certificar sus salidas.

Victorias tempranas en bibliotecas formales

La idea de que las máquinas contribuyan con demostraciones aceptadas a bibliotecas mantenidas por humanos ya no es teórica. GPT-f, un sistema temprano de búsqueda de pruebas impulsado por un modelo de lenguaje, generó nuevas derivaciones cortas que se incorporaron a la biblioteca Metamath, un repositorio de larga trayectoria de matemáticas totalmente formalizadas. En ese proyecto, el modelo no operó como un demostrador de teoremas autónomo; en su lugar, proponía pasos de prueba candidatos que luego eran validados por el estricto verificador de Metamath. Solo se admitieron las secuencias que pasaron esa comprobación, asegurando que cada contribución sugerida por la máquina cumpliera los estándares de rigor de la comunidad.

Estos primeros éxitos insinúan un futuro en el que las bibliotecas formales crezcan mediante una combinación de esfuerzo humano y máquina. Los sistemas de IA podrían examinar repositorios existentes en busca de teoremas con demostraciones largas o frágiles y buscar alternativas más cortas y robustas. También podrían identificar lagunas, conjeturas naturales que los humanos aún no han explorado, y bien proponer enunciados tentativos o intentar demostraciones formales completas. Como con el desempeño de AlphaProof en la olimpiada, la clave es que cada contribución iría acompañada de un certificado de corrección en el que otros matemáticos puedan confiar.

Por ahora, el campo sigue en una fase de transición. Sistemas como AlphaProof, AlphaGeometry2 y FunSearch demuestran que la IA puede abordar problemas al nivel o más allá del de competidores humanos de élite en dominios específicos. Las herramientas de autoformalización y los enfoques híbridos como Lean-STaR empiezan a aliviar el cuello de botella que durante mucho tiempo ha separado la intuición informal de la verificación formal. Al mismo tiempo, matemáticos de primer nivel continúan expresando preocupaciones sobre la dependencia excesiva de modelos opacos cuyo razonamiento interno no puede ser inspeccionado ni garantizado.

Los próximos años probablemente estarán definidos menos por resultados de competencia que acaparen titulares y más por la infraestructura: construir bibliotecas formales más ricas, refinar los pipelines de autoformalización e integrar asistentes de pruebas en la práctica matemática cotidiana. Si ese trabajo tiene éxito, la IA no reemplazará tanto a los matemáticos como cambiará lo que hacen, trasladando el esfuerzo de verificar argumentos rutinarios a explorar nuevas conjeturas, estructuras y teorías. En ese mundo, las demostraciones más importantes pueden ser aquellas que ningún humano o máquina habría podido encontrar por sí solo, sino que emergen de una colaboración estrechamente acoplada entre ambos.

IG

FB

PIN

LI

X