Las matemáticas entran en una nueva era y la inteligencia artificial (IA) es la responsable de que se hayan dado pasos sorprendentes en este ámbito, un terreno históricamente reservado para la creatividad y el ingenio humano.
En abril de 2025, la Agencia de Proyectos de Investigación Avanzada de Defensa de Estados Unidos (DARPA) lanzó expMath, una iniciativa orientada a transformar la resolución de problemas matemáticos complejos mediante IA.
Según MIT Technology Review, este programa busca redefinir el vínculo entre matemáticos y máquinas, en un terreno históricamente dominado por la intuición humana. Aunque herramientas como AlphaEvolve y AlphaProof, desarrolladas por Google DeepMind, muestran progresos notables, los especialistas señalan que los grandes descubrimientos aún escapan a la lógica computacional.
1- La iniciativa expMath de DARPA
DARPA, reconocida por su papel en el desarrollo de tecnologías disruptivas, cuestiona que la práctica matemática haya cambiado poco con el tiempo.
“Las matemáticas son fuente de un enorme impacto, pero se siguen haciendo más o menos como se han hecho durante siglos: por personas de pie frente a pizarras”, explicó Patrick Shafto, responsable del programa, citado por MIT Technology Review.
El proyecto propone la creación de un “coautor de IA”, capaz de colaborar activamente en la descomposición y análisis de problemas avanzados. Esta visión va más allá del uso tradicional de computadoras como herramientas de cálculo, y apunta a un modelo capaz de intervenir en problemas considerados irresolubles.
La iniciativa busca, además, unir a dos comunidades tradicionalmente separadas: los expertos en IA aplicada a las matemáticas y los matemáticos puros. DARPA aspira a que ambos grupos colaboren en la resolución de problemas complejos, abriendo nuevas posibilidades para la disciplina. “Es un problema muy difícil y técnico, pero tiene el potencial de cambiar el mundo”, afirmó Shafto en declaraciones recogidas por MIT Technology Review.
2/ De AlphaProof a AlphaEvolve
El último año ha sido testigo de progresos notables en la capacidad de los modelos de lenguaje de gran tamaño (LLM) y los modelos de razonamiento avanzado (LRM) para abordar problemas matemáticos. Según MIT Technology Review, sistemas como OpenAI’s o3 y Anthropic’s Claude 4 Thinking han logrado puntuaciones destacadas en la American Invitational Mathematics Examination (AIME), una prueba reservada para el 5% superior de estudiantes de secundaria en Estados Unidos.
Uno de los hitos más relevantes lo protagonizó AlphaProof, desarrollado por Google DeepMind. Este sistema, que combina un LLM con el modelo de juego AlphaZero, igualó el desempeño de un medallista de plata en la Olimpiada Internacional de Matemáticas, una de las competencias más prestigiosas del mundo. Emily de Oliveira Santos, matemática de la Universidad de São Paulo, señaló que “AlphaProof se convirtió en el primer programa informático en igualar el rendimiento de un medallista de plata en la Olimpiada Internacional de Matemáticas”.
En mayo de 2025, otro modelo de Google DeepMind, AlphaEvolve, superó los resultados humanos en más de 50 acertijos matemáticos sin resolver y en varios problemas reales de ciencias de la computación. De Oliveira Santos recordó que “GPT-4 no podía resolver problemas más allá del nivel universitario”, pero modelos más recientes, como OpenAI’s o1, han demostrado una capacidad mucho mayor, resolviendo problemas complejos de topología que antes resultaban inabordables para la IA.
Estos avances han generado entusiasmo, pero también cautela. De Oliveira Santos advirtió que el éxito en problemas de competencia, como los de la Olimpiada, no implica necesariamente que la IA esté lista para abordar problemas de investigación, que suelen ser más exploratorios y menos estructurados. “Los problemas de la Olimpiada suelen requerir trucos ingeniosos, mientras que los de investigación son mucho más explorativos y tienen muchas más piezas en movimiento”, explicó.
Martin Bridson, presidente del Clay Mathematics Institute y profesor en la Universidad de Oxford, coincidió en que los logros de la IA en competencias son notables, pero no constituyen un cambio de paradigma. “Esperaba que las máquinas pudieran hacer eso”, afirmó, argumentando que si se puede entrenar a muchas personas para resolver esos problemas, también se puede entrenar a una máquina.
A pesar de los progresos, la IA enfrenta obstáculos significativos cuando se trata de problemas matemáticos de investigación. Bridson subrayó que, aunque los modelos actuales superan a la mayoría de los humanos en pruebas como AIME, están lejos de aportar soluciones a los grandes problemas abiertos, como los del Millennium Prize Problems, que incluyen la hipótesis de Riemann y P versus NP.
Sergei Gukov, matemático del Instituto de Tecnología de California (Caltech) y entrenador de equipos de la Olimpiada Matemática, explicó que los problemas de competencia suelen compartir patrones y pueden resolverse aplicando tácticas conocidas. “Los problemas específicos no han aparecido antes, pero son muy similares a muchos otros que ya se han visto”, indicó Gukov a MIT Technology Review. Esta repetición facilita el entrenamiento tanto de estudiantes como de máquinas.
En contraste, los problemas de investigación suelen requerir secuencias de razonamiento mucho más largas y originales. Bridson enfatizó que “estamos muy lejos de que la IA pueda decir algo serio sobre cualquiera de esos problemas”.
3. Nuevos estándares de evaluación: el caso de FrontierMath
La saturación de los exámenes tradicionales ha llevado a la creación de nuevos estándares para medir el progreso de la IA en matemáticas. Epoch AI, una startup especializada, desarrolló FrontierMath, una prueba lanzada en diciembre de 2024 en colaboración con más de 60 matemáticos de todo el mundo. A diferencia de exámenes como AIME, FrontierMath presenta problemas inéditos y mantiene la mayoría en secreto para evitar que formen parte de los datos de entrenamiento de los modelos.
De Oliveira Santos, quien participó en el desarrollo de algunos de estos problemas, señaló que FrontierMath está diseñado para explorar los límites reales de la IA. En esta prueba, los mejores modelos actuales, como OpenAI’s o4-mini y Google DeepMind’s Gemini 2.5 Pro, obtienen puntuaciones del 19% y 13% respectivamente, muy por debajo del 90% que alcanzan en AIME. MIT Technology Review detalló que estos resultados, aunque notables, evidencian el amplio margen de mejora y la complejidad de los desafíos pendientes.
Uno de los principales retos para la IA en matemáticas es la gestión de secuencias extremadamente largas de pasos lógicos. Gukov explicó que, mientras los problemas de secundaria pueden resolverse en 10, 20 o hasta 40 pasos, los grandes problemas abiertos pueden requerir pruebas de hasta un millón de líneas. “La diferencia entre la hipótesis de Riemann y las matemáticas de secundaria es que, en el primer caso, buscamos un camino extremadamente largo», afirmó.
Para abordar este desafío, Gukov y su equipo desarrollaron un sistema que agrupa múltiples pasos en «supermovimientos“, reduciendo así la longitud de las secuencias necesarias. Aplicaron este enfoque a la conjetura de Andrews-Curtis, un problema sin resolver durante 60 años. Aunque no lograron resolver la conjetura, sí demostraron que un contraejemplo propuesto hace 40 años era incorrecto, cerrando una vía de investigación que había ocupado a matemáticos durante décadas. “Descartar posibles contraejemplos es valioso, ya que puede evitar que se pierdan años explorando callejones sin salida”, comentó Bridson.
Gukov considera que este método podría aplicarse a otros problemas complejos y contribuir a que los modelos de refuerzo aprendan a ir más allá de su entrenamiento, lo que representa un avance significativo en la capacidad de la IA para abordar tareas no estructuradas.
Creatividad, intuición y las barreras actuales para la IA
Aunque los sistemas actuales logran avances medibles, los expertos coinciden en que la invención de ideas matemáticas radicales sigue siendo dominio exclusivo del pensamiento humano. “Ahora tenemos IA que puede superar a los humanos cuando conoce las reglas del juego”, reflexionó Williamson en MIT Technology Review.
El verdadero salto, según afirma, surge de modos inéditos de pensar, difíciles de reproducir mediante lógica algorítmica. Modelos como AlphaEvolve y PatternBoost funcionan como asistentes que ayudan a generar variaciones útiles o a evitar líneas de razonamiento estériles, pero el impulso creativo que lleva al descubrimiento permanece inimitable.
Mientras se desarrollan nuevas herramientas para expandir las capacidades matemáticas de las máquinas, la comunidad científica coincide en que, por ahora, el ritmo del avance continúa marcado por la imaginación humana.