El 27 de enero los inversores globales vendieron suficientes acciones de empresas tecnológicas estadounidenses líderes en el desarrollo de la inteligencia artificial (IA) como para desplomar el valor de sus acciones unos cuantos puntos y causar la mayor pérdida de valor en un solo día para cualquier empresa en Wall Street.

El descalabro se debió a la irrupción de un modelo de IA con capacidades similares a las de las grandes tecnológicas pero de un origen distinto. DeepSeek, una empresa china que asegura haber desarrollado su producto con una fracción de la inversión inicial de sus competidores. Y otra gran diferencia.

El argentino Daniel Low, investigador postdoctoral de la Universidad de Harvard especializado en IA para aplicaciones de psicología, explicó en diálogo con LA NACION las múltiples razones del impacto del desarrollo chino. Docente de machine learning en ese prestigioso centro de estudios y co-fundador del Grupo de Interés en Biomarcadores del Habla y el Lenguaje (Speech and Language Biomarker Interest Group) perteneciente a Harvard y el Instituto de Tecnología de Massachusetts (MIT), es especialista en los modelos de lenguaje grandes o LLMs (por sus siglas en inglés), tecnología que permite el funcionamiento de aplicaciones como ChatGPT o DeepSeek.

El argentino Daniel Low es investigador postdoctoral de la Universidad de Harvard especialista en Inteligencia Artificial para aplicaciones de psicología

Aunque empezó su carrera estudiando Letras en Buenos Aires, eventualmente se interesó por las neurociencias y luego por la computación, lo que lo llevó a hacer una maestría en ciencias cognitivas y lingüística computacional en Italia y Países Bajos. En Estados Unidos, su trabajo se centró en el uso del procesamiento del lenguaje natural y el procesamiento del habla para medir y predecir síntomas de salud mental a partir del análisis de datos.

Conocedor tanto de la tecnología implicada como del mercado internacional que gira en torno al desarrollo de esta nueva herramienta, sostiene: “La carrera por la IA es una cuestión geopolítica además de económica”.

-¿Qué diferencia el sistema de DeepSeek de los ya conocidos cómo ChatGPT (OpenAI) y Gemini (Google)? ¿Por qué es más barato?

-OpenAI, Google, Anthropic, todos están más o menos al mismo nivel y son parecidos. Algunos llegaron antes al mercado y entonces dominaron, por eso todos usamos ChatGPT, por ejemplo. Hasta ahora todos los mejores modelos venían siendo privados. Y después hay miles y miles de modelos open source, que quiere decir que son públicos, uno se puede descargar el modelo y correrlo en la computadora, pero no solían funcionar tan bien, hasta que llegó DeepSeek. DeepSeek logró la performance de los modelos más avanzados como GPT-4, y no sólo eso. También estuvo a la altura de O1, que es un modelo de razonamiento para problemas más difíciles de matemática y programación, y lo sorprendente fue que lo logró con muchos menos microprocesadores o ‘chips’.

-¿Por qué la novedad de DeepSeek afectó particularmente a una empresa como Nvidia?

-Nvidia es una empresa de tecnología que produce la gran mayoría de los mejores microprocesadores del mercado. Sin llegar a ser un monopolio, es cierto que casi todos los mejores modelos de IA están corriendo sobre chips de Nvidia. DeepSeek fue el primero que logró llegar a ese nivel de performance con un modelo mucho más chico, con mucho menos dinero invertido para entrenar el modelo, con muchos menos chips. Esto mostró que no hace falta invertir tanto en OpenAI, no hace falta invertir tanto en Google, porque ya no tienen el secreto de cómo armar estos modelos. La diferencia es que DeepSeek ofreció el modelo públicamente, lo hizo open source. También demostró que el valor de Nvidia no es tal, porque se pensaba que Nvidia no iba a dar abasto para satisfacer el mercado, pero ahora la demanda podría decaer. La pregunta que surge ahora es por qué le están dando miles de millones de dólares a OpenAI y a estas otras empresas cuando una empresa por una fracción de esa inversión logró el mismo resultado. A DeepSeek le salió más o menos seis millones de dólares entrenar el modelo, seguramente un poco más. Y a a OpenAI le sale 60.000 millones. No son 10 veces más, son 1000 veces más. Y lograron lo mismo.

Chip de Nvidia

-Si el modelo de DeepSeek es open source, y por ende su competencia estadounidense y mundial tiene acceso a los mismos desarrollos, ¿por qué tiemblan las empresas norteamericanas? ¿No podrían hacer uso de sus mayores capacidades de inversión para seguir desarrollando sobre estos avances?

El miedo es que avance rápido en China en particular. No se sabe si el gobierno podría tratar de recabar datos sin consentimiento, desarrollar la IA para influir en la política o para controlar y accionar armas automatizadas, por ejemplo. Hay una carrera y creo que todos los países quieren ser los primeros en llegar para poder dominar a otros países si hiciera falta y también para entender la tecnología antes. Es una cuestión geopolítica además de económica. El tema es que DeepSeek es una empresa, pero no se sabe qué relación tiene con el gobierno [de Xi Jinping] y qué acceso tiene el gobierno a los desarrollos de la empresa. Tampoco se sabe el impacto nocivo que puede tener el desarrollo de IA en los seres humanos, además de un impacto medioambiental muy preocupante. Hay una investigadora muy importante que se llama Timnit Gebru que de hecho la echaron de Google por mostrar preocupaciones éticas con estos algoritmos hace un par de años.

-En ese sentido, ¿cómo es la situación regulatoria en Estados Unidos? ¿No hay miedo de que el gobierno estadounidense sea quien lleve adelante esas iniciativas?

-No sé si hay un interés en regular la IA en Estados Unidos. Son los investigadores de universidades y algunas empresas u ONG que están intentando regular esto. El gobierno anterior [de Joe Biden] tuvo algún interés, el gobierno actual [de Donald Trump] parece que no. Hay un montón de discusión en ciencias políticas, en computación, en salud -a lo que me dedico yo- sobre cómo se va a usar esta tecnología para bien y para mal. Pero la realidad es que la innovación es tan rápida que el argumento de muchos, incluyendo Elon Musk hace un par de años, es que hay que frenar el avance porque no sabemos qué consecuencias tendrá. Ahora el argumento es que si nosotros frenamos nuestra competencia en Estados Unidos o en China no va a frenar. Entonces si obligas a todos a frenar, es una situación, pero si no hay una regulación que se aplique a todos es diferente. Estados Unidos quiere competir con China. Es el clásico escenario de carrera armamentística. También es cuestionable si uno podría tomar otro paradigma por completo y pensar que con todos los miles de millones de dólares que se están invirtiendo en esto, se podría invertir en resolver cuestiones muy puntuales en Estados Unidos y el mundo que no involucren IA.

La aplicación DeepSeek en un teléfono en Pekín, el 27 de enero de 2025

-Más allá de los usuarios individuales, ¿por qué genera tanta expectativa económica la IA?

-Mientras que muchas innovaciones del pasado fueron más lentas y solían ser más de nicho, o sea tener un impacto en un grupo de gente en particular, la IA tiene un impacto a nivel global en muchas áreas; educativas, profesionales, en salud, en armamento. Estamos hablando de arquitectura, economía, ciencia, ingeniería. A diferencia de la IA tradicional, que se desarrollaba para un área específica, como traducir por ejemplo, ahora estos modelos nuevos pueden hacer muchas cosas diferentes. El modelo que logre hacer más cosas mejor es el modelo que se usará para armar otras empresas para todo lo que veníamos nombrando. Entonces, cuando una empresa logra un modelo de estos hay muchas oportunidades de negocios y cada vez que una empresa en cualquiera de esos rubros usa un modelo de IA, la empresa que lo desarrolló cobra una fracción de centavo, pero que si lo escalas son millones de dólares potenciales de ganancia.

Una nota de The New York Times dice que DeepSeek no fue desarrollado para “razonar” de la misma manera que OpenAI, y que había lanzado su propio modelo de razonamiento llamado DeepSeek R1, ¿tiene DeepSeek otra forma de ‘entrenar’ su IA?

-DeepSeek mostró dos diferencias con la competencia. Por un lado, los desarrolladores hicieron cambios en el algoritmo para que pueda aprender más rápido. Estos modelos suelen preguntarles a humanos, al final de los procesos, qué les parece la respuesta que ofrecieron, y en base a eso aprender de ese feedback. Este es un algoritmo de aprendizaje que se llama reinforcement learning, o aprendizaje por refuerzo, que va corrigiendo las respuestas en base a la satisfacción del ser humano. Acá lo que se innovó es que el feedback no venía necesariamente de humanos, sino de otro modelo, que por su parte sí usó de base ese sistema de aprendizaje. Entonces, a partir de esto, el modelo de DeepSeek tiene una base de datos muy grande de razonamiento y logra predecir con mayor precisión. Por otro lado, DeepSeek logra ser un poco más eficiente en seleccionar, de los muchos modelos que integran el modelo macro que ofrecen, qué parte usar en determinado momento y para determinada tarea. Es decir, todos estos modelos funcionan en base a unos parámetros para seleccionar las respuestas correctas. Qué cantidad del modelo usar para cada interacción que estás teniendo. En eso logra ser más eficiente, en usar menos del modelo total. Esto implica que pueda ser más chico y que pueda correr más rápido. Entonces, es más eficiente porque usa menos datos y menos chips, y porque con un modelo más chico puede encontrar parámetros parecidos a los que encuentran otros modelos más pesados. No es una innovación descomunal, simplemente son unos trucos para usar un modelo más pequeño que significa que lo podés correr más rápido. Y hacerlo público generó la mitad de la polémica, ¿no?

El CEO de Nvidia, Jensen Huang, habla sobre la supercomputadora personal de IA Project Digits para investigadores y estudiantes durante un discurso de apertura en el Consumer Electronics Show (CES) en Las Vegas, Nevada, el 6 de enero de 2025

-¿Que tan novedoso es su método? ¿Abre la posibilidad a competidores más pequeños de insertarse en el mercado?

-Las diferencias, en resumen, serían un costo de entrenamiento más barato, que lo hicieron open source, y que para hacer que el modelo tenga tan buenos resultados con un modelo más chico. No fue tanta la innovación quizás. Fueron lindas innovaciones, pero no fue algo revolucionario. Simplemente lograron hacerlo más chico y le sacaron el dominio a Estados Unidos, a cuatro empresas. Eso está cambiando el paradigma de lo que pasará de acá a los próximos años. De todos modos, es increíble que se haya logrado esto, yo pasé todo mi doctorado usando modelos mucho más simples. Pero al mismo tiempo, no es como en las películas, donde la IA tiene una conciencia. Aunque quizás no falte tanto.