A veces, mejorar una respuesta de inteligencia artificial no requiere escribir un mejor prompt, sino simplemente repetirlo. Esa es la conclusión más llamativa de un estudio de Google Research, que plantea que duplicar el pedido dentro del mismo mensaje puede elevar el rendimiento de varios modelos cuando no están usando razonamiento extendido.
Tres meses después de la ley. Australia acusa a Meta, TikTok y YouTube de no filtrar el acceso a menores de 16
El trabajo fue publicado en arXiv con el título Prompt Repetition Improves Non-Reasoning LLMs y parte de una idea técnica sencilla: como estos modelos procesan el texto en secuencia, el orden de los tokens importa. Repetir el prompt hace que cada parte del pedido vuelva a aparecer en el contexto y, según los autores, eso mejora la capacidad del modelo para usar la información disponible.
Llevado al uso cotidiano, la propuesta sería esta: si un usuario escribe una instrucción, en vez de mandarla una sola vez puede enviarla dos veces seguidas dentro del mismo mensaje. El paper sostiene que este cambio, aunque parezca mínimo, mejora los resultados en varios escenarios sin modificar el formato de salida, lo que permitiría usarlo como ajuste práctico en sistemas ya existentes.

Cómo probarlo en un chat de IA
Si una respuesta sale floja, una opción simple es repetir exactamente el pedido dentro del mismo mensaje.
Ejemplo:
En lugar de escribir: “Resumí este texto en cinco líneas.”
Probar con:
“Resumí este texto en cinco líneas. Resumí este texto en cinco líneas.”
¿Cuándo puede servir?
- Preguntas concretas
- Tareas de extracción
- Respuestas breves y estructuradas
- Modelos sin reasoning o con reasoning desactivado
¿Cuándo no esperar milagros?
- Tareas complejas que requieren razonamiento extendido
- Prompts muy largos
- Casos donde el problema no es el formato, sino la mala consigna
Los autores probaron la técnica en siete modelos de distintos proveedores: Gemini 2.0 Flash, Gemini 2.0 Flash Lite, GPT-4o-mini, GPT-4o, Claude 3 Haiku, Claude 3.7 Sonnet y DeepSeek V3. Los ensayos se ejecutaron mediante las API oficiales de cada empresa entre febrero y marzo de 2025.
Vuelven los celulares tipo BlackBerry. Los tres nuevos modelos de smartphones que harán renacer al teclado
También la evaluaron sobre siete benchmarks, entre ellos, ARC, OpenBookQA, GSM8K, MMLU-Pro y MATH, además de dos pruebas personalizadas. Según el paper, la repetición del prompt ganó en 47 de 70 combinaciones entre modelo y benchmark, sin registrar derrotas bajo su criterio estadístico.
Uno de los datos más impactantes del estudio aparece en una de las pruebas personalizadas: en NameIndex, Gemini 2.0 Flash-Lite pasó de 21,33% a 97,33% de acierto con esta técnica. No es un resultado extrapolable a cualquier tarea, pero sí muestra que una variación de formato muy simple puede alterar de forma drástica el desempeño en ciertos contextos.
El punto más atractivo para el público general es que esta mejora no vendría acompañada del costo habitual de otras estrategias. El paper afirma que la repetición no aumenta la cantidad de tokens generados y que, cuando el razonamiento está desactivado, las latencias medidas son similares. La principal excepción aparece en los modelos de Anthropic con pedidos muy largos, donde el tiempo de respuesta puede subir.

Eso marca una diferencia importante frente a indicaciones como “pensá paso a paso”, que suelen alargar mucho la respuesta y consumir más tiempo de procesamiento. En este caso, el supuesto beneficio estaría en la etapa previa de lectura del prompt, no en una generación más extensa. El estudio, sin embargo, también pone límites claros. Cuando el razonamiento está habilitado, el efecto pasa a ser neutral o apenas positivo. En esos casos, la repetición ya no aparece como una ventaja tan marcada.
Lo que no demuestra el estudio
- No prueba que repetir un prompt mejore siempre la respuesta
- No sugiere que funcione igual en todos los modelos
- No reemplaza un buen prompt
- Es un preprint: todavía no pasó por revisión de pares
Hospitales hackeados y spyware oculto. El conflicto con Irán muestra la faceta digital de la guerra
Más allá del hallazgo técnico, el estudio resulta relevante porque plantea una mejora de bajo costo para aplicaciones reales de inteligencia artificial. Si el efecto se confirma en más escenarios, podría ofrecer una forma de ganar precisión en productos ya existentes sin exigir respuestas más largas, mayores costos de generación ni rediseños profundos de la experiencia. Eso lo vuelve especialmente interesante para asistentes, buscadores, sistemas de soporte y otras herramientas donde cada milisegundo y cada token cuentan.
La conclusión de fondo, sin embargo, va más allá de este truco puntual. El paper vuelve a mostrar que en la era de la IA generativa no solo importa qué se pregunta, sino también cómo se formula. Incluso en sistemas cada vez más sofisticados, detalles mínimos de presentación todavía pueden cambiar mucho la calidad de una respuesta.