Los modelos de razonamiento intercambian velocidad por precisión y rehacen las métricas del sector
o1, DeepSeek-R1 y sus sucesores reordenan la comparación entre laboratorios y obligan a redefinir qué significa "rendimiento" en un benchmark.
La generación de modelos llamados de razonamiento —encabezada por OpenAI o1 y DeepSeek-R1 y replicada ya por todos los laboratorios— ha alterado la base sobre la que se compara la IA. Estos modelos sacrifican velocidad de respuesta para producir cadenas de razonamiento más sólidas, y los benchmarks tradicionales basados en una sola pasada han perdido informatividad.
En la práctica, un mismo modelo puede puntuar muy distinto en función del esfuerzo de razonamiento asignado a una pregunta. Los rankings publicados por terceros han tenido que introducir múltiples niveles de configuración —low, medium, high effort— y la conversación sobre coste por respuesta ha ganado peso frente a la métrica de "intelligence index".
La consecuencia comercial es que las decisiones de despliegue se han vuelto más complejas. Un cliente que valora coste por token ya no puede comparar laboratorios solo por el precio nominal; tiene que estimar cuánto razonamiento necesita cada caso de uso y cuánto cuesta servirlo. Es un cambio de modelo de compra parecido al que vivió la nube hace una década.
La pregunta abierta es si estos modelos se convierten en el nuevo techo del sector o si la siguiente generación los integra como una herramienta más dentro de un sistema híbrido. Los próximos meses, con Claude Opus 5 y GPT-6 ya anunciados, van a clarificar la dirección.