IA · 27 de mayo de 2026 · 3 min de lectura

La eficiencia se impone: rendimiento de GPT-4 a una fracción del coste anterior

La nueva generación de modelos abarata radicalmente el coste por token y traslada la presión competitiva del tamaño a la economía de uso.

Gráfico de eficiencia ascendente

Los modelos ligeros de la nueva generación entregan ya el rendimiento que GPT-4 ofreció hace dos años a un coste por token entre cinco y diez veces menor. Gemini 3.5 Flash, GPT-5 mini, Claude Haiku 4.5 y DeepSeek V3 marcan la nueva frontera de la economía operativa de la IA, más relevante para muchos casos comerciales que las cifras del frontier.

El abaratamiento cambia el cálculo de despliegue. Funcionalidades que en 2024 quedaban fuera del margen económico de muchas aplicaciones —resumen masivo, traducción automática, clasificación granular— hoy entran sin discusión. La barrera ha dejado de ser la capacidad técnica y ha pasado a ser la imaginación de producto.

La consecuencia industrial es que la presión competitiva se desplaza desde el tamaño del modelo hacia su economía de uso. Un laboratorio que produzca un modelo ligero un 30 % más eficiente que sus competidores captura volumen aunque no lidere los benchmarks de inteligencia bruta. Eso explica la prisa de OpenAI, Google y Anthropic por publicar versiones mini con cada release.

Para el cliente, el reto pasa a ser de gobernanza. Cuando el coste por token cae a niveles casi inapreciables, el riesgo no es el gasto en cómputo sino el descontrol del uso y la calidad del output. Las herramientas de monitorización y auditoría se vuelven la nueva prioridad.