Cuando hablamos del avance de la Inteligencia Artificial es habitual centrar toda la atención en el hardware, cada nueva generación de GPU promete más rendimiento, mayor ancho de banda y una capacidad de cálculo superior. Sin embargo, NVIDIA acaba de demostrar que el software también puede marcar una gran diferencia: apenas un mes tras el lanzamiento de DeepSeek V4, la compañía asegura haber reducido hasta cinco veces el coste por token y sin cambiar de hardware.
La mejora no llega gracias a una GPU más eficiente ni a un cambio de arquitectura, sino a través de un intenso trabajo de optimización sobre su plataforma Blackwell. El resultado es una reducción muy significativa del coste operativo para quienes ejecutan grandes modelos de IA, un aspecto que cada vez resulta más determinante a medida que se incrementa el uso comercial de estas herramientas.
NVIDIA demuestra que el software es tan importante como el hardware
Uno de los indicadores más relevantes en la industria de la IA es el denominado coste por token, una métrica que mide cuánto cuesta generar texto con un modelo de lenguaje. Reducir ese valor significa que podemos procesar muchas más consultas utilizando la misma infraestructura, disminuyendo así tanto el consumo energético como lo que pagamos por el uso de la IA.
Gráfica que muestra el coste por millón de tokens de DeepSeek. Fuente: NVIDIA.
Según NVIDIA, todas estas mejoras proceden exclusivamente de optimizaciones en su software. La compañía ha perfeccionado TensorRT-LLM y diferentes componentes relacionados con la inferencia sobre Blackwell, consiguiendo que DeepSeek V4 aproveche mucho mejor los recursos disponibles. En consecuencia, el modelo puede generar respuestas con una eficiencia muy superior a la que tenía cuando se lanzó oficialmente hace un mes, y sin necesidad de modificar la infraestructura de hardware existente.
Este tipo de avances tiene una importancia especial porque demuestra que las plataformas de IA siguen mejorando incluso después de llegar al mercado. A medida que los ingenieros van optimizando los compiladores, kernels y algoritmos de ejecución, el rendimiento efectivo continúa aumentando, prolongando el valor de las inversiones realizadas en los centros de datos.
En resumen, no necesitáis seguir aumentando la RAM de vuestros enormes centros de datos, solo hacer vuestros modelos más eficientes.

