Nvidia publicó datos de referencia que muestran que sus sistemas GB300 NVL72 con GPU Blackwell Ultra ofrecen un rendimiento por megavatio hasta 50 veces mayor y un costo por token 35 veces menor en comparación con la plataforma Hopper anterior para cargas de trabajo de IA de baja latencia. Las mejoras de rendimiento apuntan al creciente mercado de aplicaciones de inteligencia artificial y asistentes de codificación.
Los Blackwell Ultra Tensor Cores proporcionan 1,5 veces más rendimiento informático que las GPU Blackwell estándar. El procesamiento de la capa de atención se ha duplicado mediante la ejecución acelerada de softmax, solucionando cuellos de botella en las capas de atención del transformador utilizadas por modelos de razonamiento con grandes ventanas de contexto. La biblioteca de inferencia TensorRT-LLM de Nvidia también ha mejorado, con pruebas comparativas de SemiAnalysis que muestran que el rendimiento por GPU se duplicó en algunos niveles de interactividad desde octubre de 2025. La combinación de estos avances de hardware y software dio como resultado un aumento de 10 veces en los tokens por segundo por usuario y una mejora de 5 veces en los tokens por segundo por megavatio en comparación con Hopper, lo que produjo un aumento de 50 veces en la producción de la fábrica de IA.
“A medida que la inferencia se traslada al centro de la producción de IA, el rendimiento a largo plazo y la eficiencia de los tokens se vuelven críticos”, afirmó Chen Goldberg, vicepresidente senior de ingeniería de CoreWeave. “Grace Blackwell NVL72 aborda ese desafío directamente”.
Los principales proveedores de nube están implementando la infraestructura GB300 NVL72. CoreWeave anunció en 2025 que era el primer proveedor de nube de IA en implementar los sistemas en producción, integrándolos con su pila de nube basada en Kubernetes. Microsoft implementó lo que llamó el primer clúster de supercomputación GB300 NVL72 a gran escala del mundo, logrando más de 1,1 millones de tokens por segundo en un solo bastidor en pruebas validadas por Signal65. La plataforma OCI de Oracle está implementando sistemas GB300 NVL72 con planes de escalar sus Superclusters más allá de 100.000 GPU Blackwell para satisfacer la demanda de cargas de trabajo de inferencia.
Las reducciones de costos están remodelando la economía de implementación de la IA. Los principales proveedores de inferencia, incluidos Baseten, DeepInfra, Fireworks AI y Together AI, informaron reducciones de costos de hasta 10 veces utilizando la plataforma estándar de Blackwell. La plataforma Blackwell Ultra amplía estas ganancias para cargas de trabajo de baja latencia, con un costo 35 veces menor por millón de tokens que permite una implementación más económicamente viable de agentes de inteligencia artificial y asistentes de codificación a escala.
Nvidia presentó una vista previa de su plataforma Rubin de próxima generación y afirmó que ofrecerá otra mejora de rendimiento 10 veces mayor que Blackwell.








