NVIDIA anunció la GPU “Rubin CPX” en la AI Infra Summit, un acelerador especializado de la próxima familia “Rubin” diseñado para modelos de IA de contexto masivo. El chip, previsto para finales de 2026, ofrece 30 PetaFLOPS de cómputo NVFP4 en una matriz monolítica con 128 GB de memoria GDDR7. Esta configuración monolítica es una desviación de los paquetes de GPU dual de las arquitecturas Blackwell y Blackwell Ultra actuales de NVIDIA y lo que seguirá el resto de la familia Rubin. Rubin CPX aborda los cuellos de botella computacionales en escenarios de contexto extendido, procesando millones de tokens simultáneamente para aplicaciones como análisis integral de código base de software y procesamiento de video de una hora de duración, que pueden requerir hasta un millón de tokens.
El procesador integra cuatro codificadores de vídeo NVENC y cuatro NVDEC en el chip, lo que permite flujos de trabajo multimedia optimizados. NVIDIA afirma que Rubin CPX ofrece tres veces la velocidad de procesamiento de atención de sus actuales sistemas aceleradores GB300 Blackwell Ultra. La arquitectura utiliza un enfoque de matriz única con costos optimizados para reducir potencialmente la complejidad de fabricación y al mismo tiempo mantener la densidad computacional. Aunque las especificaciones del ancho de banda de la memoria no se revelan, una interfaz de 512 bits podría producir un rendimiento de alrededor de 1,8 TB/s con chips de memoria GDDR7 de 30 Gbps.
NVIDIA planea integrar los procesadores Rubin CPX en la plataforma Vera Rubin NVL144 CPX, combinando las GPU Rubin tradicionales con las variantes CPX especializadas. Esta configuración híbrida apunta a 8 ExaFLOPS de computación agregada y 1,7 PB/s de ancho de banda de memoria en una implementación de rack completa. El bastidor “Kyber” incluirá adaptadores de red ConnectX-9 con red de 1600G, Spectrum6 con conmutación de 102,4T y ópticas empaquetadas.
NVIDIA está comercializando el Rubin CPX como un producto único en la familia Rubin para manejar la complejidad de los sistemas de IA escalables en el tiempo de prueba. A medida que los modelos evolucionan hacia agentes de razonamiento sofisticados, la inferencia se divide entre el procesamiento de contexto computacionalmente intensivo y la generación de tokens dependiente del ancho de banda de la memoria. El diseño de CPX está optimizado para estos requisitos duales, manejando operaciones de prellenado de contexto para chatbots empresariales con 256 000 tokens o análisis de código que superan las 100 000 líneas. Esta especialización es fundamental para los sistemas de IA que necesitan memoria persistente a través de interacciones extendidas, lo que NVIDIA pretende habilitar sin problemas con este hardware.
El rápido ciclo de desarrollo de NVIDIA ha impulsado su desempeño financiero: la compañía reportó 41,1 mil millones de dólares en ventas de centros de datos en su trimestre más reciente.






