Nvidia anunció la GPU “Rubin CPX” en la Cumbre AI Infra, un acelerador especializado de la próxima familia “Rubin” diseñada para modelos de IA de contexto masivo. Esperado a fines de 2026, el chip ofrece 30 petaflops de compute NVFP4 en un dado monolítico con 128 GB de memoria GDDR7. Esta configuración monolítica es un desvío de los paquetes de doble GPU de las ultra arquitecturas actuales de Blackwell y Blackwell Blackwell y lo que seguirá el resto de la familia Rubin. El Rubin CPX aborda los cuellos de botella computacionales en escenarios de contexto extendido, procesando millones de tokens simultáneamente para aplicaciones como el análisis integral de la base de código de software y el procesamiento de videos de una hora, lo que puede requerir hasta un millón de tokens. El procesador integra cuatro codificadores de video NVENC y cuatro NVDEC en el chip, lo que permite flujos de trabajo multimedia simplificados. Nvidia afirma que Rubin CPX ofrece tres veces la velocidad de procesamiento de atención de sus sistemas actuales de aceleradores GB300 Blackwell Ultra. La arquitectura utiliza un enfoque de una sola morada de costo para reducir potencialmente la complejidad de la fabricación al tiempo que mantiene la densidad computacional. Aunque las especificaciones de ancho de banda de memoria no se revelan, una interfaz de 512 bits podría producir alrededor de 1.8 TB/s de rendimiento con chips de memoria GDDR7 de 30 Gbps. NVIDIA planea integrar procesadores Rubin CPX en la plataforma CPX Vera Rubin NVL144, combinando GPU de Rubin tradicionales con las variantes CPX especializadas. Esta configuración híbrida apunta a 8 exafultos de cómputo agregado y 1.7 pb/s de ancho de banda de memoria a través de una implementación completa de rack. El bastidor “Kyber” incluirá adaptadores de red ConnectX-9 con una red 1600G, Spectrum6 con conmutación 102.4T y óptica copenada. Nvidia está comercializando el Rubin CPX como una única en la familia Rubin para manejar la complejidad de los sistemas de IA de escala de tiempo de prueba. A medida que los modelos evolucionan en agentes de razonamiento sofisticados, la inferencia se divide entre el procesamiento de contexto computacionalmente intensivo y la generación de token dependiente de ancho de banda de memoria. El diseño de CPX está optimizado para estos requisitos duales, manejando las operaciones de pregrascos de contexto para chatbots empresariales con 256,000 tokens o análisis de código superiores a 100,000 líneas. Esta especialización es crítica para los sistemas de IA que necesitan memoria persistente en interacciones extendidas, que NVIDIA tiene como objetivo permitir a la perfección con este hardware. El rápido ciclo de desarrollo de NVIDIA ha aumentado su desempeño financiero, y la compañía reportó $ 41.1 mil millones en ventas de centros de datos en su trimestre más reciente.
Source: Nvidia anuncia la GPU de Rubin CPX para un contexto largo ai





