GPU Nvidia Rubin: 200 teraFLOPS FP64 de emulación de software

Las nuevas GPU Rubin de Nvidia aprovechan la emulación de software para mejorar el rendimiento de FP64 para HPC, desafiando el reciente liderazgo de AMD en esta área, a pesar de las reservas expresadas por AMD con respecto a la aplicabilidad del método en el mundo real. La computación de coma flotante de doble precisión (FP64) es esencial para las aplicaciones informáticas científicas y de HPC modernas. Las GPU Rubin recientemente presentadas por Nvidia brindan 33 teraFLOPS de rendimiento máximo FP64 sin emulación, que es un teraFLOP menos que el H100 de cuatro años. Con la emulación de software habilitada en las bibliotecas CUDA de Nvidia, el chip puede alcanzar hasta 200 teraFLOPS de rendimiento de matriz FP64. Esto representa un aumento de 4,4 veces con respecto a las capacidades de hardware de sus aceleradores Blackwell salientes. Dan Ernst, director senior de productos de supercomputación de Nvidia, afirmó: “Lo que encontramos, a través de muchos estudios con socios y con nuestras propias investigaciones internas, es que la precisión que obtenemos de la emulación es al menos tan buena como la que obtendríamos de una pieza de hardware con núcleo tensor”. Nicholas Malaya, miembro de AMD, señaló: “Es bastante bueno en algunos de los puntos de referencia, no es obvio que sea bueno en simulaciones científicas físicas reales”. Malaya sugirió que la emulación del FP64 requiere más investigación y experimentación. FP64 sigue siendo el estándar para la informática científica debido a su rango dinámico, capaz de expresar más de 18,44 quintillones (2⁶⁴) valores únicos. Por el contrario, los modelos de IA modernos como DeepSeek R1 se entrenan con frecuencia en el FP8, y pueden expresar 256 valores únicos. Las simulaciones de HPC se basan en principios físicos fundamentales, lo que las hace intolerantes a los errores, a diferencia de las cargas de trabajo de IA. Malaya explicó: “Tan pronto como empiezas a incurrir en errores, estos errores finitos se propagan y provocan cosas como explosiones”. El concepto de utilizar tipos de datos de menor precisión para emular FP64 no es nuevo. Ernst mencionó: “La emulación es vieja como la basura. Teníamos emulación a mediados de los años 50 antes de que tuviéramos hardware para punto flotante”. A principios de 2024, investigadores de los institutos de tecnología de Tokio y Shibaura publicaron un artículo que explora este concepto. Su método demostró que las operaciones matriciales de FP64 se podían descomponer en múltiples operaciones INT8, logrando un rendimiento superior al nativo en los núcleos tensoriales de Nvidia. Este enfoque, conocido como esquema Ozaki, constituye la base de las bibliotecas de emulación FP64 de Nvidia, lanzadas a finales del año pasado. Ernst aclaró: “sigue siendo FP64. No es precisión mixta. Simplemente está hecho y construido de una manera diferente desde la perspectiva del hardware”. Las GPU modernas contienen núcleos tensoriales de baja precisión. Los núcleos tensoriales de Rubin, por ejemplo, son capaces de realizar 35 petaFLOPS de cómputo denso del FP4. En FP64, estos chips son más de 1000 veces más lentos. Ernst explicó que la eficiencia de construir y ejecutar estos núcleos tensoriales de baja precisión impulsó la exploración de su uso para el cálculo de FP64. “Tenemos el hardware, intentemos usarlo. Esa es la historia de la supercomputación”, dijo. AMD expresó su preocupación por la precisión de la emulación FP64. Malaya indicó que la emulación FP64 funciona bien para sistemas numéricos bien acondicionados, citando el punto de referencia High Performance Linpack (HPL). Sin embargo, “cuando nos fijamos en la ciencia de los materiales, los códigos de combustión, los sistemas de álgebra lineal con bandas y cosas así, son sistemas mucho peor condicionados y, de repente, empiezan a descomponerse”, dijo. Malaya señaló que la emulación FP64 no es totalmente compatible con IEEE, ya que los algoritmos de Nvidia no tienen en cuenta matices como ceros positivos versus ceros negativos, ni errores numéricos ni errores de números infinitos. Pequeños errores en las operaciones intermedias de emulación pueden provocar imprecisiones. Aumentar las operaciones para mitigar esto puede anular las ventajas de rendimiento. Malaya también informó: “Tenemos datos que muestran que estás usando aproximadamente el doble de capacidad de memoria en Ozaki para emular las matrices FP64”. Por lo tanto, AMD se está centrando en hardware especializado para precisión doble y simple, y su próximo MI430X utiliza arquitectura de chiplet para reforzar el rendimiento. Ernst reconoció lagunas en la implementación de Nvidia. Sostuvo que los ceros positivos/negativos no son críticos para la mayoría de los profesionales de HPC. Nvidia ha desarrollado algoritmos complementarios para detectar y mitigar problemas como los números infinitos y los no numéricos. En cuanto al consumo de memoria, Ernst admitió que puede ser mayor, pero afirmó que esta sobrecarga es relativa a la operación, no a la aplicación, y que normalmente involucra matrices de unos pocos gigabytes. También argumentó que los problemas de cumplimiento del IEEE a menudo no surgen en los casos de multiplicación de matrices. “La mayoría de los casos de uso en los que están en juego las reglas de ordenamiento de cumplimiento de IEEE no surgen en casos de multiplicación de matrices. De todos modos, no existe un DGEMM que tienda a seguir esa regla”, compartió Ernst. La emulación FP64 es principalmente efectiva para un subconjunto de aplicaciones HPC que dependen de operaciones de multiplicación de matriz general densa (DGEMM). Malaya estimó que para entre el 60 y el 70 por ciento de las cargas de trabajo de HPC, la emulación ofrece un beneficio mínimo. “En nuestro análisis, la gran mayoría de las cargas de trabajo de HPC reales se basan en FMA vectorial, no en DGEMM”, afirmó. Para tareas con muchos vectores, como la dinámica de fluidos computacional, las GPU Rubin operan con aceleradores vectoriales FP64 más lentos dentro de los núcleos CUDA. Ernst destacó que FLOPS más altos no siempre equivalen a FLOPS útiles, ya que el ancho de banda de la memoria a menudo limita el rendimiento en el mundo real. Hizo referencia al punto de referencia de gradiente conjugado de alto rendimiento con muchos vectores del TOP500, donde las CPU a menudo van a la cabeza debido a bits más altos por FLOPS de sus subsistemas de memoria. Con nuevas supercomputadoras que integran las GPU Blackwell y Rubin de Nvidia, se probará la viabilidad de la emulación FP64. La independencia inherente de los algoritmos del hardware específico permite mejoras potenciales con el tiempo. Malaya confirmó que AMD también está explorando la emulación de FP64 en chips como el MI355X a través de indicadores de software para identificar aplicaciones adecuadas. Indicó que el cumplimiento de IEEE validaría el enfoque al garantizar resultados consistentes entre la emulación y el silicio dedicado. Malaya afirmó: “Si puedo acudir a un socio y decirle que ejecute estos dos binarios: este te da la misma respuesta que el otro y es más rápido, y sí, bajo el capó estamos haciendo algún plan, creo que es un argumento convincente que está listo para el horario de máxima audiencia”. Añadió que aplicaciones específicas podrían ser más confiables con la emulación, y sugirió: “Deberíamos, como comunidad, crear una canasta de aplicaciones para analizar”.

Nissan Sakura presenta el techo extensible AO-Solar

Crédito de imagen destacada

Source: GPU Nvidia Rubin: 200 teraFLOPS FP64 de emulación de software