Detalles de Google Ironwood TPU para inferencia a gran escala

Google presentó detalles sobre su Unidad de Procesamiento de Tensor de Ironwood (TPU) en Hot Chips 2025, luego de su anuncio inicial en Google Cloud el próximo ’25 en abril. Ironwood representa la TPU de séptima generación de Google, diseñada específicamente para cargas de trabajo de inferencia a gran escala, que marca un cambio de generaciones anteriores centradas en el entrenamiento. Cada chip de madera de hierro incorpora dos calificaciones de cómputo, entregando 4.614 Tflops de rendimiento de FP8. Cuenta con ocho pilas de HBM3E, proporcionando 192 GB de memoria por chip con un ancho de banda de 7.3 TB/s. La arquitectura del sistema escala hasta 9,216 chips por vaina, facilitada por 1.2 TB/s de ancho de banda de E/S, eliminando la necesidad de lógica de pegamento y logrando un total de 42.5 exagerados de rendimiento. Un punto culminante clave de Ironwood es su capacidad de memoria. Un solo POD proporciona 1.77 PB de HBM directamente directamente directo, que Google afirma que es un nuevo récord mundial para supercomputadoras de memoria compartidas. Esta extensa capacidad de memoria es posible gracias a los interruptores de circuitos ópticos que unen los bastidores. La TPU de Ironwood también enfatiza la confiabilidad y la resiliencia. El hardware puede reconfigurar automáticamente alrededor de nodos fallidos y restaurar las cargas de trabajo desde los puntos de control. Las características incluyen una raíz de confianza en chip, funciones de autoevaluación incorporadas, mitigación de corrupción de datos silenciosos y funciones de reparación lógica para mejorar el rendimiento de la fabricación. Según Google, es visible un énfasis en RAS (confiabilidad, disponibilidad y capacidad de servicio) en toda la arquitectura. El enfriamiento se maneja mediante una solución de placa fría integrada con la infraestructura de refrigeración por líquidos de tercera generación de Google. Google afirma que Ironwood logra una doble mejora en el rendimiento por vatio en comparación con su predecesor, Trillium. El voltaje dinámico y la escala de frecuencia mejoran aún más la eficiencia durante las variadas cargas de trabajo. Las técnicas de IA también se emplearon en el diseño de madera de hierro para optimizar los circuitos y planos de planta de Alu. Se ha agregado un dispersión de cuarta generación para acelerar las integridades y las operaciones colectivas, lo que respalda las cargas de trabajo como los motores de recomendación. La implementación de Ironwood está actualmente en marcha a hiperescala en Google Cloud Data Centers. Sin embargo, la TPU sigue siendo una plataforma interna y no está directamente disponible para los clientes de Google Cloud. Ryan Smith de Servethehome comentó sobre la presentación de Google en Hot Chips 2025, declarando: “Esta fue una presentación increíble. Google vio la necesidad de crear un cálculo de IA de alta gama hace muchas generaciones. Ahora la compañía está innovando en todos los niveles desde los chips, hasta las interconexiones y la infraestrencia física.

Códigos de Pixel Piece (febrero de 2023): ¿Cómo canjearlos?

Source: Detalles de Google Ironwood TPU para inferencia a gran escala