Enfabrica, una startup respaldada por NVIDIA, ha introducido su sistema EMFASYS, diseñado para aumentar la capacidad de memoria del servidor para exigir cargas de trabajo de inferencia de IA. El sistema EMFASYS proporciona hasta 18 TB de memoria DDR5 adicional a los servidores a través de Ethernet, abordando el cuello de botella de memoria a menudo encontrado en aplicaciones de IA a gran escala.
El sistema EMFASYS compatible con rack utiliza ACF-S Supernic de Enfabrica, que presenta un rendimiento de 3.2 TB/s (400 GB/s). Este sistema conecta la memoria DDR5 con capacidades CXL, que permite servidores de GPU de 4 vías y 8 vías para acceder al grupo de memoria a través de puertos Ethernet estándar de 400 g o 800 g. La conexión se basa en el acceso remoto a la memoria directa (RDMA) sobre Ethernet, facilitando la integración perfecta con la infraestructura de servidor de IA existente.
La transferencia de datos entre los servidores GPU y el grupo de memoria EMFASYS aprovecha RDMA, lo que permite el acceso a la memoria de baja latencia cero (medido en microsegundos) sin intervención de CPU, utilizando el protocolo CXL.MEM. El acceso al grupo de memoria EMFASYS requiere un software de nivel de memoria, proporcionado por Enfabrica, que administra retrasos de transferencia y otros problemas relacionados. Este software está diseñado para funcionar dentro de los entornos de hardware y sistema operativo existentes, basándose en interfaces RDMA establecidas para simplificar la implementación sin necesitar las principales modificaciones arquitectónicas.
EMFASYS de Enfabrica se adapta específicamente para abordar las crecientes demandas de memoria de las aplicaciones modernas de IA, particularmente aquellas que involucran largas indicaciones, grandes ventanas de contexto o múltiples agentes. Estas aplicaciones ejercen una tensión significativa en HBM conectado a GPU, que es de capacidad limitada y costosa. Al emplear un grupo de memoria externo, los operadores de centros de datos obtienen la flexibilidad para expandir la capacidad de memoria de los servidores de IA individuales, lo que lo convierte en una solución adecuada para estos escenarios desafiantes.
Al adoptar el grupo de memoria EMFASYS, los operadores de servidores de IA pueden mejorar la eficiencia a través de una mejor utilización de los recursos de cálculo, un desperdicio reducido de la memoria costosa de la GPU y la reducción general de los costos de infraestructura. Enfabrica afirma que esta configuración puede disminuir el costo por token generado por IA hasta en un 50% en escenarios de alta giro y contexto largo. Además, las tareas de generación de tokens se pueden distribuir de manera más uniforme entre los servidores, mitigando posibles cuellos de botella.
“La inferencia de IA tiene un problema de escala de ancho de banda de memoria y un problema de apilamiento de margen de memoria”, dijo Rochan Sankar, CEO de Enfabrica. “A medida que la inferencia se vuelve más agente versus conversacional, más retentiva versus olvidada, las formas actuales de escalar el acceso a la memoria no se mantendrán.
El sistema EMFASYS AI Memory Fabric y el Chip Supernic ACF 3.2 TB/S están actualmente en evaluación y pruebas de clientes seleccionados. La línea de tiempo para la disponibilidad general sigue sin estar clara.
Enfabrica es un miembro asesor del consorcio Ultra Ethernet (UEC) y contribuye al consorcio Ultra Acelerator Link (UALINK).
Source: Enfabrica respaldado por Nvidia agrega 18TB a través de Ethernet para servidores AI
