Los investigadores de Deepseek publicaron el lunes un nuevo modelo experimental, V3.2-Exp, que está diseñado para tener costos de inferencia dramáticamente más bajos cuando se usa en operaciones de contexto largo. Deepseek anunció el modelo en una publicación sobre Hugging Face y también publicó un artículo académico vinculado sobre GitHub que proporciona detalles sobre su arquitectura y rendimiento. La característica más importante del modelo se llama atención escasa de Deepseek. Este sistema utiliza un módulo denominado “indexador de rayos” para priorizar extractos específicos desde la ventana de contexto. Después de ese paso, un sistema separado, un “sistema de selección de tokens granular fino”, elige tokens específicos de esos extractos. Estos tokens seleccionados se cargan en la ventana de atención limitada del módulo. Esta combinación permite que el modelo de atención escaso funcione en largas porciones de contexto con cargas de servidor relativamente pequeñas. Los beneficios del sistema son significativos para las operaciones de contexto largo. Las pruebas preliminares realizadas por Deepseek descubrieron que el precio de una simple llamada API podría reducirse hasta la mitad en estas situaciones. Se requerirán pruebas adicionales para construir una evaluación más sólida de las reclamaciones. El modelo es de peso abierto y está disponible gratuitamente en la cara de abrazo, lo que permitirá que las pruebas de terceros evalúen los resultados presentados en el documento. El nuevo modelo de Deepseek es parte de una serie de avances recientes que abordan el problema de los costos de inferencia. Estos costos representan los gastos del servidor de operar un modelo AI previamente entrenado, que son distintos del costo de capacitación. Los investigadores de Deepseek estaban buscando formas de hacer que la arquitectura del transformador fundamental funcione de manera más eficiente, descubriendo que hay mejoras significativas para hacer. Con sede en China, Deepseek ha sido una figura inusual en el sector de la IA, particularmente para aquellos que ven la investigación de la IA como una lucha nacionalista entre los Estados Unidos y China. La compañía llamó la atención a principios de año con su modelo R1, que fue capacitado utilizando principalmente el aprendizaje de refuerzo a un costo mucho menor que sus competidores estadounidenses. Sin embargo, el modelo no provocó una revolución mayorista en la capacitación de IA como algunos predijeron, y la compañía ha retirado del centro de atención en los meses posteriores. Es poco probable que el nuevo enfoque de “escasa atención” produzca el mismo alboroto que R1, pero aún podría enseñar a los proveedores de los Estados Unidos algunos trucos muy necesarios para ayudar a mantener bajos los costos de inferencia.
Source: Deepseek publica el modelo V3.2-Exp con atención escasa

