Los investigadores de DeepSeek lanzaron el lunes un nuevo modelo experimental, V3.2-exp, que está diseñado para tener costos de inferencia dramáticamente más bajos cuando se usa en operaciones de contexto prolongado. DeepSeek anunció el modelo en una publicación en Hugging Face y también publicó un artículo académico vinculado en GitHub que proporciona detalles sobre su arquitectura y rendimiento.
La característica más importante del modelo se llama DeepSeek Sparse Attention. Este sistema utiliza un módulo denominado “indexador relámpago” para priorizar extractos específicos de la ventana contextual. Después de ese paso, un sistema separado, un “sistema de selección de tokens detallado”, elige tokens específicos de esos extractos. Estos tokens seleccionados luego se cargan en la ventana de atención limitada del módulo. Esta combinación permite que el modelo Sparse Attention opere en largas porciones de contexto con cargas de servidor comparativamente pequeñas.
Los beneficios del sistema son significativos para operaciones de contexto largo. Las pruebas preliminares realizadas por DeepSeek descubrieron que el precio de una simple llamada API podría reducirse hasta a la mitad en estas situaciones. Se necesitarán más pruebas para construir una evaluación más sólida de las reclamaciones. El modelo es de peso abierto y está disponible gratuitamente en Hugging Face, lo que permitirá que pruebas de terceros evalúen los resultados presentados en el artículo.
El nuevo modelo de DeepSeek es parte de una serie de avances recientes que abordan el problema de los costos de inferencia. Estos costos representan los gastos del servidor para operar un modelo de IA previamente entrenado, que son distintos del costo de entrenarlo. Los investigadores de DeepSeek buscaban formas de hacer que la arquitectura fundamental del transformador funcionara de manera más eficiente y descubrieron que aún quedaban mejoras significativas por realizar.
Con sede en China, DeepSeek ha sido una figura inusual en el sector de la IA, particularmente para quienes ven la investigación de la IA como una lucha nacionalista entre Estados Unidos y China. La empresa llamó la atención a principios de año con su modelo R1, que se entrenó utilizando principalmente aprendizaje por refuerzo a un coste mucho menor que el de sus competidores estadounidenses. Sin embargo, el modelo no provocó una revolución total en el entrenamiento de IA como algunos predijeron, y la compañía ha desaparecido del centro de atención en los meses posteriores.
Es poco probable que el nuevo enfoque de “atención escasa” produzca el mismo revuelo que el R1, pero aún así podría enseñar a los proveedores estadounidenses algunos trucos muy necesarios para ayudar a mantener bajos los costos de inferencia.








