DeepSeek, una startup china de IA, reveló un nuevo modelo, “MODEL1”, en su repositorio de código FlashMLA en GitHub, que aparece 28 veces en 114 archivos. La revelación coincide con el primer aniversario del lanzamiento de DeepSeek R1.

MODEL1 representa una arquitectura distinta de DeepSeek-V3.2, cuyo nombre en código interno es “V32”. El análisis de código realizado por los desarrolladores indica cambios en el diseño de la caché de valores clave, el manejo de la escasez y la decodificación del formato de datos del FP8. Estas alteraciones sugieren una reestructuración dirigida para la optimización de la memoria y la eficiencia computacional.

La divulgación se produjo a través del repositorio FlashMLA de DeepSeek, que contiene el núcleo de decodificación Multi-Head Latent Attention de la compañía para las GPU Nvidia Hopper. Las actualizaciones del código fuente de FlashMLA agregaron soporte para MODEL1, incluida la compatibilidad con la próxima arquitectura Blackwell de Nvidia (SM100), según publicaciones en la comunidad LocalLLaMA de Reddit. Los cambios de código muestran que MODEL1 vuelve a una dimensión estándar 512 unificada e incorpora características descritas como “Conciencia de posición del vector de valor” y posibles implementaciones del sistema de memoria condicional “Engram” de DeepSeek.

DeepSeek planea lanzar su modelo V4 de próxima generación a mediados de febrero de 2026, coincidiendo con el Año Nuevo Lunar el 17 de febrero, según The Information, citado por Reuters. Las pruebas internas realizadas por empleados de DeepSeek sugieren que V4 podría superar a los modelos rivales de Anthropic y OpenAI en pruebas comparativas de codificación, particularmente con indicaciones de código largas. Se espera que el modelo V4 integre la arquitectura Engram de DeepSeek, que permite la recuperación eficiente de contextos que superan el millón de tokens mediante el uso de un sistema de búsqueda de hechos fundamentales.

  Se rumorea que Nothing Phone (3a) Lite se lanzará a nivel mundial

La revelación de MODEL1 se produce un año después del debut de DeepSeek R1 en enero de 2025. Este evento, denominado “momento AI Sputnik” por el capitalista de riesgo Marc Andreessen, resultó en una reducción de 593 mil millones de dólares en el valor de mercado de Nvidia en un solo día, informó ITPro. Según se informa, entrenar el modelo R1 de DeepSeek costó menos de $ 6 millones, pero igualó o superó el modelo o1 de OpenAI en puntos de referencia de matemáticas y codificación. Posteriormente, la compañía lanzó la V3.1 en agosto y la V3.2 en diciembre, y se describe que la V3.2 ofrece un rendimiento equivalente al GPT-5 de OpenAI.

Crédito de imagen destacada