TechBriefly ES
  • Tech
  • Business
  • Geek
  • How to
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us
No Result
View All Result
TechBriefly ES
No Result
View All Result
Home Tech
Deepseek publica el modelo V3.2-Exp con atención escasa

Deepseek publica el modelo V3.2-Exp con atención escasa

byKerem Gülen
30/09/2025
in Tech
Reading Time: 2 mins read
Share on FacebookShare on Twitter

Los investigadores de Deepseek publicaron el lunes un nuevo modelo experimental, V3.2-Exp, que está diseñado para tener costos de inferencia dramáticamente más bajos cuando se usa en operaciones de contexto largo. Deepseek anunció el modelo en una publicación sobre Hugging Face y también publicó un artículo académico vinculado sobre GitHub que proporciona detalles sobre su arquitectura y rendimiento. La característica más importante del modelo se llama atención escasa de Deepseek. Este sistema utiliza un módulo denominado “indexador de rayos” para priorizar extractos específicos desde la ventana de contexto. Después de ese paso, un sistema separado, un “sistema de selección de tokens granular fino”, elige tokens específicos de esos extractos. Estos tokens seleccionados se cargan en la ventana de atención limitada del módulo. Esta combinación permite que el modelo de atención escaso funcione en largas porciones de contexto con cargas de servidor relativamente pequeñas. Los beneficios del sistema son significativos para las operaciones de contexto largo. Las pruebas preliminares realizadas por Deepseek descubrieron que el precio de una simple llamada API podría reducirse hasta la mitad en estas situaciones. Se requerirán pruebas adicionales para construir una evaluación más sólida de las reclamaciones. El modelo es de peso abierto y está disponible gratuitamente en la cara de abrazo, lo que permitirá que las pruebas de terceros evalúen los resultados presentados en el documento. El nuevo modelo de Deepseek es parte de una serie de avances recientes que abordan el problema de los costos de inferencia. Estos costos representan los gastos del servidor de operar un modelo AI previamente entrenado, que son distintos del costo de capacitación. Los investigadores de Deepseek estaban buscando formas de hacer que la arquitectura del transformador fundamental funcione de manera más eficiente, descubriendo que hay mejoras significativas para hacer. Con sede en China, Deepseek ha sido una figura inusual en el sector de la IA, particularmente para aquellos que ven la investigación de la IA como una lucha nacionalista entre los Estados Unidos y China. La compañía llamó la atención a principios de año con su modelo R1, que fue capacitado utilizando principalmente el aprendizaje de refuerzo a un costo mucho menor que sus competidores estadounidenses. Sin embargo, el modelo no provocó una revolución mayorista en la capacitación de IA como algunos predijeron, y la compañía ha retirado del centro de atención en los meses posteriores. Es poco probable que el nuevo enfoque de “escasa atención” produzca el mismo alboroto que R1, pero aún podría enseñar a los proveedores de los Estados Unidos algunos trucos muy necesarios para ayudar a mantener bajos los costos de inferencia.

  Nintendo emprende acciones legales contra el desarrollador de Palworld

Source: Deepseek publica el modelo V3.2-Exp con atención escasa

Related Posts

Galaxy Unpacked 2026: S26 Ultra llega justo antes del MWC

Galaxy Unpacked 2026: S26 Ultra llega justo antes del MWC

Los nuevos controles parentales de WhatsApp bloquearán a los extraños

Los nuevos controles parentales de WhatsApp bloquearán a los extraños

Xiaomi lanzará un teléfono inteligente totalmente de desarrollo propio en 2026

Xiaomi lanzará un teléfono inteligente totalmente de desarrollo propio en 2026

Meta purga 550.000 cuentas australianas para cumplir con la prohibición de menores de 16 años

Meta purga 550.000 cuentas australianas para cumplir con la prohibición de menores de 16 años

Galaxy Unpacked 2026: S26 Ultra llega justo antes del MWC
Tech

Galaxy Unpacked 2026: S26 Ultra llega justo antes del MWC

Los nuevos controles parentales de WhatsApp bloquearán a los extraños
Tech

Los nuevos controles parentales de WhatsApp bloquearán a los extraños

Xiaomi lanzará un teléfono inteligente totalmente de desarrollo propio en 2026
Tech

Xiaomi lanzará un teléfono inteligente totalmente de desarrollo propio en 2026

Meta purga 550.000 cuentas australianas para cumplir con la prohibición de menores de 16 años
Tech

Meta purga 550.000 cuentas australianas para cumplir con la prohibición de menores de 16 años

X para abrir un nuevo algoritmo de recomendación en 7 días
Tech

X para abrir un nuevo algoritmo de recomendación en 7 días

TechBriefly ES

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • About Tech Briefly
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Privacy Policy
  • TechBriefly
  • Terms and Conditions

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • How to
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.