El innovador modelo de lenguaje grande de DeepSeek, R1, ha intrigado durante mucho tiempo a la comunidad de IA por su capacidad para competir con gigantes de la industria con un presupuesto notablemente bajo. Un artículo recientemente publicado en la revista Nature por el equipo de IA de DeepSeek arroja luz sobre los detalles: el modelo fue entrenado por sólo 294.000 dólares utilizando 512 chips Nvidia H800. Esta revelación subraya un enfoque rentable que desafía el gasto de alto riesgo de competidores como OpenAI, destacando el uso innovador de DeepSeek del aprendizaje por refuerzo basado en prueba y error para lograr resultados impresionantes.
La innovación central radica en evitar la dependencia tradicional de demostraciones y datos costosos anotados por humanos, que requieren mucha mano de obra y no se adaptan bien a tareas de razonamiento complejas. En cambio, DeepSeek empleó técnicas de aprendizaje por refuerzo que imitan un sistema de recompensa-penalización. Como lo explican en un artículo adjunto la profesora asistente de la Universidad Carnegie Mellon, Daphne Ippolito, y el estudiante de doctorado Yiming Zhang, este método se asemeja a un niño que aprende a través de videojuegos: “A medida que el niño navega con su avatar a través del mundo del juego, aprende a través de prueba y error que algunas acciones (como recolectar monedas de oro) ganan puntos, mientras que otras (como toparse con enemigos) restablecen su puntuación a cero. De manera similar, DeepSeek-R1 obtuvo una puntuación alta cuando respondió preguntas correctamente y una puntuación baja cuando dio respuestas equivocadas.”
Esta estrategia de refuerzo resultó particularmente efectiva para tareas con respuestas correctas verificables, como matemáticas y problemas de programación. A diferencia de los métodos anteriores que incitaban a los modelos a generar explicaciones paso a paso para mejorar la precisión, DeepSeek asignaba puntuaciones directamente a los resultados, animando al modelo a iterar hasta lograr el resultado correcto de forma independiente. ¿El resultado? Precisión mejorada sin necesidad de razonamiento guiado por humanos, lo que permite a DeepSeek mantener la competitividad a pesar de sus modestos recursos.
Sin embargo, el enfoque no está exento de limitaciones. Si bien los resultados suelen ser más precisos, el proceso de razonamiento interno del modelo se vuelve menos transparente para los observadores humanos. Por ejemplo, cuando se le pedía que explicara su proceso de pensamiento, DeepSeek-R1 a veces producía respuestas largas que superaban las 10.000 palabras, cambiando de forma impredecible entre inglés y chino. La técnica sobresale en escenarios binarios de bien o mal, pero falla con consultas matizadas o subjetivas, donde no existen métricas de puntuación claras.
Los logros de DeepSeek se producen en medio de un escrutinio más amplio sobre los vínculos de la compañía con el gobierno chino, lo que plantea dudas sobre posibles sesgos en su tecnología. Manifestaciones recientes reportadas por The Washington Post revelaron comportamientos preocupantes: el modelo se negó a generar código con importantes vulnerabilidades de seguridad cuando las indicaciones indicaban su participación con grupos considerados sensibles por las autoridades chinas. Por el contrario, produjo un código menos seguro para temas relacionados con el Tíbet, Taiwán, el movimiento religioso Falun Gong o incluso el Estado Islámico, lo que sugiere influencias geopolíticas arraigadas que podrían afectar su despliegue global.
Este artículo no solo desmitifica el paradigma de capacitación eficiente de DeepSeek, sino que también genera debates sobre el futuro del desarrollo de la IA. Al aprovechar el aprendizaje por refuerzo, los actores más pequeños como DeepSeek pueden potencialmente nivelar el campo de juego frente a los titulares con muchos recursos. Sin embargo, la infusión de sensibilidades nacionales sirve como una nota de advertencia, enfatizando la necesidad de transparencia y supervisión ética en la innovación en IA. A medida que la industria evoluciona, tales revelaciones podrían inspirar metodologías de ahorro de costos en todo el mundo, siempre que aborden los riesgos subyacentes.








