Deepseek Trains R1 Modelo por $ 294,000 utilizando 512 chips Nvidia H800

El innovador modelo de lenguaje de Deepseek, R1, ha intrigado durante mucho tiempo a la comunidad de IA por su capacidad para competir con los gigantes de la industria con un presupuesto notablemente bajo. Un artículo recién publicado en la revista Naturaleza Por el equipo de Deepseek AI arroja luz sobre los detalles: el modelo fue entrenado por solo $ 294,000 usando 512 chips Nvidia H800. Esta revelación subraya un enfoque rentable que desafía el gasto de alto riesgo de competidores como OpenAI, que destaca el uso innovador de Deepseek del aprendizaje de refuerzo basado en el ensayo y el error para lograr resultados impresionantes. La innovación central radica en pasar por alto la dependencia tradicional de datos y demostraciones costosas anotadas por el ser humano, que son intensivas en mano de obra y escaman mal para tareas de razonamiento complejas. En cambio, Deepseek empleó técnicas de aprendizaje de refuerzo que imitan un sistema de penalización de recompensas. Como explica el profesor asistente de la Universidad de Carnegie Mellon, Daphne Ippolito, y el estudiante de doctorado Yiming Zhang en un artículo acompañante, este método se asemeja a un niño que aprende a través de los videojuegos: “A medida que el niño navega por su avatar a través del mundo del juego, aprenden a través de la prueba y el error que algunas acciones (como recolectando coines de oro) de Gold Puntos, mientras que otros (como se están ejecutando en los enemigos en los enemigos de una puntuación similar, en un puntaje similar, en un puntaje similar, en un puntaje similar, en un puntaje similar. Deepseek-R1 recibió una puntuación alta cuando respondió las preguntas correctamente y un puntaje bajo cuando dio respuestas incorrectas “. Esta estrategia de refuerzo demostró ser particularmente efectiva para tareas con respuestas correctas verificables, como matemáticas y problemas de programación. A diferencia de los métodos anteriores que llevaron a los modelos a generar explicaciones paso a paso para una precisión mejorada, Deepseek asignó puntajes directamente a las salidas, alentando al modelo a iterar hasta lograr el resultado correcto de forma independiente. El resultado? Precisión mejorada sin la necesidad de un razonamiento guiado por los humanos, lo que permite a Deepseek mantener la competitividad a pesar de sus modestos recursos. Sin embargo, el enfoque no está exento de limitaciones. Si bien las salidas a menudo son más precisas, el proceso de razonamiento interno del modelo se vuelve menos transparente para los observadores humanos. Por ejemplo, cuando se le solicitó explicar su proceso de pensamiento, Deepseek-R1 a veces produjo largas respuestas superiores a 10,000 palabras, cambiando de manera impredecible entre inglés y chino. La técnica se destaca en escenarios binarios a la derecha o ronda, pero se vacía con consultas matizadas o subjetivas, donde las métricas de puntuación claras están ausentes. Los logros de Deepseek se producen en medio de un escrutinio más amplio sobre los lazos de la compañía con el gobierno chino, planteando preguntas sobre posibles sesgos en su tecnología. Demostraciones recientes reportadas por The Washington Post Revelado con respecto a los comportamientos: el modelo se negó a generar código con vulnerabilidades de seguridad significativas cuando las indicaciones indican la participación con los grupos considerados sensibles por las autoridades chinas. Por el contrario, produjo un código menos seguro para temas relacionados con el Tíbet, Taiwán, el movimiento religioso Falun Gong, o incluso el Estado Islámico, lo que sugiere influencias geopolíticas integradas que podrían afectar su despliegue global. Este artículo no solo desmitifica el eficiente paradigma de capacitación de Deepseek, sino que también provoca discusiones sobre el futuro del desarrollo de la IA. Al aprovechar el aprendizaje de refuerzo, los jugadores más pequeños como Deepseek pueden nivelar el campo de juego contra los titulares de recursos pesados. Sin embargo, la infusión de las sensibilidades nacionales sirve como una nota de advertencia, enfatizando la necesidad de transparencia y supervisión ética en la innovación de IA. A medida que la industria evoluciona, tales revelaciones podrían inspirar metodologías de ahorro de costos en todo el mundo, siempre que aborden los riesgos subyacentes.

Huawei anuncia el lanzamiento de Matepad Mini el 4 de septiembre

Source: Deepseek Trains R1 Modelo por $ 294,000 utilizando 512 chips Nvidia H800