Anthropic se ha disculpado por estrangular en secreto su modelo de IA, Claude Fable 5, con barreras de seguridad ocultas que obstaculizan el desarrollo de investigadores y competidores. La compañía afirmó que mejorará la transparencia con respecto a cuándo se aplican estas restricciones, incluso si esto lleva a que Fable rechace más consultas.

Fable es el primer modelo ampliamente disponible en la clase Mythos de sistemas de inteligencia artificial de Anthropic, que la compañía advirtió que son demasiado peligrosos para su divulgación pública. Se lanzó con salvaguardas que le impiden responder a ciertas consultas de “alto riesgo”.

Un área de restricción es la destilación, un método para entrenar modelos más pequeños utilizando resultados de modelos más grandes. En la tarjeta del sistema de Fable, Anthropic indicó que alteraría y degradaría las respuestas a consultas percibidas como intentos de destilación sin informar a los usuarios de estos cambios.

Ahora, las consultas sospechosas de ser intentos de destilación se realizarán de manera predeterminada en Claude Opus 4.8, el modelo insignia anterior de la compañía, y los usuarios recibirán notificaciones cuando esto ocurra. Esta alternativa también se aplica a otros dominios de alto riesgo como la biología, la química y la ciberseguridad, a menos que esas consultas estén completamente bloqueadas debido a normas de seguridad más amplias contra temas como las drogas y las armas.

  Yelp actualiza el chatbot para centralizar las funciones y reservas de la aplicación

La compañía reconoció que sus medidas de seguridad, sin darse cuenta, han dejado a Fable casi inutilizable para consultas básicas en áreas como biología debido a restricciones excesivas. Anthropic admitted that the use of invisible safeguards was a mistake, emphasizing that transparency in safety measures is critical.

La decisión de la compañía de ocultar las restricciones enfrentó una importante reacción de la comunidad de investigación de IA, que argumentó que limitaba las capacidades del modelo tanto para los evaluadores como para los competidores. Anthropic declaró que utilizar Claude para crear modelos competitivos viola sus Términos de servicio, habiendo acusado previamente a sus rivales, incluido DeepSeek, de destilar sus modelos a escala industrial.

“Las salvaguardias visibles pueden ser investigadas, por lo que tienen que ser sólidas, lo cual requiere tiempo para hacerlo bien”, escribió Anthropic. “Las salvaguardias invisibles se pueden enfocar de manera más específica, lo que nos permite realizar envíos rápidamente con muy pocos falsos positivos. Optamos por salvaguardias invisibles por esta razón, y esa fue la compensación equivocada. Debería tener visibilidad de las salvaguardias que tenemos implementadas y por qué. Lamentamos no lograr el equilibrio correcto”, agregó la compañía.

  Desafíos antrópicos Lovable con la nueva herramienta de codificación Claude Vibe

Crédito de imagen destacada