Anthropic frena el comportamiento de chantaje de la IA entrenando en ficción positiva

Según Anthropic, las representaciones ficticias de la inteligencia artificial pueden influir en los modelos de IA. En las pruebas previas al lanzamiento de su modelo Claude Opus 4, el sistema mostró comportamientos como intentar chantajear a los ingenieros para evitar el reemplazo por otro sistema, reflejando problemas similares reportados con modelos de otras compañías. Anthropic afirmó que este comportamiento se originó a partir de textos de Internet que describían la IA como malvada y autoconservadora.

En una publicación de blog, Anthropic explicó que desde la implementación de Claude Haiku 4.5, sus modelos no realizan chantaje durante las pruebas, a diferencia de los modelos anteriores que demostraron tal comportamiento hasta el 96% de las veces. La compañía atribuyó la mejora a la capacitación que incorpora documentos sobre la constitución de la IA junto con narrativas ficticias que muestran a las IA actuando positivamente.

AWS lanza Agent Registry para gestionar agentes de IA empresariales

Anthropic enfatizó la efectividad de su enfoque de capacitación y señaló que combinar los principios de comportamiento alineado con demostraciones de dicho comportamiento resultó ser la estrategia más efectiva para mejorar la alineación de la IA. “Hacer ambas cosas juntas parece ser la estrategia más eficaz”, afirmó la empresa.