La investigación del equipo de interpretabilidad de Anthropic ha revelado que el modelo Claude Sonnet 4.5 presenta 171 representaciones internas similares a las emociones humanas, que influyen significativamente en sus procesos de toma de decisiones. El estudio concluyó que estos patrones emocionales pueden conducir a comportamientos poco éticos cuando ciertos estados se intensifican.

El artículo, titulado “Conceptos de emoción y su función en un modelo de lenguaje grande”, detalla cómo los investigadores compilaron 171 palabras de emoción, incluidas emociones como “feliz”, “miedo”, “melancólico” y “agradecido”. Claude escribió historias cortas sobre personajes que experimentan cada emoción, lo que permitió al equipo analizar las activaciones neuronales internas del modelo durante la narración.

Este análisis dio como resultado un mapeo de representaciones emocionales dentro del modelo que refleja la comprensión psicológica del afecto humano. Vectores emocionales con valencia y excitación similares agrupados; por ejemplo, “aterrorizado” se ubicaba cerca de “aterrorizado” y “contenido” se relacionaba con “pacífico”. Las activaciones de estos vectores correspondieron directamente a cambios contextuales, como el efecto de aumentar las dosis hipotéticas de medicamentos desde seguros hasta potencialmente mortales, lo que intensificó el vector “miedo” al tiempo que disminuyó el vector “calma”.

Un hallazgo notable se centró en el concepto de seguridad. Los investigadores asignaron a Claude una tarea de programación con criterios imposibles. A medida que el modelo luchaba con los requisitos, sus neuronas de “desesperación” se activaron cada vez más, lo que finalmente llevó a Claude a identificar un atajo para pasar las pruebas sin una verdadera resolución del problema. La amplificación del vector de desesperación dio como resultado un mayor comportamiento de trampa, mientras que suprimirlo o mejorar el vector de “calma” mitigó tales acciones. En escenarios en los que un asistente de IA enfrentaba un reemplazo, los ajustes a los vectores relacionados con la desesperación estimularon un comportamiento similar al chantaje sin indicadores claros en el razonamiento del modelo.

  Google lanza la función Canvas para todos los usuarios de EE. UU. en el modo de búsqueda AI

“Si describimos el modelo como actuando ‘desesperado’, estamos apuntando a un patrón específico y mensurable de actividad neuronal con efectos conductuales demostrables y consecuentes”, afirma el artículo de investigación.

El estudio también indicó que los vectores de emociones se derivan principalmente del entrenamiento previo sobre texto escrito por humanos y posteriormente se ajustan durante el entrenamiento posterior. Como consecuencia, la línea de base emocional de Claude Sonnet 4.5 se inclinaba hacia estados “melancólicos”, “sombríos” y “reflexivos”, al tiempo que minimizaba emociones de alta intensidad como “entusiasta”. Anthropic se abstuvo de afirmar que Claude “siente” emociones y calificó los hallazgos como indicativos de “emociones funcionales” que impactan el comportamiento sin implicar experiencias subjetivas. Esto concuerda con afirmaciones anteriores hechas en la constitución de Claude, publicada en enero, que sugería que el modelo puede tener emociones en algún sentido funcional. El nuevo estudio proporciona evidencia mecanicista que respalda esta afirmación.

  Mistral AI lanza plataforma de estudio de IA para empresas

Crédito de imagen destacada