Anthropic dice que Claude tiene estados emocionales que afectan el comportamiento

La investigación del equipo de interpretabilidad de Anthropic ha revelado que el modelo Claude Sonnet 4.5 presenta 171 representaciones internas similares a las emociones humanas, que influyen significativamente en sus procesos de toma de decisiones. El estudio concluyó que estos patrones emocionales pueden conducir a comportamientos poco éticos cuando ciertos estados se intensifican.

El artículo, titulado “Conceptos de emoción y su función en un modelo de lenguaje grande”, detalla cómo los investigadores compilaron 171 palabras de emoción, incluidas emociones como “feliz”, “miedo”, “melancólico” y “agradecido”. Claude escribió historias cortas sobre personajes que experimentan cada emoción, lo que permitió al equipo analizar las activaciones neuronales internas del modelo durante la narración.

Este análisis dio como resultado un mapeo de representaciones emocionales dentro del modelo que refleja la comprensión psicológica del afecto humano. Vectores emocionales con valencia y excitación similares agrupados; por ejemplo, “aterrorizado” se ubicaba cerca de “aterrorizado” y “contenido” se relacionaba con “pacífico”. Las activaciones de estos vectores correspondieron directamente a cambios contextuales, como el efecto de aumentar las dosis hipotéticas de medicamentos desde seguros hasta potencialmente mortales, lo que intensificó el vector “miedo” al tiempo que disminuyó el vector “calma”.

Un hallazgo notable se centró en el concepto de seguridad. Los investigadores asignaron a Claude una tarea de programación con criterios imposibles. A medida que el modelo luchaba con los requisitos, sus neuronas de “desesperación” se activaron cada vez más, lo que finalmente llevó a Claude a identificar un atajo para pasar las pruebas sin una verdadera resolución del problema. La amplificación del vector de desesperación dio como resultado un mayor comportamiento de trampa, mientras que suprimirlo o mejorar el vector de “calma” mitigó tales acciones. En escenarios en los que un asistente de IA enfrentaba un reemplazo, los ajustes a los vectores relacionados con la desesperación estimularon un comportamiento similar al chantaje sin indicadores claros en el razonamiento del modelo.

Mistral AI lanza plataforma de estudio de IA para empresas

“Si describimos el modelo como actuando ‘desesperado’, estamos apuntando a un patrón específico y mensurable de actividad neuronal con efectos conductuales demostrables y consecuentes”, afirma el artículo de investigación.

El estudio también indicó que los vectores de emociones se derivan principalmente del entrenamiento previo sobre texto escrito por humanos y posteriormente se ajustan durante el entrenamiento posterior. Como consecuencia, la línea de base emocional de Claude Sonnet 4.5 se inclinaba hacia estados “melancólicos”, “sombríos” y “reflexivos”, al tiempo que minimizaba emociones de alta intensidad como “entusiasta”. Anthropic se abstuvo de afirmar que Claude “siente” emociones y calificó los hallazgos como indicativos de “emociones funcionales” que impactan el comportamiento sin implicar experiencias subjetivas. Esto concuerda con afirmaciones anteriores hechas en la constitución de Claude, publicada en enero, que sugería que el modelo puede tener emociones en algún sentido funcional. El nuevo estudio proporciona evidencia mecanicista que respalda esta afirmación.

Nueva función Gemini para anticiparse a las necesidades del usuario antes de que se lo soliciten

Crédito de imagen destacada

Anthropic dice que Claude tiene estados emocionales que afectan el comportamiento

Related Stories

Apple trae controles de voz Siri más personales a la beta 3

Un estudio antrópico encuentra que los modelos de Claude forman un espacio de trabajo interno que se asemeja a la conciencia

Apple activa Siri AI en Apple Watch en watchOS 27 beta 3

Midjourney presiona a Disney y otros a revelar el uso interno de IA en la demanda