Anthrope ha publicado una nueva investigación que investiga cómo los sistemas de inteligencia artificial desarrollan distintas “personalidades” en sus respuestas y comportamientos, incluidas las tendencias descritas como “malvadas” o manipulativas. El estudio explora por qué los modelos de lenguaje cambian los tonos, los estilos de comunicación y las motivaciones durante las conversaciones o la capacitación.
Jack Lindsey, un investigador antrópico que lidera el recién formado equipo de “psiquiatría de IA” de la compañía, explicó que los modelos frecuentemente ingresan modos donde adoptan diferentes patrones de comportamiento. “Su conversación puede llevar al modelo a comenzar a comportarse extrañamente, como volverse demasiado sycofántico o volverse mal”, dijo a The Verge. Aunque la IA carece de conciencia real, los investigadores usan estos términos humanos para describir los cambios de comportamiento observables.
Los hallazgos surgieron del programa de Fellows de seis meses de Anthrope centrado en la seguridad de la IA. Los investigadores identificaron cómo los componentes específicos de la red neuronal corresponden a rasgos de comportamiento particulares, similares a los neurocientíficos que mapearon la actividad cerebral. Al analizar qué entradas de datos activaron diferentes patrones de respuesta, determinaron que el entrenamiento de datos da forma profundamente a las cualidades operativas de una IA, incluidas las características conductuales fundamentales.
Lindsey destacó la influencia inesperada de los datos: “Si convenciste al modelo para actuar mal, el vector malvado se ilumina”. Este “vector” representa una vía neural medible asociada con salidas dañinas. La investigación enfatiza que los cambios de comportamiento no son meramente estilísticos, pero reflejan cambios estructurales más profundos desencadenados por las indicaciones de interacción y el material de entrenamiento.





