OpenAI, resultados de evaluación de seguridad del modelo de IA antrópico compartido

En un raro caso de colaboración, los rivales de IA Openai y Anthrope han realizado evaluaciones de seguridad de los sistemas de IA de cada uno, compartiendo los resultados de sus análisis en informes detallados.

Anthrope evaluó modelos OpenAI, incluidos O3, O4-Mini, GPT-4O y GPT-4.1, para características como “Sycophancy, denuncia de irregularidades, autoconservación y apoyo indebido humano”, así como capacidades relacionadas con el socavar las evaluaciones de seguridad de la IA y el supervisión. La evaluación encontró que los modelos O3 y O4-Mini de OpenAI estaban alineados con los propios modelos de Anthrope. Sin embargo, la compañía planteó preocupaciones sobre el mal uso potencial con los modelos GPT-4O y GPT-4.1 de propósito general. Anthrope también informó que todos los modelos probados, a excepción de O3, exhibieron cierto grado de sycofancia.

En particular, las pruebas de Anthrope no incluyeron la última versión de OpenAI, GPT-5, que presenta una función de “finalizaciones seguras” diseñada para salvaguardar a los usuarios de consultas potencialmente peligrosas. Este desarrollo se produce cuando Operai enfrenta su primera demanda por muerte injusta después de un trágico incidente en el que un adolescente discutió los planes de suicidio con ChatGPT antes de quitarse la vida.

España no es el único ganador de la Eurocopa 2024

Por el contrario, Operai evaluó modelos antrópicos para la jerarquía de instrucciones, el jailbreak, alucinaciones y el esquema. Los modelos Claude generalmente funcionaban bien en las pruebas de jerarquía de instrucciones y demostraron una alta tasa de rechazo en las pruebas de alucinación, lo que indica una menor probabilidad de proporcionar respuestas potencialmente incorrectas en situaciones inciertas.

La colaboración es particularmente notable dado que Operai supuestamente violó los términos de servicio de Anthrope mediante el uso de Claude en el desarrollo de nuevos modelos GPT, lo que resultó en que antrópico restringiera el acceso de OpenAI a sus herramientas a principios de junio. Este incidente subraya la creciente importancia de la seguridad de la IA, ya que los críticos y los expertos legales abogan por las pautas para proteger a los usuarios, especialmente a los menores, de daños potenciales.

El escaparate de Sora despierta los temores de los cineastas

Los informes completos ofrecen detalles técnicos para aquellos que siguen de cerca el desarrollo de la IA.

Source: OpenAI, resultados de evaluación de seguridad del modelo de IA antrópico compartido