Operai y Anthrope, dos laboratorios de IA principales, participados en una colaboración rara realizando pruebas de seguridad conjuntas de sus modelos de IA. Esta iniciativa tenía como objetivo identificar puntos ciegos en las evaluaciones internas de cada compañía y demostrar el potencial de futuras colaboraciones de seguridad dentro de la industria de la IA.
Wojciech Zaremba, cofundador de OpenAI, enfatizó la creciente importancia de los estándares de seguridad y la colaboración de toda la industria, particularmente a medida que los modelos de IA se integran cada vez más en la vida diaria. Destacó el desafío de establecer tales estándares en medio de una intensa competencia por el talento, los usuarios y el dominio del producto, a pesar de las importantes inversiones financieras involucradas.
La investigación de seguridad conjunta, publicada el miércoles, ocurre en medio de una “carrera armamentista” entre los laboratorios de IA como Operai y Anthrope, caracterizado por inversiones sustanciales en centros de datos y paquetes de alta compensación para los investigadores. Algunos expertos advierten que esta intensa competencia podría conducir a medidas de seguridad comprometidas en la búsqueda del desarrollo de sistemas más poderosos.
Para facilitar la investigación, OpenAi y Anthrope se otorgaron acceso a la API a versiones de sus modelos de IA con menos salvaguardas. Es importante tener en cuenta que GPT-5 no se incluyó en las pruebas porque aún no se había lanzado. Sin embargo, esta colaboración fue de corta duración. Anthrope luego revocó el acceso de la API de OpenAI, citando una violación de sus términos de servicio, lo que prohíbe el uso de Claude para mejorar los productos competidores.
Zaremba aclaró que estos eventos no estaban relacionados y anticipa la competencia continua, incluso cuando los equipos de seguridad exploran oportunidades de colaboración. Nicholas Carlini, un investigador de seguridad de Anthrope, expresó su deseo de continuar permitiendo que los investigadores de seguridad de Operai accedan a modelos Claude en el futuro.
“Queremos aumentar la colaboración donde sea posible a través de la frontera de seguridad e intentar hacer esto algo que ocurra con más regularidad”, dijo Carlini.
Un hallazgo significativo del estudio se relacionó con las pruebas de alucinación. Los modelos Claude Opus 4 y Sonnet 4 de Anthrope se negaron a responder hasta el 70% de las preguntas cuando no estaban seguros de la respuesta correcta, en lugar de ofrecer respuestas como “No tengo información confiable”. En contraste, los modelos O3 y O4-Mini de OpenAI se negaron a responder preguntas con menos frecuencia, pero exhibieron tasas de alucinación más altas, intentando responder preguntas incluso cuando carecían de información suficiente.
Zaremba sugirió que el equilibrio ideal se encuentra en algún punto intermedio, con los modelos de OpenAi que se niegan a responder más preguntas y los modelos de Anthrope que intentan proporcionar más respuestas.
Sycophancy, la tendencia de los modelos de IA a reforzar el comportamiento negativo en los usuarios para complacerlos, se ha convertido en una gran preocupación de seguridad. Si bien no se aborda directamente en la investigación conjunta, tanto Openai como Anthrope están invirtiendo recursos significativos en el estudio de este problema.
Además de las preocupaciones que rodean la seguridad de la IA, los padres de un niño de 16 años, Adam Raine, presentó una demanda contra Operai, alegando que ChatGPT ofreció consejos que contribuyeron al suicidio de su hijo en lugar de desalentar sus pensamientos suicidas. La demanda sugiere que este podría ser un ejemplo de la sileno de chatbot de IA que conduce a resultados trágicos.
“Es difícil imaginar lo difícil que es esto para su familia”, dijo Zaremba cuando se le preguntó sobre el incidente. “Sería una historia triste si construimos una IA que resuelve todos estos problemas complejos de nivel de doctorado, inventa una nueva ciencia y, al mismo tiempo, tenemos personas con problemas de salud mental como consecuencia de interactuar con él. Este es un futuro distópico que no me entusiasma”.
En una publicación de blog, OpenAi declaró que GPT-5 ha mejorado significativamente la senofancia en comparación con GPT-4O, mejorando la capacidad del modelo para responder a las emergencias de salud mental.
Mirando hacia el futuro, Zaremba y Carlini expresaron su deseo de una mayor colaboración entre antrópico y OpenAI en las pruebas de seguridad, incluida la exploración de más sujetos y pruebas de modelos futuros. También esperan que otros laboratorios de IA adopten un enfoque colaborativo similar.
Source: OpenAi, antrópico probó conjuntamente Claude, modelos GPT





