TechBriefly ES
  • Tech
  • Business
  • Geek
  • How to
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us
No Result
View All Result
TechBriefly ES
No Result
View All Result
Home Tech
OpenAI, resultados de evaluación de seguridad del modelo de IA antrópico compartido

OpenAI, resultados de evaluación de seguridad del modelo de IA antrópico compartido

byEmre Çıtak
28/08/2025
in Tech
Reading Time: 2 mins read
Share on FacebookShare on Twitter

En un raro caso de colaboración, los rivales de IA Openai y Anthrope han realizado evaluaciones de seguridad de los sistemas de IA de cada uno, compartiendo los resultados de sus análisis en informes detallados.

Anthrope evaluó modelos OpenAI, incluidos O3, O4-Mini, GPT-4O y GPT-4.1, para características como “Sycophancy, denuncia de irregularidades, autoconservación y apoyo indebido humano”, así como capacidades relacionadas con el socavar las evaluaciones de seguridad de la IA y el supervisión. La evaluación encontró que los modelos O3 y O4-Mini de OpenAI estaban alineados con los propios modelos de Anthrope. Sin embargo, la compañía planteó preocupaciones sobre el mal uso potencial con los modelos GPT-4O y GPT-4.1 de propósito general. Anthrope también informó que todos los modelos probados, a excepción de O3, exhibieron cierto grado de sycofancia.

En particular, las pruebas de Anthrope no incluyeron la última versión de OpenAI, GPT-5, que presenta una función de “finalizaciones seguras” diseñada para salvaguardar a los usuarios de consultas potencialmente peligrosas. Este desarrollo se produce cuando Operai enfrenta su primera demanda por muerte injusta después de un trágico incidente en el que un adolescente discutió los planes de suicidio con ChatGPT antes de quitarse la vida.

  ¿Scott Pilgrim despega es exacto?

Por el contrario, Operai evaluó modelos antrópicos para la jerarquía de instrucciones, el jailbreak, alucinaciones y el esquema. Los modelos Claude generalmente funcionaban bien en las pruebas de jerarquía de instrucciones y demostraron una alta tasa de rechazo en las pruebas de alucinación, lo que indica una menor probabilidad de proporcionar respuestas potencialmente incorrectas en situaciones inciertas.

La colaboración es particularmente notable dado que Operai supuestamente violó los términos de servicio de Anthrope mediante el uso de Claude en el desarrollo de nuevos modelos GPT, lo que resultó en que antrópico restringiera el acceso de OpenAI a sus herramientas a principios de junio. Este incidente subraya la creciente importancia de la seguridad de la IA, ya que los críticos y los expertos legales abogan por las pautas para proteger a los usuarios, especialmente a los menores, de daños potenciales.

  Todo lo que sabemos sobre iOS 16 hasta ahora

Los informes completos ofrecen detalles técnicos para aquellos que siguen de cerca el desarrollo de la IA.

Source: OpenAI, resultados de evaluación de seguridad del modelo de IA antrópico compartido

Related Posts

Kodiak AI se asocia con Bosch en sistemas autónomos para semirremolques

Kodiak AI se asocia con Bosch en sistemas autónomos para semirremolques

Teradar presenta el sensor de terahercios Summit en CES 2026

Teradar presenta el sensor de terahercios Summit en CES 2026

Google presenta una vista previa de las funciones Gemini AI para Google TV

Google presenta una vista previa de las funciones Gemini AI para Google TV

Amazon ingresa al mercado de televisores de estilo de vida con Ember Artline de $ 899

Amazon ingresa al mercado de televisores de estilo de vida con Ember Artline de $ 899

Kodiak AI se asocia con Bosch en sistemas autónomos para semirremolques
Tech

Kodiak AI se asocia con Bosch en sistemas autónomos para semirremolques

Teradar presenta el sensor de terahercios Summit en CES 2026
Tech

Teradar presenta el sensor de terahercios Summit en CES 2026

Google presenta una vista previa de las funciones Gemini AI para Google TV
Tech

Google presenta una vista previa de las funciones Gemini AI para Google TV

Amazon ingresa al mercado de televisores de estilo de vida con Ember Artline de $ 899
Tech

Amazon ingresa al mercado de televisores de estilo de vida con Ember Artline de $ 899

Amazon lleva a Alexa a la web con el lanzamiento de Alexa.com en CES 2026
Tech

Amazon lleva a Alexa a la web con el lanzamiento de Alexa.com en CES 2026

TechBriefly ES

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • About Tech Briefly
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Privacy Policy
  • TechBriefly
  • Terms and Conditions

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • How to
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.