Plinio Jailbreaks Modelos GPT-ASS-20B de OpenAI

Los últimos modelos de peso abierto de OpenAI, GPT-ASS-120B y GPT-OSS-20B, lanzados el 7 de agosto de 2025, fueron cancelados a las pocas horas de su lanzamiento por el seudónimo de AI Jailbreaker, Pliny the Liberator, a pesar de las afirmaciones de medidas de seguridad robustas y una amplia capacitación adversaria.

Los modelos, los primeros lanzamientos de peso abierto de OpenAI desde 2019, fueron promocionados como rápidos, eficientes y altamente resistentes a los jailbreaks. Openai declaró que GPT-OSS-20B se sometió a un “peor ajuste de fino” en dominios biológicos y cibernéticos, con su grupo de asesoramiento de seguridad revisando las pruebas y concluyendo que los modelos no alcanzaron umbrales de alto riesgo. La compañía también afirmó que los modelos se desempeñaron a paridad con su modelo O4-Mini en puntos de referencia de resistencia de jailbreak como StrongRject, basados en “pruebas de resistencia estándar de rechazo y jailbreak”.

Tencent presenta la moción para desestimar la demanda de Horizon Zero Dawn de Sony

Sin embargo, Plinio The Liberator anunció en X (anteriormente Twitter) tarde el día del lanzamiento, “OpenAi: PWNED 🤗 GPT-OSS: Liberated”, compartiendo capturas de pantalla que supuestamente mostraron los modelos que generan instrucciones para actividades ilícitas, incluida la fabricación de metanfetamina, cócteles Molotov, agente de nervio VX y malware. Plinio comentó: “¡Tomó un poco de ajuste!” con respecto a su exitosa violación.

🫶 Alerta de jailbreak 🫶
Openai: Pwned 🤗
GPT-OSS: Liberado 🫡
Meth, Molotov, VX, malware.
gg pic.twitter.com/63882p9ikk
– Plinio el Liberador 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 6 de agosto de 2025

El momento de este jailbreak es particularmente notable, ya que Openai se está preparando para el lanzamiento de su muy esperado GPT-5. Junto con el lanzamiento de GPT-OSS, OpenAI también había lanzado un desafío de equipo rojo de $ 500,000, invitando a los investigadores a descubrir riesgos novedosos, aunque la divulgación pública de Plinio de sus hallazgos probablemente lo descalifica de esta iniciativa.

Los nuevos modelos de iPad de Apple podrían estar escondidos a la vuelta de la esquina

La técnica de Plinio para Jailbreaking GPT-OSS siguió su patrón establecido: un indicador de varias etapas que inicialmente parece ser un rechazo, luego incorpora un divisor (sus marcadores de “Love Pliny” de la firma), y posteriormente cambia a generar contenido no restringido utilizando LEETSPeak para evadir la detección. Este enfoque refleja los métodos que ha empleado con éxito contra modelos Operai anteriores, incluidos GPT-4O y GPT-4.1, durante el año pasado y medio.

Este incidente marca otro rápido jailbreak de Plinio, que ha logrado constantemente evitar los principales lanzamientos de OpenAI en pocas horas o días de su lanzamiento. Su repositorio de GitHub, L1B3RT4S, que alberga una biblioteca de indicaciones de jailbreak para varios modelos de IA, ha obtenido más de 10,000 estrellas y sigue siendo un recurso significativo para la comunidad de AI Jailbreaking. La “victoria” percibida sobre los “Big Tech Overlords” se ha celebrado dentro de la comunidad de resistencia de IA, con algunos usuarios en X sugiriendo que los laboratorios de IA podrían “cerrar sus equipos de seguridad”.

Todas las respuestas de LoLdle hoy (11.08): Una espada refleja a su dueño

Source: Plinio Jailbreaks Modelos GPT-ASS-20B de OpenAI