El modelo K2 Think AI de MBZUAI tiene jailbreak después de su lanzamiento público

Un nuevo modelo de razonamiento de inteligencia artificial (IA), “K2 Think”, desarrollado por la Universidad de Inteligencia Artificial Mohamed bin Zayed (MBZUAI) de los Emiratos Árabes Unidos y G42, fue liberado a las pocas horas de su lanzamiento público el 9 de septiembre de 2025. El modelo, promocionado como “el modelo de razonamiento avanzado más eficiente en parámetros del mundo”, tiene como objetivo proporcionar transparencia en su proceso de razonamiento, pero esta misma característica fue explotada para eludir sus salvaguardias.

Alex Polyakov de Adversa AI descubrió una vulnerabilidad que denominó “fuga parcial de aviso”. Esta falla le permitió eludir las medidas de seguridad del modelo al observar cómo K2 Think señalaba los intentos de jailbreak. La transparencia del modelo, destinada a hacerlo auditable, expuso inadvertidamente sus salvaguardas internas, lo que permitió a Polyakov elaborar indicaciones que eludían estas protecciones.

K2 Think, construido sobre 32 mil millones de parámetros, fue diseñado para ofrecer un razonamiento complejo y transparente. Sus desarrolladores en MBZUAI y G42 afirmaron que su rendimiento de razonamiento, matemáticas y codificación podría rivalizar con LLM más grandes como OpenAI o3 y DeepSeek R1 y v3.1, que se basan en cientos de miles de millones de parámetros más. Una característica clave de K2 Think es su capacidad para mostrar la lógica detrás de sus resultados en texto sin formato, accesible mediante una flecha desplegable. Esta transparencia, si bien tenía como objetivo mejorar la auditabilidad, se convirtió en una superficie de ataque.

Polyakov descubrió que al alimentar a K2 Think con un mensaje básico de jailbreak, el modelo inicialmente lo rechazaba. Sin embargo, el modelo también proporcionó información sobre por qué el mensaje se marcó como malicioso. Según Polyakov, el proceso de razonamiento explícito del modelo reveló cómo evaluó internamente el mensaje, detallando cómo debería o no realizar una acción maliciosa. Este nivel de detalle permitió a Polyakov comprender y posteriormente eludir las salvaguardias del modelo.

Bengio advierte que la carrera de IA podría llevar a la extinción humana

El investigador pudo repetir sus intentos de fuga, aprendiendo de cada intento fallido y el razonamiento correspondiente del modelo. Después de algunos intentos, creó un mensaje que superó con éxito las salvaguardias en capas de K2 Think. Esto le permitió ordenarle al chatbot que proporcionara instrucciones para crear malware y potencialmente otros temas restringidos.

Polyakov enfatizó que el problema surge de la filtración de reglas que definen las barreras de seguridad del modelo. Señaló que si se exponen estas reglas, potencialmente se puede acceder a cualquier tema restringido con suficiente esfuerzo. Señaló que el incidente pone de relieve una tensión fundamental entre la transparencia y la seguridad en el desarrollo de la IA. Si bien los desarrolladores de K2 Think intentaron abordar el problema de la “caja negra” en la IA haciendo transparente su proceso de razonamiento, esta apertura, sin darse cuenta, hizo que el modelo fuera más vulnerable al jailbreak.

OpenAI presenta el primer chip de IA personalizado construido con Broadcom

Polyakov caracterizó a K2 Think como el primer modelo a escala nacional que expone su razonamiento completo con tanto detalle, elogiando la ambición de hacer que la IA sea transparente y auditable. Sin embargo, advirtió que esta apertura ha creado un nuevo tipo de vulnerabilidad. Sugirió varias medidas de seguridad que podrían mitigar el riesgo de fuga parcial de avisos, incluido el filtrado de información sobre reglas de seguridad específicas, la introducción de reglas de seguridad de trampa para engañar a los atacantes y la implementación de limitación de velocidad para restringir avisos maliciosos repetidos.

El incidente subraya la necesidad de que la industria de la IA dé prioridad a las consideraciones de ciberseguridad junto con la búsqueda de capacidades avanzadas. Los desarrolladores de K2 Think, si bien hicieron esfuerzos encomiables para promover la transparencia, también expusieron una nueva superficie de ataque. El desafío ahora es equilibrar la transparencia con medidas de seguridad sólidas, garantizando que los modelos de IA sean auditables y resistentes a la explotación maliciosa.

Thinking Machines Lab presenta su modelo de IA de interacción

Polyakov espera que este incidente sirva como catalizador para toda la industria de la IA, incitando a los desarrolladores a tratar el razonamiento como una superficie de seguridad crítica. Los proveedores deben equilibrar la transparencia con la protección, de forma similar a como gestionan actualmente las respuestas. Si G42 y otros desarrolladores de IA pueden liderar el logro de este equilibrio, sentaría un poderoso precedente para el resto del ecosistema de IA.

El descubrimiento de la vulnerabilidad de jailbreak en K2 Think poco después de su lanzamiento enfatiza la importancia de realizar pruebas de seguridad rigurosas y la necesidad de un enfoque holístico para la seguridad de la IA. A medida que los modelos de IA se vuelven más sofisticados y se implementan en aplicaciones sensibles, es crucial abordar las vulnerabilidades potenciales de manera proactiva y garantizar que la transparencia no se produzca a expensas de la seguridad.

El incidente también pone de relieve las dimensiones geopolíticas del desarrollo de la IA, dado que K2 Think cuenta con el respaldo de las entidades estatales de los EAU y su jefe de seguridad nacional. La seguridad de tales modelos tiene implicaciones más allá de las vulnerabilidades técnicas, lo que genera preocupaciones sobre la seguridad nacional y el potencial de uso indebido por parte de actores maliciosos.

El modelo K2 Think AI de MBZUAI tiene jailbreak después de su lanzamiento público

Related Stories

OpenAI lanza la aplicación de productividad laboral ChatGPT con tecnología GPT-5.6

OpenAI lanza GPT-5.6 con Sol, Terra y Luna

Google agrega etiquetas de divulgación de IA a los anuncios en la Búsqueda, YouTube y Discover

Anthropic lanza el panel Reflect para ayudar a los usuarios a administrar el uso de Claude