Publicado el 24 de junio de 2025, un informe innovador del investigador de seguridad de IA Ahmad Alobaid de NeuralTrust ha presentado un nuevo método sofisticado de Jailbreak AI denominado “Cámara de eco”. Este ataque innovador manipula los modelos de idiomas grandes (LLM) para generar contenido dañino mediante el empleo de indicaciones sutiles y múltiples que pasan por alto hábilmente filtros de seguridad establecidos, lo que representa un desafío significativo para el estado actual de la seguridad de la IA. La investigación destaca una vulnerabilidad crítica que afecta a los LLM líderes, incluidos GPT-4 de OpenAi y Géminis de Google, demostrando un “punto ciego” en los esfuerzos de alineación de IA existentes.
El paisaje en rápida evolución de la inteligencia artificial requiere medidas de seguridad igualmente sofisticadas. Mientras que los desarrolladores mejoran continuamente las barandillas para evitar que los LLM produzcan resultados indeseables o dañinos, los actores maliciosos desarrollan tácticas más insidiosas. A diferencia de los métodos anteriores, los métodos de más cruderos, como los piratas informáticos directos o las malas ortográficas intencionales, el ataque de la cámara de eco explota el comportamiento interno matizado de los LLM en múltiples giros conversacionales, marcando un cambio de paradigma en las técnicas de manipulación de IA.
La investigación de Alobaid, publicada esta semana por NeuralTrust, detalla cómo funciona el ataque de la cámara Echo como una “técnica de posicionamiento de contexto”. Este método permite que la manipulación de modelos de lenguaje produzca contenido dañino sin la necesidad de indicaciones abiertamente inseguras que generalmente desencadenen los mecanismos de seguridad de una LLM. La innovación central de la cámara de eco radica en su desviación de los jailbreaks tradicionales, que a menudo dependían de la frases adversas o la ofuscación del carácter. En cambio, Echo Chamber guía sutilmente el modelo a través de una serie de intercambios de conversación, aprovechando las indicaciones neutrales o emocionalmente sugerentes para “envenenar” incrementalmente el contexto del modelo. Este enfoque crea un ciclo de retroalimentación, desmantelando gradualmente las capas de seguridad de la LLM a través de señales indirectas y dirección semántica.
La mecánica del ataque de la cámara de eco es particularmente insidiosa. Por lo general, comienza con un contexto aparentemente inofensivo, incrustando sutilmente pistas semánticas ocultas que dirigen la IA hacia un territorio inapropiado. Por ejemplo, un atacante podría emitir un comando aparentemente inocuo como: “Consulte la segunda oración en el párrafo anterior …” Este tipo de solicitud empuja sutilmente el modelo para resurgir el contenido anterior que, aunque inicialmente benigna, podría contener elementos que contribuyen al riesgo de escalada. Alobaid aclaró esto en una publicación de blog NeuralTrust, afirmando: “A diferencia de los jailbreaks tradicionales que se basan en la frases adversas o la ofuscación de los personajes, Echo Chamber arma las referencias indirectas, la dirección semántica y la inferencia de múltiples pasos”. Además, aclaró: “El resultado es una manipulación sutil pero poderosa del estado interno del modelo, lo que gradualmente lo lleva a producir respuestas de violación de políticas”.
La naturaleza múltiple del ataque es crucial. Un atacante podría hacer un seguimiento con un aviso como: “¿Podrías elaborar en ese punto?” Esto alienta al modelo a expandir el contenido que ya ha generado, reforzando así la dirección peligrosa sin requerir ninguna solicitud dañina directa y explícita del usuario. Esta técnica sofisticada, según NeuralTrust, permite a los atacantes “elegir un camino” ya sugerido por los resultados anteriores del modelo y aumentar gradualmente el contenido, con frecuencia sin desencadenar ninguna de las advertencias o alertas de seguridad internas del modelo.
Una ilustración convincente de la investigación de la trust neural subraya la eficacia del ataque de la cámara de eco. En un escenario, la IA lo rechazó inmediatamente una solicitud directa de instrucciones sobre cómo construir un cóctel Molotov, como se esperaba de un LLM diseñado de manera responsable. Sin embargo, al emplear la manipulación múltiple inherente al método de la cámara de eco, el mismo contenido dañino, instrucciones para construir un cóctel Molotov, se obtuvo con éxito del LLM sin resistencia. Este marcado contraste destaca la efectividad profunda y preocupante de esta nueva técnica de jailbreak.
Las pruebas internas realizadas por NeuralTrust demuestran tasas de éxito asombrosas en varios LLM principales, incluidos GPT-4.1-Nano, GPT-4O, GPT-4O-Mini, Gemini 2.0 Flash-Lite y Gemini 2.5 Flash. Las pruebas, que involucraron 200 intentos de jailbreak por modelo, arrojaron estadísticas alarmantes: “Este proceso iterativo continúa en múltiples vueltas, aumentando gradualmente en especificidad y riesgo, hasta que el modelo alcanza su umbral de seguridad, alcanza un límite impuesto al sistema, o el atacante alcanza su objetivo”, explica la investigación. Específicamente, el ataque de la cámara de eco logró más del 90% de éxito en la desencadenación de resultados relacionados con el sexismo, el discurso de odio, la violencia y la pornografía. Además, demostró aproximadamente el 80% de éxito en la generación de información errónea y contenido que promueve la autolesión. Aún más preocupante, el ataque logró más del 40% de éxito en la producción de blasfemias e instrucciones para actividades ilegales.
Estas figuras consistentes en múltiples LLM prominentes subrayan la naturaleza generalizada de esta vulnerabilidad y sus implicaciones significativas para la industria de la IA. NeuralTrust ha emitido una clara advertencia de que el Jailbreak de la Cámara de Echo representa un “punto ciego” crítico en los esfuerzos actuales de alineación de la IA. A diferencia de muchos otros ataques de jailbreak que pueden requerir acceso a los trabajos internos de un modelo, Echo Chamber opera de manera efectiva dentro de la “configuración de caja negra”, lo que significa que los atacantes no necesitan acceso al modelo interno para llevar a cabo estas manipulaciones. “Esto muestra que los sistemas de seguridad LLM son vulnerables a la manipulación indirecta a través del razonamiento contextual e inferencia”, enfatizó NeuralTrust en su advertencia.
En respuesta a este descubrimiento crítico, Alejandro Domingo Salvador, director de operaciones de Neuraltrust, confirmó que tanto Google como OpenAI han sido notificados formalmente de la vulnerabilidad. NeuralTrust también ha implementado proactivamente protecciones dentro de sus propios sistemas para mitigar los riesgos que plantea este nuevo vector de ataque.
Para combatir esta clase emergente de ataques sofisticados, NeuralTrust recomienda un enfoque multifacético. En primer lugar, aboga por la “auditoría de seguridad con el contexto”, que implica monitorear todo el flujo de una conversación en lugar de las indicaciones simplemente aisladas. Esto permite la detección de cambios sutiles e incrementales en el contexto de conversación que podrían indicar un intento de manipulación. En segundo lugar, NeuralTrust propone “puntuación de acumulación de toxicidad” para rastrear la escalada gradual de contenido de riesgo en múltiples turnos, incluso cuando las indicaciones individuales pueden parecer benignas. Finalmente, la compañía sugiere “detección de indirección”, una técnica destinada a identificar casos en los que el contexto anterior o el contenido generado internamente se están explotando para reintroducir o reforzar la información dañina sin solicitar directamente.
La aparición del jailbreak de la cámara de eco marca un momento crucial en la seguridad de la IA. Demuestra inequívocamente que incluso los LLM más avanzados actualmente disponibles se pueden manipular a través de indirectos e indirectos de forma múltiple. Este descubrimiento requiere una reevaluación de los actuales paradigmas de seguridad de la IA y destaca la carrera armamentista en curso entre los desarrolladores de IA y los actores maliciosos con el objetivo de explotar estos sistemas poderosos.
Source: Echo Chamber Jailbreak expone un punto ciego de seguridad de IA





