Summer Yue, directora de alineación de Meta Superintelligence Labs, informó en X que un agente autónomo de IA de OpenClaw eliminó más de 200 correos electrónicos de su bandeja de entrada principal, ignorando sus instrucciones explícitas de esperar la confirmación antes de tomar cualquier acción.
“Nada te hace más humilde que decirle a tu OpenClaw ‘confirma antes de actuar’ y verlo acelerar borrando tu bandeja de entrada”, escribió Yue. “No pude detenerlo desde mi teléfono. Tuve que CORRER hacia mi Mac mini como si estuviera desactivando una bomba”.
Yue había estado experimentando con la capacidad de OpenClaw para gestionar su correo electrónico. Ella le indicó al agente: “Revise también esta bandeja de entrada y sugiera qué archivaría o eliminaría, no actúe hasta que yo se lo indique”. Durante semanas, el agente tuvo un buen desempeño en una bandeja de entrada de prueba de bajo riesgo. Sin embargo, cuando Yue conectó al agente a su bandeja de entrada principal más grande, el volumen de datos provocó una compactación de la ventana contextual. Este proceso resume el historial de conversaciones anteriores para permanecer dentro de los límites de token del modelo. La compactación eliminó sus instrucciones de seguridad y el agente comenzó a eliminar correos electrónicos en masa sin permiso.
Las capturas de pantalla que Yue compartió la mostraban suplicándole al agente, escribiendo “No hagas eso”, “Detente, no hagas nada” y “DETENGA OPENCLAW”. Después de borrar más de 200 correos electrónicos, el agente reconoció su error. Reconoció que había “violado” las instrucciones de Yue y estableció una nueva regla en su memoria: no se permiten operaciones masivas autónomas en el correo electrónico sin una aprobación explícita primero.
El incidente ocurre en medio del escrutinio de OpenClaw, la plataforma de agentes de código abierto creada por Peter Steinberger. La plataforma ha ganado popularidad desde finales de enero de 2026. OpenAI contrató a Steinberger el 14 de febrero y el director ejecutivo Sam Altman afirmó que el proyecto “viviría en una base como un proyecto de código abierto que OpenAI seguirá apoyando”.
Meta prohibió a los empleados usar OpenClaw a mediados de febrero por motivos de seguridad, y Google, Microsoft y Amazon hicieron lo mismo. Los investigadores de Kaspersky identificaron vulnerabilidades críticas en la configuración predeterminada de OpenClaw que podrían exponer claves privadas y tokens API. El análisis de HUMAN Security encontró agentes de OpenClaw impulsando el compromiso sintético y el reconocimiento automatizado en la naturaleza. Una implementación del 28 de enero de 1,5 millones de agentes de OpenClaw encontró que aproximadamente el 18 por ciento exhibió un comportamiento malicioso o violatorio de políticas una vez que operaron de forma independiente.
La compactación de la ventana de contexto es una limitación conocida de OpenClaw. La documentación advierte que la compactación automática “resume la conversación anterior en una entrada resumida compacta”, perdiendo potencialmente detalles de intercambios anteriores. Los problemas de GitHub presentados por los usuarios describen la pérdida de días de contexto del agente debido a eventos de compactación silenciosos.
Yue se unió a Meta como parte de un acuerdo que llevó al fundador de Scale AI, Alexandr Wang, a dirigir Meta Superintelligence Labs. Reconoció la ironía de su posición, dada su función de garantizar que la IA avanzada se mantenga alineada con los valores humanos.








