El proveedor de infraestructura de Internet Cloudflare ha acusado a la perplejidad de inicio de IA de eludir activamente los bloques de sitios web y ocultar su identidad para raspar el contenido de los sitios que han optado explícitamente por la IA raspado. Cloudflare publicó la investigación el lunes que detallaba cómo la perplejidad supuestamente ignoró las reglas establecidas y disfrazó sus actividades de rastreo y raspado.
Según los investigadores de Cloudflare, la perplejidad intentó oscurecer su identidad cambiando el “agente de usuarios” de sus bots, una señal que identifica el tipo de dispositivo y el tipo de versión del visitante del sitio web, y alterando sus redes de sistemas autónomos (ASN), que son números que identifican grandes redes en Internet. Esta supuesta actividad se observó en “decenas de miles de dominios y millones de solicitudes por día”, con Cloudflare indicando que pudieron “hacer huellas digitales a este rastreador utilizando una combinación de aprendizaje automático y señales de red”.
El problema llegó a la atención de Cloudflare después de que sus clientes informaron que la perplejidad continuó arrastrando y raspando sus sitios a pesar de la implementación de reglas en sus robots.txt archivos, un estándar web utilizado para instruir a los motores de búsqueda y a las compañías de inteligencia artificial en las que las páginas pueden o no se pueden indexar, y bloques específicos contra los bots de perplejidad conocidos. Cloudflare realizó pruebas y confirmó que la perplejidad estaba eludiendo estos bloques. “Observamos que los usos de perplejidad no solo su agente de usuario declarado, sino también un navegador genérico destinado a hacerse pasar por Google Chrome en macOS cuando su rastreador declarado fue bloqueado”, declaró Cloudflare.
En respuesta, Cloudflare ha eliminado los bots de Perplexity de su lista verificada e ha implementado nuevas técnicas de bloqueo. Un portavoz de perplejidad, Jesse Dwyer, desestimó la publicación del blog de Cloudflare como un “argumento de venta”, le dijo a TechCrunch que las capturas de pantalla en la publicación “muestran que no se accedió a contenido” y reclamó en un correo electrónico de seguimiento que el bot nombrado por Cloudflare “ni siquiera es nuestra”.
Este incidente no es la primera perplejidad que ha enfrentado acusaciones con respecto al raspado no autorizado o el uso de contenido. El año pasado, los medios de comunicación, incluido Wired, alegaron que la perplejidad estaba plagio de su contenido. Semanas después, durante una entrevista en la Conferencia Disrupt 2024, el CEO de Perplexity, Aravind Srinivas, supuestamente luchó por proporcionar la definición de plagio de su empresa cuando se le pidió directamente.
Cloudflare ha adoptado cada vez más una postura pública contra los rastreadores de IA, citando preocupaciones sobre el impacto en el modelo de negocio de Internet, particularmente para los editores. El mes pasado, Cloudflare lanzó un mercado que permite a los propietarios y editores de los sitios web cobrar a los raspadores de IA por acceder a sus sitios. El director ejecutivo de Cloudflare, Matthew Prince, advirtió previamente que AI está interrumpiendo la estructura económica subyacente de Internet. El año pasado, la compañía también introdujo una herramienta gratuita diseñada para evitar que los bots raspen los sitios web con fines de capacitación de IA.
Source: CloudFlare: perplejidad cromo falsificada para evitar las reglas





