Entrada

Perplexity fue acusada de raspar sitios web que explícitamente bloquearon el raspado de AI.

Aravind Srinivas, Co-Founder & CEO de Perplexity, habla en el escenario durante TechCrunch Disrupt 2024

Créditos de la imagen: Kimberly White/Getty Images para TechCrunch

La startup de inteligencia artificial Perplexity está rastreando y raspando contenido de sitios web que han indicado explícitamente que no quieren ser raspados, según el proveedor de infraestructura de internet Cloudflare.

El lunes, Cloudflare publicó una investigación en la que se dice que observó que la startup de inteligencia artificial ignoraba los bloques y ocultaba sus actividades de rastreo y raspado. El gigante de la infraestructura de red acusó a Perplexity de ocultar su identidad cuando intentaba raspar páginas web “en un intento de eludir las preferencias del sitio web,” escribieron los investigadores de Cloudflare.

Los productos de inteligencia artificial como los ofrecidos por Perplexity dependen de consumir grandes cantidades de datos de internet, y las startups de inteligencia artificial han raspado texto, imágenes y videos de internet muchas veces sin permiso para hacer que sus productos funcionen. En los últimos tiempos, los sitios web han intentado luchar contra esto utilizando el archivo Robots.txt, que indica a los motores de búsqueda y a las empresas de inteligencia artificial qué páginas pueden ser indexadas y cuáles no, esfuerzos que han dado resultados mixtos hasta ahora.

Perplexity parece estar eludiendo estos bloques cambiando sus bots “user agent,” lo que significa una señal que identifica a un visitante de un sitio web por su dispositivo y tipo de versión; así como cambiando sus redes de sistemas autónomos, o ASN, esencialmente un número que identifica grandes redes en internet, según Cloudflare.

“Esta actividad se observó en decenas de miles de dominios y millones de solicitudes por día. Podimos identificar este rastreo utilizando una combinación de aprendizaje automático y señales de red,” escribió Cloudflare.

El portavoz de Perplexity, Jesse Dwyer, descartó el blog de Cloudflare como un “pitch de ventas,” añadiendo en un correo electrónico a TechCrunch que las capturas de pantalla en el post “muestran que no se accedió a ningún contenido.” En un correo electrónico posterior, Dwyer afirmó que el bot nombrado en el blog de Cloudflare “no es nuestro.”

Cloudflare dijo que primero notó el comportamiento después de que sus clientes se quejaran de que Perplexity estaba rastreando y raspando sus sitios, incluso después de agregar reglas en su archivo Robots y para bloquear específicamente a los bots conocidos de Perplexity. Cloudflare dijo que luego realizó pruebas para verificar y confirmó que Perplexity estaba eludiendo estos bloques.

“Observamos que Perplexity utiliza no solo su user-agent declarado, sino también un navegador genérico diseñado para imitar Google Chrome en macOS cuando su rastreo declarado fue bloqueado,” según Cloudflare.

La empresa también dijo que había eliminado a los bots de Perplexity de su lista verificada y había añadido nuevas técnicas para bloquearlos.

Cloudflare ha tomado recientemente una postura pública contra los rastreos de inteligencia artificial. El mes pasado, Cloudflare anunció el lanzamiento de un mercado que permite a los propietarios de sitios web y a los editores cobrar a los rastreos de inteligencia artificial que visitan sus sitios. El CEO de Cloudflare, Matthew Prince sonó la alarma en ese momento, diciendo que la inteligencia artificial está rompiendo el modelo de negocio de internet, especialmente para los editores. El año pasado, Cloudflare también lanzó una herramienta gratuita para evitar que los bots raspasen sitios web para entrenar inteligencia artificial.

Esto no es la primera vez que Perplexity es acusado de raspado sin autorización.

El año pasado, medios de comunicación, como Wired, alegaron que Perplexity estaba plagiando su contenido. Semanas después, el CEO de Perplexity, Aravind Srinivas, no pudo responder inmediatamente cuando se le preguntó para proporcionar la definición de plagio de la empresa durante una entrevista con Devin Coldewey de TechCrunch en la conferencia Disrupt 2024.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.