Entrada

El co-creador de RSS lanza un nuevo protocolo para la licencia de datos de AI.

El co-creador de RSS lanza un nuevo protocolo para la licencia de datos de AI.

Un logo leyendo "RSL"

Créditos de la imagen: RSL

En el wake de la demanda de copyright de $1.5 mil millones de Anthropic, la industria de la IA está llegando a términos con su problema de datos de entrenamiento. Hay hasta 40 casos pendientes que buscan daños por datos no licenciados, incluyendo uno que lleva a Midjourney a los tribunales por crear imágenes de Superman.

Sin algún tipo de sistema de licencias, las empresas de IA podrían enfrentar una avalancha de demandas de copyright que algunos temen podrían retrasar permanentemente la industria.

Ahora, un grupo de tecnólogos y editores web ha lanzado un sistema que permitiría la licencia de datos a gran escala, siempre y cuando las empresas de IA lo adopten. Conocido como Real Simple Licensing (RSL), el sistema ya cuenta con el respaldo de grandes editores web como Reddit, Quora y Yahoo. La pregunta ahora es si ese impulso será suficiente para llevar a las principales laboratorios de IA a la mesa de negociaciones.

Según el cofundador de RSL, Eckart Walther, quien también creó el estándar RSS, el objetivo era crear un sistema de licencias de datos de entrenamiento que pudiera escalar a nivel mundial. “Necesitamos tener acuerdos de licencias legibles por máquinas para la web,” dijo Walther a TechCrunch. “Esa es realmente la solución que ofrece RSL.”

Durante años, grupos como la Alianza de Proveedores de Datos han estado abogando por prácticas de recolección más claras, pero RSL es el primer intento de una infraestructura técnica y legal que podría funcionar en la práctica. En el ámbito técnico, el Protocolo RSL establece términos específicos de licencia que un editor puede establecer para su contenido, ya sea que las empresas de IA necesiten una licencia personalizada o adoptar disposiciones de Creative Commons. Los sitios web participantes incluirán los términos como parte de su archivo “robots.txt” en un formato preacordado, lo que facilitará identificar qué datos se encuentran bajo qué términos.

En el ámbito legal, el equipo de RSL ha establecido una organización colectiva de licencias, la RSL Collective, que puede negociar términos y recoger regalías, similar a ASCAP para músicos o MPLC para películas. Al igual que en la música y el cine, el objetivo es proporcionar a los licenciatarios un solo punto de contacto para pagar regalías, y a los titulares de derechos una manera de establecer términos con docenas de posibles licenciatarios a la vez.

Un número de editores web ya se han unido a la colectiva, incluyendo Yahoo, Reddit, Medium, O’Reilly Media, Ziff Davis (propietario de Mashable y Cnet), Internet Brands (propietario de WebMD), People Inc. y The Daily Beast. Otros, como Fastly, Quora y Adweek, están apoyando el estándar sin unirse a la colectiva.

Únete a 10k+ líderes de tecnología y capital de riesgo para crecimiento y conexiones en Disrupt 2025

Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil — solo algunos de los 250+ pesos pesados que lideran 200+ sesiones diseñadas para proporcionar las perspectivas que impulsan el crecimiento de startups y afilan tu ventaja. No te pierdas la 20ª edición de TechCrunch y una oportunidad para aprender de las principales voces de la tecnología. Grabate tu entrada antes del 26 de septiembre para ahorrar hasta $668.

Notablemente, la RSL Collective incluye algunos editores que ya tienen acuerdos de licencias — especialmente Reddit, que recibe una estimación de $60 millones al año por el uso de sus datos de entrenamiento. No hay nada que impida a las empresas establecer sus propios acuerdos dentro del sistema RSL, al igual que Taylor Swift puede establecer términos especiales para licencias mientras aún recauda regalías a través de ASCAP. Pero para los editores demasiado pequeños para negociar sus propios acuerdos, los términos colectivos de RSL son probablemente la única opción.

Sin embargo, mientras es relativamente fácil determinar cuándo se ha reproducido una canción, los modelos de IA plantean desafíos únicos a la hora de determinar cuándo se deben pagar regalías por un fragmento específico de datos de entrenamiento. El problema es más sencillo para un producto como Google’s AI Search Abstracts, que extrae datos de la web en tiempo real y mantiene una atribución estricta para cada hecho.

Pero si el entrenamiento no se registra cuando ocurre, puede ser casi imposible confirmar que un documento específico se ha ingerido en un LLM. Es especialmente complicado si los editores solicitan ser pagados por cada inferencia en lugar de recibir una tarifa plana, una opción ofrecida por una de las licencias RSL estándar.

Sin embargo, los creadores de RSL creen que las empresas de IA podrán manejar la dificultad. “Algunos de los acuerdos de licencias que ya han hecho han requerido que puedan informar sobre ello, por lo que es posible,” dice Doug Leeds, cofundador de RSL y ex CEO de IAC Publishing. “No tiene que ser perfecto. Solo tiene que ser lo suficientemente bueno para pagar a la gente.”

La pregunta más grande es si las empresas de IA adoptarán el sistema. Como el éxito de empresas como ScaleAI y Mercor muestra, los laboratorios fronterizos no tienen problema en pagar por datos, pero la web ha sido tradicionalmente vista como una fuente de datos baratos y de baja calidad. Con conjuntos de datos como el Common Crawl ya disponibles, puede ser un desafío extraer regalías de algo a lo que los laboratorios están acostumbrados a obtener gratis. Y como el reciente enfrentamiento entre CloudFlare y Perplexity muestra, no es sencillo distinguir entre el raspado web y la navegación mejorada por máquinas.

Cuando le hice la pregunta a Leeds, señaló recientes comentarios de líderes de IA llamando por un sistema como RSL — especialmente de Sundar Pichai en la Cumbre Dealbook del año pasado. Ya sea que las llamadas por un sistema de licencias sean sinceras o no, el equipo de RSL planea mantenerlos en ello. “Han dicho públicamente a todos que algo así necesita existir,” me dijo Leeds. “Necesitamos un protocolo. Necesitamos un sistema.”

Esta entrada está licenciada bajo CC BY 4.0 por el autor.