lunes, marzo 31, 2025

Meta pirateó millones de libros para entrenar a su IA: un buscador nos permite saber cuáles

MASSACHUSETTS, ESTADOS UNIDOS.- Cuando los empleados de Meta comenzaron a desarrollar su modelo de Inteligencia Artificial, el LLaMA 3, enfrentaron un dilema ético: necesitaban una gran cantidad de textos de alta calidad y obtenerlos legalmente era costoso y lento.

Evaluaron la posibilidad de obtener licencias de libros y artículos de investigación, pero finalmente optaron por extraer datos de Library Genesis (LibGen), una de las mayores bibliotecas piratas en línea, con el aparente visto bueno de Mark Zuckerberg.

Este hecho salió a la luz en documentos judiciales revelados en una demanda por infracción de derechos de autor presentada por autores como Sarah Silverman y Junot Díaz contra Meta. También se descubrió que OpenAI había utilizado LibGen en el pasado, aunque la empresa asegura que dejó de hacerlo en 2021. Además de esto, como les contamos hace pocas semanas atrás, el Sindicato Nacional de Editores (SNE) en Francia ha emprendido acciones legales contra Meta debido al uso masivo de obras protegidas por derechos de autor, sin autorización de sus autores y editores, con el fin de entrenar su modelo de inteligencia artificial generativa.

LibGen contiene millones de libros y artículos académicos de alto nivel, incluyendo publicaciones de editoriales como Elsevier y Sage. Las comunicaciones internas de Meta muestran que los empleados eran conscientes del “riesgo legal medio-alto” de entrenar modelos con libros pirateados e intentaron mitigarlo eliminando referencias a copyright en los datos. Además, Meta habría usado torrents para descargar los libros, lo que podría implicar la distribución ilegal de material protegido. Gracias a un buscador, que ha publicado The Atlantic, ahora es posible saber qué libros estaban contenidos en esa base pirata.

Más allá del debate sobre si entrenar modelos de IA con material protegido constituye “uso legítimo”, el artículo que aquí les compartimos señala que este tipo de prácticas pueden perjudicar a autores e investigadores. Como hablamos en varias oportunidades, los chatbots de IA no citan fuentes con precisión, descontextualizan el conocimiento y dificultan la atribución de ideas. Mientras que plataformas como LibGen surgieron para facilitar el acceso a la información en países con restricciones académicas, empresas como Meta están integrando estos contenidos en productos comerciales sin compensar a los creadores.

Quien se pronunció al respecto de este tema fue María Pallante, directora ejecutiva de la Asociación de Editores Estadounidenses (AAP), quien en el marco de la Feria del Libro de Londres declaró: “Entre nuestras prioridades está detener la proliferación de sitios piratas que son una lacra para las inversiones estadounidenses en propiedad intelectual y una fuente ilegal de desarrollo de IA”. Por su parte, Catriona MacLeod Stevenson, consejera general y directora ejecutiva adjunta de la Asociación de Editores del Reino Unido (PA), aseguró: “Esto constituye una infracción masiva de los derechos de autor de autores y editores, y no debe quedar sin respuesta. Empresas como Meta deben ser transparentes sobre las obras protegidas por derechos de autor que han utilizado y desean utilizar, y entablar negociaciones de buena fe sobre licencias para que los titulares de derechos puedan recibir una remuneración por su trabajo”.

Cambridge University Press también declaró sobre el tema: “Meta debería pagar por el contenido que ha robado. Es fundamental que los gobiernos y las autoridades no permitan que las grandes tecnológicas se salgan con la suya al apropiarse del trabajo de los autores sin permiso. Esto refuerza los riesgos de una regulación y legislación inadecuadas en torno a la IA y los derechos de autor, como el sistema de exclusión voluntaria propuesto en el Reino Unido”
AM.MX/fm

Artículos relacionados