Meta pirateó millones de libros para entrenar a su IA: un buscador nos permite saber cuáles

Fecha:

MASSACHUSETTS, ESTADOS UNIDOS.- Cuando los empleados de Meta comenzaron a desarrollar su modelo de Inteligencia Artificial, el LLaMA 3, enfrentaron un dilema ético: necesitaban una gran cantidad de textos de alta calidad y obtenerlos legalmente era costoso y lento.

Evaluaron la posibilidad de obtener licencias de libros y artículos de investigación, pero finalmente optaron por extraer datos de Library Genesis (LibGen), una de las mayores bibliotecas piratas en línea, con el aparente visto bueno de Mark Zuckerberg.

Este hecho salió a la luz en documentos judiciales revelados en una demanda por infracción de derechos de autor presentada por autores como Sarah Silverman y Junot Díaz contra Meta. También se descubrió que OpenAI había utilizado LibGen en el pasado, aunque la empresa asegura que dejó de hacerlo en 2021. Además de esto, como les contamos hace pocas semanas atrás, el Sindicato Nacional de Editores (SNE) en Francia ha emprendido acciones legales contra Meta debido al uso masivo de obras protegidas por derechos de autor, sin autorización de sus autores y editores, con el fin de entrenar su modelo de inteligencia artificial generativa.

LibGen contiene millones de libros y artículos académicos de alto nivel, incluyendo publicaciones de editoriales como Elsevier y Sage. Las comunicaciones internas de Meta muestran que los empleados eran conscientes del “riesgo legal medio-alto” de entrenar modelos con libros pirateados e intentaron mitigarlo eliminando referencias a copyright en los datos. Además, Meta habría usado torrents para descargar los libros, lo que podría implicar la distribución ilegal de material protegido. Gracias a un buscador, que ha publicado The Atlantic, ahora es posible saber qué libros estaban contenidos en esa base pirata.

Más allá del debate sobre si entrenar modelos de IA con material protegido constituye “uso legítimo”, el artículo que aquí les compartimos señala que este tipo de prácticas pueden perjudicar a autores e investigadores. Como hablamos en varias oportunidades, los chatbots de IA no citan fuentes con precisión, descontextualizan el conocimiento y dificultan la atribución de ideas. Mientras que plataformas como LibGen surgieron para facilitar el acceso a la información en países con restricciones académicas, empresas como Meta están integrando estos contenidos en productos comerciales sin compensar a los creadores.

Quien se pronunció al respecto de este tema fue María Pallante, directora ejecutiva de la Asociación de Editores Estadounidenses (AAP), quien en el marco de la Feria del Libro de Londres declaró: “Entre nuestras prioridades está detener la proliferación de sitios piratas que son una lacra para las inversiones estadounidenses en propiedad intelectual y una fuente ilegal de desarrollo de IA”. Por su parte, Catriona MacLeod Stevenson, consejera general y directora ejecutiva adjunta de la Asociación de Editores del Reino Unido (PA), aseguró: “Esto constituye una infracción masiva de los derechos de autor de autores y editores, y no debe quedar sin respuesta. Empresas como Meta deben ser transparentes sobre las obras protegidas por derechos de autor que han utilizado y desean utilizar, y entablar negociaciones de buena fe sobre licencias para que los titulares de derechos puedan recibir una remuneración por su trabajo”.

Cambridge University Press también declaró sobre el tema: “Meta debería pagar por el contenido que ha robado. Es fundamental que los gobiernos y las autoridades no permitan que las grandes tecnológicas se salgan con la suya al apropiarse del trabajo de los autores sin permiso. Esto refuerza los riesgos de una regulación y legislación inadecuadas en torno a la IA y los derechos de autor, como el sistema de exclusión voluntaria propuesto en el Reino Unido”
AM.MX/fm

Compartir

Popular

Artículos relacionados
Related

Devela HBO las cochinadas de Marcial Maciel

Recientemente HBO Max estrenó un documental  sobre la vida...

La cantautora venezolana Elena Rose conquista el Teatro Metropólitan con Alma Tour

Elena Rose, la talentosa cantautora venezolana, regresa a México con su Alma Tour 2025. El 30 de octubre se presentará en el Teatro Metropólitan, prometiendo un espectáculo lleno de emociones y éxitos, incluyendo su reciente colaboración “Cosita linda”.

La lucha por La Loma continúa con nueva jornada de reforestación exitosa

La jornada de reforestación en el Área Natural Protegida La Loma reunió a la comunidad para plantar 490 árboles nativos. Esta acción busca restaurar ecosistemas y preservar la biodiversidad, reafirmando el compromiso con el medio ambiente en la Ciudad de México.

Intensos aguaceros desatan emergencia en tres alcaldías de la capital mexicana

La Ciudad de México enfrenta una crisis por intensas lluvias, lo que ha llevado al Gobierno a implementar un robusto plan de acción. Se presentan medidas innovadoras y operativos de atención para mitigar los riesgos en las alcaldías afectadas.