Además de los tres autores mencionados, también están Zadie Smith, Stephen King, Rachel Cusk y Elena Ferrante... Según un análisis de Books3, un conjunto de datos explotado por muchas empresas para crear herramientas de IA, más de 170.000 libros se han incorporado a los modelos mencionados, incluidos Meta y Bloomberg.
bell hooks, Jennifer Egan, George Saunders, Stephan King, Margaret Atwood, Zadie Smith y Haruki Murakami se encuentran entre los escritores cuyas obras se han utilizado ilegalmente para entrenar a la IA.
Por consiguiente, aplicaciones innovadoras de IA como ChatGPT están diseñadas para comprender y generar texto como los humanos. Para lograrlo, el sistema requiere una gran cantidad de texto para su "entrenamiento". Según el escritor y programador Alex Reisner, quien reveló la impactante verdad mencionada, esa "entrada" proviene no solo de fuentes "abiertas" como Wikipedia y artículos en línea, sino también de libros para garantizar una alta calidad.
También se "reveló" el número de libros utilizados ilegalmente, incluidos 33 libros de Margaret Atwood, al menos 9 libros de Haruki Murakami, 9 libros de bell hooks, 7 libros de Jonathan Franzen, 5 libros de Jennifer Egan y 5 libros de David Grann.
Books3 se utilizó para entrenar LLaMA, uno de los grandes modelos lingüísticos de Meta (el más famoso de los cuales es ChatGPT de OpenAI) para generar contenido basado en los patrones que aprende del texto de entrenamiento. El conjunto de datos también se utilizó para entrenar BloombergGPT de Bloomberg y GPT-J de EleutherAI, y es probable que se utilice también en otros modelos de IA.
Los títulos recién revelados de Books3 corresponden aproximadamente a un tercio de ficción y dos tercios de no ficción, la mayoría publicados en las últimas dos décadas. El número de libros utilizados ilegalmente también "revelado" incluye 33 libros de Margaret Atwood, al menos nueve de Haruki Murakami, nueve de Bell Hooks, siete de Jonathan Franzen, cinco de Jennifer Egan y cinco de David Grann.
Además de los autores mencionados, el conjunto de datos también incluye libros de George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit y Jon Krakauer. Estos títulos pertenecen a editoriales de todos los tamaños, incluyendo más de 30.000 títulos de Penguin Random House, 14.000 de HarperCollins, 7.000 de Macmillan, 1.800 de Oxford University Press y 600 de Verso...
Se prevé que la batalla entre la industria tecnológica y el mundo editorial esté muy cerca.
Esto surge tras una demanda presentada el mes pasado por tres escritores, Sarah Silverman, Richard Kadrey y Christopher Golden, quienes alegan que sus obras protegidas por derechos de autor fueron copiadas y utilizadas como material para entrenar herramientas de inteligencia artificial. El análisis demostró que las obras de los tres demandantes formaban parte de Books3.
OpenAI, la empresa creadora del chatbot de IA ChatGPT, también ha sido acusada de entrenar su modelo con obras protegidas por derechos de autor. Una pista de estos datos proviene de un informe de 2020 publicado por la empresa, que menciona dos "fuentes de libros en internet", una de las cuales se llama Books2 y se estima que contiene cerca de 300.000 títulos.
Sin embargo, muchos sospechan que, con una cantidad tan grande de obras, la fuente solo puede provenir de bibliotecas oscuras como Library Genesis (LibGen) y Z-Library, donde los datos se almacenan masivamente mediante el sistema torrent. Esta se conoce como una fuente de libros sin licencia, con un gran número de visitantes en todo el mundo .
Shawn Presser, el desarrollador independiente de IA que creó Books3, declaró a The Guardian que comprendía las preocupaciones de los autores. Añadió que había creado una base de datos que cualquiera podía usar para desarrollar herramientas de IA y que le preocupaban los riesgos de que las grandes empresas tomaran el control de la tecnología.
La investigación de Reisner también reveló un conjunto masivo de datos llamado The Pile, que contiene datos de Books3, así como documentos de diversas fuentes, como subtítulos de YouTube y documentos del Parlamento Europeo...
Los datos de Pile extraídos y analizados por Reisner expusieron la escala y diversidad de obras pirateadas utilizadas para entrenar a la IA, lo que generó preocupaciones éticas sobre el origen y la legalidad de estos datos.
Reisner también dijo que si bien un portavoz de Meta se negó a comentar sobre el uso de Books3, Stella Biderman, directora ejecutiva de EleutherAI, no negó el uso de esta fuente de datos para GPT-J.
Un portavoz de Bloomberg también confirmó a The Guardian que la compañía había utilizado el conjunto de datos en el pasado y agregó: "No utilizaremos el conjunto de datos Books3 como insumo para entrenar el próximo BloombergGPT".
El uso de libros con derechos de autor para entrenar modelos de IA plantea cuestiones complejas sobre la ética, los derechos de autor y el futuro de las obras creativas. A medida que la tecnología de IA avanza, el problema del uso de contenido ilegal como material de entrada requerirá un enfoque más equilibrado y legal. Por lo tanto, la cuestión de cerrar la brecha entre la "apertura" del desarrollo de IA y los derechos de los creadores requiere un equilibrio para garantizar que el avance tecnológico no se produzca a expensas de los derechos de propiedad intelectual. Como resultado, podría estar a punto de surgir una confrontación entre la industria tecnológica y el mundo editorial.
[anuncio_2]
Enlace de origen
Kommentar (0)