En plus des trois auteurs ci-dessus, il y a aussi Zadie Smith, Stephen King, Rachel Cusk et Elena Ferrante... Selon une analyse de Books3 - un ensemble de données exploité par de nombreuses entreprises pour construire des outils d'IA, plus de 170 000 livres ont été introduits dans les modèles ci-dessus, y compris Meta et Bloomberg.
Bell Hooks, Jennifer Egan, George Saunders, Stephan King, Margaret Atwood, Zadie Smith et Haruki Murakami font partie des écrivains dont les œuvres ont été utilisées illégalement pour former l'IA.
Ainsi, des applications d'IA innovantes comme ChatGPT sont conçues pour comprendre et générer du texte comme le font les humains. Pour y parvenir, le système a besoin d'une grande quantité de texte pour « s'entraîner ». Selon l'écrivain et programmeur Alex Reisner, qui a révélé la vérité choquante ci-dessus, cette « contribution » provient non seulement de sources « ouvertes » comme Wikipédia et des articles en ligne, mais aussi de livres pour garantir une qualité optimale.
Le nombre de livres utilisés illégalement a également été « révélé », dont 33 livres de Margaret Atwood, au moins 9 livres de Haruki Murakami, 9 livres de Bell Hooks, 7 livres de Jonathan Franzen, 5 livres de Jennifer Egan et 5 livres de David Grann.
Books3 a été utilisé pour entraîner LLaMA, l'un des grands modèles linguistiques de Meta – dont le plus célèbre est ChatGPT d'OpenAI – à générer du contenu basé sur des modèles appris à partir de textes d'entraînement. L'ensemble de données a également servi à entraîner BloombergGPT de Bloomberg et GPT-J d'EleutherAI, et il est « probable » qu'il soit également utilisé dans d'autres modèles d'IA.
Les titres de Books3 récemment révélés sont composés d'environ un tiers de fiction et deux tiers de non-fiction, la plupart publiés au cours des deux dernières décennies. Parmi les livres utilisés illégalement, également « révélés », figurent 33 livres de Margaret Atwood, au moins neuf de Haruki Murakami, neuf de Bell Hooks, sept de Jonathan Franzen, cinq de Jennifer Egan et cinq de David Grann.
Outre les auteurs mentionnés ci-dessus, des ouvrages de George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit et Jon Krakauer figurent également dans la base de données. Ces titres proviennent de maisons d'édition de toutes tailles, dont plus de 30 000 titres de Penguin Random House, 14 000 de HarperCollins, 7 000 de Macmillan, 1 800 d'Oxford University Press et 600 de Verso.
La bataille entre l’industrie technologique et le monde de l’édition devrait être très proche.
Cette décision fait suite à une plainte déposée le mois dernier par trois auteurs, Sarah Silverman, Richard Kadrey et Christopher Golden, alléguant que leurs œuvres protégées par le droit d'auteur « avaient été copiées et utilisées comme données d'entrée pour entraîner des outils d'IA ». L'analyse a montré que les œuvres des trois plaignants faisaient bel et bien partie de Books3.
OpenAI, l'entreprise à l'origine du chatbot IA ChatGPT, a également été accusée d'avoir entraîné son modèle sur des œuvres protégées par le droit d'auteur. Un indice sur ces données provient d'un rapport publié par l'entreprise en 2020, qui mentionne deux « sources de livres en ligne », dont l'une, appelée Books2, contiendrait près de 300 000 titres.
Cependant, beaucoup soupçonnent qu'avec un tel nombre d'œuvres, la source ne peut provenir que de « bibliothèques obscures » telles que Library Genesis (LibGen) et Z-Library, où les données sont sécurisées en masse via le système torrent. Ces bibliothèques sont connues pour être une source de livres sans licence, fréquentés par un grand nombre de visiteurs dans le monde entier .
Shawn Presser, le développeur d'IA indépendant à l'origine de Books3, a déclaré au Guardian qu'il comprenait les inquiétudes des auteurs. Il a expliqué avoir créé une base de données accessible à tous pour développer des outils d'IA et s'inquiéter des risques de prise de contrôle de cette technologie par de grandes entreprises.
L'enquête de Reisner a également révélé un ensemble de données massif appelé The Pile, qui contient des données Books3 ainsi que des documents provenant de diverses sources, tels que des sous-titres YouTube et des documents du Parlement européen...
Les données Pile extraites et analysées par Reisner ont révélé l’ampleur et la diversité des œuvres piratées utilisées pour former l’IA, ce qui a suscité des inquiétudes éthiques quant à l’origine et à la légalité de ces données.
Reisner a également déclaré que même si un porte-parole de Meta a refusé de commenter l'utilisation de Books3, Stella Biderman, PDG d'EleutherAI, n'a pas nié l'utilisation de cette source de données pour GPT-J.
Un porte-parole de Bloomberg a également confirmé au Guardian que la société avait utilisé l'ensemble de données dans le passé, ajoutant : « Nous n'utiliserons pas l'ensemble de données Books3 comme entrée pour la formation du prochain BloombergGPT. »
L'utilisation de livres protégés par le droit d'auteur pour entraîner des modèles d'IA soulève des questions complexes sur l'éthique, le droit d'auteur et l'avenir des œuvres créatives. À mesure que l'IA progresse, la question de l'utilisation de contenus illégaux comme intrants nécessitera une approche plus équilibrée et légale. Combler le fossé entre « l'ouverture » du développement de l'IA et les droits des créateurs exige donc un équilibre afin de garantir que les avancées technologiques ne se fassent pas au détriment des droits de propriété intellectuelle. Par conséquent, une confrontation pourrait se profiler entre l'industrie technologique et le monde de l'édition.
Lien source
Comment (0)