Neben den drei oben genannten Autoren sind auch Zadie Smith, Stephen King, Rachel Cusk und Elena Ferrante dabei ... Laut einer Analyse von Books3 – einem Datensatz, der von vielen Unternehmen zum Erstellen von KI-Tools genutzt wird – wurden mehr als 170.000 Bücher in die oben genannten Modelle eingespeist, darunter Meta und Bloomberg.
Zu den Autoren, deren Werke illegal zum Trainieren von KI verwendet wurden, gehören bell hooks, Jennifer Egan, George Saunders, Stephan King, Margaret Atwood, Zadie Smith und Haruki Murakami.
Innovative KI-Anwendungen wie ChatGPT sind daher darauf ausgelegt, Texte wie Menschen zu verstehen und zu generieren. Dafür benötigt das System eine große Menge an Texten zum „Training“. Laut Autor und Programmierer Alex Reisner, der die schockierende Wahrheit oben enthüllte, stammt dieser „Input“ nicht nur aus „offenen“ Quellen wie Wikipedia und Online-Artikeln, sondern auch aus Büchern, um eine hohe Qualität zu gewährleisten.
Auch die Anzahl der illegal verwendeten Bücher wurde „offengelegt“, darunter 33 Bücher von Margaret Atwood, mindestens 9 Bücher von Haruki Murakami, 9 Bücher von bell hooks, 7 Bücher von Jonathan Franzen, 5 Bücher von Jennifer Egan und 5 Bücher von David Grann.
Books3 wurde verwendet, um LLaMA, eines der großen Sprachmodelle von Meta – das bekannteste davon ist ChatGPT von OpenAI – zu trainieren und Inhalte basierend auf Mustern zu generieren, die es aus Trainingstexten lernt. Der Datensatz wurde auch zum Training von Bloombergs BloombergGPT und EleutherAIs GPT-J verwendet und wird „wahrscheinlich“ auch in anderen KI-Modellen zum Einsatz kommen.
Die neu enthüllten Titel von Books3 bestehen zu etwa einem Drittel aus Belletristik und zu zwei Dritteln aus Sachbüchern. Die meisten davon wurden in den letzten zwei Jahrzehnten veröffentlicht. Die Zahl der illegal verwendeten Bücher, die ebenfalls „enthüllt“ wurden, umfasst 33 Bücher von Margaret Atwood, mindestens neun von Haruki Murakami, neun von Bell Hooks, sieben von Jonathan Franzen, fünf von Jennifer Egan und fünf von David Grann.
Neben den oben genannten Autoren enthält der Datensatz auch Bücher von George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit und Jon Krakauer. Diese Titel stammen von großen und kleinen Verlagen, darunter mehr als 30.000 Titel von Penguin Random House, 14.000 von HarperCollins, 7.000 von Macmillan, 1.800 von Oxford University Press und 600 von Verso.
Der Kampf zwischen der Technologiebranche und der Verlagswelt dürfte unmittelbar bevorstehen.
Dies folgt auf eine Klage, die letzten Monat von den drei Autoren Sarah Silverman, Richard Kadrey und Christopher Golden eingereicht wurde. Sie behaupten, ihre urheberrechtlich geschützten Werke seien „kopiert und als Input für das Training von KI-Tools verwendet worden“. Analysen zeigten, dass die Werke der drei Kläger tatsächlich Teil von Books3 waren.
OpenAI, das Unternehmen hinter dem KI-Chatbot ChatGPT, wurde ebenfalls beschuldigt, sein Modell mit urheberrechtlich geschützten Werken trainiert zu haben. Ein Hinweis auf diese Daten stammt aus einem 2020 veröffentlichten Bericht des Unternehmens, in dem zwei „internetbasierte Buchquellen“ erwähnt werden. Eine davon heißt Books2 und enthält schätzungsweise fast 300.000 Titel.
Viele vermuten jedoch, dass die Quelle bei einer so großen Anzahl von Werken nur aus „dunklen Bibliotheken“ wie Library Genesis (LibGen) und Z-Library stammen kann, wo Daten massenhaft über das Torrent-System gesichert werden. Dies ist als Quelle nicht lizenzierter Bücher bekannt und hat eine große Anzahl von Besuchern auf der ganzen Welt .
Shawn Presser, der unabhängige KI-Entwickler, der Books3 ursprünglich entwickelt hat, sagte gegenüber The Guardian, er verstehe die Bedenken der Autoren. Er habe eine Datenbank erstellt, die jeder zur Entwicklung von KI-Tools nutzen könne, und sei besorgt über die Risiken, die durch die Übernahme der Technologie durch große Unternehmen entstehen könnten.
Reisners Untersuchung brachte auch einen riesigen Datensatz namens „The Pile“ zutage, der Daten von Books3 sowie Dokumente aus verschiedenen Quellen enthält, etwa Untertitel von YouTube und Dokumente des Europäischen Parlaments …
Die von Reisner extrahierten und analysierten Pile-Daten enthüllten das Ausmaß und die Vielfalt der Raubkopien, die zum Trainieren von KI verwendet wurden, was zu ethischen Bedenken hinsichtlich der Herkunft und Rechtmäßigkeit dieser Daten führte.
Reisner sagte außerdem, dass ein Meta-Sprecher sich zwar nicht zur Verwendung von Books3 äußern wollte, Stella Biderman, CEO von EleutherAI, die Verwendung dieser Datenquelle für GPT-J jedoch nicht bestritt.
Ein Bloomberg-Sprecher bestätigte gegenüber The Guardian außerdem, dass das Unternehmen den Datensatz in der Vergangenheit verwendet habe, und fügte hinzu: „Wir werden den Books3-Datensatz nicht als Input für das Training des kommenden BloombergGPT verwenden.“
Die Verwendung urheberrechtlich geschützter Bücher zum Trainieren von KI-Modellen wirft komplexe Fragen zu Ethik, Urheberrecht und der Zukunft kreativer Arbeit auf. Mit fortschreitender KI-Technologie erfordert die Frage der Verwendung illegaler Inhalte als Input einen ausgewogeneren und rechtlichen Ansatz. Die Überbrückung der Kluft zwischen der Offenheit der KI-Entwicklung und den Rechten der Urheber erfordert daher ein ausgewogenes Verhältnis, um sicherzustellen, dass der technologische Fortschritt nicht auf Kosten des geistigen Eigentums geht. Infolgedessen droht möglicherweise eine Konfrontation zwischen der Technologiebranche und der Verlagswelt.
[Anzeige_2]
Quellenlink
Kommentar (0)