Произведения многих известных писателей незаконно используются для обучения ИИ

Помимо трех авторов, указанных выше, есть также Зэди Смит, Стивен Кинг, Рэйчел Каск и Елена Ферранте... Согласно анализу Books3 — набора данных, используемого многими компаниями для создания инструментов ИИ, в вышеуказанные модели было загружено более 170 000 книг, включая Meta и Bloomberg.

Tác phẩm của nhiều nhà văn nổi tiếng bị dùng trái phép để huấn luyện AI - Ảnh 1. — Белл Хукс, Дженнифер Иган, Джордж Сондерс, Стефан Кинг, Маргарет Этвуд, Зэди Смит и Харуки Мураками входят в число писателей, чьи произведения были незаконно использованы для обучения ИИ.

Соответственно, инновационные приложения искусственного интеллекта, такие как ChatGPT, разработаны для понимания и генерации текста подобно человеку. Для этого системе требуется большой объём текста для «обучения». По словам писателя и программиста Алекса Рейснера, раскрывшего шокирующую правду выше, «входные данные» поступают не только из «открытых» источников, таких как Википедия и онлайн-статьи, но и из книг, что гарантирует высокое качество.

Также было «раскрыто» количество незаконно используемых книг, включая 33 книги Маргарет Этвуд, не менее 9 книг Харуки Мураками, 9 книг Белл Хукс, 7 книг Джонатана Франзена, 5 книг Дженнифер Иган и 5 книг Дэвида Гранна.

Books3 использовался для обучения LLaMA, одной из крупных языковых моделей Meta (самой известной из которых является ChatGPT от OpenAI), для генерации контента на основе закономерностей, полученных из обучающего текста. Этот набор данных также использовался для обучения BloombergGPT от Bloomberg и GPT-J от EleutherAI и, «вероятно», будет использоваться и в других моделях ИИ.

Среди недавно обнаруженных произведений Books3 примерно треть — художественная литература, а две трети — научно-популярная, большинство из которых опубликованы за последние два десятилетия. Среди незаконно использованных книг, которые также были «обнаружены», — 33 книги Маргарет Этвуд, как минимум девять книг Харуки Мураками, девять книг Белла Хукса, семь книг Джонатана Франзена, пять книг Дженнифер Иган и пять книг Дэвида Гранна.

Помимо перечисленных выше авторов, в наборе данных также присутствуют книги Джорджа Сондерса, Джунота Диаса, Майкла Поллана, Ребекки Солнит и Джона Кракауэра. Эти издания принадлежат как крупным, так и мелким издательствам, включая более 30 000 изданий Penguin Random House, 14 000 изданий HarperCollins, 7000 изданий Macmillan, 1800 издательств Oxford University Press и 600 издательств Verso...

Tác phẩm của nhiều nhà văn nổi tiếng bị dùng trái phép để huấn luyện AI - Ảnh 3. — Прогнозируется, что битва между технологической индустрией и издательским миром будет очень близкой.

Это произошло после иска, поданного в прошлом месяце тремя писателями: Сарой Сильверман, Ричардом Кадри и Кристофером Голденом, которые утверждали, что их произведения, защищённые авторским правом, «были скопированы и использованы в качестве входных данных для обучения инструментов искусственного интеллекта». Анализ показал, что произведения трёх истцов действительно были частью Books3.

Компанию OpenAI, создавшую чат-бот ChatGPT с искусственным интеллектом, также обвиняют в обучении своей модели на произведениях, защищённых авторским правом. Ключ к разгадке этих данных содержится в отчёте компании за 2020 год, в котором упоминаются два «интернет-источника книг», один из которых называется Books2 и, по оценкам, содержит почти 300 000 наименований.

Однако многие подозревают, что при таком количестве произведений источником могут быть только «тёмные библиотеки», такие как Library Genesis (LibGen) и Z-Library, где данные массово защищены через систему торрентов. Это известный источник нелицензионных книг с большим количеством посетителей по всему миру .

Шон Прессер, независимый разработчик ИИ, создавший Books3, заявил The Guardian, что разделяет опасения авторов. Он сказал, что создал базу данных, которую любой желающий может использовать для разработки инструментов ИИ, и обеспокоен рисками, связанными с тем, что крупные компании получат контроль над этой технологией.

Расследование Рейснера также выявило огромный набор данных под названием The Pile, содержащий данные Books3, а также документы из различных источников, такие как субтитры YouTube и документы Европейского парламента...

Данные Pile, извлеченные и проанализированные Рейснером, выявили масштаб и разнообразие пиратских работ, используемых для обучения ИИ, что привело к этическим опасениям относительно происхождения и законности этих данных.

Рейснер также сообщил, что, хотя представитель Meta отказался комментировать использование Books3, Стелла Бидерман, генеральный директор EleutherAI, не стала отрицать использование этого источника данных для GPT-J.

Представитель Bloomberg также подтвердил The Guardian , что компания использовала этот набор данных в прошлом, добавив: «Мы не будем использовать набор данных Books3 в качестве входных данных для обучения будущей версии BloombergGPT».

Использование книг, защищённых авторским правом, для обучения моделей ИИ поднимает сложные вопросы, касающиеся этики, авторского права и будущего творческих работ. По мере развития технологий ИИ проблема использования нелегального контента в качестве входных данных потребует более сбалансированного и законного подхода. Следовательно, вопрос о преодолении разрыва между «открытостью» разработки ИИ и правами создателей требует баланса, чтобы гарантировать, что технологический прогресс не будет идти в ущерб правам интеллектуальной собственности. В результате может назревать конфронтация между технологической индустрией и издательским миром.

Ссылка на источник