上記の 3 人の作家に加えて、ゼイディー・スミス、スティーブン・キング、レイチェル・カスク、エレナ・フェランテなどもいます。多くの企業が AI ツールを構築するために活用しているデータセットである Books3 の分析によると、Meta や Bloomberg を含む 17 万冊以上の書籍が上記のモデルに取り込まれています。
ベル・フックス、ジェニファー・イーガン、ジョージ・ソーンダーズ、スティーヴン・キング、マーガレット・アトウッド、ゼイディー・スミス、村上春樹らの作品がAIの訓練に違法に使用された作家たちだ。
そのため、ChatGPTのような革新的なAIアプリケーションは、人間のようにテキストを理解し、生成するように設計されています。これを実現するために、システムは「トレーニング」のために大量のテキストを必要とします。上記の衝撃的な真実を明らかにした作家兼プログラマーのアレックス・ライスナー氏によると、その「入力」はWikipediaやオンライン記事などの「オープン」な情報源だけでなく、高品質を確保するために書籍からも得られるとのことです。
違法に使用された書籍の数も「明らかに」されており、その中にはマーガレット・アトウッドの著書33冊、村上春樹の著書少なくとも9冊、ベル・フックスの著書9冊、ジョナサン・フランゼンの著書7冊、ジェニファー・イーガンの著書5冊、デイヴィッド・グランの著書5冊が含まれている。
Books3は、Metaの大規模言語モデルの一つであるLLaMA(OpenAIのChatGPTが最も有名)の学習に使用されました。LLaMAは、学習テキストから学習したパターンに基づいてコンテンツを生成します。このデータセットは、BloombergのBloombergGPTやEleutherAIのGPT-Jの学習にも使用されており、他のAIモデルにも使用される可能性が「高い」とされています。
新たに明らかになったBooks3のタイトルは、約3分の1がフィクション、3分の2がノンフィクションで、そのほとんどが過去20年間に出版されたものです。違法に使用された書籍の数も「明らかに」されており、マーガレット・アトウッドの作品が33冊、村上春樹の作品が少なくとも9冊、ベル・フックスの作品が9冊、ジョナサン・フランゼンの作品が7冊、ジェニファー・イーガンの作品が5冊、デイヴィッド・グランの作品が5冊含まれています。
上記の著者に加え、ジョージ・ソーンダーズ、ジュノ・ディアス、マイケル・ポーラン、レベッカ・ソルニット、ジョン・クラカワーの作品もデータセットに含まれています。これらのタイトルは、ペンギン・ランダムハウスの3万タイトル以上、ハーパーコリンズの1万4千タイトル、マクミランの7千タイトル、オックスフォード大学出版局の1,800タイトル、ヴェルソの600タイトルなど、大手出版社から中小出版社まで多岐にわたります。
テクノロジー業界と出版業界の戦いは間近に迫っていると予想されている。
これは、サラ・シルバーマン、リチャード・カドリー、クリストファー・ゴールデンの3人の作家が先月提訴した訴訟に続くもので、彼らは自身の著作物が「コピーされ、AIツールの学習のための入力として使用された」と主張している。分析の結果、原告3人の作品は確かにBooks3の一部であることが判明した。
AIチャットボット「ChatGPT」を開発するOpenAIも、著作権で保護された作品でモデルを学習させたとして非難されている。このデータの手がかりは、同社が2020年に発表した報告書にある。報告書には2つの「インターネットベースの書籍ソース」が言及されており、そのうちの1つは「Books2」と呼ばれ、約30万冊の書籍を収録していると推定されている。
しかし、これほど膨大な数の作品が存在するということは、Library Genesis(LibGen)やZ-Libraryといった「ダークライブラリ」からしか入手できないのではないかと疑う人も多い。これらのライブラリでは、トレントシステムを通じて大量のデータが保護されている。これらは、世界中から多数の訪問者を抱える、無許可書籍の入手先として知られている。
Books3を最初に開発した独立系AI開発者のショーン・プレッサー氏は、ガーディアン紙に対し、著者たちの懸念に共感すると語った。彼は、誰でもAIツールの開発に利用できるデータベースを作成したため、大企業がその技術を支配するリスクを懸念していると述べた。
ライスナー氏の調査では、「The Pile」と呼ばれる大規模なデータセットも明らかになった。このデータセットには、Books3 のデータのほか、YouTube の字幕や欧州議会の文書など、さまざまなソースからの文書が含まれている。
ライスナー氏が抽出・分析したPileデータは、AIのトレーニングに使用された海賊版の規模と多様性を明らかにし、このデータの出所と合法性に関する倫理的な懸念を引き起こした。
ライスナー氏はまた、Metaの広報担当者がBooks3の使用についてコメントを控えた一方で、EleutherAIのCEOであるステラ・ビダーマン氏はGPT-Jでのこのデータソースの使用を否定しなかったと述べた。
ブルームバーグの広報担当者もガーディアン紙に対し、同社が過去にこのデータセットを使用していたことを認め、「今後リリースされるブルームバーグGPTのトレーニングの入力としてBooks3データセットを使用することはありません」と付け加えた。
著作権のある書籍をAIモデルの学習に用いることは、倫理、著作権、そして創作物の将来について複雑な問題を提起します。AI技術が進歩するにつれ、違法コンテンツが入力データとして利用されるという問題には、よりバランスの取れた法的なアプローチが求められるでしょう。そして、AI開発の「オープン性」とクリエイターの権利との間の溝を埋めるという問題には、技術の進歩が知的財産権を犠牲にしないよう、バランスを取ることが求められます。その結果、テクノロジー業界と出版業界の間に対立が生じる可能性が高まっています。
[広告2]
ソースリンク
コメント (0)