Proof Newsの調査により、これらの企業はEleutherAIという非営利団体が作成したデータセットを使用していたことが判明した。このデータセットには、コンテンツの所有者や作成者に許可を求めることなく、48,000以上のチャンネルのYouTube動画コンテンツの録画が含まれていた。
このデータセットには画像や動画は含まれていませんが、Marques BrownleeやMrBeastといったプラットフォーム上のトップクリエイターや、ニューヨーク・タイムズ、BBC、ABCニュースといった大手ニュースメディアのコンテンツが含まれています。また、Engadgetが所有する動画のキャプションも含まれています。
「AppleはAI用のデータを複数の企業から入手している」と人気YouTuberのブラウンリー氏はXに投稿した。「その1つが、私のものも含め、YouTube動画からの大量のデータや録画だ」
以前、YouTubeのCEOであるニール・モハン氏は、企業がYouTubeのデータを使ってAIモデルをトレーニングすることは、同プラットフォームの利用規約に違反すると主張していた。
AI企業は、アルゴリズムの学習に用いるデータについて、未だ透明性を保っていません。今月初め、アーティストや写真家たちは、今年中に数百万台のAppleデバイスで利用可能になる新しいAI機能「Apple Intelligence」の学習データをAppleが公開していないとして批判しました。
世界最大の動画リポジトリである YouTube は、トランスクリプト、音声、動画、画像など、AI をトレーニングするためのデータの宝庫でもあります。
今年初め、OpenAIの最高技術責任者であるミラ・ムラティ氏は、同社が今後リリース予定のAI動画作成ツール「Sora」のトレーニングにYouTube動画を利用したかどうかについてのウォール・ストリート・ジャーナルの質問を避けた。
「使用されたデータの詳細については触れませんが、ライセンス供与されたデータ、あるいは公開されているデータでした」とムラティ氏は当時述べた。一方、アルファベットのCEO、サンダー・ピチャイ氏も、YouTubeのデータを使ってAIモデルを訓練する企業は、同プラットフォームの利用規約に違反していると強調した。
(Proof News、WSJによると)
[広告2]
出典: https://vietnamnet.vn/apple-nvidia-va-anthropic-su-dung-trai-phep-du-lieu-youtube-de-dao-tao-ai-2303028.html
コメント (0)