Proof Newsの調査により、これらの企業はEleutherAIという非営利団体が作成したデータセットを使用していたことが判明した。このデータセットには、コンテンツの所有者や作成者に許可を求めることなく、48,000以上のチャンネルのYouTube動画コンテンツの録画が含まれていた。

このデータセットには画像や動画は含まれていませんが、Marques BrownleeやMrBeastといったプラットフォーム上のトップクリエイターや、ニューヨーク・タイムズ、BBC、ABCニュースといった大手ニュースメディアのコンテンツが含まれています。また、Engadgetが所有する動画のキャプションも含まれています。

8d541010 38d9 11ef b7fd 2183e5dd7ce6.jpg
Apple IntelligenceがYouTubeのクリエイティブコミュニティのデータを不正に利用したとして告発された。写真:Yahoo! Tech

「AppleはAI用のデータを複数の企業から入手している」と人気YouTuberのブラウンリー氏はXに投稿した。「その1つが、私のものも含め、YouTube動画からの大量のデータや録画だ」

以前、YouTubeのCEOであるニール・モハン氏は、企業がYouTubeのデータを使ってAIモデルをトレーニングすることは、同プラットフォームの利用規約に違反すると主張していた。

AI企業は、アルゴリズムの学習に用いるデータについて、未だ透明性を保っていません。今月初め、アーティストや写真家たちは、今年中に数百万台のAppleデバイスで利用可能になる新しいAI機能「Apple Intelligence」の学習データをAppleが公開していないとして批判しました。

世界最大の動画リポジトリである YouTube は、トランスクリプト、音声、動画、画像など、AI をトレーニングするためのデータの宝庫でもあります。

今年初め、OpenAIの最高技術責任者であるミラ・ムラティ氏は、同社が今後リリース予定のAI動画作成ツール「Sora」のトレーニングにYouTube動画を利用したかどうかについてのウォール・ストリート・ジャーナルの質問を避けた。

「使用されたデータの詳細については触れませんが、ライセンス供与されたデータ、あるいは公開されているデータでした」とムラティ氏は当時述べた。一方、アルファベットのCEO、サンダー・ピチャイ氏も、YouTubeのデータを使ってAIモデルを訓練する企業は、同プラットフォームの利用規約に違反していると強調した。

(Proof News、WSJによると)

Apple、Samsungが中国のスマートフォンブランドを追い抜くCounterpoint Researchのデータによると、世界のスマートフォン市場は2024年第2四半期に6%成長し、AppleとSamsungがトップ2の座を占め、Xiaomi、Vivo、Oppoなどの中国ブランドがそれに続いた。