RedditはMicrosoftとGoogleにデータ使用料を請求したい

[広告_1]

Reddit データは、大規模な言語モデルのトレーニングに使用されます。（写真：ソフトニック）

Reddit はインターネット上で最大のフォーラムの 1 つです。毎日約 5,700 万人がこの Web サイトにアクセスし、さまざまなトピックについて議論しています。近年、Reddit データは、Google、OpenAI、Microsoft の無料 AI トレーニングツールにもなっています。これらの企業は、AI システムの開発にフォーラムのディスカッションを活用しています。

4月18日、Redditは、企業にAPI（アプリケーションプログラミングインターフェース）へのアクセス料金を課す計画を発表した。 Redditの創設者兼CEOであるスティーブ・ハフマン氏は、「Redditのデータは非常に価値がある」ので、世界で最も裕福な企業に無料で配布することはできないと主張しています。

2005年に設立されたRedditは、主にプラットフォーム上の広告と電子商取引取引を通じて収益を上げています。フォーラムでは料金の詳細をまだ最終調整中で、今後数週間以内に価格を発表する予定だ。

大規模言語モデル (LLM) が新しい AI テクノロジーの作成に重要な役割を果たすようになると、Reddit などでの会話は貴重な商品になります。 LLM は、Reddit からデータを取り込んで開発される高度なアルゴリズムです。 Google Bard や ChatGPT サービスはどちらも Reddit データを使用します。

ChatGPT は、その背後にある企業にとって多くのメリットをもたらしますが、Reddit にとっては何のメリットもありません。実際、Reddit の競合相手を作成するためにも使用できます。他にもいくつかの企業も AI 開発者にデータを販売し始めています。たとえば、Shutterstock は、テキストから画像に変換する Dall-E プログラムを開発するために、OpenAI に画像データを販売しました。

先週、イーロン・マスク氏は、数千の企業や独立系開発者がプラットフォーム上の何百万もの会話を追跡するために使用しているTwitterのAPIの使用を取り締まると述べた。手数料は数千ドルから数十万ドルの範囲になります。

LLM を継続的に改善するには、企業には膨大な計算能力と膨大なデータという 2 つのものが必要です。すでに大きな計算能力を持っている企業もありますが、アルゴリズムを改善するために外部データを求めています。これらには、 Wikipedia 、電子書籍、学術記事、Reddit などのソースが含まれます。

ハフマン氏は、データが常に更新されているからこそ価値があると考えている。大規模言語モデルが最良の結果を生み出すために必要なのは、鮮度と関連性です。 RedditのAPIは、Redditコミュニティに役立つアプリケーションを開発したい開発者や、学術的または非営利目的でデータを研究したい学者には引き続き無料で提供される、と彼は述べた。

ハフマン氏によると、企業がデータを収集し、価値を生み出しているにもかかわらず、Reddit ユーザーに何も還元していないのは問題だという。ですから、今こそ物事を引き締める良い機会です。

（ニューヨークタイムズによると）

[広告2]
ソース