この動きは、人工知能(AI)企業が、AIを訓練するために出版社からコンテンツを盗んだり、著作権のある記事を含む情報を要約して、料金を支払わず、許可も求めずにユーザーに返答したりしていると非難されている中で起こった。
写真:ロイター
Redditは、ウェブサイトのどの部分のクロールを許可するかを定義するための広く受け入れられている標準であるロボット排除プロトコル(「robots.txt」)を更新すると発表した。
同社はまた、特定の主体からのリクエスト数を制御するために使用される技術であるレート制限を維持し、未知のボットやクローラーが自社のサイトでデータを収集するのをブロックすると述べた。
Robots.txt は、ニュース組織を含む発行者が、テクノロジー企業が AI をトレーニングしたり、特定の検索クエリに答えるための要約を作成したりするためにコンテンツを違法にスクレイピングするのを防ぐために使用する重要なツールです。
先週、コンテンツライセンスのスタートアップ企業TollBitは、一部のAI企業が規則を回避して出版社のウェブサイト上のコンテンツをスクレイピングしていると報告した。
これは、AI検索スタートアップ企業Perplexityがrobots.txtを介してウェブクローラーをブロックするルールに違反した可能性があることがWiredの調査で判明した後のことだ。
6月初めには、メディア出版社フォーブスもパープレキシティが同社の調査記事を盗作し、出典を明記せずに生成AIシステムに使用したと非難した。
レディットは火曜日、研究者やインターネットアーカイブのような組織は非営利目的で引き続きコンテンツにアクセスできると発表した。
ホアンハイ(ロイター通信による)
[広告2]
出典: https://www.congluan.vn/reddit-cap-nhat-giao-thuc-ngan-chan-ai-danh-cap-noi-dung-post300804.html
コメント (0)