インターネット上の思い出になりつつあるもの。

AIコンテンツの爆発的な増加は、純粋に人間が作成したデータがますます希少になるにつれて、信頼性の問題を生み出している。

ZNews•09/06/2025

AI時代において、純粋に人間が制作したコンテンツは希少な資源の一つとなっている。写真： Advertising Week

2022年のChatGPTの登場は、インターネット上でAIを活用したコンテンツの爆発的な増加を引き起こしました。ガートナーは、2026年までに、テキスト、画像、動画を含むインターネットコンテンツの90%がAIによって生成されると予測しています。

AIは人間の思考を理解するように訓練されている。しかし、純粋な人間由来のデータがなくなると、この技術は、まるでコピー機が自分自身をコピーするように、自身の古い情報を使用するようになる。

多くの研究者は、人間が作成したオリジナルのコンテンツを、現代における「純粋な」鋼鉄に例え、希少性と入手困難性を強調している。彼らは、2022年までに誰もデータのコピーを保存しなければ、インターネットはその完全性を完全に失ってしまうのではないかと危惧している。

歴史的な大惨事が繰り返される。

核戦争後の時代において、科学者たちは1945年以降に生産されたすべての鉄鋼が汚染されていることを発見した。原子爆弾によって大気が放射能汚染され、その汚染物質が大気中で生産された金属にまで広がったのである。

このため、鋼材の多くはガイガーカウンターなどの高精度測定機器やその他多くの高感度センサーには使用できなくなってしまった。そこで、戦前に沈没し、放射性降下物の影響を受けない深海に眠る軍艦から古い鋼材を回収するという解決策が取られた。

AI開発者にとって、ほとんどのモデルはインターネットから収集された膨大な人間データのデータセットを使用して訓練されています。しかし、今日のソフトウェアが過去に生成したテキストから学習すると、モデルがクラッシュするリスクがあり、その独創性と深みが損なわれる可能性があります。

第一次世界大戦中に沈没した戦艦ヒンデンブルク号が引き揚げられた。写真：ロイターコネクト。

世界最大級のインターネットネットワークを運営するCloudflareの副社長、ウィル・アレン氏によると、このことが、特に2022年以前に作成された人間生成コンテンツの価値を高めているという。同氏は、こうしたコンテンツはAIモデルだけでなく、社会全体が共通の現実に基づいて行動する上で役立つと主張している。この基盤がなければ、物事は複雑化してしまうだろう。

プラットフォームは、医療、法律、税務といったハイテク分野において特に重要です。例えば、医師はAIが生成した情報源ではなく、人間の専門家が執筆したコンテンツや事実に基づいた調査結果に依拠すべきです。

この脅威は現実のものとなりつつある。ChatGPTのローンチから1年後、ベンチャー投資家のポール・グラハム氏は、「AIが生成したSEO対策コンテンツ」を避けるために、簡単な検索でも古いコンテンツを探さなければならなかったと語った。AIスタートアップ企業VercelのCTOであるマルテ・ウブル氏は、グラハム氏は基本的に「AIに汚染される前の」コンテンツをインターネットから選別していたのだと反論した。

元Googleエンジニアのマット・リカード氏も同意見だ。彼は2023年のブログ記事で、AIはインターネットからデータを収集するが、インターネット上のコンテンツの多くはAI自身によって作成されるようになっていると述べている。「Chatnerの出力は検出が非常に難しい。AIによって改ざんされていないトレーニングデータを見つけることはますます困難になるだろう」とリカード氏は説明した。

「海底での鉄鋼探査」

この問題の解決策は、AIブーム以前に人間が作成したデータを保存することにある。この分野の先駆者の一人が、Cloudflareの取締役兼最高技術責任者であるジョン・グラハム＝カミング氏だ。

彼のプロジェクトであるウェブサイトLowBackgroundSteel.aiは、2022年以前に存在したデータセット、パス、メディアを一覧表示している。例として挙げられているのは、GitHubのArctic Code Vaultだ。これはノルウェーの廃炭鉱に埋められたオープンソースソフトウェアのアーカイブで、2020年2月以降のデータが保存されている。

グラハム＝カミング氏による人体データ保存プロジェクト。写真： Lowbackgroundsteel.ai。

彼が引用したもう一つのデータソースは、オンライン上での単語の使用頻度を追跡するプロジェクト「wordfreq」だった。言語学者のロビン・スピアーが2021年までこのプロジェクトを運営していた。

「AIによるデータ生成がデータを汚染している」とスピア氏は述べた。彼女は、ChatGPTが「delve」（掘り下げる）という単語に過度に執着し、最近その出現頻度が高まっている例を挙げた。これはインターネット上のデータを歪め、人間の文章表現や思考様式を反映する信頼性を低下させている。

合成コンテンツで部分的に学習させたAIモデルは、ワークフローを高速化し、クリエイティブ作業における煩雑な作業を解消できる。しかし、パフォーマンスだけでなく、ユーザーは正確な評価のために、依然として人間が作成したオリジナルコンテンツに頼る必要があるかもしれない。これは、精密な測定に「低レベルの鋼材」を使用するのと似ている。

科学者たちは、純酸素を用いて鉄鋼を製造する様々な方法を開発してきた。Business Insiderによると、これは過去を大切にすることが、信頼できる未来を築く唯一の方法かもしれないということを私たちに改めて気づかせてくれる。

出典: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html