Något som snart kommer att bli ett minne på internet.

Explosionen av AI-innehåll har skapat ett problem med tillförlitligheten, eftersom rent mänskliga data blir alltmer sällsynta.

ZNews•09/06/2025

Rent mänskligt innehåll finns på listan över knappa resurser i AI:s tidsålder. Foto: Advertising Week .

Framväxten av ChatGPT år 2022 utlöste en explosion av AI-drivet innehåll över hela internet. Gartner förutspår att år 2026 kommer 90 % av internetinnehållet att genereras av AI, inklusive text, bilder och videor .

AI är tränad att förstå mänskligt tänkande. Men om det inte längre finns ren mänskligt genererad data kommer tekniken att använda sin egen gamla information, likt en kopiator som kopierar sig själv.

Många forskare jämför originellt, mänskligt genererat innehåll med ett slags "rent" stål i modern tid, motsvarande sällsynthet och svårighet att hitta. De befarar att om ingen lagrar kopior av data före 2022, kommer internet helt att förlora sin integritet.

En historisk katastrof upprepar sig.

I tiden efter kärnvapenkriget upptäckte forskare att allt stål som producerades efter 1945 var förorenat. Atombomberna hade förorenat atmosfären med strålning, som spred sig till de metaller som producerades i den miljön.

Detta resulterade i att mycket av stålet blev oanvändbart för högprecisionsmätutrustning som geigermätare och många andra känsliga sensorer. Lösningen var att återvinna gammalt stål från krigsfartyg som sänkts före kriget, djupt nere på havets botten, där det inte skulle påverkas av radioaktivt nedfall.

För AI-utvecklare tränas de flesta modeller med hjälp av massiva datamängder av mänsklig data som samlats in från internet. Men om dagens programvara lär sig av text som den genererat tidigare riskerar modellerna att krascha, vilket urvattnar deras originalitet och djup.

Slagskeppet Hindenburg, som sjönk under första världskriget, har bärgats. Foto: Reuters Connect.

Detta gör mänskligt genererat innehåll, särskilt det som skapats före 2022, mer värdefullt, enligt Will Allen, vice vd för Cloudflare, som driver ett av världens största internetnätverk. Han menar att det hjälper AI-modeller, såväl som samhället som helhet, att förbli förankrade i en gemensam verklighet. Saker och ting skulle bli komplicerade utan den grunden.

Plattformar är särskilt viktiga inom högteknologiska områden som medicin, juridik eller beskattning. Till exempel bör en läkare förlita sig på innehåll skrivet av mänskliga experter och faktabaserad forskning, inte på AI-genererade källor.

Detta hot håller också på att bli verklighet. Ett år efter att ChatGPT lanserades berättade riskkapitalinvesteraren Paul Graham att han var tvungen att söka efter äldre innehåll för en enkel sökning för att undvika "AI-genererat SEO-bete". Malte Ubl, teknisk chef för AI-startupen Vercel, svarade att Graham i huvudsak filtrerade internet efter innehåll "innan det kontaminerades av AI".

Matt Rickard, en tidigare Google-ingenjör, håller med. Han skrev i ett blogginlägg från 2023 att AI samlar in data från internet, men att alltmer av innehållet på internet skapas av AI självt. ”Chatner-utdata är mycket svåra att upptäcka. Att hitta träningsdata som inte har manipulerats av AI kommer att bli allt svårare”, förklarade Rickard.

"Sökandet efter stål på havsbotten"

Svaret på detta problem ligger i att bevara den mänskligt genererade versionen av data från tiden före AI-boomen. En av pionjärerna inom detta område är John Graham-Cumming, styrelseledamot och teknisk chef på Cloudflare.

Hans projekt, webbplatsen LowBackgroundSteel.ai, listar datamängder, sökvägar och media som existerade före 2022. Ett exempel är GitHubs Arctic Code Vault, ett arkiv med öppen källkod som är begravt i en övergiven kolgruva i Norge och som innehåller data sedan februari 2020.

Graham-Cummings projekt för bevarande av mänskliga data. Foto: Lowbackgroundsteel.ai.

En annan datakälla han hänvisade till var ”wordfreq”, ett projekt som spårar frekvensen av ordanvändning online. Lingvisten Robyn Speer behöll det fram till 2021.

”AI-generationen har förorenat datan”, sa Speer. Hon gav exemplet med ChatGPT:s överdrivna besatthet av ordet ”delve”, vilket lett till dess ökade förekomst på senare tid. Detta snedvrider data på internet, vilket gör dem mindre tillförlitliga när det gäller att återspegla hur människor skriver och tänker.

AI-modeller som delvis tränats på syntetiskt innehåll kan snabba upp arbetsflöden och eliminera tråkigheter i kreativa uppgifter. Utöver prestanda kan dock användare fortfarande behöva förlita sig på originalgenererat innehåll för korrekta bedömningar, ungefär som att använda "lågnivåstål" för exakta mätningar.

Forskare har utvecklat olika metoder för att producera stål med hjälp av rent syre. Enligt Business Insider påminner detta oss om att bevarandet av det förflutna kan vara det enda sättet att bygga en pålitlig framtid.

Källa: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html