Ceva ce e pe cale să devină o amintire pe internet.

Explozia conținutului bazat pe inteligență artificială a creat o problemă de încredere, deoarece datele exclusiv umane devin din ce în ce mai rare.

ZNews•09/06/2025

Conținutul pur uman se află pe lista resurselor limitate în era inteligenței artificiale. Foto: Advertising Week .

Apariția ChatGPT în 2022 a declanșat o explozie a conținutului bazat pe inteligență artificială pe internet. Gartner preconizează că până în 2026, 90% din conținutul de pe internet va fi generat de inteligență artificială, inclusiv text, imagini și videoclipuri .

Inteligența artificială este antrenată să înțeleagă gândirea umană. Totuși, dacă nu mai există date generate exclusiv de om, această tehnologie își va folosi propriile informații vechi, la fel cum un fotocopiator s-ar copia pe sine.

Mulți cercetători compară conținutul original, generat de om, cu un fel de oțel „curat” din timpurile moderne, echivalent cu raritatea și dificultatea de găsit. Se tem că, dacă nimeni nu stochează copii ale datelor înainte de 2022, internetul își va pierde complet integritatea.

O catastrofă istorică se repetă.

În era postnucleară, oamenii de știință au descoperit că tot oțelul produs după 1945 era contaminat. Bombele atomice contaminaseră atmosfera cu radiații, care s-au răspândit la metalele produse în acel mediu.

Acest lucru a dus la faptul că o mare parte din oțel a devenit inutilizabil pentru echipamente de măsurare de înaltă precizie, cum ar fi contoarele Geiger și mulți alți senzori sensibili. Soluția a fost recuperarea oțelului vechi de pe navele de război scufundate înainte de război, aflate adânc pe fundul oceanului, unde nu ar fi afectat de căderile radioactive.

Pentru dezvoltatorii de inteligență artificială, majoritatea modelelor sunt antrenate folosind seturi masive de date umane colectate de pe internet. Dar dacă software-ul de astăzi învață din textul generat în trecut, modelele riscă să se blocheze, diluându-le originalitatea și profunzimea.

Nava de luptă Hindenburg, care s-a scufundat în timpul Primului Război Mondial, a fost recuperată. Foto: Reuters Connect.

Acest lucru face ca conținutul generat de oameni, în special cel creat înainte de 2022, să fie mai valoros, potrivit lui Will Allen, vicepreședinte al Cloudflare, care operează una dintre cele mai mari rețele de internet din lume . El susține că acest lucru ajută modelele de inteligență artificială, precum și societatea în ansamblu, să rămână ancorate într-o realitate comună. Lucrurile ar deveni complicate fără această bază.

Platformele sunt deosebit de importante în domenii de înaltă tehnologie, cum ar fi medicina, dreptul sau fiscalitatea. De exemplu, un medic ar trebui să se bazeze pe conținut scris de experți umani și pe cercetări factuale, nu pe surse generate de inteligența artificială.

Această amenințare devine, de asemenea, o realitate. La un an după lansarea ChatGPT, investitorul de capital de risc Paul Graham a povestit că a trebuit să caute conținut mai vechi pentru o simplă căutare pentru a evita „momeala SEO generată de inteligența artificială”. Malte Ubl, CTO al startup-ului de inteligență artificială Vercel, a răspuns că Graham, practic, filtra internetul pentru conținut „înainte ca acesta să fie contaminat de inteligența artificială”.

Matt Rickard, un fost inginer Google, este de acord. Într-o postare pe blog din 2023, el a scris că inteligența artificială colectează date de pe internet, dar, din ce în ce mai mult, o mare parte din conținutul de pe internet este creat chiar de inteligența artificială. „Rezultatul Chatner este foarte dificil de detectat. Găsirea datelor de antrenament care nu au fost modificate de inteligența artificială va deveni din ce în ce mai dificilă”, a explicat Rickard.

„Căutarea oțelului pe fundul mării”

Răspunsul la această problemă constă în conservarea versiunii datelor generate de om, de dinainte de boom-ul inteligenței artificiale. Unul dintre pionierii în acest domeniu este John Graham-Cumming, membru al consiliului de administrație și director tehnologic al Cloudflare.

Proiectul său, site-ul web LowBackgroundSteel.ai, listează seturi de date, căi și suporturi media care existau înainte de 2022. Un exemplu este Arctic Code Vault de la GitHub, o arhivă de software open-source îngropată într-o mină de cărbune abandonată din Norvegia, care conține date din februarie 2020.

Proiectul lui Graham-Cumming de conservare a datelor umane. Fotografie: Lowbackgroundsteel.ai.

O altă sursă de date pe care a citat-o a fost „wordfreq”, un proiect care urmărește frecvența utilizării cuvintelor online. Lingvista Robyn Speer l-a gestionat până în 2021.

„Generația inteligenței artificiale a poluat datele”, a spus Speer. Ea a dat exemplul obsesiei excesive a ChatGPT pentru cuvântul „delve”, ceea ce a dus la apariția sa tot mai frecventă în ultima vreme. Acest lucru denaturează datele de pe internet, făcându-le mai puțin fiabile în reflectarea modului în care oamenii scriu și gândesc.

Modelele de inteligență artificială antrenate parțial pe conținut sintetizat pot accelera fluxurile de lucru și pot elimina plictiseala din sarcinile creative. Cu toate acestea, dincolo de performanță, utilizatorii ar putea fi nevoiți să se bazeze în continuare pe conținut original generat de om pentru evaluări precise, la fel cum ar fi utilizarea „oțelului de joasă calitate” pentru măsurători precise.

Oamenii de știință au dezvoltat diverse metode pentru producerea oțelului folosind oxigen pur. Potrivit Business Insider , acest lucru ne amintește că păstrarea trecutului ar putea fi singura modalitate de a construi un viitor fiabil.

Sursa: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html