Vietnam.vn - Nền tảng quảng bá Việt Nam

Iets dat binnenkort slechts een herinnering op het internet zal zijn.

De explosie aan AI-content heeft een betrouwbaarheidsprobleem gecreëerd, omdat puur menselijke data steeds schaarser wordt.

ZNewsZNews09/06/2025

In het tijdperk van AI behoren puur menselijke content tot de schaarse middelen. Foto: Advertising Week .

De opkomst van ChatGPT in 2022 leidde tot een explosie van AI-gestuurde content op het internet. Gartner voorspelt dat in 2026 90% van de internetcontent, inclusief tekst, afbeeldingen en video's , door AI zal worden gegenereerd.

AI is getraind om menselijk denken te begrijpen. Maar als er geen puur door mensen gegenereerde data meer beschikbaar is, zal deze technologie haar eigen oude informatie gebruiken, net zoals een kopieermachine zichzelf kopieert.

Veel onderzoekers vergelijken originele, door mensen gegenereerde content met een soort 'schoon' staal in de moderne tijd, wat neerkomt op zeldzaamheid en moeilijk te vinden zijn. Ze vrezen dat als niemand vóór 2022 kopieën van data opslaat, het internet zijn integriteit volledig zal verliezen.

Een historische catastrofe herhaalt zich.

In het post-nucleaire tijdperk ontdekten wetenschappers dat al het staal dat na 1945 was geproduceerd, besmet was. De atoombommen hadden de atmosfeer met straling verontreinigd, die zich vervolgens verspreidde naar de metalen die in die omgeving werden geproduceerd.

Hierdoor werd een groot deel van het staal onbruikbaar voor zeer nauwkeurige meetapparatuur zoals geigertellers en vele andere gevoelige sensoren. De oplossing was om oud staal te bergen van oorlogsschepen die vóór de oorlog waren gezonken en diep op de bodem van de oceaan lagen, waar het niet zou worden aangetast door radioactieve neerslag.

Voor AI-ontwikkelaars worden de meeste modellen getraind met behulp van enorme datasets met menselijke gegevens die van internet zijn verzameld. Maar als de software van vandaag leert van tekst die het in het verleden heeft gegenereerd, lopen de modellen het risico vast te lopen, waardoor hun originaliteit en diepgang verloren gaan.

Noi dung dang tin cay anh 1

Het slagschip Hindenburg, dat tijdens de Eerste Wereldoorlog zonk, is geborgen. Foto: Reuters Connect.

Dit maakt door mensen gegenereerde content, met name content die vóór 2022 is gemaakt, waardevoller, aldus Will Allen, vicepresident van Cloudflare, dat een van 's werelds grootste internetnetwerken beheert. Hij stelt dat het AI-modellen, en de samenleving als geheel, helpt om geworteld te blijven in een gedeelde realiteit. Zonder die basis zouden de zaken ingewikkeld worden.

Platformen zijn vooral belangrijk in hightechsectoren zoals de geneeskunde, de juridische wereld of de belastingwereld. Een arts moet bijvoorbeeld vertrouwen op content geschreven door menselijke experts en feitelijk onderzoek, en niet op door AI gegenereerde bronnen.

Deze dreiging wordt ook werkelijkheid. Een jaar na de lancering van ChatGPT vertelde durfkapitalist Paul Graham dat hij voor een simpele zoekopdracht naar oudere content moest zoeken om "door AI gegenereerde SEO-valstrikken" te vermijden. Malte Ubl, CTO van de AI-startup Vercel, reageerde daarop door te stellen dat Graham in feite het internet filterde op content "voordat deze door AI werd besmet".

Matt Rickard, een voormalig Google-ingenieur, is het daarmee eens. Hij schreef in een blogpost uit 2023 dat AI data verzamelt van het internet, maar dat een groot deel van de content op het internet steeds vaker door AI zelf wordt gecreëerd. "De output van Chatner is erg moeilijk te detecteren. Het zal steeds lastiger worden om trainingsdata te vinden die niet door AI zijn gemanipuleerd", legde Rickard uit.

De "zoektocht naar staal op de zeebodem"

De oplossing voor dit probleem ligt in het bewaren van de door mensen gegenereerde data van vóór de opkomst van AI. Een van de pioniers op dit gebied is John Graham-Cumming, bestuurslid en Chief Technology Officer van Cloudflare.

Zijn project, de website LowBackgroundSteel.ai, toont datasets, paden en media die bestonden vóór 2022. Een voorbeeld hiervan is GitHub's Arctic Code Vault, een open-source softwarearchief dat is opgeslagen in een verlaten kolenmijn in Noorwegen en data bevat die sinds februari 2020 bewaard zijn gebleven.

Noi dung dang tin cay anh 2

Graham-Cumming's project voor het bewaren van menselijke gegevens. Foto: Lowbackgroundsteel.ai.

Een andere gegevensbron die hij noemde was "wordfreq", een project dat de frequentie van woordgebruik online bijhoudt. Taalkundige Robyn Speer beheerde het project tot 2021.

"De AI-generatie heeft de data vervuild," zei Speer. Ze gaf het voorbeeld van ChatGPT's overmatige obsessie met het woord "delve", wat ertoe heeft geleid dat het de laatste tijd steeds vaker voorkomt. Dit verstoort de data op internet, waardoor deze minder betrouwbaar is als weerspiegeling van hoe mensen schrijven en denken.

AI-modellen die gedeeltelijk getraind zijn op gesynthetiseerde content kunnen workflows versnellen en de eentonigheid van creatieve taken verminderen. Naast de prestaties zullen gebruikers echter mogelijk nog steeds afhankelijk zijn van originele, door mensen gegenereerde content voor nauwkeurige beoordelingen, net zoals je "laagwaardig staal" gebruikt voor precieze metingen.

Wetenschappers hebben verschillende methoden ontwikkeld om staal te produceren met behulp van pure zuurstof. Volgens Business Insider herinnert dit ons eraan dat het behoud van het verleden wellicht de enige manier is om een ​​betrouwbare toekomst op te bouwen.

Bron: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html


Reactie (0)

Laat een reactie achter om je gevoelens te delen!

Erfenis

Figuur

Bedrijven

Actualiteiten

Politiek systeem

Lokaal

Product

Happy Vietnam
Tet (Vietnamees Nieuwjaar) mee naar huis nemen voor mama.

Tet (Vietnamees Nieuwjaar) mee naar huis nemen voor mama.

ERVARING

ERVARING

De meest gepassioneerde fans

De meest gepassioneerde fans