Rent menneskelig innhold er på listen over knappe ressurser i AI-tidsalderen. Foto: Advertising Week . |
Fremveksten av ChatGPT i 2022 utløste en eksplosjon av AI-drevet innhold på internett. Gartner spår at innen 2026 vil 90 % av internettinnholdet bli generert av AI, inkludert tekst, bilder og videoer .
AI er trent til å forstå menneskelig tankegang. Men hvis det ikke lenger finnes rene menneskeskapte data, vil denne teknologien bruke sin egen gamle informasjon, som en kopimaskin som kopierer seg selv.
Mange forskere sammenligner originalt, menneskeskapt innhold med en slags «rent» stål i moderne tid, tilsvarende sjeldenhet og vanskelighet å finne. De frykter at hvis ingen lagrer kopier av data før 2022, vil internett miste sin integritet fullstendig.
En historisk katastrofe gjentar seg.
I tiden etter kjernekraften oppdaget forskere at alt stål produsert etter 1945 var forurenset. Atombombene hadde forurenset atmosfæren med stråling, som spredte seg til metallene som ble produsert i det miljøet.
Dette resulterte i at mye av stålet ble ubrukelig til høypresisjonsmåleutstyr som geigertellere og mange andre følsomme sensorer. Løsningen var å gjenvinne gammelt stål fra krigsskip som ble senket før krigen, og som lå dypt på havbunnen, hvor det ikke ville bli påvirket av radioaktivt nedfall.
For AI-utviklere trenes de fleste modeller ved hjelp av massive datasett med menneskelige data samlet inn fra internett. Men hvis dagens programvare lærer av tekst den genererte tidligere, risikerer modellene å krasje, noe som fortynner originaliteten og dybden deres.
![]() |
Slagskipet Hindenburg, som sank under første verdenskrig, er berget. Foto: Reuters Connect. |
Dette gjør menneskeskapt innhold, spesielt det som ble laget før 2022, mer verdifullt, ifølge Will Allen, visepresident i Cloudflare, som driver et av verdens største internettnettverk. Han argumenterer for at det hjelper AI-modeller, så vel som samfunnet som helhet, å holde seg forankret i en felles virkelighet. Ting ville blitt komplisert uten det grunnlaget.
Plattformer er spesielt viktige innen høyteknologiske felt som medisin, jus eller skatt. For eksempel bør en lege stole på innhold skrevet av menneskelige eksperter og faktabasert forskning, ikke på AI-genererte kilder.
Denne trusselen er også i ferd med å bli en realitet. Et år etter at ChatGPT ble lansert, fortalte ventureinvestor Paul Graham at han måtte søke etter eldre innhold for et enkelt søk for å unngå «AI-generert SEO-agn». Malte Ubl, teknisk direktør i AI-oppstartsbedriften Vercel, svarte at Graham i hovedsak filtrerte internett etter innhold «før det ble forurenset av AI».
Matt Rickard, en tidligere Google-ingeniør, er enig. Han skrev i et blogginnlegg fra 2023 at AI samler inn data fra internett, men at stadig mer av innholdet på internett er laget av AI selv. «Chatner-utdata er svært vanskelig å oppdage. Det vil bli stadig vanskeligere å finne treningsdata som ikke har blitt tuklet med av AI», forklarte Rickard.
«Søket etter stål på havbunnen»
Svaret på dette problemet ligger i å bevare den menneskeskapte versjonen av data fra før AI-boomen. En av pionerene på dette feltet er John Graham-Cumming, styremedlem og teknologidirektør i Cloudflare.
Prosjektet hans, nettstedet LowBackgroundSteel.ai, lister opp datasett, stier og medier som eksisterte før 2022. Et eksempel er GitHubs Arctic Code Vault, et åpen kildekode-programvarearkiv begravd i en forlatt kullgruve i Norge, som inneholder data siden februar 2020.
Graham-Cummings prosjekt for bevaring av menneskelige data. Foto: Lowbackgroundsteel.ai. |
En annen datakilde han viste til var «wordfreq», et prosjekt som sporer hyppigheten av ordbruk på nett. Lingvist Robyn Speer vedlikeholdt det frem til 2021.
«AI-generasjonen har forurenset dataene», sa Speer. Hun ga eksemplet med ChatGPTs overdrevne besettelse av ordet «delve», noe som har ført til at det har blitt oftere brukt i det siste. Dette forvrenger data på internett, noe som gjør dem mindre pålitelige når det gjelder å gjenspeile hvordan mennesker skriver og tenker.
AI-modeller som delvis er trent på syntetisert innhold kan øke hastigheten på arbeidsflyter og eliminere kjedelige kreative oppgaver. Utover bare ytelse kan det imidlertid hende at brukere fortsatt må stole på originalt menneskeskapt innhold for nøyaktige vurderinger, omtrent som å bruke "lavnivåstål" for presise målinger.
Forskere har utviklet ulike metoder for å produsere stål ved hjelp av rent oksygen. Ifølge Business Insider minner dette oss om at det å bevare fortiden kan være den eneste måten å bygge en pålitelig fremtid på.
Kilde: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html







Kommentar (0)