Něco, co se brzy stane vzpomínkou na internetu.

Exploze obsahu umělé inteligence vytvořila problém s důvěryhodností, protože čistě lidských dat je stále méně.

ZNews•09/06/2025

Čistě lidský obsah je v době umělé inteligence na seznamu vzácných zdrojů. Foto: Advertising Week .

Vznik ChatGPT v roce 2022 spustil explozi obsahu poháněného umělou inteligencí na celém internetu. Gartner předpovídá, že do roku 2026 bude 90 % internetového obsahu generováno umělou inteligencí, včetně textu, obrázků a videí .

Umělá inteligence je vycvičena k porozumění lidskému myšlení. Pokud však již neexistují čistě lidská data, tato technologie bude používat své vlastní staré informace, podobně jako kopírka, která kopíruje sama sebe.

Mnoho výzkumníků přirovnává originální, lidmi generovaný obsah k jakési „čisté“ oceli moderní doby, což odpovídá vzácnosti a obtížnosti nalezení. Obávají se, že pokud nikdo nebude ukládat kopie dat před rokem 2022, internet zcela ztratí svou integritu.

Historická katastrofa se opakuje.

V postnukleární éře vědci zjistili, že veškerá ocel vyrobená po roce 1945 byla kontaminována. Atomové bomby kontaminovaly atmosféru radiací, která se rozšířila na kovy vyrobené v tomto prostředí.

To vedlo k tomu, že velká část oceli se stala nepoužitelnou pro vysoce přesná měřicí zařízení, jako jsou Geigerovy počítače a mnoho dalších citlivých senzorů. Řešením bylo získat starou ocel z válečných lodí potopených před válkou, které ležely hluboko na dně oceánu, kde by nebyla ovlivněna radioaktivním spadem.

Pro vývojáře umělé inteligence je většina modelů trénována s využitím obrovských datových sad o lidech shromážděných z internetu. Pokud se však dnešní software učí z textu, který generoval v minulosti, riskuje, že modely selžou, což oslabí jejich originalitu a hloubku.

Bitevní loď Hindenburg, která se potopila během první světové války, byla vyproštěna. Foto: Reuters Connect.

Díky tomu je obsah generovaný lidmi, zejména ten vytvořený před rokem 2022, cennější, tvrdí Will Allen, viceprezident společnosti Cloudflare, která provozuje jednu z největších internetových sítí na světě . Tvrdí, že to pomáhá modelům umělé inteligence i společnosti jako celku zůstat zakotveny ve sdílené realitě. Bez tohoto základu by se věci zkomplikovaly.

Platformy jsou obzvláště důležité v high-tech oblastech, jako je medicína, právo nebo daně. Například lékař by se měl spoléhat na obsah napsaný lidskými experty a faktický výzkum, nikoli na zdroje generované umělou inteligencí.

I tato hrozba se stává realitou. Rok po spuštění ChatGPT investor rizikového kapitálu Paul Graham vyprávěl, že musel pro jednoduché vyhledávání vyhledávat starší obsah, aby se vyhnul „SEO návnadě generované umělou inteligencí“. Malte Ubl, technický ředitel startupu Vercel zaměřeného na umělou inteligenci, odpověděl, že Graham v podstatě filtroval internet a hledal obsah „předtím, než byl umělou inteligencí kontaminován“.

Matt Rickard, bývalý inženýr Googlu, s tím souhlasí. V blogovém příspěvku z roku 2023 napsal, že umělá inteligence shromažďuje data z internetu, ale stále častěji velkou část obsahu na internetu vytváří sama umělá inteligence. „Výstup Chatneru je velmi obtížné odhalit. Nalezení trénovacích dat, která nebyla umělou inteligencí pozměněna, bude stále obtížnější,“ vysvětlil Rickard.

„Hledání oceli na mořském dně“

Odpověď na tento problém spočívá v zachování lidmi generované verze dat z doby před boomem umělé inteligence. Jedním z průkopníků v této oblasti je John Graham-Cumming, člen představenstva a technický ředitel společnosti Cloudflare.

Jeho projekt, web LowBackgroundSteel.ai, uvádí datové sady, cesty a média, která existovala před rokem 2022. Jedním z příkladů je Arctic Code Vault od GitHubu, archiv softwaru s otevřeným zdrojovým kódem, který se nachází v opuštěném uhelném dole v Norsku a obsahuje data od února 2020.

Graham-Cummingův projekt pro uchovávání lidských dat. Foto: Lowbackgroundsteel.ai.

Dalším zdrojem dat, který citoval, byl „wordfreq“, projekt, který sleduje četnost používání slov online. Lingvistka Robyn Speerová ho udržovala až do roku 2021.

„Generace umělé inteligence znečistila data,“ řekla Speerová. Uvedla příklad přehnané posedlosti ChatGPT slovem „delve“, což vedlo k jeho častějšímu výskytu v poslední době. To zkresluje data na internetu a činí je méně spolehlivými při odrážení toho, jak lidé píší a myslí.

Modely umělé inteligence částečně trénované na syntetizovaném obsahu mohou zrychlit pracovní postupy a eliminovat únavu v kreativních úkolech. Uživatelé se však kromě výkonu stále mohou spoléhat na originální obsah generovaný člověkem pro přesné posouzení, podobně jako když pro přesná měření používají „nízkoúrovňovou ocel“.

Vědci vyvinuli různé metody pro výrobu oceli za použití čistého kyslíku. Podle Business Insideru nám to připomíná, že zachování minulosti může být jediným způsobem, jak vybudovat spolehlivou budoucnost.

Zdroj: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html