Vietnam.vn - Nền tảng quảng bá Việt Nam

Coś, co niebawem stanie się wspomnieniem w Internecie.

Rozwój treści opartych na sztucznej inteligencji stworzył problem wiarygodności, ponieważ dane pochodzące wyłącznie od ludzi stają się coraz rzadsze.

ZNewsZNews09/06/2025

Treści czysto ludzkie znajdują się na liście zasobów deficytowych w erze sztucznej inteligencji. Zdjęcie: Advertising Week .

Pojawienie się ChatGPT w 2022 roku zapoczątkowało eksplozję treści opartych na sztucznej inteligencji w internecie. Gartner przewiduje, że do 2026 roku 90% treści internetowych, w tym teksty, obrazy i filmy , będzie generowane przez sztuczną inteligencję.

Sztuczna inteligencja jest wyszkolona w rozumieniu ludzkich myśli. Jeśli jednak zabraknie czystych danych generowanych przez człowieka, technologia ta będzie wykorzystywać własne, stare informacje, niczym kserokopiarka kopiująca samą siebie.

Wielu badaczy porównuje oryginalne, generowane przez ludzi treści do „czystej” stali w czasach współczesnych, co jest równoznaczne z rzadkością i trudnością znalezienia. Obawiają się, że jeśli nikt nie będzie przechowywał kopii danych przed 2022 rokiem, internet całkowicie straci swoją integralność.

Katastrofa historyczna powtarza się.

W erze postnuklearnej naukowcy odkryli, że cała stal wyprodukowana po 1945 roku była skażona. Bomby atomowe skaziły atmosferę promieniowaniem, które rozprzestrzeniło się na metale produkowane w tym środowisku.

Spowodowało to, że znaczna część stali stała się bezużyteczna w precyzyjnych urządzeniach pomiarowych, takich jak liczniki Geigera i wiele innych czułych czujników. Rozwiązaniem było odzyskanie starej stali z okrętów wojennych zatopionych przed wojną, zalegającej głęboko na dnie oceanu, gdzie nie uległaby uszkodzeniu w wyniku opadu radioaktywnego.

W przypadku twórców sztucznej inteligencji większość modeli jest trenowana z wykorzystaniem ogromnych zbiorów danych ludzkich zebranych z internetu. Jeśli jednak dzisiejsze oprogramowanie uczy się na podstawie tekstu wygenerowanego w przeszłości, modele ryzykują awarię, co osłabi ich oryginalność i głębię.

Noi dung dang tin cay anh 1

Pancernik Hindenburg, który zatonął podczas I wojny światowej, został wydobyty. Zdjęcie: Reuters Connect.

Zdaniem Willa Allena, wiceprezesa Cloudflare, operatora jednej z największych sieci internetowych na świecie , to sprawia, że ​​treści generowane przez ludzi, zwłaszcza te stworzone przed 2022 rokiem, stają się bardziej wartościowe. Allen argumentuje, że pomaga to modelom sztucznej inteligencji, a także całemu społeczeństwu, ugruntować się we wspólnej rzeczywistości. Bez tego fundamentu sprawy stałyby się bardziej skomplikowane.

Platformy są szczególnie ważne w dziedzinach zaawansowanych technologii, takich jak medycyna, prawo czy podatki. Na przykład lekarz powinien opierać się na treściach tworzonych przez ekspertów i badaniach naukowych, a nie na źródłach generowanych przez sztuczną inteligencję.

To zagrożenie również staje się rzeczywistością. Rok po uruchomieniu ChatGPT, inwestor venture capital Paul Graham wspominał, że musiał wyszukiwać starsze treści, aby uniknąć „generowanych przez sztuczną inteligencję pułapek SEO”. Malte Ubl, dyrektor techniczny startupu Vercel zajmującego się sztuczną inteligencją, odpowiedział, że Graham w zasadzie filtrował internet w poszukiwaniu treści, „zanim zostały one zanieczyszczone przez sztuczną inteligencję”.

Matt Rickard, były inżynier Google, zgadza się z tym. W poście na blogu z 2023 roku napisał, że sztuczna inteligencja gromadzi dane z internetu, ale coraz częściej znaczną część treści w internecie tworzy sama sztuczna inteligencja. „Wyjście Chatnera jest bardzo trudne do wykrycia. Znalezienie danych treningowych, które nie zostały zmodyfikowane przez sztuczną inteligencję, będzie coraz trudniejsze” – wyjaśnił Rickard.

„Poszukiwanie stali na dnie morskim”

Rozwiązaniem tego problemu jest zachowanie danych generowanych przez człowieka, sprzed boomu na sztuczną inteligencję. Jednym z pionierów w tej dziedzinie jest John Graham-Cumming, członek zarządu i dyrektor ds. technologii w Cloudflare.

Jego projekt, strona internetowa LowBackgroundSteel.ai, zawiera listę zestawów danych, ścieżek i multimediów, które istniały przed 2022 rokiem. Jako przykład podano Arctic Code Vault firmy GitHub, archiwum oprogramowania typu open source zakopane w opuszczonej kopalni węgla w Norwegii, przechowujące dane od lutego 2020 roku.

Noi dung dang tin cay anh 2

Projekt Graham-Cumming dotyczący zachowania danych osobowych. Zdjęcie: Lowbackgroundsteel.ai.

Innym źródłem danych, na które powoływał się, był „wordfreq”, projekt śledzący częstotliwość używania słów w internecie. Lingwistka Robyn Speer prowadziła go do 2021 roku.

„Generacja sztucznej inteligencji zanieczyściła dane” – powiedziała Speer. Jako przykład podała nadmierną obsesję ChatGPT na punkcie słowa „delve”, co doprowadziło do jego częstszego występowania w ostatnim czasie. To zniekształca dane w internecie, czyniąc je mniej wiarygodnymi w odzwierciedlaniu sposobu, w jaki ludzie piszą i myślą.

Modele sztucznej inteligencji częściowo wytrenowane na zsyntetyzowanej treści mogą przyspieszyć przepływy pracy i wyeliminować żmudność zadań kreatywnych. Jednak poza wydajnością, użytkownicy mogą nadal potrzebować polegać na oryginalnych, generowanych przez człowieka treściach, aby uzyskać dokładne oceny, podobnie jak w przypadku „niskopoziomowej stali” do precyzyjnych pomiarów.

Naukowcy opracowali różne metody produkcji stali przy użyciu czystego tlenu. Według Business Insider , przypomina nam to, że zachowanie przeszłości może być jedynym sposobem na zbudowanie stabilnej przyszłości.

Źródło: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html


Komentarz (0)

Zostaw komentarz, aby podzielić się swoimi odczuciami!

W tej samej kategorii

Od tego samego autora

Dziedzictwo

Postać

Firmy

Sprawy bieżące

System polityczny

Lokalny

Produkt

Happy Vietnam
Podwójny pokaz cyrkowy na linie jest zarówno odważny, jak i urzekający.

Podwójny pokaz cyrkowy na linie jest zarówno odważny, jak i urzekający.

Wietnam

Wietnam

moment docelowy

moment docelowy