Sesuatu yang bakal menjadi kenangan di Internet.

Ledakan kandungan AI telah mewujudkan masalah kepercayaan, memandangkan data manusia semata-mata semakin terhad.

ZNews•09/06/2025

Kandungan yang sepenuhnya berasaskan manusia berada dalam senarai sumber yang terhad pada zaman AI. Foto: Minggu Pengiklanan .

Kemunculan ChatGPT pada tahun 2022 mencetuskan ledakan kandungan berkuasa AI di seluruh internet. Gartner meramalkan bahawa menjelang 2026, 90% kandungan internet akan dijana oleh AI, termasuk teks, imej dan video .

AI dilatih untuk memahami pemikiran manusia. Walau bagaimanapun, jika tiada lagi data tulen yang dihasilkan oleh manusia, teknologi ini akan menggunakan maklumat lamanya sendiri, seperti mesin fotokopi yang menyalin dirinya sendiri.

Ramai penyelidik membandingkan kandungan asli yang dihasilkan oleh manusia dengan sejenis keluli "bersih" pada zaman moden, bersamaan dengan kelangkaan dan kesukaran untuk ditemui. Mereka bimbang jika tiada siapa yang menyimpan salinan data sebelum 2022, internet akan kehilangan integritinya sepenuhnya.

Bencana sejarah berulang kembali.

Dalam era pasca-nuklear, saintis mendapati bahawa semua keluli yang dihasilkan selepas tahun 1945 telah tercemar. Bom atom telah mencemari atmosfera dengan radiasi, yang merebak ke logam yang dihasilkan dalam persekitaran tersebut.

Ini mengakibatkan kebanyakan keluli tidak boleh digunakan untuk peralatan pengukur ketepatan tinggi seperti kaunter Geiger dan banyak sensor sensitif yang lain. Penyelesaiannya adalah untuk mendapatkan semula keluli lama daripada kapal perang yang ditenggelamkan sebelum perang, terletak jauh di dasar lautan, di mana ia tidak akan terjejas oleh jatuhan radioaktif.

Bagi pembangun AI, kebanyakan model dilatih menggunakan set data manusia yang besar yang dikumpulkan dari internet. Tetapi jika perisian hari ini belajar daripada teks yang dijana pada masa lalu, model tersebut berisiko ranap, mencairkan keaslian dan kedalamannya.

Kapal perang Hindenburg, yang karam semasa Perang Dunia I, telah diselamatkan. Foto: Reuters Connect.

Ini menjadikan kandungan yang dihasilkan oleh manusia, terutamanya yang dicipta sebelum 2022, lebih berharga, menurut Will Allen, naib presiden Cloudflare, yang mengendalikan salah satu rangkaian internet terbesar di dunia . Beliau berhujah bahawa ia membantu model AI, serta masyarakat secara keseluruhan, kekal berpijak pada realiti yang dikongsi. Keadaan akan menjadi rumit tanpa asas itu.

Platform amat penting dalam bidang berteknologi tinggi seperti perubatan, undang-undang atau percukaian. Contohnya, seorang doktor harus bergantung pada kandungan yang ditulis oleh pakar manusia dan penyelidikan fakta, bukan pada sumber yang dijana AI.

Ancaman ini juga menjadi kenyataan. Setahun selepas ChatGPT dilancarkan, pelabur teroka Paul Graham menceritakan bahawa dia terpaksa mencari kandungan lama untuk carian mudah bagi mengelakkan "umpan SEO yang dijana AI." Malte Ubl, CTO syarikat baharu AI Vercel, menjawab bahawa Graham pada dasarnya menapis internet untuk kandungan "sebelum ia dicemari oleh AI."

Matt Rickard, seorang bekas jurutera Google, bersetuju. Beliau menulis dalam catatan blog pada tahun 2023 bahawa AI mengumpulkan data dari internet, tetapi semakin banyak kandungan di internet dicipta oleh AI itu sendiri. “Output Chatner sangat sukar untuk dikesan. Mencari data latihan yang tidak diusik oleh AI akan menjadi semakin sukar,” jelas Rickard.

"Pencarian keluli di dasar laut"

Jawapan kepada masalah ini terletak pada pemeliharaan versi data yang dihasilkan oleh manusia dari sebelum ledakan AI. Salah seorang perintis dalam bidang ini ialah John Graham-Cumming, ahli lembaga dan Ketua Pegawai Teknologi Cloudflare.

Projeknya, laman web LowBackgroundSteel.ai, menyenaraikan set data, laluan dan media yang wujud sebelum 2022. Satu contoh yang diberikan ialah Arctic Code Vault GitHub, arkib perisian sumber terbuka yang tertimbus di lombong arang batu terbiar di Norway, yang menyimpan data sejak Februari 2020.

Projek pemeliharaan data manusia Graham-Cumming. Foto: Lowbackgroundsteel.ai.

Satu lagi sumber data yang dipetiknya ialah “wordfreq,” sebuah projek yang menjejaki kekerapan penggunaan perkataan dalam talian. Pakar bahasa Robyn Speer mengekalkannya sehingga 2021.

"Penjanaan AI telah mencemarkan data," kata Speer. Beliau memberikan contoh obsesi ChatGPT yang berlebihan dengan perkataan "delve", yang menyebabkan kemunculannya semakin meningkat baru-baru ini. Ini memesongkan data di internet, menjadikannya kurang boleh dipercayai dalam mencerminkan cara manusia menulis dan berfikir.

Model AI yang dilatih sebahagiannya pada kandungan yang disintesis dapat mempercepat aliran kerja dan menghilangkan kebosanan dalam tugas kreatif. Walau bagaimanapun, selain daripada prestasi, pengguna mungkin masih perlu bergantung pada kandungan asli yang dihasilkan oleh manusia untuk penilaian yang tepat, seperti menggunakan "keluli aras rendah" untuk pengukuran yang tepat.

Para saintis telah membangunkan pelbagai kaedah untuk menghasilkan keluli menggunakan oksigen tulen. Menurut Business Insider , ini mengingatkan kita bahawa memelihara masa lalu mungkin satu-satunya cara untuk membina masa depan yang boleh dipercayai.

Sumber: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html