Vietnam.vn - Nền tảng quảng bá Việt Nam

Sesuatu yang akan segera menjadi kenangan di internet.

Ledakan konten AI telah menciptakan masalah kepercayaan, karena data yang murni berasal dari manusia semakin langka.

ZNewsZNews09/06/2025

Konten yang sepenuhnya dibuat oleh manusia termasuk dalam daftar sumber daya langka di era AI. Foto: Advertising Week .

Kemunculan ChatGPT pada tahun 2022 memicu ledakan konten berbasis AI di internet. Gartner memprediksi bahwa pada tahun 2026, 90% konten internet akan dihasilkan oleh AI, termasuk teks, gambar, dan video .

AI dilatih untuk memahami pemikiran manusia. Namun, jika tidak ada lagi data yang murni dihasilkan manusia, teknologi ini akan menggunakan informasi lamanya sendiri, seperti mesin fotokopi yang menggandakan dirinya sendiri.

Banyak peneliti membandingkan konten asli yang dihasilkan manusia dengan semacam baja "bersih" di zaman modern, yang setara dengan kelangkaan dan kesulitan untuk ditemukan. Mereka khawatir jika tidak ada yang menyimpan salinan data sebelum tahun 2022, internet akan kehilangan integritasnya sepenuhnya.

Bencana bersejarah terulang kembali.

Di era pasca-nuklir, para ilmuwan menemukan bahwa semua baja yang diproduksi setelah tahun 1945 terkontaminasi. Bom atom telah mencemari atmosfer dengan radiasi, yang menyebar ke logam-logam yang diproduksi di lingkungan tersebut.

Akibatnya, sebagian besar baja menjadi tidak dapat digunakan untuk peralatan pengukuran presisi tinggi seperti penghitung Geiger dan banyak sensor sensitif lainnya. Solusinya adalah mengambil kembali baja lama dari kapal perang yang tenggelam sebelum perang, yang terletak jauh di dasar laut, di mana baja tersebut tidak akan terpengaruh oleh jatuhan radioaktif.

Bagi para pengembang AI, sebagian besar model dilatih menggunakan kumpulan data besar berupa data manusia yang dikumpulkan dari internet. Namun, jika perangkat lunak saat ini belajar dari teks yang dihasilkannya di masa lalu, model tersebut berisiko mengalami kerusakan, sehingga mengurangi orisinalitas dan kedalamannya.

Noi dung dang tin cay anh 1

Kapal perang Hindenburg, yang tenggelam selama Perang Dunia I, telah berhasil diselamatkan. Foto: Reuters Connect.

Menurut Will Allen, wakil presiden Cloudflare, yang mengoperasikan salah satu jaringan internet terbesar di dunia , hal ini membuat konten yang dihasilkan manusia, terutama yang dibuat sebelum tahun 2022, menjadi lebih berharga. Ia berpendapat bahwa hal itu membantu model AI, serta masyarakat secara keseluruhan, untuk tetap berpijak pada realitas bersama. Segala sesuatunya akan menjadi rumit tanpa fondasi tersebut.

Platform sangat penting, terutama di bidang teknologi tinggi seperti kedokteran, hukum, atau perpajakan. Misalnya, seorang dokter harus mengandalkan konten yang ditulis oleh pakar manusia dan riset faktual, bukan sumber yang dihasilkan oleh AI.

Ancaman ini juga menjadi kenyataan. Setahun setelah ChatGPT diluncurkan, investor ventura Paul Graham menceritakan bahwa ia harus mencari konten lama untuk pencarian sederhana guna menghindari "umpan SEO yang dihasilkan AI." Malte Ubl, CTO dari startup AI Vercel, menanggapi bahwa Graham pada dasarnya menyaring internet untuk konten "sebelum terkontaminasi oleh AI."

Matt Rickard, mantan insinyur Google, setuju. Ia menulis dalam sebuah postingan blog tahun 2023 bahwa AI mengumpulkan data dari internet, tetapi semakin banyak konten di internet yang dibuat oleh AI itu sendiri. “Output Chatner sangat sulit dideteksi. Menemukan data pelatihan yang belum dimanipulasi oleh AI akan menjadi semakin sulit,” jelas Rickard.

"Pencarian baja di dasar laut"

Jawaban atas permasalahan ini terletak pada pelestarian versi data yang dihasilkan manusia sebelum era AI. Salah satu pelopor di bidang ini adalah John Graham-Cumming, anggota dewan dan Chief Technology Officer dari Cloudflare.

Proyeknya, situs web LowBackgroundSteel.ai, mencantumkan kumpulan data, jalur, dan media yang ada sebelum tahun 2022. Salah satu contoh yang diberikan adalah Arctic Code Vault milik GitHub, arsip perangkat lunak sumber terbuka yang terkubur di tambang batu bara yang terbengkalai di Norwegia, yang menyimpan data sejak Februari 2020.

Noi dung dang tin cay anh 2

Proyek pelestarian data manusia Graham-Cumming. Foto: Lowbackgroundsteel.ai.

Sumber data lain yang ia kutip adalah “wordfreq,” sebuah proyek yang melacak frekuensi penggunaan kata secara daring. Ahli bahasa Robyn Speer mengelola proyek ini hingga tahun 2021.

"Generasi AI telah mencemari data," kata Speer. Dia memberikan contoh obsesi berlebihan ChatGPT terhadap kata "delve," yang menyebabkan kata tersebut semakin sering muncul akhir-akhir ini. Hal ini mengacaukan data di internet, membuatnya kurang dapat diandalkan dalam mencerminkan bagaimana manusia menulis dan berpikir.

Model AI yang sebagian dilatih menggunakan konten sintetis dapat mempercepat alur kerja dan menghilangkan kebosanan dalam tugas-tugas kreatif. Namun, di luar sekadar performa, pengguna mungkin masih perlu mengandalkan konten asli yang dihasilkan manusia untuk penilaian yang akurat, seperti halnya menggunakan "baja tingkat rendah" untuk pengukuran yang tepat.

Para ilmuwan telah mengembangkan berbagai metode untuk memproduksi baja menggunakan oksigen murni. Menurut Business Insider , hal ini mengingatkan kita bahwa melestarikan masa lalu mungkin satu-satunya cara untuk membangun masa depan yang dapat diandalkan.

Sumber: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html


Komentar (0)

Silakan tinggalkan komentar untuk berbagi perasaan Anda!

Dalam kategori yang sama

Dari penulis yang sama

Warisan

Angka

Bisnis

Berita Terkini

Sistem Politik

Lokal

Produk

Happy Vietnam
Pertahankan sedikit esensi Hue, sayangku!

Pertahankan sedikit esensi Hue, sayangku!

Pertunjukan sirkus berjalan di atas tali ganda ini sangat berani dan memikat.

Pertunjukan sirkus berjalan di atas tali ganda ini sangat berani dan memikat.

Vietnam

Vietnam