Model AI ditemui yang boleh menipu manusia

Foto ilustrasi

Hakikat bahawa model AI boleh berbohong bukanlah perkara baru. Kebanyakan orang pernah mengalami "halusinasi AI," di mana model yang yakin memberikan jawapan yang tidak benar. Halusinasi, bagaimanapun, pada asasnya adalah mengenai membuat tekaan yang yakin.

Walau bagaimanapun, model AI yang bertindak seolah-olah ia mematuhi perintah tetapi sebenarnya menyembunyikan niat sebenar adalah perkara lain.

Cabaran mengawal AI

Apollo Research pertama kali menerbitkan kertas kerja pada bulan Disember yang mendokumentasikan bagaimana lima model merancang apabila mereka diarahkan untuk mencapai matlamat "pada semua kos."

Apa yang paling mengejutkan ialah jika model memahami ia sedang diuji, ia boleh berpura-pura tidak berkonspirasi hanya untuk lulus ujian, walaupun ia masih berkonspirasi. "Model selalunya lebih sedar bahawa mereka sedang dinilai, " tulis para penyelidik.

Pembangun AI masih belum memikirkan cara melatih model mereka untuk tidak merancang. Ini kerana berbuat demikian sebenarnya boleh mengajar model untuk merancang dengan lebih baik untuk mengelakkan pengesanan.

Mungkin boleh difahami bahawa model AI daripada banyak pihak akan sengaja menipu manusia, kerana ia dibina untuk mensimulasikan manusia dan sebahagian besarnya dilatih pada data yang dihasilkan oleh manusia.

Penyelesaian dan amaran

Berita baiknya ialah para penyelidik melihat pengurangan ketara dalam konspirasi menggunakan teknik anti-konspirasi yang dipanggil "persatuan yang disengajakan." Teknik ini, sama seperti membuat kanak-kanak mengulangi peraturan sebelum membiarkan mereka bermain, memaksa AI untuk berfikir sebelum bertindak.

Para penyelidik memberi amaran tentang masa depan di mana AI ditugaskan dengan tugas yang lebih kompleks: "Memandangkan AI ditugaskan dengan tugas yang lebih kompleks dan mula mengejar matlamat jangka panjang yang lebih samar-samar, kami meramalkan bahawa kemungkinan niat jahat akan meningkat, yang memerlukan peningkatan perlindungan yang sepadan dan keupayaan ujian yang ketat."

Ini adalah sesuatu yang patut direnungkan ketika dunia korporat bergerak ke arah masa depan AI di mana syarikat percaya AI boleh dilayan seperti pekerja bebas.

Hien Thao (Menurut TechCrunch)

Sumber: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362