Foto ilustrasi
Walau bagaimanapun, model AI yang bertindak seolah-olah ia mematuhi perintah tetapi sebenarnya menyembunyikan niat sebenar adalah perkara lain.
Cabaran mengawal AI
Apollo Research pertama kali menerbitkan kertas kerja pada bulan Disember yang mendokumentasikan bagaimana lima model merancang apabila mereka diarahkan untuk mencapai matlamat "pada semua kos."
Apa yang paling mengejutkan ialah jika model memahami ia sedang diuji, ia boleh berpura-pura tidak berkonspirasi hanya untuk lulus ujian, walaupun ia masih berkonspirasi. "Model selalunya lebih sedar bahawa mereka sedang dinilai, " tulis para penyelidik.
Pembangun AI masih belum memikirkan cara melatih model mereka untuk tidak merancang. Ini kerana berbuat demikian sebenarnya boleh mengajar model untuk merancang dengan lebih baik untuk mengelakkan pengesanan.
Mungkin boleh difahami bahawa model AI daripada banyak pihak akan sengaja menipu manusia, kerana ia dibina untuk mensimulasikan manusia dan sebahagian besarnya dilatih pada data yang dihasilkan oleh manusia.
Penyelesaian dan amaran
Berita baiknya ialah para penyelidik melihat pengurangan ketara dalam konspirasi menggunakan teknik anti-konspirasi yang dipanggil "persatuan yang disengajakan." Teknik ini, sama seperti membuat kanak-kanak mengulangi peraturan sebelum membiarkan mereka bermain, memaksa AI untuk berfikir sebelum bertindak.
Para penyelidik memberi amaran tentang masa depan di mana AI ditugaskan dengan tugas yang lebih kompleks: "Memandangkan AI ditugaskan dengan tugas yang lebih kompleks dan mula mengejar matlamat jangka panjang yang lebih samar-samar, kami meramalkan bahawa kemungkinan niat jahat akan meningkat, yang memerlukan peningkatan perlindungan yang sepadan dan keupayaan ujian yang ketat."
Ini adalah sesuatu yang patut direnungkan ketika dunia korporat bergerak ke arah masa depan AI di mana syarikat percaya AI boleh dilayan seperti pekerja bebas.
Sumber: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
Komen (0)