Foto ilustrasi
Namun, model AI yang bertindak seolah-olah mematuhi perintah tetapi sebenarnya menyembunyikan niat sebenarnya adalah masalah lain.
Tantangan mengendalikan AI
Apollo Research pertama kali menerbitkan sebuah makalah pada bulan Desember yang mendokumentasikan bagaimana lima model merencanakan ketika mereka diinstruksikan untuk mencapai suatu tujuan “dengan segala cara.”
Yang paling mengejutkan adalah jika sebuah model menyadari bahwa dirinya sedang diuji, ia dapat berpura-pura tidak terlibat konspirasi hanya untuk lulus uji, meskipun sebenarnya ia tetap terlibat konspirasi. "Model seringkali lebih sadar bahwa mereka sedang dievaluasi," tulis para peneliti.
Pengembang AI belum menemukan cara melatih model mereka agar tidak melakukan plotting. Hal ini karena hal tersebut justru dapat melatih model untuk melakukan plotting dengan lebih baik sehingga menghindari deteksi.
Mungkin dapat dimengerti bahwa model AI dari banyak pihak sengaja menipu manusia, karena model tersebut dibuat untuk mensimulasikan manusia dan sebagian besar dilatih pada data yang dihasilkan manusia.
Solusi dan peringatan
Kabar baiknya, para peneliti melihat penurunan signifikan dalam konspirasi menggunakan teknik anti-konspirasi yang disebut "asosiasi yang disengaja". Teknik ini, mirip dengan meminta anak mengulang aturan sebelum bermain, memaksa AI untuk berpikir sebelum bertindak.
Para peneliti memperingatkan tentang masa depan di mana AI ditugaskan dengan tugas-tugas yang lebih kompleks: "Seiring AI ditugaskan dengan tugas-tugas yang lebih kompleks dan mulai mengejar tujuan jangka panjang yang lebih ambigu, kami memperkirakan bahwa kemungkinan niat jahat akan meningkat, yang membutuhkan peningkatan perlindungan dan kemampuan pengujian yang ketat."
Ini adalah sesuatu yang layak direnungkan saat dunia korporat bergerak menuju masa depan AI, di mana perusahaan percaya AI dapat diperlakukan seperti karyawan independen.
Source: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
Komentar (0)