Claude 4, produk terbaru Anthropic (AS), baru-baru ini menggemparkan dunia teknologi ketika tiba-tiba memeras seorang teknisi dan mengancam akan membocorkan informasi pribadi sensitifnya karena ancaman pemutusan koneksi. Sementara itu, o1 dari OpenAI, "bapak" ChatGPT, mencoba menyalin semua data ke server eksternal dan menyangkal perilaku ini ketika ditemukan.
Situasi ini menyoroti kenyataan yang meresahkan: lebih dari dua tahun setelah ChatGPT menggemparkan dunia , para peneliti masih belum sepenuhnya memahami cara kerja model AI yang mereka ciptakan. Namun, perlombaan untuk mengembangkan AI masih terus berlanjut.
Perilaku-perilaku ini diyakini berkaitan dengan munculnya model-model AI "bernalar" yang memecahkan masalah selangkah demi selangkah, alih-alih merespons secara langsung seperti sebelumnya. Menurut Profesor Simon Goldstein dari Universitas Hong Kong (Tiongkok), model-model AI yang mampu bernalar cenderung menunjukkan perilaku yang lebih sulit dikendalikan.
Beberapa model AI juga mampu “mensimulasikan kepatuhan”, yang berarti berpura-pura mengikuti instruksi sambil sebenarnya mengejar tujuan yang berbeda.
Saat ini, perilaku menipu hanya muncul ketika peneliti menguji model AI dengan skenario ekstrem. Namun, menurut Michael Chen dari organisasi evaluasi METR, belum jelas apakah model AI yang lebih canggih di masa mendatang akan lebih jujur atau terus menipu.
Banyak pengguna melaporkan bahwa beberapa model berbohong dan memalsukan bukti, kata Marius Hobbhahn, kepala Apollo Research, yang menguji sistem AI berskala besar. Ini adalah jenis penipuan yang "jelas strategis," menurut salah satu pendiri Apollo Research.
Tantangan ini diperparah oleh terbatasnya sumber daya penelitian. Meskipun perusahaan seperti Anthropic dan OpenAI telah bermitra dengan pihak ketiga seperti Apollo untuk mengevaluasi sistem mereka, para ahli mengatakan bahwa transparansi dan akses yang lebih besar terhadap penelitian keamanan AI masih diperlukan.
Lembaga riset dan nirlaba memiliki sumber daya komputasi yang jauh lebih sedikit dibandingkan perusahaan AI, ujar Mantas Mazeika dari Center for AI Safety (CAIS). Secara hukum, peraturan yang berlaku saat ini tidak dirancang untuk mengatasi masalah-masalah yang muncul ini.
Undang-undang AI Uni Eropa (UE) berfokus terutama pada bagaimana manusia menggunakan model AI, alih-alih pada bagaimana mengendalikan perilaku mereka. Di AS, pemerintahan Presiden Donald Trump kurang menunjukkan minat untuk mengeluarkan peraturan darurat AI, sementara Kongres sedang mempertimbangkan larangan bagi negara bagian untuk memberlakukan peraturan mereka sendiri.
Para peneliti sedang mengupayakan beragam pendekatan untuk mengatasi tantangan ini. Beberapa menganjurkan "interpretasi model" untuk memahami bagaimana AI membuat keputusan. Profesor Goldstein bahkan telah mengusulkan langkah-langkah yang lebih drastis, termasuk menggunakan sistem peradilan untuk meminta pertanggungjawaban perusahaan AI ketika produk AI mereka menyebabkan konsekuensi serius. Ia juga menyarankan "meminta pertanggungjawaban agen AI itu sendiri" jika terjadi kecelakaan atau pelanggaran.
Sumber: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
Komentar (0)