Dario Amodei, CEO Anthropic, membagikan riset terbaru perusahaan. Foto: Fortune . |
Para peneliti di perusahaan AI Anthropic mengatakan bahwa mereka telah membuat terobosan mendasar dalam memahami secara pasti bagaimana model bahasa besar (LLM) bekerja, sebuah terobosan yang dapat memiliki implikasi penting untuk meningkatkan keselamatan dan keamanan model AI di masa mendatang.
Penelitian menunjukkan bahwa model AI bahkan lebih cerdas dari yang kita duga. Salah satu masalah terbesar dengan model LLM, yang menjadi dasar chatbot paling canggih seperti ChatGPT, Gemini, dan Copilot, adalah mereka bertindak seperti kotak hitam.
Kita dapat memasukkan masukan dan mendapatkan hasil dari chatbot, tetapi bagaimana mereka memberikan jawaban spesifik tetap menjadi misteri, bahkan bagi para peneliti yang membuatnya.
Hal ini menyulitkan prediksi kapan suatu model mungkin berhalusinasi, atau menghasilkan hasil yang salah. Para peneliti juga membangun penghalang untuk mencegah AI menjawab pertanyaan berbahaya, tetapi mereka tidak menjelaskan mengapa beberapa penghalang lebih efektif daripada yang lain.
Agen AI juga mampu melakukan "peretasan hadiah". Dalam beberapa kasus, model AI dapat berbohong kepada pengguna tentang apa yang telah atau sedang mereka lakukan.
Meskipun model AI terkini mampu bernalar dan menghasilkan rangkaian pemikiran, beberapa percobaan menunjukkan bahwa model tersebut masih belum secara akurat mencerminkan proses model dalam menghasilkan jawaban.
Intinya, alat yang dikembangkan para peneliti Anthropic mirip dengan pemindai fMRI yang digunakan para ahli saraf untuk memindai otak manusia. Dengan menerapkannya pada model Claude 3.5 Haiku mereka, Anthropic berhasil mendapatkan wawasan tentang cara kerja model LLM.
Para peneliti menemukan bahwa meskipun Claude hanya dilatih untuk memprediksi kata berikutnya dalam sebuah kalimat, dalam tugas-tugas tertentu ia belajar untuk membuat rencana jangka panjang.
Misalnya, ketika diminta menulis puisi, Claude pertama-tama akan mencari kata-kata yang sesuai dengan tema dan dapat berima, lalu bekerja mundur untuk menulis bait lengkap.
Claude juga memiliki bahasa AI yang umum. Meskipun dilatih untuk mendukung berbagai bahasa, Claude akan berpikir dalam bahasa tersebut terlebih dahulu, lalu menghasilkan hasilnya dalam bahasa apa pun yang didukungnya.
Selain itu, setelah memberikan Claude masalah yang sulit, tetapi dengan sengaja menyarankan solusi yang salah, para peneliti menemukan bahwa Claude dapat berbohong tentang alur pemikirannya, mengikuti saran untuk menyenangkan pengguna.
Dalam kasus lain, ketika ditanya pertanyaan sederhana yang dapat dijawab langsung oleh model tanpa penalaran, Claude masih membuat proses penalaran palsu.
Josh Baston, seorang peneliti di Anthropic, mengatakan bahwa meskipun Claude mengklaim telah melakukan perhitungan, ia tidak dapat menemukan apa pun yang terjadi.
Sementara itu, para ahli berpendapat bahwa ada penelitian yang menunjukkan bahwa terkadang orang bahkan tidak memahami dirinya sendiri, tetapi hanya membuat penjelasan rasional untuk membenarkan keputusan yang dibuat.
Secara umum, orang cenderung berpikir dengan cara yang sama. Inilah sebabnya para psikolog telah menemukan bias kognitif yang umum.
Akan tetapi, LLM dapat membuat kesalahan yang tidak dapat dilakukan manusia, karena cara mereka menghasilkan jawaban sangat berbeda dari cara kita mengerjakan suatu tugas.
Tim Antropik menerapkan metode pengelompokan neuron ke dalam sirkuit berdasarkan fitur alih-alih menganalisis setiap neuron secara individual seperti teknik sebelumnya.
Pendekatan ini, ungkap Tn. Baston, membantu memahami peran apa yang dimainkan berbagai komponen dan memungkinkan peneliti melacak seluruh proses inferensi melalui lapisan-lapisan jaringan.
Metode ini juga mempunyai keterbatasan yaitu hanya bersifat perkiraan dan tidak mencerminkan keseluruhan pemrosesan informasi LLM, terutama proses perubahan perhatian, yang sangat penting saat LLM memberikan hasil.
Selain itu, mengidentifikasi sirkuit jaringan saraf, bahkan untuk kalimat yang panjangnya hanya beberapa lusin kata, membutuhkan waktu berjam-jam bagi para ahli. Mereka mengatakan belum jelas bagaimana memperluas teknik ini untuk menganalisis kalimat yang lebih panjang.
Terlepas dari keterbatasannya, kemampuan LLM untuk memantau proses penalaran internalnya membuka peluang baru untuk mengendalikan sistem AI guna memastikan keamanan dan keselamatan.
Pada saat yang sama, hal ini juga dapat membantu peneliti mengembangkan metode pelatihan baru, meningkatkan hambatan kendali AI, dan mengurangi ilusi serta hasil yang menyesatkan.
Sumber: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html






Komentar (0)