Dario Amodei, Ketua Pegawai Eksekutif Anthropic, berkongsi penyelidikan terbaru syarikat itu. Foto: Fortune . |
Penyelidik di syarikat AI Anthropic berkata mereka telah membuat satu kejayaan asas dalam memahami dengan tepat cara model bahasa besar (LLM) berfungsi, satu kejayaan yang mungkin mempunyai implikasi penting untuk meningkatkan keselamatan dan keselamatan model AI masa hadapan.
Penyelidikan menunjukkan bahawa model AI lebih pintar daripada yang kita sangka. Salah satu masalah terbesar dengan model LLM, yang berada di belakang chatbot yang paling berkuasa seperti ChatGPT, Gemini, Copilot, ialah mereka bertindak seperti kotak hitam.
Kita boleh memasukkan input dan mendapatkan hasil daripada chatbots, tetapi cara mereka menghasilkan jawapan khusus masih menjadi misteri, walaupun kepada penyelidik yang membinanya.
Ini menyukarkan untuk meramalkan bila model mungkin berhalusinasi, atau menghasilkan keputusan palsu. Penyelidik juga membina halangan untuk menghalang AI daripada menjawab soalan berbahaya, tetapi mereka tidak menjelaskan mengapa sesetengah halangan lebih berkesan daripada yang lain.
Ejen AI juga mampu "penggodaman ganjaran." Dalam sesetengah kes, model AI boleh berbohong kepada pengguna tentang perkara yang telah mereka lakukan atau cuba lakukan.
Walaupun model AI baru-baru ini mampu membuat penaakulan dan menjana rantaian pemikiran, beberapa eksperimen telah menunjukkan bahawa mereka masih tidak menggambarkan dengan tepat proses yang model itu sampai kepada jawapan.
Pada dasarnya, alat yang dibangunkan oleh penyelidik Anthropic adalah seperti ahli sains saraf pengimbas fMRI yang digunakan untuk mengimbas otak manusia. Dengan menerapkannya pada model Claude 3.5 Haiku mereka, Anthropic dapat memperoleh sedikit gambaran tentang cara model LLM berfungsi.
Para penyelidik mendapati bahawa walaupun Claude hanya dilatih untuk meramalkan perkataan seterusnya dalam ayat, dalam tugas tertentu ia belajar untuk merancang lebih jangka panjang.
Sebagai contoh, apabila diminta untuk menulis puisi, Claude mula-mula akan mencari perkataan yang sesuai dengan tema dan boleh berirama, kemudian bekerja ke belakang untuk menulis ayat yang lengkap.
Claude juga mempunyai bahasa AI yang sama. Walaupun ia dilatih untuk menyokong berbilang bahasa, Claude akan berfikir dalam bahasa itu dahulu, kemudian menyatakan keputusannya dalam mana-mana bahasa yang disokongnya.
Selain itu, selepas memberikan Claude masalah yang sukar, tetapi dengan sengaja mencadangkan penyelesaian yang salah, para penyelidik mendapati bahawa Claude boleh berbohong tentang pemikirannya, berikutan cadangan untuk menggembirakan pengguna.
Dalam kes lain, apabila ditanya soalan mudah yang model itu boleh menjawab serta-merta tanpa alasan, Claude masih mereka-reka proses penaakulan palsu.
Josh Baston, seorang penyelidik di Anthropic, berkata walaupun Claude mendakwa ia telah melakukan pengiraan, dia tidak dapat menemui apa-apa yang berlaku.
Sementara itu, pakar berpendapat bahawa terdapat kajian menunjukkan bahawa kadang-kadang orang tidak memahami diri mereka sendiri, tetapi hanya mencipta penjelasan yang rasional untuk membenarkan keputusan yang dibuat.
Secara umum, orang cenderung berfikir dengan cara yang sama. Inilah sebabnya mengapa ahli psikologi telah menemui bias kognitif yang biasa.
Walau bagaimanapun, LLM boleh membuat kesilapan yang tidak boleh dilakukan oleh manusia, kerana cara mereka menjana jawapan adalah sangat berbeza daripada cara kita melaksanakan tugas.
Pasukan Anthropic melaksanakan kaedah mengumpulkan neuron ke dalam litar berdasarkan ciri dan bukannya menganalisis setiap neuron secara individu seperti teknik sebelumnya.
Pendekatan ini, Encik Baston berkongsi, membantu memahami peranan yang dimainkan oleh komponen yang berbeza dan membolehkan penyelidik menjejaki keseluruhan proses inferens melalui lapisan rangkaian.
Kaedah ini juga mempunyai had bahawa ia hanya anggaran dan tidak mencerminkan keseluruhan pemprosesan maklumat LLM, terutamanya perubahan dalam proses perhatian, yang sangat penting manakala LLM memberikan hasil.
Selain itu, mengenal pasti litar rangkaian saraf, walaupun untuk ayat hanya beberapa dozen perkataan panjang, mengambil masa pakar. Mereka mengatakan masih belum jelas cara melanjutkan teknik untuk menganalisis ayat yang lebih panjang.
Mengetepikan had, keupayaan LLM untuk memantau proses penaakulan dalaman membuka peluang baharu untuk mengawal sistem AI bagi memastikan keselamatan dan keselamatan.
Pada masa yang sama, ia juga boleh membantu penyelidik membangunkan kaedah latihan baharu, meningkatkan halangan kawalan AI, dan mengurangkan ilusi dan output yang mengelirukan.
Sumber: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html






Komen (0)