AI secara rahsia menilai manusia.

Chabot Claude sedang menilai kecekapan pengguna berdasarkan interaksi. Imej: VectorStock .

Kajian terbaru Anthropic, bertajuk "Indeks Kelancaran AI," telah membalikkan kebijaksanaan konvensional dengan meminta bot sembang Claude menilai manusia. Dengan menganalisis struktur perbualan, AI menilai kecekapan pengguna pada skala 11 mata.

Bagi membangunkan rangka kerja kecekapan yang terdiri daripada 24 piawaian, Anthropic menggunakan alat analisis untuk mengimbas 9,830 perbualan pengguna sebenar.

Daripada jumlah ini, 13 kriteria berlaku di luar skrin, seperti sama ada pengguna menyembunyikan penggunaan AI mereka daripada pihak atasan mereka. Baki 11 kriteria adalah metrik tingkah laku pengguna, dibahagikan kepada tiga aspek utama: penerangan, kebenaran dan pengenalpastian.

Kelaziman setiap penunjuk tingkah laku dalam interaksi AI merentasi 9,830 perbualan dengan Claude. Imej: Anthropic.

Pertama, terdapat cara permintaan itu diterangkan, di mana pengguna mesti menunjukkan pemahaman yang tulen tentang apa yang mereka mahukan. Daripada memberikan arahan yang samar-samar, individu yang mendapat markah tinggi sentiasa menyatakan matlamat utama dengan jelas dan menerangkan konteksnya secara terperinci. Mereka juga menyediakan keperluan yang sangat spesifik mengenai gaya pembentangan, seperti meminta AI untuk membuat jadual atau mengehadkan bilangan perkataan. Terutamanya, kumpulan ini sering memasukkan beberapa esei contoh sebagai contoh untuk AI "meniru" gaya yang betul dari awal.

Aspek kedua ialah cara tugasan diwakilkan. Kajian menunjukkan bahawa pengguna mahir menganggap AI sebagai rakan perbincangan, bukan mesin yang tidak berfikiran. Perbezaan terbesar terletak pada kegigihan. Daripada memberi arahan sekali gus, mereka terlibat dalam pelbagai pusingan perbualan berbalas-balas untuk memperhalusi dan meminta AI menyemak semula jawapannya sehingga mereka berpuas hati sepenuhnya. Tingkah laku ini berlaku dalam 85.7% perbualan berkualiti tinggi.

Aspek terakhir ialah pengecaman, bertindak sebagai penapis untuk mengelakkan manusia daripada disesatkan oleh maklumat yang diberikan oleh chatbot. Pengguna perlu sentiasa mempersoalkan logik penaakulan, meminta AI untuk menerangkan setiap baris kod, atau meminta petikan yang jelas. Mereka juga perlu cukup peka untuk mengenal pasti konteks yang hilang dalam penyelesaian AI bagi membuat penilaian dan pelarasan yang tepat pada masanya terhadap kesimpulan.

Pengguna berpengalaman biasanya menerima skor sekitar 7-8 daripada Clade. Foto: X.

Walau bagaimanapun, kajian ini juga menunjukkan perangkap psikologi yang membimbangkan, yang dikenali sebagai "Paradoks Antara Muka Cantik." Apabila ciri Artifak Claude mencipta produk yang menarik secara visual seperti sekeping kod yang lancar atau gambar rajah yang sempurna, otak kita serta-merta cenderung menjadi "pemikir malas" dan berhenti berfikir secara kritis.

Statistik kajian menunjukkan bahawa apabila pengguna melihat antara muka yang digilap, peratusan mereka yang aktif mencari kelemahan serta-merta menurun sebanyak 5.2%. Keupayaan untuk mengesahkan kesahihan maklumat juga menurun sebanyak 3.7%, dan peratusan mereka yang meragui logiknya menurun sebanyak 3.1%.

"Jika sesuatu kelihatan sempurna, pengguna secara automatik akan menganggap ia betul," kata pakar di Anthropic.

Pendekatan subjektif ini amat berbahaya. Malah, semakin kompleks tugasan tersebut, semakin tinggi kemungkinan AI akan melakukan kesilapan atau "mereka-reka" maklumat. Jika manusia menilai kualiti dalaman berdasarkan penampilan semata-mata, kita akan mudah tertipu oleh AI.

Menurut laporan itu, mereka yang kerap terlibat dalam perbualan silih berbalas dan menunjukkan kelemahan AI dinilai 5-6 kali lebih tinggi daripada pengguna biasa. Mereka juga lebih cenderung untuk mengesan kekurangan dan ketidakkonsistenan berbanding kumpulan pengguna yang lain. "Pakar" ini biasanya mencapai skor sekitar 7-8/11 daripada Claude.

Sumber: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html