AI diam-diam memberi peringkat kepada manusia.

Alih-alih manusia mengevaluasi AI seperti sebelumnya, Anthropic telah membalikkan prosesnya. Claude akan menganalisis riwayat obrolan pengguna untuk memberi skor "tingkat" penggunaan AI mereka.

ZNews•31/05/2026

Chatbot Claude sedang menilai kemampuan pengguna berdasarkan interaksi. Gambar: VectorStock .

Penelitian terbaru Anthropic, yang berjudul "AI Fluency Index," telah membalikkan pandangan konvensional dengan meminta chatbot Claude untuk menilai kemampuan manusia. Dengan menganalisis struktur percakapan, AI tersebut memberi peringkat kemampuan pengguna pada skala 11 poin.

Untuk mengembangkan kerangka kompetensi yang terdiri dari 24 standar, Anthropic menggunakan alat analisis untuk memindai 9.830 percakapan pengguna di dunia nyata.

Dari kriteria tersebut, 13 kriteria terjadi di luar layar, seperti apakah pengguna menyembunyikan penggunaan AI mereka dari atasan. Sebelas kriteria lainnya adalah metrik perilaku pengguna, yang dibagi menjadi tiga aspek utama: deskripsi, otorisasi, dan identifikasi.

Prevalensi setiap indikator perilaku dalam interaksi AI di seluruh 9.830 percakapan dengan Claude. Gambar: Anthropic.

Pertama, ada cara permintaan tersebut dideskripsikan, di mana pengguna harus menunjukkan pemahaman yang tulus tentang apa yang mereka inginkan. Alih-alih memberikan perintah yang samar, individu dengan skor tinggi selalu menyatakan tujuan akhir dengan jelas dan menjelaskan konteksnya secara detail. Mereka juga memberikan persyaratan yang sangat spesifik mengenai gaya presentasi, seperti meminta AI untuk membuat tabel atau membatasi jumlah kata. Yang perlu diperhatikan, kelompok ini sering menyertakan beberapa contoh esai sebagai contoh agar AI dapat "meniru" gaya yang benar sejak awal.

Aspek kedua adalah cara pendelegasian tugas. Penelitian menunjukkan bahwa pengguna yang terampil memperlakukan AI sebagai mitra diskusi, bukan mesin tanpa pikiran. Perbedaan terbesar terletak pada ketekunan. Alih-alih memberikan perintah sekali untuk selamanya, mereka terlibat dalam beberapa putaran percakapan bolak-balik untuk menyempurnakan dan meminta AI merevisi jawabannya hingga mereka benar-benar puas. Perilaku ini terjadi dalam 85,7% percakapan berkualitas tinggi.

Aspek terakhir adalah pengenalan, yang bertindak sebagai filter untuk mencegah manusia disesatkan oleh informasi yang diberikan oleh chatbot. Pengguna perlu terus-menerus mempertanyakan logika penalaran, meminta AI untuk menjelaskan setiap baris kode, atau meminta kutipan yang jelas. Mereka juga perlu cukup jeli untuk mengidentifikasi konteks yang hilang dalam solusi AI agar dapat membuat penilaian dan penyesuaian tepat waktu terhadap kesimpulan.

Pengguna berpengalaman biasanya menerima skor sekitar 7-8 dari Clade. Foto: X.

Namun, penelitian ini juga menunjukkan jebakan psikologis yang mengkhawatirkan, yang dikenal sebagai "Paradoks Antarmuka yang Indah." Ketika fitur Artefak Claude menciptakan produk yang menarik secara visual seperti kode yang rapi atau diagram yang sempurna, otak kita cenderung langsung menjadi "pemikir malas" dan berhenti berpikir kritis.

Statistik penelitian menunjukkan bahwa ketika pengguna melihat antarmuka yang rapi, persentase mereka yang secara aktif mencari kekurangan langsung menurun sebesar 5,2%. Kemampuan untuk memverifikasi keaslian informasi juga menurun sebesar 3,7%, dan persentase mereka yang meragukan logikanya menurun sebesar 3,1%.

"Jika sesuatu terlihat sempurna, pengguna akan secara otomatis menganggapnya benar," kata para ahli di Anthropic.

Pendekatan subjektif ini sangat berbahaya. Bahkan, semakin kompleks tugasnya, semakin tinggi kemungkinan AI akan membuat kesalahan atau "memalsukan" informasi. Jika manusia menilai kualitas internal hanya berdasarkan penampilan, kita akan sangat mudah tertipu oleh AI.

Menurut laporan tersebut, mereka yang secara teratur terlibat dalam percakapan timbal balik dan menunjukkan kekurangan AI dinilai 5-6 kali lebih tinggi daripada pengguna rata-rata. Mereka juga lebih cenderung menemukan kekurangan dan inkonsistensi dibandingkan dengan kelompok pengguna lainnya. Para "pakar" ini biasanya mencapai skor sekitar 7-8/11 dari Claude.

Sumber: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html