Yapay zeka gizlice insanları değerlendiriyor.

Anthropic, daha önce olduğu gibi insanların yapay zekayı değerlendirmesi yerine, süreci tersine çevirdi. Claude, kullanıcıların sohbet geçmişlerini analiz ederek yapay zeka kullanım "seviyelerini" puanlayacak.

ZNews•31/05/2026

Chabot Claude, kullanıcı yeterliliğini etkileşimlere göre değerlendiriyor. Görsel: VectorStock .

Anthropic'in "Yapay Zeka Akıcılık Endeksi" başlıklı son araştırması, sohbet robotu Claude'un insanları değerlendirmesiyle geleneksel düşünceyi tersine çevirdi. Yapay zeka, konuşmaların yapısını analiz ederek kullanıcıların yeterliliklerini 11 puanlık bir ölçekte sıralıyor.

Anthropic, 24 standarttan oluşan yetkinlik çerçevesini geliştirmek için 9.830 gerçek kullanıcı görüşmesini incelemek üzere analitik araçlar kullandı.

Bunlardan 13 kriter ekran dışında gerçekleşir; örneğin, kullanıcıların yapay zeka kullanımını üstlerinden gizleyip gizlemedikleri gibi. Geri kalan 11 kriter ise kullanıcı davranış ölçütleridir ve üç ana başlığa ayrılır: açıklama, yetkilendirme ve kimlik belirleme.

Claude ile yapılan 9.830 görüşmede yapay zeka etkileşimlerinde her bir davranış göstergesinin yaygınlığı. Görsel: Anthropic.

İlk olarak, kullanıcıların ne istediklerini gerçekten anladıklarını göstermeleri gereken, talebin nasıl tanımlandığı konusu var. Belirsiz komutlar vermek yerine, yüksek puan alan kişiler her zaman nihai hedefi açıkça belirtir ve bağlamı ayrıntılı olarak açıklarlar. Ayrıca, sunum stiliyle ilgili çok spesifik gereksinimler de sunarlar; örneğin, yapay zekadan tablo oluşturmasını veya kelime sayısını sınırlamasını isterler. Özellikle, bu grup genellikle yapay zekanın doğru stili baştan "taklit etmesi" için örnek olarak birkaç deneme yazısı da ekler.

İkinci husus ise görevlerin devredilme biçimidir. Araştırmalar, yetenekli kullanıcıların yapay zekayı akılsız bir makine olarak değil, bir tartışma ortağı olarak gördüğünü gösteriyor. En büyük fark, ısrarcılıkta yatıyor. Bir kere ve kesin bir komut vermek yerine, yapay zekanın cevaplarını iyileştirmek ve tamamen memnun kalana kadar düzeltmesini sağlamak için birden fazla karşılıklı konuşma turuna giriyorlar. Bu davranış, yüksek kaliteli konuşmaların %85,7'sinde görülüyor.

Son unsur ise tanıma yeteneğidir; bu yetenek, insanların chatbot'lar tarafından sağlanan bilgilerle yanıltılmasını önlemek için bir filtre görevi görür. Kullanıcılar sürekli olarak mantığı sorgulamalı, yapay zekadan her kod satırını açıklamasını istemeli veya net alıntılar talep etmelidir. Ayrıca, yapay zekanın çözümündeki eksik bağlamı tespit edebilecek kadar algılayıcı olmaları ve sonuçlara zamanında değerlendirmeler ve ayarlamalar yapabilmeleri gerekir.

Deneyimli kullanıcılar genellikle Clade'den 7-8 civarında bir puan alıyor. Fotoğraf: X.

Ancak araştırma, "Güzel Arayüz Paradoksu" olarak bilinen endişe verici bir psikolojik tuzağa da işaret ediyor. Claude'un Eserleri özelliği, akıcı bir kod parçası veya mükemmel bir diyagram gibi görsel olarak çekici ürünler oluşturduğunda, beynimiz hemen "tembel düşünür" haline gelme ve eleştirel düşünmeyi bırakma eğilimindedir.

Çalışmanın istatistikleri, kullanıcılar kusursuz bir arayüz gördüklerinde, kusur arama eğiliminde olanların oranının %5,2 azaldığını gösteriyor. Bilgilerin doğruluğunu teyit etme yeteneği de %3,7 azalırken, mantığından şüphe duyanların oranı da %3,1 azalıyor.

Anthropic uzmanları, "Bir şey mükemmel görünüyorsa, kullanıcılar otomatik olarak doğru olduğunu varsayacaklardır" diye belirtti.

Bu öznel yaklaşım son derece tehlikelidir. Aslında, görev ne kadar karmaşık olursa, yapay zekanın hata yapma veya bilgi "uydurma" olasılığı da o kadar yüksek olur. İnsanlar içsel kaliteyi yalnızca görünüşe göre değerlendirirse, yapay zeka tarafından çok kolay aldatılabiliriz.

Rapora göre, düzenli olarak karşılıklı konuşmalara katılan ve yapay zekâdaki hataları belirten kullanıcılar, ortalama kullanıcılara göre 5-6 kat daha yüksek puan alıyor. Ayrıca, kullanıcı grubunun geri kalanına kıyasla eksiklikleri ve tutarsızlıkları tespit etme olasılıkları daha yüksek. Bu "uzmanlar" genellikle Claude'dan 11 üzerinden 7-8 civarında puan alıyor.

Kaynak: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html