A mesterséges intelligencia titokban értékeli az embereket.

Ahelyett, hogy az emberek értékelnék a mesterséges intelligenciát, mint korábban, az Anthropic megfordította a folyamatot. Claude a felhasználók csevegési előzményeit elemzi majd, hogy pontozza a mesterséges intelligencia használatának „szintjét”.

ZNews•31/05/2026

Chabot Claude a felhasználói jártasságot az interakciók alapján méri fel. Kép: VectorStock .

Az Anthropic legújabb kutatása, az „AI Fluency Index” (AI Fluency Index) megváltoztatta a hagyományos nézetet azzal, hogy Claude chatbotot bízta meg az emberek értékelésével. A beszélgetések szerkezetének elemzésével a mesterséges intelligencia egy 11 pontos skálán rangsorolja a felhasználók jártasságát.

A 24 szabványból álló kompetencia-keretrendszer kidolgozásához az Anthropic analitikai eszközöket használt 9830 valós felhasználói beszélgetés vizsgálatára.

Ezek közül 13 kritérium a képernyőn kívül történik, például hogy a felhasználók eltitkolják-e a feletteseik elől a mesterséges intelligencia használatát. A fennmaradó 11 kritérium felhasználói viselkedési mérőszám, amelyek három fő aspektusra oszlanak: leírás, engedélyezés és azonosítás.

Az egyes viselkedési indikátorok előfordulása mesterséges intelligencia interakciókban 9830 Claude-dal folytatott beszélgetés során. Kép: Anthropic.

Először is, ott van a kérés leírásának módja, ahol a felhasználóknak bizonyítaniuk kell, hogy valóban értik, mit akarnak. A homályos parancsok helyett a magas pontszámot elérő egyének mindig világosan megfogalmazzák a végső célt, és részletesen elmagyarázzák a kontextust. Nagyon konkrét követelményeket is támasztanak a prezentációs stílussal kapcsolatban, például kérik a mesterséges intelligenciát táblázatok létrehozására, vagy korlátozzák a szavak számát. Figyelemre méltó, hogy ez a csoport gyakran több mintaesszét is tartalmaz példaként, hogy a mesterséges intelligencia már a kezdetektől fogva „utánozza” a helyes stílust.

A második szempont a feladatok delegálásának módja. A kutatások azt mutatják, hogy a képzett felhasználók a mesterséges intelligenciát vitapartnerként kezelik, nem pedig agyatlan gépként. A legnagyobb különbség a kitartásban rejlik. Ahelyett, hogy egyszer s mindenkorra kiadnák az utasítást, több körös oda-vissza beszélgetést folytatnak a finomítás érdekében, és arra kérik a mesterséges intelligenciát, hogy addig módosítsa a válaszait, amíg teljesen elégedettek nem lesznek. Ez a viselkedés a kiváló minőségű beszélgetések 85,7%-ában fordul elő.

Az utolsó szempont a felismerés, amely szűrőként működik, hogy megakadályozza, hogy az emberek félrevezessenek a chatbotok által nyújtott információk által. A felhasználóknak folyamatosan meg kell kérdőjelezniük az érvelés logikáját, meg kell kérniük a mesterséges intelligenciát, hogy magyarázza el az egyes kódsorokat, vagy egyértelmű hivatkozásokat kell kérniük. Emellett elég érzékenynek kell lenniük ahhoz, hogy azonosítsák a hiányzó kontextust a mesterséges intelligencia megoldásában, hogy időben értékeléseket tudjanak végezni, és módosíthassák a következtetéseket.

A tapasztalt felhasználók általában 7-8 körüli pontszámot kapnak a Clade-től. Fotó: X.

A kutatás azonban egy aggasztó pszichológiai csapdára is rámutat, amelyet „Gyönyörű Felület Paradoxonként” ismerünk. Amikor Claude Artifacts funkciója vizuálisan vonzó termékeket hoz létre, például egy gördülékeny kódot vagy egy tökéletes diagramot, az agyunk azonnal „lusta gondolkodóvá” válik, és leállítja a kritikai gondolkodást.

A tanulmány statisztikái azt mutatják, hogy amikor a felhasználók egy letisztult felületet látnak, 5,2%-kal csökken azoknak az aránya, akik azonnal aktívan keresnek hibákat. Az információk hitelességének ellenőrzésének képessége is 3,7%-kal csökken, és 3,1%-kal csökken azoknak az aránya, akik kételkednek a logikájában.

„Ha valami tökéletesnek tűnik, a felhasználók automatikusan feltételezik, hogy az helyes” – jegyezték meg az Anthropic szakértői.

Ez a szubjektív megközelítés rendkívül veszélyes. Valójában minél összetettebb a feladat, annál nagyobb az esélye annak, hogy a mesterséges intelligencia hibákat követ el, vagy „fabrikál” információkat. Ha az emberek kizárólag a látszat alapján ítélik meg a belső minőséget, a mesterséges intelligencia nagyon könnyen megtéveszthet minket.

A jelentés szerint azok, akik rendszeresen vitába szállnak és rámutatnak a mesterséges intelligencia hibáira, 5-6-szor magasabb értékelést kapnak, mint az átlagos felhasználók. Emellett nagyobb valószínűséggel észlelik a hiányosságokat és az ellentmondásokat a felhasználói csoport többi tagjához képest. Ezek a „szakértők” jellemzően 7-8/11 körüli pontszámokat érnek el Claude-tól.

Forrás: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html