Umělá inteligence tajně hodnotí lidi.

Místo toho, aby lidé hodnotili umělou inteligenci jako dříve, Anthropic obrátil proces. Claude bude analyzovat historii chatu uživatelů, aby vyhodnotil jejich „úroveň“ používání umělé inteligence.

ZNews•31/05/2026

Chabot Claude hodnotí uživatelské znalosti na základě interakcí. Obrázek: VectorStock .

Nejnovější výzkum společnosti Anthropic s názvem „Index plynulosti umělé inteligence“ obrátil zažité názory tím, že chatbot Claude hodnotí lidi. Analýzou struktury konverzací umělá inteligence hodnotí znalosti uživatelů na 11bodové stupnici.

Pro vytvoření rámce kompetencí, který zahrnuje 24 standardů, společnost Anthropic použila analytické nástroje k naskenování 9 830 konverzací s reálnými uživateli.

Z nich se 13 kritérií vyskytuje mimo obrazovku, například zda uživatelé před svými nadřízenými tají používání umělé inteligence. Zbývajících 11 kritérií jsou metriky chování uživatelů, rozdělené do tří hlavních aspektů: popis, autorizace a identifikace.

Prevalence jednotlivých behaviorálních indikátorů v interakcích s umělou inteligencí v rámci 9 830 konverzací s Claudem. Obrázek: Anthropic.

Zaprvé je tu způsob, jakým je požadavek popsán, kde uživatelé musí prokázat skutečné pochopení toho, co chtějí. Místo vágních příkazů jednotlivci s vysokým skóre vždy jasně uvádějí konečný cíl a podrobně vysvětlují kontext. Také stanovují velmi specifické požadavky týkající se stylu prezentace, jako je například požadavek na umělou inteligenci o vytvoření tabulek nebo omezení počtu slov. Je pozoruhodné, že tato skupina často zahrnuje několik ukázkových esejů jako příklady pro umělou inteligenci, aby od začátku „napodobila“ správný styl.

Druhým aspektem je způsob delegování úkolů. Výzkum ukazuje, že zkušení uživatelé vnímají umělou inteligenci jako partnera v diskusi, nikoli jako bezduchý stroj. Největší rozdíl spočívá v vytrvalosti. Místo aby dali příkaz jednou provždy, zapojují se do několika kol vzájemné konverzace, aby upřesnili odpovědi a nechali umělou inteligenci revidovat své odpovědi, dokud nejsou zcela spokojeni. Toto chování se vyskytuje v 85,7 % kvalitních konverzací.

Posledním aspektem je rozpoznávání, které funguje jako filtr, jenž zabraňuje tomu, aby byli lidé uvedeni v omyl informacemi poskytovanými chatboty. Uživatelé musí neustále zpochybňovat logiku uvažování, žádat umělou inteligenci o vysvětlení každého řádku kódu nebo požadovat jasné citace. Musí být také dostatečně vnímaví, aby v řešení umělé inteligence identifikovali chybějící kontext, aby mohli včas provést vyhodnocení a úpravy závěrů.

Zkušení uživatelé obvykle od Clade získají skóre kolem 7-8. Foto: X.

Výzkum však také poukazuje na znepokojivou psychologickou past, známou jako „Paradox krásného rozhraní“. Když Claudeova funkce Artefakty vytváří vizuálně přitažlivé produkty, jako je hladký kus kódu nebo dokonalý diagram, naše mozky mají okamžitě tendenci stát se „línými mysliteli“ a přestat kriticky myslet.

Statistiky studie ukazují, že když uživatelé vidí vyleštěné rozhraní, procento těch, kteří aktivně hledají nedostatky, se okamžitě sníží o 5,2 %. Schopnost ověřit pravost informací se také snižuje o 3,7 % a procento těch, kteří pochybují o jejich logice, se snižuje o 3,1 %.

„Pokud něco vypadá perfektně, uživatelé si to automaticky předpokládají,“ poznamenali odborníci z Anthropic.

Tento subjektivní přístup je extrémně nebezpečný. Čím složitější je úkol, tím vyšší je pravděpodobnost, že umělá inteligence udělá chyby nebo si „vymyslí“ informace. Pokud lidé budou posuzovat vnitřní kvalitu pouze na základě vnějšího vzhledu, umělá inteligence nás velmi snadno oklame.

Podle zprávy jsou ti, kteří se pravidelně zapojují do vzájemné komunikace a poukazují na nedostatky umělé inteligence, hodnoceni 5–6krát výše než průměrní uživatelé. Je také pravděpodobnější, že ve srovnání se zbytkem uživatelské skupiny odhalí nedostatky a nesrovnalosti. Tito „experti“ obvykle dosahují od Claude skóre kolem 7–8/11.

Zdroj: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html