IA evaluează în secret oamenii.

În loc ca oamenii să evalueze inteligența artificială ca înainte, Anthropic a inversat procesul. Claude va analiza istoricul chat-urilor utilizatorilor pentru a le evalua „nivelul” de utilizare a inteligenței artificiale.

ZNews•31/05/2026

Chabot Claude evaluează competența utilizatorilor pe baza interacțiunilor. Imagine: VectorStock .

Cea mai recentă cercetare a Anthropic, intitulată „Indicele de fluență al inteligenței artificiale”, a inversat înțelepciunea convențională, punând chatbot-ul Claude să evalueze oamenii. Analizând structura conversațiilor, inteligența artificială clasifică competența utilizatorilor pe o scală de 11 puncte.

Pentru a dezvolta cadrul de competențe care cuprinde 24 de standarde, Anthropic a folosit instrumente analitice pentru a scana 9.830 de conversații cu utilizatori din viața reală.

Dintre acestea, 13 criterii apar în afara ecranului, cum ar fi dacă utilizatorii își ascund utilizarea inteligenței artificiale față de superiorii lor. Celelalte 11 criterii sunt indicatori ai comportamentului utilizatorilor, împărțiți în trei aspecte majore: descriere, autorizare și identificare.

Prevalența fiecărui indicator comportamental în interacțiunile cu inteligența artificială pe parcursul a 9.830 de conversații cu Claude. Imagine: Anthropic.

În primul rând, există modul în care este descrisă solicitarea, unde utilizatorii trebuie să demonstreze o înțelegere reală a ceea ce doresc. În loc să dea comenzi vagi, persoanele cu scoruri mari enunță întotdeauna clar scopul final și explică contextul în detaliu. De asemenea, ele oferă cerințe foarte specifice privind stilul de prezentare, cum ar fi solicitarea IA de a crea tabele sau limitarea numărului de cuvinte. În special, acest grup include adesea mai multe eseuri exemplu ca exemple pentru ca IA să „imite” stilul corect de la început.

Al doilea aspect este modul în care sunt delegate sarcinile. Cercetările arată că utilizatorii experimentați tratează IA ca pe un partener de discuție, nu ca pe o mașinărie fără minte. Cea mai mare diferență constă în persistență. În loc să dea o comandă o dată pentru totdeauna, aceștia se angajează în mai multe runde de conversații reciproce pentru a rafina și a solicita IA să își revizuiască răspunsurile până când sunt complet mulțumiți. Acest comportament apare în 85,7% din conversațiile de înaltă calitate.

Ultimul aspect este recunoașterea, acționând ca un filtru pentru a împiedica oamenii să fie induși în eroare de informațiile furnizate de chatboți. Utilizatorii trebuie să pună constant la îndoială logica raționamentului, să ceară inteligenței artificiale să explice fiecare linie de cod sau să solicite citări clare. De asemenea, trebuie să fie suficient de perspicace pentru a identifica contextul lipsă din soluția inteligenței artificiale, pentru a putea face evaluări și ajustări la timp ale concluziilor.

Utilizatorii experimentați primesc de obicei un scor de aproximativ 7-8 de la Clade. Foto: X.

Totuși, studiul indică și o capcană psihologică îngrijorătoare, cunoscută sub numele de „Paradoxul Interfeței Frumoase”. Atunci când funcția „Artefacte” a lui Claude creează produse atractive din punct de vedere vizual, cum ar fi o bucată de cod fluidă sau o diagramă perfectă, creierele noastre tind imediat să devină „gânditori leneși” și să înceteze să gândească critică.

Statisticile studiului arată că, atunci când utilizatorii văd o interfață îmbunătățită, procentul celor care caută activ defecte scade imediat cu 5,2%. Capacitatea de a verifica autenticitatea informațiilor scade, de asemenea, cu 3,7%, iar procentul celor care se îndoiesc de logica acesteia scade cu 3,1%.

„Dacă ceva pare perfect, utilizatorii vor presupune automat că este corect”, au remarcat experții de la Anthropic.

Această abordare subiectivă este extrem de periculoasă. De fapt, cu cât sarcina este mai complexă, cu atât sunt mai mari șansele ca IA să facă greșeli sau să „fabrice” informații. Dacă oamenii judecă calitatea internă doar pe baza aparențelor, vom fi foarte ușor înșelați de IA.

Conform raportului, cei care se angajează în mod regulat în conversații reciproce și semnalează defectele inteligenței artificiale sunt evaluați de 5-6 ori mai bine decât utilizatorii obișnuiți. De asemenea, sunt mai predispuși să observe deficiențe și inconsecvențe în comparație cu restul grupului de utilizatori. Acești „experți” obțin de obicei scoruri de aproximativ 7-8/11 de la Claude.

Sursă: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html