![]() |
Chabot Claude valuta la competenza dell'utente in base alle interazioni. Immagine: VectorStock . |
L'ultima ricerca di Anthropic, intitolata "AI Fluency Index", ha ribaltato le convinzioni comuni, affidando al chatbot Claude il compito di valutare gli esseri umani. Analizzando la struttura delle conversazioni, l'intelligenza artificiale classifica il livello di competenza degli utenti su una scala di 11 punti.
Per sviluppare il quadro di competenze composto da 24 standard, Anthropic ha utilizzato strumenti analitici per esaminare 9.830 conversazioni reali tra utenti.
Di questi, 13 criteri si verificano al di fuori dello schermo, ad esempio se gli utenti nascondono o meno l'utilizzo dell'IA ai propri superiori. I restanti 11 criteri sono metriche relative al comportamento dell'utente, suddivise in tre aspetti principali: descrizione, autorizzazione e identificazione.
![]() |
La prevalenza di ciascun indicatore comportamentale nelle interazioni con l'IA in 9.830 conversazioni con Claude. Immagine: Anthropic. |
Innanzitutto, è fondamentale il modo in cui viene descritta la richiesta, che richiede agli utenti di dimostrare una reale comprensione di ciò che desiderano. Invece di fornire comandi vaghi, gli utenti con punteggi elevati indicano sempre chiaramente l'obiettivo finale e ne spiegano il contesto in dettaglio. Forniscono inoltre requisiti molto specifici riguardo allo stile di presentazione, come ad esempio chiedere all'IA di creare tabelle o limitare il numero di parole. In particolare, questo gruppo spesso include diversi esempi di testi come modelli per permettere all'IA di "imitare" lo stile corretto fin dall'inizio.
Il secondo aspetto riguarda le modalità di delega dei compiti. La ricerca dimostra che gli utenti esperti trattano l'IA come un interlocutore, non come una macchina priva di intelletto. La differenza principale risiede nella perseveranza. Invece di impartire un comando una volta per tutte, si impegnano in molteplici scambi di opinioni per affinare le risposte e farle rivedere all'IA fino a quando non sono completamente soddisfatti. Questo comportamento si verifica nell'85,7% delle conversazioni di alta qualità.
L'ultimo aspetto è il riconoscimento, che funge da filtro per impedire che gli esseri umani vengano tratti in inganno dalle informazioni fornite dai chatbot. Gli utenti devono costantemente mettere in discussione la logica del ragionamento, chiedere all'IA di spiegare ogni riga di codice o richiedere citazioni chiare. Devono inoltre essere sufficientemente perspicaci da individuare eventuali contesti mancanti nella soluzione dell'IA, al fine di effettuare valutazioni e modifiche tempestive alle conclusioni.
![]() |
Gli utenti esperti in genere ricevono un punteggio di circa 7-8 da Clade. Foto: X. |
Tuttavia, la ricerca evidenzia anche una preoccupante trappola psicologica, nota come "Paradosso dell'Interfaccia Bella". Quando la funzione Artifacts di Claude crea prodotti visivamente accattivanti, come un codice ben strutturato o un diagramma perfetto, il nostro cervello tende immediatamente a diventare "pigro" e a interrompere il pensiero critico.
Le statistiche dello studio mostrano che quando gli utenti vedono un'interfaccia ben curata, la percentuale di coloro che cercano attivamente difetti diminuisce immediatamente del 5,2%. Anche la capacità di verificare l'autenticità delle informazioni diminuisce del 3,7%, e la percentuale di coloro che dubitano della loro logica si riduce del 3,1%.
"Se qualcosa appare perfetto, gli utenti presumeranno automaticamente che sia corretto", hanno osservato gli esperti di Anthropic.
Questo approccio soggettivo è estremamente pericoloso. Infatti, più il compito è complesso, maggiore è la probabilità che l'IA commetta errori o "inventi" informazioni. Se gli esseri umani giudicano la qualità interna basandosi esclusivamente sull'apparenza, saremo molto facilmente ingannati dall'IA.
Secondo il rapporto, coloro che partecipano regolarmente a conversazioni interattive e segnalano i difetti dell'IA ottengono un punteggio da 5 a 6 volte superiore rispetto agli utenti medi. Sono inoltre più propensi a individuare carenze e incongruenze rispetto al resto degli utenti. Questi "esperti" raggiungono in genere punteggi di circa 7-8/11 su Claude.
Fonte: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html











Commento (0)