
Più il modello è solido, più debole è il "pensiero"?
In un rapporto pubblicato di recente, i ricercatori di Apple hanno valutato le prestazioni dei Large Reasoning Models (LRM) nella gestione di problemi logici di difficoltà crescente, come il problema della Torre di Hanoi o il problema dell'attraversamento del fiume .
I risultati sono stati sconvolgenti: di fronte a problemi altamente complessi, la precisione dei modelli di intelligenza artificiale avanzati non solo è peggiorata, ma è "crollata completamente".
Ciò che è ancora più preoccupante è che, prima che le prestazioni crollassero, i modelli hanno iniziato a... ridurre il loro sforzo di ragionamento, un comportamento contrario all'intuizione, poiché ci si aspetterebbe che fosse necessario un maggiore sforzo di riflessione quando si affronta un problema difficile.
In molti casi, anche utilizzando l'algoritmo corretto, i modelli non riescono comunque a fornire una soluzione. Ciò rivela profonde limitazioni nella loro capacità di adattarsi e applicare regole in nuovi contesti.
La sfida della "teoria generale"
In risposta a questa ricerca, lo studioso americano Gary Marcus, una delle voci scettiche sulle reali capacità dell'IA, ha definito i risultati di Apple "davvero devastanti".
Nella sua newsletter personale su Substack, ha dichiarato: "Chiunque pensi che i modelli linguistici su larga scala (LLM) siano una via diretta verso l'intelligenza artificiale generale (AGI) si illude".
Concordando con questa opinione, Andrew Rogoyski, esperto presso l'Human-Centered AI Institute (Università del Surrey, Regno Unito), ritiene che questa scoperta indichi la possibilità che l'industria tecnologica si stia dirigendo verso un "vicolo cieco": "Quando i modelli funzionano bene solo con problemi semplici e di media difficoltà, ma falliscono completamente con la crescente difficoltà, è chiaro che c'è un problema con l'approccio attuale".
Un punto in particolare evidenziato da Apple è la mancanza di capacità di "ragionamento generale", ovvero la capacità di estendere la comprensione da una situazione specifica a situazioni simili.
Quando la conoscenza non può essere trasferita nel modo in cui gli esseri umani lo fanno tipicamente, i modelli attuali cadono facilmente in uno stato di "apprendimento mnemonico": forti nella ripetizione di schemi, ma deboli nel pensiero logico o nella deduzione.
Inoltre, la ricerca ha dimostrato che i modelli di ragionamento su larga scala consumano risorse computazionali eseguendo ripetutamente i passaggi corretti per problemi semplici, ma scegliendo fin dall'inizio l'approccio sbagliato per problemi leggermente più complessi.
Il rapporto ha testato una serie di modelli leader del settore, tra cui o3 di OpenAI, Gemini Thinking di Google, Claude 3.7 Sonnet-Thinking e DeepSeek-R1. Mentre Anthropic, Google e DeepSeek non hanno ancora risposto, OpenAI ha rifiutato di commentare.
La ricerca di Apple non nega i successi dell'IA nel campo del linguaggio, delle immagini o dei big data. Tuttavia, mette in luce un punto cieco che viene trascurato: la capacità di ragionare in modo autentico, che è alla base del raggiungimento di una vera intelligenza.
Fonte: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html






Commento (0)