
Čím silnější model, tím slabší „myšlení“?
V nově publikované zprávě výzkumníci společnosti Apple vyhodnotili výkon velkých modelů uvažování (LRM) při řešení logických problémů se zvyšující se obtížností, jako je například Hanojská věž nebo problém s říčním přechodem .
Výsledky byly šokující: při řešení vysoce složitých problémů se přesnost pokročilých modelů umělé inteligence nejen zhoršila, ale „zcela se zhroutila“.
Ještě znepokojivější je, že než výkon prudce poklesl, modely začaly... snižovat své úsilí o uvažování, což je chování, které je v rozporu s intuicí, protože při řešení složitého problému by mělo být zapotřebí více přemýšlení.
V mnoha případech, i když je modelům přidělen správný algoritmus, stále nedokážou poskytnout řešení. To odhaluje hluboká omezení v jejich schopnosti adaptovat se a aplikovat pravidla v nových prostředích.
Výzva „obecné teorie“
V reakci na tento výzkum americký vědec Gary Marcus, jeden z hlasů skeptických ohledně skutečných schopností umělé inteligence, označil zjištění společnosti Apple za „docela zničující“.
Ve svém osobním newsletteru Substack uvedl: „Každý, kdo si myslí, že modely velkých jazyků (LLM) jsou přímou cestou k AGI, se mýlí.“
S tímto názorem souhlasí i Andrew Rogoyski, expert z Human-Centered AI Institute (Univerzita v Surrey ve Spojeném království), který se domnívá, že toto zjištění poukazuje na možnost, že technologický průmysl směřuje do „slepé uličky“: „Když modely fungují dobře pouze s jednoduchými a středně obtížnými problémy, ale zcela selhávají u rostoucí obtížnosti, je jasné, že se současným přístupem je problém.“
Jedním konkrétním bodem, který Apple zdůraznil, je nedostatek schopnosti „obecného uvažování“, tedy schopnosti rozšířit porozumění z konkrétní situace na podobné situace.
Pokud znalosti nelze přenášet tak, jak to lidé obvykle dělají, současné modely snadno upadají do stavu „meziučení“: jsou silné v opakujících se vzorcích, ale slabé v logickém myšlení nebo dedukci.
Výzkum dále zjistil, že rozsáhlé modely uvažování spotřebovávají výpočetní zdroje tím, že opakovaně provádějí správné kroky pro jednoduché problémy, ale u o něco složitějších problémů volí od samého začátku nesprávný přístup.
Zpráva testovala řadu předních modelů, včetně o3 od OpenAI, Gemini Thinking od Googlu, Claude 3.7 Sonnet-Thinking a DeepSeek-R1. Zatímco Anthropic, Google a DeepSeek zatím nereagovaly, OpenAI se odmítla vyjádřit.
Výzkum společnosti Apple nepopírá úspěchy umělé inteligence v oblasti jazyka, zobrazování nebo velkých dat. Zdůrazňuje však jedno slepé místo, které je přehlíženo: schopnost upřímně uvažovat, která je jádrem dosažení skutečné inteligence.
Zdroj: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html







Komentář (0)