AI:s resonemangsförmåga försämras när den ställs inför komplexa problem.

Ju starkare modellen är, desto svagare är "tänkandet"?

I en nyligen publicerad rapport utvärderade Apple-forskare prestandan hos stora resonemangsmodeller (LRM) när det gäller att hantera logiska problem med ökande svårighetsgrad, såsom Hanoi- tornet eller flodövergångsproblemet .

Resultaten var chockerande: när de ställdes inför mycket komplexa problem försämrades inte bara noggrannheten hos avancerade AI-modeller, utan "kollapsade fullständigt".

Det som är ännu mer oroande är att innan prestandan sjönk kraftigt började modellerna ... minska sin resonemangsansträngning, ett beteende som strider mot intuitionen, eftersom mer eftertanke borde krävas när man hanterar ett svårt problem.

I många fall, även med rätt algoritm, misslyckas modellerna med att ge en lösning. Detta avslöjar djupa begränsningar i förmågan att anpassa och tillämpa regler i nya miljöer.

Utmaningen med "allmän teori"

Som svar på denna forskning kallade den amerikanske forskaren Gary Marcus, en av rösterna som är skeptisk till AI:s verkliga kapacitet, Apples resultat för "ganska förödande".

I sitt personliga Substack-nyhetsbrev skrev han: "Den som tror att stora språkmodeller (LLM) är en direkt väg till AGI bedrar sig själv."

Andrew Rogoyski, expert vid Human-Centered AI Institute (University of Surrey, Storbritannien), instämmer med denna uppfattning och anser att detta resultat pekar på möjligheten att teknikindustrin är på väg in i en "återvändsgränd": "När modeller bara presterar bra med enkla och medelsvårighetsgradiga problem, men helt misslyckas med att öka svårighetsgraden, är det tydligt att det finns ett problem med den nuvarande metoden."

En särskild punkt som Apple lyfter fram är bristen på förmåga till "allmänt resonemang", det vill säga förmågan att utvidga förståelsen från en specifik situation till liknande situationer.

När kunskap inte kan överföras på det sätt som människor vanligtvis gör, hamnar nuvarande modeller lätt i ett tillstånd av "utanpå inlärning": starka i repetitiva mönster, men svaga i logiskt tänkande eller deduktion.

Dessutom har forskning funnit att storskaliga resonemangsmodeller förbrukar beräkningsresurser genom att upprepade gånger utföra rätt steg för enkla problem, men välja fel metod från början för lite mer komplexa problem.

Rapporten testade en rad ledande modeller, inklusive OpenAI:s o3, Googles Gemini Thinking, Claude 3.7 Sonnet-Thinking och DeepSeek-R1. Medan Anthropic, Google och DeepSeek ännu inte har svarat, avböjde OpenAI att kommentera.

Apples forskning förnekar inte AI:s framsteg inom språk, bildspråk eller big data. Den belyser dock en blind fläck som förbises: förmågan att resonera genuint, vilket är kärnan i att uppnå sann intelligens.

Källa: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html