AIs resonneringsevne svekkes når den står overfor komplekse problemer.

Jo sterkere modellen er, desto svakere er «tenkningen»?

I en nylig publisert rapport evaluerte Apple-forskere ytelsen til store resonneringsmodeller (LRM-er) i håndteringen av logiske problemer med økende vanskelighetsgrad, som for eksempel Tower of Hanoi eller River Crossing- problemet.

Resultatene var sjokkerende: når man sto overfor svært komplekse problemer, ble ikke bare nøyaktigheten til avanserte AI-modeller dårligere, men «kollapset fullstendig».

Det som er enda mer bekymringsfullt er at før ytelsen stupte, begynte modellene å ... redusere resonneringsinnsatsen sin, en atferd som strider mot intuisjonen, ettersom mer omtanke burde være nødvendig når man håndterer et vanskelig problem.

I mange tilfeller, selv når de får riktig algoritme, klarer ikke modellene å gi en løsning. Dette avslører dype begrensninger i deres evne til å tilpasse seg og anvende regler i nye miljøer.

Utfordringen med «generell teori»

Som svar på denne forskningen kalte den amerikanske forskeren Gary Marcus, en av stemmene som er skeptisk til de sanne egenskapene til AI, Apples funn «ganske ødeleggende».

I sitt personlige Substack-nyhetsbrev uttalte han: «Alle som tror at store språkmodeller (LLM-er) er en direkte vei til AGI, bedrar seg selv.»

Andrew Rogoyski, en ekspert ved Human-Centered AI Institute (University of Surrey, Storbritannia), er enig i dette synet og mener at dette funnet peker på muligheten for at teknologibransjen er på vei inn i en «blindvei»: «Når modeller bare presterer bra med enkle og middels vanskelighetsgradsproblemer, men fullstendig mislykkes med å øke vanskelighetsgraden, er det tydelig at det er et problem med den nåværende tilnærmingen.»

Et spesielt poeng som Apple fremhever er mangelen på evne til «generell resonnering», det vil si evnen til å utvide forståelsen fra en spesifikk situasjon til lignende situasjoner.

Når kunnskap ikke kan overføres på den måten mennesker vanligvis gjør, faller dagens modeller lett inn i en tilstand av «utenatlæring»: sterke på repeterende mønstre, men svake på logisk tenkning eller deduksjon.

Videre har forskning funnet at storskala resonneringsmodeller forbruker beregningsressurser ved å gjentatte ganger utføre de riktige trinnene for enkle problemer, men velge feil tilnærming fra starten av for litt mer komplekse problemer.

Rapporten testet en rekke ledende modeller, inkludert OpenAIs o3, Googles Gemini Thinking, Claude 3.7 Sonnet-Thinking og DeepSeek-R1. Selv om Anthropic, Google og DeepSeek ennå ikke har svart, nektet OpenAI å kommentere.

Apples forskning benekter ikke AIs prestasjoner innen språk, bilder eller stordata. Den fremhever imidlertid en blind flekk som blir oversett: evnen til å resonnere genuint, som er kjernen i å oppnå ekte intelligens.

Kilde: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html