
Im silniejszy model, tym słabsze „myślenie”?
W niedawno opublikowanym raporcie badacze Apple ocenili skuteczność dużych modeli rozumowania (LRM) w rozwiązywaniu problemów logicznych o rosnącym stopniu trudności, takich jak problem Wież Hanoi czy przeprawy przez rzekę .
Wyniki były szokujące: w obliczu wyjątkowo złożonych problemów dokładność zaawansowanych modeli sztucznej inteligencji nie tylko się pogarszała, ale „całkowicie się załamywała”.
Jeszcze bardziej niepokojące jest to, że zanim wydajność gwałtownie spadła, modele zaczęły... ograniczać swój wysiłek włożony w rozumowanie, co jest zachowaniem sprzecznym z intuicją, ponieważ rozwiązywanie trudnego problemu wymagałoby więcej namysłu.
W wielu przypadkach, nawet po zastosowaniu poprawnego algorytmu, modele nadal nie dostarczają rozwiązania. Ujawnia to głębokie ograniczenia w ich zdolności adaptacji i stosowania reguł w nowych środowiskach.
Wyzwanie „teorii ogólnej”
W odpowiedzi na te badania amerykański naukowiec Gary Marcus, jeden z głosów sceptycznych co do rzeczywistych możliwości sztucznej inteligencji, nazwał odkrycia Apple'a „całkowicie druzgocącymi”.
W swoim osobistym newsletterze Substack stwierdził: „Każdy, kto myśli, że duże modele językowe (LLM) stanowią bezpośrednią drogę do AGI, oszukuje sam siebie”.
Zgadzając się z tym poglądem, Andrew Rogoyski, ekspert z Human-Centered AI Institute (Uniwersytet w Surrey, Wielka Brytania), uważa, że odkrycie to wskazuje na możliwość, że branża technologiczna zmierza w „ślepą uliczkę”: „Kiedy modele dobrze radzą sobie tylko z problemami o prostym i średnim stopniu trudności, ale zupełnie nie radzą sobie z problemami o rosnącym stopniu trudności, to oczywiste, że obecne podejście ma jakiś problem”.
Apple szczególnie podkreśliło brak zdolności „rozumowania ogólnego”, czyli umiejętności rozszerzenia rozumienia konkretnej sytuacji na sytuacje podobne.
Gdy wiedzy nie da się przekazać w sposób, w jaki czynią to ludzie, współczesne modele łatwo popadają w stan „uczenia się na pamięć”: są silne w powtarzalnych wzorcach, ale słabe w logicznym myśleniu i dedukcji.
Co więcej, badania wykazały, że modele rozumowania na dużą skalę zużywają zasoby obliczeniowe, ponieważ wielokrotnie wykonują poprawne kroki w przypadku prostych problemów, ale od razu wybierają niewłaściwe podejście w przypadku problemów nieco bardziej złożonych.
W raporcie przetestowano szereg wiodących modeli, w tym o3 firmy OpenAI, Gemini Thinking firmy Google, Claude 3.7 Sonnet-Thinking i DeepSeek-R1. Chociaż firmy Anthropic, Google i DeepSeek nie odpowiedziały jeszcze na pytania, OpenAI odmówiło komentarza.
Badania Apple nie negują osiągnięć sztucznej inteligencji w zakresie języka, obrazowania czy big data. Uwypuklają jednak pewien niedostrzegany obszar: zdolność do autentycznego rozumowania, która jest podstawą prawdziwej inteligencji.
Source: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html








Komentarz (0)