
Чим сильніша модель, тим слабше «мислення»?
У нещодавно опублікованому звіті дослідники Apple оцінили ефективність моделей великих міркувань (LRM) у вирішенні логічних задач зростаючої складності, таких як Ханойська вежа або задача переправи через річку .
Результати були шокуючими: зіткнувшись із надзвичайно складними проблемами, точність передових моделей штучного інтелекту не лише погіршувалася, а й «повністю руйнувалася».
Ще більше занепокоєння викликає те, що перед тим, як продуктивність різко впала, моделі почали... зменшувати свої зусилля на міркування, що суперечить інтуїції, оскільки для вирішення складної проблеми потрібно більше роздумів.
У багатьох випадках, навіть за умови правильного алгоритму, моделі все одно не можуть забезпечити рішення. Це свідчить про суттєві обмеження в їхній здатності адаптуватися та застосовувати правила в нових середовищах.
Виклик «загальної теорії»
Реагуючи на це дослідження, американський вчений Гері Маркус, один із тих, хто скептично ставиться до справжніх можливостей штучного інтелекту, назвав висновки Apple «досить руйнівними».
У своїй особистій розсилці Substack він заявив: «Будь-хто, хто думає, що великі мовні моделі (LLM) – це прямий шлях до AGI, обманює себе».
Погоджуючись з цією точкою зору, Ендрю Рогойскі, експерт Інституту штучного інтелекту, орієнтованого на людину (Університет Суррея, Велика Британія), вважає, що це відкриття вказує на можливість того, що технологічна галузь прямує в «глухий кут»: «Коли моделі добре справляються лише з простими та середньої складності задачами, але повністю зазнають невдачі при зростаючій складності, очевидно, що є проблема з поточним підходом».
Один конкретний момент, на який звернула увагу Apple, – це відсутність здатності до «загального мислення», тобто здатності поширювати розуміння з конкретної ситуації на подібні ситуації.
Коли знання неможливо передавати так, як це зазвичай роблять люди, сучасні моделі легко впадають у стан «мережі»: сильні в повторюваних моделях, але слабкі в логічному мисленні чи дедукції.
Крім того, дослідження показали, що великомасштабні моделі міркувань споживають обчислювальні ресурси, багаторазово виконуючи правильні кроки для простих задач, але обираючи неправильний підхід з самого початку для дещо складніших задач.
У звіті було протестовано низку провідних моделей, зокрема o3 від OpenAI, Gemini Thinking від Google, Claude 3.7 Sonnet-Thinking та DeepSeek-R1. Хоча Anthropic, Google та DeepSeek ще не відповіли, OpenAI відмовилася від коментарів.
Дослідження Apple не заперечує досягнень штучного інтелекту в мові, образах чи великих даних. Однак воно висвітлює сліпу пляму, яку не помічають: здатність щиро міркувати, що є основою досягнення справжнього інтелекту.
Джерело: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html








Коментар (0)