Чем сильнее модель, тем слабее «мышление»?
В недавно опубликованном отчете исследователи Apple оценили эффективность больших моделей рассуждений (LRM) при решении логических задач возрастающей сложности, таких как задача о Ханойской башне или о переправе через реку .
Результаты оказались шокирующими: при столкновении с чрезвычайно сложными задачами точность продвинутых моделей ИИ не просто снижалась, а «полностью рушилась».
Еще более тревожно то, что перед снижением производительности модели начинают... снижать свои усилия по рассуждению, что противоречит здравому смыслу и должно требовать больше размышлений, когда задача становится сложнее.
Во многих случаях, даже при наличии правильного алгоритма, модели не могут выдать решение. Это показывает глубокий предел их способности адаптироваться и применять правила к новым средам.
Вызов «общей теории»
Американский ученый Гэри Маркус, один из тех, кто скептически относится к истинным возможностям ИИ, комментируя исследование, назвал выводы Apple «совершенно сокрушительными».
«Любой, кто думает, что большие языковые модели (LLM) — это прямой путь к AGI, обманывает себя», — написал он в своей личной рассылке Substack.
Разделяя эту точку зрения, г-н Эндрю Рогойски, эксперт Института ИИ, ориентированного на человека (Университет Суррея, Великобритания), сказал, что это открытие указывает на вероятность того, что технологическая отрасль заходит в «тупик»: «Когда модели хорошо работают только с простыми и средними задачами, но полностью терпят неудачу при увеличении сложности, становится ясно, что в текущем подходе есть проблема».
Одним из особых моментов, на который обратила внимание Apple, стало отсутствие «общего мышления», то есть способности распространять понимание конкретной ситуации на схожие ситуации.
Не имея возможности передавать знания так, как это обычно делают люди, современные модели склонны к «механическому заучиванию»: они сильны в повторении шаблонов, но слабы в логическом или дедуктивном мышлении.
Фактически, исследование показало, что большие теоретические модели тратят вычислительные ресурсы впустую, многократно решая простые задачи правильно, но выбирая неправильное решение с самого начала для немного более сложных задач.
В отчете протестирован ряд ведущих моделей, включая o3 от OpenAI, Gemini Thinking от Google, Claude 3.7 Sonnet-Thinking и DeepSeek-R1. В то время как Anthropic, Google и DeepSeek не ответили на запросы о комментариях, OpenAI отказалась от комментариев.
Исследование Apple не отрицает достижений ИИ в области языка, зрения или больших данных. Но оно подчеркивает слепое пятно, которое упускалось из виду: способность рассуждать осмысленно, что является основой достижения настоящего интеллекта.
Источник: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html
Комментарий (0)