
Чем сильнее модель, тем слабее «мышление»?
В недавно опубликованном отчете исследователи Apple оценили производительность моделей больших рассуждений (LRM) при решении логических задач возрастающей сложности, таких как «Ханойская башня» или задача о пересечении реки .
Результаты оказались шокирующими: при решении чрезвычайно сложных задач точность передовых моделей искусственного интеллекта не только ухудшалась, но и «полностью рушилась».
Ещё большее беспокойство вызывает тот факт, что перед резким падением производительности модели начали... снижать свои рассуждения, что противоречит интуиции, поскольку при решении сложных задач требуется больше размышлений.
Во многих случаях, даже при наличии правильного алгоритма, модели все равно не могут предложить решение. Это свидетельствует о серьезных ограничениях в их способности адаптироваться и применять правила в новых условиях.
Вызов «общей теории»
Комментируя это исследование, американский учёный Гэри Маркус, один из скептиков, сомневающихся в истинных возможностях ИИ, назвал выводы Apple «совершенно разрушительными».
В своей личной рассылке Substack он заявил: «Любой, кто думает, что большие языковые модели (LLM) — это прямой путь к созданию общего искусственного интеллекта (AGI), обманывает себя».
Согласный с этим мнением, Эндрю Рогойски, эксперт из Института человекоцентрированного ИИ (Университет Суррея, Великобритания), считает, что этот вывод указывает на возможность того, что технологическая индустрия движется в «тупике»: «Когда модели хорошо справляются только с простыми и средними задачами, но полностью терпят неудачу при возрастающей сложности, становится ясно, что с существующим подходом есть проблема».
Один из моментов, на который обратила внимание Apple, — это отсутствие способности к «общему мышлению», то есть способности распространять понимание конкретной ситуации на аналогичные ситуации.
Когда знания не могут передаваться так, как это обычно делают люди, современные модели легко впадают в состояние «механического запоминания»: они сильны в повторяющихся шаблонах, но слабы в логическом мышлении или дедукции.
Кроме того, исследования показали, что крупномасштабные модели рассуждений потребляют вычислительные ресурсы, многократно выполняя правильные шаги для простых задач, но выбирая неправильный подход с самого начала для несколько более сложных задач.
В отчете был протестирован ряд ведущих моделей, включая o3 от OpenAI, Gemini Thinking от Google, Claude 3.7 Sonnet-Thinking и DeepSeek-R1. Anthropic, Google и DeepSeek пока не ответили на запрос, а OpenAI отказалась от комментариев.
Исследование Apple не отрицает достижений ИИ в области языка, обработки изображений или больших данных. Однако оно указывает на слепое пятно, которое часто упускается из виду: способность к подлинному рассуждению, которая лежит в основе достижения истинного интеллекта.
Источник: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html








Комментарий (0)