Новое исследование Apple по большим моделям вывода привлекает внимание. Фото: Macrumors . |
Всего через три года после запуска искусственный интеллект начал появляться во многих повседневных видах деятельности, таких как учеба и работа. Многие опасаются, что пройдет немного времени, прежде чем он сможет заменить людей.
Но новые модели ИИ не настолько умны, как мы думаем. Открытие крупной технологической компании помогло укрепить эту веру.
Все знают, что «слишком сложно игнорировать»
В недавно опубликованном исследовании под названием «Иллюзорное мышление» исследовательская группа Apple утверждает, что такие модели вывода, как Claude, DeepSeek-R1 и o3-mini, на самом деле не «управляются мозгом», как следует из их названий.
Слово вывод следует заменить на «имитация». Группа утверждает, что эти модели просто эффективны при запоминании и повторении шаблонов. Но когда вопрос меняется или сложность увеличивается, они почти рушатся.
Проще говоря, чат-боты работают хорошо, когда они могут распознавать и сопоставлять шаблоны, но как только проблема становится слишком сложной, они не могут с ней справиться. «Современные большие модели рассуждений (LRM) страдают от полного коллапса точности, когда сложность превышает определенный порог», — отмечается в исследовании.
Это противоречит ожиданиям разработчика, что сложность улучшится с увеличением ресурсов. «Усилия по выводу ИИ увеличиваются с ростом сложности, но только до определенного момента, а затем уменьшаются, даже если все еще достаточно бюджета токенов (вычислительной мощности) для его обработки», — добавили в исследовании.
В этом исследовании ученые перевернули модель вопросов, которая обычно используется для ответа на вопросы, с ног на голову. Вместо обычного математического теста они представили хитроумно разработанные головоломки, такие как Tower of Hanoi, Checker Jumping, River Crossing и Blocks World.
Каждая игра-головоломка имеет простые и понятные правила с различными уровнями сложности, такими как добавление большего количества дисков, блоков и агентов. Модель вывода работает лучше на средней сложности, но проигрывает обычной версии на легкой. Примечательно, что на высокой сложности все полностью разваливается, как будто ИИ сдался.
В задаче о Ханойской башне команда не улучшила производительность модели вывода, несмотря на «кормление» алгоритма решения задач. Некоторые модели могли хорошо справляться с игрой до 100 уровней, но смогли пройти только 5 шагов неполностью в задаче о пересечении реки.
![]() |
В игре «Ханойская башня» игрокам нужно перемещать и менять положение кругов в порядке их размера. Фото: Википедия. |
Это указывает на плохую производительность вывода, а также на плохую стабильность моделей LRM. На фоне многочисленных споров о способности ИИ соответствовать людям это новое исследование Apple доказывает обратное.
Открытие Apple не ново
Гэри Маркус, американский психолог и автор, сказал, что выводы Apple были впечатляющими, но не совсем новыми и просто подкрепили предыдущие исследования. Почетный профессор психологии и нейронауки в Нью-Йоркском университете привел в пример свое исследование 1998 года.
В своей работе он утверждает, что нейронные сети, предшественники больших языковых моделей, способны хорошо обобщать данные в пределах распределения, на котором они были обучены, но часто терпят неудачу, сталкиваясь с данными за пределами этого распределения.
Он также цитирует аргументы, высказанные в последние годы ученым-компьютерщиком из Университета штата Аризона Суббарао Камбхампати. Профессор Рао считает, что «мысленные цепочки» и «модели вывода» по своей сути менее надежны, чем думают многие люди.
«Люди склонны чрезмерно антропоморфизировать следы умозаключений больших языковых моделей, называя их «мыслями», хотя они, возможно, и не заслуживают этого названия», — говорит профессор, написавший серию статей о том, что последовательности мыслей, генерируемые магистрами права, не всегда точно отражают то, что они на самом деле делают.
Новое исследование Apple показывает, что даже последнее поколение моделей вывода ненадежно за пределами их обучающих данных. Маркус говорит, что модели LLM и LRM имеют свои применения и полезны в некоторых случаях. Однако пользователи не должны доверять ни одному из их результатов.
Источник: https://znews.vn/apple-doi-gao-nuoc-lanh-vao-ai-suy-luan-post1559526.html
Комментарий (0)