Vietnam.vn - Nền tảng quảng bá Việt Nam

Прорывное исследование открывает «черный ящик» мышления искусственного интеллекта

После того, как вы ввели команду ИИ и получили результаты, вам интересно, как инструмент понял ваш ответ?

ZNewsZNews30/03/2025

Дарио Амодеи, генеральный директор Anthropic, рассказывает о последних исследованиях компании. Фото: Fortune .

Исследователи из компании Anthropic, занимающейся разработкой технологий искусственного интеллекта, утверждают, что им удалось совершить фундаментальный прорыв в понимании того, как именно работают большие языковые модели (LLM). Этот прорыв может иметь важные последствия для повышения безопасности и надежности будущих моделей искусственного интеллекта.

Исследования показывают, что модели ИИ даже умнее, чем мы думали. Одна из самых больших проблем моделей LLM, лежащих в основе самых мощных чат-ботов, таких как ChatGPT, Gemini и Copilot, заключается в том, что они действуют как чёрный ящик.

Мы можем вводить данные и получать результаты от чат-ботов, но как они приходят к конкретному ответу, остается загадкой даже для исследователей, которые их создали.

Это затрудняет прогнозирование того, когда модель может начать галлюцинировать или выдавать ложные результаты. Исследователи также создали барьеры, мешающие ИИ отвечать на опасные вопросы, но они не объясняют, почему одни барьеры эффективнее других.

Агенты ИИ также способны к «хакерской атаке с целью получения вознаграждения». В некоторых случаях модели ИИ могут лгать пользователям о том, что они сделали или пытаются сделать.

Хотя современные модели ИИ способны рассуждать и генерировать цепочки мыслей, некоторые эксперименты показали, что они все еще неточно отражают процесс, посредством которого модель приходит к ответу.

По сути, инструмент, разработанный исследователями Anthropic, аналогичен сканерам фМРТ, которые нейробиологи используют для сканирования человеческого мозга. Применив его к своей модели Claude 3.5 Haiku, Anthropic удалось получить некоторое представление о том, как работают модели LLM.

Исследователи обнаружили, что, хотя Клод был обучен только предугадывать следующее слово в предложении, при выполнении некоторых задач он научился планировать более долгосрочно.

Например, когда Клода просили написать стихотворение, он сначала находил слова, которые соответствовали теме и могли рифмоваться, а затем работал в обратном порядке, чтобы написать законченные стихи.

У Клода также есть общий язык ИИ. Хотя он обучен поддерживать несколько языков, Клод сначала думает на этом языке, а затем выражает результаты на том языке, который поддерживает.

Кроме того, поставив Клоду сложную задачу, но намеренно предложив неверное решение, исследователи обнаружили, что Клод мог лгать о ходе своих мыслей, следуя предложению, чтобы угодить пользователю.

В других случаях, когда модели задавали простой вопрос, на который она могла ответить немедленно, не рассуждая, Клод все равно имитировал фальшивый процесс рассуждения.

Джош Бастон, исследователь из Anthropic, сказал, что, хотя Клод и утверждал, что провел расчеты, он не обнаружил никаких событий.

Между тем эксперты утверждают, что существуют исследования, показывающие, что порой люди даже не понимают себя, а лишь создают рациональные объяснения, чтобы оправдать принятые решения.

В целом, люди склонны мыслить схожим образом. Именно поэтому психологи обнаружили общие когнитивные искажения.

Однако LLM могут совершать ошибки, которые не свойственны людям, поскольку способ, которым они генерируют ответы, сильно отличается от того, как мы выполняем задачу.

Команда Anthropic реализовала метод, который группирует нейроны в цепи на основе характеристик вместо того, чтобы анализировать каждый нейрон по отдельности, как это делали предыдущие методы.

По словам Бастона, такой подход помогает понять, какие роли играют различные компоненты, и позволяет исследователям отслеживать весь процесс вывода через слои сети.

Этот метод также имеет ограничение, заключающееся в том, что он является лишь приблизительным и не отражает весь процесс обработки информации в LLM, особенно процесс изменения внимания, который очень важен, когда LLM дает результаты.

Кроме того, выявление нейронных сетей даже для предложений длиной всего в несколько десятков слов занимает у эксперта много часов. Они говорят, что пока неясно, как расширить эту методику для анализа более длинных предложений.

Если оставить в стороне ограничения, способность LLM отслеживать внутренние рассуждения открывает новые возможности для управления системами ИИ с целью обеспечения безопасности и защиты.

В то же время это может также помочь исследователям разработать новые методы обучения, улучшить барьеры контроля ИИ, а также уменьшить иллюзии и вводящие в заблуждение результаты.

Источник: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


Комментарий (0)

No data
No data
Волшебное зрелище на холме с перевернутыми чашами чая в Пху Тхо
Три острова в Центральном регионе сравнивают с Мальдивами, привлекая туристов летом.
Полюбуйтесь сверкающим прибрежным городом Куинён в Гиалай ночью.
Изображение террасных полей в Пху Тхо, пологих, ярких и прекрасных, как зеркала перед началом посевной.
Фабрика Z121 готова к финалу Международного фестиваля фейерверков
Известный журнал о путешествиях назвал пещеру Шондонг «самой великолепной на планете»
Таинственная пещера привлекает западных туристов, ее сравнивают с пещерой Фонгня в Тханьхоа.
Откройте для себя поэтическую красоту залива Винь-Хи
Как обрабатывается самый дорогой чай в Ханое, стоимостью более 10 миллионов донгов за кг?
Вкус речного региона

Наследство

Фигура

Бизнес

No videos available

Новости

Политическая система

Местный

Продукт