Vietnam.vn - Nền tảng quảng bá Việt Nam

Прорывные исследования открывают «черный ящик» логики искусственного интеллекта.

После ввода команды в систему искусственного интеллекта и получения результата, вам интересно, как инструмент пришел к вашему ответу?

ZNewsZNews30/03/2025

Дарио Амодей, генеральный директор Anthropic, делится результатами последних исследований компании. Фото: Fortune .

Исследователи из компании Anthropic, занимающейся разработкой искусственного интеллекта, заявляют о фундаментальном прорыве в понимании того, как именно работают большие языковые модели (LLM). Этот прорыв имеет важное значение для повышения безопасности и защищенности будущих моделей ИИ.

Исследования показывают, что модели ИИ даже умнее, чем мы думали. Одна из самых больших проблем моделей LLM, лежащих в основе самых мощных чат-ботов, таких как ChatGPT, Gemini и Copilot, заключается в том, что они работают как черный ящик.

Мы можем вводить информацию и получать результаты от чат-ботов, но как именно они выдают конкретный ответ, остается загадкой даже для исследователей, которые их создали.

Это затрудняет прогнозирование того, когда модель может быть склонна к галлюцинациям, то есть к выдаче вводящих в заблуждение результатов. Исследователи также создали барьеры, чтобы предотвратить ответы ИИ на опасные вопросы, но они не смогли объяснить, почему одни барьеры оказались более эффективными, чем другие.

ИИ-агенты также потенциально способны к «хакингу с целью получения вознаграждения». В некоторых случаях модели ИИ могут обманывать пользователей относительно того, что они сделали или пытаются сделать.

Хотя современные модели ИИ способны рассуждать и генерировать цепочки мыслей, некоторые эксперименты показали, что они по-прежнему неточно отражают процесс, посредством которого модели приходят к ответам.

По сути, инструмент, разработанный исследователями из Anthropic, похож на МРТ-сканер, который нейробиологи используют для сканирования человеческого мозга. Применив его к своей модели хайку Клода 3.5, Anthropic смогла частично понять, как работают модели LLM.

Исследователи обнаружили, что, хотя Клода обучали только предсказывать следующее слово в предложении, в определенных задачах он спонтанно учился планировать на более долгосрочную перспективу.

Например, когда Клода просили написать стихотворение, он сначала искал слова, подходящие к теме и рифмующиеся с ней, а затем возвращался к написанному стиху, чтобы его закончить.

У Клода также есть общий язык ИИ. Хотя он обучен поддерживать несколько языков, Клод сначала будет думать на этом языке, а затем выражать результаты на том языке, который он поддерживает.

Кроме того, после того как исследователям дали Клоду сложную задачу, но намеренно предложили неверное решение, они обнаружили, что Клод мог лгать о ходе своих мыслей, следуя предложению, чтобы угодить пользователю.

В других случаях, когда Клоду задавали простой вопрос, на который модель могла ответить немедленно, без каких-либо рассуждений, он все равно строил ложный вывод.

Джош Бастон, исследователь из компании Anthropic, заявил, что, несмотря на утверждения Клода о проведении расчетов, он так и не смог обнаружить никаких признаков произошедшего.

Между тем, эксперты утверждают, что исследования показывают: иногда люди даже не понимают самих себя, а вместо этого придумывают рациональные объяснения, чтобы оправдать принимаемые ими решения.

В целом, у людей схожие модели мышления. Именно поэтому в психологии были обнаружены общие когнитивные искажения.

Однако программисты с низким уровнем знаний могут совершать ошибки, которые не свойственны людям, поскольку их подход к поиску ответов существенно отличается от нашего.

Исследовательская группа Anthropic внедрила метод группировки нейронов в нейронные цепи на основе их характеристик, вместо анализа каждого нейрона по отдельности, как это делалось в предыдущих методиках.

Бастон объяснил, что этот метод направлен на понимание ролей, которые играют различные компоненты, и позволяет исследователям отслеживать весь процесс рассуждений на всех уровнях сети.

Этот метод также имеет ограничения, поскольку он является лишь приближением и не отражает весь процесс обработки информации в LLM, особенно изменения внимания, которые имеют решающее значение для получения результатов при использовании LLM.

Кроме того, выявление закономерностей в нейронных сетях, даже при работе с командами длиной всего в несколько десятков слов, занимает у эксперта несколько часов. По словам специалистов, до сих пор неясно, как масштабировать этот метод для анализа более длинных команд.

Несмотря на свои ограничения, способность LLM отслеживать внутренние процессы рассуждения открывает множество новых возможностей в управлении системами искусственного интеллекта для обеспечения безопасности.

В то же время это может помочь исследователям разработать новые методы обучения, улучшить барьеры управления ИИ и свести к минимуму галлюцинации и ошибочные результаты.

Источник: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


Комментарий (0)

Оставьте комментарий, чтобы поделиться своими чувствами!

Та же категория

Крупный план мастерской по изготовлению светодиодной звезды для собора Нотр-Дам.
Особенно впечатляет восьмиметровая рождественская звезда, освещающая собор Нотр-Дам в Хошимине.
Хуинь Нху вошла в историю Игр Юго-Восточной Азии: рекорд, который будет очень трудно побить.
Потрясающая церковь на шоссе № 51 была украшена рождественской иллюминацией, привлекая внимание всех проезжающих мимо.

Тот же автор

Наследство

Фигура

Предприятия

Фермеры в цветочной деревне Са Дек заняты уходом за своими цветами в рамках подготовки к празднику и Тету (Лунному Новому году) 2026 года.

Текущие события

Политическая система

Местный

Продукт