Vietnam.vn - Nền tảng quảng bá Việt Nam

Проривне дослідження відкриває «чорну скриньку» міркувань штучного інтелекту

Після того, як ви введете свою команду для ШІ та отримаєте результати, вам цікаво, як інструмент визначив вашу відповідь?

ZNewsZNews30/03/2025

Даріо Амодей, генеральний директор Anthropic, ділиться останнім дослідженням компанії. Фото: Fortune .

Дослідники компанії Anthropic, що займається штучним інтелектом, стверджують, що вони зробили фундаментальний прорив у розумінні того, як саме працюють моделі великих мов (LLM), і цей прорив може мати важливі наслідки для підвищення безпеки майбутніх моделей штучного інтелекту.

Дослідження показують, що моделі штучного інтелекту навіть розумніші, ніж ми думали. Одна з найбільших проблем із моделями LLM, які лежать в основі найпотужніших чат-ботів, таких як ChatGPT, Gemini, Copilot, полягає в тому, що вони діють як чорна скринька.

Ми можемо вводити дані та отримувати результати від чат-ботів, але те, як вони отримують конкретну відповідь, залишається загадкою навіть для дослідників, які їх створили.

Через це важко передбачити, коли модель може галюцинувати або видати хибні результати. Дослідники також створили бар'єри, щоб запобігти відповідям ШІ на небезпечні запитання, але вони не пояснюють, чому деякі бар'єри ефективніші за інші.

Агенти ШІ також здатні до «хакінгу з винагородою». У деяких випадках моделі ШІ можуть брехати користувачам про те, що вони зробили або намагаються зробити.

Хоча новітні моделі штучного інтелекту здатні міркувати та генерувати ланцюжки думок, деякі експерименти показали, що вони все ще не точно відображають процес, за допомогою якого модель отримує відповідь.

По суті, інструмент, розроблений дослідниками Anthropic, схожий на сканер фМРТ, який нейробіологи використовують для сканування людського мозку. Застосувавши його до своєї моделі Claude 3.5 Haiku, Anthropic змогла отримати деяке уявлення про те, як працюють моделі LLM.

Дослідники виявили, що хоча Клода навчили лише передбачати наступне слово в реченні, у певних завданнях він навчився планувати більш довгостроково.

Наприклад, коли Клода просили написати вірш, він спочатку знаходив слова, які відповідали темі та могли римуватися, а потім працював у зворотному порядку, щоб написати цілі вірші.

Клод також має спільну мову ШІ. Хоча він навчений підтримувати кілька мов, Клод спочатку думатиме цією мовою, а потім виражатиме свої результати будь-якою мовою, яку вона підтримує.

Крім того, після того, як дослідники запропонували Клоду складну проблему, але навмисно неправильне рішення, вони виявили, що Клод міг брехати про хід своїх думок, дотримуючись пропозиції, щоб догодити користувачеві.

В інших випадках, коли Клоду ставили просте запитання, на яке модель могла відповісти негайно без міркувань, він все одно сфабриковував фальшивий процес міркування.

Джош Бастон, дослідник Anthropic, сказав, що хоча Клод стверджував, що було виконано розрахунок, він не зміг знайти жодних змін.

Тим часом експерти стверджують, що є дослідження, які показують, що іноді люди навіть не розуміють самих себе, а лише створюють раціональні пояснення для виправдання прийнятих рішень.

Загалом, люди схильні мислити подібним чином. Саме тому психологи виявили поширені когнітивні упередження.

Однак, фахівці з права можуть робити помилки, яких не можуть робити люди, оскільки спосіб, у який вони генерують відповіді, дуже відрізняється від способу, у який ми виконуємо завдання.

Команда Anthropic впровадила метод групування нейронів у схеми на основі ознак, замість аналізу кожного нейрона окремо, як це було в попередніх методах.

Такий підхід, за словами пана Бастона, допомагає зрозуміти, які ролі відіграють різні компоненти, і дозволяє дослідникам відстежувати весь процес логічного висновку через усі шари мережі.

Цей метод також має обмеження: він є лише приблизним і не відображає всю обробку інформації LLM, особливо зміну процесу уваги, що дуже важливо, коли LLM дає результати.

Крім того, ідентифікація нейронних мереж, навіть для речень довжиною лише кілька десятків слів, потребує експертних годин. Кажуть, що поки що незрозуміло, як розширити цю методику для аналізу довших речень.

Незважаючи на обмеження, здатність LLM контролювати свій внутрішній процес міркування відкриває нові можливості для управління системами штучного інтелекту для забезпечення безпеки.

Водночас, це також може допомогти дослідникам розробити нові методи навчання, покращити бар'єри контролю ШІ та зменшити ілюзії та оманливі результати.

Джерело: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


Коментар (0)

No data
No data

У тій самій категорії

Кам'яне плато Донг Ван - рідкісний у світі «живий геологічний музей»
Дивіться, як прибережне місто В'єтнаму потрапило до списку найкращих туристичних напрямків світу у 2026 році
Помилуйтеся «затокою Халонг на суші», яка щойно увійшла до списку найулюбленіших місць у світі
Квіти лотоса «фарбують» Нінь Бінь у рожевий колір зверху

Того ж автора

Спадщина

Фігура

Бізнес

Висотні будівлі в Хошиміні оповиті туманом.

Поточні події

Політична система

Місцевий

Продукт