Vietnam.vn - Nền tảng quảng bá Việt Nam

Проривне дослідження розкриває «чорну скриньку» мислення штучного інтелекту.

Після введення команди в ШІ та отримання результату, вам цікаво, як інструмент отримав вашу відповідь?

ZNewsZNews30/03/2025

Даріо Амодей, генеральний директор Anthropic, ділиться думками щодо останніх досліджень компанії. Фото: Fortune .

Дослідники компанії Anthropic, що займається штучним інтелектом, стверджують, що вони досягли фундаментального прориву в розумінні того, як саме працюють моделі великих мов програмування (LLM). Цей прорив має значні наслідки для підвищення безпеки майбутніх моделей штучного інтелекту.

Дослідження показують, що моделі штучного інтелекту навіть розумніші, ніж ми думали. Одна з найбільших проблем моделей LLM, які лежать в основі найпотужніших чат-ботів, таких як ChatGPT, Gemini та Copilot, полягає в тому, що вони функціонують як чорна скринька.

Ми можемо вводити інформацію та отримувати результати від чат-ботів, але те, як вони надають конкретну відповідь, залишається загадкою навіть для дослідників, які їх створили.

Через це важко передбачити, коли модель може бути схильною до галюцинацій, тобто давати оманливі результати. Дослідники також створили бар'єри, щоб запобігти відповідям штучного інтелекту на небезпечні запитання, але вони не змогли пояснити, чому деякі бар'єри були ефективнішими за інші.

Агенти ШІ також мають потенціал для «хакінгу з винагородою». У деяких випадках моделі ШІ можуть брехати користувачам про те, що вони зробили або намагаються зробити.

Хоча новітні моделі штучного інтелекту здатні міркувати та генерувати ланцюжки думок, деякі експерименти показали, що вони все ще не точно відображають процес, за допомогою якого моделі отримують відповіді.

По суті, інструмент, розроблений дослідниками Anthropic, схожий на сканер фМРТ, який нейробіологи використовують для сканування людського мозку. Застосувавши його до своєї моделі Claude 3.5 Haiku, Anthropic змогла частково зрозуміти, як працюють моделі LLM.

Дослідники виявили, що хоча Клода навчили лише передбачати наступне слово в реченні, у певних завданнях він спонтанно навчився планувати на довгострокову перспективу.

Наприклад, коли Клода просили написати вірш, він спочатку шукав слова, які відповідали темі та могли б римуватися, а потім повертався до завершення вірша.

Клод також має спільну мову штучного інтелекту. Хоча Клод навчений підтримувати кілька мов, він спочатку думатиме цією мовою, а потім виражатиме результати будь-якою мовою, яку вона підтримує.

Крім того, після того, як дослідники задали Клоду складну задачу, але навмисно запропонували неправильне рішення, вони виявили, що Клод міг брехати про свій хід думок, дотримуючись поради, щоб догодити користувачеві.

В інших випадках, коли Клоду ставили просте запитання, на яке модель могла відповісти негайно без міркувань, він все одно сфабрикував хибний процес висновку.

Джош Бастон, дослідник Anthropic, сказав, що хоча Клод стверджував, що система виконала розрахунок, він все одно не зміг знайти нічого, що сталося.

Тим часом експерти стверджують, що дослідження показують, що іноді люди навіть не розуміють самих себе, а натомість створюють раціональні пояснення, щоб виправдати свої рішення.

Загалом, люди мають схожі моделі мислення. Саме тому психологія виявила поширені когнітивні упередження.

Однак, фахівці з права можуть робити помилки, яких не можуть робити люди, оскільки спосіб, у який вони генерують відповіді, разюче відрізняється від нашого підходу до виконання завдання.

Дослідницька група Anthropic впровадила метод групування нейронів у ланцюги на основі характеристик, а не аналізувала кожен нейрон окремо, як у попередніх методах.

Бастон пояснив, що цей метод спрямований на розуміння ролей, які відіграють різні компоненти, і дозволяє дослідникам відстежувати весь процес міркування на всіх рівнях мережі.

Цей метод також має обмеження, оскільки він є лише наближеним і не відображає весь процес обробки інформації LLM, особливо зміни уваги, які є вирішальними для отримання результатів LLM.

Крім того, ідентифікація шаблонів нейронної мережі, навіть з командами довжиною лише кілька десятків слів, займає у експерта години. Кажуть, що досі незрозуміло, як масштабувати цю методику для аналізу довших команд.

Незважаючи на свої обмеження, здатність LLM контролювати внутрішні процеси міркування відкриває багато нових можливостей у керуванні системами штучного інтелекту для забезпечення безпеки.

Водночас, це може допомогти дослідникам розробити нові методи навчання, покращити бар'єри керування ШІ та мінімізувати галюцинації та помилкові результати.

Джерело: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


Коментар (0)

Залиште коментар, щоб поділитися своїми почуттями!

У тій самій категорії

Крупний план майстерні, де виготовляють світлодіодну зірку для собору Нотр-Дам.
Особливо вражає 8-метрова Різдвяна зірка, що освітлює собор Нотр-Дам у Хошиміні.
Хюїнь Нху творить історію на Іграх SEA: рекорд, який буде дуже важко побити.
Приголомшлива церква на шосе 51 освітилася на Різдво, привертаючи увагу всіх, хто проходив повз.

Того ж автора

Спадщина

Фігура

Бізнес

Фермери у квітковому селі Са Дек зайняті доглядом за своїми квітами, готуючись до фестивалю та Тет (Місячного Нового року) 2026.

Поточні події

Політична система

Місцевий

Продукт