Фатальна слабкість ШІ

Дослідження показують, що попри сміливі заяви про програмні можливості штучного інтелекту, обробка помилок залишається сферою, в якій люди досягають успіху.

ZNews•12/04/2025

Штучний інтелект поки що не здатний замінити людей у сфері програмування. Фото: Джон Макгвайр .

Останнім часом провідні моделі штучного інтелекту від OpenAI та Anthropic все частіше використовуються для програмування додатків. ChatGPT та Claude мають збільшений обсяг пам'яті та обчислювальну потужність для аналізу сотень рядків коду, тоді як Gemini інтегрує спеціальну функцію відображення результатів Canvas для програмістів.

У жовтні 2024 року Сундар Пічаї, генеральний директор Google, заявив, що 25% нового коду в компанії було згенеровано штучним інтелектом. Марк Цукерберг, генеральний директор Meta, також висловив амбіції щодо широкого впровадження моделей кодування на основі штучного інтелекту в корпорації.

Однак нове дослідження Microsoft Research, підрозділу досліджень і розробок Microsoft, показує, що моделі штучного інтелекту, включаючи Claude 3.7 Sonnet від Anthropic та o3-mini від OpenAI, не здатні обробляти багато помилок у бенчмарку програмування під назвою SWE-bench Lite.

Автори дослідження розглянули дев'ять різних моделей штучного інтелекту, які включали низку інструментів налагодження, таких як налагоджувач Python, і були здатні обробляти проблеми одним оператором. Моделям було доручено вирішити 300 програмних помилок, відібраних з набору даних SWE-bench Lite.

Рівень успішності розв'язання задач програмування з набору даних SWE-bench Lite. Зображення: Microsoft.

Навіть за наявності потужніших та новіших моделей, результати показали, що агент ШІ рідко успішно виконував більше половини призначених завдань налагодження. Серед протестованих моделей Claude 3.7 Sonnet досяг найвищого середнього показника успішності – 48,4%, далі йдуть o1 від OpenAI з 30,2% та o3-mini з 22,1%.

Деякі причини низької продуктивності, згаданої вище, включають те, що деякі моделі не розуміють, як застосовувати надані інструменти налагодження. Крім того, на думку авторів, більша проблема полягає у відсутності достатньої кількості даних.

Вони стверджують, що системі навчання моделей все ще бракує даних, які б імітували кроки налагодження, які люди виконують від початку до кінця. Іншими словами, штучний інтелект недостатньо вивчив, як люди думають і діють крок за кроком, стикаючись з реальними програмними помилками.

Навчання та вдосконалення моделей допоможе їм стати більш вправними у налагодженні програмного забезпечення. «Однак для цього знадобляться спеціалізовані набори даних для процесу навчання», – заявили автори.

Численні дослідження вказували на вразливості безпеки та помилки в ШІ під час генерації коду через такі недоліки, як обмежене розуміння логіки програмування. Нещодавній огляд Devin, інструменту програмування на базі ШІ, показав, що він виконав лише 3 з 20 тестів програмування.

Програмні можливості ШІ залишаються предметом численних дискусій. Раніше Кевін Вейл, директор з продуктів OpenAI, припустив, що до кінця цього року ШІ перевершить програмістів-людей.

З іншого боку, Білл Гейтс, співзасновник Microsoft, вважає, що програмування залишиться стабільною кар'єрою в майбутньому. Інші лідери, такі як Амджад Масад (генеральний директор Replit), Тодд Маккіннон (генеральний директор Okta) та Арвінд Крішна (генеральний директор IBM), також висловили свою підтримку цій точці зору.

Дослідження Microsoft, хоча й не нове, слугує нагадуванням програмістам, включаючи менеджерів, ретельніше подумати, перш ніж передавати повні повноваження щодо кодування штучному інтелекту.

Джерело: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html