Роковая слабость ИИ

ИИ пока не заменил людей в программировании. Фото: Джон Макгуайр .

В последнее время ведущие модели искусственного интеллекта от OpenAI и Anthropic всё чаще используются для программирования приложений. ChatGPT и Claude увеличили объём памяти и вычислительную мощность, чтобы анализировать сотни строк кода, а Gemini интегрировал отображение результатов Canvas специально для программистов.

В октябре 2024 года генеральный директор Google Сундар Пичаи заявил, что 25% нового кода в компании будет генерироваться с помощью ИИ. Марк Цукерберг, генеральный директор Meta, также выразил намерение широко внедрить модели ИИ для написания кода в корпорации.

Однако новое исследование Microsoft Research, научно-исследовательского подразделения Microsoft, показывает, что модели ИИ, включая Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не смогли обработать множество ошибок в тесте программирования под названием SWE-bench Lite.

Авторы исследования протестировали девять различных моделей искусственного интеллекта, интегрированных с различными инструментами отладки, такими как отладчик Python, и смогли решить проблемы одним оператором. Моделям было поручено исправить 300 программных ошибок, выбранных из набора данных SWE-bench Lite.

Процент успешного решения задач программирования с использованием набора данных SWE-bench Lite. Фото: Microsoft.

Даже при использовании более новых и мощных моделей результаты показали, что агенты ИИ редко успешно справлялись более чем с половиной поставленных задач отладки. Среди протестированных моделей наивысший средний показатель успешности — 48,4% — показала Claude 3.7 Sonnet, за ней следуют o1 от OpenAI — 30,2% и o3-mini — 22,1%.

Среди причин столь низкой производительности — непонимание некоторыми моделями того, как применять предоставленные инструменты отладки. Кроме того, по мнению авторов, более серьёзная проблема кроется в недостаточном объёме данных.

Они утверждают, что система, обучающая модели, всё ещё не располагает данными, имитирующими этапы отладки, которые выполняет человек от начала до конца. Другими словами, ИИ недостаточно изучил, как люди думают и действуют шаг за шагом, сталкиваясь с реальной ошибкой в программном обеспечении.

Обучение и тонкая настройка моделей позволят им эффективнее отлаживать программное обеспечение. «Однако для этого потребуются специализированные обучающие наборы данных», — отметили авторы.

Многочисленные исследования выявили уязвимости безопасности и ошибки в генерации кода ИИ, связанные с такими недостатками, как ограниченное понимание логики программирования. Недавний обзор Devin, инструмента программирования ИИ, показал, что он успешно выполнил только 3 из 20 тестов программирования.

Возможности программирования ИИ всё ещё вызывают споры. Ранее Кевин Вейл, директор по продуктам OpenAI, заявил, что к концу этого года ИИ превзойдёт программистов-людей.

С другой стороны, Билл Гейтс, соучредитель Microsoft, считает, что программирование по-прежнему будет стабильной карьерой в будущем. Другие лидеры, такие как Амджад Масад (генеральный директор Replit), Тодд Маккиннон (генеральный директор Okta) и Арвинд Кришна (генеральный директор IBM), также поддержали эту точку зрения.

Исследование Microsoft, хотя и не является новым, также является напоминанием программистам, включая руководителей, о необходимости более тщательно подумать, прежде чем отдавать полный контроль над кодированием ИИ.

Источник: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html