Искусственный интеллект пока не способен заменить людей в области программирования. Фото: Джон Макгуайр . |
В последнее время передовые модели ИИ от OpenAI и Anthropic все чаще используются в задачах программирования. ChatGPT и Claude обладают увеличенным объемом памяти и вычислительной мощностью для анализа сотен строк кода, а Gemini интегрирует специальную функцию отображения результатов в виде холста для программистов.
В октябре 2024 года Сундар Пичаи, генеральный директор Google, заявил, что 25% нового кода в компании генерируется с помощью ИИ. Марк Цукерберг, генеральный директор Meta, также выразил стремление к широкому внедрению моделей ИИ в программировании внутри корпорации.
Однако новое исследование, проведенное подразделением Microsoft Research, занимающимся исследованиями и разработками, показывает, что модели искусственного интеллекта, включая Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не способны обрабатывать многие ошибки в тесте программирования SWE-bench Lite.
Авторы исследования изучили девять различных моделей ИИ, которые включали в себя ряд инструментов отладки, таких как отладчик Python, и были способны обрабатывать проблемы в одном операторе. Перед моделями стояла задача решить 300 программных ошибок, выбранных из набора данных SWE-bench Lite.
![]() |
Показатель успешности решения задач программирования из набора данных SWE-bench Lite. Изображение: Microsoft. |
Даже при использовании более мощных и новых моделей результаты показали, что ИИ-агент редко успешно выполнял более половины назначенных задач отладки. Среди протестированных моделей наивысший средний показатель успешности (48,4%) показала модель Claude 3.7 Sonnet, за ней следуют o1 от OpenAI (30,2%) и o3-mini (22,1%).
Среди причин низкой производительности, упомянутых выше, можно отметить, что некоторые модели не понимают, как применять предоставленные инструменты отладки. Кроме того, по мнению авторов, более серьезная проблема заключается в недостатке данных.
Они утверждают, что в системе обучения моделей по-прежнему не хватает данных, имитирующих этапы отладки, которые люди проходят от начала до конца. Другими словами, ИИ недостаточно изучил, как люди думают и действуют шаг за шагом при работе с реальными программными ошибками.
Обучение и доработка моделей помогут им стать более опытными в отладке программного обеспечения. «Однако для этого потребуются специализированные наборы данных для процесса обучения», — заявили авторы.
Многочисленные исследования выявили уязвимости и ошибки в системе безопасности ИИ при генерации кода, обусловленные такими недостатками, как ограниченное понимание логики программирования. Недавний анализ Devin, инструмента программирования на основе ИИ, показал, что он выполнил только 3 из 20 тестов программирования.
Возможности ИИ в области программирования остаются предметом многочисленных дискуссий. Ранее Кевин Вейл, директор по продуктам OpenAI, предположил, что к концу этого года ИИ превзойдет программистов-людей.
С другой стороны, Билл Гейтс, сооснователь Microsoft, считает, что программирование останется востребованной профессией в будущем. Другие лидеры, такие как Амджад Масад (генеральный директор Replit), Тодд Маккиннон (генеральный директор Okta) и Арвинд Кришна (генеральный директор IBM), также выразили поддержку этой точке зрения.
Исследование Microsoft, хотя и не является новым, служит напоминанием программистам, включая менеджеров, о необходимости более тщательно обдумывать, прежде чем передавать все полномочия по написанию кода искусственному интеллекту.
Источник: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html







Комментарий (0)