AIはプログラミングの分野ではまだ人間に取って代わることはできません。写真:ジョン・マグワイア。 |
最近では、OpenAI や Anthropic の主要な AI モデルが、プログラミング アプリケーションでますます広く使用されるようになっています。 ChatGPT と Claude は、数百行のコードを分析できるようにメモリと処理能力を増強しました。また、Gemini はプログラマー専用の Canvas 結果表示を統合しました。
2024年10月、Google CEOのサンダー・ピチャイ氏は、同社の新規コードの25%がAIによって生成されたと述べた。 MetaのCEOであるマーク・ザッカーバーグ氏も、コーディングAIモデルを社内に広く導入したいという意欲を表明した。
しかし、マイクロソフトの研究開発部門であるマイクロソフトリサーチによる新たな調査では、Anthropic の Claude 3.7 Sonnet や OpenAI の o3-mini などの AI モデルが、SWE-bench Lite と呼ばれるプログラミングテストベンチマークで多くのエラーを処理できなかったことが示されています。
研究の著者らは、Python デバッガーなどのさまざまなデバッグ ツールと統合された 9 つの異なる AI モデルをテストし、単一のステートメントで問題を処理することができました。モデルは、SWE-bench Lite データセットから選択された 300 個のソフトウェア バグを解決するという課題を与えられました。
![]() |
SWE-bench Lite データセットからプログラミング問題を解決したときの成功率。写真: Microsoft。 |
より新しく強力なモデルを装備した場合でも、AI エージェントが割り当てられたデバッグ タスクの半分以上を正常に完了することはほとんどないという結果が出ています。テストされたモデルの中では、Claude 3.7 Sonnetが48.4%と最も高い平均成功率を達成し、OpenAIのo1が30.2%、o3-miniが22.1%で続いた。
パフォーマンスが低い理由の 1 つとして、一部のモデルが提供されたデバッグ ツールの適用方法を理解していないことが挙げられます。さらに、著者らによると、より大きな問題はデータが不十分であることにあるという。
彼らは、モデルをトレーニングするシステムには、人間が最初から最後まで行うデバッグ手順をシミュレートするデータがまだ不足していると主張しています。言い換えれば、AI は実際のソフトウェアのバグに対処する際に人間が段階的にどのように考え、行動するかを十分に学習していないのです。
モデルをトレーニングし、微調整することで、ソフトウェアのデバッグ能力が向上します。 「しかし、これにはトレーニング用の特殊なデータセットが必要になる」と著者らは述べている。
多くの研究で、プログラミングロジックを理解する能力が限られているなどの弱点により、コード生成中に AI にセキュリティ上の脆弱性やエラーが発生する可能性が指摘されています。 AI プログラミング ツールである Devin の最近のレビューでは、20 個のプログラミング テストのうち 3 個しか完了していないことが判明しました。
AI のプログラム可能性については依然として議論が続いています。以前、OpenAIのプロダクトディレクターのケビン・ワイル氏は、今年末までにAIが人間のプログラマーを超えるだろうと述べていました。
一方、マイクロソフトの共同創設者であるビル・ゲイツは、プログラミングは将来も持続可能なキャリアになると信じています。アムジャド・マサド氏(Replit CEO)、トッド・マッキノン氏(Okta CEO)、アルヴィンド・クリシュナ氏(IBM CEO)などの他のリーダーたちもこの見解への支持を表明している。
マイクロソフトの研究は目新しいものではないが、マネージャーを含むプログラマーに対し、コーディングの完全な制御を AI に委ねる前にもっと慎重に考えるよう警告するものでもある。
出典: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html
コメント (0)