AIはまだプログラミングの分野で人間を代替することはできない。写真:ジョン・マクガイア |
近年、OpenAIやAnthropicといった先進的なAIモデルが、プログラミングアプリケーションへの活用事例として増加している。ChatGPTとClaudeはメモリと処理能力を向上させ、数百行のコードを解析できるようになった一方、Geminiはプログラマー向けに専用のCanvas形式の解析結果表示機能を統合している。
2024年10月、GoogleのCEOであるサンダー・ピチャイ氏は、同社で生成される新規コードの25%がAIによって生成されたと述べた。MetaのCEOであるマーク・ザッカーバーグ氏も、AIコーディングモデルを社内で広く展開していく意向を表明した。
しかし、マイクロソフトの研究開発部門であるマイクロソフトリサーチによる新たな研究によると、AnthropicのClaude 3.7 SonnetやOpenAIのo3-miniなどのAIモデルは、SWE-bench Liteと呼ばれるプログラミングベンチマークにおける多くのエラーを処理できないことが明らかになった。
本研究の著者らは、Pythonデバッガーなどの様々なデバッグツールを組み込み、単一のステートメントで問題を処理できる9種類の異なるAIモデルを検証した。これらのモデルには、SWE-bench Liteデータセットから選択された300個のソフトウェアバグを解決するタスクが与えられた。
![]() |
SWE-bench Liteデータセットを用いたプログラミング問題の解決における正答率。画像提供:マイクロソフト。 |
より高性能で新しいモデルを搭載した場合でも、AIエージェントが割り当てられたデバッグタスクの半分以上を正常に完了することは稀であることが結果から明らかになった。テストされたモデルの中で、Claude 3.7 Sonnetが平均成功率48.4%で最も高く、次いでOpenAIのo1が30.2%、o3-miniが22.1%だった。
上記のようなパフォーマンス低下の理由としては、一部のモデルが提供されたデバッグツールを正しく適用できないことが挙げられる。さらに、著者らによれば、より大きな問題は十分なデータが不足していることにあるという。
彼らは、モデルの学習システムには、人間がデバッグを最初から最後まで行う手順をシミュレートするデータがまだ不足していると主張する。言い換えれば、AIは、現実世界のソフトウェアバグに対処する際に、人間がどのように考え、段階的に行動するかについて十分に学習していないということだ。
モデルのトレーニングと改良を行うことで、ソフトウェアのデバッグ能力が向上するだろう。「ただし、そのためにはトレーニングプロセス専用のデータセットが必要となる」と著者らは述べている。
数多くの研究が、プログラミングロジックの理解不足といった弱点から、AIのコード生成過程におけるセキュリティ上の脆弱性やエラーを指摘している。AI搭載プログラミングツールであるDevinの最近のレビューでは、20個のプログラミングテストのうち、完了できたのはわずか3個だったことが明らかになった。
AIのプログラミング能力については、依然として多くの議論が交わされている。以前、OpenAIのプロダクトディレクターであるケビン・ワイル氏は、今年末までにAIが人間のプログラマーを凌駕するだろうと示唆した。
一方、マイクロソフトの共同創業者であるビル・ゲイツは、プログラミングは将来も持続可能な職業であり続けると考えている。アムジャド・マサド(ReplitのCEO)、トッド・マッキノン(OktaのCEO)、アーヴィンド・クリシュナ(IBMのCEO)といった他のリーダーたちも、この見解を支持している。
マイクロソフトの研究は目新しいものではないものの、プログラマーやマネージャーに対し、AIにコーディング権限を完全に委譲する前に、より慎重に検討するよう促すものとなっている。
出典:https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html







コメント (0)