KI kann den Menschen im Bereich der Programmierung noch nicht ersetzen. Foto: John McGuire . |
In letzter Zeit werden führende KI-Modelle von OpenAI und Anthropic immer häufiger für Programmieranwendungen eingesetzt. ChatGPT und Claude verfügen über erhöhten Speicher und mehr Rechenleistung, um Hunderte von Codezeilen analysieren zu können, oder Gemini hat eine Canvas-Ergebnisanzeige speziell für Programmierer integriert.
Im Oktober 2024 sagte Google-CEO Sundar Pichai, dass 25 % des neuen Codes im Unternehmen durch KI generiert würden. Mark Zuckerberg, CEO von Meta, äußerte ebenfalls die Ambition, codierte KI-Modelle im gesamten Unternehmen breit einzusetzen.
Eine neue Studie von Microsoft Research, der Forschungs- und Entwicklungsabteilung von Microsoft, zeigt jedoch, dass KI-Modelle, darunter Claude 3.7 Sonnet von Anthropic und o3-mini von OpenAI, viele Fehler in einem Programmiertest-Benchmark namens SWE-bench Lite nicht bewältigen konnten.
Die Autoren der Studie testeten neun verschiedene KI-Modelle, die in verschiedene Debugging-Tools wie den Python-Debugger integriert waren und das Problem mit einer einzigen Anweisung beheben konnten. Die Modelle hatten die Aufgabe, 300 aus dem SWE-Bench Lite-Datensatz ausgewählte Softwarefehler zu beheben.
![]() |
Erfolgsrate beim Lösen von Programmierproblemen aus dem SWE-Bench Lite-Datensatz. Foto: Microsoft. |
Selbst wenn KI-Agenten mit neueren und leistungsfähigeren Modellen ausgestattet sind, zeigen die Ergebnisse, dass sie selten mehr als die Hälfte der zugewiesenen Debugging-Aufgaben erfolgreich abschließen. Unter den getesteten Modellen erreichte Claude 3.7 Sonnet mit 48,4 % die höchste durchschnittliche Erfolgsrate, gefolgt von OpenAIs o1 mit 30,2 % und o3-mini mit 22,1 %.
Zu den Gründen für die geringe Leistung gehört, dass manche Modelle nicht verstehen, wie die bereitgestellten Debugging-Tools anzuwenden sind. Darüber hinaus besteht das größere Problem laut den Autoren in der unzureichenden Datenlage.
Sie argumentieren, dass es dem System zum Trainieren von Modellen noch immer an Daten mangelt, die die von Menschen durchgeführten Debugging-Schritte von Anfang bis Ende simulieren. Mit anderen Worten: Die KI hat nicht genug darüber gelernt, wie Menschen bei der Bewältigung eines echten Softwarefehlers Schritt für Schritt denken und handeln.
Durch Training und Feinabstimmung der Modelle können sie Software besser debuggen. „Hierfür wären allerdings spezielle Datensätze für das Training erforderlich“, so die Autoren.
Zahlreiche Studien haben auf Sicherheitslücken und Fehler in der KI bei der Codegenerierung hingewiesen, die auf Schwächen wie etwa ein eingeschränktes Verständnis der Programmierlogik zurückzuführen sind. Eine kürzlich durchgeführte Überprüfung von Devin, einem KI-Programmiertool, ergab, dass es nur 3 von 20 Programmiertests bestanden hat.
Die Programmierbarkeit von KI bleibt umstritten. Zuvor hatte Kevin Weil, Produktdirektor von OpenAI, erklärt, dass die KI bis Ende dieses Jahres die Fähigkeiten menschlicher Programmierer übertreffen werde.
Bill Gates, Mitbegründer von Microsoft, glaubt hingegen, dass Programmieren auch in Zukunft eine tragfähige Karriere sein wird. Auch andere Führungskräfte wie Amjad Masad (CEO von Replit), Todd McKinnon (CEO von Okta) und Arvind Krishna (CEO von IBM) haben ihre Unterstützung für diese Ansicht zum Ausdruck gebracht.
Die Forschung von Microsoft ist zwar nicht neu, soll Programmierern und Managern aber auch eine Mahnung sein, sorgfältiger nachzudenken, bevor sie der KI die vollständige Kontrolle über die Codierung überlassen.
Quelle: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html
Kommentar (0)