AI:s dödliga svaghet

AI kan ännu inte ersätta människor inom programmering. Foto: John McGuire .

På senare tid används ledande AI-modeller från OpenAI och Anthropic i allt större utsträckning för programmeringsapplikationer. ChatGPT och Claude har ökat minne och processorkraft för att analysera hundratals kodrader, medan Gemini integrerar en dedikerad Canvas-resultatvisningsfunktion för programmerare.

I oktober 2024 uppgav Sundar Pichai, VD för Google, att 25 % av den nya koden på företaget genererades av AI. Mark Zuckerberg, VD för Meta, uttryckte också ambitioner att sprida AI-kodningsmodeller inom företaget.

En ny studie från Microsoft Research, Microsofts FoU-avdelning, visar dock att AI-modeller, inklusive Anthropics Claude 3.7 Sonnet och OpenAIs o3-mini, inte kan hantera många fel i ett programmeringsbenchmark som kallas SWE-bench Lite.

Studiens författare undersökte nio olika AI-modeller som införlivade en rad felsökningsverktyg, såsom en Python-felsökare, och som kunde hantera problem i ett enda kommando. Modellerna fick i uppgift att lösa 300 programvarufel utvalda från SWE-bench Lite-datasetet.

Framgångsgrad vid lösning av programmeringsproblem från SWE-bench Lite-datasetet. Bild: Microsoft.

Även utrustad med kraftfullare och nyare modeller visade resultaten att AI-agenten sällan lyckades slutföra mer än hälften av de tilldelade felsökningsuppgifterna. Bland de testade modellerna uppnådde Claude 3.7 Sonnet den högsta genomsnittliga framgångsgraden på 48,4 %, följt av OpenAI:s o1 på 30,2 % och o3-mini på 22,1 %.

Några orsaker till den låga prestandan som nämns ovan inkluderar att vissa modeller inte förstår hur man använder de tillhandahållna felsökningsverktygen. Dessutom, enligt författarna, ligger ett större problem i bristen på tillräcklig data.

De menar att träningssystemet för modellerna fortfarande saknar data som simulerar de felsökningssteg som människor tar från början till slut. Med andra ord har AI:n inte lärt sig tillräckligt om hur människor tänker och agerar steg för steg när de hanterar en verklig programvarubugg.

Att träna och förfina modellerna kommer att hjälpa dem att bli skickligare på att felsöka programvara. "Detta kommer dock att kräva specialiserade datamängder för träningsprocessen", konstaterade författarna.

Många studier har pekat på säkerhetsbrister och fel i AI under kodgenerering, på grund av svagheter som begränsad förståelse för programmeringslogik. En nyligen genomförd granskning av Devin, ett AI-baserat programmeringsverktyg, visade att det bara slutförde 3 av 20 programmeringstester.

AI:s programmeringsmöjligheter är fortfarande föremål för mycket debatt. Tidigare föreslog Kevin Weil, produktchef för OpenAI, att AI i slutet av detta år skulle överträffa mänskliga programmerare.

Å andra sidan tror Bill Gates, medgrundare av Microsoft, att programmering kommer att förbli en hållbar karriär i framtiden. Andra ledare som Amjad Masad (VD för Replit), Todd McKinnon (VD för Okta) och Arvind Krishna (VD för IBM) har också uttryckt sitt stöd för denna åsikt.

Microsofts forskning, även om den inte är ny, fungerar som en påminnelse till programmerare, inklusive chefer, att tänka noggrannare innan de överlämnar fullständig kodningsbehörighet till AI.