Fatální slabina umělé inteligence

Výzkum ukazuje, že navzdory odvážným tvrzením o programovacích schopnostech umělé inteligence zůstává ošetřování chyb oblastí, ve které lidé vynikají.

ZNews•12/04/2025

Umělá inteligence zatím není schopna nahradit lidi v oblasti programování. Foto: John McGuire .

V poslední době se pro programování aplikací stále častěji používají přední modely umělé inteligence od společností OpenAI a Anthropic. ChatGPT a Claude mají zvýšenou paměť a výpočetní výkon pro analýzu stovek řádků kódu, zatímco Gemini integruje specializovanou funkci pro zobrazení výsledků Canvas pro programátory.

V říjnu 2024 generální ředitel společnosti Google Sundar Pichai uvedl, že 25 % nového kódu ve společnosti bylo vygenerováno umělou inteligencí. Mark Zuckerberg, generální ředitel společnosti Meta, také vyjádřil ambice široce nasadit modely kódování s umělou inteligencí v rámci korporace.

Nová studie společnosti Microsoft Research, výzkumné a vývojové divize společnosti Microsoft, však ukazuje, že modely umělé inteligence, včetně Claude 3.7 Sonnet od Anthropic a o3-mini od OpenAI, nejsou schopny zpracovat mnoho chyb v programovacím benchmarku s názvem SWE-bench Lite.

Autoři studie zkoumali devět různých modelů umělé inteligence, které zahrnovaly řadu ladicích nástrojů, jako je například ladicí program Pythonu, a byly schopny řešit problémy jediným příkazem. Modely měly za úkol vyřešit 300 softwarových chyb vybraných z datové sady SWE-bench Lite.

Míra úspěšnosti při řešení programovacích problémů z datové sady SWE-bench Lite. Obrázek: Microsoft.

I když byl agent AI vybaven výkonnějšími a novějšími modely, výsledky ukázaly, že jen zřídka úspěšně dokončil více než polovinu zadaných ladicích úkolů. Mezi testovanými modely dosáhl Claude 3.7 Sonnet nejvyšší průměrné úspěšnosti s 48,4 %, následovaný OpenAI o1 s 30,2 % a o3-mini s 22,1 %.

Mezi důvody výše uvedeného nízkého výkonu patří to, že některé modely nechápou, jak používat poskytnuté ladicí nástroje. Podle autorů navíc spočívá větší problém v nedostatku dostatečných dat.

Argumentují, že trénovací systém pro modely stále postrádá data simulující ladicí kroky, které lidé provádějí od začátku do konce. Jinými slovy, umělá inteligence se dostatečně nenaučila o tom, jak lidé krok za krokem myslí a jednají při řešení reálné softwarové chyby.

Trénování a zdokonalování modelů jim pomůže stát se zdatnějšími v ladění softwaru. „To však bude pro proces trénování vyžadovat specializované datové sady,“ uvedli autoři.

Četné studie poukázaly na bezpečnostní zranitelnosti a chyby v umělé inteligenci během generování kódu, které jsou způsobeny slabinami, jako je omezené pochopení programovací logiky. Nedávná recenze Devinu, programovacího nástroje založeného na umělé inteligenci, ukázala, že dokončil pouze 3 z 20 programovacích testů.

Programovací schopnosti umělé inteligence zůstávají předmětem mnoha debat. Kevin Weil, produktový ředitel OpenAI, dříve naznačil, že do konce letošního roku umělá inteligence předčí lidské programátory.

Na druhou stranu Bill Gates, spoluzakladatel společnosti Microsoft, věří, že programování zůstane v budoucnu udržitelnou kariérou. Svou podporu tomuto názoru vyjádřili i další lídři, jako například Amjad Masad (generální ředitel společnosti Replit), Todd McKinnon (generální ředitel společnosti Okta) a Arvind Krishna (generální ředitel společnosti IBM).

Výzkum společnosti Microsoft, ačkoli není nový, slouží programátorům, včetně manažerů, jako připomínka, aby si pečlivěji promysleli, než předají úplnou pravomoc kódování umělé inteligenci.

Zdroj: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html