Slăbiciunea fatală a IA

Inteligența artificială nu este încă capabilă să înlocuiască oamenii în domeniul programării. Foto: John McGuire .

Recent, modelele de inteligență artificială de top de la OpenAI și Anthropic sunt din ce în ce mai utilizate pentru aplicații de programare. ChatGPT și Claude au sporit memoria și puterea de procesare pentru a analiza sute de linii de cod, în timp ce Gemini integrează o funcție dedicată de afișare a rezultatelor Canvas pentru programatori.

În octombrie 2024, Sundar Pichai, CEO-ul Google, a declarat că 25% din codul nou al companiei a fost generat de inteligența artificială. Mark Zuckerberg, CEO-ul Meta, și-a exprimat, de asemenea, ambițiile de a implementa pe scară largă modele de codare bazate pe inteligență artificială în cadrul corporației.

Cu toate acestea, un nou studiu realizat de Microsoft Research, divizia de cercetare și dezvoltare a Microsoft, arată că modelele de inteligență artificială, inclusiv Claude 3.7 Sonnet de la Anthropic și o3-mini de la OpenAI, nu pot gestiona multe erori într-un benchmark de programare numit SWE-bench Lite.

Autorii studiului au examinat nouă modele diferite de inteligență artificială care au încorporat o gamă largă de instrumente de depanare, cum ar fi un depanator Python, și au fost capabile să gestioneze problemele într-o singură instrucțiune. Modelele au avut sarcina de a rezolva 300 de erori software selectate din setul de date SWE-bench Lite.

Rata de succes la rezolvarea problemelor de programare din setul de date SWE-bench Lite. Imagine: Microsoft.

Chiar și atunci când a fost echipat cu modele mai puternice și mai noi, rezultatele au arătat că agentul AI rareori a finalizat cu succes mai mult de jumătate din sarcinile de depanare atribuite. Printre modelele testate, Claude 3.7 Sonnet a obținut cea mai mare rată medie de succes, de 48,4%, urmat de o1 de la OpenAI, cu 30,2%, și o3-mini, cu 22,1%.

Printre motivele performanței scăzute menționate mai sus se numără faptul că unele modele nu înțeleg cum să aplice instrumentele de depanare furnizate. În plus, potrivit autorilor, o problemă mai mare constă în lipsa unor date suficiente.

Ei susțin că sistemul de antrenament pentru modele încă nu dispune de date care să simuleze pașii de depanare pe care oamenii îi parcurg de la început până la sfârșit. Cu alte cuvinte, inteligența artificială nu a învățat suficient despre modul în care oamenii gândesc și acționează pas cu pas atunci când se confruntă cu o eroare de software din lumea reală.

Antrenarea și rafinarea modelelor îi va ajuta să devină mai competenți în depanarea software-ului. „Totuși, acest lucru va necesita seturi de date specializate pentru procesul de antrenament”, au declarat autorii.

Numeroase studii au evidențiat vulnerabilități de securitate și erori în inteligența artificială în timpul generării de cod, din cauza unor deficiențe precum înțelegerea limitată a logicii de programare. O analiză recentă a Devin, un instrument de programare bazat pe inteligență artificială, a arătat că acesta a finalizat doar 3 din 20 de teste de programare.

Capacitățile de programare ale inteligenței artificiale rămân un subiect de dezbatere intensă. Anterior, Kevin Weil, director de produs al OpenAI, a sugerat că până la sfârșitul acestui an, inteligența artificială va depăși programatorii umani.

Pe de altă parte, Bill Gates, cofondatorul Microsoft, consideră că programarea va rămâne o carieră sustenabilă în viitor. Și alți lideri precum Amjad Masad (CEO al Replit), Todd McKinnon (CEO al Okta) și Arvind Krishna (CEO al IBM) și-au exprimat sprijinul pentru această opinie.

Cercetarea Microsoft, deși nu este nouă, servește drept o reamintire pentru programatori, inclusiv pentru manageri, să se gândească mai atent înainte de a ceda autoritatea completă de codare inteligenței artificiale.

Sursă: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html