Η μοιραία αδυναμία της Τεχνητής Νοημοσύνης

Η έρευνα δείχνει ότι παρά τους τολμηρούς ισχυρισμούς σχετικά με τις δυνατότητες προγραμματισμού της Τεχνητής Νοημοσύνης, η διαχείριση σφαλμάτων παραμένει ένας τομέας στον οποίο οι άνθρωποι διαπρέπουν.

ZNews•12/04/2025

Η Τεχνητή Νοημοσύνη δεν είναι ακόμη σε θέση να αντικαταστήσει τους ανθρώπους στον τομέα του προγραμματισμού. Φωτογραφία: John McGuire .

Πρόσφατα, κορυφαία μοντέλα τεχνητής νοημοσύνης από τις OpenAI και Anthropic χρησιμοποιούνται όλο και περισσότερο για εφαρμογές προγραμματισμού. Τα ChatGPT και Claude έχουν αυξημένη μνήμη και επεξεργαστική ισχύ για την ανάλυση εκατοντάδων γραμμών κώδικα, ενώ το Gemini ενσωματώνει μια ειδική λειτουργία εμφάνισης αποτελεσμάτων Canvas για προγραμματιστές.

Τον Οκτώβριο του 2024, ο Sundar Pichai, Διευθύνων Σύμβουλος της Google, δήλωσε ότι το 25% του νέου κώδικα στην εταιρεία δημιουργήθηκε από την Τεχνητή Νοημοσύνη. Ο Mark Zuckerberg, Διευθύνων Σύμβουλος της Meta, εξέφρασε επίσης τις φιλοδοξίες του για την ευρεία ανάπτυξη μοντέλων κωδικοποίησης με τεχνητή νοημοσύνη εντός της εταιρείας.

Ωστόσο, μια νέα μελέτη από την Microsoft Research, το τμήμα Έρευνας και Ανάπτυξης της Microsoft, δείχνει ότι τα μοντέλα Τεχνητής Νοημοσύνης, συμπεριλαμβανομένων των Claude 3.7 Sonnet της Anthropic και o3-mini της OpenAI, δεν είναι σε θέση να χειριστούν πολλά σφάλματα σε ένα benchmark προγραμματισμού που ονομάζεται SWE-bench Lite.

Οι συγγραφείς της μελέτης εξέτασαν εννέα διαφορετικά μοντέλα τεχνητής νοημοσύνης που ενσωμάτωναν μια σειρά από εργαλεία εντοπισμού σφαλμάτων, όπως ένα πρόγραμμα εντοπισμού σφαλμάτων Python, και ήταν ικανά να χειρίζονται προβλήματα με μία μόνο εντολή. Τα μοντέλα είχαν ως στόχο την επίλυση 300 σφαλμάτων λογισμικού που επιλέχθηκαν από το σύνολο δεδομένων SWE-bench Lite.

Ποσοστό επιτυχίας κατά την επίλυση προβλημάτων προγραμματισμού από το σύνολο δεδομένων SWE-bench Lite. Εικόνα: Microsoft.

Ακόμα και όταν ήταν εξοπλισμένο με πιο ισχυρά και νεότερα μοντέλα, τα αποτελέσματα έδειξαν ότι ο παράγοντας τεχνητής νοημοσύνης σπάνια ολοκλήρωνε με επιτυχία περισσότερες από τις μισές εργασίες εντοπισμού σφαλμάτων που του είχαν ανατεθεί. Μεταξύ των μοντέλων που δοκιμάστηκαν, το Claude 3.7 Sonnet πέτυχε το υψηλότερο μέσο ποσοστό επιτυχίας με 48,4%, ακολουθούμενο από το o1 του OpenAI με 30,2% και το o3-mini με 22,1%.

Μερικοί λόγοι για τη χαμηλή απόδοση που αναφέρθηκαν παραπάνω περιλαμβάνουν ορισμένα μοντέλα που δεν κατανοούν τον τρόπο εφαρμογής των παρεχόμενων εργαλείων εντοπισμού σφαλμάτων. Επιπλέον, σύμφωνα με τους συγγραφείς, ένα μεγαλύτερο πρόβλημα έγκειται στην έλλειψη επαρκών δεδομένων.

Υποστηρίζουν ότι το σύστημα εκπαίδευσης για τα μοντέλα εξακολουθεί να μην διαθέτει δεδομένα που να προσομοιώνουν τα βήματα εντοπισμού σφαλμάτων που ακολουθούν οι άνθρωποι από την αρχή μέχρι το τέλος. Με άλλα λόγια, η Τεχνητή Νοημοσύνη δεν έχει μάθει αρκετά για το πώς οι άνθρωποι σκέφτονται και ενεργούν βήμα προς βήμα όταν αντιμετωπίζουν ένα σφάλμα λογισμικού στον πραγματικό κόσμο.

Η εκπαίδευση και η βελτίωση των μοντέλων θα τα βοηθήσει να γίνουν πιο ικανά στην αποσφαλμάτωση λογισμικού. «Ωστόσο, αυτό θα απαιτήσει εξειδικευμένα σύνολα δεδομένων για τη διαδικασία εκπαίδευσης», δήλωσαν οι συγγραφείς.

Πολυάριθμες μελέτες έχουν επισημάνει τρωτά σημεία ασφαλείας και σφάλματα στην Τεχνητή Νοημοσύνη κατά τη δημιουργία κώδικα, λόγω αδυναμιών όπως η περιορισμένη κατανόηση της λογικής προγραμματισμού. Μια πρόσφατη ανασκόπηση του Devin, ενός εργαλείου προγραμματισμού που υποστηρίζεται από Τεχνητή Νοημοσύνη, έδειξε ότι ολοκλήρωσε μόνο 3 από τις 20 δοκιμές προγραμματισμού.

Οι δυνατότητες προγραμματισμού της Τεχνητής Νοημοσύνης παραμένουν αντικείμενο έντονης συζήτησης. Προηγουμένως, ο Kevin Weil, Διευθυντής Προϊόντος της OpenAI, είχε υπονοήσει ότι μέχρι το τέλος του τρέχοντος έτους, η Τεχνητή Νοημοσύνη θα ξεπεράσει τους ανθρώπους προγραμματιστές.

Από την άλλη πλευρά, ο Μπιλ Γκέιτς, συνιδρυτής της Microsoft, πιστεύει ότι ο προγραμματισμός θα παραμείνει μια βιώσιμη καριέρα στο μέλλον. Άλλοι ηγέτες όπως ο Αμτζάντ Μασάντ (Διευθύνων Σύμβουλος της Replit), ο Τοντ ΜακΚίνον (Διευθύνων Σύμβουλος της Okta) και ο Άρβιντ Κρίσνα (Διευθύνων Σύμβουλος της IBM) έχουν επίσης εκφράσει την υποστήριξή τους σε αυτήν την άποψη.

Η έρευνα της Microsoft, αν και δεν είναι καινούργια, χρησιμεύει ως υπενθύμιση στους προγραμματιστές, συμπεριλαμβανομένων των διευθυντών, να σκεφτούν πιο προσεκτικά πριν παραδώσουν την πλήρη εξουσία κωδικοποίησης στην Τεχνητή Νοημοσύνη.

Πηγή: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html