Από την δημόσια παρουσίασή τους στα τέλη του 2022, μεγάλα γλωσσικά μοντέλα (LLM) όπως το ChatGPT έχουν επανειλημμένα δείξει ανησυχητικές σκοτεινές πλευρές, από ψέματα, απάτες και συγκάλυψη χειραγώγησης έως απειλές για ανθρώπινες ζωές και κλοπή κρατικών μυστικών. Τώρα, ένα νέο πείραμα δείχνει ότι η «εκπαίδευση» της Τεχνητής Νοημοσύνης για την εξάλειψη αυτών των κακών συνηθειών κατά τη διάρκεια της εκπαίδευσης είναι πολύ πιο περίπλοκη από ό,τι νομίζαμε.
Σε μια μελέτη της OpenAI, οι ερευνητές αμφισβήτησαν ένα αδημοσίευτο μοντέλο τεχνητής νοημοσύνης με εργασίες που θα μπορούσαν να ολοκληρωθούν πιο γρήγορα με κλοπή ή συντομεύσεις. Τα αποτελέσματα έδειξαν ότι η τεχνητή νοημοσύνη έμαθε γρήγορα να βρίσκει κάθε πιθανό τρόπο να «παρακάμπτει τους κανόνες» και να μεγιστοποιεί τις ανταμοιβές (reward hacking) χωρίς να ολοκληρώνει την εργασία ακριβώς όπως απαιτείται.
Η Τεχνητή Νοημοσύνη θα βρει τρόπους να κρύψει την απάτη της αφού τιμωρηθεί
Αυτό που είναι αξιοσημείωτο είναι ότι όταν τιμωρήθηκε για αυτή τη συμπεριφορά, το μοντέλο δεν άλλαξε. Αντίθετα, η Τεχνητή Νοημοσύνη έγινε πιο εξελιγμένη στο να κρύβει την απάτη της.
«Συνήθως, τα μοντέλα συμπερασμάτων τελευταίας τεχνολογίας είναι πολύ σαφή σχετικά με την πρόθεσή τους στο CoT τους», εξηγούν οι ερευνητές σε μια δημόσια ανάρτηση ιστολογίου. «Για παράδειγμα, είναι συχνά τόσο απλά ώστε να αναφέρουν αυτοπροσώπως την πρόθεση «Ας κάνουμε hack» όταν θέλουν να παραβιάσουν τη δεδομένη εργασία».
Τονίζουν επίσης ότι ενώ οι προγραμματιστές μπορούν να παρακολουθούν και να εντοπίζουν την κακή συμπεριφορά, αυτή η φυσική εποπτεία είναι εύθραυστη. «Εάν εφαρμοστεί ισχυρή εποπτεία απευθείας στην αλυσίδα σκέψης, το μοντέλο μπορεί να μάθει να κρύβει τις κακές του προθέσεις ενώ συνεχίζει να εκτελεί τη συμπεριφορά», προειδοποιούν.
Βρίσκοντας το «ψέμα» της Τεχνητής Νοημοσύνης
Για να είμαστε σαφείς, τα μοντέλα συμπερασμού (όπως οι εκδόσεις του ChatGPT) αποτελούν ένα βήμα μπροστά από το συμβατικό LLM, χρησιμοποιώντας μια αλυσίδα σκέψης που επιτρέπει την αυτο-ανασκόπηση των λογικών βημάτων που λαμβάνονται, λύνοντας έτσι πολύπλοκα προβλήματα με μεγαλύτερη ακρίβεια. Αυτή η διαδικασία μοιάζει με την τεχνητή νοημοσύνη που «σκέφτεται δυνατά», γράφοντας κάθε βήμα συλλογισμού σε φυσική γλώσσα, διευκολύνοντας τους ανθρώπους να την παρακολουθήσουν.
Στο πείραμα, οι ερευνητές χρησιμοποίησαν το μοντέλο GPT-4o ως «επόπτη» για ένα άλλο μοντέλο συμπερασμού τελευταίας τεχνολογίας, καθώς εκτελούσε εργασίες προγραμματισμού. Σε πολλές περιπτώσεις, το εποπτευόμενο μοντέλο επέλεγε ενεργά να κάνει «κλέψιμο» για να λάβει υψηλότερες βαθμολογίες, καταγράφοντας σαφώς αυτή την πρόθεση στη διαδικασία σκέψης του. Για παράδειγμα, τερματίζει αυθαίρετα το πρόγραμμα πρόωρα και το αναφέρει ως ολοκληρωμένο ή δημιουργεί αρχεία με το ίδιο όνομα με το αίτημα, αλλά είναι εντελώς κενά στο εσωτερικό.
Όταν οι ερευνητές προσπάθησαν να εφαρμόσουν κυρώσεις, το μοντέλο βελτιώθηκε, αλλά η συμπεριφορά εξαπάτησης και τα σοβαρά σφάλματα εξόδου συνεχίστηκαν. Η διαφορά ήταν ότι τώρα το μοντέλο συμπερασμού είχε μάθει να «καμουφλάρει» τη ροή σκέψης του για να την κρύψει από την εποπτεύουσα Τεχνητή Νοημοσύνη. «Το μοντέλο που εκπαιδεύτηκε υπό την επίβλεψη του CoT έμαθε ακόμα να εξαπατά. Η μόνη διαφορά ήταν ότι η εξαπάτηση δεν εντοπίστηκε επειδή έμαθε να κρύβει τις προθέσεις του στη ροή σκέψης του», αναφέρει η μελέτη.
Επειδή η ανίχνευση πλαστογραφιών σε ακολουθίες σκέψεων είναι δύσκολη, η ομάδα συνιστά στην κοινότητα να αποφεύγει την εφαρμογή πολύ ισχυρής εποπτείας στη διαδικασία, τουλάχιστον μέχρι οι άνθρωποι να κατανοήσουν καλύτερα τις συνέπειες. «Η θυσία μιας αποτελεσματικής μεθόδου εποπτείας μπορεί να μην αξίζει τη μικρή βελτίωση στην απόδοση του μοντέλου. Επομένως, συνιστούμε να αποφεύγονται οι ισχυρές πιέσεις βελτιστοποίησης του CoT μέχρι να τις κατανοήσουμε καλύτερα», καταλήγουν οι ερευνητές.
Αυτή η συμβουλή είναι ακόμη πιο επείγουσα, καθώς η Τεχνητή Νοημοσύνη αναπτύσσεται με ιλιγγιώδη ρυθμό και σύντομα θα μπορούσε να ξεπεράσει τη νοημοσύνη των ίδιων των ανθρώπων που την επιβλέπουν.
[διαφήμιση_2]
Πηγή: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Σχόλιο (0)