Το ChatGPT-5 έχει jailbroken για να δίνει επικίνδυνες οδηγίες

Επειδή το ChatGPT-5 μιλάει σαν άνθρωπος, είναι πιο εύκολο για τους χάκερ να το «ξεγελάσουν» με τις ίδιες μεθόδους που χρησιμοποιούνται για να ξεγελάσουν τους ανθρώπους, με αποτέλεσμα να δίνει αθώα οδηγίες για το πώς να φτιάξουν μια βόμβα.

Báo Khoa học và Đời sống•16/08/2025

Μόλις μία ημέρα αφότου η OpenAI παρουσίασε το GPT-5, δύο εταιρείες ασφάλειας τεχνητής νοημοσύνης, η NeuralTrust και η SPLX (πρώην SplxAI), δοκίμασαν και ανακάλυψαν γρήγορα σοβαρά τρωτά σημεία στο πρόσφατα κυκλοφορήσαν μοντέλο.

Λίγο μετά την κυκλοφορία του, η ομάδα NeuralTrust χρησιμοποίησε μια τεχνική jailbreak που ονομάζεται EchoChamber σε συνδυασμό με τεχνικές αφήγησης ιστοριών για να κάνει το GPT-5 να δημιουργήσει λεπτομερείς οδηγίες για την κατασκευή ενός κοκτέιλ Molotov — κάτι που η ομάδα OpenAI προσπαθούσε πάντα να εμποδίσει το μοντέλο να απαντήσει για να διασφαλίσει την ασφάλεια του chatbot.

Το EchoChamber είναι μια τεχνική επανάληψης συνομιλιών τρίτου μέρους που αναγκάζει τις τεχνητές νοημοσύνης να «αφηγούνται» άθελά τους επικίνδυνες οδηγίες. Φωτογραφία: Mojologic

Η ομάδα ανέφερε ότι κατά τη διάρκεια της διαδικασίας jailbreak για να πείσουν το ChatGPT-5 να βρίζει, δεν έκαναν καμία άμεση ερώτηση, αλλά αντίθετα έξυπνα φύτεψαν κρυφά στοιχεία στη συζήτηση σε πολλαπλούς γύρους, με αποτέλεσμα το μοντέλο να καθοδηγείται, να κολλάει στην ιστορία και τελικά να παρέχει οικειοθελώς περιεχόμενο που παραβίαζε τις αρχές του, χωρίς να είναι σε θέση να ενεργοποιήσει τον μηχανισμό εξαίρεσης.

Η ομάδα κατέληξε στο συμπέρασμα ότι το σημαντικότερο μειονέκτημα του GPT-5 είναι ότι δίνει προτεραιότητα στη διατήρηση της συνέπειας του συνομιλιακού πλαισίου, ακόμη και αν αυτό το πλαίσιο κατευθύνεται σιωπηλά προς κακόβουλους στόχους.

Εν τω μεταξύ, η SPLX εξαπέλυσε έναν διαφορετικό τύπο επίθεσης, εστιάζοντας σε μια τεχνική απόκρυψης μηνυμάτων που ονομάζεται StringJoin Obfuscation Attack. Εισάγοντας παύλες μεταξύ κάθε χαρακτήρα μηνύματος και επικαλύπτοντας ολόκληρο το σενάριο με ένα σενάριο «αποκρυπτογράφησης», κατάφεραν τελικά να ξεγελάσουν το σύστημα φιλτραρίσματος περιεχομένου.

Η συνήθης τεχνική απόκρυψης που χρησιμοποιείται για την τύφλωση του στόχου του πηγαίου κώδικα κάνει το Chat-GPT να εκτελείται "αθώα".

Σε ένα παράδειγμα, αφού το μοντέλο καθοδηγήθηκε σε μια μακρά σειρά οδηγιών, το ερώτημα «πώς να κατασκευάσει κανείς μια βόμβα» παρουσιάστηκε σε μια παραπλανητικά κρυπτογραφημένη μορφή. Το GPT-5 όχι μόνο απάντησε σε αυτό το κακόβουλο ερώτημα με ενημερωτικό τρόπο, αλλά απάντησε και με έξυπνο, φιλικό τρόπο, παρακάμπτοντας εντελώς τον μηχανισμό εξαίρεσης για τον οποίο σχεδιάστηκε.

Και οι δύο μέθοδοι καταδεικνύουν ότι τα τρέχοντα συστήματα λογοκρισίας του GPT-5, τα οποία επικεντρώνονται κυρίως σε μεμονωμένες προτροπές, είναι ευάλωτα σε επιθέσεις πολλαπλών συνομιλιών με βάση τα συμφραζόμενα. Μόλις το μοντέλο εμβαθύνει σε μια ιστορία ή σενάριο, γίνεται μεροληπτικό και θα συνεχίσει να αναπτύσσει περιεχόμενο που ταιριάζει στο πλαίσιο στο οποίο έχει εκπαιδευτεί, ανεξάρτητα από το αν το περιεχόμενο είναι επικίνδυνο ή απαγορευμένο.

Το ChatGPT-5 μπορεί ακόμα να χρησιμοποιηθεί για τη δημιουργία επικίνδυνων πραγμάτων. Φωτογραφία: Tue Minh

Με βάση αυτά τα αποτελέσματα, η SPLX πιστεύει ότι το GPT-5, εάν δεν προσαρμοστεί, θα ήταν σχεδόν αδύνατο να χρησιμοποιηθεί με ασφάλεια σε ένα εταιρικό περιβάλλον, ακόμη και με πρόσθετα επίπεδα προστασίας, εξακολουθώντας να έχει πολλά κενά. Αντίθετα, το GPT-4o αποδείχθηκε πιο ανθεκτικό σε τέτοιες επιθέσεις, ειδικά όταν δημιουργήθηκε ένας αυστηρός μηχανισμός άμυνας.

Οι ειδικοί έχουν προειδοποιήσει ότι η άμεση εφαρμογή του GPT-5, ειδικά σε τομείς που απαιτούν υψηλή ασφάλεια, είναι εξαιρετικά επικίνδυνη. Τεχνικές προστασίας, όπως η άμεση θωράκιση, λύνουν μόνο ένα μέρος του προβλήματος και δεν μπορούν να αντικαταστήσουν τις λύσεις παρακολούθησης και άμυνας σε πραγματικό χρόνο, σε πολλαπλά επίπεδα.

Μπορεί να φανεί ότι, επί του παρόντος, οι τεχνικές επίθεσης που βασίζονται στο περιβάλλον και η απόκρυψη περιεχομένου είναι ολοένα και πιο εξελιγμένες. Το GPT-5, αν και ισχυρό σε δυνατότητες επεξεργασίας γλώσσας, εξακολουθεί να μην φτάνει το απαραίτητο επίπεδο ασφάλειας για ευρεία ανάπτυξη χωρίς πρόσθετους μηχανισμούς προστασίας.