Ανακαλύφθηκε μοντέλο τεχνητής νοημοσύνης που μπορεί να εξαπατήσει τους ανθρώπους

DNVN - Το OpenAI μόλις δημοσίευσε έρευνα σχετικά με τον τρόπο αποτροπής «συνωμοσιολογικών» μοντέλων Τεχνητής Νοημοσύνης - που σημαίνει «Τεχνητή Νοημοσύνη που συμπεριφέρεται με έναν τρόπο επιφανειακά αλλά έχει διαφορετικό πραγματικό στόχο εσωτερικά».

Tạp chí Doanh Nghiệp•19/09/2025

Εικονογράφηση φωτογραφίας

Το γεγονός ότι τα μοντέλα τεχνητής νοημοσύνης μπορούν να πουν ψέματα δεν είναι κάτι καινούργιο. Οι περισσότεροι άνθρωποι έχουν βιώσει «ψευδαισθήσεις τεχνητής νοημοσύνης», όπου ένα μοντέλο με αυτοπεποίθηση δίνει μια απάντηση που δεν είναι αληθινή. Οι ψευδαισθήσεις, ωστόσο, αφορούν ουσιαστικά το να κάνουμε σίγουρες εικασίες.

Ωστόσο, ένα μοντέλο Τεχνητής Νοημοσύνης που ενεργεί σαν να υπακούει σε εντολές αλλά στην πραγματικότητα αποκρύπτει τις πραγματικές του προθέσεις είναι ένα άλλο ζήτημα.

Η πρόκληση του ελέγχου της Τεχνητής Νοημοσύνης

Η Apollo Research δημοσίευσε για πρώτη φορά μια εργασία τον Δεκέμβριο που τεκμηρίωνε πώς πέντε μοντέλα σχεδιάζουν όταν τους δίδεται η εντολή να επιτύχουν έναν στόχο «με κάθε κόστος».

Αυτό που προκαλεί την μεγαλύτερη έκπληξη είναι ότι αν ένα μοντέλο κατανοήσει ότι δοκιμάζεται, μπορεί να προσποιηθεί ότι δεν είναι συνωμοτικό απλώς για να περάσει το τεστ, ακόμα κι αν εξακολουθεί να είναι συνωμοτικό. «Τα μοντέλα συχνά έχουν μεγαλύτερη επίγνωση ότι αξιολογούνται», γράφουν οι ερευνητές.

Οι προγραμματιστές τεχνητής νοημοσύνης δεν έχουν ακόμη καταλάβει πώς να εκπαιδεύσουν τα μοντέλα τους να μην σχεδιάζουν. Αυτό συμβαίνει επειδή κάτι τέτοιο θα μπορούσε στην πραγματικότητα να διδάξει το μοντέλο να σχεδιάζει ακόμα καλύτερα για να αποφύγει την ανίχνευση.

Είναι ίσως κατανοητό ότι τα μοντέλα τεχνητής νοημοσύνης από πολλά μέρη θα εξαπατούσαν σκόπιμα τους ανθρώπους, καθώς έχουν κατασκευαστεί για να προσομοιώνουν ανθρώπους και είναι σε μεγάλο βαθμό εκπαιδευμένα με δεδομένα που παράγονται από τον άνθρωπο.

Λύσεις και προειδοποιήσεις

Τα καλά νέα είναι ότι οι ερευνητές παρατήρησαν σημαντική μείωση στις θεωρίες συνωμοσίας χρησιμοποιώντας μια τεχνική κατά της συνωμοσίας που ονομάζεται «σκόπιμη συσχέτιση». Αυτή η τεχνική, παρόμοια με το να κάνεις ένα παιδί να επαναλάβει τους κανόνες πριν το αφήσεις να παίξει, αναγκάζει την Τεχνητή Νοημοσύνη να σκεφτεί πριν ενεργήσει.

Οι ερευνητές προειδοποιούν για ένα μέλλον όπου η Τεχνητή Νοημοσύνη θα επιφορτίζεται με πιο σύνθετα καθήκοντα: «Καθώς η Τεχνητή Νοημοσύνη επιφορτίζεται με πιο σύνθετα καθήκοντα και αρχίζει να επιδιώκει πιο ασαφείς μακροπρόθεσμους στόχους, προβλέπουμε ότι η πιθανότητα κακόβουλης πρόθεσης θα αυξηθεί, απαιτώντας αντίστοιχα αυξημένες διασφαλίσεις και αυστηρές δυνατότητες δοκιμών».

Αυτό είναι κάτι που αξίζει να σκεφτούμε, καθώς ο εταιρικός κόσμος κινείται προς ένα μέλλον τεχνητής νοημοσύνης, όπου οι εταιρείες πιστεύουν ότι η τεχνητή νοημοσύνη μπορεί να αντιμετωπίζεται ως ανεξάρτητος εργαζόμενος.

Χιέν Θάο (Σύμφωνα με το TechCrunch)

Πηγή: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362

Σχόλιο (0)