![]() |
Ο Chabot Claude αξιολογεί την επάρκεια των χρηστών με βάση τις αλληλεπιδράσεις. Εικόνα: VectorStock . |
Η τελευταία έρευνα της Anthropic, με τίτλο «Δείκτης Ροής Τεχνητής Νοημοσύνης», ανέτρεψε την συμβατική άποψη, βάζοντας το chatbot Claude να αξιολογεί τους ανθρώπους. Αναλύοντας τη δομή των συνομιλιών, η Τεχνητή Νοημοσύνη κατατάσσει την επάρκεια των χρηστών σε μια κλίμακα 11 βαθμών.
Για την ανάπτυξη του πλαισίου ικανοτήτων που περιλαμβάνει 24 πρότυπα, η Anthropic χρησιμοποίησε αναλυτικά εργαλεία για να σαρώσει 9.830 συνομιλίες χρηστών σε πραγματικό χρόνο.
Από αυτά, 13 κριτήρια εμφανίζονται εκτός της οθόνης, όπως το αν οι χρήστες αποκρύπτουν τη χρήση της Τεχνητής Νοημοσύνης από τους ανωτέρους τους. Τα υπόλοιπα 11 κριτήρια είναι μετρήσεις συμπεριφοράς χρήστη, οι οποίες χωρίζονται σε τρεις κύριες πτυχές: περιγραφή, εξουσιοδότηση και ταυτοποίηση.
![]() |
Η επικράτηση κάθε δείκτη συμπεριφοράς στις αλληλεπιδράσεις με τεχνητή νοημοσύνη σε 9.830 συνομιλίες με τον Claude. Εικόνα: Anthropic. |
Καταρχάς, υπάρχει ο τρόπος με τον οποίο περιγράφεται το αίτημα, όπου οι χρήστες πρέπει να επιδεικνύουν μια πραγματική κατανόηση του τι θέλουν. Αντί να δίνουν αόριστες εντολές, τα άτομα με υψηλή βαθμολογία δηλώνουν πάντα με σαφήνεια τον τελικό στόχο και εξηγούν λεπτομερώς το πλαίσιο. Παρέχουν επίσης πολύ συγκεκριμένες απαιτήσεις σχετικά με το στυλ παρουσίασης, όπως το να ζητούν από την Τεχνητή Νοημοσύνη να δημιουργήσει πίνακες ή να περιορίζουν τον αριθμό των λέξεων. Αξίζει να σημειωθεί ότι αυτή η ομάδα συχνά περιλαμβάνει πολλά δείγματα δοκιμίων ως παραδείγματα για να «μιμηθεί» η Τεχνητή Νοημοσύνη το σωστό στυλ από την αρχή.
Η δεύτερη πτυχή είναι ο τρόπος με τον οποίο ανατίθενται οι εργασίες. Έρευνες δείχνουν ότι οι έμπειροι χρήστες αντιμετωπίζουν την Τεχνητή Νοημοσύνη ως συνομιλητή, όχι ως μια άβουλη μηχανή. Η μεγαλύτερη διαφορά έγκειται στην επιμονή. Αντί να δίνουν μια εντολή μια για πάντα, συμμετέχουν σε πολλαπλούς γύρους αμφίδρομων συζητήσεων για να βελτιώσουν και να αναθεωρήσουν την Τεχνητή Νοημοσύνη τις απαντήσεις της μέχρι να μείνουν απόλυτα ικανοποιημένοι. Αυτή η συμπεριφορά εμφανίζεται στο 85,7% των συνομιλιών υψηλής ποιότητας.
Η τελευταία πτυχή είναι η αναγνώριση, η οποία λειτουργεί ως φίλτρο για να αποτρέψει τους ανθρώπους από το να παραπλανηθούν από τις πληροφορίες που παρέχονται από τα chatbots. Οι χρήστες πρέπει να αμφισβητούν συνεχώς τη λογική του συλλογισμού, να ζητούν από την Τεχνητή Νοημοσύνη να εξηγήσει κάθε γραμμή κώδικα ή να ζητούν σαφείς παραπομπές. Πρέπει επίσης να είναι αρκετά διορατικοί ώστε να εντοπίζουν τα ελλείποντα συμφραζόμενα στη λύση της Τεχνητής Νοημοσύνης, προκειμένου να κάνουν έγκαιρες αξιολογήσεις και προσαρμογές στα συμπεράσματα.
![]() |
Οι έμπειροι χρήστες συνήθως λαμβάνουν βαθμολογία περίπου 7-8 από το Clade. Φωτογραφία: X. |
Ωστόσο, η έρευνα υποδεικνύει επίσης μια ανησυχητική ψυχολογική παγίδα, γνωστή ως «Παράδοξο της Όμορφης Διεπαφής». Όταν η λειτουργία «Τεχνουργήματα» του Κλοντ δημιουργεί οπτικά ελκυστικά προϊόντα, όπως ένα ομαλό κομμάτι κώδικα ή ένα τέλειο διάγραμμα, ο εγκέφαλός μας τείνει αμέσως να γίνεται «τεμπέλης στοχαστής» και να σταματά την κριτική σκέψη.
Τα στατιστικά στοιχεία της μελέτης δείχνουν ότι όταν οι χρήστες βλέπουν μια γυαλισμένη διεπαφή, το ποσοστό αυτών που αναζητούν ενεργά ελαττώματα μειώνεται αμέσως κατά 5,2%. Η δυνατότητα επαλήθευσης της αυθεντικότητας των πληροφοριών μειώνεται επίσης κατά 3,7% και το ποσοστό εκείνων που αμφιβάλλουν για τη λογική της μειώνεται κατά 3,1%.
«Αν κάτι φαίνεται τέλειο, οι χρήστες θα υποθέσουν αυτόματα ότι είναι σωστό», σημείωσαν οι ειδικοί της Anthropic.
Αυτή η υποκειμενική προσέγγιση είναι εξαιρετικά επικίνδυνη. Στην πραγματικότητα, όσο πιο περίπλοκη είναι η εργασία, τόσο μεγαλύτερη είναι η πιθανότητα η Τεχνητή Νοημοσύνη να κάνει λάθη ή να «κατασκευάσει» πληροφορίες. Εάν οι άνθρωποι κρίνουν την εσωτερική ποιότητα με βάση αποκλειστικά την εμφάνιση, θα μας εξαπατήσει πολύ εύκολα η Τεχνητή Νοημοσύνη.
Σύμφωνα με την έκθεση, όσοι συμμετέχουν τακτικά σε συζητήσεις και επισημαίνουν ελαττώματα της Τεχνητής Νοημοσύνης βαθμολογούνται 5-6 φορές υψηλότερα από τον μέσο χρήστη. Είναι επίσης πιο πιθανό να εντοπίσουν ελλείψεις και ασυνέπειες σε σύγκριση με την υπόλοιπη ομάδα χρηστών. Αυτοί οι «ειδικοί» συνήθως επιτυγχάνουν βαθμολογίες περίπου 7-8/11 από τον Claude.
Πηγή: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html











Σχόλιο (0)