Τα εργαλεία τεχνητής νοημοσύνης για την μετατροπή ομιλίας σε κείμενο «παραμορφώνουν» επίσης

(CLO) Το εργαλείο μετατροπής ομιλίας σε κείμενο του OpenAI, το Whisper, διαφημίζεται ως «ανθεκτικό και ακριβές σχεδόν ανθρώπινου επιπέδου», αλλά έχει ένα σημαντικό μειονέκτημα: Είναι επιρρεπές στην κατασκευή αποσπασμάτων κειμένου ή ακόμα και ολόκληρων προτάσεων!

Μερικά από τα κείμενα που κατασκευάζει, γνωστά στον κλάδο ως παραισθησιογόνα, μπορεί να περιλαμβάνουν φυλετικά σχόλια, βία, ακόμη και φανταστικές ιατρικές θεραπείες, λένε οι ειδικοί.

Οι ειδικοί λένε ότι τέτοιες κατασκευές είναι σοβαρές, επειδή το Whisper χρησιμοποιείται σε πολλές βιομηχανίες σε όλο τον κόσμο για τη μετάφραση και μεταγραφή συνεντεύξεων, τη δημιουργία κειμένου και βίντεο με υπότιτλους.

Ακόμα πιο ανησυχητικό είναι ότι τα ιατρικά κέντρα χρησιμοποιούν εργαλεία που βασίζονται στο Whisper για την καταγραφή των συμβουλών ασθενών-γιατρών, παρά την προειδοποίηση του OpenAI ότι το εργαλείο δεν πρέπει να χρησιμοποιείται σε «περιοχές υψηλού κινδύνου».

Εργαλείο μετατροπής ομιλίας σε κείμενο που ο καθένας μπορεί να διαβάσει την εικόνα 1 — Οι προτάσεις που ξεκινούν με "#Ground truth" είναι ό,τι ειπώθηκε στην πραγματικότητα, οι προτάσεις που ξεκινούν με "#text" είναι ό,τι μετέγραψε ο Whisper. Φωτογραφία: AP

Ερευνητές και μηχανικοί λένε ότι το Whisper προκαλεί συχνά παραισθήσεις κατά τη χρήση. Για παράδειγμα, ένας ερευνητής του Πανεπιστημίου του Μίσιγκαν είπε ότι βρήκε παραισθήσεις σε οκτώ από τις 10 ηχογραφήσεις που εξέτασε.

Ένας πρώιμος μηχανικός μηχανικής μάθησης βρήκε χειραγώγηση σε περίπου τις μισές από τις περισσότερες από 100 ώρες μεταγραφών του Whisper που ανέλυσε. Ένας τρίτος προγραμματιστής είπε ότι βρήκε παραισθήσεις σε σχεδόν κάθε μία από τις 26.000 μεταγραφές που δημιουργήθηκαν με το Whisper.

Η ψευδαίσθηση επιμένει ακόμη και σε σύντομα, καλοηχογραφημένα ηχητικά δείγματα. Μια πρόσφατη μελέτη από επιστήμονες υπολογιστών διαπίστωσε 187 παραμορφώσεις σε περισσότερα από 13.000 καθαρά ηχητικά αποσπάσματα που εξέτασαν.

Αυτή η τάση θα οδηγούσε σε δεκάδες χιλιάδες σφάλματα σε εκατομμύρια ηχογραφήσεις, ανέφεραν οι ερευνητές.

Τέτοια λάθη μπορούν να έχουν «πραγματικά σοβαρές συνέπειες», ειδικά σε νοσοκομειακό περιβάλλον, δήλωσε η Αλόντρα Νέλσον, καθηγήτρια στη Σχολή Κοινωνικών Επιστημών στο Ινστιτούτο Προηγμένων Σπουδών.

«Κανείς δεν θέλει να του γίνει λανθασμένη διάγνωση. Πρέπει να υπάρχει ένα υψηλότερο όριο», είπε ο Νέλσον.

Οι καθηγήτριες Άλισον Κένεκ του Πανεπιστημίου Κορνέλ και Μόνα Σλόαν του Πανεπιστημίου της Βιρτζίνια εξέτασαν χιλιάδες σύντομα αποσπάσματα που ανέκτησαν από το TalkBank, ένα ερευνητικό αρχείο που φυλάσσεται στο Πανεπιστήμιο Κάρνεγκι Μέλον. Διαπίστωσαν ότι σχεδόν το 40% των ψευδαισθήσεων ήταν επιβλαβείς ή ενοχλητικές επειδή ο ομιλητής θα μπορούσε να παρερμηνευτεί ή να παρουσιαστεί λανθασμένα.

Ένας ομιλητής σε μια ηχογράφηση περιέγραψε «δύο άλλα κορίτσια και μια γυναίκα», αλλά ο Whisper κατασκεύασε πρόσθετα ρατσιστικά σχόλια, προσθέτοντας «δύο άλλα κορίτσια και μια γυναίκα, εεε, που ήταν μαύρη».

Σε μια άλλη μεταγραφή, ο Whisper εφηύρε ένα ανύπαρκτο φάρμακο που ονομάζεται «αντιβιοτικά με αυξημένη δράση».

Ενώ οι περισσότεροι προγραμματιστές αναγνωρίζουν ότι τα εργαλεία μεταγραφής μπορούν να κάνουν ορθογραφικά λάθη ή άλλα σφάλματα, οι μηχανικοί και οι ερευνητές λένε ότι δεν έχουν ξαναδεί ένα εργαλείο μεταγραφής με τεχνητή νοημοσύνη τόσο παραισθησιογόνο όσο το Whisper.

Το εργαλείο είναι ενσωματωμένο σε διάφορες εκδόσεις του ChatGPT, του κορυφαίου chatbot της OpenAI, και αποτελεί μια ενσωματωμένη υπηρεσία στην πλατφόρμα cloud computing της Oracle και της Microsoft, εξυπηρετώντας χιλιάδες εταιρείες παγκοσμίως. Χρησιμοποιείται επίσης για τη μεταγραφή και μετάφραση κειμένου σε πολλές γλώσσες.

Νγκοκ Αν (σύμφωνα με το AP)

[διαφήμιση_2]
Πηγή: https://www.congluan.vn/cong-cu-chuyen-giong-noi-thanh-van-ban-ai-cung-co-the-xuyen-tac-post319008.html

Ετικέτα: Ψίθυρος φωνή μεταγραφή εσείς OPENAI

Σχόλιο (0)

Πιο δημοφιλή

Νεότερα

No data

Η σαγηνευτική ομορφιά του μονοπατιού του Χο Τσι Μινχ από ψηλά

Στο ίδιο θέμα

Ο Τσιένγκ Κεν μετέφερε περισσότερα από 300 άτομα για να αποφύγει την κυκλοφορία της καταιγίδας 11.

Báo Lào Cai

16 giờ trước

Η κοινότητα Khanh Yen ανταποκρίνεται επειγόντως στην καταιγίδα αριθ. 11

Báo Lào Cai

16 giờ trước

Η OpenAI αποτιμήθηκε στο ποσό ρεκόρ των 500 δισεκατομμυρίων δολαρίων, καθιστώντας την την πιο πολύτιμη νεοσύστατη επιχείρηση στον κόσμο.

Báo Tuổi Trẻ

04/10/2025

Εκπληκτικό βίντεο και ήχος από το νέο εργαλείο τεχνητής νοημοσύνης του OpenAI

Báo Dân trí

04/10/2025

Διόρθωση της υπερχρέωσης στα εκπαιδευτικά ιδρύματα

Báo Đắk Lắk

02/10/2025

Η OpenAI λανσάρει το Κοινωνικό Δίκτυο: AI Revolution 2.0;

Báo Tuổi Trẻ

01/10/2025

Στην ίδια κατηγορία

Ο Πρόεδρος της Εθνοσυνέλευσης και η σύζυγός του επισκέφθηκαν Ελβετούς φίλους που αγαπούν τη χώρα και τον λαό του Βιετνάμ.

Báo Nhân dân

29/07/2025

Ο πρόεδρος της Εθνοσυνέλευσης, Τραν Ταν Μαν, και η σύζυγός του ξεκίνησαν επίσημη επίσκεψη στο Μαρόκο.

VietnamPlus

25/07/2025

Ο Πρόεδρος της Εθνοσυνέλευσης, Τραν Ταν Μαν, ολοκλήρωσε με επιτυχία την επίσημη επίσκεψή του στη Σενεγάλη.

Báo Tin Tức

25/07/2025

Ποια ομάδα θα κερδίσει το πρωτάθλημα DIFF 2025 αξίας 20.000 δολαρίων ΗΠΑ;

Việt Nam

02/07/2025

Η Εθνοσυνέλευση ενέκρινε μια σειρά συγκεκριμένων πολιτικών που ισχύουν για το Διεθνές Χρηματοοικονομικό Κέντρο στο Βιετνάμ.

Báo Nhân dân

27/06/2025

Η Εθνοσυνέλευση «ολοκληρώσε» πολλούς ειδικούς μηχανισμούς και πολιτικές για την κατασκευή πυρηνικών σταθμών ηλεκτροπαραγωγής.

VietNamNet

27/06/2025

Αναπαράσταση του Φεστιβάλ Μέσης Φθινοπώρου της Δυναστείας Λι στην Αυτοκρατορική Ακρόπολη Τανγκ Λονγκ

Οι Δυτικοί τουρίστες απολαμβάνουν να αγοράζουν παιχνίδια για το Φεστιβάλ των Μεσοφθινοπώρων στην οδό Hang Ma για να τα δωρίσουν στα παιδιά και τα εγγόνια τους.