Συνεπώς, ακόμη και η διαμόρφωση μοντέλου τεχνητής νοημοσύνης με την καλύτερη απόδοση που δοκίμασαν, το GPT-4-Turbo της OpenAI, πέτυχε ποσοστό σωστών απαντήσεων μόνο στο 79%, παρά το γεγονός ότι διάβασαν ολόκληρο το προφίλ και συχνά «παραισθάνονταν» εξωπραγματικά στοιχεία ή γεγονότα.
«Αυτό το ποσοστό απόδοσης είναι εντελώς απαράδεκτο», δήλωσε ο Anand Kannappan, συνιδρυτής της Patronus AI. «Το σωστό ποσοστό απάντησης πρέπει να είναι πολύ υψηλότερο για να είναι αυτοματοποιημένο και έτοιμο για παραγωγή».
Τα ευρήματα υπογραμμίζουν ορισμένες από τις προκλήσεις που αντιμετωπίζουν τα μοντέλα Τεχνητής Νοημοσύνης, καθώς οι μεγάλες εταιρείες, ιδίως σε κλάδους που υπόκεινται σε αυστηρή ρύθμιση, όπως τα χρηματοοικονομικά, επιδιώκουν να ενσωματώσουν προηγμένη τεχνολογία στις δραστηριότητές τους, είτε στην εξυπηρέτηση πελατών είτε στην έρευνα.
«Ψευδαίσθηση» οικονομικών δεδομένων
Η δυνατότητα γρήγορης εξαγωγής βασικών αριθμών και εκτέλεσης ανάλυσης οικονομικών καταστάσεων θεωρείται μία από τις πιο πολλά υποσχόμενες εφαρμογές για chatbots από τότε που κυκλοφόρησε το ChatGPT στα τέλη του περασμένου έτους.
Οι καταθέσεις στην Επιτροπή Κεφαλαιαγοράς (SEC) περιέχουν σημαντικά δεδομένα και, εάν ένα bot μπορεί να συνοψίσει με ακρίβεια ή να απαντήσει γρήγορα σε ερωτήσεις σχετικά με το περιεχόμενό τους, θα μπορούσε να δώσει στους χρήστες ένα πλεονέκτημα στον ανταγωνιστικό χρηματοπιστωτικό κλάδο.
Τον τελευταίο χρόνο, η Bloomberg LP ανέπτυξε το δικό της μοντέλο τεχνητής νοημοσύνης για οικονομικά δεδομένα και καθηγητές σχολών διοίκησης επιχειρήσεων μελετούν εάν το ChatGPT μπορεί να αναλύσει τίτλους οικονομικών ειδήσεων.
Εν τω μεταξύ, η JPMorgan αναπτύσσει επίσης ένα αυτοματοποιημένο επενδυτικό εργαλείο που τροφοδοτείται από τεχνητή νοημοσύνη. Μια πρόσφατη πρόβλεψη της McKinsey ανέφερε ότι η γενετική τεχνητή νοημοσύνη θα μπορούσε να ενισχύσει τον τραπεζικό κλάδο κατά τρισεκατομμύρια δολάρια ετησίως.
Αλλά υπάρχει ακόμα πολύς δρόμος μπροστά μας. Όταν η Microsoft λάνσαρε για πρώτη φορά το Bing Chat με το GPT της OpenAI, χρησιμοποίησε το chatbot για να συνοψίσει γρήγορα τα δελτία τύπου για τα κέρδη. Οι παρατηρητές γρήγορα παρατήρησαν ότι οι αριθμοί που έβγαζε η τεχνητή νοημοσύνη ήταν διαστρεβλωμένοι ή ακόμα και κατασκευασμένοι.
Ίδια δεδομένα, διαφορετικές απαντήσεις
Μέρος της πρόκλησης της ενσωμάτωσης της LLM σε προϊόντα του πραγματικού κόσμου είναι ότι οι αλγόριθμοι δεν είναι ντετερμινιστικοί, πράγμα που σημαίνει ότι δεν είναι εγγυημένο ότι θα παράγουν τα ίδια αποτελέσματα δεδομένων των ίδιων δεδομένων. Αυτό σημαίνει ότι οι εταιρείες πρέπει να διεξάγουν πιο αυστηρές δοκιμές για να διασφαλίσουν ότι η Τεχνητή Νοημοσύνη λειτουργεί σωστά, δεν παρεκκλίνει από το θέμα και παρέχει αξιόπιστα αποτελέσματα.
Η Patronus AI δημιούργησε ένα σύνολο με περισσότερες από 10.000 ερωτήσεις και απαντήσεις, που προέκυψαν από καταθέσεις στο Χρηματιστήριο της Επιτροπής Κεφαλαιαγοράς (SEC) μεγάλων εισηγμένων εταιρειών, με την ονομασία FinanceBench. Το σύνολο δεδομένων περιλαμβάνει τις σωστές απαντήσεις καθώς και την ακριβή τοποθεσία σε οποιοδήποτε δεδομένο αρχείο για να τις βρείτε.
Δεν μπορούν όλες οι απαντήσεις να εξαχθούν απευθείας από το κείμενο και ορισμένες ερωτήσεις απαιτούν υπολογισμούς ή ελαφριά συλλογιστική.
Το τεστ υποσυνόλου 150 ερωτήσεων περιελάμβανε τέσσερα μοντέλα LLM: τα GPT-4 και GPT-4-Turbo της OpenAI, το Claude 2 της Anthropic και το Llama 2 της Meta.
Ως αποτέλεσμα, το GPT-4-Turbo, όταν του δόθηκε πρόσβαση στις υποκείμενες καταθέσεις στην Επιτροπή Κεφαλαιαγοράς (SEC), πέτυχε ποσοστό ακρίβειας μόνο 85% (σε σύγκριση με 88% λανθασμένες απαντήσεις όταν δεν του δόθηκε πρόσβαση στα δεδομένα), παρά το γεγονός ότι είχε έναν ανθρώπινο δείκτη ποντικιού στο ακριβές κείμενο για να βρει η τεχνητή νοημοσύνη την απάντηση.
Το Llama 2, ένα μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα που αναπτύχθηκε από την Meta, είχε τον υψηλότερο αριθμό «παραισθήσεων», απαντώντας λανθασμένα στο 70% των περιπτώσεων και απαντώντας σωστά μόνο στο 19% των περιπτώσεων όταν του δόθηκε πρόσβαση σε ένα μέρος των υποκείμενων εγγράφων.
Το Claude 2 του Anthropic είχε καλή απόδοση όταν του δόθηκε ένα «μακρόσυρτο πλαίσιο», στο οποίο συμπεριλήφθηκε σχεδόν ολόκληρη η σχετική καταχώρηση στην Επιτροπή Κεφαλαιαγοράς (SEC) μαζί με την ερώτηση. Μπόρεσε να απαντήσει στο 75% των ερωτήσεων που τέθηκαν, απαντώντας λανθασμένα στο 21% και αρνούμενο να απαντήσει στο 3%. Το GPT-4-Turbo είχε επίσης καλή απόδοση με ένα μακροσκελές πλαίσιο, απαντώντας σωστά στο 79% των ερωτήσεων και απαντώντας λανθασμένα στο 17% εξ αυτών.
(Σύμφωνα με το CNBC)
Αγώνας δρόμου των μεγάλων τεχνολογικών εταιρειών για επενδύσεις σε νεοσύστατες επιχειρήσεις τεχνητής νοημοσύνης
Η τεχνολογία τεχνητής νοημοσύνης φέρνει επανάσταση στις νεοσύστατες επιχειρήσεις ηλεκτρονικού εμπορίου
Η τεχνητή νοημοσύνη μετατρέπει με επιτυχία τις ανθρώπινες σκέψεις σε ρεαλιστικές εικόνες για πρώτη φορά
[διαφήμιση_2]
Πηγή
Σχόλιο (0)