Το OpenAI δεν έχει αποκαλύψει πολλά για το πώς εκπαιδεύτηκε το ChatGPT-4. Ωστόσο, τα μεγάλα γλωσσικά μοντέλα (LLM) συνήθως εκπαιδεύονται σε κείμενο που προέρχεται από το διαδίκτυο, όπου η αγγλική γλώσσα είναι η lingua franca. Περίπου το 93% των δεδομένων εκπαίδευσης του ChatGPT-3 είναι στα αγγλικά.
Στο Common Crawl, ένα μόνο από τα σύνολα δεδομένων στα οποία εκπαιδεύτηκε το μοντέλο Τεχνητής Νοημοσύνης, τα αγγλικά αποτελούν το 47% του σώματος κειμένων, με άλλες ευρωπαϊκές γλώσσες να αποτελούν ένα επιπλέον 38%. Αντίθετα, τα κινέζικα και τα ιαπωνικά μαζί αποτελούν μόνο το 9%.
Αυτό δεν είναι ένα πρόβλημα που περιορίζεται μόνο στο ChatGPT, όπως διαπίστωσαν ο Nathaniel Robinson, ερευνητής στο Πανεπιστήμιο Johns Hopkins, και οι συνεργάτες του. Όλοι οι μεταπτυχιακοί φοιτητές LLM είχαν καλύτερες επιδόσεις σε γλώσσες με «υψηλούς πόρους», όπου τα δεδομένα εκπαίδευσης ήταν άφθονα, παρά σε γλώσσες με «χαμηλούς πόρους», όπου αυτά ήταν σπάνια.
Αυτό αποτελεί πρόβλημα για όσους ελπίζουν να φέρουν την Τεχνητή Νοημοσύνη στις φτωχές χώρες για να βελτιώσουν τομείς από την εκπαίδευση έως την υγεία. Ως αποτέλεσμα, ερευνητές σε όλο τον κόσμο εργάζονται για να κάνουν την Τεχνητή Νοημοσύνη πιο πολυγλωσσική.
Τον περασμένο Σεπτέμβριο, η ινδική κυβέρνηση λάνσαρε ένα chatbot για να βοηθά τους αγρότες να παραμένουν ενημερωμένοι με χρήσιμες πληροφορίες από την κυβέρνηση.
Ο Shankar Maruwada του Ιδρύματος EkStep, του μη κερδοσκοπικού οργανισμού που βοήθησε στην κατασκευή του chatbot, δήλωσε ότι το bot λειτουργεί συνδυάζοντας δύο τύπους γλωσσικών μοντέλων, επιτρέποντας στους χρήστες να υποβάλλουν ερωτήματα στη μητρική τους γλώσσα. Αυτά τα ερωτήματα στη μητρική γλώσσα διαβιβάζονται σε λογισμικό μηχανικής μετάφρασης σε μια ινδική ερευνητική εγκατάσταση, η οποία τα μεταφράζει στα αγγλικά πριν προωθήσει την απάντηση στο LLM, το οποίο την επεξεργάζεται. Τέλος, η απάντηση μεταφράζεται πίσω στη μητρική γλώσσα του χρήστη.
Αυτή η διαδικασία μπορεί να λειτουργήσει, αλλά η μετάφραση ερωτημάτων στην «προτιμώμενη» γλώσσα του LLM είναι μια αδέξια λύση. Η γλώσσα είναι μια αντανάκλαση του πολιτισμού και της κοσμοθεωρίας . Μια εργασία του 2022 από την Rebecca Johnson, ερευνήτρια στο Πανεπιστήμιο του Σίδνεϊ, διαπίστωσε ότι το ChatGPT-3 παρήγαγε απαντήσεις σε θέματα όπως ο έλεγχος των όπλων και η πολιτική για τους πρόσφυγες, οι οποίες ήταν συγκρίσιμες με τις αμερικανικές αξίες που εκφράζονται στην Έρευνα Παγκόσμιων Αξιών.
Ως αποτέλεσμα, πολλοί ερευνητές προσπαθούν να κάνουν τους LLM να μιλούν άπταιστα σε λιγότερο συχνά χρησιμοποιούμενες γλώσσες. Τεχνικά, μια προσέγγιση είναι η τροποποίηση του tokenizer για τη γλώσσα. Μια ινδική νεοσύστατη εταιρεία που ονομάζεται Sarvam AI έχει γράψει ένα tokenizer βελτιστοποιημένο για Χίντι ή μοντέλο OpenHathi - LLM βελτιστοποιημένο για τη γλώσσα Devanagari (Ινδία) που μπορεί να μειώσει σημαντικά το κόστος απάντησης σε ερωτήσεις.
Ένας άλλος τρόπος είναι να βελτιωθούν τα σύνολα δεδομένων στα οποία εκπαιδεύεται το LLM. Τον Νοέμβριο, μια ομάδα ερευνητών στο Πανεπιστήμιο Mohamed bin Zayed στο Άμπου Ντάμπι κυκλοφόρησε την τελευταία έκδοση του αραβόφωνου μοντέλου τους, που ονομάζεται «Jais». Έχει το ένα έκτο του αριθμού των παραμέτρων του ChatGPT-3, αλλά έχει περίπου την ίδια απόδοση στα αραβικά.
Ο Τίμοθι Μπόλντουιν, πρόεδρος του Πανεπιστημίου Μοχάμεντ μπιν Ζαγιέντ, σημείωσε ότι παρόλο που η ομάδα του ψηφιοποίησε πολλά αραβικά κείμενα, κάποιο αγγλικό κείμενο εξακολουθούσε να περιλαμβάνεται στο μοντέλο. Ορισμένες έννοιες είναι ίδιες σε όλες τις γλώσσες και μπορούν να μαθευτούν σε οποιαδήποτε γλώσσα.
Μια τρίτη προσέγγιση είναι η βελτιστοποίηση των μοντέλων μετά την εκπαίδευσή τους. Τόσο το Jais όσο και το OpenHathi διαθέτουν έναν αριθμό ζευγών ερωτήσεων-απαντήσεων που δημιουργούνται από ανθρώπους. Το ίδιο ισχύει και για τα δυτικά chatbots, για την αποτροπή της παραπληροφόρησης.
Ο Ernie Bot, κάτοχος LLM από την Baidu, μια μεγάλη κινεζική εταιρεία τεχνολογίας, έχει ρυθμιστεί ώστε να περιορίζει την ομιλία που μπορεί να προσβάλει την κυβέρνηση. Τα μοντέλα μπορούν επίσης να μαθαίνουν από την ανθρώπινη ανατροφοδότηση, με τους χρήστες να αξιολογούν τις απαντήσεις του LLM. Αλλά αυτό είναι δύσκολο να γίνει για πολλές γλώσσες σε λιγότερο ανεπτυγμένες περιοχές λόγω της ανάγκης πρόσληψης ειδικευμένων ατόμων για να κρίνουν τις απαντήσεις του μηχανήματος.
(Σύμφωνα με το Economist)
[διαφήμιση_2]
Πηγή
Σχόλιο (0)