Το DeepSeek επικεντρώνεται στην έρευνα και ανάπτυξη νέων μοντέλων, αντί να εμφανίζεται συχνά στα μέσα ενημέρωσης. Φωτογραφία: SCMP . |
Σε συνεργασία με ερευνητές από το Πανεπιστήμιο Tsinghua, η DeepSeek εισήγαγε μια νέα μέθοδο για τη βελτίωση των δυνατοτήτων εξαγωγής συμπερασμάτων των μεγάλων γλωσσικών μοντέλων (LLM). Η μέθοδος, που δημοσιεύθηκε σε ερευνητική εργασία το βράδυ της 4ης Απριλίου, βοηθά τους LLM να παράγουν καλύτερα και ταχύτερα αποτελέσματα για συνηθισμένα ερωτήματα.
Αυτή η τεχνική συνδυάζει δύο προηγουμένως επιτυχημένες μεθόδους από το DeepSeek. Η μία είναι η γενετική μοντελοποίηση ανταμοιβής (GRM), η οποία επιτρέπει στο μοντέλο τεχνητής νοημοσύνης να αυτοαξιολογεί και να βελτιώνει τις απαντήσεις του με βάση προηγούμενα αποτελέσματα, και η άλλη είναι η αυτο-αξιολόγηση της κριτικής.
Και οι δύο μέθοδοι βασίζονται στην πτυχή της «αυτοδιδασκαλίας» της Τεχνητής Νοημοσύνης, μειώνοντας την εξάρτηση από την άμεση ανθρώπινη ανατροφοδότηση ή καθοδήγηση, αλλά με στόχο την επίτευξη αποτελεσμάτων που είναι πιο κοντά στις ανθρώπινες προσδοκίες.
Σύμφωνα με τους ερευνητές, παρά το γεγονός ότι πρόκειται για μια νέα μέθοδο, η DeepSeek-GRM επιτυγχάνει εξαιρετικά αποτελέσματα και ανταγωνίζεται τα πιο γνωστά και αποτελεσματικά μοντέλα τεχνητής νοημοσύνης που διατίθενται σήμερα. Η DeepSeek σχεδιάζει να θέσει σε λειτουργία μοντέλα GRM ανοιχτού κώδικα, αλλά δεν έχει δοθεί συγκεκριμένο χρονοδιάγραμμα.
Αφού άφησε παγκόσμια απήχηση με το μοντέλο πλατφόρμας V3 και το μοντέλο συμπερασμού R1, η DeepSeek δημοσίευσε αυτήν την ακαδημαϊκή εργασία στο ηλεκτρονικό επιστημονικό αρχείο arXiv, προκαλώντας την περιέργεια για την επόμενη κίνηση της εταιρείας.
Το Reuters προβλέπει ότι το DeepSeek-R2, ο διάδοχος του R1, θα μπορούσε να κυκλοφορήσει τον Απρίλιο, δεδομένης της συνεχιζόμενης δημοτικότητας του προκατόχου του. Το DeepSeek-R1 είχε προκαλέσει στο παρελθόν παγκόσμια αίσθηση στον κόσμο της τεχνολογίας χάρη στην ανώτερη απόδοσή του σε σχέση με το κόστος, καθιστώντας το ανταγωνιστικό με τα τρέχοντα κορυφαία μοντέλα.
Η DeepSeek παρέμεινε σιωπηλή σχετικά με τις φήμες. Ωστόσο, σύμφωνα με τοπικές πηγές, ένας λογαριασμός εξυπηρέτησης πελατών της DeepSeek διέψευσε τις πληροφορίες σε μια ομαδική συνομιλία με εταιρικούς πελάτες.
Ιδρυμένη στη Χανγκτζόου το 2023 από τον επιχειρηματία Λιανγκ Γουενφένγκ, η DeepSeek έχει γρήγορα συγκεντρώσει την παγκόσμια προσοχή τους τελευταίους μήνες. Αλλά αντί να εκμεταλλευτεί τη δημόσια φήμη της, η εταιρεία επικεντρώνει τους πόρους της στην έρευνα και την ανάπτυξη.
Προηγουμένως, η DeepSeek αναβάθμισε το μοντέλο V3, κυκλοφορώντας την έκδοση DeepSeek-V3-0324. Σύμφωνα με την ανακοίνωση, αυτή η ενημέρωση διαθέτει βελτιωμένες δυνατότητες συλλογισμού, βελτιστοποίηση για την ανάπτυξη διεπαφής χρήστη front-end web και βελτιωμένες δεξιότητες γραφής στα κινέζικα.
Τον Φεβρουάριο, η νεοσύστατη εταιρεία άνοιξε επίσης πέντε αποθετήρια κώδικα, επιβεβαιώνοντας τη δέσμευσή της για «πρόοδο με πλήρη διαφάνεια». Επίσης, τον ίδιο μήνα, η εταιρεία ανακοίνωσε μια τεχνική μελέτη σχετικά με την «εγγενή αραιή προσοχή», η οποία βοηθά στη βελτίωση της απόδοσης των LLM στον χειρισμό τεράστιων ποσοτήτων δεδομένων.
Το DeepSeek θεωρείται σύμβολο του δυναμισμού της κινεζικής βιομηχανίας τεχνητής νοημοσύνης, σε μια εποχή που οι ΗΠΑ προσπαθούν να περιορίσουν την τεχνολογική ανάπτυξη της χώρας.
Πηγή: https://znews.vn/deepseek-gay-to-mo-post1543900.html






Σχόλιο (0)