Το DeepSeek Ξανασπάει

Η DeepSeek κυκλοφόρησε ένα νέο μοντέλο τεχνητής νοημοσύνης ικανό να επεξεργάζεται έγγραφα με 7-20 φορές λιγότερα tokens από τις παραδοσιακές μεθόδους. Φωτογραφία: The Verge .

Σύμφωνα με το SCMP , η DeepSeek κυκλοφόρησε ένα νέο μοντέλο πολυτροπικής τεχνητής νοημοσύνης (AI) ικανό να επεξεργάζεται μεγάλα και σύνθετα έγγραφα με σημαντικά λιγότερα tokens—7-20 φορές λιγότερα—από τις παραδοσιακές μεθόδους επεξεργασίας κειμένου.

Τα διακριτικά (tokens) είναι οι μικρότερες μονάδες κειμένου που επεξεργάζεται η Τεχνητή Νοημοσύνη. Η μείωση του αριθμού των διακριτικών (tokens) σημαίνει εξοικονόμηση υπολογιστικού κόστους και αύξηση της αποτελεσματικότητας ενός μοντέλου Τεχνητής Νοημοσύνης.

Για να επιτευχθεί αυτό, το μοντέλο DeepSeek-OCR (οπτική αναγνώριση χαρακτήρων) χρησιμοποίησε την οπτική αντίληψη ως μέσο συμπίεσης πληροφοριών. Αυτή η προσέγγιση επιτρέπει σε μεγάλα γλωσσικά μοντέλα να επεξεργάζονται τεράστιους όγκους κειμένου χωρίς να επιβαρύνονται με αναλογικά αυξανόμενο υπολογιστικό κόστος.

«Μέσω του DeepSeek-OCR, έχουμε καταδείξει ότι η χρήση της οπτικής αντίληψης για τη συμπίεση πληροφοριών μπορεί να επιτύχει σημαντικές μειώσεις στα tokens — από 7 έως 20 φορές για διαφορετικά ιστορικά στάδια — προσφέροντας μια πολλά υποσχόμενη κατεύθυνση», δήλωσε το DeepSeek.

Σύμφωνα με την ανάρτηση στο ιστολόγιο της εταιρείας, το DeepSeek-OCR αποτελείται από δύο κύρια στοιχεία: το DeepEncoder και το DeepSeek3B-MoE-A570M, το οποίο λειτουργεί ως αποκωδικοποιητής.

Σε αυτό το μοντέλο, το DeepEncoder λειτουργεί ως το βασικό εργαλείο, βοηθώντας στη διατήρηση χαμηλών επιπέδων ενεργοποίησης σε είσοδο υψηλής ανάλυσης, επιτυγχάνοντας παράλληλα ισχυρούς λόγους συμπίεσης για τη μείωση του αριθμού των tokens.

Στη συνέχεια, ο αποκωδικοποιητής είναι ένα μοντέλο Μείγματος Εμπειρογνωμόνων (MoE) με 570 εκατομμύρια παραμέτρους, με στόχο την ανακατασκευή του αρχικού κειμένου. Η αρχιτεκτονική MoE διαιρεί το μοντέλο σε υποδίκτυα που ειδικεύονται στην επεξεργασία ενός υποσυνόλου των δεδομένων εισόδου, βελτιστοποιώντας την απόδοση χωρίς να ενεργοποιούν ολόκληρο το μοντέλο.

Στο OmniDocBench, ένα σημείο αναφοράς για την αναγνωσιμότητα εγγράφων, το DeepSeek-OCR ξεπερνά σε απόδοση τα κύρια μοντέλα OCR όπως το GOT-OCR 2.0 και το MinerU 2.0, ενώ χρησιμοποιεί σημαντικά λιγότερα tokens.

Πηγή: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html