Το DeepSeek αποκαλύπτει τα μυστικά του.

Η DeepSeek αποκαλύπτει πώς κατασκευάζει μοντέλα τεχνητής νοημοσύνης χαμηλού κόστους. Φωτογραφία: Bloomberg .

Σε μια ερευνητική έκθεση που δημοσιεύθηκε στις 15 Μαΐου, η DeepSeek μοιράστηκε για πρώτη φορά λεπτομέρειες σχετικά με το πώς δημιούργησε ένα από τα πιο ισχυρά συστήματα τεχνητής νοημοσύνης ανοιχτού κώδικα στον κόσμο με ένα κλάσμα του κόστους των ανταγωνιστών της.

Η μελέτη, με τίτλο «Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures», έχει συνυπογραφεί από τον ιδρυτή Liang Wenfeng. Η DeepSeek αποδίδει την επιτυχία της στον παράλληλο σχεδιασμό υλικού και λογισμικού, μια διαφοροποιητική προσέγγιση σε σύγκριση με πολλές εταιρείες που εξακολουθούν να επικεντρώνονται στη βελτιστοποίηση λογισμικού ανεξάρτητα.

«Το DeepSeek-V3, εκπαιδευμένο σε 2.048 GPU Nvidia H800, κατέδειξε πώς ο παράλληλος σχεδιασμός μπορεί να λύσει αποτελεσματικά τις προκλήσεις, επιτρέποντας την αποτελεσματική εκπαίδευση και εξαγωγή συμπερασμάτων σε μεγάλη κλίμακα», έγραψε η ερευνητική ομάδα στην έκθεση. Η DeepSeek και το hedge fund High-Flyer είχαν αποθηκεύσει τσιπ H800 πριν απαγορευτεί η εξαγωγή τους στην Κίνα από τις ΗΠΑ από το 2023.

Σύμφωνα με το άρθρο, η ερευνητική ομάδα του DeepSeek γνώριζε καλά τους περιορισμούς του υλικού και το υπερβολικό κόστος εκπαίδευσης μεγάλων γλωσσικών μοντέλων (LLM), της υποκείμενης τεχνολογίας πίσω από τα chatbots όπως το ChatGPT της OpenAI. Ως εκ τούτου, εφάρμοσαν μια σειρά τεχνικών βελτιστοποιήσεων για να αυξήσουν την απόδοση της μνήμης, να βελτιώσουν την επικοινωνία μεταξύ των τσιπ και να ενισχύσουν τη συνολική αποτελεσματικότητα της υποδομής Τεχνητής Νοημοσύνης.

Επιπλέον, το DeepSeek δίνει έμφαση στον ρόλο της αρχιτεκτονικής Mixed Expert Model (MoE). Πρόκειται για μια μέθοδο μηχανικής μάθησης που διαιρεί το μοντέλο AI σε υποδίκτυα, καθένα από τα οποία επεξεργάζεται ένα ξεχωριστό τμήμα των δεδομένων εισόδου και συνεργάζεται για τη βελτιστοποίηση των αποτελεσμάτων.

Το MoE βοηθά στη μείωση του κόστους εκπαίδευσης και στην επιτάχυνση της ταχύτητας συλλογισμού. Αυτή η μέθοδος υιοθετείται πλέον ευρέως στην κινεζική τεχνολογική βιομηχανία, συμπεριλαμβανομένου του τελευταίου μοντέλου Qwen3 της Alibaba.

Η DeepSeek τράβηξε για πρώτη φορά την προσοχή όταν κυκλοφόρησε το βασικό μοντέλο V3 τον Δεκέμβριο του 2024 και το μοντέλο συλλογισμού R1 τον Ιανουάριο. Αυτά τα προϊόντα προκάλεσαν αναταραχή στην παγκόσμια αγορά, συμβάλλοντας σε μια εκτεταμένη πτώση των μετοχών τεχνολογίας που σχετίζονται με την τεχνητή νοημοσύνη.

Παρόλο που η DeepSeek δεν έχει αποκαλύψει πρόσφατα περαιτέρω σχέδια, έχει διατηρήσει το ενδιαφέρον της κοινότητας μέσω τακτικών αναφορών. Στα τέλη Μαρτίου, η εταιρεία κυκλοφόρησε μια μικρή ενημέρωση για το DeepSeek-V3 και μέχρι τα τέλη Απριλίου, κυκλοφόρησε αθόρυβα το σύστημα Prover-V2 για την επεξεργασία μαθηματικών αποδείξεων.

Πηγή: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html