Το DeepSeek έκανε εκτεταμένη κάλυψη στα μέσα ενημέρωσης και στα μέσα κοινωνικής δικτύωσης στην αρχή της Χρονιάς του Φιδιού, προκαλώντας σημαντικές δονήσεις στις παγκόσμιες χρηματιστηριακές αγορές.

Ωστόσο, μια πρόσφατη έκθεση της εταιρείας χρηματοοικονομικών συμβούλων Bernstein προειδοποιεί ότι, παρά τα εντυπωσιακά επιτεύγματα, ο ισχυρισμός για τη δημιουργία ενός συστήματος Τεχνητής Νοημοσύνης συγκρίσιμου με αυτό του OpenAI για μόλις 5 εκατομμύρια δολάρια είναι ανακριβής.

Σύμφωνα με τον Bernstein, η δήλωση του DeepSeek είναι παραπλανητική και δεν αντικατοπτρίζει τη συνολική εικόνα.

«Πιστεύουμε ότι η DeepSeek δεν «δημιούργησε το OpenAI με 5 εκατομμύρια δολάρια». Τα μοντέλα είναι φανταστικά, αλλά δεν πιστεύουμε ότι είναι θαύματα. Και ο πανικός το Σαββατοκύριακο φαίνεται να έχει υπερβολικοποιηθεί», αναφέρει η έκθεση.

deepseek bloomberg
Οι αναλυτές της Bernstein είναι επιφυλακτικοί σχετικά με τον ισχυρισμό της DeepSeek ότι ανέπτυξε ένα σύστημα τεχνητής νοημοσύνης με μόνο 5 εκατομμύρια δολάρια. (Εικόνα: Bloomberg)

Το DeepSeek αναπτύσσει δύο κύρια μοντέλα τεχνητής νοημοσύνης: το DeepSeek-V3 και το DeepSeek R1. Το μοντέλο γλώσσας V3 μεγάλης κλίμακας αξιοποιεί την αρχιτεκτονική MOE, συνδυάζοντας μικρότερα μοντέλα για την επίτευξη υψηλής απόδοσης χρησιμοποιώντας λιγότερους υπολογιστικούς πόρους από τα παραδοσιακά μοντέλα.

Από την άλλη πλευρά, το μοντέλο V3 διαθέτει 671 δισεκατομμύρια παραμέτρους, με 37 δισεκατομμύρια παραμέτρους ενεργές ανά πάσα στιγμή, ενσωματώνοντας καινοτομίες όπως το MHLA για τη μείωση της χρήσης μνήμης και αξιοποιώντας το FP8 για μεγαλύτερη απόδοση.

Η εκπαίδευση του μοντέλου V3 απαιτούσε ένα σύμπλεγμα 2.048 GPU Nvidia H800 σε διάστημα δύο μηνών, που ισοδυναμεί με 5,5 εκατομμύρια ώρες GPU. Ενώ ορισμένες εκτιμήσεις ανεβάζουν το κόστος εκπαίδευσης σε περίπου 5 εκατομμύρια δολάρια, η έκθεση του Bernstein τονίζει ότι αυτό το ποσό καλύπτει μόνο τους υπολογιστικούς πόρους και δεν λαμβάνει υπόψη το σημαντικό κόστος που σχετίζεται με την έρευνα, τις δοκιμές και άλλα έξοδα ανάπτυξης.

Το μοντέλο DeepSeek R1 βασίζεται στα θεμέλια του V3 χρησιμοποιώντας ενισχυτική μάθηση (RL) και άλλες τεχνικές για να διασφαλίσει την ικανότητα εξαγωγής συμπερασμάτων.

Το μοντέλο R1 μπορεί να ανταγωνιστεί τα μοντέλα OpenAI σε εργασίες συλλογισμού. Ωστόσο, ο Bernstein επισημαίνει ότι η ανάπτυξη του R1 απαιτεί σημαντικούς πόρους, αν και αυτοί δεν περιγράφονται λεπτομερώς στην έκθεση DeepSeek.

Σχολιάζοντας το DeepSeek, ο Bernstein επαίνεσε τα μοντέλα ως εντυπωσιακά. Για παράδειγμα, το μοντέλο V3 έχει την ίδια ή και καλύτερη απόδοση από άλλα μεγάλα γλωσσικά μοντέλα στη γλωσσολογία, τον προγραμματισμό και τα μαθηματικά, ενώ απαιτεί λιγότερους πόρους.

Η διαδικασία προ-εκπαίδευσης V3 απαιτούσε μόνο 2,7 εκατομμύρια ώρες εργασίας GPU ή το 9% των υπολογιστικών πόρων ορισμένων άλλων κορυφαίων μοντέλων.

Ο Bernstein κατέληξε στο συμπέρασμα ότι, ενώ οι πρόοδοι του DeepSeek είναι αξιοσημείωτες, πρέπει να είμαστε επιφυλακτικοί με τους υπερβολικούς ισχυρισμούς. Η ιδέα της δημιουργίας ενός ανταγωνιστή του OpenAI με μόνο 5 εκατομμύρια δολάρια φαίνεται λανθασμένη.

(Σύμφωνα με τους Times of India)