Nvidia-CEO Jensen Huang glaubt, dass die Anleger die KI-Fortschritte von DeepSeek missverstanden haben, was zu einem Ausverkauf von Technologieaktien, darunter auch Nvidia, geführt hat.
Im Januar brachte das chinesische Startup DeepSeek sein Open-Source-Inferenzmodell R1 auf den Markt. Das Unternehmen sagt, dass das große Sprachmodell hinter R1 mit weniger leistungsstarken Chips und zu viel geringeren Kosten als westliche KI-Modelle entwickelt wurde.
Die Anleger reagierten auf die Nachricht, indem sie Aktien von Nvidia und anderen Technologieunternehmen abstoßen, wodurch Nvidia an nur einem Tag 600 Milliarden Dollar an Marktkapitalisierung einbüßte. Allerdings hat das weltgrößte Halbleiterunternehmen inzwischen den Großteil seiner Verluste wieder wettgemacht.
In seinem neuesten Video argumentiert Jensen Huang, dass die extreme Reaktion des Marktes darauf zurückzuführen sei, dass die Anleger die Fortschritte von DeepSeek falsch interpretiert hätten.
Sie stellen in Frage, ob die Billionen von Dollar, die die großen Technologieunternehmen für die KI-Infrastruktur ausgeben, notwendig sind, wenn zum Trainieren der Modelle weniger Rechenleistung benötigt wird.
Herr Huang sagte jedoch, dass die Branche noch immer Rechenleistung für Post-Training-Methoden benötige, die es KI-Modellen ermöglichen, nach dem Training Schlussfolgerungen zu ziehen oder Vorhersagen zu treffen.
Da die Post-Training-Methoden immer vielfältiger und fortschrittlicher werden, steigt auch die Nachfrage nach der Rechenleistung, die Nvidia-Chips bieten.
Laut dem CEO von Nvidia glauben Investoren, dass es in der Welt nur Vortraining und Inferenz gibt (KI eine Frage stellen und sofort eine Antwort erhalten), aber das Nachtraining ist der wichtigste Teil der KI. Dort lernt es, spezielle Probleme zu lösen.
Dennoch bestreitet Herr Huang nicht, dass DeepSeek der KI-Welt mehr Energie „gespritzt“ hat. AMD-CEO Lisa Su kommentierte in einem Interview Anfang des Monats auch, dass DeepSeek Innovationen vorantreibt, die „gut für KI-Anwendungen“ seien.
Der Begriff Vortraining bezieht sich auf die Anfangsphase des Trainings eines großen Sprachmodells (LLM), in der das Modell aus einem großen, vielfältigen Datensatz lernt, der normalerweise bis zu mehreren Billionen Token umfasst.
Das Ziel besteht hier darin, dem Modell zu helfen, ein allgemeines Verständnis von Sprache, Kontext und gängigen Wissensarten zu erlangen. Diese Phase erfordert oft enorme Rechenleistung und Datenmengen und kostet Hunderte Millionen Dollar.
Der Begriff Nachtraining oder Feinabstimmung bezeichnet den Fall, dass Sie ein zuvor trainiertes Modell nehmen und es dann mit einem spezifischeren Datensatz erneut trainieren. Diese Datensätze sind normalerweise kleiner und auf eine bestimmte Domäne oder Aufgabe ausgerichtet.
Sein Zweck besteht darin, das Modell so zu optimieren, dass es in bestimmten Szenarien und Aufgaben, die während des Vortrainings nicht ausführlich behandelt werden, eine bessere Leistung erzielt. Durch nachträgliches Hinzufügen von neuem Wissen wird die Leistung des Modells stärker verbessert als durch die Erweiterung des allgemeinen Wissens.
(Laut Insider, Reddit)
[Anzeige_2]
Quelle: https://vietnamnet.vn/jensen-huang-nha-dau-tu-sai-lam-khi-ban-thao-co-phieu-nvidia-vi-deepseek-2373687.html
Kommentar (0)