En janvier, la startup chinoise DeepSeek a lancé son modèle d'inférence open source R1. La société affirme que le grand modèle de langage derrière R1 a été développé avec des puces moins puissantes et à un coût bien inférieur à celui des modèles d'IA occidentaux.

Les investisseurs ont réagi à la nouvelle en se débarrassant des actions de Nvidia et d'autres sociétés technologiques, ce qui a fait perdre à Nvidia 600 milliards de dollars de capitalisation boursière en une seule journée. Cependant, la plus grande entreprise de semi-conducteurs au monde a désormais récupéré la majeure partie de ce qu’elle avait perdu.

deepseek bloomberg
Les grands modèles linguistiques de DeepSeek sont développés à l'aide de puces beaucoup plus faibles et moins chères que les modèles occidentaux. Photo : Bloomberg

Dans sa dernière vidéo , Jensen Huang soutient que la réaction extrême du marché provient du fait que les investisseurs interprètent mal les progrès de DeepSeek.

Ils se demandent si les milliards de dollars que Big Tech dépense dans l’infrastructure de l’IA sont nécessaires si moins de puissance de calcul est nécessaire pour former les modèles.

Cependant, M. Huang a déclaré que l'industrie a toujours besoin de puissance de calcul pour les méthodes de post-formation, qui permettent aux modèles d'IA de tirer des conclusions ou des prédictions après avoir été formés.

À mesure que les méthodes de post-formation deviennent plus diverses et plus avancées, la demande de puissance de calcul fournie par les puces Nvidia augmente également.

Selon le PDG de Nvidia, les investisseurs pensent que le monde ne dispose que d'une pré-formation et d'une inférence (poser une question à l'IA et obtenir une réponse immédiatement), mais la post-formation est la partie la plus importante de l'IA. C'est là qu'il apprend à résoudre des problèmes spécialisés.

Pourtant, M. Huang ne nie pas que DeepSeek a « injecté » plus d’énergie dans le monde de l’IA. La PDG d'AMD, Lisa Su, a également déclaré que DeepSeek est à l'origine d'innovations « bonnes pour les applications d'IA » dans une interview plus tôt ce mois-ci.

Le terme pré-formation fait référence à l'étape initiale de la formation d'un grand modèle de langage (LLM), où le modèle apprend à partir d'un ensemble de données vaste et diversifié, généralement jusqu'à plusieurs billions de jetons.

L’objectif ici est d’aider le modèle à acquérir une compréhension générale de la langue, du contexte et des types courants de connaissances. Cette étape nécessite souvent une puissance de calcul et des données considérables, coûtant des centaines de millions de dollars.

Le terme post-formation ou réglage fin désigne le fait de prendre un modèle précédemment formé, puis de le former à nouveau avec un ensemble de données plus spécifique. Ces ensembles de données sont généralement plus petits et axés sur un domaine ou une tâche particulière.

Son objectif est d’ajuster le modèle pour qu’il fonctionne mieux dans des scénarios et des tâches spécifiques, qui ne sont pas abordés en profondeur lors de la pré-formation. Les nouvelles connaissances ajoutées après la formation amélioreront davantage les performances du modèle que l’élargissement des connaissances générales.

(Selon Insider, Reddit)