La puce IA dédiée Groq est-elle le « cheval noir » de l’industrie des semi-conducteurs ?

La puce d'intelligence artificielle (IA) dédiée LPU développée par Groq est devenue une sensation des médias sociaux du jour au lendemain, car ses tests de référence publics sont devenus viraux sur la plateforme de médias sociaux X.

Groq prétend offrir « les modèles de traitement du langage naturel les plus rapides au monde » et des tests indépendants approfondis suggèrent que cette affirmation pourrait être exacte.

735783 1szzxeq groq.jpg — La puce LPU AI dédiée développée par Groq offre des performances supérieures pour les grands modèles de langage dans les expériences.

Groq fabrique une puce d'IA dédiée, appelée LPU (Language Processing Unit), réputée plus rapide que les GPU de Nvidia. Les GPU de Nvidia sont souvent considérés comme la référence du secteur pour l'exécution de modèles d'IA, mais les premiers résultats suggèrent que les LPU les surpasseront, du moins pour les tâches exigeant une vitesse élevée.

En substance, la puce LPU de Groq est un « moteur de calcul » qui permet aux chatbots comme ChatGPT et Gemini de fonctionner à des vitesses de réception et de réponse ultra-rapides. Lors des tests effectués, le chatbot équipé de la puce LPU a surpassé huit chatbots utilisant d'autres puces d'IA sur plusieurs indicateurs de performance clés, notamment le rapport latence/débit et le temps de réponse total. La supériorité de la puce LPU a été particulièrement évidente lors des tests avec le modèle Llama 2-70b de Meta.

Selon des tests indépendants réalisés par Artificial Analysis, les chatbots utilisant des puces LPU peuvent atteindre un débit de 247 jetons/seconde. À titre de comparaison, ChatGPT d'OpenAI n'atteint actuellement qu'un débit maximal de 18 jetons/seconde. Cela signifie que ChatGPT pourrait être 13 fois plus rapide avec les puces Groq, bien que cela dépende de nombreux autres facteurs.

Selon Artificial Analysis, ce niveau de performance pourrait ouvrir de nouvelles perspectives pour les grands modèles linguistiques (LLM) dans un large éventail de domaines. Les chatbots utilisant les puces LPU de Groq peuvent générer des centaines de mots en une fraction de seconde, permettant ainsi aux utilisateurs d'effectuer des tâches en temps réel. Lors d'un test, le fondateur et PDG de Groq, Jonathon Ross, a guidé un présentateur de CNN dans une conversation orale en direct avec un chatbot IA à l'autre bout du monde.

Les chatbots IA comme ChatGPT, Gemini, Llama… pourraient être bien plus utiles s'ils répondaient plus rapidement. L'une de leurs principales limitations actuelles est leur incapacité à suivre la parole humaine en temps réel. Ce délai important rend la conversation robotisée et insatisfaisante dans de nombreux domaines.

Malgré le battage médiatique autour du LPU de Groq, la question immédiate est de savoir comment il se compare à des produits similaires dans des applications concrètes. Contrairement au GPU de Nvidia ou au TPU de Google, le LPU de Groq est une puce d'IA spécialisée, conçue pour être optimisée pour des tâches spécifiques, plutôt qu'une puce d'IA « générale ».

De plus, c'est aussi le moment où les principaux développeurs d'IA cherchent à développer leurs propres puces pour éviter de dépendre des produits Nvidia. OpenAI serait à la recherche de milliers de milliards de dollars de financement pour développer ses propres puces. Son PDG, Sam Altman, envisage même de reconstruire une architecture de puce IA entièrement nouvelle.

(selon Cryptoslate)

Source