image001.jpg

Le GPU est le cerveau de l'ordinateur IA

En termes simples, l’unité de traitement graphique (GPU) agit comme le cerveau de l’ordinateur IA.

Comme vous le savez peut-être, l'unité centrale de traitement (CPU) est le cerveau de l'ordinateur. L'avantage d'un GPU est qu'il s'agit d'un processeur spécialisé capable d'effectuer des calculs complexes. Le moyen le plus rapide d'y parvenir est de faire appel à des groupes de GPU pour résoudre un problème. Cependant, l'entraînement d'un modèle d'IA peut prendre des semaines, voire des mois. Une fois construit, il est placé dans un système de calcul frontal et les utilisateurs peuvent lui poser des questions, un processus appelé inférence.

Un ordinateur IA contenant plusieurs GPU

La meilleure architecture pour résoudre les problèmes d'IA consiste à utiliser un cluster de GPU dans un rack, connecté à un commutateur situé en haut du rack. Plusieurs racks de GPU peuvent être connectés selon une hiérarchie réseau. Plus le problème devient complexe, plus les besoins en GPU augmentent, et certains projets peuvent nécessiter le déploiement de clusters de milliers de GPU.

Chaque cluster d'IA est un petit réseau

Lors de la création d'un cluster d'IA, il est nécessaire de mettre en place un petit réseau informatique pour se connecter et permettre aux GPU de travailler ensemble et de partager efficacement les données.

image002.jpg
Un cluster d'IA

La figure ci-dessus illustre un cluster d'IA où les cercles en bas représentent les flux de travail exécutés sur les GPU. Les GPU se connectent aux commutateurs ToR (Top of Rack). Ces commutateurs se connectent également aux commutateurs du réseau principal, illustrés au-dessus du schéma, illustrant ainsi la hiérarchie réseau claire requise lorsque plusieurs GPU sont impliqués.

Les réseaux constituent un goulot d’étranglement dans le déploiement de l’IA
L'automne dernier, lors du sommet mondial de l'Open Computer Project (OCP), où les délégués ont travaillé ensemble pour construire la prochaine génération d'infrastructures d'IA, la déléguée Loi Nguyen de Marvell Technology a fait valoir un point clé : « le réseau est le nouveau goulot d'étranglement ».

Techniquement, une latence élevée ou une perte de paquets due à la congestion du réseau peut entraîner leur renvoi, augmentant ainsi considérablement le délai d'exécution des tâches (JCT). Par conséquent, des millions, voire des dizaines de millions de dollars, de GPU sont gaspillés par des systèmes d'IA inefficaces, ce qui coûte à l'entreprise à la fois des revenus et des délais de commercialisation.

La mesure est une condition essentielle au bon fonctionnement des réseaux d’IA

Pour exploiter efficacement un cluster d'IA, les GPU doivent exploiter pleinement leur capacité afin de réduire le temps d'apprentissage et de mettre en œuvre le modèle d'apprentissage pour maximiser le retour sur investissement. Il est donc nécessaire de tester et d'évaluer les performances du cluster d'IA (Figure 2). Cependant, cette tâche n'est pas aisée, car, en termes d'architecture système, de nombreux paramètres et relations entre les GPU et les structures réseau doivent se compléter pour résoudre le problème.

image005.jpg
Plateforme de test de centres de données IA et comment elle teste les clusters de centres de données IA

Cela crée de nombreux défis dans la mesure des réseaux d’IA :

- Difficulté à reproduire des réseaux de production entiers en laboratoire en raison de limitations de coût, d'équipement, de pénurie d'ingénieurs en IA réseau qualifiés, d'espace, d'énergie et de température.

- La mesure sur le système de production réduit la capacité de traitement disponible du système de production lui-même.

- Difficulté à reproduire avec précision les problèmes en raison des différences d’échelle et de portée des problèmes.

- La complexité de la manière dont les GPU sont connectés collectivement.

Pour relever ces défis, les entreprises peuvent tester un sous-ensemble des configurations recommandées en laboratoire afin d'évaluer des indicateurs clés tels que le temps d'exécution des tâches (JCT), la bande passante disponible pour l'équipe d'IA, et de les comparer à l'utilisation de la plateforme de commutation et du cache. Cette analyse comparative permet de trouver le juste équilibre entre la charge de travail GPU/traitement et la conception/configuration du réseau. Une fois satisfaits des résultats, les architectes informatiques et les ingénieurs réseau peuvent déployer ces configurations en production et mesurer de nouveaux résultats.

Les laboratoires de recherche des entreprises, les institutions académiques et les universités s'efforcent d'analyser tous les aspects de la création et de l'exploitation de réseaux d'IA efficaces afin de relever les défis liés aux grands réseaux, d'autant plus que les bonnes pratiques évoluent constamment. Cette approche collaborative et reproductible est la seule façon pour les entreprises d'effectuer des mesures reproductibles et de tester rapidement des scénarios hypothétiques, fondements de l'optimisation des réseaux pour l'IA.

(Source : Keysight Technologies)