image001.jpg

Le GPU est le cerveau de l'ordinateur IA

En termes simples, l’unité de traitement graphique (GPU) agit comme le cerveau de l’ordinateur IA.

Comme vous le savez peut-être, l'unité centrale de traitement (CPU) est le cerveau de l'ordinateur. L'avantage d'un GPU est qu'il s'agit d'un processeur spécialisé capable d'effectuer des calculs complexes. Le moyen le plus rapide d'y parvenir est de faire appel à des groupes de GPU pour résoudre le même problème. Cependant, l'entraînement d'un modèle d'IA peut prendre des semaines, voire des mois. Une fois construit, il est placé dans un système informatique frontal et les utilisateurs peuvent interroger le modèle d'IA, un processus appelé inférence.

Un ordinateur IA contenant plusieurs GPU

La meilleure architecture pour résoudre les problèmes d'IA consiste à utiliser un cluster de GPU dans un rack, connecté à un commutateur situé en haut du rack. Plusieurs racks de GPU peuvent être connectés selon une hiérarchie réseau. Plus le problème devient complexe, plus les besoins en GPU augmentent, et certains projets peuvent nécessiter le déploiement de clusters de milliers de GPU.

Chaque cluster d'IA est un petit réseau

Lors de la création d'un cluster d'IA, il est nécessaire de mettre en place un petit réseau informatique pour se connecter et permettre aux GPU de travailler ensemble et de partager efficacement les données.

image002.jpg
Un cluster d'IA

La figure ci-dessus illustre un cluster d'IA où les cercles en bas représentent les flux de travail exécutés sur les GPU. Les GPU se connectent aux commutateurs Top-of-Rack (ToR). Ces commutateurs ToR se connectent également aux commutateurs du réseau principal, illustrés au-dessus du schéma, illustrant ainsi la hiérarchie réseau claire requise lorsque plusieurs GPU sont impliqués.

Les réseaux constituent un goulot d’étranglement dans le déploiement de l’IA
L’automne dernier, lors du sommet mondial de l’Open Computer Project (OCP), où les délégués travaillaient à la construction de la prochaine génération d’infrastructures d’IA, la déléguée Loi Nguyen de Marvell Technology a fait valoir un point clé : « le réseau est le nouveau goulot d’étranglement ».

Techniquement, une latence élevée ou une perte de paquets due à la congestion du réseau peut entraîner leur renvoi, augmentant ainsi considérablement le délai d'exécution des tâches (JCT). Par conséquent, des millions, voire des dizaines de millions de dollars, de GPU sont gaspillés par les entreprises en raison de systèmes d'IA inefficaces, ce qui leur coûte à la fois du chiffre d'affaires et des délais de commercialisation.

La mesure est une condition clé pour le bon fonctionnement des réseaux d’IA

Pour exploiter efficacement un cluster d'IA, les GPU doivent pouvoir être pleinement utilisés afin de réduire le temps d'apprentissage et de mettre en œuvre le modèle d'apprentissage pour maximiser le retour sur investissement. Il est donc nécessaire de tester et d'évaluer les performances du cluster d'IA (Figure 2). Cependant, cette tâche n'est pas aisée, car, en termes d'architecture système, de nombreux paramètres et relations entre les GPU et les structures réseau doivent se compléter pour résoudre le problème.

image005.jpg
Plateforme de test de centres de données IA et comment elle teste les clusters de centres de données IA

Cela crée de nombreux défis dans la mesure des réseaux d’IA :

- Difficulté à reproduire des réseaux de production entiers en laboratoire en raison de limitations de coût, d'équipement, de pénurie d'ingénieurs en IA réseau qualifiés, d'espace, de puissance et de température.

- La mesure sur le système de production réduit la capacité de traitement disponible du système de production lui-même.

- Difficulté à reproduire fidèlement les problèmes en raison des différences d’échelle et de portée des problèmes.

- La complexité de la manière dont les GPU sont connectés collectivement.

Pour relever ces défis, les entreprises peuvent tester un sous-ensemble des configurations recommandées en laboratoire afin d'évaluer des indicateurs clés tels que le temps d'exécution des tâches (JCT), la bande passante disponible pour l'équipe d'IA, et de les comparer à l'utilisation des plateformes de commutation et du cache. Cette analyse comparative permet de trouver le juste équilibre entre la charge de travail GPU/traitement et la conception/configuration du réseau. Une fois satisfaits des résultats, les architectes informatiques et les ingénieurs réseau peuvent déployer ces configurations en production et mesurer les nouveaux résultats.

Les laboratoires de recherche des entreprises, les institutions académiques et les universités s'efforcent d'analyser tous les aspects de la création et de l'exploitation de réseaux d'IA performants afin de relever les défis liés aux grands réseaux, notamment face à l'évolution constante des bonnes pratiques. Cette approche collaborative et reproductible est la seule façon pour les entreprises de réaliser des mesures reproductibles et de tester rapidement des scénarios hypothétiques, fondements de l'optimisation des réseaux pour l'IA.

(Source : Keysight Technologies)