
GPU:n är hjärnan i en AI-dator
Enkelt uttryckt fungerar grafikprocessorn (GPU) som hjärnan i AI-datorn.
Som du kanske vet är den centrala processorenheten (CPU) datorns hjärna. Fördelen med en GPU är att det är en specialiserad CPU som kan utföra komplexa beräkningar. Det snabbaste sättet att göra detta är att låta grupper av GPU:er lösa samma problem. Att träna en AI-modell kan dock fortfarande ta veckor eller till och med månader. När den väl är byggd placeras den i ett frontend-datorsystem och användare kan ställa frågor till AI-modellen, en process som kallas inferens.
En AI-dator som innehåller flera GPU:er
Den bästa arkitekturen för AI-problem är att använda ett kluster av GPU:er i ett rack, anslutna till en switch ovanpå racket. Flera GPU-rack kan anslutas i en nätverkshierarki. Allt eftersom problemet blir mer komplext ökar GPU-kraven, och vissa projekt kan behöva driftsätta kluster med tusentals GPU:er.
Varje AI-kluster är ett litet nätverk
När man bygger ett AI-kluster är det nödvändigt att upprätta ett litet datornätverk för att ansluta och låta GPU:er arbeta tillsammans och dela data effektivt.

Figuren ovan illustrerar ett AI-kluster där cirklarna längst ner representerar arbetsflödena som körs på GPU:er. GPU:erna ansluter till Top-of-Rack (ToR)-switcharna. ToR-switcharna ansluter också till nätverksstamnätsswitcharna som visas ovanför diagrammet, vilket demonstrerar den tydliga nätverkshierarki som krävs när flera GPU:er är inblandade.
Nätverk är en flaskhals i AI-implementering
Förra hösten, vid Open Computer Project (OCP) Global Summit, där delegaterna arbetade med att bygga nästa generations AI-infrastruktur, framförde delegaten Loi Nguyen från Marvell Technology en viktig poäng: ”nätverk är den nya flaskhalsen.”
Tekniskt sett kan hög paketlatens eller paketförlust på grund av nätverksöverbelastning leda till att paket skickas om, vilket avsevärt ökar tiden för slutförande av jobb (JCT). Som ett resultat slösas företag bort grafikprocessorer värda miljoner eller tiotals miljoner dollar på grund av ineffektiva AI-system, vilket kostar företag både intäkter och tid till marknaden.
Mätning är en viktig förutsättning för framgångsrik drift av AI-nätverk
För att driva ett AI-kluster effektivt måste GPU:er kunna utnyttjas fullt ut för att förkorta träningstiden och använda inlärningsmodellen för att maximera avkastningen på investeringen. Därför är det nödvändigt att testa och utvärdera AI-klustrets prestanda (Figur 2). Denna uppgift är dock inte enkel, eftersom det vad gäller systemarkitektur finns många inställningar och relationer mellan GPU:er och nätverksstrukturer som behöver komplettera varandra för att lösa problemet.

Detta skapar många utmaningar vid mätning av AI-nätverk:
- Svårigheter att reproducera hela produktionsnätverk i labbet på grund av begränsningar i kostnad, utrustning, brist på skickliga nätverks-AI-ingenjörer, utrymme, effekt och temperatur.
- Mätning på produktionssystemet minskar den tillgängliga bearbetningskapaciteten i själva produktionssystemet.
- Svårigheter att korrekt återge problemen på grund av skillnader i problemens skala och omfattning.
- Komplexiteten i hur GPU:er är kollektivt sammankopplade.
För att hantera dessa utmaningar kan företag testa en delmängd av de rekommenderade inställningarna i en laboratoriemiljö för att jämföra viktiga mätvärden som jobbslutförandetid (JCT), bandbredden som AI-teamet kan uppnå och jämföra det med switchplattformsanvändning och cacheanvändning. Denna benchmarking hjälper till att hitta rätt balans mellan GPU-/processorarbetsbelastning och nätverksdesign/konfiguration. När de är nöjda med resultaten kan datorarkitekterna och nätverksingenjörerna ta dessa inställningar till produktion och mäta nya resultat.
Företagsforskningslaboratorier, akademiska institutioner och universitet arbetar med att analysera alla aspekter av att bygga och driva effektiva AI-nätverk för att möta utmaningarna med att arbeta i stora nätverk, särskilt i takt med att bästa praxis fortsätter att utvecklas. Denna samarbetsinriktade, repeterbara metod är det enda sättet för företag att utföra repeterbara mätningar och snabbt testa "tänk om"-scenarier som är grunden för att optimera nätverk för AI.
(Källa: Keysight Technologies)
[annons_2]
Källa: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html










Kommentar (0)