obrázek001.jpg

GPU je mozkem počítače s umělou inteligencí

Jednoduše řečeno, grafická procesorová jednotka (GPU) funguje jako mozek počítače s umělou inteligencí.

Jak možná víte, centrální procesorová jednotka (CPU) je mozkem počítače. Výhodou GPU je, že se jedná o specializovaný CPU, který dokáže provádět složité výpočty. Nejrychlejším způsobem, jak toho dosáhnout, je nechat stejný problém řešit skupiny GPU. Trénování modelu umělé inteligence však může stále trvat týdny nebo dokonce měsíce. Jakmile je model sestaven, je umístěn do front-endového počítačového systému a uživatelé mohou modelu umělé inteligence klást otázky, což je proces zvaný inference.

Počítač s umělou inteligencí obsahující více grafických procesorů (GPU)

Nejlepší architekturou pro problémy s umělou inteligencí je použití clusteru GPU v racku, připojeného k přepínači nahoře racku. Více racků s GPU lze propojit v hierarchii sítí. S rostoucí složitostí problému se zvyšují požadavky na GPU a některé projekty mohou vyžadovat nasazení clusterů tisíců GPU.

Každý cluster umělé inteligence je malá síť

Při budování clusteru umělé inteligence je nutné nastavit malou počítačovou síť, která se propojí a umožní grafickým procesorům spolupracovat a efektivně sdílet data.

obrázek002.jpg
Klastr umělé inteligence

Obrázek výše znázorňuje cluster umělé inteligence, kde kruhy dole představují pracovní postupy běžící na grafických procesorech (GPU). GPU se připojují k přepínačům typu top-of-rack (ToR). Přepínače ToR se také připojují k páteřním přepínačům sítě zobrazeným na výše uvedeném diagramu, což demonstruje jasnou hierarchii sítě, která je vyžadována při zapojení více GPU.

Sítě jsou úzkým hrdlem v zavádění umělé inteligence
Loni na podzim, na globálním summitu Open Computer Project (OCP), kde delegáti pracovali na budování infrastruktury umělé inteligence nové generace, delegát Loi Nguyen ze společnosti Marvell Technology pronesl klíčový bod: „síťování je novým úzkým hrdlem.“

Technicky vzato může vysoká latence paketů nebo ztráta paketů v důsledku přetížení sítě způsobit jejich opětovné odesílání, což výrazně zvyšuje dobu dokončení úlohy (JCT). V důsledku toho firmy kvůli neefektivním systémům umělé inteligence plýtvají grafickými procesory v hodnotě milionů nebo desítek milionů dolarů, což firmy stojí jak tržby, tak i čas potřebný k uvedení na trh.

Měření je klíčovou podmínkou pro úspěšné fungování sítí umělé inteligence

Pro efektivní provoz clusteru umělé inteligence je nutné plně využít grafické procesory (GPU), aby se zkrátila doba trénování a model učení se maximalizoval pro maximalizaci návratnosti investic. Proto je nutné výkon clusteru umělé inteligence testovat a vyhodnocovat (obrázek 2). Tento úkol však není snadný, protože z hlediska architektury systému existuje mnoho nastavení a vztahů mezi GPU a síťovými strukturami, které se musí vzájemně doplňovat, aby problém vyřešily.

obrázek005.jpg
Testovací platforma pro datová centra s umělou inteligencí a jak testuje clustery datových center s umělou inteligencí

To vytváří mnoho problémů při měření sítí umělé inteligence:

- Obtížnost reprodukce celých produkčních sítí v laboratoři kvůli omezením v nákladech, vybavení, nedostatku kvalifikovaných inženýrů v oblasti síťové umělé inteligence, prostoru, napájení a teplotě.

- Měření na výrobním systému snižuje dostupnou zpracovatelskou kapacitu samotného výrobního systému.

- Obtížnost s přesnou reprodukcí problémů kvůli rozdílům v rozsahu a rozsahu problémů.

- Složitost kolektivního propojení GPU.

Aby se firmy s těmito výzvami vypořádaly, mohou v laboratorním prostředí otestovat podmnožinu doporučených nastavení, aby porovnaly klíčové metriky, jako je doba dokončení úlohy (JCT), šířka pásma, které může tým umělé inteligence dosáhnout, a porovnaly je s využitím přepínací platformy a využitím mezipaměti. Toto benchmarking pomáhá najít správnou rovnováhu mezi pracovní zátěží GPU/výpočetního výkonu a návrhem/nastavením sítě. Jakmile jsou počítačoví architekti a síťoví inženýři s výsledky spokojeni, mohou tato nastavení přenést do produkčního prostředí a měřit nové výsledky.

Firemní výzkumné laboratoře, akademické instituce a univerzity pracují na analýze všech aspektů budování a provozu efektivních sítí umělé inteligence, aby řešily výzvy spojené s prací na velkých sítích, zejména s ohledem na neustálý vývoj osvědčených postupů. Tento kolaborativní a opakovatelný přístup je jediný způsob, jak mohou firmy provádět opakovatelná měření a rychle testovat scénáře „co kdyby“, které jsou základem optimalizace sítí pro umělou inteligenci.

(Zdroj: Keysight Technologies)