kép001.jpg

A GPU a mesterséges intelligencia által vezérelt számítógép agya

Egyszerűen fogalmazva, a grafikus feldolgozó egység (GPU) a mesterséges intelligencia által vezérelt számítógép agyaként működik.

Mint talán tudod, a központi feldolgozóegység (CPU) a számítógép agya. A GPU előnye, hogy egy speciális CPU, amely összetett számítások elvégzésére képes. Ennek leggyorsabb módja, ha GPU-csoportok oldják meg ugyanazt a problémát. Egy MI-modell betanítása azonban továbbra is hetekig, sőt hónapokig is eltarthat. Miután elkészült, egy front-end számítógépes rendszerbe helyezik, és a felhasználók kérdéseket tehetnek fel a MI-modellnek, ezt a folyamatot következtetésnek nevezik.

Több GPU-t tartalmazó mesterséges intelligencia által vezérelt számítógép

A mesterséges intelligencia problémáinak legjobb architektúrája egy rackben elhelyezett GPU-klaszter használata, amely a rack tetején lévő kapcsolóhoz csatlakozik. Több GPU-rack is összekapcsolható hálózati hierarchiában. Ahogy a probléma összetettebbé válik, a GPU-követelmények is növekednek, és egyes projektekhez több ezer GPU-ból álló klaszterek telepítésére lehet szükség.

Minden MI-klaszter egy kis hálózat

Egy MI-klaszter építésekor szükség van egy kis számítógépes hálózat létrehozására, amely lehetővé teszi a GPU-k összekapcsolását és az együttműködést, valamint az adatok hatékony megosztását.

kép002.jpg
Egy mesterséges intelligencia klaszter

A fenti ábra egy mesterséges intelligencia klasztert szemléltet, ahol az alsó körök a GPU-kon futó munkafolyamatokat jelölik. A GPU-k a rack tetején elhelyezett (ToR) kapcsolókhoz csatlakoznak. A ToR kapcsolók a diagram felett látható hálózati gerinckapcsolókhoz is csatlakoznak, ami jól mutatja a több GPU használata esetén szükséges egyértelmű hálózati hierarchiát.

A hálózatok szűk keresztmetszetet jelentenek a mesterséges intelligencia bevezetésében
Tavaly ősszel, az Open Computer Project (OCP) globális csúcstalálkozóján, ahol a küldöttek a következő generációs mesterséges intelligencia infrastruktúra kiépítésén dolgoztak, Loi Nguyen, a Marvell Technology küldötte kulcsfontosságú pontot fogalmazott meg: „a hálózatépítés az új szűk keresztmetszet.”

Technikailag a hálózati torlódás miatti magas csomagkésés vagy csomagvesztés a csomagok újraküldését okozhatja, ami jelentősen megnöveli a feladatok befejezési idejét (JCT). Ennek eredményeként a vállalkozások több millió vagy tízmillió dollár értékű GPU-t pazarolnak el a nem hatékony mesterséges intelligenciarendszerek miatt, ami bevételkiesést és piacra jutási időt is veszít a vállalkozásoktól.

A mérés kulcsfontosságú feltétele a mesterséges intelligencia hálózatok sikeres működésének

Egy MI-klaszter hatékony működtetéséhez a GPU-kat teljes mértékben ki kell tudni használni a betanítási idő lerövidítése, és a tanulási modellt a befektetés megtérülésének maximalizálása érdekében alkalmazni kell. Ezért szükséges az MI-klaszter teljesítményének tesztelése és értékelése (2. ábra). Ez a feladat azonban nem könnyű, mivel a rendszerarchitektúra szempontjából számos beállítás és kapcsolat van a GPU-k és a hálózati struktúrák között, amelyeknek ki kell egészíteniük egymást a probléma megoldása érdekében.

kép005.jpg
AI adatközpont-tesztelési platform és hogyan teszteli az AI adatközpont-klasztereket

Ez számos kihívást jelent a mesterséges intelligencia hálózatok mérésében:

- Nehézségek a teljes termelési hálózatok laboratóriumi reprodukálásában a költségek, a berendezések, a képzett hálózati AI-mérnökök hiánya, a hely, az energia és a hőmérséklet korlátozottsága miatt.

- A termelési rendszeren végzett mérés csökkenti a termelési rendszer rendelkezésre álló feldolgozási kapacitását.

- Nehézségek a problémák pontos reprodukálásában a problémák léptékének és hatókörének eltérései miatt.

- A GPU-k kollektív összekapcsolásának összetettsége.

Ezen kihívások megoldása érdekében a vállalkozások tesztelhetik az ajánlott beállítások egy részét laboratóriumi környezetben, hogy összehasonlítsák a kulcsfontosságú mutatókat, például a feladat befejezési idejét (JCT), az AI-csapat által elérhető sávszélességet, és összehasonlítsák azt a platformváltási kihasználtsággal és a gyorsítótár-kihasználtsággal. Ez a benchmarking segít megtalálni a megfelelő egyensúlyt a GPU/feldolgozási terhelés és a hálózattervezés/beállítás között. Miután elégedettek az eredményekkel, a számítógépes építészek és a hálózati mérnökök átvihetik ezeket a beállításokat az éles környezetbe, és mérhetik az új eredményeket.

A vállalati kutatólaboratóriumok, akadémiai intézmények és egyetemek azon dolgoznak, hogy elemezzék a hatékony MI-hálózatok kiépítésének és üzemeltetésének minden aspektusát, hogy kezeljék a nagy hálózatokon való munkavégzés kihívásait, különösen a bevált gyakorlatok folyamatos fejlődése miatt. Ez az együttműködésen alapuló, megismételhető megközelítés az egyetlen módja annak, hogy a vállalatok megismételhető méréseket végezzenek, és gyorsan teszteljék a „mi lenne, ha” forgatókönyveket, amelyek a hálózatok MI-re való optimalizálásának alapját képezik.

(Forrás: Keysight Technologies)