छवि001.jpg

GPU, AI कंप्यूटर का मस्तिष्क है

सरल शब्दों में कहें तो ग्राफिक्स प्रोसेसिंग यूनिट (GPU) AI कंप्यूटर के मस्तिष्क के रूप में कार्य करता है।

जैसा कि आप जानते होंगे, सेंट्रल प्रोसेसिंग यूनिट (सीपीयू) कंप्यूटर का दिमाग होता है। जीपीयू का फ़ायदा यह है कि यह एक विशेषीकृत सीपीयू है जो जटिल गणनाएँ कर सकता है। ऐसा करने का सबसे तेज़ तरीका जीपीयू के समूहों द्वारा किसी समस्या का समाधान करना है। हालाँकि, एआई मॉडल को प्रशिक्षित करने में अभी भी हफ़्तों या महीनों का समय लग सकता है। एक बार मॉडल तैयार हो जाने के बाद, इसे एक फ्रंट-एंड कंप्यूटिंग सिस्टम में रखा जाता है और उपयोगकर्ता एआई मॉडल से प्रश्न पूछ सकते हैं, इस प्रक्रिया को अनुमान कहते हैं।

एकाधिक GPU युक्त एक AI कंप्यूटर

एआई समस्याओं को हल करने के लिए सबसे अच्छा आर्किटेक्चर एक रैक में GPU के एक क्लस्टर का उपयोग करना है, जो रैक के शीर्ष पर स्थित एक स्विच से जुड़ा हो। नेटवर्किंग के पदानुक्रम में कई GPU रैक को जोड़ा जा सकता है। जैसे-जैसे समस्या अधिक जटिल होती जाती है, GPU की आवश्यकताएँ बढ़ती जाती हैं, और कुछ परियोजनाओं में हज़ारों GPU के क्लस्टर तैनात करने की आवश्यकता पड़ सकती है।

प्रत्येक AI क्लस्टर एक छोटा नेटवर्क है

एआई क्लस्टर का निर्माण करते समय, GPU को एक साथ काम करने और कुशलतापूर्वक डेटा साझा करने की अनुमति देने के लिए एक छोटा कंप्यूटर नेटवर्क स्थापित करना आवश्यक है।

छवि002.jpg
एक AI क्लस्टर

ऊपर दिया गया चित्र एक AI क्लस्टर को दर्शाता है जहाँ नीचे दिए गए वृत्त GPU पर चलने वाले वर्कफ़्लोज़ को दर्शाते हैं। GPU टॉप-ऑफ़-रैक (ToR) स्विच से जुड़ते हैं। ToR स्विच, आरेख में ऊपर दिखाए गए नेटवर्क बैकबोन स्विच से भी जुड़ते हैं, जो एकाधिक GPU के शामिल होने पर आवश्यक स्पष्ट नेटवर्क पदानुक्रम को दर्शाता है।

एआई परिनियोजन में नेटवर्क एक बाधा है
पिछले साल, ओपन कंप्यूटर प्रोजेक्ट (ओसीपी) ग्लोबल समिट में, जहां प्रतिनिधियों ने अगली पीढ़ी के एआई बुनियादी ढांचे के निर्माण के लिए एक साथ काम किया, मार्वल टेक्नोलॉजी के प्रतिनिधि लोई गुयेन ने एक महत्वपूर्ण बिंदु रखा: "नेटवर्किंग नई अड़चन है।"

तकनीकी रूप से, नेटवर्क की भीड़भाड़ के कारण उच्च पैकेट विलंबता या पैकेट हानि के कारण पैकेट पुनः भेजे जा सकते हैं, जिससे कार्य पूर्ण होने का समय (JCT) काफ़ी बढ़ जाता है। परिणामस्वरूप, उद्यमों के लाखों या करोड़ों डॉलर मूल्य के GPU अकुशल AI प्रणालियों के कारण बर्बाद हो जाते हैं, जिससे उद्यम को राजस्व और बाज़ार में आने का समय, दोनों का नुकसान होता है।

एआई नेटवर्क के सफल संचालन के लिए मापन एक महत्वपूर्ण शर्त है

एक AI क्लस्टर को प्रभावी ढंग से संचालित करने के लिए, GPU को प्रशिक्षण समय को कम करने और निवेश पर अधिकतम लाभ प्राप्त करने के लिए लर्निंग मॉडल का उपयोग करने हेतु अपनी पूरी क्षमता का उपयोग करने में सक्षम होना आवश्यक है। इसलिए, AI क्लस्टर के प्रदर्शन का परीक्षण और मूल्यांकन करना आवश्यक है (चित्र 2)। हालाँकि, यह कार्य आसान नहीं है, क्योंकि सिस्टम आर्किटेक्चर के संदर्भ में, GPU और नेटवर्क संरचनाओं के बीच कई सेटिंग्स और संबंध हैं जिन्हें समस्या को हल करने के लिए एक-दूसरे के पूरक होने की आवश्यकता है।

छवि005.jpg
एआई डेटा सेंटर परीक्षण प्लेटफ़ॉर्म और यह एआई डेटा सेंटर क्लस्टर्स का परीक्षण कैसे करता है

इससे AI नेटवर्क को मापने में कई चुनौतियाँ पैदा होती हैं:

- लागत, उपकरण, कुशल नेटवर्क एआई इंजीनियरों की कमी, स्थान, बिजली और तापमान की सीमाओं के कारण प्रयोगशाला में संपूर्ण उत्पादन नेटवर्क को पुन: प्रस्तुत करने में कठिनाई।

- उत्पादन प्रणाली पर मापन से उत्पादन प्रणाली की उपलब्ध प्रसंस्करण क्षमता कम हो जाती है।

- समस्याओं के पैमाने और दायरे में अंतर के कारण समस्याओं को सटीक रूप से प्रस्तुत करने में कठिनाई।

- GPUs को सामूहिक रूप से कैसे जोड़ा जाता है, इसकी जटिलता।

इन चुनौतियों का समाधान करने के लिए, उद्यम प्रयोगशाला वातावरण में अनुशंसित सेटअपों के एक उपसमूह का परीक्षण कर सकते हैं ताकि कार्य पूरा होने में लगने वाले समय (JCT), AI टीम द्वारा प्राप्त की जा सकने वाली बैंडविड्थ जैसे प्रमुख मानकों का बेंचमार्क किया जा सके और इसकी तुलना स्विचिंग प्लेटफ़ॉर्म उपयोग और कैश उपयोग से की जा सके। यह बेंचमार्किंग GPU/प्रोसेसिंग कार्यभार और नेटवर्क डिज़ाइन/सेटअप के बीच सही संतुलन बनाने में मदद करती है। परिणामों से संतुष्ट होने के बाद, कंप्यूटर आर्किटेक्ट और नेटवर्क इंजीनियर इन सेटअपों को उत्पादन में लगा सकते हैं और नए परिणामों को माप सकते हैं।

कॉर्पोरेट अनुसंधान प्रयोगशालाएँ, शैक्षणिक संस्थान और विश्वविद्यालय बड़े नेटवर्क पर काम करने की चुनौतियों का समाधान करने के लिए प्रभावी एआई नेटवर्क के निर्माण और संचालन के हर पहलू का विश्लेषण करने के लिए काम कर रहे हैं, खासकर जब सर्वोत्तम प्रथाओं का विकास जारी है। यह सहयोगात्मक, दोहराने योग्य दृष्टिकोण कंपनियों के लिए दोहराने योग्य माप करने और "क्या होगा अगर" परिदृश्यों का तेज़ी से परीक्षण करने का एकमात्र तरीका है, जो एआई के लिए नेटवर्क को अनुकूलित करने का आधार है।

(स्रोत: कीसाइट टेक्नोलॉजीज)