image001.jpg

GPU AI کمپیوٹر کا دماغ ہے۔

سیدھے الفاظ میں، گرافکس پروسیسنگ یونٹ (GPU) AI کمپیوٹر کے دماغ کا کام کرتا ہے۔

جیسا کہ آپ جانتے ہوں گے، سینٹرل پروسیسنگ یونٹ (CPU) کمپیوٹر کا دماغ ہے۔ GPU کا فائدہ یہ ہے کہ یہ ایک خصوصی CPU ہے جو پیچیدہ حسابات کر سکتا ہے۔ ایسا کرنے کا تیز ترین طریقہ یہ ہے کہ GPUs کے گروپس کسی مسئلے کو حل کریں۔ تاہم، AI ماڈل کی تربیت میں اب بھی ہفتوں یا مہینوں کا وقت لگ سکتا ہے۔ ایک بار جب یہ بن جاتا ہے، تو اسے فرنٹ اینڈ کمپیوٹنگ سسٹم میں رکھا جاتا ہے اور صارفین AI ماڈل کے سوالات پوچھ سکتے ہیں، ایک عمل جسے inference کہتے ہیں۔

ایک AI کمپیوٹر جس میں متعدد GPUs شامل ہیں۔

AI کے مسائل کو حل کرنے کے لیے بہترین فن تعمیر ریک میں GPUs کے کلسٹر کا استعمال کرنا ہے، جو ریک کے اوپری حصے میں موجود سوئچ سے جڑا ہوا ہے۔ ایک سے زیادہ GPU ریک نیٹ ورکنگ کے درجہ بندی میں منسلک ہوسکتے ہیں۔ جیسے جیسے مسئلہ زیادہ پیچیدہ ہوتا جاتا ہے، GPU کی ضروریات بڑھ جاتی ہیں، اور کچھ پروجیکٹس کو ہزاروں GPUs کے کلسٹرز کو تعینات کرنے کی ضرورت پڑ سکتی ہے۔

ہر AI کلسٹر ایک چھوٹا نیٹ ورک ہے۔

ایک AI کلسٹر بناتے وقت، یہ ضروری ہے کہ ایک چھوٹا کمپیوٹر نیٹ ورک قائم کیا جائے تاکہ مربوط ہو سکے اور GPUs کو ایک ساتھ کام کرنے اور ڈیٹا کو موثر طریقے سے شیئر کرنے کی اجازت دی جائے۔

image002.jpg
ایک AI کلسٹر

مندرجہ بالا اعداد و شمار ایک AI کلسٹر کی وضاحت کرتا ہے جہاں نیچے کے حلقے GPUs پر چلنے والے ورک فلو کی نمائندگی کرتے ہیں۔ GPUs ریک (TOR) سوئچ کے اوپری حصے سے جڑتے ہیں۔ ٹی او آر سوئچز ڈائیگرام کے اوپر دکھائے گئے نیٹ ورک بیک بون سوئچز سے بھی جڑتے ہیں، جو واضح نیٹ ورک کے درجہ بندی کو ظاہر کرتے ہیں جب متعدد GPUs شامل ہوتے ہیں۔

نیٹ ورکس اے آئی کی تعیناتی میں رکاوٹ ہیں۔
گزشتہ موسم خزاں میں، اوپن کمپیوٹر پروجیکٹ (OCP) گلوبل سمٹ میں، جہاں مندوبین نے AI انفراسٹرکچر کی اگلی نسل کی تعمیر کے لیے مل کر کام کیا، مارویل ٹیکنالوجی کے مندوب Loi Nguyen نے ایک اہم نکتہ پیش کیا: "نیٹ ورکنگ ایک نئی رکاوٹ ہے۔"

تکنیکی طور پر، نیٹ ورک کنجشن کی وجہ سے پیکٹ میں زیادہ تاخیر یا پیکٹ کا نقصان پیکٹوں کو دوبارہ بھیجنے کا سبب بن سکتا ہے، جس سے کام کی تکمیل کے وقت (JCT) میں نمایاں اضافہ ہوتا ہے۔ نتیجے کے طور پر، کاروباری اداروں سے لاکھوں یا دسیوں ملین ڈالر مالیت کے GPUs ناکارہ AI سسٹمز کی وجہ سے ضائع ہو جاتے ہیں، جس سے انٹرپرائز کی آمدنی اور مارکیٹ میں وقت دونوں کی لاگت آتی ہے۔

AI نیٹ ورکس کے کامیاب آپریشن کے لیے پیمائش ایک اہم شرط ہے۔

AI کلسٹر کو مؤثر طریقے سے چلانے کے لیے، GPUs کو تربیت کے وقت کو کم کرنے اور سرمایہ کاری پر زیادہ سے زیادہ منافع حاصل کرنے کے لیے سیکھنے کے ماڈل کو استعمال میں لانے کے لیے اپنی پوری صلاحیت کا استعمال کرنے کی ضرورت ہے۔ لہذا، AI کلسٹر (شکل 2) کی کارکردگی کو جانچنا اور جانچنا ضروری ہے۔ تاہم، یہ کام آسان نہیں ہے، کیونکہ سسٹم آرکیٹیکچر کے لحاظ سے، GPUs اور نیٹ ورک سٹرکچر کے درمیان بہت سی سیٹنگز اور تعلقات ہیں جو مسئلے کو حل کرنے کے لیے ایک دوسرے کی تکمیل کرنے کی ضرورت ہے۔

image005.jpg
AI ڈیٹا سینٹر ٹیسٹنگ پلیٹ فارم اور یہ کیسے AI ڈیٹا سینٹر کلسٹرز کی جانچ کرتا ہے۔

یہ AI نیٹ ورکس کی پیمائش میں بہت سے چیلنجز پیدا کرتا ہے:

- لاگت، آلات، ہنر مند نیٹ ورک AI انجینئرز کی کمی، جگہ، طاقت اور درجہ حرارت میں محدودیت کی وجہ سے لیب میں پورے پروڈکشن نیٹ ورکس کو دوبارہ تیار کرنے میں دشواری۔

- پیداواری نظام پر پیمائش خود پیداواری نظام کی دستیاب پروسیسنگ صلاحیت کو کم کر دیتی ہے۔

- مسائل کے پیمانے اور دائرہ کار میں فرق کی وجہ سے مسائل کو درست طریقے سے دوبارہ پیدا کرنے میں دشواری۔

- GPUs کے اجتماعی طور پر منسلک ہونے کی پیچیدگی۔

ان چیلنجوں سے نمٹنے کے لیے، انٹرپرائزز لیب کے ماحول میں تجویز کردہ سیٹ اپس کے ذیلی سیٹ کو بینچ مارک کلیدی میٹرکس جیسے کام کی تکمیل کا وقت (JCT)، بینڈوڈتھ جو AI ٹیم حاصل کر سکتی ہے، اور اس کا موازنہ پلیٹ فارم کے استعمال اور کیشے کے استعمال کو سوئچ کرنے سے کر سکتے ہیں۔ یہ بینچ مارکنگ GPU/ پروسیسنگ ورک بوجھ اور نیٹ ورک ڈیزائن/ سیٹ اپ کے درمیان صحیح توازن تلاش کرنے میں مدد کرتا ہے۔ نتائج سے مطمئن ہونے کے بعد، کمپیوٹر آرکیٹیکٹس اور نیٹ ورک انجینئر ان سیٹ اپ کو پروڈکشن میں لے سکتے ہیں اور نئے نتائج کی پیمائش کر سکتے ہیں۔

کارپوریٹ ریسرچ لیبز، تعلیمی ادارے، اور یونیورسٹیاں بڑے نیٹ ورکس پر کام کرنے کے چیلنجوں سے نمٹنے کے لیے موثر AI نیٹ ورکس کی تعمیر اور آپریٹنگ کے ہر پہلو کا تجزیہ کرنے کے لیے کام کر رہی ہیں، خاص طور پر جب کہ بہترین طریقے تیار ہوتے رہتے ہیں۔ یہ باہمی تعاون پر مبنی، دوبارہ قابل اعادہ نقطہ نظر کمپنیوں کے لیے دوبارہ قابل پیمائش پیمائش کرنے اور تیزی سے "کیا-اگر" منظرناموں کی جانچ کرنے کا واحد طریقہ ہے جو AI کے لیے نیٹ ورکس کو بہتر بنانے کی بنیاد ہیں۔

(ماخذ: Keysight Technologies)