image001.jpg

জিপিইউ হলো এআই কম্পিউটারের মস্তিষ্ক।

সহজ কথায়, গ্রাফিক্স প্রসেসিং ইউনিট (GPU) একটি AI কম্পিউটারের মস্তিষ্ক হিসেবে কাজ করে।

আপনারা হয়তো ইতিমধ্যেই জানেন যে, সেন্ট্রাল প্রসেসিং ইউনিট (CPU) হল একটি কম্পিউটারের মস্তিষ্ক। GPU-এর সুবিধা হলো এটি জটিল গণনা সম্পাদনের জন্য একটি বিশেষায়িত CPU। এই গণনাগুলি সম্পাদন করার দ্রুততম উপায় হল GPU-গুলির গ্রুপগুলিকে একসাথে একটি সমস্যা সমাধান করা। তবুও, একটি AI মডেলকে প্রশিক্ষণ দিতে এখনও সপ্তাহ বা এমনকি মাস সময় লাগতে পারে। একবার তৈরি হয়ে গেলে, এটি ফ্রন্ট-এন্ড কম্পিউটার সিস্টেমে স্থাপন করা হয় এবং ব্যবহারকারীরা AI মডেলকে প্রশ্ন জিজ্ঞাসা করতে পারেন; এই প্রক্রিয়াটিকে বলা হয় অনুমান।

একটি AI কম্পিউটারে একাধিক GPU থাকে।

AI সমস্যা সমাধানের জন্য সর্বোত্তম স্থাপত্য হল একটি র‍্যাকে GPU-এর একটি গ্রুপ ব্যবহার করা, যা র‍্যাকের উপরে থাকা একটি সুইচের সাথে সংযুক্ত থাকে। একাধিক GPU র‍্যাক অতিরিক্তভাবে একটি হায়ারার্কিকাল নেটওয়ার্ক সংযোগ ব্যবস্থায় সংযুক্ত করা যেতে পারে। সমাধানের জন্য সমস্যাগুলি আরও জটিল হয়ে ওঠার সাথে সাথে GPU-এর প্রয়োজনীয়তাও বৃদ্ধি পায়, কিছু প্রকল্পে সম্ভাব্যভাবে হাজার হাজার GPU-এর ক্লাস্টার স্থাপনের প্রয়োজন হয়।

প্রতিটি এআই ক্লাস্টার একটি ছোট নেটওয়ার্ক।

একটি AI ক্লাস্টার তৈরি করার সময়, সংযোগ স্থাপনের জন্য একটি ছোট কম্পিউটার নেটওয়ার্ক স্থাপন করা প্রয়োজন এবং GPU গুলিকে একসাথে কাজ করতে এবং দক্ষতার সাথে ডেটা ভাগ করে নেওয়ার অনুমতি দিতে হবে।

image002.jpg
একটি এআই ক্লাস্টার

উপরের চিত্রটি একটি AI ক্লাস্টারকে চিত্রিত করে যেখানে নীচের বৃত্তগুলি GPU-তে চলমান কর্মপ্রবাহকে প্রতিনিধিত্ব করে। GPU গুলি উপরের র্যাকের (ToR) সুইচগুলির সাথে সংযুক্ত থাকে। এই ToR সুইচগুলি ডায়াগ্রামে উপরে দেখানো নেটওয়ার্ক ব্যাকবোন সুইচগুলির সাথেও সংযুক্ত হয়, যা একাধিক GPU জড়িত থাকলে প্রয়োজনীয় স্পষ্ট নেটওয়ার্ক শ্রেণিবিন্যাস প্রদর্শন করে।

এআই স্থাপনার ক্ষেত্রে নেটওয়ার্কগুলি একটি বাধা।
গত শরতে, ওপেন কম্পিউটার প্রজেক্ট (ওসিপি) গ্লোবাল সামিটে, যেখানে প্রতিনিধিরা পরবর্তী প্রজন্মের এআই অবকাঠামো তৈরি করছিলেন, মার্ভেল টেকনোলজির প্রতিনিধি লোই নগুয়েন একটি মূল বিষয় তুলে ধরেন: "নেটওয়ার্কগুলি হল নতুন বাধা।"

টেকনিক্যালি, নেটওয়ার্ক কনজেশনের কারণে উচ্চ প্যাকেট ল্যাটেন্সি বা প্যাকেট লস প্যাকেট রিসেন্টের কারণ হতে পারে, যা কাজ সমাপ্তির সময় (JCT) উল্লেখযোগ্যভাবে বৃদ্ধি করে। ফলস্বরূপ, অদক্ষ AI সিস্টেমের কারণে ব্যবসার সাথে সম্পর্কিত লক্ষ লক্ষ বা দশ মিলিয়ন ডলার মূল্যের GPU নষ্ট হয়, যা ব্যবসার রাজস্ব এবং বাজারজাতকরণের সময় উভয়ের ক্ষেত্রেই ক্ষতি করে।

এআই নেটওয়ার্কগুলির সফল পরিচালনার জন্য পরীক্ষা এবং পরিমাপ অত্যন্ত গুরুত্বপূর্ণ শর্ত।

একটি AI ক্লাস্টার দক্ষতার সাথে পরিচালনা করার জন্য, GPU গুলিকে প্রশিক্ষণের সময় কমাতে এবং বিনিয়োগের উপর সর্বাধিক রিটার্ন অর্জনের জন্য শেখার মডেলগুলি বাস্তবায়নের জন্য তাদের পূর্ণ ক্ষমতা ব্যবহার করতে সক্ষম হতে হবে। অতএব, AI ক্লাস্টারের কর্মক্ষমতা পরীক্ষা এবং মূল্যায়ন করা প্রয়োজন (চিত্র 2)। তবে, এই কাজটি সহজ নয়, কারণ সিস্টেম আর্কিটেকচারে GPU এবং নেটওয়ার্ক কাঠামোর মধ্যে অনেক সেটিংস এবং সম্পর্ক জড়িত যা সমস্যা সমাধানের জন্য একে অপরের পরিপূরক হতে হবে।

image005.jpg
এআই ডেটা সেন্টার বেঞ্চমার্কিং প্ল্যাটফর্ম এবং এটি কীভাবে এআই ডেটা সেন্টার ক্লাস্টারগুলিকে বেঞ্চমার্ক করে।

এটি AI নেটওয়ার্ক পরিমাপে অনেক অসুবিধা এবং চ্যালেঞ্জ তৈরি করে:

- খরচ, সরঞ্জামের সীমাবদ্ধতা, অত্যন্ত দক্ষ এআই নেটওয়ার্ক ইঞ্জিনিয়ারের অভাব, স্থান, বিদ্যুৎ সরবরাহ এবং তাপমাত্রার কারণে পরীক্ষাগারে সম্পূর্ণ উৎপাদন নেটওয়ার্কের প্রতিলিপি তৈরির চ্যালেঞ্জ দেখা দেয়।

- উৎপাদন ব্যবস্থায় অন-সাইট পরীক্ষা উৎপাদন ব্যবস্থার উপলব্ধ প্রক্রিয়াকরণ ক্ষমতা হ্রাস করে।

- সমস্যার স্কেল এবং পরিধির পার্থক্যের কারণে সমস্যাগুলি সঠিকভাবে পুনরুত্পাদন করতে অসুবিধা।

- জিপিইউগুলি কীভাবে সম্মিলিতভাবে সংযুক্ত হয় তার জটিলতা।

এই চ্যালেঞ্জগুলি মোকাবেলা করার জন্য, ব্যবসাগুলি একটি ল্যাবরেটরি পরিবেশে প্রস্তাবিত সেটআপগুলির একটি উপসেটের বেঞ্চমার্কিং পরিচালনা করতে পারে যাতে JCT (কাজ সমাপ্তির সময়), AI টিম দ্বারা অর্জনযোগ্য ব্যান্ডউইথের মতো মূল পরামিতিগুলিকে বেঞ্চমার্ক করা যায় এবং সেগুলিকে স্যুইচিং প্ল্যাটফর্ম ব্যবহার এবং ক্যাশিং ব্যবহারের সাথে তুলনা করা যায়। এই বেঞ্চমার্কিং GPU/প্রসেসিং ওয়ার্কলোড এবং নেটওয়ার্ক ডিজাইন/ইনস্টলেশনের মধ্যে সঠিক ভারসাম্য খুঁজে পেতে সহায়তা করে। ফলাফলের সাথে সন্তুষ্ট হয়ে গেলে, কম্পিউটার স্থপতি এবং নেটওয়ার্ক ইঞ্জিনিয়াররা এই সেটআপগুলি উৎপাদনে প্রয়োগ করতে এবং নতুন ফলাফল পরিমাপ করতে পারেন।

এন্টারপ্রাইজ রিসার্চ ল্যাব, গবেষণা প্রতিষ্ঠান এবং বিশ্ববিদ্যালয়গুলি বৃহৎ নেটওয়ার্কগুলিতে কাজ করার চ্যালেঞ্জগুলি মোকাবেলা করার জন্য কার্যকর AI নেটওয়ার্ক তৈরি এবং পরিচালনার প্রতিটি দিক বিশ্লেষণ করার জন্য কাজ করছে, বিশেষ করে যখন সেরা অনুশীলনগুলি ক্রমাগত পরিবর্তিত হচ্ছে। এই পুনরাবৃত্তিযোগ্য সহযোগিতামূলক পদ্ধতি হল ব্যবসাগুলির জন্য পুনরাবৃত্তিযোগ্য পরিমাপ এবং দ্রুত "যদি-তবে" দৃশ্যকল্প পরীক্ষা করার একমাত্র উপায় - AI-চালিত নেটওয়ার্কগুলিকে অপ্টিমাইজ করার জন্য মৌলিক।

(সূত্র: কিসাইট টেকনোলজিস)