เครือข่าย AI - 5 สิ่งที่ควรรู้

GPU คือสมองของคอมพิวเตอร์ AI

พูดอย่างง่ายๆ หน่วยประมวลผลกราฟิก (GPU) ทำหน้าที่เป็นสมองของคอมพิวเตอร์ AI

อย่างที่ทราบกันดีว่าหน่วยประมวลผลกลาง (CPU) เปรียบเสมือนสมองของคอมพิวเตอร์ ข้อดีของ GPU คือเป็น CPU เฉพาะทางที่สามารถทำการคำนวณที่ซับซ้อนได้ วิธีที่เร็วที่สุดคือการให้ GPU หลายตัวช่วยแก้ปัญหาเดียวกัน อย่างไรก็ตาม การฝึกโมเดล AI อาจใช้เวลาหลายสัปดาห์หรือหลายเดือน เมื่อสร้างเสร็จแล้ว จะถูกนำไปวางไว้ในระบบคอมพิวเตอร์ส่วนหน้า และผู้ใช้สามารถถามคำถามกับโมเดล AI ได้ ซึ่งเป็นกระบวนการที่เรียกว่าการอนุมาน

คอมพิวเตอร์ AI ที่ประกอบด้วย GPU หลายตัว

สถาปัตยกรรมที่ดีที่สุดสำหรับปัญหา AI คือการใช้คลัสเตอร์ GPU ในแร็ค โดยเชื่อมต่อกับสวิตช์ที่ด้านบนของแร็ค แร็ค GPU หลายตัวสามารถเชื่อมต่อกันเป็นลำดับชั้นของเครือข่ายได้ เมื่อปัญหามีความซับซ้อนมากขึ้น ความต้องการ GPU ก็เพิ่มขึ้น และบางโครงการอาจจำเป็นต้องปรับใช้คลัสเตอร์ GPU หลายพันตัว

แต่ละคลัสเตอร์ AI เป็นเครือข่ายขนาดเล็ก

เมื่อสร้างคลัสเตอร์ AI จำเป็นต้องตั้งค่าเครือข่ายคอมพิวเตอร์ขนาดเล็กเพื่อเชื่อมต่อและให้ GPU ทำงานร่วมกันและแบ่งปันข้อมูลอย่างมีประสิทธิภาพ

รูปด้านบนแสดงคลัสเตอร์ AI โดยวงกลมด้านล่างแสดงเวิร์กโฟลว์ที่ทำงานบน GPU GPU เชื่อมต่อกับสวิตช์ Top-of-Rack (ToR) สวิตช์ ToR ยังเชื่อมต่อกับสวิตช์แกนหลักของเครือข่ายดังที่แสดงไว้ด้านบนแผนภาพ ซึ่งแสดงให้เห็นถึงลำดับชั้นของเครือข่ายที่ชัดเจนซึ่งจำเป็นเมื่อต้องใช้ GPU หลายตัว

เครือข่ายเป็นคอขวดในการปรับใช้ AI
เมื่อฤดูใบไม้ร่วงที่ผ่านมา ในงาน Open Computer Project (OCP) Global Summit ซึ่งผู้แทนกำลังร่วมกันสร้างโครงสร้างพื้นฐาน AI รุ่นถัดไป ผู้แทน Loi Nguyen จาก Marvell Technology ได้กล่าวถึงประเด็นสำคัญว่า “เครือข่ายคือปัญหาคอขวดใหม่”

ในทางเทคนิคแล้ว ความหน่วงของแพ็กเก็ตที่สูงหรือการสูญหายของแพ็กเก็ตอันเนื่องมาจากความแออัดของเครือข่ายอาจทำให้แพ็กเก็ตถูกส่งซ้ำ ส่งผลให้เวลาการทำงานเสร็จสิ้น (JCT) เพิ่มขึ้นอย่างมาก ส่งผลให้ธุรกิจต่างๆ ต้องสูญเสีย GPU มูลค่าหลายล้านหรือหลายสิบล้านดอลลาร์เนื่องจากระบบ AI ที่ไม่มีประสิทธิภาพ ซึ่งส่งผลให้ธุรกิจสูญเสียทั้งรายได้และเวลาในการนำสินค้าออกสู่ตลาด

การวัดผลเป็นเงื่อนไขสำคัญสำหรับการดำเนินงานเครือข่าย AI ที่ประสบความสำเร็จ

เพื่อให้คลัสเตอร์ AI ทำงานได้อย่างมีประสิทธิภาพ GPU จำเป็นต้องสามารถใช้งานได้อย่างเต็มที่ เพื่อลดระยะเวลาการฝึกอบรมและนำแบบจำลองการเรียนรู้ไปใช้งานเพื่อให้ได้ผลตอบแทนจากการลงทุนสูงสุด ดังนั้น จึงจำเป็นต้องทดสอบและประเมินประสิทธิภาพของคลัสเตอร์ AI (รูปที่ 2) อย่างไรก็ตาม งานนี้ไม่ใช่เรื่องง่าย เนื่องจากในแง่ของสถาปัตยกรรมระบบ มีการตั้งค่าและความสัมพันธ์มากมายระหว่าง GPU และโครงสร้างเครือข่ายที่ต้องเสริมซึ่งกันและกันเพื่อแก้ไขปัญหา

แพลตฟอร์มทดสอบศูนย์ข้อมูล AI และวิธีการทดสอบคลัสเตอร์ศูนย์ข้อมูล AI

สิ่งนี้สร้างความท้าทายมากมายในการวัดเครือข่าย AI:

- ความยากลำบากในการสร้างเครือข่ายการผลิตทั้งหมดในห้องแล็ปเนื่องจากข้อจำกัดด้านต้นทุน อุปกรณ์ การขาดแคลนวิศวกร AI เครือข่ายที่มีทักษะ พื้นที่ พลังงาน และอุณหภูมิ

- การวัดผลบนระบบการผลิตทำให้ความสามารถในการประมวลผลที่มีอยู่ของระบบการผลิตนั้นลดลง

- ความยากลำบากในการจำลองปัญหาได้อย่างแม่นยำเนื่องจากความแตกต่างในด้านขนาดและขอบเขตของปัญหา

- ความซับซ้อนของวิธีการเชื่อมต่อ GPU ร่วมกัน

เพื่อรับมือกับความท้าทายเหล่านี้ ธุรกิจต่างๆ สามารถทดสอบชุดย่อยของการตั้งค่าที่แนะนำในสภาพแวดล้อมห้องปฏิบัติการ เพื่อเปรียบเทียบเกณฑ์มาตรฐานตัวชี้วัดสำคัญๆ เช่น เวลาในการทำงานให้เสร็จสมบูรณ์ (JCT) แบนด์วิดท์ที่ทีม AI สามารถทำได้ และเปรียบเทียบกับการใช้งานแพลตฟอร์มแบบสลับและการใช้งานแคช การเปรียบเทียบนี้ช่วยหาสมดุลที่เหมาะสมระหว่างภาระงานของ GPU/การประมวลผล และการออกแบบ/การตั้งค่าเครือข่าย เมื่อพอใจกับผลลัพธ์แล้ว สถาปนิกคอมพิวเตอร์และวิศวกรเครือข่ายสามารถนำการตั้งค่าเหล่านี้ไปใช้จริงและวัดผลผลลัพธ์ใหม่ๆ ได้

ห้องปฏิบัติการวิจัยขององค์กร สถาบันการศึกษา และมหาวิทยาลัยต่างกำลังวิเคราะห์ทุกแง่มุมของการสร้างและการดำเนินงานเครือข่าย AI ที่มีประสิทธิภาพ เพื่อรับมือกับความท้าทายในการทำงานบนเครือข่ายขนาดใหญ่ โดยเฉพาะอย่างยิ่งเมื่อแนวปฏิบัติที่ดีที่สุดยังคงพัฒนาอย่างต่อเนื่อง แนวทางการทำงานร่วมกันและทำซ้ำได้นี้เป็นวิธีเดียวที่บริษัทต่างๆ จะสามารถวัดผลซ้ำได้และทดสอบสถานการณ์จำลองแบบ “What-if” ได้อย่างรวดเร็ว ซึ่งเป็นรากฐานของการเพิ่มประสิทธิภาพเครือข่ายสำหรับ AI

(ที่มา: Keysight Technologies)

ที่มา: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html