ชิป Huawei Ascend มอบประสิทธิภาพที่โดดเด่นด้วยการใช้เทคนิคที่ปรับปรุงจากการฝึกอบรม AI ของ DeepSeek ภาพ: Reuters |
นักวิจัยที่ทำงานกับ Pangu large language model (LLM) ของ Huawei ได้ประกาศเมื่อวันที่ 4 มิถุนายนว่าพวกเขาได้ปรับปรุงแนวทางเดิมของ DeepSeek ในการฝึกปัญญาประดิษฐ์ (AI) โดยใช้ประโยชน์จากฮาร์ดแวร์ที่เป็นกรรมสิทธิ์ของบริษัท SCMP รายงาน
โดยเฉพาะอย่างยิ่งบทความที่ตีพิมพ์โดยทีม Pangu ของ Huawei ซึ่งประกอบด้วยผู้ร่วมงานหลัก 22 คนและนักวิจัยเพิ่มเติม 56 คน ได้แนะนำแนวคิดของ Mixture of Grouped Experts (MoGE) ซึ่งเป็นเวอร์ชันอัปเกรดของเทคนิค Mixture of Experts (MoE) ที่มีบทบาทสำคัญในโมเดล AI ที่คุ้มต้นทุนของ DeepSeek
ตามเอกสารระบุว่า แม้ว่า MoE จะเสนอต้นทุนการดำเนินการที่ต่ำสำหรับพารามิเตอร์โมเดลขนาดใหญ่และความสามารถในการเรียนรู้ขั้นสูง แต่ก็มักนำไปสู่ความไม่มีประสิทธิภาพด้วยเช่นกัน ซึ่งเกิดจากการเปิดใช้งานที่ไม่สม่ำเสมอ ซึ่งขัดขวางประสิทธิภาพเมื่อทำงานบนอุปกรณ์หลายเครื่องพร้อมกัน
ในขณะเดียวกัน MoGE ได้รับการปรับปรุงโดยทีมผู้เชี่ยวชาญในกระบวนการคัดเลือก และสร้างสมดุลภาระงานของ "ผู้เชี่ยวชาญ" ได้ดีขึ้น ตามที่นักวิจัยได้กล่าวไว้
ในการฝึกอบรม AI คำว่า "ผู้เชี่ยวชาญ" หมายถึงโมเดลย่อยหรือส่วนประกอบเฉพาะภายในโมเดลที่ใหญ่กว่า โมเดลเหล่านี้แต่ละโมเดลจะได้รับการออกแบบเพื่อจัดการกับงานเฉพาะหรือข้อมูลประเภทต่างๆ ซึ่งช่วยให้ระบบโดยรวมสามารถใช้ประโยชน์จากความเชี่ยวชาญที่หลากหลายเพื่อปรับปรุงประสิทธิภาพได้
ตามที่ Huawei ระบุ กระบวนการฝึกอบรมประกอบด้วยสามขั้นตอนหลัก ได้แก่ การฝึกอบรมก่อน การขยายบริบทระยะยาว และหลังการฝึกอบรม กระบวนการทั้งหมดประกอบด้วยการฝึกอบรมก่อนบนโทเค็นจำนวน 13.2 ล้านล้านโทเค็น และการขยายบริบทระยะยาวโดยใช้ชิป Ascend จำนวน 8,192 ตัว ซึ่งเป็นโปรเซสเซอร์ AI ที่ทรงพลังที่สุดของ Huawei ใช้เพื่อฝึกอบรมโมเดล AI และมุ่งเป้าไปที่การท้าทายความโดดเด่นของ Nvidia ในการออกแบบชิประดับไฮเอนด์
จากการทดสอบสถาปัตยกรรมใหม่บนหน่วยประมวลผลประสาท (NPU) Ascend ที่ออกแบบมาโดยเฉพาะเพื่อเร่งความเร็วให้กับงาน AI นักวิจัยพบว่า MoGE "ส่งผลให้มีการปรับสมดุลโหลดของผู้เชี่ยวชาญได้ดีขึ้นและประสิทธิภาพการทำงานที่มีประสิทธิภาพมากขึ้นสำหรับการฝึกและการอนุมานโมเดล"
ผลลัพธ์ เมื่อเปรียบเทียบกับโมเดลต่างๆ เช่น DeepSeek-V3, Qwen2.5-72B ของ Alibaba และ Llama-405B ของ Meta Platforms แล้ว Pangu มีประสิทธิภาพเหนือกว่าเกณฑ์มาตรฐานภาษาอังกฤษทั่วไปส่วนใหญ่ และเกณฑ์มาตรฐานภาษาจีนทั้งหมด แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในการฝึกอบรมในบริบทระยะยาว
ที่มา: https://znews.vn/huawei-tuyen-bo-huan-luyen-ai-tot-hon-deepseek-post1558359.html
การแสดงความคิดเห็น (0)