Huawei อ้างว่าการฝึกอบรม AI ดีกว่า DeepSeek

ด้วยการใช้เทคนิคที่ปรับปรุงจากการฝึกอบรม AI ของ DeepSeek ชิป Huawei Ascend จึงมอบประสิทธิภาพที่โดดเด่น ภาพ: Reuters

นักวิจัยที่ทำงานกับ Pangu large language model (LLM) ของ Huawei ได้ประกาศเมื่อวันที่ 4 มิถุนายนว่า พวกเขาได้ปรับปรุงแนวทางดั้งเดิมของ DeepSeek ในการฝึกปัญญาประดิษฐ์ (AI) โดยใช้ประโยชน์จากฮาร์ดแวร์ที่เป็นกรรมสิทธิ์ของบริษัท SCMP รายงาน

โดยเฉพาะอย่างยิ่งเอกสารที่ตีพิมพ์โดยทีม Pangu ของ Huawei ซึ่งประกอบด้วยผู้ร่วมมือหลัก 22 คนและนักวิจัยเพิ่มเติมอีก 56 คน ได้แนะนำแนวคิดของ Mixture of Grouped Experts (MoGE) ซึ่งเป็นเวอร์ชันอัปเกรดของเทคนิค Mixture of Experts (MoE) ที่มีบทบาทสำคัญในโมเดล AI ที่คุ้มต้นทุนของ DeepSeek

รายงานระบุว่า แม้ว่า MoE จะมีต้นทุนการดำเนินการต่ำสำหรับพารามิเตอร์โมเดลขนาดใหญ่และความสามารถในการเรียนรู้ขั้นสูง แต่ก็มักนำไปสู่ความไม่มีประสิทธิภาพ ซึ่งเกิดจากการเปิดใช้งานที่ไม่สม่ำเสมอ ซึ่งเป็นอุปสรรคต่อประสิทธิภาพเมื่อทำงานบนอุปกรณ์หลายเครื่องพร้อมกัน

ในขณะเดียวกัน MoGE ได้รับการปรับปรุงโดยทีมผู้เชี่ยวชาญในกระบวนการคัดเลือก และสร้างสมดุลภาระงานของ "ผู้เชี่ยวชาญ" ได้ดีขึ้น ตามที่นักวิจัยกล่าว

ในการฝึกอบรม AI คำว่า "ผู้เชี่ยวชาญ" หมายถึงโมเดลย่อยหรือส่วนประกอบเฉพาะทางภายในโมเดลขนาดใหญ่ โมเดลเหล่านี้แต่ละโมเดลจะได้รับการออกแบบให้รองรับงานเฉพาะหรือข้อมูลประเภทต่างๆ ซึ่งช่วยให้ระบบโดยรวมสามารถใช้ประโยชน์จากความเชี่ยวชาญที่หลากหลายเพื่อเพิ่มประสิทธิภาพการทำงาน

หัวเว่ยระบุว่า กระบวนการฝึกอบรมประกอบด้วยสามขั้นตอนหลัก ได้แก่ การเตรียมการก่อนการฝึกอบรม การขยายบริบทระยะยาว และหลังการฝึกอบรม กระบวนการทั้งหมดประกอบด้วยการเตรียมการก่อนการฝึกอบรมโทเค็นจำนวน 13.2 ล้านล้านโทเค็น และการขยายบริบทระยะยาวโดยใช้ชิป Ascend จำนวน 8,192 ตัว ซึ่งเป็นโปรเซสเซอร์ AI ที่ทรงพลังที่สุดของหัวเว่ย ใช้ในการฝึกอบรมโมเดล AI และมุ่งเป้าไปที่การท้าทายความเป็นผู้นำของ Nvidia ในการออกแบบชิประดับไฮเอนด์

จากการทดสอบสถาปัตยกรรมใหม่บนหน่วยประมวลผลประสาท (NPU) Ascend ที่ได้รับการออกแบบมาโดยเฉพาะเพื่อเร่งความเร็วในงาน AI นักวิจัยพบว่า MoGE "ส่งผลให้มีการปรับสมดุลโหลดของผู้เชี่ยวชาญที่ดีขึ้นและประสิทธิภาพการทำงานที่มีประสิทธิภาพมากขึ้นสำหรับทั้งการฝึกและการอนุมานโมเดล"

ผลลัพธ์ เมื่อเปรียบเทียบกับโมเดลต่างๆ เช่น DeepSeek-V3, Qwen2.5-72B ของ Alibaba และ Llama-405B ของ Meta Platforms แล้ว Pangu มีประสิทธิภาพเหนือกว่าเกณฑ์มาตรฐานภาษาอังกฤษทั่วไปและเกณฑ์มาตรฐานภาษาจีนทั้งหมด โดยแสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในการฝึกอบรมในบริบทระยะยาว

ที่มา: https://znews.vn/huawei-tuyen-bo-huan-luyen-ai-tot-hon-deepseek-post1558359.html