DeepSeek เผยวิธีสร้างโมเดล AI ราคาถูก ภาพ: Bloomberg |
ในรายงานการวิจัยที่เผยแพร่เมื่อวันที่ 15 พฤษภาคม DeepSeek ได้เปิดเผยรายละเอียดเป็นครั้งแรกเกี่ยวกับวิธีการสร้างระบบ AI โอเพ่นซอร์สที่ทรงพลังที่สุดระบบหนึ่งของโลก ด้วยต้นทุนเพียงเศษเสี้ยวหนึ่งของคู่แข่ง
การศึกษาที่มีชื่อว่า “Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures” ร่วมกันเขียนโดย Liang Wenfeng ผู้ก่อตั้ง DeepSeek ระบุว่าความสำเร็จเกิดจากการออกแบบฮาร์ดแวร์และซอฟต์แวร์ควบคู่กันไป ซึ่งเป็นแนวทางที่แตกต่างจากบริษัทหลายแห่งที่มุ่งเน้นการปรับแต่งซอฟต์แวร์แบบแยกส่วน
“DeepSeek-V3 ซึ่งฝึกฝนบน GPU Nvidia H800 จำนวน 2,048 ตัว แสดงให้เห็นว่าการออกแบบแบบขนานสามารถรับมือกับความท้าทายเหล่านี้ได้อย่างมีประสิทธิภาพ ช่วยให้สามารถฝึกฝนและอนุมานได้อย่างมีประสิทธิภาพในระดับขนาดใหญ่” ทีมวิจัยเขียนไว้ในรายงาน DeepSeek และกองทุนเฮดจ์ฟันด์ High-Flyer ได้สะสมชิป H800 ไว้ก่อนที่สหรัฐอเมริกาจะห้ามการส่งออกไปยังจีนในปี 2023
ทีมงาน DeepSeek ตระหนักถึงข้อจำกัดของฮาร์ดแวร์และ "ต้นทุนที่สูงเกินจริง" ในการฝึกโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งเป็นเทคโนโลยีพื้นฐานเบื้องหลังแชทบอท เช่น ChatGPT ของ OpenAI จึงได้นำการปรับปรุงทางเทคนิคชุดหนึ่งมาใช้ เพื่อเพิ่มประสิทธิภาพหน่วยความจำ ปรับปรุงการสื่อสารระหว่างชิป และปรับปรุงประสิทธิภาพของโครงสร้างพื้นฐาน AI ทั้งหมด ตามที่ระบุในเอกสาร
นอกจากนี้ DeepSeek ยังเน้นย้ำบทบาทของสถาปัตยกรรม Model of Expert (MoE) ซึ่งเป็นวิธีการเรียนรู้ของเครื่องจักรที่แบ่งโมเดล AI ออกเป็นเครือข่ายย่อย โดยแต่ละเครือข่ายจะประมวลผลข้อมูลอินพุตแยกกัน และทำงานร่วมกันเพื่อปรับผลลัพธ์ให้เหมาะสมที่สุด
กระทรวงศึกษาธิการ (MoE) ลดต้นทุนการฝึกอบรมและเพิ่มความเร็วในการอนุมาน ปัจจุบันวิธีการนี้ได้รับการนำไปใช้อย่างแพร่หลายในอุตสาหกรรมเทคโนโลยีของจีน รวมถึงโมเดล Qwen3 ล่าสุดของอาลีบาบา
DeepSeek กลายเป็นข่าวพาดหัวเมื่อเปิดตัวโมเดลพื้นฐาน V3 ในเดือนธันวาคม 2024 และโมเดลการใช้เหตุผล R1 ในเดือนมกราคม ผลิตภัณฑ์เหล่านี้สร้างความปั่นป่วนในตลาดโลก ส่งผลให้หุ้นเทคโนโลยีที่เกี่ยวข้องกับ AI ร่วงลงอย่างหนัก
แม้ว่า DeepSeek จะยังไม่ได้เปิดเผยแผนการเพิ่มเติมใดๆ ในช่วงที่ผ่านมา แต่บริษัทก็ยังคงให้ความสนใจกับชุมชนด้วยการเผยแพร่รายงานอย่างสม่ำเสมอ ในช่วงปลายเดือนมีนาคม บริษัทได้เปิดตัวอัปเดตย่อยสำหรับ DeepSeek-V3 และในช่วงปลายเดือนเมษายน บริษัทได้เปิดตัวระบบ Prover-V2 สำหรับการประมวลผลการพิสูจน์ทางคณิตศาสตร์อย่างเงียบๆ
ที่มา: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html
การแสดงความคิดเห็น (0)