DeepSeek เปิดเผยว่าพวกเขาสร้างโมเดล AI ราคาถูกได้อย่างไร ภาพ: Bloomberg . |
ในรายงานการวิจัยที่เผยแพร่เมื่อวันที่ 15 พฤษภาคม DeepSeek ได้เปิดเผยรายละเอียดเป็นครั้งแรกเกี่ยวกับวิธีการสร้างระบบ AI โอเพนซอร์สที่ทรงพลังที่สุดระบบหนึ่งของโลก ด้วยต้นทุนเพียงเศษเสี้ยวหนึ่งของคู่แข่ง
การศึกษาที่มีชื่อว่า “ข้อมูลเชิงลึกเกี่ยวกับ DeepSeek-V3: การปรับขนาดความท้าทายและการสะท้อนบนฮาร์ดแวร์สำหรับสถาปัตยกรรม AI” มีผู้เขียนร่วมคือผู้ก่อตั้ง Liang Wenfeng DeepSeek เชื่อว่าความสำเร็จเกิดจากการออกแบบฮาร์ดแวร์และซอฟต์แวร์ควบคู่กัน ซึ่งถือเป็นการเคลื่อนไหวที่แตกต่างในบริบทที่บริษัทหลายแห่งยังคงมุ่งเน้นไปที่การเพิ่มประสิทธิภาพซอฟต์แวร์อิสระ
“DeepSeek-V3 ที่ได้รับการฝึกบน GPU Nvidia H800 จำนวน 2,048 ตัว แสดงให้เห็นว่าการออกแบบแบบขนานสามารถรับมือกับความท้าทายเหล่านี้ได้อย่างมีประสิทธิภาพ ช่วยให้สามารถฝึกและอนุมานได้อย่างมีประสิทธิภาพในระดับขนาดใหญ่” ทีมงานเขียนไว้ในเอกสาร DeepSeek และกองทุนป้องกันความเสี่ยง High-Flyer ได้สะสมชิปซีรีส์ H800 ไว้ก่อนที่สหรัฐฯ จะห้ามส่งออกไปยังจีนในปี 2023
ตามรายงาน ทีมงาน DeepSeek ตระหนักดีถึงข้อจำกัดของฮาร์ดแวร์ ตลอดจน "ต้นทุนสูงเกินจริง" ในการฝึกโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งเป็นเทคโนโลยีพื้นฐานเบื้องหลังแชทบอท เช่น ChatGPT ของ OpenAI ส่งผลให้พวกเขาได้นำชุดการปรับปรุงทางเทคนิคต่างๆ มาใช้ ซึ่งจะช่วยเพิ่มประสิทธิภาพหน่วยความจำ ปรับปรุงการสื่อสารระหว่างชิป และปรับปรุงประสิทธิภาพของโครงสร้างพื้นฐาน AI ทั้งหมด
นอกจากนี้ DeepSeek ยังเน้นย้ำบทบาทของสถาปัตยกรรม Model of Expert (MoE) อีกด้วย นี่เป็นวิธีการเรียนรู้ของเครื่องที่แบ่งโมเดล AI ออกเป็นเครือข่ายย่อย โดยแต่ละเครือข่ายจะประมวลผลข้อมูลอินพุตส่วนที่แยกจากกันและทำงานร่วมกันเพื่อปรับให้ผลลัพธ์เหมาะสมที่สุด
MoE ช่วยลดต้นทุนการฝึกอบรมและเร่งความเร็วในการอนุมาน ปัจจุบันวิธีการนี้ได้รับการนำมาใช้กันอย่างแพร่หลายในอุตสาหกรรมเทคโนโลยีของจีน รวมถึงโมเดล Qwen3 ล่าสุดของ Alibaba
DeepSeek กลายเป็นข่าวหน้าหนึ่งเมื่อเปิดตัวโมเดลพื้นฐาน V3 ในเดือนธันวาคม 2024 และโมเดลการใช้เหตุผล R1 ในเดือนมกราคม ผลิตภัณฑ์เหล่านี้สร้างความฮือฮาในตลาดโลก ส่งผลให้หุ้นเทคโนโลยีที่เกี่ยวข้องกับ AI ร่วงลงอย่างรวดเร็ว
แม้ว่าจะไม่ได้เปิดเผยแผนการเพิ่มเติมใดๆ เมื่อเร็ว ๆ นี้ แต่ DeepSeek ยังคงรักษาความสนใจของชุมชนด้วยการเผยแพร่รายงานเป็นประจำ ในช่วงปลายเดือนมีนาคม บริษัทได้เปิดตัวการอัปเดตเล็กน้อยสำหรับ DeepSeek-V3 และในช่วงปลายเดือนเมษายน บริษัทได้เปิดตัวระบบ Prover-V2 สำหรับการประมวลผลการพิสูจน์ทางคณิตศาสตร์อย่างเงียบๆ
ที่มา: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html
การแสดงความคิดเห็น (0)