DeepSeek เปิดเผยความลับของมันแล้ว

DeepSeek เปิดเผยวิธีการสร้างโมเดล AI ต้นทุนต่ำ ภาพ: Bloomberg

ในรายงานการวิจัยที่เผยแพร่เมื่อวันที่ 15 พฤษภาคม DeepSeek ได้เปิดเผยรายละเอียดเป็นครั้งแรกเกี่ยวกับวิธีการสร้างระบบ AI โอเพนซอร์สที่ทรงพลังที่สุดแห่งหนึ่ง ของโลก ด้วยต้นทุนที่ต่ำกว่าคู่แข่งอย่างมาก

งานวิจัยเรื่อง “ข้อมูลเชิงลึกเกี่ยวกับ DeepSeek-V3: ความท้าทายด้านการขยายขนาดและข้อคิดเกี่ยวกับการออกแบบฮาร์ดแวร์สำหรับสถาปัตยกรรม AI” นั้นเขียนร่วมกับเหลียง เหวินเฟิง ผู้ก่อตั้ง DeepSeek โดย DeepSeek ระบุว่าความสำเร็จของบริษัทเกิดจากการออกแบบฮาร์ดแวร์และซอฟต์แวร์ควบคู่กันไป ซึ่งเป็นแนวทางที่แตกต่างจากหลายบริษัทที่ยังคงมุ่งเน้นการปรับปรุงซอฟต์แวร์เพียงอย่างเดียว

“DeepSeek-V3 ซึ่งได้รับการฝึกฝนบน GPU Nvidia H800 จำนวน 2,048 ตัว แสดงให้เห็นว่าการออกแบบแบบขนานสามารถแก้ปัญหาได้อย่างมีประสิทธิภาพ ทำให้การฝึกฝนและการอนุมานมีประสิทธิภาพในระดับใหญ่” ทีมวิจัยเขียนไว้ในรายงาน DeepSeek และกองทุนเฮดจ์ฟันด์ High-Flyer ได้กักตุนชิป H800 ไว้ก่อนที่สหรัฐฯ จะสั่งห้ามส่งออกไปยังประเทศจีนตั้งแต่ปี 2023 เป็นต้นไป

จากบทความดังกล่าว ทีมวิจัยของ DeepSeek ตระหนักดีถึงข้อจำกัดของฮาร์ดแวร์และค่าใช้จ่ายที่สูงลิบลิ่วในการฝึกฝนโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งเป็นเทคโนโลยีพื้นฐานเบื้องหลังแชทบอท เช่น ChatGPT ของ OpenAI ดังนั้นพวกเขาจึงได้ดำเนินการปรับปรุงทางเทคนิคหลายอย่างเพื่อเพิ่มประสิทธิภาพของหน่วยความจำ ปรับปรุงการสื่อสารระหว่างชิป และเพิ่มประสิทธิภาพโดยรวมของโครงสร้างพื้นฐาน AI

นอกจากนี้ DeepSeek ยังให้ความสำคัญกับบทบาทของสถาปัตยกรรม Mixed Expert Model (MoE) ซึ่งเป็นวิธีการเรียนรู้ของเครื่องที่แบ่งโมเดล AI ออกเป็นเครือข่ายย่อย โดยแต่ละเครือข่ายจะประมวลผลข้อมูลอินพุตในส่วนที่แยกจากกัน และทำงานร่วมกันเพื่อเพิ่มประสิทธิภาพของผลลัพธ์

MoE ช่วยลดต้นทุนการฝึกอบรมและเร่งความเร็วในการให้เหตุผล วิธีนี้ได้รับการนำไปใช้อย่างแพร่หลายในอุตสาหกรรมเทคโนโลยีของจีน รวมถึงรุ่น Qwen3 ล่าสุดของ Alibaba ด้วย

DeepSeek เริ่มได้รับความสนใจเมื่อเปิดตัวโมเดลพื้นฐาน V3 ในเดือนธันวาคม 2024 และโมเดลการให้เหตุผล R1 ในเดือนมกราคม ผลิตภัณฑ์เหล่านี้สร้างความฮือฮาในตลาดโลก ส่งผลให้หุ้นเทคโนโลยีที่เกี่ยวข้องกับ AI ร่วงลงอย่างกว้างขวาง

แม้ว่า DeepSeek จะไม่ได้เปิดเผยแผนการเพิ่มเติมใด ๆ ในช่วงที่ผ่านมา แต่ก็ยังคงดึงดูดความสนใจของชุมชนผ่านรายงานอย่างสม่ำเสมอ ในช่วงปลายเดือนมีนาคม บริษัทได้ปล่อยการอัปเดตเล็กน้อยสำหรับ DeepSeek-V3 และในช่วงปลายเดือนเมษายน พวกเขาก็ได้เปิดตัวระบบ Prover-V2 สำหรับการประมวลผลการพิสูจน์ทางคณิตศาสตร์อย่างเงียบ ๆ

ที่มา: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html