ปลายเดือนมกราคม DeepSeek ได้สร้างความฮือฮาให้กับวงการเทคโนโลยีทั่วโลกด้วยการเปิดตัวโมเดล LLM สองโมเดลที่ “ทัดเทียม” กับผลิตภัณฑ์ของอเมริกา แต่ราคาถูกกว่ามาก หนึ่งในนั้นคือโมเดลการให้เหตุผลแบบโอเพนซอร์ส DeepSeek-R1 ที่สามารถแก้ปัญหา ทางวิทยาศาสตร์ บางอย่างได้เช่นเดียวกับ o1 ซึ่งเป็น LLM ที่ทันสมัยที่สุดของ OpenAI
ในขณะที่ทั่วโลก ต่างประหลาดใจ นักวิจัยในประเทศกล่าวว่าความสำเร็จดังกล่าวเป็นสิ่งที่คาดเดาได้และสอดคล้องกับความทะเยอทะยานของปักกิ่งที่จะก้าวขึ้นเป็นมหาอำนาจด้านปัญญาประดิษฐ์ (AI)
Yunji Chen นักวิทยาศาสตร์คอมพิวเตอร์จากสถาบันวิทยาการคอมพิวเตอร์แห่งสถาบันวิทยาศาสตร์แห่งชาติจีน ชี้ให้เห็นว่าเร็วหรือช้า บริษัทอย่าง DeepSeek จะต้องปรากฏตัวในประเทศจีน
เนื่องมาจากมีเม็ดเงินลงทุนจำนวนมหาศาลไหลเข้าสู่บริษัทพัฒนา LLM และจำนวนผู้ที่มีปริญญาเอกในสาขาวิชา STEM (วิทยาศาสตร์ เทคโนโลยี วิศวกรรมศาสตร์ หรือคณิตศาสตร์)
“ถ้าไม่มี DeepSeek ก็จะมี LLM ชาวจีนคนอื่นๆ” เฉินกล่าว
นี่คือข้อเท็จจริงที่ได้รับการพิสูจน์แล้ว ไม่กี่วันหลังจากเหตุการณ์ “แผ่นดินไหว” ของ DeepSeek อาลีบาบาได้เปิดตัว Qwen2.5-Max ซึ่งเป็น LLM ที่ทันสมัยที่สุดในปัจจุบัน โดยอ้างว่ามีประสิทธิภาพเหนือกว่า DeepSeek-V3
Moonshot AI และ ByteDance ได้ประกาศเปิดตัวโมเดลอนุมานใหม่ ได้แก่ Kimi 1.5 และ 1.5-pro ซึ่งมีประสิทธิภาพเหนือกว่า o1 ในการทดสอบประสิทธิภาพบางรายการ
ความสำคัญของ รัฐบาล
ในปี 2017 รัฐบาลจีนประกาศเจตนารมณ์ที่จะก้าวขึ้นเป็นผู้นำระดับโลกในด้าน AI ภายในปี 2030 โดยจีนตั้งเป้าที่จะสร้างความก้าวหน้าครั้งสำคัญในด้าน AI ให้สำเร็จ "เพื่อให้เทคโนโลยีและแอปพลิเคชันไปถึงระดับชั้นนำของโลก" ภายในปี 2025
เพื่อให้บรรลุเป้าหมายดังกล่าว การพัฒนากลุ่มบุคลากรด้านปัญญาประดิษฐ์ (AI) ถือเป็นภารกิจสำคัญที่สุด รายงานจากศูนย์ความมั่นคงและเทคโนโลยีเกิดใหม่ (CSET) แห่งมหาวิทยาลัยจอร์จทาวน์ (Georgetown University’s Center for Security and Emerging Technology) ระบุว่า ภายในปี 2565 กระทรวงศึกษาธิการจีนได้อนุมัติให้มหาวิทยาลัย 440 แห่งเปิดสอนหลักสูตรวิชาเอกด้านปัญญาประดิษฐ์
ในปีเดียวกันนั้น จีนคิดเป็นครึ่งหนึ่งของนักวิจัย AI ชั้นนำ ในขณะที่สหรัฐฯ มีส่วนสนับสนุนเพียง 18% ตามข้อมูลของบริษัทที่ปรึกษา MacroPolo

Marina Zhang นักวิจัยด้านนโยบายวิทยาศาสตร์แห่งมหาวิทยาลัยเทคโนโลยีซิดนีย์ กล่าวว่า DeepSeek น่าจะได้รับประโยชน์จากการลงทุนของรัฐบาลในการฝึกอบรมด้าน AI และการพัฒนาบุคลากร รวมถึงทุนการศึกษา ทุนวิจัย และความร่วมมือระหว่างสถาบันการศึกษาและอุตสาหกรรมมากมาย
ตัวอย่างเช่น โครงการริเริ่มที่ได้รับการสนับสนุนจากรัฐ เช่น ห้องปฏิบัติการวิศวกรรมแห่งชาติสำหรับเทคโนโลยีการเรียนรู้เชิงลึกและแอปพลิเคชัน ได้ฝึกอบรมผู้เชี่ยวชาญด้าน AI หลายพันคน
เป็นเรื่องยากที่จะหาตัวเลขที่แน่ชัดเกี่ยวกับพนักงานของ DeepSeek แต่ผู้ก่อตั้ง Liang Wenfeng เปิดเผยว่าบริษัทแห่งนี้รับสมัครบัณฑิตและนักศึกษาปริญญาเอกจากมหาวิทยาลัยที่ใหญ่ที่สุดของประเทศ
จางกล่าวว่าสมาชิกบางคนในทีมผู้นำมีอายุต่ำกว่า 35 ปี และเติบโตมากับการเติบโตของจีนในฐานะมหาอำนาจทางเทคโนโลยี “พวกเขามีแรงจูงใจอย่างแรงกล้าจากการพึ่งพาตนเองในการสร้างสรรค์นวัตกรรม”
เวินเฟิง วัย 39 ปี สำเร็จการศึกษาระดับปริญญาตรีสาขาวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยเจ้อเจียง เขาเป็นผู้ร่วมก่อตั้งกองทุนป้องกันความเสี่ยง High-Flyer เมื่อเกือบ 10 ปีก่อน และก่อตั้ง DeepSeek ในปี 2023
นโยบายระดับชาติที่ส่งเสริมระบบนิเวศต้นแบบสำหรับ AI จะช่วยให้บริษัทอย่าง DeepSeek ดึงดูดทั้งเงินทุนและผู้คนได้ ตามที่ Jacob Feldgoise ซึ่งศึกษาบุคลากรด้าน AI ในประเทศจีนที่ CSET กล่าว
แม้ว่าหลักสูตรด้าน AI ในมหาวิทยาลัยต่างๆ จะเพิ่มขึ้น แต่ Feldgoise ก็ยังไม่แน่ใจว่ามีนักศึกษาจำนวนเท่าใดที่สำเร็จการศึกษาด้วยปริญญาด้าน AI และพวกเขาได้รับการสอนทักษะที่บริษัทต่างๆ ต้องการหรือไม่
ในช่วงไม่กี่ปีที่ผ่านมา บริษัท AI ของจีนบ่นว่าผู้สำเร็จการศึกษาจากหลักสูตรเหล่านี้ไม่ได้เป็นไปตามความคาดหวัง ซึ่งทำให้บางบริษัทต้องร่วมมือกับมหาวิทยาลัยเพื่อปรับปรุงคุณภาพ
"การอบอ่อน"
นักวิทยาศาสตร์กล่าวว่าองค์ประกอบที่น่าประทับใจที่สุดประการหนึ่งของความสำเร็จของ DeepSeek ก็คือ การที่พวกเขาพัฒนา DeepSeek-R1 และ Janus-Pro-7B ในบริบทของการควบคุมการส่งออกของรัฐบาลสหรัฐฯ ซึ่งปิดกั้นการเข้าถึงชิปคอมพิวเตอร์ AI ขั้นสูงตั้งแต่ปี 2022
ตามที่จางกล่าวไว้ DeepSeek ถือเป็นแนวทางการสร้างสรรค์นวัตกรรมที่เป็นเอกลักษณ์ของจีน โดยเน้นที่ประสิทธิภาพเมื่อเผชิญกับข้อจำกัดต่างๆ มากมาย
สตาร์ทอัพของ Wenfeng ระบุว่าใช้ชิป Nvidia H800 ประมาณ 2,000 ตัวเพื่อฝึกฝน DeepSeek-V3 ในทางตรงกันข้าม Llama 3.1 405B ซึ่งเป็นหลักสูตร LLM ขั้นสูงที่ Meta เปิดตัวในเดือนกรกฎาคม 2024 กลับใช้ชิป Nvidia H100 มากกว่า 16,000 ตัว

ในโพสต์ WeChat ปี 2022 High-Flyer ระบุว่ามีชิป A100 รุ่นเก่าของ Nvidia จำนวน 10,000 ตัว “ปัญหาที่เราเผชิญไม่ใช่เรื่องเงิน แต่เป็นเรื่องของการห้ามใช้ชิประดับไฮเอนด์” เหวินเฟิงกล่าวกับสื่อจีนในเดือนกรกฎาคม 2024
DeepSeek ใช้หลากหลายวิธีเพื่อเพิ่มประสิทธิภาพให้กับโมเดล ตัวอย่างเช่น การนำสถาปัตยกรรม Mixture of Experts (MoE) มาใช้ ซึ่งเป็นวิธีการเรียนรู้ของเครื่องที่ฝึกโมเดลได้เร็วกว่าด้วยพารามิเตอร์ที่น้อยกว่าเทคนิคดั้งเดิม
มันช่วยให้ DeepSeek ฝึกฝนโมเดลด้วยชิปน้อยลง ตามที่นักวิทยาศาสตร์คอมพิวเตอร์จากมหาวิทยาลัยซิดนีย์ นาย Chang Xu กล่าว
เทคนิคอีกประการหนึ่งคือ multi-head latent attention (MLA) ซึ่งช่วยให้โมเดลสามารถจัดเก็บข้อมูลได้มากขึ้นด้วยหน่วยความจำที่น้อยลง
ความสำเร็จของ DeepSeek อาจเป็น "แนวทาง" สำหรับประเทศต่างๆ ที่มีความทะเยอทะยานในด้าน AI แต่ขาดทรัพยากรทางการเงินและฮาร์ดแวร์ในการฝึกอบรมผู้สำเร็จการศึกษาระดับปริญญาโทสาขา LLM จำนวนมาก Yanbo Wang นักวิจัยด้านวิทยาศาสตร์นโยบายจากมหาวิทยาลัยฮ่องกงกล่าว
(ตามธรรมชาติ โชคลาภ)
ที่มา: https://vietnamnet.vn/cach-trung-quoc-tao-ra-deepseek-va-rung-chuyen-the-gioi-2391114.html
การแสดงความคิดเห็น (0)