ปลายเดือนมกราคม DeepSeek ได้สร้างความฮือฮาให้กับวงการเทคโนโลยีทั่วโลกด้วยการเปิดตัวโมเดล LLM สองโมเดลที่ “ทัดเทียม” กับผลิตภัณฑ์ของอเมริกา แต่ราคาถูกกว่ามาก หนึ่งในนั้นคือโมเดลการให้เหตุผลแบบโอเพนซอร์ส DeepSeek-R1 ที่สามารถแก้ปัญหา ทางวิทยาศาสตร์ บางอย่างได้เช่นเดียวกับ o1 ซึ่งเป็น LLM ที่ทันสมัยที่สุดของ OpenAI

ในขณะที่ทั่วโลก ต่างประหลาดใจ นักวิจัยในประเทศกล่าวว่าความสำเร็จดังกล่าวเป็นสิ่งที่คาดเดาได้และสอดคล้องกับความทะเยอทะยานของปักกิ่งที่จะก้าวขึ้นเป็นมหาอำนาจด้านปัญญาประดิษฐ์ (AI)

Yunji Chen นักวิทยาศาสตร์คอมพิวเตอร์จากสถาบันวิทยาการคอมพิวเตอร์แห่งสถาบันวิทยาศาสตร์แห่งชาติจีน ชี้ให้เห็นว่าเร็วหรือช้า บริษัทอย่าง DeepSeek จะต้องปรากฏตัวในประเทศจีน

เนื่องมาจากมีเม็ดเงินลงทุนจำนวนมหาศาลไหลเข้าสู่บริษัทพัฒนา LLM และจำนวนผู้ที่มีปริญญาเอกในสาขาวิชา STEM (วิทยาศาสตร์ เทคโนโลยี วิศวกรรมศาสตร์ หรือคณิตศาสตร์)

“ถ้าไม่มี DeepSeek ก็จะมี LLM ชาวจีนคนอื่นๆ” เฉินกล่าว

นี่คือข้อเท็จจริงที่ได้รับการพิสูจน์แล้ว ไม่กี่วันหลังจากเหตุการณ์ “แผ่นดินไหว” ของ DeepSeek อาลีบาบาได้เปิดตัว Qwen2.5-Max ซึ่งเป็น LLM ที่ทันสมัยที่สุดในปัจจุบัน โดยอ้างว่ามีประสิทธิภาพเหนือกว่า DeepSeek-V3

Moonshot AI และ ByteDance ได้ประกาศเปิดตัวโมเดลอนุมานใหม่ ได้แก่ Kimi 1.5 และ 1.5-pro ซึ่งมีประสิทธิภาพเหนือกว่า o1 ในการทดสอบประสิทธิภาพบางรายการ

ความสำคัญของ รัฐบาล

ในปี 2017 รัฐบาลจีนประกาศเจตนารมณ์ที่จะก้าวขึ้นเป็นผู้นำระดับโลกในด้าน AI ภายในปี 2030 โดยจีนตั้งเป้าที่จะสร้างความก้าวหน้าครั้งสำคัญในด้าน AI ให้สำเร็จ "เพื่อให้เทคโนโลยีและแอปพลิเคชันไปถึงระดับชั้นนำของโลก" ภายในปี 2025

เพื่อให้บรรลุเป้าหมายดังกล่าว การพัฒนากลุ่มบุคลากรด้านปัญญาประดิษฐ์ (AI) ถือเป็นภารกิจสำคัญที่สุด รายงานจากศูนย์ความมั่นคงและเทคโนโลยีเกิดใหม่ (CSET) แห่งมหาวิทยาลัยจอร์จทาวน์ (Georgetown University’s Center for Security and Emerging Technology) ระบุว่า ภายในปี 2565 กระทรวงศึกษาธิการจีนได้อนุมัติให้มหาวิทยาลัย 440 แห่งเปิดสอนหลักสูตรวิชาเอกด้านปัญญาประดิษฐ์

ในปีเดียวกันนั้น จีนคิดเป็นครึ่งหนึ่งของนักวิจัย AI ชั้นนำ ในขณะที่สหรัฐฯ มีส่วนสนับสนุนเพียง 18% ตามข้อมูลของบริษัทที่ปรึกษา MacroPolo

ดีพซีค บลูมเบิร์ก
DeepSeek สร้างความประหลาดใจด้วยโมเดลภาษาประสิทธิภาพสูง ต้นทุนต่ำ และมีขนาดใหญ่ ภาพ: Bloomberg

Marina Zhang นักวิจัยด้านนโยบายวิทยาศาสตร์แห่งมหาวิทยาลัยเทคโนโลยีซิดนีย์ กล่าวว่า DeepSeek น่าจะได้รับประโยชน์จากการลงทุนของรัฐบาลในการฝึกอบรมด้าน AI และการพัฒนาบุคลากร รวมถึงทุนการศึกษา ทุนวิจัย และความร่วมมือระหว่างสถาบันการศึกษาและอุตสาหกรรมมากมาย

ตัวอย่างเช่น โครงการริเริ่มที่ได้รับการสนับสนุนจากรัฐ เช่น ห้องปฏิบัติการวิศวกรรมแห่งชาติสำหรับเทคโนโลยีการเรียนรู้เชิงลึกและแอปพลิเคชัน ได้ฝึกอบรมผู้เชี่ยวชาญด้าน AI หลายพันคน

เป็นเรื่องยากที่จะหาตัวเลขที่แน่ชัดเกี่ยวกับพนักงานของ DeepSeek แต่ผู้ก่อตั้ง Liang Wenfeng เปิดเผยว่าบริษัทแห่งนี้รับสมัครบัณฑิตและนักศึกษาปริญญาเอกจากมหาวิทยาลัยที่ใหญ่ที่สุดของประเทศ

จางกล่าวว่าสมาชิกบางคนในทีมผู้นำมีอายุต่ำกว่า 35 ปี และเติบโตมากับการเติบโตของจีนในฐานะมหาอำนาจทางเทคโนโลยี “พวกเขามีแรงจูงใจอย่างแรงกล้าจากการพึ่งพาตนเองในการสร้างสรรค์นวัตกรรม”

เวินเฟิง วัย 39 ปี สำเร็จการศึกษาระดับปริญญาตรีสาขาวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยเจ้อเจียง เขาเป็นผู้ร่วมก่อตั้งกองทุนป้องกันความเสี่ยง High-Flyer เมื่อเกือบ 10 ปีก่อน และก่อตั้ง DeepSeek ในปี 2023

นโยบายระดับชาติที่ส่งเสริมระบบนิเวศต้นแบบสำหรับ AI จะช่วยให้บริษัทอย่าง DeepSeek ดึงดูดทั้งเงินทุนและผู้คนได้ ตามที่ Jacob Feldgoise ซึ่งศึกษาบุคลากรด้าน AI ในประเทศจีนที่ CSET กล่าว

แม้ว่าหลักสูตรด้าน AI ในมหาวิทยาลัยต่างๆ จะเพิ่มขึ้น แต่ Feldgoise ก็ยังไม่แน่ใจว่ามีนักศึกษาจำนวนเท่าใดที่สำเร็จการศึกษาด้วยปริญญาด้าน AI และพวกเขาได้รับการสอนทักษะที่บริษัทต่างๆ ต้องการหรือไม่

ในช่วงไม่กี่ปีที่ผ่านมา บริษัท AI ของจีนบ่นว่าผู้สำเร็จการศึกษาจากหลักสูตรเหล่านี้ไม่ได้เป็นไปตามความคาดหวัง ซึ่งทำให้บางบริษัทต้องร่วมมือกับมหาวิทยาลัยเพื่อปรับปรุงคุณภาพ

"การอบอ่อน"

นักวิทยาศาสตร์กล่าวว่าองค์ประกอบที่น่าประทับใจที่สุดประการหนึ่งของความสำเร็จของ DeepSeek ก็คือ การที่พวกเขาพัฒนา DeepSeek-R1 และ Janus-Pro-7B ในบริบทของการควบคุมการส่งออกของรัฐบาลสหรัฐฯ ซึ่งปิดกั้นการเข้าถึงชิปคอมพิวเตอร์ AI ขั้นสูงตั้งแต่ปี 2022

ตามที่จางกล่าวไว้ DeepSeek ถือเป็นแนวทางการสร้างสรรค์นวัตกรรมที่เป็นเอกลักษณ์ของจีน โดยเน้นที่ประสิทธิภาพเมื่อเผชิญกับข้อจำกัดต่างๆ มากมาย

สตาร์ทอัพของ Wenfeng ระบุว่าใช้ชิป Nvidia H800 ประมาณ 2,000 ตัวเพื่อฝึกฝน DeepSeek-V3 ในทางตรงกันข้าม Llama 3.1 405B ซึ่งเป็นหลักสูตร LLM ขั้นสูงที่ Meta เปิดตัวในเดือนกรกฎาคม 2024 กลับใช้ชิป Nvidia H100 มากกว่า 16,000 ตัว

ความสามารถพิเศษของ 9x ได้รับความสนใจเป็นพิเศษจากนายกรัฐมนตรีจีน หลี่ เฉียง ความสามารถพิเศษของ 9x ได้รับความสนใจเป็นพิเศษจากนายกรัฐมนตรีจีน หลี่ เฉียง

ในโพสต์ WeChat ปี 2022 High-Flyer ระบุว่ามีชิป A100 รุ่นเก่าของ Nvidia จำนวน 10,000 ตัว “ปัญหาที่เราเผชิญไม่ใช่เรื่องเงิน แต่เป็นเรื่องของการห้ามใช้ชิประดับไฮเอนด์” เหวินเฟิงกล่าวกับสื่อจีนในเดือนกรกฎาคม 2024

DeepSeek ใช้หลากหลายวิธีเพื่อเพิ่มประสิทธิภาพให้กับโมเดล ตัวอย่างเช่น การนำสถาปัตยกรรม Mixture of Experts (MoE) มาใช้ ซึ่งเป็นวิธีการเรียนรู้ของเครื่องที่ฝึกโมเดลได้เร็วกว่าด้วยพารามิเตอร์ที่น้อยกว่าเทคนิคดั้งเดิม

มันช่วยให้ DeepSeek ฝึกฝนโมเดลด้วยชิปน้อยลง ตามที่นักวิทยาศาสตร์คอมพิวเตอร์จากมหาวิทยาลัยซิดนีย์ นาย Chang Xu กล่าว

เทคนิคอีกประการหนึ่งคือ multi-head latent attention (MLA) ซึ่งช่วยให้โมเดลสามารถจัดเก็บข้อมูลได้มากขึ้นด้วยหน่วยความจำที่น้อยลง

ความสำเร็จของ DeepSeek อาจเป็น "แนวทาง" สำหรับประเทศต่างๆ ที่มีความทะเยอทะยานในด้าน AI แต่ขาดทรัพยากรทางการเงินและฮาร์ดแวร์ในการฝึกอบรมผู้สำเร็จการศึกษาระดับปริญญาโทสาขา LLM จำนวนมาก Yanbo Wang นักวิจัยด้านวิทยาศาสตร์นโยบายจากมหาวิทยาลัยฮ่องกงกล่าว

(ตามธรรมชาติ โชคลาภ)

ที่มา: https://vietnamnet.vn/cach-trung-quoc-tao-ra-deepseek-va-rung-chuyen-the-gioi-2391114.html