การวิจัยใหม่เปิดเผยความลับสู่ความสำเร็จของ DeepSeek

ตามที่ DeepSeek ระบุ โมเดลปัญญาประดิษฐ์ R1 ไม่ได้รับการฝึกฝนโดยใช้ข้อมูลจากโมเดลของ OpenAI แม้ว่าจะยอมรับว่าโมเดลพื้นฐานได้รับการฝึกฝนด้วยข้อมูลเว็บ ซึ่งอาจรวมถึงเนื้อหาที่สร้างโดย AI ก็ตาม

VietnamPlus•17/09/2025

โมเดลปัญญาประดิษฐ์ R1 ของบริษัทสตาร์ทอัพจีน DeepSeek ซึ่งสร้างความตกตะลึงให้กับตลาดหุ้นสหรัฐฯ เมื่อเปิดตัวในเดือนมกราคม ได้รับการตีพิมพ์ในผลการศึกษาที่ผ่านการตรวจสอบโดยผู้เชี่ยวชาญครั้งแรก โดยแสดงให้เห็นว่าบริษัทสามารถพัฒนาหลักสูตร LLM อันทรงพลังได้อย่างไรด้วยเงินทุนเพียง 300,000 ดอลลาร์

R1 ได้รับการออกแบบมาให้โดดเด่นในงานด้านการใช้เหตุผล เช่น คณิตศาสตร์และการเขียนโปรแกรม ทำให้เป็นคู่แข่งที่มีต้นทุนต่ำของเครื่องมือที่พัฒนาโดยยักษ์ใหญ่ด้านเทคโนโลยีของสหรัฐฯ

นี่คือโมเดล “น้ำหนักเปิด” ที่สามารถดาวน์โหลดได้ฟรี และปัจจุบันเป็นโมเดลที่ได้รับความนิยมสูงสุดบนแพลตฟอร์ม Hugging Face โดยมียอดดาวน์โหลดมากกว่า 10.9 ล้านครั้ง

การศึกษาวิจัยของ Nature ซึ่งเป็นการอัปเดตต้นฉบับเดือนมกราคม เปิดเผยเป็นครั้งแรกว่าค่าใช้จ่ายในการฝึก R1 เพียง 294,000 ดอลลาร์ นอกเหนือจากค่าใช้จ่ายประมาณ 6 ล้านดอลลาร์ในการสร้างแบบจำลองพื้นฐาน

ตัวเลขดังกล่าวต่ำกว่าที่คู่แข่งกล่าวกันว่าใช้เงินไปหลายสิบล้านดอลลาร์มาก

DeepSeek กล่าวว่า R1 ได้รับการฝึกฝนโดยใช้ชิป Nvidia H800 เป็นหลัก ซึ่งสหรัฐฯ ห้ามส่งออกไปยังจีนตั้งแต่ปี 2023

ความก้าวหน้าของ R1 คือการใช้ “การเรียนรู้แบบเสริมแรงอย่างแท้จริง” ซึ่งโมเดลจะได้รับการฝึกฝนด้วยการลองผิดลองถูก และได้รับรางวัลสำหรับคำตอบที่ถูกต้อง แทนที่จะเรียนรู้จากตัวอย่างที่มนุษย์เลือก นอกจากนี้ R1 ยังให้คะแนนความพยายามของตนเองโดยใช้การประมาณการภายใน ซึ่งเป็นเทคนิคที่เรียกว่า “การเพิ่มประสิทธิภาพนโยบายกลุ่มสัมพัทธ์” ซึ่งช่วยเพิ่มประสิทธิภาพการทำงาน

“กระบวนการตรวจสอบโดยผู้เชี่ยวชาญอย่างเข้มงวดช่วยยืนยันคุณค่าและความน่าเชื่อถือของแบบจำลอง” นักวิจัย Huan Sun (มหาวิทยาลัยรัฐโอไฮโอ) กล่าว “บริษัทอื่นๆ ก็ควรทำเช่นเดียวกัน”

Lewis Tunstall วิศวกรด้านการเรียนรู้ของเครื่องจักรที่ Hugging Face กล่าวว่านี่เป็นบรรทัดฐานที่สำคัญ เนื่องจากความโปร่งใสในการพัฒนา AI ช่วยให้ประเมินความเสี่ยงได้แม่นยำยิ่งขึ้น

DeepSeek อ้างว่า R1 ไม่ได้รับการฝึกโดยใช้ข้อมูลจากโมเดลของ OpenAI แม้ว่าจะยอมรับว่าโมเดลพื้นฐานได้รับการฝึกด้วยข้อมูลเว็บ ซึ่งอาจรวมถึงเนื้อหาที่สร้างโดย AI ก็ตาม

ผู้เชี่ยวชาญกล่าวว่าถึงแม้จะยากที่จะตรวจสอบได้อย่างแน่นอน แต่หลักฐานในปัจจุบันชี้ให้เห็นว่าการเสริมประสิทธิภาพแบบบริสุทธิ์ก็เพียงพอที่จะบรรลุประสิทธิภาพสูงแล้ว

ในการทดสอบ ScienceAgentBench พบว่า R1 ไม่ได้ได้คะแนนสูงสุดในตารางความแม่นยำ แต่ก็มีความสมดุลที่ดีระหว่างประสิทธิภาพและต้นทุน ปัจจุบันนักวิจัยกำลังมองหาวิธีของ DeepSeek เพื่อพัฒนาความสามารถในการใช้เหตุผลของหลักสูตรปริญญาโทสาขานิติศาสตร์ (LLM) ที่มีอยู่ รวมถึงขยายขอบเขตไปยังสาขาอื่นๆ นอกเหนือจากคณิตศาสตร์และการเขียนโปรแกรม

ตามที่นาย Tunstall กล่าว R1 ได้ "เริ่มการปฏิวัติ" ในการพัฒนาปัญญาประดิษฐ์

การแสดงความคิดเห็น (0)