DeepSeek สตาร์ทอัพจีนที่มาแรงที่สุดในปัจจุบัน ทำให้เกิดข้อสงสัยเกี่ยวกับคำกล่าวอ้างที่ว่าสามารถสร้าง AI ที่เทียบเท่ากับ OpenAI ได้ด้วยเงินทุนเพียง 5 ล้านดอลลาร์
DeepSeek ได้รับความสนใจจากสื่อและโซเชียลมีเดียอย่างกว้างขวางในช่วงต้นปีงู ส่งผลให้เกิดความปั่นป่วนอย่างมากในตลาดหุ้นทั่วโลก
อย่างไรก็ตาม รายงานล่าสุดจากบริษัทที่ปรึกษาทางการเงิน Bernstein เตือนว่า แม้จะมีความสำเร็จที่น่าประทับใจ แต่การอ้างว่าสามารถสร้างระบบ AI ที่เทียบเท่ากับ OpenAI ได้ด้วยงบประมาณเพียง 5 ล้านดอลลาร์นั้นไม่ถูกต้อง
เบิร์นสไตน์กล่าวว่า คำแถลงของ DeepSeek นั้นทำให้เข้าใจผิดและไม่ได้สะท้อนภาพรวมทั้งหมด
รายงานระบุว่า “เราเชื่อว่า DeepSeek ไม่ได้ ‘สร้าง OpenAI ด้วยเงิน 5 ล้านดอลลาร์’ โมเดลต่างๆ นั้นยอดเยี่ยม แต่เราไม่คิดว่ามันเป็นปาฏิหาริย์ และความตื่นตระหนกในช่วงสุดสัปดาห์ดูเหมือนจะเกินจริงไป”

DeepSeek พัฒนาโมเดล AI หลักสองรุ่น ได้แก่ DeepSeek-V3 และ DeepSeek R1 โมเดลภาษา V3 ขนาดใหญ่ใช้ประโยชน์จากสถาปัตยกรรม MOE โดยการรวมโมเดลขนาดเล็กเข้าด้วยกันเพื่อให้ได้ประสิทธิภาพสูง ในขณะที่ใช้ทรัพยากรการประมวลผลน้อยกว่าโมเดลแบบดั้งเดิม
ในทางกลับกัน โมเดล V3 มีพารามิเตอร์ 671 พันล้านตัว โดยมีพารามิเตอร์ 37 พันล้านตัวที่ทำงานอยู่ ณ เวลาใดเวลาหนึ่ง ซึ่งรวมเอาเทคโนโลยีใหม่ๆ เช่น MHLA เพื่อลดการใช้หน่วยความจำ และใช้ FP8 เพื่อเพิ่มประสิทธิภาพให้ดียิ่งขึ้น
การฝึกฝนโมเดล V3 ต้องใช้คลัสเตอร์ GPU Nvidia H800 จำนวน 2,048 ตัว เป็นระยะเวลาสองเดือน ซึ่งเทียบเท่ากับ 5.5 ล้านชั่วโมงการทำงานของ GPU แม้ว่าบางประมาณการจะระบุว่าค่าใช้จ่ายในการฝึกฝนอยู่ที่ประมาณ 5 ล้านดอลลาร์ แต่รายงานของ Bernstein เน้นย้ำว่าตัวเลขนี้ครอบคลุมเฉพาะทรัพยากรการคำนวณเท่านั้น และไม่ได้รวมถึงค่าใช้จ่ายที่สำคัญที่เกี่ยวข้องกับการวิจัย การทดสอบ และค่าใช้จ่ายในการพัฒนาอื่นๆ
โมเดล DeepSeek R1 สร้างขึ้นบนพื้นฐานของ V3 โดยใช้การเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) และเทคนิคอื่นๆ เพื่อให้มั่นใจถึงความสามารถในการอนุมาน
โมเดล R1 สามารถแข่งขันกับโมเดล OpenAI ในงานด้านการให้เหตุผลได้ อย่างไรก็ตาม เบิร์นสไตน์ชี้ให้เห็นว่าการพัฒนา R1 นั้นต้องใช้ทรัพยากรจำนวนมาก แม้ว่ารายงานของ DeepSeek จะไม่ได้ระบุรายละเอียดไว้ก็ตาม
เบิร์นสไตน์แสดงความคิดเห็นเกี่ยวกับ DeepSeek โดยยกย่องโมเดลต่างๆ ว่าน่าประทับใจ ตัวอย่างเช่น โมเดล V3 ทำงานได้ดีเท่าหรือดีกว่าโมเดลภาษาหลักอื่นๆ ในด้านภาษาศาสตร์ การเขียนโปรแกรม และคณิตศาสตร์ ในขณะที่ใช้ทรัพยากรน้อยกว่า
กระบวนการฝึกฝนเบื้องต้นของ V3 ใช้เวลาประมวลผลบน GPU เพียง 2.7 ล้านชั่วโมง หรือคิดเป็น 9% ของทรัพยากรการประมวลผลของโมเดลระดับสูงอื่นๆ บางรุ่น
เบิร์นสไตน์สรุปว่า แม้ความก้าวหน้าของ DeepSeek จะน่าชื่นชม แต่ก็ต้องระมัดระวังการกล่าวอ้างที่เกินจริง แนวคิดที่จะสร้างคู่แข่งให้กับ OpenAI ด้วยเงินเพียง 5 ล้านดอลลาร์ดูเหมือนจะเป็นความคิดที่ผิดพลาด
(อ้างอิงจากไทมส์ออฟอินเดีย)
[โฆษณา_2]
ที่มา: https://vietnamnet.vn/deepseek-khong-the-lam-ai-tuong-duong-openai-voi-5-trieu-usd-2367340.html






การแสดงความคิดเห็น (0)