AI ตัวใหม่ของ DeepSeek ยังคงสร้างความฮือฮาในวงการเทคโนโลยีด้วยประสิทธิภาพที่โดดเด่น ภาพ: SCMP |
DeepSeek เปิดตัว DeepSeek V3-0324 อย่างเป็นทางการ ซึ่งเป็นเวอร์ชันล่าสุดในตระกูล V3 ของภาษาสร้างแบบจำลองขนาดใหญ่ (LLMs)
เช่นเดียวกับรุ่นก่อนหน้า โมเดลนี้เปิดให้ใช้งานได้ฟรีและเป็นโอเพนซอร์สผ่านแพลตฟอร์ม Hugging Face โดยมีการพัฒนาที่สำคัญเหนือกว่าเวอร์ชันก่อนหน้า โดยเฉพาะอย่างยิ่งในด้านการให้เหตุผลและการเขียนโปรแกรม
โดยเฉพาะอย่างยิ่ง ตามข้อมูลของ OpenRouter นั้น DeepSeek V3-0324 ถูกสร้างขึ้นโดยใช้ Mixture of Experts (MoE) ซึ่งเป็นวิธีการเรียนรู้ของเครื่องที่ได้รับความนิยมอย่างมากในโมเดล AI ของจีนบางรุ่น และมีพารามิเตอร์ถึง 685 พันล้านตัว
จากผลการตรวจสอบเบื้องต้น โมเดลนี้แสดงประสิทธิภาพที่น่าประทับใจในงานหลากหลายประเภท ขณะเดียวกัน โพสต์บน Reddit แสดงให้เห็นว่า DeepSeek V3-0324 สามารถทำผลงานได้เทียบเท่ากับโมเดล Sonnet 3.7 ของ Google ในการทดสอบการสร้างโค้ดแล้ว
แหล่งข้อมูลยังระบุว่า DeepSeek V3-0324 สามารถสร้างโค้ดตัวอย่างขนาดยาวได้โดยไม่มีข้อผิดพลาด เว็บไซต์วิเคราะห์ AI ชื่อ Vidhya ได้ทดสอบโมเดลนี้และพบว่าสามารถสร้างโค้ดได้ถึง 700 บรรทัดอย่างราบรื่น
บน X แอปพลิเคชันของ DeepSeek V3-0324 ก็สร้างความฮือฮาอย่างมากเช่นกัน เพื่อเป็นการพิสูจน์ ผู้ใช้ Deepanshu Sharma ได้โพสต์ วิดีโอ แสดงให้เห็นว่าโมเดล AI นี้สามารถสร้างเว็บไซต์ที่สมบูรณ์ได้อย่างราบรื่น โดยมีโค้ดมากกว่า 800 บรรทัด
DeepSeek กลายเป็นบริษัท AI ของจีนที่ถูกพูดถึงมากที่สุดในเดือนธันวาคม 2024 เมื่อเปิดตัว DeepSeek-V3 ซึ่งโมเดลนี้มีประสิทธิภาพเทียบเท่ากับ GPT-4o แต่ใช้ทรัพยากรการประมวลผลเพียงเศษเสี้ยวเท่านั้น
หลังจากนั้นไม่นาน DeepSeek ก็ได้เปิดตัวโมเดลการให้เหตุผล DeepSeek-R1 ตามรายงานของ TechCrunch โมเดล R1 มีประสิทธิภาพเหนือกว่าโมเดล o1 ของ OpenAI ในการทดสอบมาตรฐานต่างๆ เช่น AIME, MATH-500 และ SWE-bench Verified
ในขณะเดียวกัน ตัวเลข 5.6 ล้านดอลลาร์ สำหรับการฝึกอบรมขั้นสุดท้ายของโมเดล DeepSeek ก็เป็นเรื่องที่น่าตกใจเช่นกัน เมื่อเทียบกับเงินหลายร้อยล้านดอลลาร์ที่บริษัทชั้นนำของอเมริกาใช้ในการฝึกอบรมโมเดลของตน
ที่มา: https://znews.vn/at-chu-bai-moi-cua-deepseek-lo-dien-post1540831.html






การแสดงความคิดเห็น (0)