![]() |
DeepSeek เปิดตัวโมเดล AI ใหม่ที่สามารถประมวลผลเอกสารโดยใช้โทเค็นน้อยกว่าวิธีการดั้งเดิมถึง 7-20 เท่า ภาพ: The Verge |
ตามรายงานของ SCMP บริษัท DeepSeek ได้เปิดตัวโมเดลปัญญาประดิษฐ์ (AI) แบบหลายโหมดใหม่ ซึ่งสามารถประมวลผลเอกสารขนาดใหญ่และซับซ้อนได้ โดยใช้จำนวนโทเค็นน้อยกว่าอย่างมาก โดยน้อยกว่าวิธีการประมวลผลข้อความแบบเดิมถึง 7-20 เท่า
โทเค็นคือหน่วยข้อความที่เล็กที่สุดที่ AI ประมวลผล การลดจำนวนโทเค็นหมายถึงการประหยัดต้นทุนการประมวลผลและเพิ่มประสิทธิภาพของโมเดล AI
เพื่อให้บรรลุเป้าหมายนี้ โมเดล DeepSeek-OCR (การรู้จำอักขระด้วยแสง) ได้ใช้การรับรู้ภาพเป็นวิธีการบีบอัดข้อมูล วิธีนี้ช่วยให้โมเดลภาษาขนาดใหญ่สามารถประมวลผลข้อความปริมาณมหาศาลได้โดยไม่ต้องเสียค่าใช้จ่ายในการประมวลผลที่เพิ่มขึ้นตามสัดส่วน
“ด้วย DeepSeek-OCR เราได้แสดงให้เห็นว่าการใช้การรับรู้ภาพเพื่อบีบอัดข้อมูลสามารถลดจำนวนโทเค็นได้อย่างมีนัยสำคัญ – จาก 7 ถึง 20 เท่าสำหรับช่วงบริบททางประวัติศาสตร์ที่แตกต่างกัน ซึ่งถือเป็นแนวทางที่มีแนวโน้มดี” DeepSeek กล่าว
ตามโพสต์บล็อกของบริษัท DeepSeek-OCR ประกอบด้วยส่วนประกอบหลักสองส่วน ได้แก่ DeepEncoder และ DeepSeek3B-MoE-A570M ซึ่งทำหน้าที่เป็นตัวถอดรหัส
DeepEncoder ทำหน้าที่เป็นเครื่องยนต์หลักของโมเดล โดยช่วยรักษาระดับการเปิดใช้งานที่ต่ำภายใต้อินพุตความละเอียดสูง ขณะเดียวกันก็บรรลุอัตราการบีบอัดที่แข็งแกร่งเพื่อลดจำนวนโทเค็น
ตัวถอดรหัสจะเป็นแบบจำลอง Mixture-of-Experts (MoE) ที่มีพารามิเตอร์ 570 ล้านพารามิเตอร์ ซึ่งมีหน้าที่สร้างข้อความต้นฉบับขึ้นมาใหม่ สถาปัตยกรรม MoE จะแบ่งแบบจำลองออกเป็นเครือข่ายย่อยๆ ที่เชี่ยวชาญในการประมวลผลข้อมูลอินพุตชุดย่อย เพื่อเพิ่มประสิทธิภาพการทำงานโดยไม่ต้องเปิดใช้งานแบบจำลองทั้งหมด
ในการทดสอบประสิทธิภาพการอ่านเอกสารของ OmniDocBench DeepSeek-OCR มีประสิทธิภาพเหนือกว่าโมเดล OCR หลักๆ เช่น GOT-OCR 2.0 และ MinerU 2.0 ในขณะที่ใช้โทเค็นน้อยกว่ามาก
ที่มา: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
การแสดงความคิดเห็น (0)