![]() |
DeepSeek ได้เปิดตัวโมเดล AI ใหม่ที่สามารถประมวลผลเอกสารโดยใช้โทเค็นน้อยกว่าวิธีการแบบดั้งเดิมถึง 7-20 เท่า ภาพ: The Verge |
จากรายงานของ SCMP บริษัท DeepSeek ได้เปิดตัวโมเดลปัญญาประดิษฐ์ (AI) แบบมัลติโมดอลใหม่ ที่สามารถประมวลผลเอกสารขนาดใหญ่และซับซ้อนได้โดยใช้โทเค็นน้อยลงอย่างมาก—น้อยกว่าวิธีการประมวลผลข้อความแบบดั้งเดิมถึง 7-20 เท่า
โทเค็นคือหน่วยข้อความที่เล็กที่สุดที่ AI ประมวลผล การลดจำนวนโทเค็นหมายถึงการประหยัดต้นทุนการคำนวณและเพิ่มประสิทธิภาพของโมเดล AI
เพื่อให้บรรลุเป้าหมายนี้ โมเดล DeepSeek-OCR (การรู้จำอักษรด้วยแสง) ใช้การรับรู้ทางสายตาเป็นวิธีการบีบอัดข้อมูล แนวทางนี้ช่วยให้โมเดลภาษาขนาดใหญ่สามารถประมวลผลข้อความจำนวนมหาศาลได้โดยไม่ต้องเสียค่าใช้จ่ายในการคำนวณเพิ่มขึ้นตามสัดส่วน
DeepSeek ระบุว่า “ด้วย DeepSeek-OCR เราได้แสดงให้เห็นว่าการใช้การรับรู้ทางสายตาในการบีบอัดข้อมูลสามารถลดจำนวนโทเค็นได้อย่างมาก ตั้งแต่ 7-20 เท่า สำหรับบริบททางประวัติศาสตร์ที่แตกต่างกัน ซึ่งถือเป็นทิศทางที่มีอนาคตสดใส”
จากข้อมูลในบล็อกของบริษัท DeepSeek-OCR ประกอบด้วยส่วนประกอบหลักสองส่วน ได้แก่ DeepEncoder และ DeepSeek3B-MoE-A570M ซึ่งทำหน้าที่เป็นตัวถอดรหัส
ในโมเดลนี้ DeepEncoder ทำหน้าที่เป็นเครื่องมือหลัก ช่วยรักษาระดับการกระตุ้นให้ต่ำภายใต้ข้อมูลอินพุตที่มีความละเอียดสูง ในขณะเดียวกันก็บรรลุอัตราส่วนการบีบอัดที่สูงเพื่อลดจำนวนโทเค็น
ต่อมา ตัวถอดรหัสเป็นแบบจำลอง Mixture-of-Experts (MoE) ที่มีพารามิเตอร์ 570 ล้านตัว ทำหน้าที่สร้างข้อความต้นฉบับขึ้นใหม่ สถาปัตยกรรม MoE แบ่งแบบจำลองออกเป็นเครือข่ายย่อยที่เชี่ยวชาญในการประมวลผลชุดย่อยของข้อมูลอินพุต เพื่อเพิ่มประสิทธิภาพโดยไม่ต้องเปิดใช้งานแบบจำลองทั้งหมด
บน OmniDocBench ซึ่งเป็นเกณฑ์มาตรฐานสำหรับการวัดความสามารถในการอ่านเอกสาร DeepSeek-OCR มีประสิทธิภาพเหนือกว่าโมเดล OCR หลักๆ เช่น GOT-OCR 2.0 และ MinerU 2.0 ในขณะที่ใช้โทเค็นน้อยกว่าอย่างเห็นได้ชัด
ที่มา: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







การแสดงความคิดเห็น (0)