อันดับของ RRC ในหมวดหมู่ DocVQA เดือนมิถุนายน 2025
ท่ามกลางการเปลี่ยนแปลงทางดิจิทัลอย่างรวดเร็วและการนำปัญญาประดิษฐ์มาใช้ในเวียดนาม เทคโนโลยี OCR (การรู้จำอักษรด้วยแสง) กำลังมีบทบาทสำคัญมากขึ้นเรื่อยๆ ในการแปลงเอกสารให้เป็นดิจิทัล การทำให้กระบวนการทางธุรกิจเป็นไปโดยอัตโนมัติ การประหยัดต้นทุน และการปรับปรุงประสิทธิภาพการจัดการ อย่างไรก็ตาม ด้วยลักษณะเฉพาะของภาษาเวียดนาม รวมถึงสำเนียงและลายมือ ปัญหาการรู้จำจึงไม่ใช่แค่การ "อ่าน" ตัวอักษรเท่านั้น แต่ต้องใช้แบบจำลองที่สามารถเข้าใจบริบทได้อย่างครอบคลุม
เมื่อเร็วๆ นี้ สถาบันเทคโนโลยีประยุกต์ CMC (CMC ATI) ได้ประกาศว่าแบบจำลอง CATI-VLM (Visual Document Understanding) ซึ่งพัฒนาโดยทีมวิจัยจากคลังข้อมูลขนาดใหญ่ 5TB นั้น สามารถเอาชนะคู่แข่งจากนานาชาติหลายราย และติดอันดับ 12 ของโลก และอันดับ 1 ในเวียดนาม ในการจัดอันดับที่เผยแพร่โดยการแข่งขัน Robust Reading Competition (RRC) ในเดือนมิถุนายน 2025 ในหมวดการตอบคำถามจากเอกสารด้วยภาพ (DocVQA)
การแข่งขัน Robust Reading Competition (RRC) เป็นการแข่งขัน ทางวิทยาศาสตร์ ที่มีชื่อเสียง (https://rrc.cvc.uab.es/) ซึ่งจัดโดยศูนย์วิทยาการคอมพิวเตอร์ (CVC) ของมหาวิทยาลัย Autònoma de Barcelona (UAB) ประเทศสเปน ซึ่งเป็นสถาบันวิจัยที่มีชื่อเสียงระดับโลกในสาขาวิทยาการคอมพิวเตอร์
การแข่งขันนี้เริ่มต้นขึ้นในปี 2011 และจัดขึ้นเป็นประจำทุกปีภายใต้กรอบการประชุมนานาชาติว่าด้วยการวิเคราะห์และจดจำข้อความ (ICDAR) ซึ่งเป็นหนึ่งในเวทีชั้นนำ ของโลก ในสาขาวิทยาการคอมพิวเตอร์ด้านการมองเห็น การแข่งขันนี้ดึงดูดนักวิจัยและวิศวกรจำนวนมากจากมหาวิทยาลัย สถาบันวิจัย และบริษัทเทคโนโลยีชั้นนำ เช่น มหาวิทยาลัยชิงหัว กลุ่มบริษัทฮุนไดมอเตอร์ และเทนเซนต์ โจทย์การแข่งขัน RRC ถูกออกแบบมาเพื่อส่งเสริมความก้าวหน้าทางเทคโนโลยี โดยเชื่อมโยงอย่างใกล้ชิดกับปัญหาในทางปฏิบัติ ตั้งแต่การแปลและการจัดการข้อมูลองค์กร ไปจนถึงการวิเคราะห์เมืองและการประมวลผลเอกสารทางประวัติศาสตร์
ดร. ดัง มินห์ ตวน ผู้อำนวยการ CMC ATI กล่าวว่า "เรารู้สึกยินดีเป็นอย่างยิ่งที่ศักยภาพด้านการวิจัยของทีม CMC ได้รับการยืนยันผ่านการแข่งขันระดับโลกอันทรงเกียรติอย่าง RRC ในระยะเวลาอันสั้น ทีมวิจัยของเราได้ก้าวขึ้นมาอยู่ในอันดับสูง แสดงให้เห็นถึงความสามารถในการแข่งขันระดับนานาชาติกับบริษัทชั้นนำจากประเทศพัฒนาแล้ว ที่สำคัญกว่านั้น นี่เป็นหลักฐานที่ชัดเจนถึงความสามารถของเราในการใช้เทคโนโลยีเพื่อแก้ปัญหาเฉพาะด้านที่เกี่ยวข้องกับภาษาเวียดนามและสาขาเฉพาะทางในเวียดนาม"
ดร. ดัง มินห์ ตวน ผู้อำนวยการ CMC ATI
CATI-VLM แตกต่างจาก OCR แบบดั้งเดิมตรงที่มันไม่เพียงแต่แยกตัวอักษรออกมาเท่านั้น แต่ยังเข้าใจข้อมูลหลายชั้น ได้แก่ เนื้อหาข้อความ องค์ประกอบที่ไม่ใช่ข้อความ (ช่องทำเครื่องหมาย แผนภูมิ ลายเซ็น สูตร) เค้าโครง (โครงสร้างหน้า ตาราง แบบฟอร์ม) และรูปแบบ (แบบอักษร การเน้นข้อความ ฯลฯ) โมเดลนี้สามารถตอบคำถามเชิงภาพที่แสดงบนภาพเอกสารได้ คล้ายกับ ChatGPT โดยไม่จำเป็นต้องเรียนรู้รูปแบบเฉพาะแต่ละแบบล่วงหน้า
ที่น่าสังเกตคือ ในการจัดอันดับ RRC นั้น CATI-VLM ซึ่งมีพารามิเตอร์เพียง 3 พันล้านตัว สามารถทำความแม่นยำได้สูงสุดใน 4 จาก 7 ชุดข้อมูล เหนือกว่าโมเดลของบริษัทเทคโนโลยีขนาดใหญ่หลายแห่ง เช่น Deepseek (27 พันล้านพารามิเตอร์), GPT-4 Vision Turbo + Amazon Textract OCR (อันดับ 34) และ Baidu (อันดับ 22)
ความสำเร็จนี้ยังแสดงให้เห็นถึงแนวทางปฏิบัติที่เป็นรูปธรรม โดยมุ่งเน้นไปที่การพัฒนาเทคโนโลยีหลักให้เชี่ยวชาญและปรับปรุงรูปแบบให้เหมาะสมกับสภาพโครงสร้างพื้นฐานของเวียดนาม มากกว่าการไล่ตามพารามิเตอร์ด้านความสามารถในการขยายขนาด
ตัวอย่างแบบฟอร์มใบสมัครเข้ามหาวิทยาลัย
ข้อความดังกล่าวได้รับการระบุจากลายมือในภาพด้านบน
นายเหงียน จุง ชิน ประธานกรรมการและประธานบริหารกลุ่มบริษัท CMC Technology Group กล่าวเน้นย้ำว่า "นี่คือผลลัพธ์จากการลงทุนอย่างต่อเนื่องในการวิจัยและพัฒนาเทคโนโลยีมานานกว่าทศวรรษ ความสำเร็จอันสูงส่งของ CMC ในเวทีเทคโนโลยีระดับนานาชาติยืนยันถึงกลยุทธ์ของเราในการพัฒนาเทคโนโลยีของเวียดนาม ควบคู่ไปกับการมุ่งเน้นการเปลี่ยนแปลงและการขยายตัวสู่ตลาดโลกด้านปัญญาประดิษฐ์ (AI) เราเชื่อมั่นว่าปัญญาของเวียดนามมีความสามารถอย่างเต็มที่ในการแข่งขันกับบริษัทเทคโนโลยียักษ์ใหญ่ระดับโลก และสร้างตำแหน่งที่ทรงคุณค่าบนแผนที่เทคโนโลยีโลก"
CATI-VLM จะถูกนำไปใช้ในระบบนิเวศของผลิตภัณฑ์ C.OpenAI ซึ่งรวมถึง: CLS ผู้ช่วยเสมือนสำหรับตรวจสอบเอกสารทางกฎหมาย, CMC SmartDoc แพลตฟอร์มการแปลงเอกสารดิจิทัล, CMC KMS ระบบจัดการความรู้, ระบบรายงานอัตโนมัติสำหรับสำนักงานอัจฉริยะ และแอปพลิเคชัน Agentic Documents รุ่นใหม่
กวางฮุย
ที่มา: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






การแสดงความคิดเห็น (0)