ในบริบทของการเปลี่ยนแปลงทางดิจิทัลและการเปลี่ยนแปลงทางปัญญาประดิษฐ์ (AI) ในเวียดนาม เทคโนโลยี OCR (การจดจำอักขระด้วยแสง) มีบทบาทสำคัญเพิ่มมากขึ้นในการแปลงเอกสารเป็นดิจิทัล ทำให้กระบวนการทางธุรกิจเป็นระบบอัตโนมัติ ประหยัดต้นทุน และปรับปรุงประสิทธิภาพการจัดการ อย่างไรก็ตาม ด้วยลักษณะเฉพาะของชาวเวียดนามที่มีสำเนียงและลายมือ ปัญหาการจดจำไม่ได้หยุดอยู่แค่ "การอ่านคำศัพท์" เท่านั้น แต่ยังต้องการให้โมเดลมีความสามารถในการเข้าใจบริบทอย่างครอบคลุม
เมื่อเร็วๆ นี้ CMC Technology Application Institute (CMC ATI) ได้ประกาศเปิดตัวโมเดล CATI-VLM (Visual Document Understanding) ที่พัฒนาโดยทีมวิจัยจากคลังข้อมูลขนาดใหญ่ 5TB จนขึ้นถึงอันดับ 12 ของโลก และอันดับ 1 ของประเทศเวียดนามในการจัดอันดับที่เพิ่งประกาศโดย Robust Reading Competition (RRC) เมื่อเดือนมิถุนายน พ.ศ. 2568 ในประเภท Document Visual Question Answering (DocVQA)
การแข่งขัน Robust Reading Competition (RRC) เป็นสนามเด็กเล่น ทางวิทยาศาสตร์ อันทรงเกียรติ (https://rrc.cvc.uab.es/) ซึ่งจัดโดยศูนย์วิชันคอมพิวเตอร์ (CVC) ของมหาวิทยาลัยออโตโนมาเดอบาร์เซโลนา (UAB) สเปน ซึ่งเป็นศูนย์วิจัยอันทรงเกียรติของโลกในด้านวิชันคอมพิวเตอร์ การแข่งขันนี้เริ่มต้นขึ้นในปี 2011 และจัดขึ้นควบคู่กับการประชุมนานาชาติเกี่ยวกับการวิเคราะห์และการจดจำข้อความ ICDAR ซึ่งเป็นฟอรัมที่ใหญ่ที่สุดแห่งหนึ่งของโลกเกี่ยวกับการวิเคราะห์เอกสารและวิชันคอมพิวเตอร์ การแข่งขันนี้ได้กลายเป็นกิจกรรมสำคัญที่ดึงดูดนักวิจัย วิศวกรจากมหาวิทยาลัยอันทรงเกียรติ สถาบันวิจัย และบริษัทเทคโนโลยีต่างๆ เช่น มหาวิทยาลัยชิงหัว ฮุนไดมอเตอร์กรุ๊ป และเทนเซ็นต์... งานของ RRC ได้รับการออกแบบมาเพื่อส่งเสริมความก้าวหน้าทางเทคโนโลยี ซึ่งเชื่อมโยงอย่างใกล้ชิดกับปัญหาในทางปฏิบัติ ตั้งแต่การแปล การจัดการข้อมูลองค์กร ไปจนถึงการวิเคราะห์เมือง และการประมวลผลเอกสารทางประวัติศาสตร์
ดร. Dang Minh Tuan ผู้อำนวยการ CMC ATI กล่าวว่า "ศักยภาพด้านการวิจัยของทีมงาน CMC ได้รับการยืนยันจากสนามเด็กเล่นระดับโลกที่มีชื่อเสียงอย่าง RRC เราภูมิใจที่ทีมงานสามารถก้าวขึ้นสู่ตำแหน่งที่สูงได้ภายในเวลาอันสั้น เทียบเคียงได้กับบุคคลที่มีชื่อเสียงจากประเทศพัฒนาแล้ว ที่สำคัญกว่านั้น นี่ถือเป็นการแสดงให้เห็นอย่างชัดเจนถึงความสามารถในการเชี่ยวชาญด้านเทคโนโลยีเพื่อแก้ปัญหาเฉพาะของเวียดนามและสาขาเฉพาะทางในเวียดนาม"
CATI-VLM แตกต่างจาก OCR ทั่วไปตรงที่ไม่เพียงแต่จะแยกอักขระเท่านั้น แต่ยังเข้าใจข้อมูลหลายชั้นอีกด้วย ไม่ว่าจะเป็นเนื้อหาข้อความ องค์ประกอบที่ไม่ใช่ข้อความ (ช่องกาเครื่องหมาย ช่องกาเครื่องหมาย แผนภูมิ ลายเซ็น สูตร) เค้าโครง (โครงสร้างหน้า ตาราง แบบฟอร์ม) และสไตล์ (แบบอักษร ไฮไลต์ ฯลฯ) โมเดลสามารถตอบคำถามทางภาพที่ปรากฏบนภาพเอกสารได้ คล้ายกับ ChatGPT โดยไม่จำเป็นต้องเรียนรู้แบบฟอร์มเฉพาะล่วงหน้า
ที่มา: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
การแสดงความคิดเห็น (0)