ในบริบทของการเปลี่ยนแปลงทางดิจิทัลและการเปลี่ยนแปลงการใช้งานปัญญาประดิษฐ์ที่เกิดขึ้นอย่างมากในเวียดนาม เทคโนโลยี OCR (การจดจำอักขระด้วยแสง) มีบทบาทสำคัญเพิ่มมากขึ้นในการแปลงเอกสารเป็นดิจิทัล การทำให้กระบวนการทางธุรกิจเป็นอัตโนมัติ การประหยัดต้นทุน และปรับปรุงประสิทธิภาพการบริหารจัดการ
อย่างไรก็ตาม ด้วยลักษณะเฉพาะของชาวเวียดนามที่มีสำเนียงและลายมือ ปัญหาการจดจำจึงไม่ได้หยุดอยู่แค่การ "อ่านคำศัพท์" เท่านั้น แต่ยังต้องให้โมเดลมีความสามารถในการเข้าใจบริบทอย่างครอบคลุมด้วย
เพื่อรับมือกับความท้าทายดังกล่าว สถาบันการประยุกต์ใช้เทคโนโลยี CMC (CMC ATI) จึงได้พัฒนาโมเดล CATI-VLM ซึ่งเป็นระบบในการทำความเข้าใจเอกสารโดยใช้คอมพิวเตอร์วิชัน (Visual Document Understanding)
โดยอิงจากคลังข้อมูลขนาดใหญ่ถึง 5TB โมเดลนี้เพิ่งได้รับการจัดอันดับให้เป็นโมเดลอันดับ 12ของโลก และอันดับ 1 ในประเทศเวียดนาม ในการแข่งขัน Robust Reading Competition (RRC) ระดับนานาชาติ ประเภท Document Visual Question Answering (DocVQA) ซึ่งจัดขึ้นในเดือนมิถุนายน 2568
(สำนักข่าวเวียดนาม/เวียดนาม+)
ที่มา: https://www.vietnamplus.vn/tri-tue-nhan-tao-viet-vao-top-12-the-gioi-ve-nhan-dang-van-ban-post1048696.vnp
การแสดงความคิดเห็น (0)