
ក្នុងបរិបទនៃការបំប្លែងឌីជីថល និងការបំប្លែងកម្មវិធីបញ្ញាសិប្បនិមិត្តក្នុងប្រទេសវៀតណាមដែលកំពុងប្រព្រឹត្តទៅយ៉ាងខ្លាំងក្លា បច្ចេកវិទ្យា OCR (ការទទួលស្គាល់តួអក្សរអុបទិក) ដើរតួនាទីយ៉ាងសំខាន់កាន់តែខ្លាំងឡើងក្នុងការរៀបចំឯកសារឌីជីថល ស្វ័យប្រវត្តិកម្មដំណើរការអាជីវកម្ម សន្សំការចំណាយ និងបង្កើនប្រសិទ្ធភាពការគ្រប់គ្រង។
ទោះបីជាយ៉ាងណាក៏ដោយ ជាមួយនឹងលក្ខណៈរបស់ជនជាតិវៀតណាមដែលមានការបញ្ចេញសំឡេង និងការសរសេរដោយដៃ បញ្ហាការទទួលស្គាល់មិនឈប់ត្រឹម 'ការអានពាក្យ' នោះទេ ប៉ុន្តែទាមទារឱ្យគំរូមានសមត្ថភាពក្នុងការយល់អំពីបរិបទឱ្យបានទូលំទូលាយ។
ប្រឈមមុខនឹងបញ្ហាប្រឈមនោះ វិទ្យាស្ថានកម្មវិធីបច្ចេកវិទ្យា CMC ( CMC ATI) បានបង្កើតគំរូ CATI-VLM ដែលជាប្រព័ន្ធសម្រាប់ការយល់ដឹងអំពីឯកសារដោយប្រើកុំព្យូទ័រ (Visual Document Understanding)។
ដោយផ្អែកលើឃ្លាំងទិន្នន័យធំរហូតដល់ 5TB ម៉ូដែលនេះទើបតែជាប់ចំណាត់ថ្នាក់កំពូលទាំង 12 នៅលើពិភពលោក និង Top 1 ក្នុងប្រទេសវៀតណាមក្នុងកម្មវិធីប្រកួតប្រជែងការអានដ៏រឹងមាំអន្តរជាតិ (RRC) ប្រភេទ Document Visual Question Answering (DocVQA) ដែលធ្វើឡើងក្នុងខែមិថុនា ឆ្នាំ 2025។
ប្រភព៖ https://nhandan.vn/infographic-tri-tue-nhan-tao-viet-vao-top-12-the-gioi-ve-nhan-dang-van-ban-post892567.html
Kommentar (0)