ចំណាត់ថ្នាក់របស់ RRC ក្នុងប្រភេទ DocVQA ខែមិថុនា ឆ្នាំ២០២៥។
ក្នុងចំណោមការផ្លាស់ប្តូរឌីជីថលយ៉ាងឆាប់រហ័ស និងការទទួលយកបញ្ញាសិប្បនិម្មិតនៅក្នុងប្រទេសវៀតណាម បច្ចេកវិទ្យា OCR (ការទទួលស្គាល់តួអក្សរអុបទិក) កំពុងដើរតួនាទីយ៉ាងសំខាន់ក្នុងការធ្វើឌីជីថលូបនីយកម្មឯកសារ ស្វ័យប្រវត្តិកម្មដំណើរការអាជីវកម្ម ការសន្សំសំចៃថ្លៃដើម និងប្រសិទ្ធភាពគ្រប់គ្រងកាន់តែប្រសើរឡើង។ ទោះជាយ៉ាងណាក៏ដោយ ដោយសារលក្ខណៈពិសេសតែមួយគត់នៃភាសាវៀតណាម រួមទាំងការសង្កត់សំឡេង និងការសរសេរដោយដៃរបស់វា បញ្ហានៃការទទួលស្គាល់គឺលើសពីការ «អាន» តួអក្សរ។ វាតម្រូវឱ្យមានគំរូដែលមានសមត្ថភាពយល់អំពីបរិបទបានយ៉ាងទូលំទូលាយ។
ថ្មីៗនេះ វិទ្យាស្ថានបច្ចេកវិទ្យាអនុវត្ត CMC (CMC ATI) បានប្រកាសពីគំរូ CATI-VLM (ការយល់ដឹងឯកសារដែលមើលឃើញ) - ដែលត្រូវបានបង្កើតឡើងដោយក្រុមស្រាវជ្រាវរបស់ខ្លួនពីឃ្លាំងទិន្នន័យទំហំ 5TB ដ៏ធំមួយ - ដោយវ៉ាដាច់ដៃគូប្រកួតប្រជែងអន្តរជាតិជាច្រើនដើម្បីឈានដល់ចំណាត់ថ្នាក់កំពូលទាំង 12 នៅទូទាំងពិភពលោក និងកំពូលលេខ 1 នៅប្រទេសវៀតណាមក្នុងចំណាត់ថ្នាក់ដែលបានបោះពុម្ពផ្សាយដោយ Robust Reading Competition (RRC) ក្នុងខែមិថុនា ឆ្នាំ 2025 ក្នុងប្រភេទសំណួរចម្លើយឯកសារដែលមើលឃើញ (DocVQA)។
ការប្រកួតប្រជែងអានដ៏រឹងមាំ (RRC) គឺជាការប្រកួតប្រជែង វិទ្យាសាស្ត្រ ដ៏មានកិត្យានុភាពមួយ (https://rrc.cvc.uab.es/) ដែលរៀបចំដោយមជ្ឈមណ្ឌលចក្ខុវិស័យកុំព្យូទ័រ (CVC) នៃសាកលវិទ្យាល័យ Autònoma de Barcelona (UAB) ប្រទេសអេស្ប៉ាញ ដែលជាស្ថាប័នស្រាវជ្រាវដ៏ល្បីល្បាញលើពិភពលោកក្នុងវិស័យចក្ខុវិស័យកុំព្យូទ័រ។
ការប្រកួតនេះត្រូវបានផ្តួចផ្តើមឡើងក្នុងឆ្នាំ ២០១១ ដែលត្រូវបានប្រារព្ធឡើងជារៀងរាល់ឆ្នាំ ក្នុងក្របខ័ណ្ឌនៃសន្និសីទអន្តរជាតិស្តីពីការវិភាគ និងការទទួលស្គាល់អត្ថបទ (ICDAR) - ដែលជាវេទិកាឈានមុខគេមួយ របស់ពិភពលោក ក្នុងវិស័យចក្ខុវិស័យកុំព្យូទ័រ។ ការប្រកួតនេះទាក់ទាញអ្នកស្រាវជ្រាវ និងវិស្វករជាច្រើនមកពីសាកលវិទ្យាល័យ វិទ្យាស្ថានស្រាវជ្រាវ និងសាជីវកម្មបច្ចេកវិទ្យាធំៗដូចជា សាកលវិទ្យាល័យ Tsinghua ក្រុមហ៊ុន Hyundai Motor Group និង Tencent។ បញ្ហា RRC ត្រូវបានរចនាឡើងដើម្បីលើកកម្ពស់វឌ្ឍនភាពបច្ចេកវិទ្យា ដែលភ្ជាប់យ៉ាងជិតស្និទ្ធទៅនឹងបញ្ហាជាក់ស្តែងចាប់ពីការបកប្រែ និងការគ្រប់គ្រងទិន្នន័យសហគ្រាស រហូតដល់ការវិភាគទីក្រុង និងដំណើរការឯកសារប្រវត្តិសាស្ត្រ។
លោកវេជ្ជបណ្ឌិត ដាំង មិញ ទួន នាយក CMC ATI បានចែករំលែកថា៖ «យើងមានសេចក្តីសោមនស្សរីករាយដែលសមត្ថភាពស្រាវជ្រាវរបស់ក្រុម CMC ត្រូវបានបញ្ជាក់តាមរយៈការប្រកួតប្រជែងសកលដ៏មានកិត្យានុភាពដូចជា RRC។ ក្នុងរយៈពេលដ៏ខ្លី ក្រុមស្រាវជ្រាវទទួលបានចំណាត់ថ្នាក់ខ្ពស់ ដែលបង្ហាញពីការប្រកួតប្រជែងអន្តរជាតិជាមួយក្រុមហ៊ុនល្បីៗមកពីប្រទេសអភិវឌ្ឍន៍។ អ្វីដែលសំខាន់ជាងនេះទៅទៀត នេះគឺជាភស្តុតាងច្បាស់លាស់នៃសមត្ថភាពរបស់យើងក្នុងការធ្វើជាម្ចាស់លើបច្ចេកវិទ្យាដើម្បីដោះស្រាយបញ្ហាជាក់លាក់ទាក់ទងនឹងភាសាវៀតណាម និងវិស័យឯកទេសនៅក្នុងប្រទេសវៀតណាម»។
លោកបណ្ឌិត Dang Minh Tuan នាយក CMC ATI។
CATI-VLM ខុសពី OCR បែបប្រពៃណី ដោយវាមិនត្រឹមតែស្រង់តួអក្សរប៉ុណ្ណោះទេ ប៉ុន្តែវាថែមទាំងយល់ព័ត៌មានច្រើនស្រទាប់ផងដែរ៖ ខ្លឹមសារអត្ថបទ ធាតុមិនមែនអត្ថបទ (ធីកប្រអប់ ប្រអប់ធីក តារាង ហត្ថលេខា រូបមន្ត) ប្លង់ (រចនាសម្ព័ន្ធទំព័រ តារាង ទម្រង់) និងរចនាប័ទ្ម (ពុម្ពអក្សរ ការបន្លិច។ល។)។ គំរូអាចឆ្លើយសំណួរដែលមើលឃើញដែលដាក់លើរូបភាពឯកសារ ស្រដៀងគ្នាទៅនឹង ChatGPT ដោយមិនចាំបាច់រៀនទម្រង់ជាក់លាក់នីមួយៗជាមុននោះទេ។
ជាពិសេស នៅលើចំណាត់ថ្នាក់ RRC CATI-VLM ដែលមានប៉ារ៉ាម៉ែត្រត្រឹមតែ 3 ពាន់លានប៉ុណ្ណោះ សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតនៅក្នុងសំណុំទិន្នន័យ 4 ក្នុងចំណោម 7 ដោយមានដំណើរការល្អជាងម៉ូដែល Big Tech ជាច្រើនដូចជា Deepseek (ប៉ារ៉ាម៉ែត្រ 27 ពាន់លាន), GPT-4 Vision Turbo + Amazon Textract OCR (កំពូល 34) និង Baidu (កំពូល 22)។
សមិទ្ធផលនេះក៏បង្ហាញពីវិធីសាស្រ្តជាក់ស្តែងមួយ ដោយផ្តោតលើការធ្វើជាម្ចាស់លើបច្ចេកវិទ្យាស្នូល និងការបង្កើនប្រសិទ្ធភាពគំរូឱ្យសមស្របទៅនឹងលក្ខខណ្ឌហេដ្ឋារចនាសម្ព័ន្ធរបស់ប្រទេសវៀតណាម ជាជាងការដេញតាមប៉ារ៉ាម៉ែត្រនៃសមត្ថភាពធ្វើមាត្រដ្ឋាន។
ឧទាហរណ៍នៃទម្រង់បែបបទស្នើសុំចូលរៀននៅសាកលវិទ្យាល័យ
អត្ថបទត្រូវបានកំណត់អត្តសញ្ញាណពីការសរសេរដោយដៃនៅក្នុងរូបភាពខាងលើ។
លោក ង្វៀន ទ្រុងឈីញ ប្រធានក្រុមប្រឹក្សាភិបាល និងជាប្រធានប្រតិបត្តិនៃក្រុមហ៊ុន CMC Technology Group បានសង្កត់ធ្ងន់ថា “នេះគឺជាលទ្ធផលនៃការវិនិយោគជាបន្តបន្ទាប់ជាងមួយទសវត្សរ៍ក្នុងការស្រាវជ្រាវ និងអភិវឌ្ឍន៍ (R&D) បច្ចេកវិទ្យា។ សមិទ្ធផលខ្ពស់របស់ CMC នៅក្នុងវិស័យបច្ចេកវិទ្យាអន្តរជាតិ បញ្ជាក់ពីយុទ្ធសាស្ត្ររបស់យើងក្នុងការធ្វើជាម្ចាស់លើបច្ចេកវិទ្យាវៀតណាម រួមជាមួយនឹងការតំរង់ទិសរបស់យើងឆ្ពោះទៅរកការផ្លាស់ប្តូរ AI និងការពង្រីកចូលទៅក្នុងទីផ្សារពិភពលោក។ យើងជឿជាក់ថា បញ្ញារបស់វៀតណាមមានសមត្ថភាពពេញលេញក្នុងការប្រកួតប្រជែងជាមួយក្រុមហ៊ុនបច្ចេកវិទ្យាធំៗទូទាំងពិភពលោក ដោយបង្កើតតំណែងដ៏សក្តិសមមួយនៅលើផែនទីបច្ចេកវិទ្យាពិភពលោក”។
CATI-VLM នឹងត្រូវបានអនុវត្តនៅក្នុងប្រព័ន្ធអេកូឡូស៊ីផលិតផល C.OpenAI រួមមាន៖ ជំនួយការនិម្មិត CLS សម្រាប់ពិនិត្យឯកសារច្បាប់ CMC SmartDoc - វេទិកាបំលែងឯកសារឌីជីថល ប្រព័ន្ធគ្រប់គ្រងចំណេះដឹង CMC KMS ប្រព័ន្ធរាយការណ៍ដោយស្វ័យប្រវត្តិសម្រាប់ការិយាល័យឆ្លាតវៃ និងកម្មវិធី Agentic Documents ជំនាន់ក្រោយ។
ក្វាង ហ៊ុយ
ប្រភព៖ https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Kommentar (0)