ໃນສະພາບການຫັນເປັນດິຈິຕອລ ແລະ ການຫັນເປັນປັນຍາປະດິດ (AI) ຢູ່ຫວຽດນາມ, ເຕັກໂນໂລຊີ OCR (ການຈຳແນກຕົວອັກສອນ) ໄດ້ມີບົດບາດສຳຄັນກວ່າອີກໃນການຫັນເອກະສານເປັນດິຈິຕອລ, ເຮັດໃຫ້ຂະບວນການດຳເນີນທຸລະກິດອັດຕະໂນມັດ, ປະຢັດຕົ້ນທຶນ ແລະ ປັບປຸງປະສິດທິຜົນການຄຸ້ມຄອງ. ເຖິງຢ່າງໃດກໍຕາມ, ດ້ວຍລັກສະນະພາສາຫວຽດນາມ ດ້ວຍສຳນຽງ ແລະ ການຂຽນດ້ວຍມື, ບັນຫາການຮັບຮູ້ບໍ່ໄດ້ຢຸດຢູ່ທີ່ 'ການອ່ານຄຳ', ແຕ່ຮຽກຮ້ອງໃຫ້ຕົວແບບມີຄວາມສາມາດເຂົ້າໃຈສະພາບການຢ່າງຄົບຖ້ວນ.
ເມື່ອບໍ່ດົນມານີ້, CMC Technology Institute (CMC ATI) ໄດ້ປະກາດຕົວແບບ CATI-VLM (Visual Document Understanding) ພັດທະນາໂດຍທີມວິໄຈຈາກຄັງເກັບຂໍ້ມູນຂະໜາດໃຫຍ່ 5TB, ຂຶ້ນສູ່ອັນດັບ 12 ຂອງໂລກ ແລະ ອັນດັບ 1 ຂອງຫວຽດນາມ ໃນການຈັດອັນດັບພຽງແຕ່ປະກາດໂດຍການແຂ່ງຂັນອ່ານ Robust Reading Competition (RRC) ໃນເດືອນມິຖຸນາ 2025 ໃນໝວດ DocumentQA (Question).
ການຈັດອັນດັບ RRC ໃນໝວດ DocVQA 6/2025.
Robust Reading Competition (RRC) ເປັນສະຫນາມເດັກຫຼິ້ນ ວິທະຍາສາດ ທີ່ມີຊື່ສຽງ, (https://rrc.cvc.uab.es/) ຈັດໂດຍ Computer Vision Center (CVC) ຂອງ Universitat Autònoma de Barcelona (UAB) ສະເປນ, ສະຖານທີ່ຄົ້ນຄ້ວາທີ່ມີຊື່ສຽງໃນໂລກໃນພາກສະຫນາມຂອງວິໄສທັດຄອມພິວເຕີ. ການລິເລີ່ມໃນປີ 2011, ສະເຫມີມາພ້ອມກັບກອງປະຊຸມສາກົນກ່ຽວກັບການວິເຄາະຂໍ້ຄວາມແລະການຮັບຮູ້ ICDAR - ຫນຶ່ງໃນເວທີທີ່ໃຫຍ່ທີ່ສຸດຂອງໂລກກ່ຽວກັບການວິເຄາະເອກະສານແລະວິໄສທັດຄອມພິວເຕີ, ການແຂ່ງຂັນໄດ້ກາຍເປັນເຫດການທີ່ສໍາຄັນ, ດຶງດູດນັກຄົ້ນຄວ້າ, ວິສະວະກອນຈາກມະຫາວິທະຍາໄລທີ່ມີຊື່ສຽງ, ສະຖາບັນຄົ້ນຄ້ວາແລະບໍລິສັດເຕັກໂນໂລຢີເຊັ່ນ: ມະຫາວິທະຍາໄລ Tsinghua, RC, Hyundai Motor, ແລະບໍລິສັດ R.C. ຄວາມຄືບໜ້າ, ຕິດພັນຢ່າງໃກ້ຊິດກັບບັນຫາພາກປະຕິບັດ ນັບແຕ່ການແປພາສາ, ການຄຸ້ມຄອງຂໍ້ມູນວິສາຫະກິດ ຈົນເຖິງການວິເຄາະຕົວເມືອງ ແລະການປະມວນຜົນເອກະສານປະຫວັດສາດ.
ທ່ານ ດັ້ງມິງຕ໋ວນ, ຜູ້ອຳນວຍການໃຫຍ່ CMC ATI ແບ່ງປັນວ່າ: “ຄວາມສາມາດບົ່ມຊ້ອນຂອງທີມ CMC ໄດ້ຮັບການຢັ້ງຢືນຜ່ານສະໜາມຫຼິ້ນລະດັບໂລກທີ່ມີຊື່ສຽງຄື RRC. ພວກເຮົາພູມໃຈທີ່ໃນເວລາສັ້ນໆ, ທີມສາມາດຍາດໄດ້ລະດັບສູງ, ຢືນຄຽງບ່າຄຽງໄຫຼ່ກັບບັນດາປະເທດທີ່ພັດທະນາແລ້ວ. ສິ່ງສຳຄັນກວ່ານັ້ນແມ່ນສະແດງໃຫ້ເຫັນຄວາມສາມາດບົ່ມຊ້ອນດ້ານເຕັກນິກ ແລະ ວິຊາສະເພາະຂອງຫວຽດນາມ ເພື່ອແກ້ໄຂບັນດາບັນຫາສະເພາະຂອງຫວຽດນາມ”.
CATI-VLM ແຕກຕ່າງຈາກ OCR ແບບດັ້ງເດີມທີ່ມັນບໍ່ພຽງແຕ່ສະກັດຕົວອັກສອນ, ແຕ່ຍັງເຂົ້າໃຈຫຼາຍຊັ້ນຂອງຂໍ້ມູນ: ເນື້ອໃນຂໍ້ຄວາມ, ອົງປະກອບທີ່ບໍ່ແມ່ນຂໍ້ຄວາມ (ກ່ອງຫມາຍຕິກ, ກ່ອງກາເຄື່ອງຫມາຍ, ຕາຕະລາງ, ລາຍເຊັນ, ສູດ), ຮູບແບບ (ໂຄງສ້າງຫນ້າ, ຕາຕະລາງ, ແບບຟອມ) ແລະຮູບແບບ (ຕົວອັກສອນ, ຈຸດເດັ່ນ, ແລະອື່ນໆ). ຮູບແບບດັ່ງກ່າວສາມາດຕອບຄໍາຖາມທີ່ເຫັນໃນຮູບພາບເອກະສານ, ຄ້າຍຄືກັບ ChatGPT, ໂດຍບໍ່ຕ້ອງຮຽນຮູ້ແບບຟອມສະເພາະກ່ອນ.
ຕາມຂ່າວ ແລະ ໜັງສືພິມ ປະຊາຊົນ
ທີ່ມາ: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051
(0)