ការបកប្រែតាមម៉ាស៊ីនគឺជាកម្មវិធីជោគជ័យបំផុតមួយនៃបច្ចេកវិទ្យាបញ្ញាសិប្បនិមិត្តក្នុងដំណើរការភាសាធម្មជាតិ។ ប្រព័ន្ធបកប្រែម៉ាស៊ីនដែលមានគុណភាពខ្ពស់ដូចជា Google Translate ឬ Microsoft Bing Translator ត្រូវការសំណុំទិន្នន័យជាពីរភាសាធំ រហូតដល់រាប់លានគូ ដើម្បីបណ្តុះបណ្តាលគំរូ។
ទោះយ៉ាងណាក៏ដោយ ភាសាជាច្រើននៅក្នុង ពិភពលោក មិនមានធនធានគ្រប់គ្រាន់ទេ។ ដូច្នេះហើយ ការកសាងគំរូបកប្រែម៉ាស៊ីនដ៏មានប្រសិទ្ធភាពសម្រាប់ភាសាដែលមិនមានធនធាន រួមទាំងភាសាក្នុងតំបន់អាស៊ីអាគ្នេយ៍ គឺជារឿងបន្ទាន់ និងជាបញ្ហាប្រឈមខ្លាំងណាស់។
ថ្មីៗនេះ វិទ្យាស្ថានបច្ចេកវិទ្យាព័ត៌មាន (បណ្ឌិត្យសភា វិទ្យាសាស្ត្រ និងបច្ចេកវិទ្យាវៀតណាម) បានស្រាវជ្រាវ និងស្ទាត់ជំនាញបច្ចេកវិទ្យាបកប្រែម៉ាស៊ីនទំនើបបំផុតនាពេលបច្ចុប្បន្ននេះ។ អង្គភាពនេះក៏បានសាងសង់ដោយជោគជ័យនូវប្រព័ន្ធបកប្រែអត្ថបទពហុភាសារវាងភាសាវៀតណាម និងភាសាក្នុងតំបន់រួមមាន ឡាវ ខ្មែរ ថៃ ម៉ាឡេស៊ី និងឥណ្ឌូនេស៊ី។
យោងតាមអ្នកអភិវឌ្ឍន៍ ភាសាដូចជា ឡាវ ថៃ និងខ្មែរ បង្កបញ្ហាប្រឈមយ៉ាងខ្លាំងនៅពេលបង្កើតគំរូបកប្រែដោយម៉ាស៊ីន។ ការលំបាកកើតឡើងមិនត្រឹមតែមកពីភាពខ្វះខាតនៃទិន្នន័យពីរភាសាប៉ុណ្ណោះទេ ប៉ុន្តែក៏ដោយសារតែភាសាទាំងនេះមានភាពសំបូរបែប morphologically ខ្វះការបែងចែកពាក្យ ការបែងចែកប្រយោគ និងពហុសេមី។
គំរូ AI ដែលបង្កើតឡើងដោយវិទ្យាស្ថានបច្ចេកវិទ្យាព័ត៌មានបាន "រៀន" ពីរបៀប "សម្រប" ទៅនឹងលក្ខណៈពិសេសទាំងអស់នៃភាសាខាងលើ។ ពីទីនោះ កម្មវិធីអនុញ្ញាតឱ្យមានការបន្ថែមភាសាផ្សេងទៀតយ៉ាងឆាប់រហ័សនៅពេលដែលត្រូវការជាមួយនឹងគុណភាពបកប្រែដែលស្មើនឹងផលិតផលបរទេសកម្រិតខ្ពស់។
អ្វីដែលពិសេសនោះគឺថាកម្មវិធីបកប្រែពហុភាសានេះដំណើរការដោយឡែកពីគ្នា រក្សាទុកទិន្នន័យក្នុងមូលដ្ឋាន និងមិនប្រើប្រាស់ API របស់អ្នកផ្តល់សេវាផ្សេងទៀតឡើយ។ វាជួយធានាសុវត្ថិភាព សុវត្ថិភាព និងគ្មានការលេចធ្លាយព័ត៌មាន។
បញ្ហាមួយជាមួយប្រព័ន្ធបកប្រែដូចជា Google Translate ឬ Bing Translator គឺការសម្របខ្លួនតាមដែនជាក់លាក់របស់ពួកគេ។ នោះគឺពួកគេអាចបកប្រែបានយ៉ាងល្អសម្រាប់ដែនភាសាពេញនិយមទូទៅដែលបម្រើដល់មហាជន ប៉ុន្តែមានគុណភាពការបកប្រែខ្សោយនៅក្នុងផ្នែកភាសាឯកទេសដូចជា ថ្នាំពេទ្យ ច្បាប់ សន្តិសុខជាដើម។
ដើម្បីជម្នះនូវចំណុចខ្វះខាតខាងលើ ក្រុមស្រាវជ្រាវនៃវិទ្យាស្ថានបច្ចេកវិទ្យាព័ត៌មានបានបង្កើតប្រព័ន្ធបកប្រែភាសាវៀតណាមជាកណ្តាល ដែលមានសមត្ថភាពបកប្រែពីរផ្លូវទៅជាភាសាខ្សោយធនធានប្រកបដោយគុណភាពល្អ។
ជាពិសេស កម្មវិធីនេះមានគុណភាពដូចគ្នា ឬខ្ពស់ជាង Google Translate សម្រាប់អត្ថបទដូចគ្នា។ លើសពីនេះទៀតកម្មវិធីមិនកំណត់ប្រវែងនៃអត្ថបទទេ។
ក្នុងកំឡុងឆ្នាំ 2022-2023 ប្រព័ន្ធនេះផ្តោតលើការដាក់ឱ្យប្រើប្រាស់នូវបច្ចេកវិជ្ជា Large Language Models (LLMs) ដោយផ្តល់អាទិភាពដល់គូភាសាដូចខាងក្រោម៖ វៀតណាម - ខ្មែរ វៀតណាម - ឡាវ វៀតណាម - ថៃ វៀតណាម - ម៉ាឡេ និង វៀតណាម - ឥណ្ឌូនេស៊ី។
ជាមួយនឹងភាសាអង់គ្លេស (ជាធនធានទិន្នន័យដ៏សម្បូរបែប និងភាពខ្លាំងជាអាទិភាពរបស់ Google) កម្មវិធីរបស់វិទ្យាស្ថានបច្ចេកវិទ្យាព័ត៌មានធានាគុណភាពស្ទើរតែស្មើនឹង Google Translate។ ជាពិសេស ប្រព័ន្ធនេះមានសមត្ថភាពសម្រួលដល់ការសម្របខ្លួនទៅនឹងភាសាឯកទេស ដូចជា ឱសថ ច្បាប់ ... ទៅតាមតម្រូវការជាក់លាក់របស់ដៃគូ។
ប្រព័ន្ធនេះត្រូវបានបង្កើតឡើងដោយខ្លួនឯងដោយក្រុមស្រាវជ្រាវ ដោយផ្អែកលើហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកទេសដែលគាំទ្រការផ្ទុកទិន្នន័យភាសាដ៏ធំ និងសមត្ថភាពកុំព្យូទ័រទំនើបឆ្លាតវៃសិប្បនិម្មិត/ម៉ាស៊ីន (AI/ML) ខ្លាំងបំផុតនៅក្នុងប្រទេសវៀតណាម។
វិទ្យាស្ថានបច្ចេកវិទ្យាព័ត៌មានមានជំនាញពេញលេញនៃបច្ចេកវិទ្យាដែលពាក់ព័ន្ធ។ ដូច្នេះ អង្គភាពនេះអាចពង្រីកកម្មវិធីទៅកាន់ភាសាគោលដៅថ្មីបានយ៉ាងងាយស្រួល រួមទាំងភាសាជនជាតិភាគតិចក្នុងប្រទេសវៀតណាម (ជារឿយៗមានធនធានទិន្នន័យមិនសូវល្អ) ដូចជា មឿង ថៃ ជាដើម និងភាសាបរទេសពេញនិយមដូចជា ចិន បារាំង រុស្ស៊ី ជាដើម នៅពេលចាំបាច់។
កម្មវិធីបកប្រែពហុភាសានេះ Made in Vietnam ត្រូវបានគេរំពឹងថាជាដំណោះស្រាយចំពោះបញ្ហានៃការទទួលបានព័ត៌មានសម្រាប់ជនជាតិភាគតិច។
ប្រភព
Kommentar (0)