វិធីសាស្ត្រនេះអាចគាំទ្រដល់ការអភិវឌ្ឍចំណុចប្រទាក់អូឌីយ៉ូថ្មីសម្រាប់វិស័យកម្សាន្ត និង អប់រំ

image001.png
រូបថត៖ MIT CSAIL

ការធ្វើត្រាប់តាមសំឡេងដោយប្រើសំឡេងរបស់អ្នក គឺដូចជាការគូសវាសរូបភាពរហ័សមួយ ដើម្បីបង្ហាញអ្វីមួយដែលអ្នកបានឃើញ។ ជំនួសឱ្យការប្រើខ្មៅដៃដើម្បីបង្ហាញរូបភាព អ្នកប្រើសំឡេងរបស់អ្នកដើម្បីបង្ហាញសំឡេង។ ខណៈពេលដែលវាហាក់ដូចជាពិបាក វាជាអ្វីដែលមនុស្សគ្រប់គ្នាធ្វើដោយធម្មជាតិ។ សាកល្បងធ្វើត្រាប់តាមស៊ីរ៉ែនរថយន្តសង្គ្រោះបន្ទាន់ សំឡេងក្រញ៉ាំក្អែក ឬកណ្តឹង ដើម្បីទទួលបានបទពិសោធន៍នេះ។

ដោយ​បាន​បំផុសគំនិត​ដោយ ​វិទ្យាសាស្ត្រ ​យល់ដឹង​លើ​របៀប​ដែល​យើង​ទំនាក់ទំនង ក្រុម​អ្នកស្រាវជ្រាវ​នៅ​មន្ទីរពិសោធន៍​វិទ្យាសាស្ត្រ​កុំព្យូទ័រ និង​បញ្ញា​សិប្បនិម្មិត (CSAIL) របស់ MIT បាន​បង្កើត​ប្រព័ន្ធ AI ដែល​មាន​សមត្ថភាព​បង្កើត​ការ​ក្លែង​ធ្វើ​សំឡេង​ដូច​មនុស្ស​ដោយ​មិន​ចាំបាច់​ហ្វឹកហាត់ និង​មិន​ដែល​ធ្លាប់​បាន «ឮ» សំឡេង​ក្លែង​ធ្វើ​ពី​មនុស្ស​ពីមុន​មក​ឡើយ។

ដើម្បីសម្រេចបាននូវគោលដៅនេះ ក្រុមស្រាវជ្រាវបានរចនាប្រព័ន្ធរបស់ពួកគេដើម្បីបង្កើត និងបកស្រាយសំឡេងតាមរបៀបដែលធ្វើត្រាប់តាមការនិយាយរបស់មនុស្ស។ ពួកគេបានចាប់ផ្តើមដោយការបង្កើតគំរូនៃបំពង់សំឡេងរបស់មនុស្ស ដោយធ្វើត្រាប់តាមរបៀបដែលរំញ័រពីបំពង់កត្រូវបានបង្កើតឡើងដោយបំពង់ក អណ្តាត និងបបូរមាត់។ បន្ទាប់មក ពួកគេបានប្រើក្បួនដោះស្រាយ AI ដែលបំផុសគំនិតដោយការយល់ដឹង ដើម្បីរៀបចំគំរូនេះ ដោយបង្កើតការក្លែងធ្វើសំឡេង ខណៈពេលដែលពិចារណាលើវិធីជាក់លាក់នៃការទំនាក់ទំនងសំឡេងនៅក្នុងបរិបទនីមួយៗ។

ម៉ូដែលនេះអាចបង្កើតឡើងវិញនូវសំឡេងបរិស្ថានជាច្រើនប្រភេទ ដូចជាសំឡេងស្លឹកឈើរអ៊ូរទាំ សំឡេងពស់ហ៊ោ ឬសំឡេងស៊ីរ៉ែនរបស់រថយន្តសង្គ្រោះបន្ទាន់។ លើសពីនេះ ម៉ូដែលនេះអាចធ្វើការបញ្ច្រាស់ដើម្បីទស្សន៍ទាយសំឡេងពិតពីការក្លែងធ្វើសំឡេងរបស់មនុស្ស ដូចគ្នានឹងរបៀបដែលប្រព័ន្ធចក្ខុវិស័យកុំព្យូទ័រមួយចំនួនបង្កើតឡើងវិញនូវរូបភាពដែលមានគុណភាពខ្ពស់ពីគំនូរព្រាង។ ឧទាហរណ៍ ម៉ូដែលអាចបែងចែកបានយ៉ាងត្រឹមត្រូវរវាងសំឡេងឆ្មាយំ និងសំឡេងឆ្មារអ៊ូរទាំនៅពេលដែលមនុស្សធ្វើត្រាប់តាម។

នាពេលអនាគត គំរូនេះអាចនាំឱ្យមានចំណុចប្រទាក់ "ផ្អែកលើការក្លែងធ្វើ" ដែលវិចារណញាណជាងមុនសម្រាប់អ្នករចនាសំឡេង តួអង្គ AI ដែលស្រដៀងនឹងមនុស្សកាន់តែច្រើននៅក្នុងការពិតនិម្មិត និងសូម្បីតែវិធីសាស្រ្តដើម្បីជួយសិស្សក្នុងការរៀនភាសាបរទេស។

អ្នកនិពន្ធឈានមុខគេនៃការសិក្សានេះ — និស្សិតបញ្ចប់ការសិក្សា Kartik Chandra (MIT CSAIL), Karima Ma និងនិស្សិតស្រាវជ្រាវ Matthew Caren — កត់សម្គាល់ថា អ្នកស្រាវជ្រាវក្រាហ្វិកកុំព្យូទ័របានទទួលស្គាល់ជាយូរមកហើយថា ភាពប្រាកដនិយមមិនមែនជាគោលដៅចុងក្រោយនៃការបញ្ចេញមតិដែលមើលឃើញនោះទេ។ ឧទាហរណ៍ គំនូរអរូបី ឬគំនូរព្រាងរបស់កុមារអាចបង្ហាញអារម្មណ៍ដូចរូបថតដែរ។

សិល្បៈនៃការធ្វើត្រាប់តាមសំឡេងតាមរយៈ 3 ដំណាក់កាល

ក្រុមការងារបានបង្កើតគំរូចំនួនបីដែលមានភាពស្មុគស្មាញកាន់តែខ្លាំងឡើង ដើម្បីប្រៀបធៀបជាមួយនឹងការក្លែងធ្វើសំឡេងរបស់មនុស្ស។ ទីមួយ ពួកគេបានបង្កើតគំរូមូលដ្ឋានមួយដែលផ្តោតតែលើការផលិតការក្លែងធ្វើដែលស្រដៀងនឹងសំឡេងពិតបំផុត ប៉ុន្តែគំរូនេះមិនត្រូវគ្នានឹងឥរិយាបថរបស់មនុស្សទេ។

បន្ទាប់មក ក្រុមនេះបានរចនាគំរូទីពីរមួយហៅថាគំរូ "ទំនាក់ទំនង"។ យោងតាមលោក Caren គំរូនេះពិចារណាលើធាតុផ្សំនៃសំឡេងសម្រាប់អ្នកស្តាប់។ ឧទាហរណ៍ អ្នកអាចធ្វើត្រាប់តាមសំឡេងកប៉ាល់ដោយធ្វើត្រាប់តាមសំឡេងគ្រហឹមរបស់ម៉ាស៊ីនរបស់វា ព្រោះនោះជាលក្ខណៈដែលអាចសម្គាល់បានបំផុតនៃសំឡេង ទោះបីជាវាមិនមែនជាធាតុសំខាន់បំផុតក៏ដោយ (ដូចជាសំឡេងទឹកហូរជាឧទាហរណ៍)។ គំរូនេះគឺជាការកែលម្អគួរឱ្យកត់សម្គាល់ជាងកំណែដំបូង។

ជាចុងក្រោយ ក្រុមស្រាវជ្រាវបានបន្ថែមស្រទាប់ហេតុផលមួយទៀតទៅក្នុងគំរូ។ លោក Chandra បានពន្យល់ថា “សំឡេងក្លែងធ្វើអាចប្រែប្រួលអាស្រ័យលើការខិតខំប្រឹងប្រែងរបស់អ្នកចំពោះវា។ ការបង្កើតសំឡេងត្រឹមត្រូវត្រូវការពេលវេលា និងថាមពល”។ គំរូពេញលេញរបស់ក្រុមពន្យល់ពីចំណុចនេះដោយជៀសវាងសំឡេងដែលលឿនពេក ខ្លាំងពេក ឬខ្ពស់/ទាបពេក - ធាតុដែលមិនសូវលេចឡើងក្នុងការទំនាក់ទំនងធម្មតា។ លទ្ធផលគឺការក្លែងធ្វើសំឡេងដូចមនុស្សកាន់តែច្រើន ដែលឆ្លុះបញ្ចាំងពីការសម្រេចចិត្តជាច្រើនដែលមនុស្សធ្វើនៅពេលធ្វើត្រាប់តាមសំឡេងស្រដៀងគ្នា។

ឆ្ពោះទៅរកបច្ចេកវិទ្យាអូឌីយ៉ូដែលបង្ហាញអារម្មណ៍កាន់តែច្រើន។

គំរូនេះអាចជួយសិល្បករទំនាក់ទំនងសំឡេងជាមួយប្រព័ន្ធកុំព្យូទ័រកាន់តែមានប្រសិទ្ធភាព ដោយជួយអ្នកផលិតខ្សែភាពយន្ត និងអ្នកបង្កើតខ្លឹមសារក្នុងការផលិតសំឡេង AI ដែលពាក់ព័ន្ធជាងមុនទៅនឹងបរិបទជាក់លាក់។ វាក៏អាចអនុញ្ញាតឱ្យតន្ត្រីករស្វែងរកមូលដ្ឋានទិន្នន័យសំឡេងបានយ៉ាងរហ័សដោយធ្វើត្រាប់តាមសំឡេងដែលពិបាកពិពណ៌នាជាលាយលក្ខណ៍អក្សរ។

ទន្ទឹមនឹងនេះ ក្រុមស្រាវជ្រាវកំពុងស្វែងយល់ពីការអនុវត្តគំរូនេះនៅក្នុងវិស័យផ្សេងទៀត រួមទាំងការអភិវឌ្ឍភាសា របៀបដែលទារករៀននិយាយ និងឥរិយាបថធ្វើត្រាប់តាមសត្វស្លាបដូចជាសេក ឬសត្វស្លាបច្រៀង។

ទោះជាយ៉ាងណាក៏ដោយ គំរូបច្ចុប្បន្ននៅតែមានដែនកំណត់មួយចំនួន៖ វាពិបាកក្នុងការប្រើព្យញ្ជនៈដូចជា "z" ដែលនាំឱ្យមានការក្លែងធ្វើសំឡេងមិនត្រឹមត្រូវដូចជាសំឡេង buzzing។ លើសពីនេះ វាមិនទាន់អាចចម្លងពីរបៀបដែលមនុស្សធ្វើត្រាប់តាមការនិយាយ តន្ត្រី ឬសំឡេងផ្សេងៗគ្នាដែលធ្វើត្រាប់តាមជាភាសាផ្សេងៗដូចជាចង្វាក់បេះដូងនោះទេ។

សាស្ត្រាចារ្យផ្នែកភាសាវិទ្យា Robert Hawkins នៅសាកលវិទ្យាល័យស្ទែនហ្វដ បានអត្ថាធិប្បាយថា “ការផ្លាស់ប្តូរពីសំឡេងឆ្មាពិតទៅជាពាក្យ 'meow' បង្ហាញពីអន្តរកម្មស្មុគស្មាញរវាងសរីរវិទ្យា ហេតុផលសង្គម និងការទំនាក់ទំនងនៅក្នុងការវិវត្តនៃភាសា។ គំរូនេះគឺជាជំហានដ៏គួរឱ្យរំភើបមួយឆ្ពោះទៅមុខក្នុងការធ្វើឱ្យមានលក្ខណៈជាផ្លូវការ និងសាកល្បងទ្រឹស្តីអំពីដំណើរការទាំងនេះ”។

(ប្រភព៖ ព័ត៌មាន MIT)