រូបភាពនៃអវកាសយានិកជិះសេះនេះត្រូវបានបង្កើតឡើងដោយប្រើ AI ជំនាន់ពីរប្រភេទ។ រូបថត៖ MIT News
នៅពេលដែលល្បឿន និងគុណភាពលែងមានការដោះដូរគ្នាទៀតហើយ
នៅក្នុងវិស័យរូបភាព AI បច្ចុប្បន្នមានវិធីសាស្រ្តសំខាន់ពីរ៖
គំរូនៃការសាយភាយអនុញ្ញាតឱ្យមានរូបភាពច្បាស់ និងលម្អិត។ ទោះជាយ៉ាងណាក៏ដោយ ពួកវាមានភាពយឺតយ៉ាវ និងពឹងផ្អែកខ្លាំងលើការគណនា ដែលតម្រូវឱ្យដំណើរការរាប់សិបជំហាន ដើម្បីលុបសំឡេងរំខានចេញពីភីកសែលនីមួយៗ។
ម៉ូដែល Autoregressive គឺលឿនជាងព្រោះវាព្យាករណ៍ផ្នែកតូចៗនៃរូបភាពតាមលំដាប់លំដោយ។ ប៉ុន្តែពួកវាច្រើនតែផលិតរូបភាពដែលមិនសូវលម្អិត ហើយងាយនឹងមានកំហុស។
HART (hybrid autoregressive transformer) រួមបញ្ចូលគ្នាទាំងពីរដោយផ្តល់នូវ "ល្អបំផុតនៃពិភពលោកទាំងពីរ" ។ ដំបូងវាប្រើគំរូ autoregressive ដើម្បីបង្កើតរូបភាពទាំងមូលដោយអ៊ិនកូដវាទៅជាសញ្ញាសម្ងាត់ដាច់ដោយឡែក។ បន្ទាប់មក គំរូនៃការសាយភាយទម្ងន់ស្រាលត្រូវចំណាយពេលដើម្បីបំពេញនូវសញ្ញាសម្ងាត់ដែលនៅសេសសល់ – ព័ត៌មានលម្អិតដែលបានបាត់បង់កំឡុងពេលអ៊ិនកូដ។
រូបភាពលទ្ធផលមានគុណភាពអាចប្រៀបធៀប (ឬប្រសើរជាង) ទៅនឹងគំរូនៃការសាយភាយទំនើប ប៉ុន្តែមានដំណើរការលឿនជាង 9 ដង និងប្រើប្រាស់ធនធានគណនាតិចជាង 31%។
វិធីសាស្រ្តថ្មីក្នុងការបង្កើតរូបភាពដែលមានគុណភាពក្នុងល្បឿនលឿន
ការច្នៃប្រឌិតដ៏គួរឱ្យកត់សម្គាល់មួយនៃ HART គឺជារបៀបដែលវាដោះស្រាយបញ្ហានៃការបាត់បង់ព័ត៌មាននៅពេលប្រើម៉ូដែល autoregressive ។ ការបំប្លែងរូបភាពទៅជានិមិត្តសញ្ញាដាច់ពីគ្នា បង្កើនល្បឿនដំណើរការ ប៉ុន្តែក៏បាត់បង់ព័ត៌មានលម្អិតសំខាន់ៗផងដែរ ដូចជាគែមរបស់វត្ថុ ផ្ទៃមុខ សក់ ភ្នែក មាត់ជាដើម។
ដំណោះស្រាយរបស់ HART គឺដើម្បីឱ្យគំរូនៃការសាយភាយផ្តោតតែលើ "បំណះ" ព័ត៌មានលម្អិតទាំងនេះតាមរយៈនិមិត្តសញ្ញាដែលនៅសល់។ ហើយចាប់តាំងពីគំរូ autoregressive បានធ្វើកិច្ចការភាគច្រើនរួចហើយ គំរូនៃការសាយភាយត្រូវការតែ 8 ជំហានដំណើរការប៉ុណ្ណោះ ជំនួសឱ្យ 30+ ជំហានដែលវាធ្លាប់ធ្វើ។
សហអ្នកនិពន្ធ Haotian Tang ពន្យល់ថា "គំរូនៃការសាយភាយកាន់តែងាយស្រួលអនុវត្ត ដែលនាំឱ្យមានប្រសិទ្ធភាពខ្ពស់"។
ជាពិសេស ការរួមបញ្ចូលគ្នានៃម៉ូដែលបំលែងបំរែបំរួលដោយស្វ័យប្រវត្តិដែលមានប៉ារ៉ាម៉ែត្រ 700 លាន និងគំរូនៃការសាយភាយទម្ងន់ស្រាលដែលមានប៉ារ៉ាម៉ែត្រ 37 លានផ្តល់ឱ្យ HART នូវដំណើរការដូចគ្នានឹងគំរូនៃការសាយភាយដែលមានប៉ារ៉ាម៉ែត្ររហូតដល់ 2 ពាន់លាន ប៉ុន្តែលឿនជាងប្រាំបួនដង។
ដំបូងឡើយ ក្រុមការងារបានព្យាយាមបញ្ចូលគំរូចែកចាយទៅក្នុងដំណាក់កាលដំបូងនៃដំណើរការបង្កើតរូបភាព ប៉ុន្តែវាបាននាំឱ្យមានការប្រមូលផ្តុំនៃកំហុស។ វិធីសាស្រ្តដ៏មានប្រសិទ្ធភាពបំផុតគឺអនុញ្ញាតឱ្យគំរូនៃការសាយភាយគ្រប់គ្រងជំហានចុងក្រោយ ហើយផ្តោតតែលើផ្នែក "បាត់" នៃរូបភាពប៉ុណ្ណោះ។
ដោះសោអនាគតនៃ Multimedia AI
ជំហានបន្ទាប់របស់ក្រុមគឺបង្កើតគំរូ AI ដែលមើលឃើញ-ភាសាជំនាន់ក្រោយដោយផ្អែកលើស្ថាបត្យកម្ម HART ។ ដោយសារ HART អាចធ្វើមាត្រដ្ឋានបាន និងអាចសម្របខ្លួនទៅនឹងប្រភេទទិន្នន័យដ៏ធំទូលាយ (ពហុមុខងារ) ពួកគេរំពឹងថានឹងអាចអនុវត្តវាទៅនឹងការបង្កើត វីដេអូ ការព្យាករណ៍សំឡេង និងផ្នែកជាច្រើនទៀត។
ការស្រាវជ្រាវនេះត្រូវបានផ្តល់មូលនិធិដោយអង្គការមួយចំនួនរួមមាន MIT-IBM Watson AI Lab, មជ្ឈមណ្ឌល វិទ្យាសាស្ត្រ MIT-Amazon, កម្មវិធី MIT AI Hardware និងមូលនិធិ វិទ្យាសាស្ត្រ ជាតិរបស់សហរដ្ឋអាមេរិក។ NVIDIA ក៏បានបរិច្ចាគហេដ្ឋារចនាសម្ព័ន្ធ GPU ដើម្បីបណ្តុះបណ្តាលម៉ូដែលនេះ។
(នេះបើតាម MIT News)
ប្រភព៖ https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
Kommentar (0)