
ក្រុមហ៊ុនបច្ចេកវិទ្យាឈានមុខគេរបស់ប្រទេសចិន Tencent ទើបតែបានប្រកាសអំពីគំរូបញ្ញាសិប្បនិម្មិតថ្មីមួយ ដែលមានសមត្ថភាពបង្កើត វីដេអូ ក្លែងធ្វើចលនាក្នុងលំហរបីវិមាត្រ ដោយគ្រាន់តែបញ្ចូលរូបភាពតែមួយប៉ុណ្ណោះ។

ហៅថា HunyuanWorld-Voyager ប្រព័ន្ធនេះបង្កើតឈុតខ្លីៗដែលមានព័ត៌មានស៊ីជម្រៅ ដែលបន្ទាប់មកអាចត្រូវបានបង្កើតឡើងវិញទៅជាម៉ាទ្រីស 3D dot - បើកលទ្ធភាពថ្មីសម្រាប់អ្នកបង្កើតមាតិកា ទោះបីជាវាខ្វះអន្តរកម្មពេញលេញជាមួយគំរូ 3D ក៏ដោយ។

HunyuanWorld-Voyager គឺជាគំរូទម្ងន់បើកចំហដែលបង្កើតជាលំដាប់នៃ 49 ស៊ុម — ប្រហែលពីរវិនាទីនៃវីដេអូ — ប៉ុន្តែអ្នកប្រើប្រាស់អាចភ្ជាប់ឈុតជាមួយគ្នាដើម្បីបង្កើតវីដេអូបន្តជាច្រើននាទី។

Ars Technica កត់សម្គាល់ថានៅពេលដែលអ្នកមើលផ្លាស់ប្តូរទស្សនៈរបស់កាមេរ៉ានិម្មិត វត្ថុរក្សាទីតាំងដែលទាក់ទងគ្នា ហើយបរិស្ថានធ្វើសកម្មភាពដូចជាវាមានបីវិមាត្រពេញលេញ។ ខណៈពេលដែលលទ្ធផលចុងក្រោយនៅតែជាវីដេអូពីរវិមាត្រ Tencent និយាយថាទិន្នន័យជម្រៅដែលភ្ជាប់មកជាមួយអនុញ្ញាតឱ្យបង្កើតឡើងវិញ 3D ដោយមិនចាំបាច់ប្រើបច្ចេកទេសគំរូបែបប្រពៃណី។

Voyager ដំណើរការដោយការរួមបញ្ចូលរូបភាពបញ្ចូលជាមួយផ្លូវកាមេរ៉ាកំណត់ដោយអ្នកប្រើប្រាស់។ អ្នកប្រើបញ្ជាក់ពីចលនាដូចជាការបង្វិល ការផ្អៀង ឬផ្លាស់ទីតាមទិដ្ឋភាព ហើយប្រព័ន្ធនឹងបង្កើតវីដេអូពណ៌ និងផែនទីជម្រៅក្នុងពេលដំណាលគ្នា។ នៅពេលដែលវត្ថុមួយលេចឡើងក្នុងវីដេអូ ទិន្នន័យជម្រៅទិន្នផលកត់ត្រាចម្ងាយដែលទាក់ទងរបស់វាទៅទីតាំងត្រឹមត្រូវ។

សមាសធាតុបន្ទាប់បន្សំដែលហៅថាឃ្លាំងសម្ងាត់ ពិភពលោក នៅក្នុងក្រដាសបច្ចេកទេសរបស់ Tencent រក្សាទុកពពកចំណុច 3D នៅពេលដែលប្រព័ន្ធបង្កើតស៊ុមថ្មី។

ជាមួយនឹងការផ្លាស់ទីកាមេរ៉ានីមួយៗ Voyager គ្រោងចំណុចទាំងនេះត្រឡប់ទៅជាពីរវិមាត្រ ហើយប្រើពួកវាជាឯកសារយោង។ ដំណើរការនេះធានាថាស៊ុមបន្តបន្ទាប់ត្រូវគ្នានឹងខ្លឹមសារដែលបានបង្កើតពីមុន ជួយរក្សាភាពស៊ីសង្វាក់គ្នានៃលំហ។

គំរូនេះការពារប្រឆាំងនឹងការបង្ខូចទ្រង់ទ្រាយ បន្ទាប់ពីស៊ុមត្រូវបានបង្កើតដោយការបំប្លែងពួកវាទៅជាចំណុច 3D ដែលបន្ទាប់មកត្រូវបានបញ្ជូនត្រឡប់ទៅប្រព័ន្ធវិញសម្រាប់ការប្រៀបធៀប។ រង្វិលជុំមតិកែលម្អនេះធានានូវស្ថេរភាពធរណីមាត្រ ទោះបីជាមានកំហុសកើតឡើងជាបន្តបន្ទាប់ក៏ដោយ។

វិធីសាស្ត្រនេះរក្សាវីដេអូដែលស៊ីសង្វាក់គ្នារយៈពេលពីរបីនាទី ប៉ុន្តែតស៊ូជាមួយចលនាកាមេរ៉ាយូរ ឬស្មុគស្មាញ ជាពិសេសការបង្វិល 360°។

Tencent បានបណ្តុះបណ្តាល Voyager លើឈុតវីដេអូជាង 100,000 រួមទាំងវីដេអូជីវិតពិត និងឈុតឆាកដែលបង្កើតឡើងដោយ Unreal Engine ។ សំណុំទិន្នន័យខ្នាតធំនេះបានបង្រៀនប្រព័ន្ធពីរបៀបដែលកាមេរ៉ាជាធម្មតាផ្លាស់ទីក្នុងបរិយាកាសបីវិមាត្រ។ ដំណើរការដោយស្វ័យប្រវត្តិដាច់ដោយឡែកមួយបានបង្កើតការបញ្ចូលការបណ្តុះបណ្តាលដោយការស្កែនឃ្លីបវីដេអូ ដើម្បីគណនាជម្រៅសម្រាប់ស៊ុមនីមួយៗ ដោយលុបបំបាត់តម្រូវការក្នុងការដាក់ស្លាកទិន្នន័យដោយដៃ។

ប្រព័ន្ធនេះត្រូវការថាមពលកុំព្យូទ័រយ៉ាងច្រើន។ ការដំណើរការម៉ូដែលក្នុងកម្រិតភាពច្បាស់ 540p ទាមទារអង្គចងចាំ GPU យ៉ាងតិច 60GB ជាមួយនឹង 80GB ដែលត្រូវបានណែនាំសម្រាប់លទ្ធផលល្អបំផុត។ ក្រុមហ៊ុន Tencent បានប្រកាសទម្ងន់ម៉ូដែលនៅលើ Hugging Face ហើយគាំទ្រទាំងការដំឡើង GPU តែមួយ និងពហុ GPU ។ ដោយប្រើវេទិកា xDiT ក្រុមហ៊ុននិយាយថាការអនុវត្តធ្វើមាត្រដ្ឋានផ្ដេក - ប្រព័ន្ធដែលមាន GPU ចំនួនប្រាំបីអាចដំណើរការវីដេអូបានលឿនជាងដំណើរការលើ GPU តែមួយ 6.7 ដង។

ម៉ូដែលវីដេអូទូទៅភាគច្រើនបង្កើតស៊ុមនីមួយៗដោយមិនអនុវត្តភាពស៊ីសង្វាក់ធរណីមាត្រ។ ឧទាហរណ៍ Sora របស់ OpenAI ផ្តល់អាទិភាពដល់ភាពជាក់ស្តែងដែលមើលឃើញជាងភាពស៊ីសង្វាក់គ្នា 3D ។ Voyager ប្រើវិធីសាស្រ្តផ្សេងគ្នា ដោយរក្សាធរណីមាត្រស្អាតនៅទូទាំងស៊ុមតាមរយៈការផ្គូផ្គងគំរូផ្អែកលើមតិកែលម្អជាជាងការយល់ដឹងពេញលេញ 3D ។

នៅលើ WorldScore ដែលជាមាត្រដ្ឋានដែលត្រូវបានបង្កើតឡើងដោយអ្នកស្រាវជ្រាវនៅ Stanford ដើម្បីវាយតម្លៃប្រព័ន្ធបង្កើតពិភពលោក 3D Voyager ទទួលបានពិន្ទុ 77.62 ។ របាយការណ៍របស់ Tencent បានកត់សម្គាល់ថានេះគឺជាពិន្ទុខ្ពស់បំផុតក្នុងចំណោមម៉ូដែលដែលអាចប្រៀបធៀបបាន លើសពី WonderWorld's 72.69 និង CogVideoX-I2V's 62.15 ។ Voyager បានដំណើរការជាង WonderWorld ក្នុងភាពស៊ីសង្វាក់គ្នានៃរចនាប័ទ្ម និងគុណភាពប្រធានបទ ប៉ុន្តែបានធ្លាក់ចុះក្នុងការគ្រប់គ្រងកាមេរ៉ា។

ទោះបីជាមានពិន្ទុជោគជ័យក៏ដោយ ប្រព័ន្ធនេះភ្ជាប់មកជាមួយការព្រមានដ៏គួរឱ្យកត់សម្គាល់មួយ៖ ការរឹតបន្តឹងអាជ្ញាប័ណ្ណមួយចំនួន។ ដូចម៉ូដែលផ្សេងទៀតនៅក្នុងឈុត Hunyuan របស់ Tencent ដែរ Tencent ហាមមិនឱ្យប្រើ Voyager នៅក្នុងសហភាពអឺរ៉ុប ចក្រភពអង់គ្លេស ឬកូរ៉េខាងត្បូង។ ក្រុមហ៊ុនក៏ទាមទារកិច្ចព្រមព្រៀងបន្ថែមសម្រាប់ការដាក់ពង្រាយពាណិជ្ជកម្មដែលបម្រើអ្នកប្រើប្រាស់សកម្មប្រចាំខែច្រើនជាង 100 លាននាក់។

គុណភាពលទ្ធផលគឺជាជំហានឆ្ពោះទៅមុខដ៏ធំសម្រាប់បរិស្ថានដែលបង្កើតដោយ AI ។ ទោះជាយ៉ាងណាក៏ដោយ ការចំណាយលើការគណនាខ្ពស់ និងដែនកំណត់បច្ចុប្បន្ននៅក្នុងភាពស៊ីសង្វាក់គ្នានៃឈុតឆាកមានន័យថាវាអាចមានពេលខ្លះមុនពេលប្រព័ន្ធដូចជា Voyager អាចគាំទ្របទពិសោធន៍អន្តរកម្មពេញលេញ និងពេលវេលាជាក់ស្តែង។ សម្រាប់ពេលនេះ ប្រព័ន្ធនេះប្រហែលជាមានតម្លៃបំផុតសម្រាប់ការបង្កើតវីដេអូ និងការសាកល្បងដំណើរការបង្កើតឡើងវិញ 3D។
ប្រភព៖ https://khoahocdoisong.vn/mo-hinh-ai-bien-mot-buc-anh-duy-nhat-thanh-the-gioi-3d-post2149050727.html
Kommentar (0)