
Провідна китайська технологічна компанія Tencent щойно анонсувала нову модель штучного інтелекту, здатну створювати відео , що імітують рух у тривимірному просторі, використовуючи лише одне вхідне зображення.

Система під назвою HunyuanWorld-Voyager генерує короткі кліпи, що містять інформацію про глибину, яку потім можна реконструювати в 3D-матрицю, відкриваючи нові можливості для творців контенту, хоча вона й не повністю взаємодіє з 3D-моделями.

HunyuanWorld-Voyager — це модель з відкритим зважуванням, яка генерує послідовності з 49 кадрів — приблизно дві секунди відео — але користувачі можуть поєднувати кліпи разом, щоб створювати кілька хвилин безперервного відеоматеріалу.

Ars Technica зазначає, що коли глядач змінює перспективу віртуальної камери, об'єкти зберігають своє відносне положення, а середовище поводиться так, ніби воно повністю тривимірне. Хоча кінцевий результат все ще є двовимірним відео, Tencent каже, що супровідні дані глибини дозволяють проводити 3D-реконструкцію без необхідності використання традиційних методів моделювання.

Voyager працює, поєднуючи вхідні зображення з визначеними користувачем траєкторіями камери. Користувач визначає рухи, такі як панорамування, нахил або переміщення по сцені, а система одночасно генерує кольорове відео та карту глибини. Коли об'єкт з'являється на відео, вихідні дані глибини записують його відносну відстань до правильного місця розташування.

Вторинний компонент, який у технічній статті Tencent називається світовим кешем, зберігає 3D-хмари точок, коли система генерує нові кадри.

З кожним рухом камери Voyager проектує ці точки назад у два виміри та використовує їх як орієнтир. Цей процес гарантує, що наступні кадри відповідають попередньо згенерованому контенту, допомагаючи підтримувати просторову узгодженість.

Ця модель захищає від спотворень після створення кадрів, перетворюючи їх на 3D-точки, які потім передаються системі для порівняння. Цей цикл зворотного зв'язку забезпечує геометричну стабільність, навіть якщо помилки накопичуються з часом.

Цей метод підтримує зв'язне відео протягом кількох хвилин, але має труднощі з довшими або складнішими рухами камери, особливо з обертаннями на 360°.

Tencent навчив Voyager на понад 100 000 відеокліпів, включаючи реальні кадри та сцени, створені за допомогою Unreal Engine. Цей великомасштабний набір даних навчив систему, як камери зазвичай рухаються в тривимірному середовищі. Окремий автоматизований процес генерував навчальні вхідні дані шляхом сканування відеокліпів для розрахунку глибини для кожного кадру, що усуває необхідність ручного маркування даних.

Система вимагає величезної обчислювальної потужності. Для запуску моделі з роздільною здатністю 540p потрібно щонайменше 60 ГБ пам'яті графічного процесора, а для оптимальних результатів рекомендується 80 ГБ. Tencent оголосила про вагу моделі в Hugging Face та підтримує як одно-, так і багатографічні конфігурації. Компанія стверджує, що використання платформи xDiT дозволяє масштабувати продуктивність горизонтально — система з вісьмома графічними процесорами може обробляти відеоматеріали приблизно в 6,7 раза швидше, ніж робота на одному графічному процесорі.

Більшість генеративних відеомоделей генерують кожен кадр без застосування геометричної узгодженості. Наприклад, Sora від OpenAI надає пріоритет візуальному реалізму над 3D-узгодженістю. Voyager використовує інший підхід, підтримуючи чисту геометрію в кадрах за допомогою зіставлення шаблонів на основі зворотного зв'язку, а не повного 3D-розуміння.

За шкалою WorldScore, розробленою дослідниками Стенфорда для оцінки систем генерації 3D-світів, Voyager набрав 77,62 бала. У звіті Tencent зазначається, що це найвищий бал серед порівнянних моделей, який перевершує 72,69 бала у WonderWorld та 62,15 бала у CogVideoX-I2V. Voyager перевершив WonderWorld за стилістичною узгодженістю та суб'єктивною якістю, але поступався в управлінні камерою.

Незважаючи на багатообіцяючі результати, система має помітний недолік: деякі ліцензійні обмеження. Як і інші моделі з пакету Hunyuan від Tencent, Tencent забороняє використання Voyager у Європейському Союзі, Великій Британії чи Південній Кореї. Компанія також вимагає додаткових угод для комерційного розгортання, яке обслуговує понад 100 мільйонів активних користувачів щомісяця.

Якість виводу – це величезний крок вперед для середовищ, створених штучним інтелектом. Однак високі обчислювальні витрати та поточні обмеження в узгодженості сцен означають, що може пройти деякий час, перш ніж такі системи, як Voyager, зможуть підтримувати повністю інтерактивний досвід у реальному часі. Наразі система, ймовірно, є найбільш цінною для створення відео та експериментальних робочих процесів 3D-реконструкції.
Джерело: https://khoahocdoisong.vn/mo-hinh-ai-bien-mot-buc-anh-duy-nhat-thanh-the-gioi-3d-post2149050727.html
Коментар (0)