Китайська компанія запускає штучний інтелект для створення фальшивих відео, які виглядають точно як справжні

(Ден Трі) - ByteDance, материнська компанія TikTok, здивувала всіх, представивши інструмент штучного інтелекту, здатний створювати відео з реалістичним контентом.

ByteDance, технологічна компанія, що стоїть за соціальною мережею TikTok, щойно представила нову модель штучного інтелекту (ШІ) під назвою OmniHuman-1, здатну створювати реалістичні, яскраві відео.

ByteDance заявила, що OmniHuman-1 базується на технології діпфейків, що дозволяє йому створювати відео з надзвичайно плавними рухами, і його дуже важко розпізнати як продукт штучного інтелекту. ByteDance впевнено стверджує, що їхній інструмент штучного інтелекту може створювати продукти з вищою якістю порівняно з іншими існуючими інструментами для створення відео на основі штучного інтелекту.

Відео виступу Альберта Ейнштейна, створене OmniHuman-1 на основі зображення вченого (Відео: ByteDance).

За словами дослідників ByteDance, OmniHuman-1 потребує лише одного зображення та звуку як зразка, наприклад, голосу випадкової людини або співочого голосу. На основі цих даних двигун штучного інтелекту може створювати відео будь-якої тривалості з голосом або співочим голосом, ідентичним аудіо-зразку.

OmniHuman-1 також може редагувати та змінювати існуючі відео, щоб змінити вміст оригінального відео.

Крім того, OmniHuman-1 також дозволяє користувачам створювати нові відео з багатьма візуальними та аудіостилями, такими як анімовані відео, кінематографічні або реалістичні відео.

Відео створено OmniHuman-1 на запит користувача (Відео: ByteDance).

Користувачам потрібно лише вказати вимоги до співвідношення сторін, співвідношення тіла (портрет, половина тіла, повне тіло або все в одному), цей інструмент штучного інтелекту може створювати відео з найвищою реалістичністю, включаючи рухи, освітлення, деталі оточення...

ByteDance ще офіційно не випустила OmniHuman-1 для публіки, але компанія поділилася зразками відео, створеними за допомогою цього інструменту.

23-секундне відео було створено на основі зображення Альберта Ейнштейна, на якому відомий вчений виступав з промовою, демонструючи реалістичні рухи обличчя та губ.

Кілька інших коротких відео, створених OmniHuman-1, показують людей, які демонструють реалістичні жести та вирази обличчя.

Відео з презентаціями персонажів, створене OmniHuman-1 зі статичних зображень (Відео: ByteDance).

Демонстраційні відео можливостей OmniHuman-1 вразили онлайн-спільноту та технічну спільноту, багато хто визнав, що це найреалістичніше підроблене відео, яке вони коли-небудь бачили.

Дослідники ByteDance заявили, що створили модель штучного інтелекту з можливістю змішувати дані із зображень, відео та звуків для створення реалістичних відео з пропорціями обличчя, тілом, виразами обличчя, діями... максимально схожими на людські.

Дослідницька група заявила, що відео, створені штучним інтелектом, мають природні обличчя, рухи голови, жести... які відповідають навколишнім звукам і сценам, допомагаючи підвищити «реалістичність» відео.

ByteDance ще не розкрила, коли OmniHuman-1 буде доступний користувачам.

Відео, створене OmniHuman-1 із зображень, де пейзаж за вікном поїзда змінюється так, ніби він реальний (Відео: ByteDance).

Поява OmniHuman-1 демонструє неймовірні можливості інструментів штучного інтелекту, що надходять з Китаю, але багато людей стурбовані тим, що OmniHuman-1 може бути використаний у зловмисних цілях, таких як створення фальшивих відео знаменитостей для поширення неправдивої інформації, шахрайство або навіть створення фальшивих порнографічних відео для шантажу.

Гонка за розробкою штучного інтелекту між США та Китаєм стає все більш запеклою, оскільки дві наддержави постійно впроваджують інструменти штучного інтелекту з покращеними функціями, щоб перемагати своїх опонентів.

Кілька днів тому OpenAI також інтегрував нову функцію в ChatGPT, що дозволяє інструменту створювати звіти з величезної кількості даних лише за кілька хвилин, що зайняло б у людей години.

Діпфейк — це технологія штучного інтелекту, яка використовує методи синтезу зображень когось, щоб поєднати та накласти зображення обличчя на відео або зображення іншої людини.

Діпфейк пройде «процес навчання», на основі вхідних даних створюючи моделі та вибираючи відповідні алгоритми для безперервної обробки та навчання на основі цих моделей. Після періоду «навчання» діпфейк може об’єднувати обличчя з високою точністю, яку важко розпізнати неозброєним оком.

Джерело: https://dantri.com.vn/suc-manh-so/cong-ty-trung-quoc-ra-mat-ai-tao-video-gia-mao-giong-het-nhu-that-20250206125927906.htm