
Veo3 ialah model AI terbaharu Google yang dilancarkan pada penghujung Mei, membolehkannya menjana video berdasarkan arahan. Model ini telah menarik perhatian komuniti penciptaan kandungan kerana ia membolehkannya mencipta video dengan bunyi dan dialog, ciri yang tidak tersedia dalam versi model Google sebelum ini, sekali gus menjadikannya lebih realistik.
Ramai pengguna menggunakan video Veo 3, yang panjangnya sehingga 8 saat, untuk membuat iklan, video ASMR, treler filem fantasi dan temu bual jalanan yang lucu.
Pengarah yang dicalonkan Oscar Darren Aronofsky menggunakan alat itu untuk mencipta filem pendek yang dipanggil Ancestra. Semasa sidang akhbar, Ketua Pegawai Eksekutif Google DeepMind Demis Hassabis membandingkan Veo 3 untuk beralih daripada era senyap di pawagam.
Sari kata "Persistent" daripada Veo 3
Walau bagaimanapun, ramai pengguna mendapati bahawa alat itu tidak berfungsi seperti yang diharapkan. Apabila mencipta klip dengan dialog, Veo 3 selalunya secara automatik memasukkan sari kata yang tidak bermakna dan berantakan, walaupun apabila arahan menyatakan secara jelas untuk tidak menambah sari kata.
Mengalih keluar sari kata ini bukan mudah. Pengguna terpaksa mencipta semula klip, membelanjakan "token" yang bermaksud membelanjakan lebih banyak wang untuk Google, atau menggunakan alat luaran untuk mengalih keluar sari kata, atau memangkas video untuk mengalih keluar sari kata.
![]() |
Veo 3 menghasilkan imej seperti hidup, dialog sepadan dengan pergerakan mulut, tetapi sari kata tidak bermakna. Foto: Kurang salah . |
Josh Woodward, naib presiden Google Labs dan Gemini, menyiarkan pada X pada 9 Jun bahawa Google telah membangunkan patch untuk mengurangkan spam. Tetapi lebih sebulan kemudian, pengguna terus melaporkan isu itu di saluran Google Labs Discord, menunjukkan bahawa membetulkan pepijat dalam model AI yang besar bukanlah mudah.
Seperti model AI penjanaan video Google sebelum ini, Veo 3 ialah model berbayar, bermula pada $249.99 sebulan. Untuk membuat video 8 saat, pengguna memasukkan penerangan ke dalam Flow, Gemini atau platform lain. Setiap klip yang dibuat dengan Veo 3 berharga sekurang-kurangnya 20 kredit AI, dan pengguna boleh menambah 2,500 kredit untuk $25 .
Mona Weiss, pengarah komersial, berkata mencipta semula rakaman untuk mengalih keluar sari kata menjadi perbelanjaan yang besar. "Jika anda mencipta adegan pertuturan dengan Veo3, kira-kira 40% daripada output akan mempunyai sari kata omong kosong yang menjadikan video tidak boleh digunakan," katanya. "Memang banyak wang untuk mendapatkan adegan yang anda suka, tetapi akhirnya ia tidak boleh digunakan."
![]() |
Sari kata yang tidak bermakna sukar untuk dialih keluar pada Veo 3. Foto: Kajian Teknologi . |
Apabila Weiss melaporkan isu itu kepada Google Labs melalui Discord dengan harapan mendapat bayaran balik untuk kredit yang terbuang, pasukan sokongan memindahkannya ke jabatan sokongan rasmi syarikat. Mereka menawarkan untuk membayar balik kos langganan Veo 3, tetapi bukan kredit. Weiss menolak kerana menerima bayaran balik bermakna kehilangan akses kepada model itu.
Pasukan sokongan Discord Google Labs mengatakan kapsyen boleh didayakan secara automatik jika pertuturan dikesan dan mereka sedang berusaha untuk membetulkan.
Masalah dengan pendekatan Google
Sebab Veo 3 memasukkan sari kata secara automatik datang daripada data model yang dilatih.
Walaupun Google tidak mendedahkan butiran kategori data yang digunakan untuk melatih model itu, ia berkemungkinan termasuk video daripada YouTube dan TikTok, kebanyakannya mempunyai kapsyen yang dibenamkan terus ke dalam bingkai, menjadikannya sukar untuk dialih keluar sebelum digunakan sebagai data latihan model, menurut Shuo Niu, seorang penyelidik pada platform perkongsian video dan AI di Universiti Clark (Massachusetts, Amerika Syarikat).
"Model teks-ke-video dilatih menggunakan pembelajaran pengukuhan untuk menjana kandungan yang meniru video yang dijana oleh manusia, dan jika video tersebut mempunyai sari kata, model itu boleh 'mempelajari' bahawa menambah sari kata menjadikan produk itu lebih seperti video yang dihasilkan oleh manusia," jelasnya.
![]() |
Veo 3 dipengaruhi oleh data latihan model daripada video YouTube dan TikTok. Foto: Mashable . |
"Kami sentiasa meningkatkan keupayaan pembuatan video kami, terutamanya di sekitar teks, pertuturan semula jadi dan audio yang disegerakkan dengan sempurna," kata jurucakap Google. "Kami menggalakkan pengguna untuk mencuba semula arahan mereka jika mereka melihat hasil yang tidak konsisten dan memberi kami maklum balas dengan menyukai atau tidak menyukai keputusan itu."
Selain itu, sebab model mengabaikan arahan seperti "Tiada sari kata" adalah kerana kenyataan negatif (meminta AI untuk tidak melakukan sesuatu) selalunya kurang berkesan daripada gesaan positif, menurut Tuhin Chakrabarty, seorang penyelidik dalam sistem AI di Stony Brook University.
Untuk menyelesaikan masalah sepenuhnya, Google perlu memeriksa setiap bingkai semua video yang digunakan untuk melatih Veo 3, kemudian mengalih keluar atau melabel semula video yang diberi kapsyen sebelum melatih semula model itu, yang akan mengambil masa beberapa minggu, tambah Chakrabarty.
Katerina Cizek, pembuat filem dokumentari dan pengarah seni di MIT Open Documentary Lab, berkata isu itu menunjukkan Google masih bersedia untuk mengeluarkan produk yang masih belum selesai.
"Google memerlukan kemenangan," kata Cizek. "Mereka perlu menjadi yang pertama mengeluarkan alat yang boleh menyamai bunyi bibir. Dan itu lebih penting daripada menyelesaikan masalah kapsyen."
Sumber: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html
Komen (0)