
Veo3 ialah model AI terbaharu Google, yang dilancarkan pada akhir Mei, yang membolehkan pengguna mencipta video berdasarkan arahan suara. Model ini telah menarik perhatian komuniti penciptaan kandungan kerana ia membolehkan penciptaan video dengan bunyi dan dialog, satu ciri yang tidak tersedia dalam versi model Google sebelumnya, sekali gus menjadikannya lebih realistik.
Ramai pengguna menggunakan klip video Veo 3, sehingga 8 saat, untuk mencipta iklan, video ASMR, treler filem fantasi dan temu bual jalanan yang lucu.
Pengarah yang dicalonkan untuk anugerah Oscar, Darren Aronofsky, menggunakan alat tersebut untuk mencipta filem pendek bertajuk Ancestra. Pada sidang akhbar itu, Ketua Pegawai Eksekutif Google DeepMind, Demis Hassabis, membandingkan Veo 3 dengan satu langkah "keluar daripada era filem senyap" dalam pawagam.
Sarikata "Berterusan" daripada Veo 3
Walau bagaimanapun, ramai pengguna mendapati bahawa alat ini tidak berfungsi seperti yang dijangkakan. Apabila mencipta klip dengan dialog, Veo 3 sering memasukkan sari kata yang tidak bermakna dan bercampur-aduk secara automatik, walaupun arahan tersebut dengan jelas menyatakan untuk tidak menambah sari kata.
Mengalih keluar sari kata ini bukanlah mudah. Pengguna terpaksa mencipta semula klip tersebut, membelanjakan "token" yang bermaksud membelanjakan lebih banyak wang untuk Google, atau menggunakan alat luaran untuk mengalih keluar sari kata, atau memangkas video untuk mengalih keluar sari kata.
![]() |
Veo 3 menghasilkan visual dan dialog yang realistik yang sepadan dengan pergerakan bibir, tetapi sari kata tidak bermakna. Foto: Lesswrong . |
Josh Woodward, naib presiden Google Labs dan Gemini, telah menyiarkan di X pada 9 Jun bahawa Google telah membangunkan tampalan untuk mengurangkan isu spam. Tetapi lebih sebulan kemudian, pengguna terus melaporkan masalah ini di saluran Discord Google Labs, menunjukkan bahawa membetulkan pepijat dalam model AI yang besar bukanlah mudah.
Seperti model penciptaan video AI Google sebelum ini, Veo 3 ialah model berbayar, bermula dari $249.99 sebulan. Untuk mencipta video 8 saat, pengguna memasukkan penerangan ke dalam Flow, Gemini atau platform lain. Setiap penciptaan klip menggunakan Veo 3 berharga sekurang-kurangnya 20 kredit AI dan pengguna boleh menambah nilai sebanyak $25 untuk 2,500 kredit.
Mona Weiss, seorang pengarah komersial, berkata penghasilan semula rakaman untuk mengalih keluar sari kata menjadi satu perbelanjaan yang besar. “Jika anda mencipta babak dengan dialog menggunakan Veo3, kira-kira 40% daripada output akan mempunyai sari kata yang tidak bermakna yang menjadikan video itu tidak boleh digunakan,” katanya. “Ia memerlukan banyak wang untuk mendapatkan babak yang anda suka, tetapi akhirnya ia tidak boleh digunakan.”
![]() |
Sari kata yang tidak bermakna sukar untuk dialih keluar pada Veo 3. Foto: Technology Review . |
Apabila Weiss melaporkan isu tersebut kepada Google Labs melalui Discord dengan harapan dapat mendapatkan kembali kreditnya yang terbuang, pasukan sokongan merujuknya kepada jabatan sokongan rasmi syarikat. Mereka menawarkan bayaran balik untuk yuran langganan Veo 3, tetapi bukan untuk kredit tersebut. Weiss menolak kerana menerima bayaran balik itu bermakna kehilangan akses kepada model tersebut.
Pasukan sokongan Google Labs Discord menyatakan bahawa sari kata mungkin diaktifkan secara automatik jika suara dikesan, dan mereka sedang berusaha untuk membetulkan pepijat ini.
Masalahnya berpunca daripada pendekatan Google.
Sebab Veo 3 memasukkan sari kata secara automatik berpunca daripada data yang dilatih untuk model tersebut.
Walaupun Google belum mengeluarkan butiran tentang kategori data yang digunakan untuk melatih modelnya, ia mungkin termasuk video daripada platform seperti YouTube dan TikTok, yang kebanyakannya mengandungi sari kata. Sari kata ini dibenamkan terus ke dalam bingkai video, menjadikannya sukar untuk dialih keluar sebelum digunakan sebagai data latihan, menurut Shuo Niu, seorang penyelidik mengenai platform perkongsian video dan AI di Universiti Clark (Massachusetts, Amerika Syarikat).
"Model teks-ke-video dilatih menggunakan pembelajaran peneguhan untuk mencipta kandungan yang meniru video buatan manusia, dan jika video tersebut mempunyai sari kata, model tersebut boleh 'mempelajari' bahawa menambah sari kata menjadikan produk lebih seperti video buatan manusia," jelasnya.
![]() |
Veo 3 terjejas oleh data latihan model daripada YouTube dan video TikTok. Imej: Mashable . |
Jurucakap Google berkata: “Kami sentiasa meningkatkan keupayaan penciptaan video kami, terutamanya dari segi teks, suara yang kedengaran semula jadi dan audio yang disegerakkan dengan sempurna. Kami menggalakkan pengguna untuk mencuba semula arahan tersebut jika mereka mendapati keputusannya tidak konsisten dan memberikan maklum balas kepada kami melalui ciri suka atau tidak suka.”
Tambahan pula, sebab model ini mengabaikan gesaan seperti "Tiada sari kata" adalah kerana pernyataan negatif (mengarahkan AI untuk tidak melakukan sesuatu) secara amnya kurang berkesan daripada gesaan afirmatif, menurut Tuhin Chakrabarty, seorang penyelidik dalam sistem AI di Universiti Stony Brook.
Untuk menyelesaikan isu ini sepenuhnya, Google perlu memeriksa setiap bingkai semua video yang digunakan untuk melatih Veo 3, kemudian mengalih keluar atau melabel semula video dengan sari kata sebelum melatih semula model tersebut. Ini akan mengambil masa berminggu-minggu, tambah Chakrabarty.
Katerina Cizek, seorang pembikin filem dokumentari dan pengarah seni di Makmal Dokumentari Terbuka MIT, berhujah bahawa isu ini menunjukkan kesediaan Google untuk mengeluarkan produk yang belum siap sepenuhnya.
"Google memerlukan kemenangan," kata Cizek. "Mereka perlu menjadi yang pertama mengeluarkan alat yang boleh menghasilkan audio yang sepadan dengan pergerakan bibir. Dan itu lebih penting daripada menyelesaikan isu sari kata."
Sumber: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









Komen (0)