Masalah besar dengan Veo 3

Veo3 adalah model AI terbaru Google, yang diluncurkan pada akhir Mei, memungkinkan pengguna untuk membuat video berdasarkan perintah suara. Model ini telah menarik perhatian dari komunitas pembuat konten karena memungkinkan pembuatan video dengan suara dan dialog, fitur yang tidak tersedia di versi sebelumnya dari model Google, sehingga membuatnya lebih realistis.

Banyak pengguna memanfaatkan klip video Veo 3, hingga berdurasi 8 detik, untuk membuat iklan, video ASMR, trailer film fantasi, dan wawancara jalanan yang lucu.

Sutradara nominasi Oscar, Darren Aronofsky, menggunakan alat ini untuk membuat film pendek berjudul Ancestra. Pada konferensi pers, CEO Google DeepMind, Demis Hassabis, membandingkan Veo 3 dengan langkah "keluar dari era film bisu" dalam dunia perfilman.

Subtitle "Persistent" dari Veo 3

Namun, banyak pengguna menemukan bahwa alat ini tidak berfungsi seperti yang diharapkan. Saat membuat klip dengan dialog, Veo 3 sering kali secara otomatis menyisipkan subtitle yang tidak bermakna dan berantakan, bahkan ketika perintah tersebut dengan jelas menyatakan untuk tidak menambahkan subtitle.

Menghapus subtitle ini tidak mudah. Pengguna terpaksa membuat ulang klip tersebut, menghabiskan "token" yang berarti mengeluarkan lebih banyak uang di Google, atau menggunakan alat eksternal untuk menghapus subtitle, atau memangkas video untuk menghapus subtitle.

Veo 3 menghasilkan visual realistis dan dialog yang sesuai dengan gerakan bibir, tetapi teks terjemahannya tidak bermakna. Foto: Lesswrong .

Josh Woodward, wakil presiden Google Labs dan Gemini, memposting di X pada 9 Juni bahwa Google telah mengembangkan patch untuk mengurangi masalah spam. Namun lebih dari sebulan kemudian, pengguna terus melaporkan masalah ini di saluran Discord Google Labs, menunjukkan bahwa memperbaiki bug dalam model AI besar bukanlah hal yang mudah.

Seperti model pembuatan video AI Google sebelumnya, Veo 3 adalah model berbayar, mulai dari $249,99 per bulan. Untuk membuat video berdurasi 8 detik, pengguna memasukkan deskripsi ke Flow, Gemini, atau platform lain. Setiap pembuatan klip menggunakan Veo 3 membutuhkan setidaknya 20 kredit AI, dan pengguna dapat menambah kredit dengan harga $25 untuk mendapatkan 2.500 kredit.

Mona Weiss, seorang sutradara iklan, mengatakan bahwa membuat ulang rekaman untuk menghilangkan subtitle menjadi pengeluaran yang signifikan. “Jika Anda membuat adegan dengan dialog menggunakan Veo3, sekitar 40% dari hasilnya akan memiliki subtitle yang tidak berarti sehingga video tersebut tidak dapat digunakan,” katanya. “Biayanya sangat mahal untuk mendapatkan adegan yang Anda sukai, tetapi pada akhirnya adegan tersebut tidak dapat digunakan.”

Teks terjemahan yang tidak berm意义 sulit dihilangkan pada Veo 3. Foto: Technology Review .

Ketika Weiss melaporkan masalah tersebut ke Google Labs melalui Discord dengan harapan mendapatkan kembali kredit yang terbuang, tim dukungan mengarahkannya ke departemen dukungan resmi perusahaan. Mereka menawarkan pengembalian dana untuk biaya berlangganan Veo 3, tetapi tidak untuk kredit. Weiss menolak karena menerima pengembalian dana berarti kehilangan akses ke model tersebut.

Tim dukungan Google Labs di Discord menyatakan bahwa subtitle mungkin diaktifkan secara otomatis jika suara terdeteksi, dan mereka sedang berupaya memperbaiki bug ini.

Masalah ini berakar dari pendekatan Google.

Alasan Veo 3 secara otomatis menyisipkan subtitle berasal dari data yang digunakan untuk melatih model tersebut.

Meskipun Google belum merilis detail kategori data yang digunakan untuk melatih modelnya, kemungkinan besar data tersebut mencakup video dari platform seperti YouTube dan TikTok, yang banyak di antaranya berisi teks terjemahan (subtitle). Teks terjemahan ini disematkan langsung ke dalam bingkai video, sehingga sulit untuk dihapus sebelum digunakan sebagai data pelatihan, menurut Shuo Niu, seorang peneliti platform berbagi video dan AI di Clark University (Massachusetts, AS).

"Model teks-ke-video dilatih menggunakan pembelajaran penguatan untuk membuat konten yang meniru video buatan manusia, dan jika video tersebut memiliki teks terjemahan, model tersebut dapat 'mempelajari' bahwa menambahkan teks terjemahan membuat produk tersebut lebih mirip video buatan manusia," jelasnya.

Veo 3 terpengaruh oleh data pelatihan model dari video YouTube dan TikTok. Gambar: Mashable .

Seorang juru bicara Google mengatakan: “Kami terus meningkatkan kemampuan pembuatan video kami, terutama dalam hal teks, suara yang terdengar alami, dan audio yang tersinkronisasi sempurna. Kami mendorong pengguna untuk mencoba kembali perintah tersebut jika mereka menemukan hasilnya tidak konsisten dan memberikan umpan balik kepada kami melalui fitur suka atau tidak suka.”

Selain itu, alasan model ini mengabaikan instruksi seperti "Tidak ada subtitle" adalah karena perintah negatif (menginstruksikan AI untuk tidak melakukan sesuatu) umumnya kurang efektif daripada perintah positif, menurut Tuhin Chakrabarty, seorang peneliti sistem AI di Universitas Stony Brook.

Untuk menyelesaikan masalah ini sepenuhnya, Google harus memeriksa setiap frame dari semua video yang digunakan untuk melatih Veo 3, kemudian menghapus atau memberi label ulang video dengan subtitle sebelum melatih ulang model tersebut. Ini akan memakan waktu berminggu-minggu, tambah Chakrabarty.

Katerina Cizek, seorang pembuat film dokumenter dan direktur seni di MIT Open Documentary Lab, berpendapat bahwa masalah ini menunjukkan kesediaan Google untuk merilis produk yang belum sepenuhnya selesai.

"Google perlu menang," kata Cizek. "Mereka perlu menjadi yang pertama merilis alat yang dapat membuat audio yang sesuai dengan gerakan bibir. Dan itu lebih penting daripada memperbaiki masalah subtitle."

Sumber: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html