Vietnam.vn - Nền tảng quảng bá Việt Nam

Độc lập - Tự do - Hạnh phúc

Masalah Besar Veo 3

Model AI ini secara otomatis memasukkan omong kosong ke dalam video lebih dari sebulan setelah peluncurannya, menunjukkan bahwa Google bersedia merilis produk yang belum selesai untuk menunjukkan kemampuan AI-nya.

ZNewsZNews19/07/2025

Veo3 adalah model AI terbaru Google yang diluncurkan akhir Mei, memungkinkannya menghasilkan video berdasarkan perintah. Model ini telah menarik perhatian komunitas kreator konten karena memungkinkan pembuatan video dengan suara dan dialog, sebuah fitur yang tidak tersedia pada versi model Google sebelumnya, sehingga membuatnya lebih realistis.

Banyak pengguna menggunakan video Veo 3, yang berdurasi hingga 8 detik, untuk membuat iklan, video ASMR, trailer film fantasi, dan wawancara jalanan yang lucu.

Sutradara nominasi Oscar, Darren Aronofsky, menggunakan perangkat tersebut untuk membuat film pendek berjudul Ancestra. Dalam konferensi pers, CEO Google DeepMind, Demis Hassabis, membandingkan Veo 3 dengan langkah menjauh dari era film bisu.

Subtitel "Persistent" dari Veo 3

Namun, banyak pengguna mendapati bahwa alat ini tidak berfungsi seperti yang diharapkan. Saat membuat klip dengan dialog, Veo 3 sering kali secara otomatis memasukkan subtitel yang tidak bermakna dan berantakan, meskipun perintahnya secara eksplisit menyatakan untuk tidak menambahkan subtitel.

Menghapus subtitle ini tidaklah mudah. ​​Pengguna terpaksa membuat ulang klip, mengeluarkan "token" yang berarti lebih banyak uang untuk Google, atau menggunakan alat eksternal untuk menghapus subtitle, atau memotong video untuk menghilangkan subtitle.

video AI anh 1

Veo 3 menghasilkan gambar yang tampak nyata, dialognya sesuai dengan gerakan mulut, tetapi subtitelnya tidak bermakna. Foto: Lesswrong .

Josh Woodward, wakil presiden Google Labs dan Gemini, mengunggah di X pada 9 Juni bahwa Google telah mengembangkan patch untuk mengurangi spam. Namun, lebih dari sebulan kemudian, pengguna terus melaporkan masalah tersebut di kanal Discord Google Labs, menunjukkan bahwa memperbaiki bug dalam model AI skala besar tidaklah mudah.

Seperti model AI pembuat video Google sebelumnya, Veo 3 adalah model berbayar, mulai dari $249,99 per bulan. Untuk membuat video berdurasi 8 detik, pengguna memasukkan deskripsi ke Flow, Gemini, atau platform lainnya. Setiap klip yang dibuat dengan Veo 3 berharga minimal 20 kredit AI, dan pengguna dapat mengisi ulang sebesar $25 untuk 2.500 kredit.

Mona Weiss, seorang direktur komersial, mengatakan bahwa membuat ulang rekaman untuk menghilangkan subtitel menjadi pengeluaran yang signifikan. "Jika Anda membuat adegan percakapan dengan Veo3, sekitar 40% output akan memiliki subtitel yang tidak masuk akal yang membuat video tidak dapat digunakan," ujarnya. "Butuh banyak uang untuk mendapatkan adegan yang Anda sukai, tetapi tidak dapat digunakan."

video AI anh 2

Subtitel yang tidak masuk akal sulit dihapus di Veo 3. Foto: Technology Review .

Ketika Weiss melaporkan masalah ini ke Google Labs melalui Discord dengan harapan mendapatkan pengembalian dana untuk kredit yang terbuang, tim dukungan mengarahkannya ke departemen dukungan resmi perusahaan. Mereka menawarkan pengembalian biaya langganan Veo 3, tetapi bukan kreditnya. Weiss menolak karena menerima pengembalian dana berarti kehilangan akses ke model tersebut.

Tim dukungan Discord Google Labs mengatakan bahwa teks dapat diaktifkan secara otomatis jika ucapan terdeteksi, dan mereka sedang berupaya memperbaikinya.

Masalah dengan pendekatan Google

Alasan Veo 3 secara otomatis menyisipkan teks berasal dari data yang digunakan untuk melatih model.

Meskipun Google tidak mengungkapkan kategori data yang digunakan untuk melatih model tersebut, kemungkinan besar data tersebut mencakup video dari YouTube dan TikTok, yang banyak di antaranya memiliki teks yang disematkan langsung ke dalam bingkai, sehingga sulit dihapus sebelum digunakan sebagai data pelatihan, menurut Shuo Niu, seorang peneliti pada platform berbagi video dan AI di Universitas Clark di Massachusetts.

“Model teks-ke-video dilatih menggunakan pembelajaran penguatan untuk menghasilkan konten yang meniru video buatan manusia, dan jika video tersebut memiliki subtitel, model tersebut dapat ‘mempelajari’ bahwa penambahan subtitel akan membuat produk tersebut lebih mirip dengan video buatan manusia,” jelasnya.

video AI anh 3

Veo 3 dipengaruhi oleh data pelatihan model dari video YouTube dan TikTok. Foto: Mashable .

"Kami terus meningkatkan kemampuan pembuatan video, terutama terkait teks, ucapan alami, dan audio yang tersinkronisasi sempurna," ujar juru bicara Google. "Kami mendorong pengguna untuk mencoba kembali perintah mereka jika melihat hasil yang tidak konsisten dan memberikan masukan dengan menyukai atau tidak menyukai hasilnya."

Selain itu, alasan model mengabaikan instruksi seperti "Tidak ada subtitle" adalah karena pernyataan negatif (meminta AI untuk tidak melakukan sesuatu) seringkali kurang efektif dibandingkan perintah positif, menurut Tuhin Chakrabarty, seorang peneliti sistem AI di Universitas Stony Brook.

Untuk memperbaiki masalah ini sepenuhnya, Google harus memeriksa setiap bingkai dari semua video yang digunakan untuk melatih Veo 3, lalu menghapus atau memberi label ulang video dengan teks sebelum melatih ulang model, yang akan memakan waktu berminggu-minggu, tambah Chakrabarty.

Katerina Cizek, seorang pembuat film dokumenter dan direktur seni di MIT Open Documentary Lab, mengatakan masalah ini menunjukkan Google masih bersedia merilis produk yang belum selesai.

"Google butuh kemenangan," kata Cizek. "Mereka harus menjadi yang pertama merilis alat yang bisa meniru suara bibir mereka. Dan itu lebih penting daripada memperbaiki masalah teks."

Sumber: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html


Komentar (0)

No data
No data

Warisan

Angka

Bisnis

No videos available

Berita

Sistem Politik

Lokal

Produk