ปัญหาใหญ่ของ Veo 3

โมเดล AI นี้กำลังแทรกคำบรรยายที่ยุ่งเหยิงและไร้ความหมายลงในวิดีโอโดยอัตโนมัติ แม้จะผ่านมาแล้วกว่าหนึ่งเดือนนับตั้งแต่เปิดตัว สถานการณ์นี้แสดงให้เห็นว่า Google เต็มใจที่จะปล่อยผลิตภัณฑ์ที่ยังไม่เสร็จสมบูรณ์ออกมาเพื่อแสดงให้เห็นถึงความสามารถด้าน AI ของตน

ZNews•19/07/2025

Veo3 คือโมเดล AI รุ่นล่าสุดของ Google ที่เปิดตัวเมื่อปลายเดือนพฤษภาคม ช่วยให้ผู้ใช้สร้าง วิดีโอ โดยใช้คำสั่งเสียง โมเดลนี้ดึงดูดความสนใจจากชุมชนผู้สร้างคอนเทนต์ เนื่องจากช่วยให้สร้างวิดีโอที่มีเสียงและบทสนทนาได้ ซึ่งเป็นคุณสมบัติที่ไม่มีในเวอร์ชันก่อนหน้าของโมเดล Google ทำให้วิดีโอมีความสมจริงมากขึ้น

ผู้ใช้จำนวนมากใช้คลิปวิดีโอ Veo 3 ที่มีความยาวไม่เกิน 8 วินาที ในการสร้างโฆษณา วิดีโอ ASMR ตัวอย่างภาพยนตร์แฟนตาซี และบทสัมภาษณ์ตลกๆ บนท้องถนน

ดาร์เรน อโรนอฟสกี ผู้กำกับที่ได้รับการเสนอชื่อเข้าชิงรางวัลออสการ์ ใช้เครื่องมือนี้สร้างภาพยนตร์สั้นเรื่อง Ancestra ในงานแถลงข่าว เดมิส ฮัสซาบิส ซีอีโอของ Google DeepMind เปรียบเทียบ Veo 3 ว่าเป็นการก้าว "ออกจากยุคภาพยนตร์เงียบ" ในวงการภาพยนตร์

คำบรรยาย "แบบต่อเนื่อง" จาก Veo 3

อย่างไรก็ตาม ผู้ใช้หลายคนพบว่าเครื่องมือนี้ไม่ได้ทำงานอย่างที่คาดหวัง เมื่อสร้างคลิปที่มีบทสนทนา Veo 3 มักจะแทรกคำบรรยายที่ไม่มีความหมายและสับสนโดยอัตโนมัติ แม้ว่าคำสั่งจะระบุไว้อย่างชัดเจนว่าไม่ต้องเพิ่มคำบรรยายก็ตาม

การลบคำบรรยายเหล่านี้ไม่ใช่เรื่องง่าย ผู้ใช้จำเป็นต้องสร้างคลิปใหม่ ซึ่งหมายถึงการใช้ "โทเค็น" ซึ่งหมายความว่าต้องเสียเงินเพิ่มให้กับ Google หรือใช้เครื่องมือภายนอกเพื่อลบคำบรรยาย หรือตัดต่อวิดีโอเพื่อลบคำบรรยายออก

Veo 3 สร้างภาพและบทสนทนาที่สมจริงตรงกับการขยับริมฝีปาก แต่คำบรรยายใต้ภาพนั้นไร้ความหมาย ภาพ: Lesswrong

Josh Woodward รองประธานของ Google Labs และ Gemini โพสต์บน X เมื่อวันที่ 9 มิถุนายนว่า Google ได้พัฒนาแพทช์เพื่อลดปัญหาการส่งอีเมลสแปมแล้ว แต่หลังจากนั้นกว่าหนึ่งเดือน ผู้ใช้ยังคงรายงานปัญหานี้ในช่อง Discord ของ Google Labs ซึ่งแสดงให้เห็นว่าการแก้ไขข้อบกพร่องในโมเดล AI ขนาดใหญ่นั้นไม่ใช่เรื่องง่าย

เช่นเดียวกับโมเดลการสร้างวิดีโอด้วย AI รุ่นก่อนๆ ของ Google, Veo 3 เป็นโมเดลแบบเสียค่าใช้จ่าย โดยเริ่มต้นที่ 249.99 ดอลลาร์ ต่อเดือน ในการสร้างวิดีโอความยาว 8 วินาที ผู้ใช้เพียงแค่ป้อนคำอธิบายลงใน Flow, Gemini หรือแพลตฟอร์มอื่นๆ การสร้างคลิปแต่ละครั้งโดยใช้ Veo 3 จะมีค่าใช้จ่ายอย่างน้อย 20 เครดิต AI และผู้ใช้สามารถเติมเงิน 25 ดอลลาร์ เพื่อรับ 2,500 เครดิตได้

โมนา ไวส์ ผู้กำกับโฆษณา กล่าวว่า การสร้างฟุตเทจใหม่เพื่อลบคำบรรยายนั้นกลายเป็นค่าใช้จ่ายที่สูงมาก “ถ้าคุณสร้างฉากที่มีบทสนทนาโดยใช้ Veo3 ประมาณ 40% ของผลลัพธ์จะมีคำบรรยายที่ไม่สื่อความหมาย ทำให้วิดีโอใช้การไม่ได้” เธอกล่าว “มันเสียเงินเยอะมากเพื่อให้ได้ฉากที่คุณชอบ แต่สุดท้ายมันก็ใช้การไม่ได้”

การลบคำบรรยายที่ไม่มีความหมายบน Veo 3 ทำได้ยาก ภาพ: Technology Review

เมื่อไวส์แจ้งปัญหาไปยัง Google Labs ผ่าน Discord โดยหวังว่าจะได้รับเครดิตที่เสียไปคืน ทีมสนับสนุนได้แนะนำให้เธอติดต่อแผนกสนับสนุนอย่างเป็นทางการของบริษัท พวกเขาเสนอคืนเงินค่าสมัครใช้งาน Veo 3 แต่ไม่คืนเครดิต ไวส์ปฏิเสธเพราะการรับเงินคืนหมายถึงการเสียสิทธิ์ในการใช้งานโมเดล

ทีมสนับสนุนของ Google Labs บน Discord ระบุว่า คำบรรยายอาจเปิดใช้งานโดยอัตโนมัติหากตรวจพบเสียง และพวกเขากำลังดำเนินการแก้ไขข้อบกพร่องนี้อยู่

ปัญหาเกิดจากแนวทางของ Google เอง

เหตุผลที่ Veo 3 แทรกคำบรรยายโดยอัตโนมัติมาจากข้อมูลที่ใช้ในการฝึกฝนโมเดล

แม้ว่า Google จะไม่ได้เปิดเผยรายละเอียดของประเภทข้อมูลที่ใช้ในการฝึกฝนโมเดล แต่คาดว่าน่าจะรวมถึงวิดีโอจากแพลตฟอร์มต่างๆ เช่น YouTube และ TikTok ซึ่งหลายๆ วิดีโอมีคำบรรยาย คำบรรยายเหล่านี้ฝังอยู่ในเฟรมวิดีโอโดยตรง ทำให้ยากต่อการลบออกก่อนนำไปใช้เป็นข้อมูลฝึกฝน ตามที่ Shuo Niu นักวิจัยด้านแพลตฟอร์มการแชร์วิดีโอและ AI จากมหาวิทยาลัย Clark (แมสซาชูเซตส์ สหรัฐอเมริกา) กล่าวไว้

"โมเดลแปลงข้อความเป็นวิดีโอได้รับการฝึกฝนโดยใช้การเรียนรู้แบบเสริมแรงเพื่อสร้างเนื้อหาที่เลียนแบบวิดีโอที่มนุษย์สร้างขึ้น และหากวิดีโอเหล่านั้นมีคำบรรยาย โมเดลก็จะ 'เรียนรู้' ว่าการเพิ่มคำบรรยายจะทำให้ผลิตภัณฑ์ดูเหมือนวิดีโอที่มนุษย์สร้างขึ้นมากขึ้น" เขากล่าวอธิบาย

Veo 3 ได้รับผลกระทบจากข้อมูลการฝึกฝนโมเดลจากวิดีโอ YouTube และ TikTok ภาพ: Mashable

โฆษกของ Google กล่าวว่า “เรากำลังปรับปรุงความสามารถในการสร้างวิดีโออย่างต่อเนื่อง โดยเฉพาะอย่างยิ่งในด้านข้อความ เสียงที่ฟังดูเป็นธรรมชาติ และเสียงที่ซิงโครไนซ์อย่างสมบูรณ์แบบ เราขอแนะนำให้ผู้ใช้ลองใช้คำสั่งอีกครั้งหากพบว่าผลลัพธ์ไม่สม่ำเสมอ และให้ข้อเสนอแนะกับเราผ่านฟีเจอร์กดไลค์หรือดิสไลค์”

นอกจากนี้ เหตุผลที่โมเดลนี้ไม่สนใจคำสั่งเช่น "ไม่ใส่คำบรรยาย" ก็เพราะว่าคำสั่งเชิงลบ (ที่สั่งให้ AI ไม่ทำอะไรบางอย่าง) โดยทั่วไปแล้วจะมีประสิทธิภาพน้อยกว่าคำสั่งเชิงบวก ตามที่ทูฮิน ชาคราราบาร์ตี นักวิจัยด้านระบบ AI จากมหาวิทยาลัยสโตนีบรูกกล่าวไว้

เพื่อแก้ไขปัญหาให้เสร็จสมบูรณ์ Google จะต้องตรวจสอบทุกเฟรมของวิดีโอทั้งหมดที่ใช้ในการฝึกโมเดล Veo 3 จากนั้นลบหรือติดป้ายกำกับวิดีโอที่มีคำบรรยายใหม่ก่อนที่จะฝึกโมเดลอีกครั้ง ซึ่งจะใช้เวลาหลายสัปดาห์ นาย Chakrabarty กล่าวเพิ่มเติม

Katerina Cizek ผู้สร้างภาพยนตร์สารคดีและผู้อำนวยการฝ่ายศิลป์ของ MIT Open Documentary Lab กล่าวว่า ประเด็นนี้แสดงให้เห็นถึงความเต็มใจของ Google ในการปล่อยผลิตภัณฑ์ที่ยังไม่เสร็จสมบูรณ์ออกมาสู่ตลาด

"Google ต้องการความสำเร็จ" Cizek กล่าว "พวกเขาต้องเป็นรายแรกที่ปล่อยเครื่องมือที่สามารถสร้างเสียงที่ตรงกับการขยับริมฝีปากได้ และนั่นสำคัญกว่าการแก้ไขปัญหาคำบรรยาย"

ที่มา: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html