
Veo3 คือโมเดล AI รุ่นล่าสุดของ Google ที่เปิดตัวเมื่อปลายเดือนพฤษภาคม ช่วยให้ผู้ใช้สร้าง วิดีโอ โดยใช้คำสั่งเสียง โมเดลนี้ดึงดูดความสนใจจากชุมชนผู้สร้างคอนเทนต์ เนื่องจากช่วยให้สร้างวิดีโอที่มีเสียงและบทสนทนาได้ ซึ่งเป็นคุณสมบัติที่ไม่มีในเวอร์ชันก่อนหน้าของโมเดล Google ทำให้วิดีโอมีความสมจริงมากขึ้น
ผู้ใช้จำนวนมากใช้คลิปวิดีโอ Veo 3 ที่มีความยาวไม่เกิน 8 วินาที ในการสร้างโฆษณา วิดีโอ ASMR ตัวอย่างภาพยนตร์แฟนตาซี และบทสัมภาษณ์ตลกๆ บนท้องถนน
ดาร์เรน อโรนอฟสกี ผู้กำกับที่ได้รับการเสนอชื่อเข้าชิงรางวัลออสการ์ ใช้เครื่องมือนี้สร้างภาพยนตร์สั้นเรื่อง Ancestra ในงานแถลงข่าว เดมิส ฮัสซาบิส ซีอีโอของ Google DeepMind เปรียบเทียบ Veo 3 ว่าเป็นการก้าว "ออกจากยุคภาพยนตร์เงียบ" ในวงการภาพยนตร์
คำบรรยาย "แบบต่อเนื่อง" จาก Veo 3
อย่างไรก็ตาม ผู้ใช้หลายคนพบว่าเครื่องมือนี้ไม่ได้ทำงานอย่างที่คาดหวัง เมื่อสร้างคลิปที่มีบทสนทนา Veo 3 มักจะแทรกคำบรรยายที่ไม่มีความหมายและสับสนโดยอัตโนมัติ แม้ว่าคำสั่งจะระบุไว้อย่างชัดเจนว่าไม่ต้องเพิ่มคำบรรยายก็ตาม
การลบคำบรรยายเหล่านี้ไม่ใช่เรื่องง่าย ผู้ใช้จำเป็นต้องสร้างคลิปใหม่ ซึ่งหมายถึงการใช้ "โทเค็น" ซึ่งหมายความว่าต้องเสียเงินเพิ่มให้กับ Google หรือใช้เครื่องมือภายนอกเพื่อลบคำบรรยาย หรือตัดต่อวิดีโอเพื่อลบคำบรรยายออก
![]() |
Veo 3 สร้างภาพและบทสนทนาที่สมจริงตรงกับการขยับริมฝีปาก แต่คำบรรยายใต้ภาพนั้นไร้ความหมาย ภาพ: Lesswrong |
Josh Woodward รองประธานของ Google Labs และ Gemini โพสต์บน X เมื่อวันที่ 9 มิถุนายนว่า Google ได้พัฒนาแพทช์เพื่อลดปัญหาการส่งอีเมลสแปมแล้ว แต่หลังจากนั้นกว่าหนึ่งเดือน ผู้ใช้ยังคงรายงานปัญหานี้ในช่อง Discord ของ Google Labs ซึ่งแสดงให้เห็นว่าการแก้ไขข้อบกพร่องในโมเดล AI ขนาดใหญ่นั้นไม่ใช่เรื่องง่าย
เช่นเดียวกับโมเดลการสร้างวิดีโอด้วย AI รุ่นก่อนๆ ของ Google, Veo 3 เป็นโมเดลแบบเสียค่าใช้จ่าย โดยเริ่มต้นที่ 249.99 ดอลลาร์ ต่อเดือน ในการสร้างวิดีโอความยาว 8 วินาที ผู้ใช้เพียงแค่ป้อนคำอธิบายลงใน Flow, Gemini หรือแพลตฟอร์มอื่นๆ การสร้างคลิปแต่ละครั้งโดยใช้ Veo 3 จะมีค่าใช้จ่ายอย่างน้อย 20 เครดิต AI และผู้ใช้สามารถเติมเงิน 25 ดอลลาร์ เพื่อรับ 2,500 เครดิตได้
โมนา ไวส์ ผู้กำกับโฆษณา กล่าวว่า การสร้างฟุตเทจใหม่เพื่อลบคำบรรยายนั้นกลายเป็นค่าใช้จ่ายที่สูงมาก “ถ้าคุณสร้างฉากที่มีบทสนทนาโดยใช้ Veo3 ประมาณ 40% ของผลลัพธ์จะมีคำบรรยายที่ไม่สื่อความหมาย ทำให้วิดีโอใช้การไม่ได้” เธอกล่าว “มันเสียเงินเยอะมากเพื่อให้ได้ฉากที่คุณชอบ แต่สุดท้ายมันก็ใช้การไม่ได้”
![]() |
การลบคำบรรยายที่ไม่มีความหมายบน Veo 3 ทำได้ยาก ภาพ: Technology Review |
เมื่อไวส์แจ้งปัญหาไปยัง Google Labs ผ่าน Discord โดยหวังว่าจะได้รับเครดิตที่เสียไปคืน ทีมสนับสนุนได้แนะนำให้เธอติดต่อแผนกสนับสนุนอย่างเป็นทางการของบริษัท พวกเขาเสนอคืนเงินค่าสมัครใช้งาน Veo 3 แต่ไม่คืนเครดิต ไวส์ปฏิเสธเพราะการรับเงินคืนหมายถึงการเสียสิทธิ์ในการใช้งานโมเดล
ทีมสนับสนุนของ Google Labs บน Discord ระบุว่า คำบรรยายอาจเปิดใช้งานโดยอัตโนมัติหากตรวจพบเสียง และพวกเขากำลังดำเนินการแก้ไขข้อบกพร่องนี้อยู่
ปัญหาเกิดจากแนวทางของ Google เอง
เหตุผลที่ Veo 3 แทรกคำบรรยายโดยอัตโนมัติมาจากข้อมูลที่ใช้ในการฝึกฝนโมเดล
แม้ว่า Google จะไม่ได้เปิดเผยรายละเอียดของประเภทข้อมูลที่ใช้ในการฝึกฝนโมเดล แต่คาดว่าน่าจะรวมถึงวิดีโอจากแพลตฟอร์มต่างๆ เช่น YouTube และ TikTok ซึ่งหลายๆ วิดีโอมีคำบรรยาย คำบรรยายเหล่านี้ฝังอยู่ในเฟรมวิดีโอโดยตรง ทำให้ยากต่อการลบออกก่อนนำไปใช้เป็นข้อมูลฝึกฝน ตามที่ Shuo Niu นักวิจัยด้านแพลตฟอร์มการแชร์วิดีโอและ AI จากมหาวิทยาลัย Clark (แมสซาชูเซตส์ สหรัฐอเมริกา) กล่าวไว้
"โมเดลแปลงข้อความเป็นวิดีโอได้รับการฝึกฝนโดยใช้การเรียนรู้แบบเสริมแรงเพื่อสร้างเนื้อหาที่เลียนแบบวิดีโอที่มนุษย์สร้างขึ้น และหากวิดีโอเหล่านั้นมีคำบรรยาย โมเดลก็จะ 'เรียนรู้' ว่าการเพิ่มคำบรรยายจะทำให้ผลิตภัณฑ์ดูเหมือนวิดีโอที่มนุษย์สร้างขึ้นมากขึ้น" เขากล่าวอธิบาย
![]() |
Veo 3 ได้รับผลกระทบจากข้อมูลการฝึกฝนโมเดลจากวิดีโอ YouTube และ TikTok ภาพ: Mashable |
โฆษกของ Google กล่าวว่า “เรากำลังปรับปรุงความสามารถในการสร้างวิดีโออย่างต่อเนื่อง โดยเฉพาะอย่างยิ่งในด้านข้อความ เสียงที่ฟังดูเป็นธรรมชาติ และเสียงที่ซิงโครไนซ์อย่างสมบูรณ์แบบ เราขอแนะนำให้ผู้ใช้ลองใช้คำสั่งอีกครั้งหากพบว่าผลลัพธ์ไม่สม่ำเสมอ และให้ข้อเสนอแนะกับเราผ่านฟีเจอร์กดไลค์หรือดิสไลค์”
นอกจากนี้ เหตุผลที่โมเดลนี้ไม่สนใจคำสั่งเช่น "ไม่ใส่คำบรรยาย" ก็เพราะว่าคำสั่งเชิงลบ (ที่สั่งให้ AI ไม่ทำอะไรบางอย่าง) โดยทั่วไปแล้วจะมีประสิทธิภาพน้อยกว่าคำสั่งเชิงบวก ตามที่ทูฮิน ชาคราราบาร์ตี นักวิจัยด้านระบบ AI จากมหาวิทยาลัยสโตนีบรูกกล่าวไว้
เพื่อแก้ไขปัญหาให้เสร็จสมบูรณ์ Google จะต้องตรวจสอบทุกเฟรมของวิดีโอทั้งหมดที่ใช้ในการฝึกโมเดล Veo 3 จากนั้นลบหรือติดป้ายกำกับวิดีโอที่มีคำบรรยายใหม่ก่อนที่จะฝึกโมเดลอีกครั้ง ซึ่งจะใช้เวลาหลายสัปดาห์ นาย Chakrabarty กล่าวเพิ่มเติม
Katerina Cizek ผู้สร้างภาพยนตร์สารคดีและผู้อำนวยการฝ่ายศิลป์ของ MIT Open Documentary Lab กล่าวว่า ประเด็นนี้แสดงให้เห็นถึงความเต็มใจของ Google ในการปล่อยผลิตภัณฑ์ที่ยังไม่เสร็จสมบูรณ์ออกมาสู่ตลาด
"Google ต้องการความสำเร็จ" Cizek กล่าว "พวกเขาต้องเป็นรายแรกที่ปล่อยเครื่องมือที่สามารถสร้างเสียงที่ตรงกับการขยับริมฝีปากได้ และนั่นสำคัญกว่าการแก้ไขปัญหาคำบรรยาย"
ที่มา: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









การแสดงความคิดเห็น (0)