
Veo3 คือโมเดล AI ล่าสุดของ Google ที่เปิดตัวเมื่อปลายเดือนพฤษภาคม ช่วยให้สามารถสร้าง วิดีโอ ตามคำสั่งได้ โมเดลนี้ดึงดูดความสนใจจากชุมชนผู้สร้างคอนเทนต์ เพราะสามารถสร้าง วิดีโอ พร้อมเสียงและบทสนทนา ซึ่งเป็นฟีเจอร์ที่ไม่มีในโมเดลรุ่นก่อนหน้าของ Google ทำให้วิดีโอมีความสมจริงมากขึ้น
ผู้ใช้จำนวนมากใช้วิดีโอ Veo 3 ที่มีความยาวไม่เกิน 8 วินาที เพื่อสร้างโฆษณา วิดีโอ ASMR ตัวอย่างภาพยนตร์แฟนตาซี และการสัมภาษณ์บนท้องถนนที่มีอารมณ์ขัน
ดาร์เรน อโรนอฟสกี ผู้กำกับภาพยนตร์ผู้ได้รับการเสนอชื่อเข้าชิงรางวัลออสการ์ ได้ใช้เครื่องมือนี้ในการสร้างภาพยนตร์สั้นเรื่อง Ancestra ในงานแถลงข่าว เดมิส ฮัสซาบิส ซีอีโอของ Google DeepMind ได้เปรียบเทียบ Veo 3 กับภาพยนตร์ที่ก้าวออกจากยุคภาพยนตร์เงียบ
คำบรรยาย "Persistent" จาก Veo 3
อย่างไรก็ตาม ผู้ใช้หลายรายพบว่าเครื่องมือนี้ทำงานไม่เป็นไปตามที่คาดหวัง เมื่อสร้างคลิปที่มีบทสนทนา Veo 3 มักจะแทรกคำบรรยายที่ไม่มีความหมายและซับซ้อนโดยอัตโนมัติ แม้ว่าคำสั่งจะระบุไว้อย่างชัดเจนว่าไม่ต้องใส่คำบรรยายก็ตาม
การลบคำบรรยายเหล่านี้ไม่ใช่เรื่องง่าย ผู้ใช้ถูกบังคับให้สร้างคลิปใหม่ ใช้ "โทเค็น" ซึ่งหมายถึงเงินที่มากขึ้นสำหรับ Google หรือใช้เครื่องมือภายนอกเพื่อลบคำบรรยาย หรือครอบตัดวิดีโอเพื่อลบคำบรรยาย
![]() |
Veo 3 สร้างภาพที่สมจริง บทสนทนาตรงกับการเคลื่อนไหวของปาก แต่คำบรรยายไม่มีความหมาย ภาพ: Lesswrong |
จอช วูดเวิร์ด รองประธาน Google Labs และ Gemini โพสต์บน X เมื่อวันที่ 9 มิถุนายนว่า Google ได้พัฒนาแพตช์เพื่อลดสแปม แต่กว่าหนึ่งเดือนผ่านไป ผู้ใช้ยังคงรายงานปัญหานี้บนช่อง Discord ของ Google Labs ซึ่งแสดงให้เห็นว่าการแก้ไขข้อบกพร่องในโมเดล AI ขนาดใหญ่นั้นไม่ใช่เรื่องง่าย
เช่นเดียวกับโมเดล AI สร้างวิดีโอรุ่นก่อนหน้าของ Google Veo 3 เป็นโมเดลแบบเสียเงิน เริ่มต้นที่ 249.99 ดอลลาร์สหรัฐ ต่อเดือน ในการสร้างวิดีโอความยาว 8 วินาที ผู้ใช้ต้องใส่คำอธิบายลงใน Flow, Gemini หรือแพลตฟอร์มอื่นๆ แต่ละคลิปที่สร้างด้วย Veo 3 มีค่าใช้จ่ายขั้นต่ำ 20 เครดิต AI และผู้ใช้สามารถเติมเงินได้ 25 ดอลลาร์สหรัฐ สำหรับ 2,500 เครดิต
โมนา ไวส์ ผู้อำนวยการฝ่ายโฆษณา กล่าวว่า การสร้างฟุตเทจใหม่เพื่อลบคำบรรยายกำลังกลายเป็นค่าใช้จ่ายจำนวนมาก “ถ้าคุณสร้างฉากพูดด้วย Veo3 ประมาณ 40% ของผลลัพธ์จะมีคำบรรยายที่ไม่สมเหตุสมผลซึ่งทำให้วิดีโอนั้นใช้งานไม่ได้” เธอกล่าว “การได้ฉากที่คุณชอบมานั้นต้องใช้เงินจำนวนมาก แต่กลับใช้งานไม่ได้”
![]() |
การลบคำบรรยายที่ไร้สาระบน Veo 3 เป็นเรื่องยาก รูปภาพ: Technology Review |
เมื่อไวส์รายงานปัญหานี้ไปยัง Google Labs ผ่าน Discord โดยหวังว่าจะได้รับเงินคืนสำหรับเครดิตที่เสียไป ทีมสนับสนุนจึงโอนสายของเธอไปยังฝ่ายสนับสนุนอย่างเป็นทางการของบริษัท พวกเขาเสนอที่จะคืนเงินค่าสมัครสมาชิก Veo 3 แต่กลับไม่คืนเงินเครดิต ไวส์ปฏิเสธ เพราะการยอมรับเงินคืนจะหมายถึงการสูญเสียสิทธิ์เข้าถึงโมเดลดังกล่าว
ทีมสนับสนุน Discord ของ Google Labs กล่าวว่าคำบรรยายสามารถเปิดใช้งานได้โดยอัตโนมัติหากตรวจพบคำพูด และพวกเขากำลังดำเนินการแก้ไขอยู่
ปัญหาที่เกิดขึ้นกับแนวทางของ Google
เหตุผลที่ Veo 3 แทรกคำบรรยายโดยอัตโนมัตินั้นมาจากข้อมูลที่ใช้กับโมเดล
แม้ว่า Google จะไม่ได้เปิดเผยหมวดหมู่ข้อมูลที่ใช้ในการฝึกอบรมโมเดล แต่มีแนวโน้มว่าจะรวมถึงวิดีโอจาก YouTube และ TikTok ซึ่งหลายรายการมีคำบรรยายฝังอยู่ในเฟรมโดยตรง ทำให้ยากต่อการลบออกก่อนที่จะนำมาใช้เป็นข้อมูลการฝึกอบรม ตามที่ Shuo Niu นักวิจัยด้านแพลตฟอร์มแชร์วิดีโอและ AI ที่มหาวิทยาลัย Clark ในแมสซาชูเซตส์กล่าว
“โมเดลการแปลงข้อความเป็นวิดีโอได้รับการฝึกฝนโดยใช้การเรียนรู้แบบเสริมแรงเพื่อสร้างเนื้อหาที่เลียนแบบวิดีโอที่สร้างโดยมนุษย์ และหากวิดีโอเหล่านั้นมีคำบรรยาย โมเดลก็สามารถ 'เรียนรู้' ได้ว่าการเพิ่มคำบรรยายจะทำให้ผลิตภัณฑ์มีลักษณะคล้ายกับวิดีโอที่สร้างโดยมนุษย์มากขึ้น” เขากล่าวอธิบาย
![]() |
Veo 3 ได้รับผลกระทบจากข้อมูลการฝึกโมเดลจากวิดีโอ YouTube และ TikTok ภาพ: Mashable |
“เรากำลังพัฒนาความสามารถในการสร้างวิดีโออย่างต่อเนื่อง โดยเฉพาะอย่างยิ่งในส่วนของข้อความ เสียงพูดที่เป็นธรรมชาติ และเสียงที่ประสานกันอย่างสมบูรณ์แบบ” โฆษกของ Google กล่าว “เราขอแนะนำให้ผู้ใช้ลองคำสั่งอีกครั้งหากพบผลลัพธ์ที่ไม่สอดคล้องกัน และให้ข้อเสนอแนะแก่เราโดยการกดถูกใจหรือไม่ชอบผลลัพธ์”
นอกจากนี้ เหตุผลที่โมเดลละเลยคำสั่ง เช่น "ไม่มีคำบรรยาย" ก็เพราะว่าคำสั่งเชิงลบ (การขอให้ AI ไม่ทำบางอย่าง) มักมีประสิทธิภาพน้อยกว่าคำสั่งเชิงบวก ตามที่ Tuhin Chakrabarty นักวิจัยระบบ AI ที่ Stony Brook University กล่าว
เพื่อแก้ไขปัญหานี้ให้สมบูรณ์ Google จะต้องตรวจสอบวิดีโอทุกเฟรมทั้งหมดที่ใช้ในการฝึกอบรม Veo 3 จากนั้นจึงลบหรือเปลี่ยนชื่อวิดีโอพร้อมคำบรรยายก่อนที่จะฝึกอบรมโมเดลใหม่ ซึ่งจะใช้เวลานานหลายสัปดาห์ Chakrabarty กล่าวเสริม
Katerina Cizek ผู้สร้างภาพยนตร์สารคดีและผู้อำนวยการฝ่ายศิลป์ที่ MIT Open Documentary Lab กล่าวว่า ปัญหาที่เกิดขึ้นแสดงให้เห็นว่า Google ยังคงเต็มใจที่จะเปิดตัวผลิตภัณฑ์ที่ยังไม่เสร็จสมบูรณ์
“Google ต้องการชัยชนะ” Cizek กล่าว “พวกเขาต้องเป็นคนแรกที่เปิดตัวเครื่องมือที่ตรงกับเสียงพูดของพวกเขา และนั่นสำคัญกว่าการแก้ไขปัญหาคำบรรยายภาพ”
ที่มา: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html
การแสดงความคิดเห็น (0)