'เบื้องหลัง' ของ AI ที่แปลงข้อความเป็นวิดีโอภายในไม่กี่นาที

ด้วยคำสั่งเพียงไม่กี่คำ AI ก็สามารถสร้างเฟรมภาพที่สดใสได้ ตั้งแต่พื้นหลัง แสง ไปจนถึงการเคลื่อนไหวเล็กๆ น้อยๆ ทุกอย่าง... มันทำได้ยังไง?

Báo Tuổi Trẻ•16/08/2025

AI - Ảnh 1. — การสร้างภาพโดยใช้เครื่องมือ AI

ในอดีต การสร้าง วิดีโอ จำเป็นต้องมีกล้อง ผู้กำกับ นักแสดง และการตัดต่อหลายชั่วโมง แต่ปัจจุบัน AI สามารถสร้างเฟรมภาพที่สมบูรณ์และมีชีวิตชีวาได้ เพียงพิมพ์คำไม่กี่คำบนแป้นพิมพ์ ตั้งแต่ฉากหลัง แสง ไปจนถึงทุกการเคลื่อนไหวเล็กๆ น้อยๆ

เบื้องหลัง “ปาฏิหาริย์” นี้คือเทคโนโลยีอันซับซ้อนที่น้อยคนนักจะรู้จัก

จากข้อความสู่ภาพ: การเดินทางครั้งแรก

จากการวิจัยของ Tuoi Tre Online พบว่าเมื่อคุณพิมพ์ประโยคบรรยายสักสองสามประโยค ระบบ AI จะ "อ่าน" เนื้อหาโดยใช้เทคโนโลยีประมวลผลภาษาธรรมชาติ (NLP) ก่อน AI ไม่เพียงแต่จดจำคำศัพท์แต่ละคำเท่านั้น แต่ยังวิเคราะห์บริบท อารมณ์ และความสัมพันธ์ระหว่างองค์ประกอบต่างๆ ในประโยคอีกด้วย

ตัวอย่างเช่น หากคุณเขียนว่า "ฝนบ่ายที่เมืองเก่า" AI จะรู้ว่านี่คือฉากกลางแจ้ง โดยมีองค์ประกอบของสภาพอากาศ แสงตอนบ่าย และฉากสถาปัตยกรรมคลาสสิก

หลังจากทำความเข้าใจเนื้อหาแล้ว AI จะเข้าสู่ขั้นตอนการสร้างภาพนิ่งเบื้องต้น ในขั้นตอนนี้ เทคโนโลยีที่ใช้กันทั่วไปคือแบบจำลองการกระจายแสง ซึ่ง AI จะ “ระบายสี” ภาพจากพื้นหลังสีขาวที่มีจุดรบกวนจนกระทั่งเห็นรายละเอียดทั้งหมด ทุกพิกเซลจะถูกคำนวณเพื่อให้แน่ใจว่าแสง สี องค์ประกอบภาพ และสไตล์ถูกต้อง

คนเพียงไม่กี่คนเท่านั้นที่รู้ว่าในระยะนี้ AI สามารถสร้างเวอร์ชันทดสอบได้หลายสิบเวอร์ชัน และเลือกเวอร์ชันที่ดีที่สุดก่อนที่จะดำเนินการต่อ

“ความลับ” อีกอย่างหนึ่งคือ ระบบขั้นสูงยังผสานรวมฐานข้อมูลภาพขนาดใหญ่ที่ฝึกฝนมาจากหลายแหล่ง ซึ่งทำให้ AI สามารถจดจำรายละเอียดได้นับล้าน ตั้งแต่ลักษณะการสะท้อนแสงของน้ำ ไปจนถึงลักษณะการเอียงของต้นไม้เมื่อต้องรับแรงลม ทำให้เฟรมแรกดูเป็นธรรมชาติที่สุดเท่าที่จะเป็นไปได้

AI เปลี่ยนภาพเคลื่อนไหวที่ราบรื่นได้อย่างไร

เมื่อเฟรมแรกเสร็จสมบูรณ์ ความท้าทายที่ใหญ่ที่สุดคือการทำให้ภาพเป็นลำดับภาพต่อเนื่องที่ให้ความรู้สึกเหมือนกำลังเคลื่อนไหว AI ใช้ แบบจำลองการทำนายการเคลื่อนที่ เพื่อแสดงภาพว่าวัตถุแต่ละชิ้นจะเปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป นี่คือที่มาของอัลกอริทึมทางฟิสิกส์ที่จำลองปัจจัยต่างๆ เช่น แรงโน้มถ่วง ลม น้ำ หรือการสั่นไหวของกล้องเสมือนจริง

เพื่อป้องกันไม่ให้ฉากสะดุด AI จึงใช้ การแทรกเฟรมภาพ โดย “จินตนาการ” เฟรมภาพกลางระหว่างสองช่วงเวลา แล้วนำมารวมกันเป็นภาพเคลื่อนไหวที่ราบรื่น หากมีตัวละครอยู่ในวิดีโอ ระบบยังต้องประมวลผลการเคลื่อนไหวของร่างกาย สีหน้า และการเคลื่อนไหวของดวงตาให้สอดคล้องกับบริบทอีกด้วย

เคล็ดลับที่ไม่ค่อยมีใครรู้: ก่อนการแสดง ระบบ AI หลายระบบยังทำขั้นตอน "หลังการผลิต" อัตโนมัติอีกด้วย โดยจะปรับสี แสง เพิ่มเอฟเฟกต์เบลอหรือความลึก เพื่อให้วิดีโอดูเหมือนถ่ายโดยกล้องมืออาชีพ บางแพลตฟอร์มยังสร้างเสียงแวดล้อมและดนตรีประกอบที่เหมาะสม ทำให้ผลงานสุดท้ายดูเหมือนฉากจริง

ด้วยการผสมผสานเทคโนโลยีมากมาย ตั้งแต่การประมวลผลภาษา การเรนเดอร์ 3 มิติ การจำลองฟิสิกส์ ไปจนถึงการตัดต่อหลังการผลิต ผู้ใช้สามารถเป็นเจ้าของวิดีโอที่สมบูรณ์แบบได้เพียงแค่เขียนข้อความไม่กี่บรรทัด ความราบรื่นนี้ทำให้หลายคนคิดว่า AI กำลัง "ถ่ายทำ" อยู่ แต่ที่จริงแล้ว ทุกอย่างถูกสร้างขึ้นจากศูนย์ ทีละเฟรม ด้วยความเร็วที่มนุษย์ไม่สามารถเทียบเคียงได้

กลับสู่หัวข้อ

ตวน วี

ที่มา: https://tuoitre.vn/hau-truong-ai-chuyen-van-ban-thanh-video-trong-vai-phut-20250815190549144.htm