โซระ (OpenAI)
Sora คือชื่อใหม่ล่าสุดที่ประกาศออกมา แต่กลับสร้างความฮือฮาเป็นอย่างมาก ส่วนหนึ่งเป็นเพราะว่ามันเป็นผลิตภัณฑ์ของ OpenAI ซึ่งเป็นผู้พัฒนา ChatGPT ที่มีชื่อเสียง และส่วนสำคัญที่สุดคือเป็นเพราะคุณภาพของ วิดีโอ ที่โปรแกรมสร้างขึ้นจากคำสั่งข้อความเพียงอย่างเดียว
ความสำเร็จของบริษัทกับ ChatGPT ยังช่วยให้ AI ของบริษัทเข้าใจภาษาได้อย่างลึกซึ้ง คลิปวิดีโอที่แสดงให้เห็นความสามารถของโซระแสดงให้เห็นตัวละครเคลื่อนไหวและแสดงออกอย่างสมจริงราวกับภาพยนตร์ที่ถ่ายทำโดยมนุษย์
วิดีโอ "เหนือจริง" ที่สร้างโดย Sora จากคำสั่งข้อความ
แต่ Sora ยังไม่เปิดให้สาธารณชนใช้งานด้วยเหตุผลด้านความปลอดภัย OpenAI จะใช้มาตรการอย่างรอบคอบก่อนที่จะเปิดให้สาธารณชนใช้งาน โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงจำนวนผู้ใช้ AI ที่เพิ่มขึ้นเรื่อยๆ ที่ถูกใช้ในทางที่ผิด เช่น การปลอมแปลงตัวตนเป็นผู้ใช้หรือการก่ออาชญากรรม
ลูมิแอร์ (Google)
Lumiere เป็นผลิตภัณฑ์จาก Google ซึ่งสามารถสร้างวิดีโอจากการป้อนข้อความได้เช่นกัน โดยอาศัยแบบจำลองการกระจายโครงสร้าง STUNet (Space-Time-U-Net) Lumiere ไม่จำเป็นต้องเชื่อมต่อเฟรมภาพนิ่งเข้าด้วยกัน แต่ AI นี้จะระบุรายละเอียดในวิดีโอ (ส่วนเชิงพื้นที่) ติดตามการเคลื่อนไหว และการเปลี่ยนแปลงในเวลาเดียวกัน (ส่วนเชิงเวลา) ช่วยให้กระบวนการดำเนินไปอย่างราบรื่น
เช่นเดียวกับโซระ ลูมิแอร์ยังไม่เปิดตัวสู่สาธารณะ บริษัทเพิ่งเปิดตัวโมเดลนี้เมื่อปลายเดือนมกราคม 2024 หลังจากเปิดตัว Gemini ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่เพิ่งซิงโครไนซ์กับ Bard
VideoPoet (กูเกิล)
โมเดลภาษาขนาดใหญ่ (LLM) นี้ได้รับการฝึกฝนจากคลังวิดีโอ รูปภาพ เสียง และข้อความขนาดใหญ่ที่พัฒนาโดย Google Search ในปี 2023 VideoPoet สามารถทำงานต่างๆ จากแหล่งอินพุต เช่น ข้อความ รูปภาพ วิดีโอ... เพื่อสร้างวิดีโอ เน้นเนื้อหา แปลงวิดีโอเป็นเสียง เปลี่ยนภาพนิ่งเป็นแอนิเมชัน...
แนวคิดดั้งเดิมของ VideoPoet เกิดจากความต้องการที่จะแปลงโมเดลภาษาอัตโนมัติใดๆ ให้เป็นระบบสร้างวิดีโอ โมเดลภาษาอัตโนมัติในปัจจุบันสามารถประมวลผลข้อความและโค้ดโปรแกรมได้เหมือนมนุษย์ แต่กลับประสบปัญหาเมื่อต้องประมวลผลวิดีโอ VideoPoet แก้ปัญหานี้โดยใช้การแปลงโทเค็นเพื่อแปลงอินพุตจากรูปแบบใดๆ ให้เป็นภาษาที่เข้าใจได้
เครื่องมือสำหรับสร้างวิดีโอจากข้อความส่วนใหญ่กำลังทดสอบขีดจำกัดของตัวเอง
วิดีโออีมู (เมตา)
นอกจาก Google และ OpenAI แล้ว Meta ยังเป็นหนึ่งในบริษัทเทคโนโลยียักษ์ใหญ่ที่มุ่งมั่นพัฒนา AI อย่างต่อเนื่อง บริษัทที่เป็นเจ้าของ Facebook ยังได้พัฒนา AI สำหรับสร้างวิดีโอชื่อ Emu Video ซึ่งสามารถแปลงรูปภาพเป็นข้อความและใช้เป็นข้อมูลเพื่อสร้างคลิปวิดีโอได้
Emu Video ได้รับคำวิจารณ์เชิงบวกจากผู้ทดสอบเบต้า โดย 81% เลือกโมเดลนี้มากกว่า Imagen Video (Google) และมากกว่า 90% เลือกโมเดลของ Meta มากกว่า PYOCO (Nvidia) ซึ่งดีกว่า Make-A-Video ของ Meta (96%) เสียอีก
CogVideo (มหาวิทยาลัยชิงหัว ประเทศจีน)
ต่างจากโมเดลข้างต้น ซึ่งล้วนเป็นผลิตภัณฑ์ของบริษัทเทคโนโลยีชั้นนำ ของโลก CogVideo คือ AI ที่พัฒนาโดยทีมวิจัยจาก มหาวิทยาลัย ชิงหัว ซึ่งเป็นมหาวิทยาลัยชั้นนำในประเทศจีนและเอเชีย โปรแกรมนี้พัฒนาจาก CogView2 ซึ่งเป็นโมเดลแปลงข้อความเป็นรูปภาพที่ผ่านการฝึกอบรมมาแล้ว
เกล็นน์ มาร์แชลล์ ผู้เชี่ยวชาญด้านศิลปะคอมพิวเตอร์ ซึ่งเป็นผู้ทดสอบ CogVideo กล่าวว่า "ผู้กำกับอาจต้องเสียงาน" คลิปของเขาที่ชื่อว่า The Crow ซึ่งสร้างขึ้นด้วยความช่วยเหลือของ CogVideo ได้รับคำชื่นชมอย่างสูงและได้รับการเสนอชื่อเข้าชิงรางวัล British Academy Film Award (BAFTA)
ลิงค์ที่มา






การแสดงความคิดเห็น (0)