ภาพนักบินอวกาศขี่ม้านี้สร้างขึ้นโดยใช้โมเดล AI เชิงสร้างสรรค์สองประเภท ภาพ: MIT News
เมื่อความเร็วและคุณภาพไม่ใช่สิ่งแลกเปลี่ยนอีกต่อไป
ในสาขาการถ่ายภาพ AI ปัจจุบันมีแนวทางหลักอยู่ 2 แนวทาง:
แบบจำลองการแพร่กระจายช่วยให้ได้ภาพที่คมชัดและมีรายละเอียด อย่างไรก็ตาม แบบจำลองเหล่านี้ทำงานช้าและต้องใช้การประมวลผลจำนวนมาก ต้องใช้ขั้นตอนการประมวลผลหลายสิบขั้นตอนเพื่อกำจัดสัญญาณรบกวนออกจากแต่ละพิกเซล
แบบจำลองถดถอยอัตโนมัตินั้นเร็วกว่ามากเพราะสามารถทำนายส่วนเล็กๆ ของภาพแบบต่อเนื่องได้ แต่บ่อยครั้งที่แบบจำลองเหล่านี้ให้ภาพที่มีรายละเอียดน้อยกว่าและมีแนวโน้มที่จะเกิดข้อผิดพลาด
HART (hybrid autoregressive transformer) ผสมผสานทั้งสองเข้าด้วยกัน มอบ “สิ่งที่ดีที่สุดของทั้งสองโลก” ขั้นแรกใช้แบบจำลอง autoregressive เพื่อสร้างภาพรวมโดยการเข้ารหัสเป็นโทเค็นแบบแยกส่วน จากนั้น แบบจำลองการกระจายแบบเบาจะเข้ามาแทนที่เพื่อเติมเต็มโทเค็นที่เหลือ ซึ่งเป็นข้อมูลรายละเอียดที่สูญหายระหว่างการเข้ารหัส
รูปภาพที่ได้มีคุณภาพเทียบเท่า (หรือดีกว่า) กับโมเดลการแพร่กระจายที่ล้ำสมัย แต่ประมวลผลได้เร็วกว่า 9 เท่า และใช้ทรัพยากรการคำนวณน้อยลง 31%
แนวทางใหม่ในการสร้างภาพคุณภาพด้วยความเร็วสูง
หนึ่งในนวัตกรรมที่โดดเด่นของ HART คือการแก้ปัญหาการสูญเสียข้อมูลเมื่อใช้แบบจำลองถดถอยอัตโนมัติ การแปลงรูปภาพเป็นโทเค็นแบบแยกส่วนจะช่วยเร่งกระบวนการ แต่ก็ทำให้สูญเสียรายละเอียดสำคัญๆ เช่น ขอบวัตถุ ลักษณะใบหน้า เส้นผม ตา ปาก ฯลฯ
วิธีแก้ปัญหาของ HART คือการให้แบบจำลองการแพร่กระจายมุ่งเน้นเฉพาะการ "แก้ไข" รายละเอียดเหล่านี้ผ่านโทเค็นที่เหลือ และเนื่องจากแบบจำลองถดถอยอัตโนมัติได้ทำงานส่วนใหญ่ไปแล้ว แบบจำลองการแพร่กระจายจึงต้องการขั้นตอนการประมวลผลเพียง 8 ขั้นตอน แทนที่จะเป็น 30 ขั้นตอนเหมือนแต่ก่อน
“รูปแบบการแพร่กระจายนั้นง่ายต่อการนำไปใช้งาน ส่งผลให้มีประสิทธิภาพสูงขึ้น” Haotian Tang ผู้เขียนร่วมอธิบาย
โดยเฉพาะอย่างยิ่ง การผสมผสานระหว่างแบบจำลองหม้อแปลงอัตโนมัติถดถอยที่มีพารามิเตอร์ 700 ล้านตัวและแบบจำลองการแพร่กระจายน้ำหนักเบาที่มีพารามิเตอร์ 37 ล้านตัวทำให้ HART มีประสิทธิภาพเท่ากับแบบจำลองการแพร่กระจายที่มีพารามิเตอร์มากถึง 2 พันล้านตัว แต่เร็วกว่าเก้าเท่า
ในตอนแรกทีมงานได้พยายามผสานรวมแบบจำลองการกระจายเข้ากับขั้นตอนแรกของกระบวนการสร้างภาพ แต่กลับทำให้เกิดข้อผิดพลาดสะสม วิธีการที่มีประสิทธิภาพที่สุดคือการให้แบบจำลองการกระจายจัดการขั้นตอนสุดท้ายและมุ่งเน้นเฉพาะส่วนที่ "หายไป" ของภาพ
ปลดล็อกอนาคตของ AI มัลติมีเดีย
ขั้นตอนต่อไปของทีมคือการสร้างแบบจำลอง AI ด้านภาพและภาษาศาสตร์รุ่นใหม่โดยอาศัยสถาปัตยกรรม HART เนื่องจาก HART สามารถปรับขนาดและปรับให้เข้ากับประเภทข้อมูลที่หลากหลาย (แบบมัลติโมดัล) ได้ พวกเขาจึงคาดว่าจะสามารถนำไปประยุกต์ใช้กับการสร้าง วิดีโอ การคาดการณ์เสียง และด้านอื่นๆ อีกมากมาย
งานวิจัยนี้ได้รับทุนสนับสนุนจากหลายองค์กร ได้แก่ MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program และ US National Science Foundation นอกจากนี้ NVIDIA ยังได้บริจาคโครงสร้างพื้นฐาน GPU เพื่อฝึกอบรมโมเดลนี้ด้วย
(ตามรายงานของ MIT News)
ที่มา: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
การแสดงความคิดเห็น (0)