เครื่องมือ AI ใหม่สร้างภาพคุณภาพสูงได้เร็วกว่าเดิมถึง 9 เท่า

นักวิทยาศาสตร์จาก MIT และ NVIDIA ประสบความสำเร็จในการพัฒนา HART ซึ่งเป็นเครื่องมือสำหรับสร้างภาพคุณภาพสูงด้วยความเร็วที่เหนือกว่า โดยใช้ทรัพยากรน้อยมากจนสามารถทำงานได้โดยตรงบนแล็ปท็อปหรือสมาร์ทโฟน

VietNamNet•26/03/2025

ภาพนักบินอวกาศขี่ม้าถูกสร้างขึ้นโดยการผสมผสานโมเดลที่สร้างโดยปัญญาประดิษฐ์ (AI) สองประเภทเข้าด้วยกัน ภาพ: MIT News

เมื่อความเร็วและคุณภาพไม่ใช่สิ่งที่ต้องแลกเปลี่ยนกันอีกต่อไป

ในด้านการสร้างภาพด้วยปัญญาประดิษฐ์ ปัจจุบันมีวิธีการหลักอยู่สองวิธี:

แบบจำลองการแพร่กระจายช่วยให้สร้างภาพที่มีรายละเอียดคมชัดได้ อย่างไรก็ตาม แบบจำลองเหล่านี้ทำงานช้ามากและใช้ทรัพยากรการคำนวณจำนวนมาก เนื่องจากต้องใช้ขั้นตอนการประมวลผลหลายสิบขั้นตอนเพื่อกำจัดสัญญาณรบกวนออกจากแต่ละพิกเซล

ในทางกลับกัน โมเดลอัตถารีเกรสซีฟนั้นเร็วกว่ามาก เพราะสามารถทำนายส่วนเล็กๆ ของภาพได้ทีละส่วน อย่างไรก็ตาม ภาพที่ได้จากโมเดลเหล่านี้มักมีรายละเอียดน้อยกว่าและมีโอกาสเกิดข้อผิดพลาดได้ง่ายกว่า

HART (hybrid autoregressive transformer) ผสานทั้งสองอย่างเข้าด้วยกัน โดยนำเสนอ "สิ่งที่ดีที่สุดจากทั้งสองโลก" ประการแรก มันใช้แบบจำลองอัตถารีเกรสซีฟในการสร้างภาพโดยรวมโดยการเข้ารหัสเป็นโทเค็นแบบไม่ต่อเนื่อง จากนั้น แบบจำลองที่กระจายตัวเล็กน้อยจะประมวลผลเพิ่มเติมเพื่อเพิ่มโทเค็นส่วนที่เหลือ ซึ่งเป็นรายละเอียดที่สูญหายไปในระหว่างกระบวนการเข้ารหัส

ผลลัพธ์ที่ได้คือภาพที่มีคุณภาพเทียบเท่า (หรือเหนือกว่า) โมเดลการแพร่กระจายขั้นสูงที่สุด แต่การประมวลผลเร็วกว่าถึงเก้าเท่าและใช้ทรัพยากรการคำนวณน้อยลง 31%

วิธีการใหม่นี้ช่วยให้สร้างภาพคุณภาพสูงได้รวดเร็ว

หนึ่งในนวัตกรรมที่โดดเด่นของ HART คือวิธีการแก้ปัญหาการสูญเสียข้อมูลเมื่อใช้แบบจำลองอัตถารีเกรสซีฟ การแปลงภาพเป็นโทเค็นแบบแยกส่วนช่วยเร่งกระบวนการ แต่ก็ส่งผลให้รายละเอียดที่สำคัญหายไป เช่น โครงร่างของวัตถุ ลักษณะใบหน้า เส้นผม ดวงตา และปาก

วิธีแก้ปัญหาของ HART คือการให้แบบจำลองการแพร่กระจายมุ่งเน้นไปที่การ "แก้ไข" รายละเอียดเหล่านี้โดยใช้โทเค็นส่วนเหลือเท่านั้น และเนื่องจากแบบจำลองได้ดำเนินการส่วนใหญ่ไปแล้วผ่านการถดถอยอัตโนมัติ แบบจำลองการแพร่กระจายจึงต้องการขั้นตอนการประมวลผลเพียง 8 ขั้นตอน แทนที่จะเป็นมากกว่า 30 ขั้นตอนเหมือนก่อนหน้านี้

"แบบจำลองการแพร่กระจายนั้นง่ายต่อการนำไปใช้และจึงมีประสิทธิภาพมากกว่า" เหาเทียน ถัง ผู้ร่วมเขียนกล่าวอธิบาย

โดยเฉพาะอย่างยิ่ง การผสมผสานระหว่างแบบจำลองทรานส์ฟอร์เมอร์แบบอัตถารีเกรสซีฟที่มีพารามิเตอร์ 700 ล้านตัว และแบบจำลองการแพร่กระจายแบบอ่อนที่มีพารามิเตอร์ 37 ล้านตัว ทำให้ HART มีประสิทธิภาพเทียบเท่ากับแบบจำลองการแพร่กระจายที่มีพารามิเตอร์มากถึง 2 พันล้านตัว แต่เร็วกว่าถึงเก้าเท่า

ในขั้นต้น ทีมวิจัยได้ลองบูรณาการแบบจำลองการแพร่กระจายเข้ากับขั้นตอนแรก ๆ ของกระบวนการสร้างภาพ แต่กลับทำให้เกิดข้อผิดพลาดสะสม วิธีที่มีประสิทธิภาพที่สุดคือการปล่อยให้แบบจำลองการแพร่กระจายจัดการขั้นตอนสุดท้าย และมุ่งเน้นเฉพาะส่วนที่ "ขาดหายไป" ของภาพเท่านั้น

ปลดล็อกอนาคตของปัญญาประดิษฐ์ด้านมัลติมีเดีย

ขั้นตอนต่อไปของทีมวิจัยคือการสร้างแบบจำลอง AI ด้านการมองเห็น ซึ่งเป็นภาษารุ่นใหม่ที่ใช้สถาปัตยกรรม HART เป็นพื้นฐาน เนื่องจาก HART สามารถปรับขนาดและปรับให้เข้ากับข้อมูลหลายประเภท (มัลติโมดอล) ได้ พวกเขาจึงคาดว่าจะสามารถนำไปประยุกต์ใช้ในการสร้าง วิดีโอ การทำนายเสียง และสาขาอื่นๆ อีกมากมาย

งานวิจัยนี้ได้รับการสนับสนุนทางการเงินจากหลายองค์กร ได้แก่ MIT-IBM Watson AI Lab, MIT-Amazon Science Center, MIT AI Hardware Program และมูลนิธิวิทยาศาสตร์แห่งชาติสหรัฐอเมริกา นอกจากนี้ NVIDIA ยังได้จัดหาโครงสร้างพื้นฐาน GPU สำหรับการฝึกฝนโมเดลด้วย

(อ้างอิงจากข่าวของ MIT)

ที่มา: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html