כלי בינה מלאכותית חדש יוצר תמונות באיכות גבוהה פי 9 מהר יותר.

מדענים מ-MIT ומ-NVIDIA פיתחו בהצלחה את HART - כלי ליצירת תמונות באיכות גבוהה במהירויות גבוהות במיוחד, תוך צריכת משאבים מועטה כל כך, עד שניתן לרוץ ישירות על מחשבים ניידים או סמארטפונים.

VietNamNet•26/03/2025

התמונה של האסטרונאוט הרוכב על סוס נוצרה על ידי שילוב של שני סוגים של מודלים שנוצרו על ידי בינה מלאכותית. צילום: MIT News

כאשר מהירות ואיכות כבר לא מהוות פשרה.

בתחום יצירת תמונות המונעות על ידי בינה מלאכותית, קיימות כיום שתי שיטות עיקריות:

מודלים של דיפוזיה מאפשרים יצירת תמונות חדות ומפורטות. עם זאת, הם איטיים מאוד וצורכים משאבי חישוב רבים מכיוון שהם דורשים עשרות שלבי עיבוד כדי להסיר רעש מכל פיקסל.

מודלים אוטורגרסיביים, לעומת זאת, מהירים הרבה יותר משום שהם יכולים לחזות חלקים קטנים של תמונה באופן סדרתי. עם זאת, הם לעתים קרובות מייצרים תמונות עם פחות פרטים ונוטים לשגיאות.

HART (שנאי היברידי אוטורגרסיבי) משלב את שניהם, ומציע "את הטוב משני העולמות". ראשית, הוא משתמש במודל אוטורגרסיבי כדי לבנות את התמונה הכוללת על ידי קידודה לטוקנים נפרדים. לאחר מכן, מודל מעט מפוזר ממשיך עיבודים כדי להוסיף טוקנים שיוריים - פרטים שאבדו במהלך תהליך הקידוד.

התוצאה היא תמונות באיכות דומה (או טובה יותר) למודלי הדיפוזיה המתקדמים ביותר, אך העיבוד מהיר פי תשע ומשתמש ב-31% פחות משאבי מחשוב.

גישה חדשה זו מסייעת ליצור תמונות באיכות גבוהה במהירות גבוהה.

אחד החידושים הבולטים של HART הוא האופן שבו הוא מטפל בבעיית אובדן המידע בעת שימוש במודלים אוטורגרסיביים. המרת תמונות לאסימונים נפרדים מאיצה את התהליך, אך גורמת גם לאובדן פרטים חשובים כגון קווי מתאר של אובייקט, תווי פנים, שיער, עיניים ופה.

הפתרון של HART הוא שמודל הדיפוזיה יתמקד אך ורק ב"תיקון" פרטים אלה באמצעות אסימונים שיוריים. ומכיוון שהמודל כבר עשה את רוב העבודה באמצעות אוטורגרסיה, מודל הדיפוזיה זקוק רק ל-8 שלבי עיבוד במקום מעל 30 כמו קודם.

"מודל הדיפוזיה קל יותר ליישום ולכן יעיל יותר", הסביר המחבר השותף האוטיאן טאנג.

באופן ספציפי, השילוב של מודל שנאי אוטורגרסיבי עם 700 מיליון פרמטרים ומודל דיפוזיה מתונה עם 37 מיליון פרמטרים מאפשר ל-HART להשיג ביצועים דומים למודל דיפוזיה עם עד 2 מיליארד פרמטרים, אך מהירים פי תשעה.

בתחילה, צוות המחקר ניסה גם לשלב את מודל הדיפוזיה בשלבים המוקדמים של תהליך יצירת התמונה, אך הדבר הוביל להצטברות של שגיאות. הגישה היעילה ביותר היא לתת למודל הדיפוזיה לטפל בשלב הסופי ולהתמקד רק בחלקים ה"חסרים" של התמונה.

פותחים את עתיד הבינה המלאכותית של המולטימדיה.

הצעד הבא של צוות המחקר הוא לבנות מודלים של ראייה מבוססת בינה מלאכותית - שפת דור חדש המבוססת על ארכיטקטורת HART. מכיוון ש-HART ניתנת להרחבה וניתנת להתאמה לסוגים רבים של נתונים (רב-מודאליים), הם מצפים שיוכלו ליישם אותה ביצירת וידאו , חיזוי אודיו ותחומים רבים אחרים.

מחקר זה מומן על ידי מספר ארגונים, כולל מעבדת הבינה המלאכותית ווטסון של MIT-IBM, מרכז המדע של MIT-Amazon, תוכנית החומרה של MIT לבינה מלאכותית והקרן הלאומית למדע של ארה"ב. NVIDIA סיפקה גם תשתית GPU לאימון המודל.

(על פי MIT News)

מקור: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html