תמונה זו של אסטרונאוט רוכב על סוס נוצרה באמצעות שני סוגים של מודלים של בינה מלאכותית גנרטיבית. צילום: MIT News
כאשר מהירות ואיכות כבר לא מהוות פשרה
בתחום ההדמיה באמצעות בינה מלאכותית, ישנן כיום שתי גישות עיקריות:
מודלים של דיפוזיה מאפשרים תמונות חדות ומפורטות. עם זאת, הם איטיים ויקרים מבחינה חישובית, ודורשים עשרות שלבי עיבוד כדי להסיר רעש מכל פיקסל.
מודלים אוטורגרסיביים מהירים הרבה יותר משום שהם מנבאים חלקים קטנים של תמונה באופן סדרתי. אך לעתים קרובות הם מייצרים תמונות עם פחות פרטים ונוטים לשגיאות.
HART (שנאי היברידי אוטורגרסיבי) משלב את השניים, ומספק את "הטוב משני העולמות". תחילה הוא משתמש במודל אוטורגרסיבי כדי לבנות את התמונה הכוללת על ידי קידודה לטוקנים נפרדים. לאחר מכן, מודל דיפוזיה קל משקל משתלט על מילוי הטוקנים הנותרים - המידע המפורט שאבד במהלך הקידוד.
התמונות המתקבלות הן באיכות דומה (או טובה יותר) למודלי דיפוזיה חדישים, אך הן מהירות פי 9 לעיבוד ומשתמשות ב-31% פחות משאבי חישוב.
גישה חדשה ליצירת תמונות איכותיות במהירות גבוהה
אחד החידושים הבולטים של HART הוא האופן שבו הוא פותר את בעיית אובדן המידע בעת שימוש במודלים אוטורגרסיביים. המרת תמונות לטוקנים נפרדים מאיצה את התהליך, אך גם מאבדת פרטים חשובים כמו קצוות האובייקט, תווי פנים, שיער, עיניים, פיות וכו'.
הפתרון של HART הוא שמודל הדיפוזיה יתמקד רק ב"תיקון" פרטים אלה באמצעות אסימונים שיוריים. ומכיוון שהמודל האוטורגרסיבי כבר עשה את רוב העבודה, מודל הדיפוזיה זקוק רק ל-8 שלבי עיבוד במקום מעל 30 שלבים כמו קודם.
"מודל הדיפוזיה קל יותר ליישום, מה שמוביל ליעילות גבוהה יותר", מסביר המחבר השותף האוטיאן טאנג.
באופן ספציפי, השילוב של מודל שנאי אוטורגרסיבי עם 700 מיליון פרמטרים ומודל דיפוזיה קל משקל עם 37 מיליון פרמטרים מעניק ל-HART את אותם ביצועים כמו מודל דיפוזיה עם עד 2 מיליארד פרמטרים, אך מהיר פי 9.
בתחילה, הצוות ניסה גם לשלב את מודל הדיפוזיה בשלבים המוקדמים של תהליך יצירת התמונה, אך הדבר צבר שגיאות. הגישה היעילה ביותר הייתה לתת למודל הדיפוזיה לטפל בשלב הסופי ולהתמקד רק בחלקים ה"חסרים" של התמונה.
פתיחת עתיד הבינה המלאכותית המולטימדיה
הצעד הבא של הצוות הוא לבנות מודלים של בינה מלאכותית חזותית-לשונית מהדור הבא המבוססים על ארכיטקטורת HART. מכיוון ש-HART ניתן להרחבה וניתן להתאמה למגוון רחב של סוגי נתונים (רב-מודאליים), הם מצפים שיוכלו ליישם אותו ביצירת וידאו , חיזוי אודיו ותחומים רבים אחרים.
מחקר זה מומן על ידי מספר ארגונים, ביניהם מעבדת הבינה המלאכותית ווטסון של MIT-IBM, מרכז המדע של MIT-Amazon, תוכנית החומרה של MIT לבינה מלאכותית והקרן הלאומית למדע של ארה"ב. NVIDIA תרמה גם תשתית של GPU לאימון המודל.
(על פי MIT News)
מקור: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html










תגובה (0)