תמונה001.jpg

GPU הוא המוח של מחשב בינה מלאכותית

במילים פשוטות, יחידת עיבוד הגרפיקה (GPU) משמשת כמוח של מחשב הבינה המלאכותית.

כפי שאתם אולי יודעים, יחידת העיבוד המרכזית (CPU) היא המוח של המחשב. היתרון של GPU הוא שמדובר במעבד ייעודי שיכול לבצע חישובים מורכבים. הדרך המהירה ביותר לעשות זאת היא שקבוצות של GPU יפתרו את אותה הבעיה. עם זאת, אימון מודל בינה מלאכותית עדיין יכול להימשך שבועות או אפילו חודשים. לאחר בנייתו, הוא ממוקם במערכת מחשב קדמית והמשתמשים יכולים לשאול שאלות למודל הבינה המלאכותית, תהליך הנקרא הסקה.

מחשב בינה מלאכותית המכיל מספר מעבדים גרפיים (GPUs)

הארכיטקטורה הטובה ביותר לבעיות בינה מלאכותית היא שימוש באשכול של מעבדים גרפיים (GPUs) במדף, המחובר למתג בחלקו העליון של המדף. ניתן לחבר מספר מדפי GPU בהיררכיה של רשתות. ככל שהבעיה הופכת מורכבת יותר, דרישות ה-GPU עולות, וחלק מהפרויקטים עשויים להזדקק לפרוס אשכולות של אלפי מעבדים גרפיים.

כל אשכול בינה מלאכותית הוא רשת קטנה

בעת בניית אשכול בינה מלאכותית, יש צורך להקים רשת מחשבים קטנה שתתחבר ותאפשר למעבדים גרפיים לעבוד יחד ולשתף נתונים ביעילות.

תמונה002.jpg
אשכול בינה מלאכותית

האיור למעלה ממחיש אשכול בינה מלאכותית שבו העיגולים בתחתית מייצגים את זרימות העבודה הפועלות על מעבדים גרפיים (GPUs). המעבדים מתחברים למתגי Top-of-rack (ToR). מתגי ה-ToR מתחברים גם למתגי עמוד השדרה של הרשת המוצגים מעל התרשים, מה שמדגים את היררכיית הרשת הברורה הנדרשת כאשר מעורבים מספר מעבדים גרפיים.

רשתות הן צוואר בקבוק בפריסת בינה מלאכותית
בסתיו שעבר, בפסגה העולמית של פרויקט המחשבים הפתוחים (OCP), שם עבדו נציגים על בניית הדור הבא של תשתית בינה מלאכותית, הציגה הנציגה לוי נגוין ממארוול טכנולוג'י נקודה מרכזית: "רשתות הן צוואר הבקבוק החדש".

מבחינה טכנית, השהיית חבילות גבוהה או אובדן חבילות עקב עומס ברשת עלולים לגרום לשליחה חוזרת של חבילות, מה שמגדיל משמעותית את זמן השלמת העבודה (JCT). כתוצאה מכך, עסקים מבוזבזים מיליוני או עשרות מיליוני דולרים של כרטיסי מסך עקב מערכות בינה מלאכותית לא יעילות, מה שעולה לעסקים הן בהכנסות והן בזמן הגעה לשוק.

מדידה היא תנאי מפתח להפעלה מוצלחת של רשתות בינה מלאכותית

כדי להפעיל אשכול בינה מלאכותית ביעילות, יש צורך שניתן יהיה לנצל באופן מלא את המעבדים הגרפיים (GPUs) כדי לקצר את זמן האימון ולהפעיל את מודל הלמידה כדי למקסם את התשואה על ההשקעה. לכן, יש צורך לבחון ולהעריך את ביצועי אשכול הבינה המלאכותית (איור 2). עם זאת, משימה זו אינה קלה, מכיוון שמבחינת ארכיטקטורת המערכת, ישנן הגדרות וקשרים רבים בין המעבדים הגרפיים למבני הרשת שצריכים להשלים זה את זה כדי לפתור את הבעיה.

תמונה005.jpg
פלטפורמת בדיקות של מרכז נתונים של בינה מלאכותית וכיצד היא בודקת אשכולות של מרכז נתונים של בינה מלאכותית

זה יוצר אתגרים רבים במדידת רשתות בינה מלאכותית:

- קושי בשחזור רשתות ייצור שלמות במעבדה עקב מגבלות בעלות, ציוד, מחסור במהנדסי בינה מלאכותית מיומנים ברשתות, מקום, צריכת חשמל וטמפרטורה.

- מדידה על מערכת הייצור מפחיתה את כושר העיבוד הזמינה של מערכת הייצור עצמה.

- קושי בשחזור מדויק של הבעיות עקב הבדלים בקנה מידה ובהיקף הבעיות.

- המורכבות של האופן שבו מעבדים גרפיים מחוברים באופן קולקטיבי.

כדי להתמודד עם אתגרים אלה, עסקים יכולים לבחון קבוצת משנה של הגדרות מומלצות בסביבת מעבדה כדי להשוות מדדים מרכזיים כגון זמן השלמת עבודה (JCT), רוחב הפס שצוות הבינה המלאכותית יכול להשיג, ולהשוות זאת לניצול פלטפורמת מיתוג וניצול מטמון. בדיקת ביצועים זו מסייעת למצוא את האיזון הנכון בין עומס עבודה של כרטיסי מסך/עיבוד לבין תכנון/הגדרת רשת. לאחר שביעות רצון מהתוצאות, אדריכלי המחשבים ומהנדסי הרשת יכולים לקחת את ההגדרות הללו לייצור ולמדוד תוצאות חדשות.

מעבדות מחקר תאגידיות, מוסדות אקדמיים ואוניברסיטאות עובדים על מנת לנתח כל היבט של בנייה ותפעול של רשתות בינה מלאכותית יעילות כדי להתמודד עם האתגרים של עבודה על רשתות גדולות, במיוחד ככל ששיטות עבודה מומלצות ממשיכות להתפתח. גישה שיתופית וחוזרת זו היא הדרך היחידה עבור חברות לבצע מדידות חוזרות ולבחון במהירות תרחישי "מה אם" שהם הבסיס לאופטימיזציה של רשתות עבור בינה מלאכותית.

(מקור: Keysight Technologies)