DeepSeek חושפת את סודותיה.

DeepSeek חושפת כיצד היא בונה מודלים של בינה מלאכותית בעלות נמוכה. צילום: בלומברג .

בדוח מחקר שפורסם ב-15 במאי, DeepSeek שיתפה לראשונה פרטים על האופן שבו בנתה את אחת ממערכות הבינה המלאכותית בקוד פתוח החזקות ביותר בעולם, במחיר נמוך יחסית למתחריה.

המחקר, שכותרתו "תובנות לגבי DeepSeek-V3: הגדלת אתגרים והרהורים על חומרה עבור ארכיטקטורות בינה מלאכותית", נכתב במשותף עם המייסד ליאנג וונפנג. DeepSeek מייחסת את הצלחתה לתכנון מקביל של חומרה ותוכנה, גישה מבדילה בהשוואה לחברות רבות שעדיין מתמקדות באופטימיזציה של תוכנה באופן עצמאי.

"DeepSeek-V3, שאומן על 2,048 מעבדי גרפיקה של Nvidia H800, הדגים כיצד תכנון מקבילי יכול לפתור ביעילות אתגרים, ולאפשר אימון והסקה יעילים בקנה מידה גדול", כתב צוות המחקר בדו"ח. DeepSeek וקרן הגידור High-Flyer אגרו שבבי H800 לפני שארה"ב נאסרה על ייצואם לסין החל משנת 2023.

על פי המאמר, צוות המחקר של DeepSeek היה מודע היטב למגבלות החומרה ולעלויות המופרזות של אימון מודלים של שפה גדולה (LLMs), הטכנולוגיה העומדת בבסיס צ'אטבוטים כמו ChatGPT של OpenAI. לכן, הם יישמו סדרה של אופטימיזציות טכניות כדי להגביר את ביצועי הזיכרון, לשפר את התקשורת בין השבבים ולשפר את היעילות הכוללת של תשתית הבינה המלאכותית.

יתר על כן, DeepSeek מדגישה את תפקידה של ארכיטקטורת מודל המומחים המעורב (MoE). זוהי שיטת למידת מכונה המחלקת את מודל הבינה המלאכותית לתת-רשתות, כאשר כל אחת מעבדת חלק נפרד מנתוני הקלט ועובדת בשיתוף פעולה כדי לייעל את התוצאות.

משרד החינוך (MoE) מסייע בהפחתת עלויות אימון ובהאצת מהירות החשיבה. שיטה זו מאומצת כעת באופן נרחב בתעשיית הטכנולוגיה הסינית, כולל דגם Qwen3 האחרון של עליבאבא.

DeepSeek זכתה לראשונה לתשומת לב כאשר הוציאה את דגם ה-V3 הבסיסי שלה בדצמבר 2024 ואת מודל החשיבה R1 שלה בינואר. מוצרים אלה עוררו סערה בשוק העולמי, ותרמו לירידה נרחבת במניות טכנולוגיה הקשורות לבינה מלאכותית.

למרות ש-DeepSeek לא חשפה תוכניות נוספות לאחרונה, היא שמרה על עניין הקהילה באמצעות דיווחים שוטפים. בסוף מרץ, החברה פרסמה עדכון קטן ל-DeepSeek-V3, ובסוף אפריל, הם השיקו בשקט את מערכת Prover-V2 לעיבוד הוכחות מתמטיות.

מקור: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html