ד"ר דאו דוק מין: "שליטה בנתונים וייטנאמיים היא הצעד הראשון בפיתוח ושליטה בטכנולוגיה וייטנאמית"
Báo Thanh niên•27/05/2024
לאחר שעבדת בארגון בינה מלאכותית גדול בארה"ב, מדוע החלטת לחזור לווייטנאם ולהצטרף ל-VinBigdata? בזמן שעבדתי בארה"ב, למרות שהשתתפתי בפרויקטים ממשלתיים גדולים רבים, התוצאות שהשגתי היו לעתים קרובות רק כמה צעדים בתהליך עיבוד גדול. פעמים רבות, עקב הליכי הסודיות המחמירים מאוד של הפרויקטים, אפילו לא ידעתי כיצד הפתרונות שפיתחתי נמצאים בשימוש. בשנת 2017 חזרתי לווייטנאם, כאשר וייטנאם הייתה בשלב הפיתוח, והיו בעיות רבות הקשורות לביג דאטה ובינה מלאכותית שהיו צריכות להיפתר. קיבלתי את הזמנתו של פרופסור וו הא ואן להגשים במשותף את המטרה של פיתוח פתרונות טכנולוגיים וייטנאמיים שישרתו את חייהם של העם הווייטנאמי. אני מוצא את חזרתי לווייטנאם משמעותית הרבה יותר משום שאוכל לעבוד על בעיות עם השפעה גדולה יותר.
ד"ר דאו דוק מין בסדנה
NVCC
באסטרטגיית פיתוח בינה מלאכותית, איזה תפקיד והשפעה ממלאים ביג דאטה, אדוני? לנתונים תפקיד חשוב ויקר ערך באימון בינה מלאכותית. כדי לאמן מודל בינה מלאכותית איכותי, אנו מתחילים לעתים קרובות באימון מסד נתונים גדול. לכן, כדי שתהיה לנו בינה מלאכותית איכותית, עלינו תחילה לקבל נתונים טובים. נתונים טובים חייבים לעמוד בסטנדרטים של כמות וקנה מידה, איכות, גיוון ואוניברסליות. תהליך האיסוף והעיבוד של אלפי שעות של נתונים משלב ניקוי הנתונים הגולמיים כדי ליצור נתונים באיכות הגבוהה ביותר להזנת מודל הבינה המלאכותית הוא יקר ומסובך מאוד. להיפך, כדי לנתח ביג דאטה, עלינו להשתמש בבינה מלאכותית כדי להבטיח את היכולת לעבד נתונים במדויק בקנה מידה גדול, ובכך ליצור תוצאות מכריעות או ניבוייות יותר. לדוגמה, בתהליך פיתוח מוצר עוזר וירטואלי עבור אנשים וייטנאמים (ViVi), היינו צריכים לאסוף ולעבד עשרות אלפי שעות של נתוני אודיו באיכות גבוהה, ממאות אלפי קולות מאזורים שונים, גילאים ומגדרים מגוונים, עם תוכן המשתרע על פני מאות תחומים... או לאחרונה, השקת ViGPT - "הגרסה הוייטנאמית הראשונה של ChatGPT עבור משתמשי קצה" שפותחה ממודל שפה גדולה בבעלות מלאה של VinBigdata. מודל זה אומן על סמך 600 ג'יגה-בייט של נתונים וייטנאמיים מעודנים מתחומים רבים ושונים. עם הבנתנו את הנתונים והשפה הוייטנאמית, מצאנו גישה חדשה לקיצור זמן ההשקה של ViGPT תוך 9 חודשים בלבד לאחר לידת ChatGPT. זהו החיבור בין ביג דאטה לבינה מלאכותית.
מהי עמדתך לגבי קישור מחקר עם ערך מעשי למען הקהילה? - אני מאמין שמחקר טכנולוגי מצליח באמת רק כאשר הוא נכנס לחיים בפועל, פותר בעיות חברתיות ומשפר את חייהם של אנשים. כדי ליצור מוצרים מסחריים מעשיים ולפתור בעיות עסקיות וחברתיות, עלינו תמיד לשים לב ולשאול את השאלה: איזה ערך יביאו הנתונים לחיים? עד כה, חקרנו מגוון מוצרים ופתרונות בתחומים ומקצועות שונים, בדרך כלל ViGPT, VinDr - המספק פתרונות בינה מלאכותית באבחון הדמיה רפואית , VinBase - פלטפורמה לבינה מלאכותית, או Vizone - סט של פתרונות חכמים לניתוח תמונה.
עם אנשי מפתח של VinBigdata באירוע של תאגיד Vingroup
NVCC
המהפכה התעשייתית הרביעית מתרחשת בעוצמה רבה בקנה מידה עולמי. אילו יתרונות לדעתך יש לווייטנאם? בהשוואה למהפכות קודמות, אני חושב שלווייטנאם יש כיום יתרונות רבים לפרוץ במהפכה התעשייתית הרביעית הזו, מה שיעזור לשפר את מעמדה של המדינה על מפת העולם . שני המפתחות להשגת מטרה זו הם נתונים ואנשים. בווייטנאם מתגוררים כיום כמעט 100 מיליון איש, מתוכם חלק גדול מהצעירים משתמשים בטלפונים ובמחשבים אישיים. בנוסף, יש לנו מומחים בעלי מוניטין בתחום הבינה המלאכותית וכוח אדם צעיר ואיכותי בטכנולוגיית המידע, ויש לנו בסיס טוב מאוד במתמטיקה. אז מהן המגבלות? המגבלה הראשונה שניתן לראות היא שלמרות שיש לנו אוכלוסייה גדולה, אנו עדיין מתקשים לשלוט בנתונים, במיוחד בתקינה וסנכרון נתונים במתקנים, עסקים ויחידות מנהליות. בנוסף, אנו מתמודדים גם עם אילוצים אחרים כגון משאבי השקעה מוגבלים, במיוחד השקעה בתשתית מחשוב בעלת ביצועים גבוהים.
לדעתך, עד כמה חשובה שליטה בנתונים וייטנאמיים במסע של יצירה ושליטה בטכנולוגיה שתשרת את חייהם של העם הווייטנאמי? כיום, ישנם מוצרים חלוצים רבים בתחום הבינה המלאכותית, בדרך כלל מוצרי יישומי בינה מלאכותית שנוצרו על סמך מודלים של שפה גדולה כמו ChatGPT של OpenAI או Bard של גוגל. עם זאת, וייטנאמית אינה קבוצת השפות המרכזית לפיתוח מוצרים אלה. לכן, איכות התוכן הספציפי לווייטנאמית המוחזר למשתמשים מושפעת פחות או יותר ויש לה סבירות גבוהה לשגיאות, ומסוכן אף יותר, שגיאות בידע בסיסי. כאנשים וייטנאמים, יש לנו את היתרון של גישה למקורות הנתונים שלנו. רק לנו יש את היכולת להבין את המאפיינים של הנתונים הווייטנאמיים, את הצרכים והמאפיינים של העם הווייטנאמי. לכן, שליטה בנתונים וייטנאמיים היא באמת המפתח לשליטה בטכנולוגיות הליבה, שהן הטכנולוגיות שישרתו את העם הווייטנאמי.
הדרכה פנימית לחברי VinBigdata
NVCC
כיצד לגשת למקורות נתונים ספציפיים, במיוחד כאשר רוב הווייטנאמים כיום משתמשים באתרי רשתות חברתיות מחו"ל? למעשה, המקור הגדול ביותר לנתונים אנושיים כיום (לא רק הווייטנאמים) הוא האינטרנט והרשתות החברתיות. עם זאת, אנו עדיין יכולים לגשת ולאסוף נתונים ממקורות שונים, בהתבסס על הבנת מאפייני הנתונים הווייטנאמיים, בהתאם למאפיינים שנקבעו על ידי כל פרויקט. לדוגמה, מודלי GPT של OpenAI כוללים עד מאות, אפילו טריליוני פרמטרים, שאומנו על כמויות עצומות של נתונים ועולים מיליארדי דולרים. בהשוואה אליהם, בחרנו בכיוון שונה לחלוטין בהתבסס על המחקר, היכולות והמשאבים שלנו: כלומר, יצירת מודל שפה וייטנאמי עם ארכיטקטורה של כמה מיליארדי פרמטרים בלבד, שאומנו על מערך נתונים וייטנאמי של 600 ג'יגה-בייט שאספנו ושכללנו בעצמנו, אך עם יכולות שוות ערך מבחינת עיבוד וייטנאמי. התוצאות מראות שהארכיטקטורה שפיתחנו בעצמנו יכולה לבצע אופטימיזציה עצמית, לקצר את זמן אימון מודל השפה, להפחית עלויות תוך הבטחת איכות המודל. מהם האתגרים שבהם אתה והצוות שלך נתקלתם בתהליך המחקר והפיתוח של מוצרי בינה מלאכותית? האתגר הראשון הוא בהחלט זמן. גל טכנולוגיית הבינה המלאכותית מגיע במהירות רבה ונמצא בתקופת פריחה. בעולם, חברות טכנולוגיה מובילות השיקו במהירות מוצרים שלמים ביותר, אשר מתעדכנים ומשתפרים כל הזמן. אם נהיה איטיים ולא נשיק מוצרים בזמן, בוודאי נישאר מאחור. מצד שני, אם אנחנו רוצים ליצור מוצרים שניתן ליישם ולפתור בעיות חברתיות מעשיות, עלינו לשקול גם למצוא ולפתח את התכונות הבולטות, המיוחדות והייחודיות של המוצר.
מצגת ביום הבינה המלאכותית של וייטנאם (AI4VN 2023)
NVCC
במציאות, אנשים וארגונים רבים בווייטנאם ובעולם סבלו מנזק רב מדליפות נתונים. כיצד אתה רואה את נושא אבטחת המידע? ניתן לומר שכל יישום כיום נובע מנתונים. כשעובדים עם נתונים, מצד אחד, עלינו להבטיח את המטרה של יישום נתונים כדי ליצור את הטכנולוגיה הטובה ביותר לחיים, ומצד שני, עלינו להבטיח אבטחת נתונים עבור אנשים וארגונים. הגורם האנושי הוא חוליה חשובה מאוד בתהליך הבטחת אבטחת הנתונים. אלה כוללים מפתחים, משתמשי מוצרים ומשתמשים. עבור מפתחים, המודעות לאבטחת נתונים חייבת להיות קיימת כבר מתחילת איסוף ועיבוד הנתונים. לעתים קרובות, כאשר לא מתרחשת בעיה, איננו מודעים לחשיבות אבטחת הנתונים. אך אם מתרחשת דליפת נתונים, הנזק יכול להיות עצום. פרצות נתונים יכולות להתרחש עקב בעיות טכניות או התקפות גניבת נתונים מכוונות. כאשר נתונים מופרצים, אנשים או ארגונים עלולים להשתמש במידע שלהם למטרות בלתי חוקיות על ידי אנשים רעים, בעוד שעסקים עלולים לסבול הפסדים כספיים כדי לתקן בעיות קשורות, ואף נזק למותג.
ד"ר דאו דוק מין וצוות VinBigdata באירוע
NVCC
לאחר השאיפה לשלוט בטכנולוגיה כדי לשרת את העם הווייטנאמי, בוודאי יהיו צעדים להתקדמות לעולם? כל ארגון או מיזם שרוצה להביא את מוצריו לשוק הבינלאומי חייב לעמוד בתקנים בינלאומיים. ל-VinBigdata יש חוזקות בפתרונות ובטכנולוגיה, ולכן קביעת חזון לכבוש את העולם היא טבעית. כמובן, כדי לפרוס עבור מוצרים ויישומים רבים ושונים, יש צורך בליווי של יחידות בינלאומיות בעלות ניסיון רב שנים והבנה של משתמשים ברחבי העולם. תודה!
תגובה (0)