Vietnam.vn - Nền tảng quảng bá Việt Nam

כדי לפתור את בעיית הנתונים הווייטנאמיים, עלינו להבין את המאפיינים של העם הווייטנאמי.

Báo Nhân dânBáo Nhân dân14/07/2023

העם הווייטנאמי יבין בצורה הטובה ביותר את הצרכים והמאפיינים של עמו, ובכך יתפוס את מאפייני הנתונים הווייטנאמיים. זהו הבסיס ליישום מוצלח של טכנולוגיה לשירות חייהם של העם הווייטנאמי.
עיתון Nhan Dan ניהל שיחה עם ד"ר דאו דוק מין, המנכ"ל של חברת VinBigData Joint Stock Corporation ( Vingroup Corporation) על איסוף, שימוש ותפקיד ביג דאטה בפיתוח בינה מלאכותית בווייטנאם, ובמיוחד תפקידם של העם הווייטנאמי בבעיית הנתונים הווייטנאמית.

PV: אדוני, האם תוכל לספר לנו על תפקידם וערכם של נתונים באימון בינה מלאכותית?

מר דאו דוק מין: הצלחתה של בינה מלאכותית תלויה במידה רבה בידיעה כיצד לבחור, לאסוף ולעבד נתונים. כדי לאמן מודל בינה מלאכותית איכותי, אנו מתחילים לעתים קרובות באימון ממסד נתונים גדול למדי.

לאחר מכן, כאשר המודל ייפרס וייבדק, איסוף ועיבוד נתונים מתמשכים ימלאו תפקיד חשוב מאוד בשיפור ושכלול איכות המודל.

הנתונים חייבים לעמוד בסטנדרטים מבחינת כמות, איכות, גיוון ואוניברסליות. לדוגמה, בתהליך פיתוח מוצר העוזר הווירטואלי ViVi עבור אנשים וייטנאמים, כדי להכשיר אותם, היינו צריכים לאסוף ולעבד עשרות אלפי שעות של נתונים באיכות גבוהה, ממאות אלפי קולות מאזורים שונים, גילאים ומגדרים מגוונים, עם תוכן המשתרע על פני מאות תחומים,...

הנתונים הגולמיים עוברים תחילה ניקוי, תווית ועיבוד באמצעות שלבים רבים כדי ליצור את מקור הנתונים האיכותי ביותר שיוזן למודל הבינה המלאכותית, ובכך לשפר את דיוק ViVi. מספר זה מגיע כמעט למקסימום: >98%.

איסוף ועיבוד של אלפי שעות של נתונים הוא יקר ומסובך מאוד. אבל אנחנו צריכים נתונים טובים כדי שתהיה לנו בינה מלאכותית איכותית. ChatGPT או Bard (הצ'אטבוט של גוגל) שניהם מאומנים על מקורות נתונים עצומים שנאספו ממקורות רבים ושונים באינטרנט.

כדי שבינה מלאכותית תצליח, יש לאמן אותה על מקורות נתונים גדולים ומגוונים, כך שהתוצאות שיופקו יהיו מדויקות ביותר. להיפך, כדי לנתח ביג דאטה, עלינו להשתמש בבינה מלאכותית כדי להבטיח את היכולת לעבד נתונים בצורה מדויקת בקנה מידה גדול, ובכך ליצור תוצאות שהן החלטיות או מנבאות יותר.

זהו קשר בין בינה מלאכותית לביג דאטה.

PV: אנא ספר לנו על תהליך הבחירה והאיסוף של נתונים עבור למידת מכונה. כיצד ייאספו נתונים אלה ומאילו מקורות? במיוחד כאשר המקום שמחזיק במידע הרב ביותר על משתמשים וייטנאמים הוא אתרי הרשתות החברתיות של חברות זרות (גוגל, פייסבוק...).

מר דאו דוק מין: הצעד הראשון בתהליך הבחירה והאיסוף של נתונים עבור מודלים של למידת מכונה הוא להבין מהי בחירה טובה. אנו יכולים להתייחס למודל 5V של ביג דאטה, מקור נתונים טוב יכלול את כל 5 הגורמים: נפח, ערך, מגוון, מהירות ואמיתות.

בדרך כלל, כדי ליצור את מודל הבינה המלאכותית הטוב ביותר עבור יישום מעשי, מקור נתונים טוב יצטרך להיות גם מגוון ואוניברסלי על פני בעיות דומות רבות, כמו גם ספציפי ואישיבידואלי לאותו יישום.

עובדה היא שהמקור הגדול ביותר לנתונים אנושיים הוא האינטרנט והרשתות החברתיות. מקור נתונים זה נמצא ברובו בבעלות חברות זרות. עם זאת, נתונים יכולים להגיע ממקורות רבים ושונים, ולווייטנאם עדיין יש את היתרון של גישה למקורות נתונים משלה. בנוסף, ישנן בעיות נתונים שרק העם הווייטנאמי יכול לפתור. מכיוון שאנחנו אלה שמבינים את המאפיינים של "נתונים וייטנאמיים", מבינים את הצרכים והמאפיינים של העם הווייטנאמי, ובכך מיישמים בהצלחה טכנולוגיה כדי לשרת את חייהם של העם הווייטנאמי.

עבור ViVi, הבעיה הראשונה ש-VinBigData הציבה לעצמה הייתה להביא מוצר עוזר קולי המיוצר על ידי וייטנאמים, עבור וייטנאמים. כלומר, עלינו לשלוט במקורות נתונים וייטנאמיים, לשלב אותם עם טכנולוגיית בינה מלאכותית כדי להביא מוצר ישים ביותר, המשרת בצורה אופטימלית את צרכי העם הווייטנאמי.

מתוך מטרות אלו, אנו מבינים מה והיכן עלינו לאסוף מקורות נתונים לצורך הדרכה. מקור נתונים זה אינו בהכרח חייב להיות מקורות הנתונים העצומים ברשת.

מתוך רצון לשלוט בנתונים ובטכנולוגיה וייטנאמיים, מאז הקמתה, VinBigData בנתה מקורות נתונים משלה הייחודיים לעם הווייטנאמי. כמות הנתונים הכוללת שבבעלותנו הגיעה ליותר מ-3,500 טרה-בייט. באופן ספציפי, יש לנו: נתונים על מיליוני קולות רב-אזוריים בווייטנאם; יותר מ-2 מיליון תמונות רפואיות ממקורות רבים ושונים; מיליוני נתונים על תמונות מצלמה של אובייקטים מרובים בווייטנאם (אנשים, כלי רכב וחפצים), ועשרות מאגרי מידע רב-תחומיים שונים..., שכולם נאספו, נוקו, עובדו ותויגו.

בפרט, בשנת 2021, הכרזנו גם על פרויקט ריצוף 1000 גנומים וייטנאמיים (שפורסם על ידי מכון המחקר Big Data - קודמו של VinBigData), והפך לאחת היחידות המחזיקות במאגר הגנומים הוייטנאמי הגדול ביותר. תוצאת מחקר זו משותפת ועדיין משותפת עם קהילת הרופאים והגנטיקאים, במטרה לפתח רפואה מותאמת אישית עבור וייטנאם בעתיד.

PV : מה קורה לאחר איסוף הנתונים וכיצד הם מתוקננים? האם ככל שהנתונים גדולים יותר, כך ייטב?

מר דאו דוק מין: כפי שאמרתי, נפח הוא אחד הגורמים החשובים באיסוף נתונים. עם זאת, אני רוצה גם להדגיש כי: אם הם לא נבחרים, מנוקים ומסווגים בצורה ברורה, ביג דאטה לבדו אינו מספיק.

בדרך כלל, נתונים יעברו מחזור עיבוד בסיסי הכולל: איסוף (נתונים מובנים ולא מובנים), אחסון (הנתונים מאוחסנים במערכת מסד נתונים), עיבוד (הכולל סדרה של שלבים כגון סינון, ניקוי, תיוג, שיפור נתונים, חילוץ/סינתזה של מידע, וכן ויזואליזציה של נתונים) וניתוח. תהליך זה יכול לחזור על עצמו פעמים רבות במהלך הפיתוח וההשלמה של מערכת בינה מלאכותית.

הדבר החשוב הוא איזה ערך יביא הנתונים לחיים? זה מה ש-VinBigData מטפחת במשך כמעט 5 שנים של מחקר ופיתוח מוצרים. אנו מאמינים שרק כאשר הטכנולוגיה באמת תיכנס לחיים, תפתור בעיות חברתיות ותשפר את חייהם של אנשים, המחקר יצליח באמת.

PV: דיברת לאחרונה הרבה על איך אנחנו אוספים ויוצרים מחסני נתונים משלנו. אז מה יהיו הקריטריונים לקביעת גבולות איסוף הנתונים והשימוש בהם כדי להבטיח את זכויות המשתמש?

מר דאו דוק מין: תהליך איסוף ועיבוד נתונים דורש תקנות חוקיות או תקני אבטחה כדי להגן על משתמשים וגם על עסקים. וייטנאם עדיין נמצאת בתהליך של בנייה ושכלול של סטנדרטים ספציפיים להגנה על נתוני משתמשים.

כבר קיימים לא מעט תקנים בעולם . לדוגמה: GDPR – תקן הגנת נתוני המשתמשים של האיחוד האירופי; או PCI-DSS – תקן שמטרתו להגן על משתמשי תשלום בכרטיס אשראי.

כאשר אנו רוצים לפופולרי או להביא מוצרים וייטנאמיים לשוק הבינלאומי, עמידה בתקנים בינלאומיים אלה היא הכרחית ביותר.

בעתיד הקרוב, כדי להבטיח את זכויות המשתמשים, VinBigData שואפת ליצור שקיפות בתהליך איסוף ושימוש בנתונים, כאשר מטרות ויעדי איסוף ושימוש בנתונים יפורסמו לציבור. במיוחד כאשר מדובר בנתונים שבבעלות יחידים.

נכון לעכשיו, VinBigData חתמה עם שורה של ארגונים בינלאומיים כדי להבטיח את ביטחונם וזכויותיהם של המשתמשים. לאחר מכן, אנו מקווים להגיע להסכמה בין עסקים לממשלה על מנת לבנות בקרוב מסדרון משפטי וכן סטנדרטים משפטיים להגנה על נתוני משתמשים.

PV: כאשר ברשותה ביג דאטה, כיצד בינה מלאכותית תתמודד עם סיכונים או פגיעויות אבטחת מידע?

מר דאו דוק מין: אם משתמשים בו כראוי,   נתונים יהיו נכס יקר ערך. הסיכון לאובדן ודליפת נתונים הוא נושא הדורש אמצעי אבטחה מההתחלה.

עד שמשהו יקרה, לעתים קרובות איננו מבינים במלואה את החשיבות של אבטחת מידע. אבל כשמשהו יקרה, הנזק יהיה עצום. לאחרונה, דלפו נתונים של יותר מ-200 מיליון משתמשי טוויטר. פרטי משתמשים נמכרו בפומבי בפלטפורמות רבות ושונות. נניח שאם כל מיליוני המשתמשים הללו היו מגישים תביעה, טוויטר הייתה סובלת מהפסדים עצומים.

אם דליפת הנתונים היא טכנית בלבד, הנזק בדרך כלל קטן יותר. אבל אם הדליפה קשורה לגניבת נתונים מכוונת, ההשלכות הן מאוד בלתי צפויות. עבור אנשים פרטיים, רשעים יכולים להשתמש במידע שהודלף באופן מלא למטרות בלתי חוקיות רבות ושונות. באשר לעסקים, דליפת המידע לא רק גורמת להפסדים כספיים עצומים כדי לתקן בעיות קשורות, אלא גם גורמת נזק למוניטין ולמותג בשוק.

PV : אילו פתרונות נדרשים כדי "לתקן" את הפגיעויות הללו ולשפר את אבטחת המידע, אדוני?

מר דאו דוק מין: הפתרון הראשון והשימושי ביותר הוא מניעה מההתחלה: בניית ציוד להגנה על אבטחת מידע ובטיחות; הגנה רב-שכבתית; הפעלת התהליך הנכון.

באופן ספציפי, מניעת בטיחות ואבטחה כוללת רבדים רבים ושונים. בנוסף להשקעה בציוד אבטחה ובטיחות; יש צורך לבנות בו זמנית תהליך לעיבוד ואינטראקציה עם משתמשים ונתונים, לקבוע תהליך בקרת מחזור חיים קפדני של נתונים, ובמקביל לשפר את המיומנויות והמודעות לאבטחת מידע של המשתמשים וצוות התפעול, ולהקצות זכויות שימוש מתאימות בנתונים (למי יש את הזכות לגשת ולהשתמש באילו נתונים?).

מצד שני, עסקים צריכים גם לזהות ולהיות גמישים ביישום מדיניות אבטחת מידע, לסווג את רמת הרגישות ורמת האבטחה של כל סוג נתונים על מנת שיהיו להם אמצעי אבטחה מתאימים, תוך הימנעות מיישום מכני של מדיניות אבטחת מידע הדוק מדי, דבר שלעיתים יכול להפריע לתהליך פיתוח וניצול הנתונים.

במיוחד עבור יחידות המשתמשות בנתונים לצורך פיתוח, סיווג נתונים חשוב אף יותר. מכיוון שנתונים יצטרכו להסתובב הרבה בין מחלקות שונות.

עסקים צריכים להיות מוכנים לתרחיש הגרוע ביותר, עם מומחים רלוונטיים הנמצאים בהישג יד כדי למזער את הנזק ככל האפשר.

PV : 2023 תהיה שנת הנתונים. מהן נקודות החוזק והחולשה של וייטנאם בתחום הנתונים? לדעתך, מה עלינו להתכונן לשנה מוצלחת של נתונים דיגיטליים?

מר דאו דוק מין: 2023 תהיה שנת הנתונים הדיגיטליים עבור וייטנאם. מבחינת יתרונות, יש לנו יתרון בתחום הנתונים. אוכלוסיית וייטנאם מונה 100 מיליון. מתוכם, שיעור הצעירים המשתמשים בטלפונים חכמים, מחשבים אישיים וכו' גבוה. זהו מאפיין לקידום נתונים והצגת בעיות שיש לפתור באמצעות בינה מלאכותית בווייטנאם. החוזק השני הוא אנשים. באופן ספציפי, בווייטנאם יש את המומחים המובילים בעולם בתחום הבינה המלאכותית. בנוסף, לצעירים בתחום טכנולוגיית המידע במדינה יש בסיס טוב מאוד במתמטיקה. אלו שני משאבי אנוש שניתן לשלב כדי ליצור מוצרים בסטנדרטים בינלאומיים.

בנוגע למגבלות, אנו מתקשים בתקינה של נתונים. בווייטנאם, לכל מקום, לכל מיזם, לכל יחידה מנהלית יש נתונים שונים. הנתונים אינם סטנדרטיים, מקוטעים ואינם מסונכרנים. אנו זקוקים גם למסדרון משפטי ספציפי יותר כדי לתקנן נתונים.

כדי שתהיה שנת נתונים דיגיטלית מוצלחת, וייטנאם צריכה להבין את הנקודות המרכזיות וגם לנצל את כוחה של הטכנולוגיה. השילוב בין ביג דאטה לבינה מלאכותית יהיה המנוף לשנת הנתונים הדיגיטליים של וייטנאם.

על ידי שליטה בנתונים מכל הרמות, החל מהמרכז ועד המקומי, הממשל והארגונים, וייטנאם תוכל "לשמר" את המשאבים הדיגיטליים היקרים של המדינה. בשילוב עם טכנולוגיות אינטלקטואליות מתקדמות, נוכל "לנצל" משאב זה במלואו.

"העם הווייטנאמי מחזיק בבעלות על המידע הווייטנאמי" גם עוזר לווייטנאם להימנע ממצב של: קנייה חוזרת של מוצרים שנוצלו על ידי משאביה.

כיום, ובמיוחד במהפכה 4.0, לווייטנאם יש יתרונות רבים בהשוואה למהפכות קודמות. יש לנו הזדמנות לנצל את הטכנולוגיה כדי להדביק במהירות את הפער ולשפר את מעמדה של המדינה על מפת העולם. אני חושב שהמפתח להשגת מטרה זו מהר יותר ובת קיימא יותר הוא "נתונים" ו"אנשים".

PV: לאחר שעבדת בחברת בינה מלאכותית גדולה בארה"ב, מה גרם לך לחזור לווייטנאם?

מר דאו דוק מין: בשנת 2017 חזרתי לווייטנאם. ניתן לומר שזו הייתה נקודת מפנה. בזמן שעבדתי בארה"ב, למרות שעבדתי על פרויקטים ממשלתיים גדולים רבים, התוצאות שהשגתי היו לעתים קרובות רק כמה צעדים בתהליך עיבוד גדול. היו אפילו פעמים שלא ידעתי אם הפתרונות שפיתחתי נוצלו או לא, מכיוון שנהלי האבטחה של הפרויקט היו מחמירים מאוד.

בינתיים, וייטנאם נמצאת בשלבי פיתוח, וישנן בעיות רבות בנוגע לביג דאטה ובינה מלאכותית שצריך לפתור. באותו זמן, קיבלתי הזמנה מפרופסור וו הא ואן: לחזור לווייטנאם כדי להגשים את המטרה של פיתוח פתרונות טכנולוגיים וייטנאמיים שישרתו את חייהם של העם הווייטנאמי.

אני מרגיש שאם אשאר בווייטנאם, אוכל לעבוד על בעיות עם השפעה גדולה יותר. זוהי אחת הנקודות החשובות שהופכות את חזרתי למשמעותית הרבה יותר.

PV: תודה על השיחה הזו.

  • ארגון הפקה: Viet Anh - Hong Van
  • ביצוע: טי אויאן
  • צילום: טאנה דאט
Nhandan.vn

תגובה (0)

No data
No data

באותה קטגוריה

תמונה של עננים כהים "שעומדים להתמוטט" בהאנוי
הגשם ירד, הרחובות הפכו לנהרות, אנשי האנוי הביאו סירות לרחובות
שחזור פסטיבל אמצע הסתיו של שושלת לי במצודת טאנג לונג הקיסרית
תיירים מערביים נהנים לקנות צעצועים של פסטיבל אמצע הסתיו ברחוב האנג מא כדי לתת לילדיהם ונכדיהם.

מאת אותו מחבר

מוֹרֶשֶׁת

דְמוּת

עֵסֶק

No videos available

אירועים אקטואליים

מערכת פוליטית

מְקוֹמִי

מוּצָר