س: سيدي، هل يمكنك أن تخبرنا عن دور وقيمة البيانات في تدريب الذكاء الاصطناعي؟
السيد داو دوك مينه: يعتمد نجاح الذكاء الاصطناعي بشكل كبير على معرفة كيفية اختيار البيانات وجمعها ومعالجتها. لتدريب نموذج ذكاء اصطناعي عالي الجودة، نبدأ عادةً بالتدريب من قاعدة بيانات ضخمة نسبيًا.
وبعد ذلك، عندما يتم نشر النموذج واختباره، فإن جمع البيانات ومعالجتها بشكل مستمر سيلعب دورًا مهمًا للغاية في تحسين جودة النموذج وإتقانها.
يجب أن تستوفي البيانات معايير الجودة والكم والتنوع والشمولية. على سبيل المثال، أثناء تطوير منتج ViVi Virtual Assistant للفيتناميين، بهدف تدريبهم، كان علينا جمع ومعالجة عشرات الآلاف من ساعات البيانات عالية الجودة، من مئات الآلاف من الأصوات من مختلف المناطق والأعمار والأجناس، بمحتوى يغطي مئات المجالات...
تُنظَّف البيانات الخام وتُعَلَّم وتُعالَج في البداية عبر عدة خطوات لإنشاء مصدر بيانات عالي الجودة يُغذَّى به نموذج الذكاء الاصطناعي، مما يُحسِّن دقة ViVi. يصل هذا الرقم إلى الحد الأقصى تقريبًا: >98%.
إن جمع ومعالجة آلاف الساعات من البيانات أمرٌ مكلفٌ ومعقدٌ للغاية. لكننا نحتاج إلى بياناتٍ جيدةٍ لنمتلك ذكاءً اصطناعيًا عالي الجودة. يتم تدريب كلٍّ من ChatGPT و Bard (روبوت الدردشة من جوجل) على مصادر بياناتٍ ضخمةٍ جُمعت من مصادرَ مختلفةٍ على الإنترنت.
لكي ينجح الذكاء الاصطناعي، يجب تدريبه على مصادر بيانات ضخمة ومتنوعة، لتكون النتائج الناتجة دقيقة للغاية. على العكس، لتحليل البيانات الضخمة، نحتاج إلى استخدام الذكاء الاصطناعي لضمان القدرة على معالجة البيانات بدقة على نطاق واسع، وبالتالي التوصل إلى نتائج أكثر حسمًا وتنبؤًا.
إنه صدى بين الذكاء الاصطناعي والبيانات الضخمة.
PV: هل يمكنك إخبارنا عن عملية اختيار وجمع البيانات للتعلم الآلي؟ كيف سيتم جمع هذه البيانات ومن أي مصادر؟ خاصةً وأن المصدر الرئيسي للمعلومات حول المستخدمين الفيتناميين هو مواقع التواصل الاجتماعي للشركات الأجنبية (جوجل، فيسبوك...).
السيد داو دوك مينه: الخطوة الأولى في عملية اختيار وجمع البيانات لنماذج التعلم الآلي هي فهم الخيار الأمثل. يمكننا الإشارة إلى نموذج 5V للبيانات الضخمة، حيث يتضمن مصدر البيانات الجيد جميع العوامل الخمسة: الحجم، والقيمة، والتنوع، والسرعة، والصدق.
وبشكل عام، لإنشاء أفضل نموذج ذكاء اصطناعي لتطبيق عملي، يتعين على مصدر البيانات الجيد أن يكون متنوعًا وعالميًا عبر العديد من المشكلات المتشابهة، بالإضافة إلى كونه محددًا وفرديًا لهذا التطبيق.
من المعروف أن الإنترنت وشبكات التواصل الاجتماعي تُمثلان المصدر الأكبر للبيانات البشرية. وتمتلك شركات أجنبية معظم هذه المصادر. ومع ذلك، يمكن الحصول على البيانات من مصادر متعددة، ولا تزال فيتنام تتمتع بميزة الوصول إلى مصادر بياناتها الخاصة. علاوة على ذلك، هناك مشاكل تتعلق بالبيانات لا يستطيع حلها إلا الفيتناميون. لأننا نفهم خصائص "البيانات الفيتنامية"، ونفهم احتياجات وخصائص الشعب الفيتنامي، نطبّق التكنولوجيا بنجاح لخدمة حياة الفيتناميين.
بالنسبة لشركة ViVi، كانت أولى تحديات VinBigData هي تقديم مساعد صوتي من صنع فيتناميين، ولهم. أي أننا يجب أن نتقن مصادر البيانات الفيتنامية، وأن ندمج تقنيات الذكاء الاصطناعي لتقديم منتج عملي للغاية، يلبي احتياجات الفيتناميين على النحو الأمثل.
بناءً على هذه الأهداف، نفهم ما نحتاجه من مصادر بيانات للتدريب وأين نجمعها. ليس بالضرورة أن يكون مصدر البيانات هذا هو مصادر البيانات الضخمة على الإنترنت.
انطلاقًا من حرصها على إتقان البيانات والتكنولوجيا الفيتنامية، قامت شركة VinBigData منذ تأسيسها ببناء مصادر بيانات خاصة بها، فريدة من نوعها للشعب الفيتنامي. وقد تجاوز إجمالي حجم البيانات التي نمتلكها 3500 تيرابايت. ونمتلك تحديدًا: بيانات عن ملايين الأصوات من مناطق مختلفة في فيتنام؛ وأكثر من مليوني صورة طبية من مصادر متنوعة؛ وملايين البيانات عن صور كاميرات لأشياء متعددة في فيتنام (أشخاص، ومركبات، وأشياء أخرى)، وعشرات قواعد البيانات متعددة التخصصات... وقد جُمعت جميعها وحُررّت وعُولجت ووُسمت.
على وجه الخصوص، في عام ٢٠٢١، أعلنا أيضًا عن مشروع تسلسل ١٠٠٠ جينوم فيتنامي (الذي نشره معهد أبحاث البيانات الضخمة - السلف لـ VinBigData)، ليصبح بذلك أحد الوحدات المالكة لأكبر قاعدة بيانات جينومية فيتنامية. وقد تم، ولا يزال، مشاركة نتائج هذا البحث مع مجتمع الأطباء وعلماء الوراثة، بهدف تطوير طب شخصي لفيتنام مستقبلًا.
PV : ماذا يحدث بعد جمع البيانات، وكيف يتم توحيدها؟ هل كلما كبرت البيانات، كان ذلك أفضل؟
السيد داو دوك مينه: كما ذكرتُ، يُعدّ الحجم أحد أهم العوامل عند جمع البيانات. مع ذلك، أودّ التأكيد أيضًا على أنه: إذا لم تُنتقى البيانات وتُنظّم وتُصنّف بوضوح، فإنّ البيانات الضخمة وحدها لا تكفي.
عادةً، تمر البيانات بدورة معالجة أساسية تشمل: التجميع (البيانات المهيكلة وغير المهيكلة)، والتخزين (حيث تُخزَّن البيانات في نظام قاعدة بيانات)، والمعالجة (بما في ذلك سلسلة من الخطوات مثل التصفية، والتنظيف، والتصنيف، وتحسين البيانات، واستخراج/تركيب المعلومات، بالإضافة إلى تصور البيانات)، والتحليل. يمكن تكرار هذه العملية عدة مرات أثناء تطوير وإكمال نظام الذكاء الاصطناعي.
الأهم هو ما القيمة التي ستُضيفها البيانات إلى الحياة؟ هذا ما دأبت شركة VinBigData على رعايته وتطوير منتجاتها على مدار ما يقرب من خمس سنوات. نؤمن بأنه فقط عندما تدخل التكنولوجيا إلى الحياة، وتحل المشكلات الاجتماعية، وتُحسّن حياة الناس، سيُحقق البحث نجاحًا حقيقيًا.
PV: لقد تحدثتَ مؤخرًا كثيرًا عن كيفية جمعنا وإنشاء مستودعات بياناتنا الخاصة. فما هي المعايير التي ستُحدد حدود جمع البيانات واستخدامها لضمان حقوق المستخدمين؟
السيد داو دوك مينه: تتطلب عملية جمع البيانات ومعالجتها لوائح قانونية ومعايير أمنية لحماية المستخدمين والشركات على حد سواء. ولا تزال فيتنام في طور وضع وتطوير معايير محددة لحماية بيانات المستخدمين.
هناك بالفعل العديد من المعايير العالمية . على سبيل المثال: اللائحة العامة لحماية البيانات (GDPR) - معيار حماية بيانات المستخدم في الاتحاد الأوروبي؛ أو PCI-DSS، وهو معيار يهدف إلى حماية مستخدمي بطاقات الدفع.
عندما نريد نشر المنتجات الفيتنامية أو جلبها إلى السوق الدولية، فإن الامتثال لهذه المعايير الدولية ضروري للغاية.
في المستقبل القريب، ولضمان حقوق المستخدمين، تسعى VinBigData جاهدةً إلى تعزيز الشفافية في عملية جمع البيانات واستخدامها، مع نشر أهدافها وأغراضها، لا سيما تلك التي يملكها الأفراد.
وقّعت شركة VinBigData حاليًا اتفاقيات مع عدد من المنظمات الدولية لضمان أمن وحقوق المستخدمين. ونأمل بعد ذلك في التوصل إلى توافق بين الشركات والحكومة لإنشاء ممر قانوني قريبًا، بالإضافة إلى وضع معايير قانونية لحماية بيانات المستخدمين.
س: عند امتلاك البيانات الضخمة، كيف ستواجه الذكاء الاصطناعي المخاطر أو ثغرات أمن البيانات؟
السيد داو دوك مينه: إذا تم استخدامه بشكل صحيح، ستكون البيانات مصدرًا ثمينًا. يُعدّ خطر فقدان البيانات أو تسريبها مشكلةً تتطلب اتخاذ تدابير أمنية منذ البداية.
حتى يحدث أمرٌ ما، غالبًا ما لا ندرك تمامًا أهمية أمن البيانات. ولكن عندما يحدث أمرٌ ما، يكون الضرر هائلًا. مؤخرًا، سُرّبت بيانات أكثر من 200 مليون مستخدم لتويتر. وبيعت معلومات المستخدمين علنًا على منصات مختلفة. لنفترض أن كل هؤلاء الملايين من المستخدمين رفعوا دعوى قضائية، لتكبد تويتر خسائر فادحة.
إذا كان تسريب البيانات تقنيًا بحتًا، فعادةً ما يكون الضرر أقل. أما إذا كان التسريب متعلقًا بسرقة بيانات متعمدة، فإن العواقب تكون غير متوقعة. بالنسبة للأفراد، يمكن للمجرمين استغلال المعلومات المسربة بالكامل لأغراض غير قانونية متنوعة. أما بالنسبة للشركات، فإن تسريب المعلومات لا يتسبب فقط في خسائر مالية فادحة لإصلاح المشاكل ذات الصلة، بل يُلحق أيضًا الضرر بالسمعة والعلامة التجارية في السوق.
PV : ما هي الحلول المطلوبة لـ"إصلاح" هذه الثغرات وتحسين أمن البيانات، يا سيدي؟
السيد داو دوك مينه: الحل الأول والأكثر فائدة هو الوقاية من البداية: بناء المعدات اللازمة لحماية أمن المعلومات وسلامتها؛ والحماية متعددة الطبقات؛ وتشغيل العملية الصحيحة.
على وجه التحديد، تشمل الوقاية من السلامة والأمن طبقاتٍ متعددة. فبالإضافة إلى الاستثمار في معدات الأمن والسلامة، من الضروري بناء آلية لمعالجة البيانات والتفاعل معها، ووضع آلية صارمة لمراقبة دورة حياة البيانات، وفي الوقت نفسه تحسين مهارات ووعي المستخدمين وفريق التشغيل بأمن المعلومات، وتحديد صلاحيات استخدام البيانات المناسبة (من يملك الحق في الوصول إلى البيانات واستخدامها؟).
ومن ناحية أخرى، تحتاج الشركات أيضًا إلى تحديد سياسات أمن البيانات والمرونة في تطبيقها، وتصنيف مستوى الحساسية ومستوى الأمان لكل نوع من أنواع البيانات للحصول على تدابير أمنية مناسبة، وتجنب تطبيق سياسات أمن المعلومات بشكل ميكانيكي بشكل صارم للغاية، مما قد يعيق في بعض الأحيان عملية تطوير البيانات واستغلالها.
يُعد تصنيف البيانات أكثر أهميةً، خاصةً بالنسبة للوحدات التي تستخدم البيانات لأغراض التطوير، إذ ستُضطر البيانات إلى التداول بكثرة بين مختلف الأقسام.
يجب على الشركات أن تكون مستعدة لأسوأ السيناريوهات، مع وجود الخبراء ذوي الصلة في متناول اليد لتقليل الأضرار إلى أقصى حد ممكن.
PV : سيكون عام ٢٠٢٣ عام البيانات. ما هي نقاط قوة وضعف فيتنام في مجال البيانات؟ برأيك، ما الذي نحتاجه للتحضير لعام ناجح من البيانات الرقمية؟
السيد داو دوك مينه: سيكون عام 2023 عام البيانات الرقمية في فيتنام. من حيث المزايا، لدينا ميزة في مجال البيانات. يبلغ عدد سكان فيتنام 100 مليون نسمة، ومن بينهم نسبة عالية من الشباب الذين يستخدمون الهواتف الذكية وأجهزة الكمبيوتر الشخصية، وما إلى ذلك. هذه ميزة لتعزيز البيانات وطرح المشكلات التي تحتاج إلى حل باستخدام الذكاء الاصطناعي في فيتنام. أما نقطة القوة الثانية فهي الإنسان. وتحديدًا، تمتلك فيتنام خبراء عالميين رائدين في مجال الذكاء الاصطناعي. بالإضافة إلى ذلك، تتمتع الكوادر البشرية الشابة في مجال تكنولوجيا المعلومات في البلاد بأساس متين في الرياضيات. هاتان المادتان البشريتان يمكن دمجهما لإنتاج منتجات بمعايير دولية.
فيما يتعلق بالقيود، نواجه صعوبة في توحيد البيانات. في فيتنام، تختلف بيانات كل مكان وكل مؤسسة وكل وحدة إدارية. البيانات غير موحدة ومجزأة وغير متزامنة. كما نحتاج إلى مسار قانوني أكثر دقة لتوحيد البيانات.
لتحقيق عام بيانات رقمية ناجح، تحتاج فيتنام إلى استيعاب النقاط الأساسية والاستفادة من قوة التكنولوجيا. وسيكون التناغم بين البيانات الضخمة والذكاء الاصطناعي بمثابة دافع قوي لعام البيانات الرقمية في فيتنام.
بإتقان البيانات من جميع المستويات، من المركزية إلى المحلية، والحكومة والشركات، ستتمكن فيتنام من الحفاظ على مواردها الرقمية القيّمة. وبدمج التقنيات الفكرية المتقدمة، سنتمكن من استغلال هذه الموارد على أكمل وجه.
إن كون البيانات الفيتنامية ملكًا للشعب الفيتنامي يساعد فيتنام أيضًا على تجنب الموقف التالي: إعادة شراء المنتجات المستغلة بمواردها الخاصة.
في الوقت الحاضر، وتحديدًا في عصر الثورة الصناعية الرابعة، تتمتع فيتنام بمزايا عديدة مقارنةً بالثورات السابقة. لدينا فرصة للاستفادة من التكنولوجيا لمواكبة التطور السريع وتحسين مكانة البلاد على الخريطة العالمية. أعتقد أن مفتاح تحقيق هذا الهدف بشكل أسرع وأكثر استدامة يكمن في "البيانات" و"الإنسان".
س: بعد أن عملت في شركة كبيرة للذكاء الاصطناعي في الولايات المتحدة، ما الذي دفعك إلى العودة إلى فيتنام؟
السيد داو دوك مينه: في عام ٢٠١٧، عدتُ إلى فيتنام. ويمكن القول إنها كانت نقطة تحول. أثناء عملي في الولايات المتحدة، ورغم مشاركتي في العديد من المشاريع الحكومية الكبرى، إلا أن النتائج التي حققتها كانت غالبًا مجرد خطوات قليلة في عملية معالجة واسعة النطاق. حتى أنني لم أكن متأكدًا في بعض الأحيان مما إذا كانت الحلول التي طورتها قد استُخدمت أم لا، نظرًا لصرامة إجراءات الأمن في المشروع.
في الوقت نفسه، تمر فيتنام بمرحلة تطوير، وهناك العديد من المشكلات المتعلقة بالبيانات الضخمة والذكاء الاصطناعي التي تحتاج إلى حل. في ذلك الوقت، تلقيتُ دعوة من البروفيسور فو ها فان: "أعود إلى فيتنام لتحقيق هدفي في تطوير حلول تكنولوجية فيتنامية تخدم حياة الشعب الفيتنامي".
أشعر أنه ببقائي في فيتنام، سأتمكن من العمل على قضايا ذات تأثير أكبر. وهذه إحدى النقاط المهمة التي تجعل عودتي أكثر أهمية.
شكرا لك على هذه المحادثة .
- منظمة الإنتاج: فيتنام آنه - هونغ فان
- أداء: ثي أوين
- الصورة: ثانه دات
تعليق (0)