الدكتور داو دوك مينه: "إتقان البيانات الفيتنامية هو الخطوة الأولى في تطوير وإتقان التكنولوجيا الفيتنامية"
Báo Thanh niên•27/05/2024
بعد أن عملت في منظمة ذكاء اصطناعي كبيرة في الولايات المتحدة، لماذا قررت العودة إلى فيتنام للانضمام إلى VinBigdata؟ أثناء عملي في الولايات المتحدة، ورغم مشاركتي في العديد من المشاريع الحكومية الكبيرة، إلا أن النتائج التي حققتها كانت غالبًا مجرد خطوات قليلة في عملية معالجة واسعة النطاق. وفي كثير من الأحيان، ونظرًا لإجراءات السرية الصارمة للغاية للمشاريع، لم أكن أعرف حتى كيفية استخدام الحلول التي طورتها. في عام 2017، عدت إلى فيتنام عندما كانت في مرحلة التطوير وكانت هناك العديد من المشكلات المتعلقة بالبيانات الضخمة والذكاء الاصطناعي التي تحتاج إلى حل. قبلت دعوة البروفيسور فو ها فان لتحقيق هدف مشترك يتمثل في تطوير حلول تكنولوجية فيتنامية لخدمة حياة الشعب الفيتنامي. أجد عودتي إلى فيتنام أكثر أهمية بكثير لأنني سأتمكن من العمل على مشكلات ذات تأثير أكبر.
الدكتور داو دوك مينه في ورشة عمل
مركز نيفادا للمؤتمرات والمعارض
في استراتيجية تطوير الذكاء الاصطناعي، ما هو دور البيانات الضخمة وتأثيرها؟ تلعب البيانات دورًا بالغ الأهمية والقيمة في تدريب الذكاء الاصطناعي. لتدريب نموذج ذكاء اصطناعي عالي الجودة، غالبًا ما نبدأ بتدريب قاعدة بيانات ضخمة. لذلك، للحصول على ذكاء اصطناعي عالي الجودة، نحتاج أولًا إلى بيانات جيدة. يجب أن تلبي البيانات الجيدة معايير الكم والحجم والجودة والتنوع والشمولية. إن عملية جمع ومعالجة آلاف الساعات من البيانات، بدءًا من مرحلة تنظيف البيانات الخام، لإنشاء بيانات عالية الجودة تُغذّى نموذج الذكاء الاصطناعي، عملية مكلفة ومعقدة للغاية. على العكس من ذلك، لتحليل البيانات الضخمة، نحتاج إلى استخدام الذكاء الاصطناعي لضمان القدرة على معالجة البيانات بدقة على نطاق واسع، وبالتالي تحقيق نتائج أكثر حسمًا أو تنبؤًا. على سبيل المثال، أثناء تطوير منتج مساعد افتراضي للفيتناميين (ViVi)، كان علينا جمع ومعالجة عشرات الآلاف من ساعات البيانات الصوتية عالية الجودة، من مئات الآلاف من الأصوات من مناطق مختلفة، وأعمار وأجناس متنوعة، بمحتوى يغطي مئات المجالات... أو مؤخرًا، إطلاق ViGPT - "أول نسخة فيتنامية من ChatGPT للمستخدمين النهائيين" المُطورة من نموذج لغة ضخم مملوك بالكامل لشركة VinBigdata. تم تدريب هذا النموذج بناءً على 600 جيجابايت من البيانات الفيتنامية المُحسّنة من مجالات مختلفة. بفضل فهمنا للبيانات واللغة الفيتنامية، وجدنا نهجًا جديدًا لتقصير وقت إطلاق ViGPT في غضون 9 أشهر فقط بعد إطلاق ChatGPT. هذا هو التناغم بين البيانات الضخمة والذكاء الاصطناعي.
ما رأيك في ربط البحث بالقيمة العملية لخدمة المجتمع؟ - أعتقد أن البحث التكنولوجي لا ينجح حقًا إلا عندما يطبق عمليًا، ويحل المشكلات الاجتماعية، ويحسّن حياة الناس. لإنشاء منتجات تجارية عملية وحل المشكلات التجارية والاجتماعية، يجب علينا دائمًا الانتباه وطرح السؤال التالي: ما القيمة التي ستُضفيها البيانات على الحياة؟ حتى الآن، بحثنا في مجموعة متنوعة من المنتجات والحلول في مجالات ومهن مختلفة، أبرزها ViGPT، وVinDr - التي تُقدم حلول الذكاء الاصطناعي في تشخيص التصوير الطبي ، وVinBase - منصة للذكاء الاصطناعي، وVizone - مجموعة من حلول تحليل الصور الذكية.
مع الموظفين الرئيسيين في شركة VinBigdata في حدث لشركة Vingroup Corporation
مركز نيفادا للمؤتمرات والمعارض
تشهد الثورة الصناعية الرابعة تطورًا عالميًا قويًا. ما هي المزايا التي تعتقد أن فيتنام تتمتع بها؟ بالمقارنة مع الثورات السابقة، أعتقد أن فيتنام تتمتع حاليًا بالعديد من المزايا التي يمكنها تحقيقها في هذه الثورة الصناعية الرابعة، مما يساعد على تحسين مكانة البلاد على خريطة العالم . مفتاحا تحقيق هذا الهدف هما البيانات والأفراد. يبلغ عدد سكان فيتنام حاليًا ما يقرب من 100 مليون نسمة، منهم نسبة كبيرة من الشباب يستخدمون الهواتف وأجهزة الكمبيوتر الشخصية. بالإضافة إلى ذلك، لدينا خبراء مرموقين في مجال الذكاء الاصطناعي وموظفين شباب ذوي كفاءة عالية في تكنولوجيا المعلومات ولديهم أساس متين في الرياضيات. إذن ما هي القيود؟ أول هذه القيود هو أنه على الرغم من وجود عدد كبير من السكان، ما زلنا نواجه صعوبة في إتقان البيانات، وتحديدًا توحيد البيانات ومزامنتها في المرافق والوحدات التجارية والإدارية. بالإضافة إلى ذلك، نواجه أيضًا قيودًا أخرى مثل موارد الاستثمار المحدودة، وخاصة الاستثمار في البنية التحتية للحوسبة عالية الأداء.
برأيك، ما مدى أهمية إتقان البيانات الفيتنامية في رحلة إنشاء وإتقان التكنولوجيا لخدمة حياة الشعب الفيتنامي؟ يوجد حاليًا العديد من منتجات الذكاء الاصطناعي الرائدة عالميًا، وعادةً ما تكون منتجات تطبيقات الذكاء الاصطناعي مبنية على نماذج لغوية كبيرة مثل ChatGPT من OpenAI أو Bard من Google. ومع ذلك، فإن اللغة الفيتنامية ليست المجموعة اللغوية الأساسية لتطوير هذه المنتجات. لذلك، تتأثر جودة المحتوى الفيتنامي المخصص للمستخدمين بشكل أو بآخر، ويزداد احتمال حدوث أخطاء، والأخطر من ذلك، أخطاء في المعرفة الأساسية. بصفتنا شعبًا فيتناميًا، نتمتع بميزة الوصول إلى مصادر بياناتنا الخاصة. نحن فقط لدينا القدرة على فهم خصائص البيانات الفيتنامية واحتياجات وخصائص الشعب الفيتنامي. لذلك، فإن إتقان البيانات الفيتنامية هو في الواقع مفتاح إتقان التقنيات الأساسية، وهي التقنيات التي ستخدم الشعب الفيتنامي.
التدريب الداخلي لأعضاء VinBigdata
مركز نيفادا للمؤتمرات والمعارض
كيف يمكن الوصول إلى مصادر بيانات محددة، خاصةً وأن معظم الفيتناميين اليوم يستخدمون مواقع التواصل الاجتماعي من الخارج؟ في الواقع، يُعد الإنترنت وشبكات التواصل الاجتماعي المصدر الأكبر للبيانات البشرية اليوم (وليس الفيتناميين فقط). ومع ذلك، لا يزال بإمكاننا الوصول إلى البيانات وجمعها من مصادر مختلفة، بناءً على فهم خصائص البيانات الفيتنامية، وحسب الخصائص التي يحددها كل مشروع. على سبيل المثال، تحتوي نماذج GPT من OpenAI على مئات، بل تريليونات، من المعلمات، مُدربة على كميات هائلة من البيانات، وتكلف مليارات الدولارات. مقارنةً بها، اخترنا مسارًا مختلفًا تمامًا بناءً على أبحاثنا وقدراتنا ومواردنا: أي إنشاء نموذج باللغة الفيتنامية ببنية لا تتجاوز بضعة مليارات من المعلمات، مُدربة على مجموعة بيانات فيتنامية بحجم 600 جيجابايت جمعناها وحسّنّاها بأنفسنا، ولكن بقدرات معالجة مماثلة للغة الفيتنامية. تُظهر النتائج أن بنيتنا التي طورناها بأنفسنا قادرة على التحسين الذاتي، وتقصير وقت تدريب نموذج اللغة، وخفض التكاليف، مع ضمان جودته في الوقت نفسه. ما هي التحديات التي واجهتها أنت وفريقك في عملية البحث والتطوير لمنتجات الذكاء الاصطناعي؟ التحدي الأول هو بالتأكيد الوقت. تتسارع وتيرة تكنولوجيا الذكاء الاصطناعي وتشهد ازدهارًا هائلًا. ففي العالم، تُطلق شركات التكنولوجيا الرائدة منتجات عالية الجودة، تُحدّث وتُحسّن باستمرار. إذا تباطأنا ولم نُطلق المنتجات في الوقت المناسب، فسنتخلف حتمًا. من ناحية أخرى، إذا أردنا ابتكار منتجات قابلة للتطبيق وحل المشكلات الاجتماعية العملية، فعلينا أيضًا مراعاة تطوير الميزات المتميزة والخاصة والفريدة للمنتج.
عرض تقديمي في يوم الذكاء الاصطناعي في فيتنام (AI4VN 2023)
مركز نيفادا للمؤتمرات والمعارض
في الواقع، تضرر العديد من الأفراد والمؤسسات في فيتنام والعالم بشكل كبير بسبب تسريبات البيانات. كيف تنظرون إلى مسألة أمن البيانات؟ يمكن القول إن أي تطبيق اليوم ينبع من البيانات. عند التعامل مع البيانات، يجب علينا من جهة ضمان تطبيقها لخلق أفضل تقنية للحياة، ومن جهة أخرى، يجب علينا ضمان أمن بيانات الأفراد والمؤسسات. يُعد العامل البشري حلقة وصل بالغة الأهمية في عملية ضمان أمن البيانات، ويشمل ذلك المطورين ومستخدمي المنتجات والمستخدمين. بالنسبة للمطورين، يجب أن يكون الوعي بأمن البيانات حاضرًا منذ بداية جمع البيانات ومعالجتها. في كثير من الأحيان، حتى عندما لا تحدث مشكلة، لا ندرك أهمية أمن البيانات. ولكن في حالة حدوث تسريب للبيانات، يمكن أن يكون الضرر هائلاً. يمكن أن تحدث خروقات البيانات بسبب مشاكل فنية أو هجمات سرقة بيانات متعمدة. عند اختراق البيانات، يمكن أن يستخدم المجرمون معلومات الأفراد أو المؤسسات لأغراض غير قانونية، بينما قد تتكبد الشركات خسائر مالية لإصلاح المشاكل ذات الصلة، وحتى الضرر الذي قد يلحق بالعلامة التجارية.
الدكتور داو دوك مينه وفريق فين بيج داتا في حدث
مركز نيفادا للمؤتمرات والمعارض
بعد التطلع إلى إتقان التكنولوجيا لخدمة الشعب الفيتنامي، لا شك أن هناك خطوات نحو الانطلاق نحو العالمية. يجب على أي منظمة أو مؤسسة ترغب في طرح منتجاتها في السوق العالمية الالتزام بالمعايير الدولية. تتميز VinBigdata بنقاط قوة في الحلول والتكنولوجيا، لذا فإن وضع رؤية لغزو العالم أمر طبيعي. وبالطبع، لنشر منتجات وتطبيقات متنوعة، من الضروري التعاون مع وحدات دولية تتمتع بسنوات طويلة من الخبرة والفهم للمستخدمين حول العالم. شكرًا لكم!
تعليق (0)