دکتر دائو دوک مین: «تسلط بر دادههای ویتنامی اولین گام در توسعه و تسلط بر فناوری ویتنام است»
Báo Thanh niên•27/05/2024
با توجه به سابقهی کار در یک سازمان بزرگ هوش مصنوعی در ایالات متحده، چرا تصمیم گرفتید برای پیوستن به VinBigdata به ویتنام برگردید؟ در طول کار در ایالات متحده، اگرچه در بسیاری از پروژههای بزرگ دولتی شرکت داشتم، اما نتایجی که به دست میآوردم اغلب تنها چند مرحله در یک فرآیند پردازش بزرگ بود. بسیاری از اوقات، به دلیل رویههای بسیار سختگیرانهی محرمانگی پروژهها، حتی نمیدانستم که راهحلهایی که توسعه داده بودم چگونه استفاده میشوند. در سال ۲۰۱۷، زمانی که ویتنام در مرحلهی توسعه بود و مشکلات زیادی در رابطه با کلانداده و هوش مصنوعی وجود داشت که باید حل میشدند، به ویتنام بازگشتم. دعوت پروفسور وو ها ون را پذیرفتم تا به طور مشترک هدف توسعهی راهحلهای فناوری ویتنامی برای خدمت به زندگی مردم ویتنام را محقق کنیم. بازگشتم به ویتنام را بسیار معنادارتر میدانم زیرا میتوانم با تأثیر بیشتری روی مشکلات کار کنم.
دکتر دائو دوک مین در یک کارگاه آموزشی
ان وی سی سی
در استراتژی توسعه هوش مصنوعی، کلانداده چه نقش و تأثیری دارد، جناب؟ دادهها نقش بسیار مهم و ارزشمندی در آموزش هوش مصنوعی ایفا میکنند. برای آموزش یک مدل هوش مصنوعی با کیفیت بالا، اغلب با آموزش یک پایگاه داده بزرگ شروع میکنیم. بنابراین، برای داشتن هوش مصنوعی با کیفیت، ابتدا باید دادههای خوبی داشته باشیم. دادههای خوب باید از نظر کمیت و مقیاس، کیفیت، تنوع و جامعیت، استانداردهای لازم را داشته باشند. فرآیند جمعآوری و پردازش هزاران ساعت داده از مرحله پاکسازی دادههای خام تا ایجاد دادههای با بالاترین کیفیت برای تغذیه به مدل هوش مصنوعی، بسیار گران و پیچیده است. در مقابل، برای تجزیه و تحلیل کلانداده، باید از هوش مصنوعی استفاده کنیم تا توانایی پردازش دقیق دادهها در مقیاس بزرگ را تضمین کنیم و در نتیجه نتایج قطعیتر یا پیشبینیکنندهتری ایجاد کنیم. برای مثال، در فرآیند توسعه یک محصول دستیار مجازی برای مردم ویتنام (ViVi)، ما مجبور بودیم دهها هزار ساعت داده صوتی با کیفیت بالا، از صدها هزار صدا از مناطق مختلف، سنین و جنسیتهای متنوع، با محتوایی که صدها فیلد را در بر میگیرد، جمعآوری و پردازش کنیم... یا اخیراً، راهاندازی ViGPT - "اولین نسخه ویتنامی ChatGPT برای کاربران نهایی" که از یک مدل زبان بزرگ که کاملاً متعلق به VinBigdata است، توسعه یافته است. این مدل بر اساس ۶۰۰ گیگابایت داده ویتنامی تصفیه شده از زمینههای مختلف آموزش دیده است. با درک ما از دادهها و زبان ویتنامی، ما رویکرد جدیدی برای کوتاه کردن زمان راهاندازی ViGPT تنها در ۹ ماه پس از تولد ChatGPT پیدا کردیم. این همان طنین بین دادههای بزرگ و هوش مصنوعی است.
نظر شما در مورد پیوند دادن تحقیقات با ارزش عملی برای خدمت به جامعه چیست؟ - من معتقدم که تحقیقات فناوری تنها زمانی واقعاً موفق است که واقعاً وارد زندگی شود، مشکلات اجتماعی را حل کند و زندگی مردم را بهبود بخشد. برای ایجاد محصولات تجاری کاربردی و حل مشکلات تجاری و اجتماعی، باید همیشه توجه داشته باشیم و این سوال را بپرسیم: دادهها چه ارزشی را به زندگی میآورند؟ تاکنون، ما محصولات و راهحلهای متنوعی را در زمینهها و حرفههای مختلف، معمولاً ViGPT، VinDr - ارائه راهحلهای هوش مصنوعی در تشخیص تصویربرداری پزشکی ، VinBase - بستری برای هوش مصنوعی، یا Vizone - مجموعهای از راهحلهای تحلیل تصویر هوشمند، تحقیق کردهایم.
با حضور پرسنل کلیدی VinBigdata در رویدادی از شرکت Vingroup
ان وی سی سی
انقلاب صنعتی چهارم با قدرت در مقیاس جهانی در حال وقوع است. به نظر شما ویتنام چه مزایایی دارد؟ در مقایسه با انقلابهای قبلی، فکر میکنم ویتنام در حال حاضر مزایای زیادی برای پیشرفت در این انقلاب صنعتی 4.0 دارد و به بهبود جایگاه کشور در نقشه جهان کمک میکند. دو کلید برای دستیابی به این هدف، دادهها و مردم هستند. ویتنام در حال حاضر نزدیک به 100 میلیون نفر جمعیت دارد که بخش زیادی از آنها جوانان از تلفن و رایانه شخصی استفاده میکنند. علاوه بر این، ما متخصصان معتبری در هوش مصنوعی و پرسنل جوان و باکیفیتی در فناوری اطلاعات داریم و پایه بسیار خوبی در ریاضیات داریم. بنابراین محدودیتها چیست؟ اولین محدودیتی که میتوان مشاهده کرد این است که با وجود جمعیت زیاد، ما هنوز در تسلط بر دادهها، به ویژه استانداردسازی و همگامسازی دادهها در تأسیسات، واحدهای تجاری و اداری، با مشکل مواجه هستیم. علاوه بر این، ما با محدودیتهای دیگری مانند منابع سرمایهگذاری محدود، به ویژه سرمایهگذاری در زیرساختهای محاسباتی با کارایی بالا نیز مواجه هستیم.
به نظر شما، تسلط بر دادههای ویتنامی در مسیر ایجاد و تسلط بر فناوری برای خدمت به زندگی مردم ویتنام چقدر مهم است؟ در حال حاضر، بسیاری از محصولات هوش مصنوعی پیشرو در جهان وجود دارند، معمولاً محصولات کاربردی هوش مصنوعی که بر اساس مدلهای زبانی بزرگی مانند ChatGPT از OpenAI یا Bard از Google ساخته شدهاند. با این حال، زبان ویتنامی گروه زبانی اصلی برای توسعه این محصولات نیست. بنابراین، کیفیت محتوای خاص ویتنامی که به کاربران بازگردانده میشود، کم و بیش تحت تأثیر قرار میگیرد و احتمال خطا، و خطرناکتر از آن، خطا در دانش پایه، در آن زیاد است. به عنوان مردم ویتنام، ما از مزیت دسترسی به منابع داده خودمان برخورداریم. فقط ما توانایی درک ویژگیهای دادههای ویتنامی، نیازها و ویژگیهای مردم ویتنام را داریم. بنابراین، تسلط بر دادههای ویتنامی واقعاً کلید تسلط بر فناوریهای اصلی است، که فناوریهایی هستند که به مردم ویتنام خدمت خواهند کرد.
آموزش داخلی برای اعضای VinBigdata
ان وی سی سی
چگونه میتوان به منابع داده خاص دسترسی پیدا کرد، به خصوص زمانی که اکثر مردم ویتنام امروزه از سایتهای شبکههای اجتماعی خارج از کشور استفاده میکنند؟ در واقع، بزرگترین منبع دادههای انسانی امروز (نه تنها مردم ویتنام) در اینترنت و شبکههای اجتماعی است. با این حال، ما هنوز هم میتوانیم بر اساس درک ویژگیهای دادههای ویتنامی، بسته به ویژگیهای تعیین شده توسط هر پروژه، به دادهها از منابع مختلف دسترسی پیدا کرده و آنها را جمعآوری کنیم. به عنوان مثال، مدلهای GPT OpenAI تا صدها، حتی تریلیونها پارامتر دارند که بر روی حجم عظیمی از دادهها آموزش دیدهاند و میلیاردها دلار هزینه دارند. در مقایسه با آنها، ما بر اساس تحقیقات، قابلیتها و منابع خود، جهت کاملاً متفاوتی را انتخاب کردهایم: یعنی ایجاد یک مدل زبان ویتنامی با معماری تنها چند میلیارد پارامتر، که بر روی یک مجموعه داده ویتنامی ۶۰۰ گیگابایتی که خودمان جمعآوری و اصلاح کردهایم، آموزش دیده است، اما از نظر پردازش ویتنامی، قابلیتهای معادلی دارد. نتایج نشان میدهد که معماری خود توسعهیافته ما میتواند خود را بهینه کند، زمان آموزش مدل زبان را کوتاه کند، هزینهها را کاهش دهد و در عین حال کیفیت مدل را تضمین کند. چالشهایی که شما و تیمتان در فرآیند تحقیق و توسعه محصولات هوش مصنوعی با آنها مواجه شدهاید چیست؟ اولین چالش قطعاً زمان است. موج فناوری هوش مصنوعی خیلی سریع در حال وقوع است و در دوره رونق خود قرار دارد. در جهان، شرکتهای پیشرو در فناوری به سرعت محصولات بسیار کاملی را روانه بازار کردهاند که دائماً در حال بهروزرسانی و بهبود هستند. اگر ما کند باشیم و محصولات را به موقع عرضه نکنیم، مطمئناً عقب خواهیم ماند. از سوی دیگر، اگر میخواهیم محصولاتی بسازیم که کاربردی باشند و مشکلات اجتماعی عملی را حل کنند، باید یافتن و توسعه ویژگیهای برجسته، خاص و منحصر به فرد محصول را نیز در نظر بگیریم.
ارائه در روز هوش مصنوعی ویتنام (AI4VN 2023)
ان وی سی سی
در واقع، بسیاری از افراد و سازمانها در ویتنام و جهان در اثر نشت دادهها آسیبهای زیادی دیدهاند. شما مسئله امنیت دادهها را چگونه میبینید؟ میتوان گفت که امروزه هر برنامهای از دادهها ناشی میشود. هنگام کار با دادهها، از یک سو، باید هدف استفاده از دادهها برای ایجاد بهترین فناوری برای زندگی را تضمین کنیم و از سوی دیگر، باید امنیت دادهها را برای افراد و سازمانها تضمین کنیم. عامل انسانی حلقه بسیار مهمی در فرآیند تضمین امنیت دادهها است. آنها شامل توسعهدهندگان، کاربران محصول و کاربران میشوند. برای توسعهدهندگان، آگاهی از امنیت دادهها باید از همان ابتدای جمعآوری و پردازش دادهها وجود داشته باشد. اغلب، وقتی مشکلی رخ نمیدهد، ما از اهمیت امنیت دادهها آگاه نیستیم. اما اگر نشت دادهها رخ دهد، خسارت میتواند بسیار زیاد باشد. نقض دادهها میتواند به دلیل مشکلات فنی یا حملات سرقت عمدی دادهها رخ دهد. هنگامی که دادهها نقض میشوند، افراد یا سازمانها میتوانند اطلاعات خود را برای اهداف غیرقانونی توسط افراد شرور استفاده کنند، در حالی که مشاغل میتوانند برای رفع مشکلات مرتبط متحمل ضررهای مالی و حتی آسیب به برند شوند.
دکتر دائو دوک مین و تیم VinBigdata در یک رویداد
ان وی سی سی
پس از آرزوی تسلط بر فناوری برای خدمت به مردم ویتنام، مطمئناً گامهایی برای پیشرفت به سوی جهان وجود خواهد داشت؟ هر سازمان یا شرکتی که میخواهد محصولات خود را به بازار بینالمللی عرضه کند، باید با استانداردهای بینالمللی مطابقت داشته باشد. VinBigdata در ارائه راهکارها و فناوری نقاط قوتی دارد، بنابراین تعیین چشمانداز برای فتح جهان طبیعی است. البته، برای استقرار در محصولات و کاربردهای مختلف، همراهی واحدهای بینالمللی با سالها تجربه و درک کاربران در سراسر جهان ضروری است. متشکرم!
نظر (0)