با توجه به سابقهی کار در یک سازمان بزرگ هوش مصنوعی در ایالات متحده، چرا تصمیم گرفتید به ویتنام برگردید و به VinBigdata بپیوندید؟
در طول کار در ایالات متحده، اگرچه در بسیاری از پروژههای بزرگ دولتی شرکت کردم، اما نتایجی که به دست آوردم اغلب تنها چند مرحله در یک فرآیند بزرگ بود. بسیاری از اوقات، به دلیل محرمانه بودن شدید پروژهها، حتی نمیدانستم که راهحلهایی که توسعه داده بودم چگونه مورد استفاده قرار میگیرند.
در سال ۲۰۱۷، وقتی به ویتنام بازگشتم، این کشور در مرحله توسعه بود و مشکلات زیادی در رابطه با کلانداده و هوش مصنوعی وجود داشت که باید حل میشدند. من دعوت پروفسور وو ها ون را پذیرفتم تا به طور مشترک هدف توسعه راهحلهای فناوری ویتنامی را برای خدمت به زندگی مردم ویتنام محقق کنیم. بازگشتم به ویتنام را بسیار معنادارتر یافتم زیرا میتوانستم روی مشکلاتی با تأثیر بیشتر کار کنم.
دکتر دائو دوک مین در یک کارگاه آموزشی
آقا، در استراتژی توسعه هوش مصنوعی، کلانداده چه نقش و تأثیری دارد؟
دادهها نقش عظیم و ارزشمندی در آموزش هوش مصنوعی ایفا میکنند. آموزش یک مدل هوش مصنوعی با کیفیت بالا اغلب با آموزش یک پایگاه داده بزرگ آغاز میشود. بنابراین، برای داشتن هوش مصنوعی با کیفیت، ابتدا باید دادههای خوبی داشته باشیم.
دادههای خوب باید از نظر کمیت و مقیاس، کیفیت، تنوع و جهانشمولی، استانداردهای لازم را داشته باشند. فرآیند جمعآوری و پردازش هزاران ساعت داده از مرحله پاکسازی دادههای خام تا ایجاد دادههای با بالاترین کیفیت برای تغذیه در مدلهای هوش مصنوعی، بسیار پرهزینه و پیچیده است. در مقابل، برای تجزیه و تحلیل کلانداده، باید از هوش مصنوعی استفاده کنیم تا توانایی پردازش دقیق دادهها در مقیاس بزرگ را تضمین کنیم و در نتیجه نتایج قطعی یا پیشبینیکننده بهتری ایجاد کنیم.
برای مثال، در فرآیند توسعه یک محصول دستیار مجازی برای مردم ویتنام (ViVi)، ما مجبور بودیم دهها هزار ساعت داده صوتی با کیفیت بالا را از صدها هزار صدا از مناطق مختلف، سنین و جنسیتهای متنوع، با محتوایی که صدها فیلد را در بر میگرفت، جمعآوری و پردازش کنیم...
یا اخیراً، راهاندازی ViGPT - "اولین نسخه ویتنامی ChatGPT برای کاربران نهایی" که از یک مدل زبان بزرگ که کاملاً متعلق به VinBigdata است، توسعه یافته است. این مدل بر اساس ۶۰۰ گیگابایت داده تصفیهشده ویتنامی از زمینههای مختلف آموزش دیده است. با درک ما از دادهها و زبان ویتنامی، ما رویکرد جدیدی برای کوتاه کردن زمان راهاندازی ViGPT تنها در ۹ ماه پس از تولد ChatGPT پیدا کردهایم.
این همان همافزایی بین کلانداده و هوش مصنوعی است.
نظر شما در مورد پیوند دادن پژوهش با ارزش عملی برای خدمت به جامعه چیست؟
- من معتقدم که تحقیقات فناوری تنها زمانی واقعاً موفق است که واقعاً وارد زندگی شود، مشکلات اجتماعی را حل کند و زندگی مردم را بهبود بخشد.
برای ایجاد محصولات تجاری کاربردی که مشکلات تجاری و اجتماعی را حل میکنند، باید همیشه توجه داشته باشیم و این سوال را بپرسیم: دادهها چه ارزشی را به زندگی میآورند؟
تاکنون، ما محصولات و راهحلهای متنوعی را برای صنایع و زمینههای مختلف، معمولاً ViGPT و VinDr - ارائهدهنده راهحلهای هوش مصنوعی در تشخیص تصویربرداری پزشکی ، VinBase - یک پلتفرم هوش مصنوعی زیستی، یا Vizone - مجموعهای از راهحلهای تجزیه و تحلیل تصویر هوشمند - تحقیق و توسعه دادهایم.
با حضور پرسنل کلیدی VinBigdata در رویدادی از شرکت Vingroup
انقلاب صنعتی چهارم با قدرت در مقیاس جهانی در حال وقوع است. به نظر شما ویتنام چه مزایایی دارد؟
در مقایسه با انقلابهای قبلی، من معتقدم که ویتنام در حال حاضر مزایای زیادی برای پیشرفت در این انقلاب صنعتی ۴.۰ دارد و به بهبود جایگاه این کشور در نقشه جهان کمک میکند. دو کلید برای دستیابی به این هدف، دادهها و مردم هستند.
ویتنام در حال حاضر نزدیک به ۱۰۰ میلیون نفر جمعیت دارد که بخش زیادی از جوانان آن از تلفن همراه و رایانه شخصی استفاده میکنند. علاوه بر این، ما متخصصان معتبری در هوش مصنوعی و پرسنل جوان باکیفیتی در فناوری اطلاعات داریم و پایه بسیار خوبی در ریاضیات داریم.
پس محدودیتها چیست؟
اولین محدودیت آشکار این است که با وجود جمعیت زیاد، ما هنوز در تسلط بر دادهها، به ویژه استانداردسازی و همگامسازی دادهها در مراکز، واحدهای تجاری و اداری، با مشکل مواجه هستیم.
علاوه بر این، ما با محدودیتهای دیگری مانند منابع سرمایهگذاری محدود، به ویژه سرمایهگذاری در زیرساختهای محاسباتی با کارایی بالا، نیز مواجه هستیم.
به نظر شما، نقش تسلط بر دادههای ویتنامی در مسیر ایجاد و تسلط بر فناوری برای خدمت به زندگی مردم ویتنام چقدر مهم است؟
در حال حاضر محصولات هوش مصنوعی پیشرو زیادی در جهان وجود دارد، که معمولاً برنامههای هوش مصنوعی مبتنی بر مدلهای زبانی بزرگ مانند ChatGPT از OpenAI یا Bard از گوگل هستند. با این حال، ویتنامی گروه زبانی اصلی برای توسعه این محصولات نیست.
بنابراین، کیفیت محتوای خاص ویتنامی که به کاربران بازگردانده میشود، کم و بیش تحت تأثیر قرار میگیرد و احتمال خطا در آن زیاد است، و خطرناکتر از آن، خطا در دانش پایه است.
به عنوان ویتنامی، ما از مزیت دسترسی به منابع داده خودمان برخورداریم. فقط ما توانایی درک ویژگیهای دادههای ویتنامی، نیازها و ویژگیهای مردم ویتنام را داریم. بنابراین، تسلط بر دادههای ویتنامی واقعاً کلید تسلط بر فناوریهای اصلی است، یعنی فناوریهایی که به مردم ویتنام خدمت خواهند کرد.
آموزش داخلی برای اعضای VinBigdata
چگونه میتوان به منابع داده خاص دسترسی پیدا کرد، به خصوص وقتی که امروزه اکثر مردم ویتنام از سایتهای شبکههای اجتماعی خارج از کشور استفاده میکنند؟
در واقع، امروزه بزرگترین منبع دادههای انسانی (نه فقط مردم ویتنام) در اینترنت و شبکههای اجتماعی است. با این حال، ما هنوز هم میتوانیم بر اساس درک ویژگیهای دادههای ویتنامی، بسته به ویژگیهای تعیینشده توسط هر پروژه، به منابع مختلف دسترسی داشته باشیم و دادهها را جمعآوری کنیم.
برای مثال، مدلهای GPT شرکت OpenAI صدها، حتی تریلیونها پارامتر دارند، بر روی حجم عظیمی از دادهها آموزش داده میشوند و میلیاردها دلار هزینه دارند. در مقایسه با آنها، ما بر اساس تحقیقات، قابلیتها و منابع خود، مسیری کاملاً متفاوت را انتخاب کردهایم: ایجاد یک مدل زبان ویتنامی با معماری تنها چند میلیارد پارامتر، آموزش دیده بر روی یک مجموعه داده ویتنامی ۶۰۰ گیگابایتی که خودمان جمعآوری و اصلاح کردهایم، اما با قابلیتهای معادل در پردازش زبان ویتنامی. نتایج نشان میدهد که معماری خود توسعهیافته ما میتواند خود را بهینهسازی کند، زمان آموزش مدل زبان را کوتاه کند، هزینهها را کاهش دهد و همچنان کیفیت مدل را تضمین کند.
شما و تیمتان در فرآیند تحقیق و توسعه محصولات هوش مصنوعی با چه چالشهایی مواجه بودهاید؟
اولین چالش قطعاً زمان است. موج فناوری هوش مصنوعی خیلی سریع در حال ظهور است و در دوره انفجار قرار دارد. در جهان، شرکتهای پیشرو در فناوری به سرعت محصولات بسیار کاملی را روانه بازار کردهاند که دائماً بهروزرسانی و بهبود مییابند. اگر ما کند باشیم و محصولات را به موقع عرضه نکنیم، مطمئناً عقب خواهیم ماند.
از سوی دیگر، اگر میخواهیم محصولاتی خلق کنیم که کاربردی باشند و مشکلات اجتماعی عملی را حل کنند، باید یافتن و توسعه ویژگیهای برجسته، خاص و منحصر به فرد محصول را نیز در نظر بگیریم.
ارائه در روز هوش مصنوعی ویتنام (AI4VN 2023)
در واقع، بسیاری از افراد و سازمانها در ویتنام و سراسر جهان متحمل خسارات زیادی در اثر نشت دادهها شدهاند. شما مسئله امنیت دادهها را چگونه میبینید؟
میتوان گفت که امروزه هر کاربردی از دادهها ناشی میشود. هنگام کار با دادهها، از یک سو باید هدف بهکارگیری دادهها برای ایجاد بهترین فناوری برای زندگی را تضمین کنیم و از سوی دیگر، باید امنیت دادهها را برای افراد و سازمانها تضمین کنیم.
عامل انسانی حلقه بسیار مهمی در فرآیند تضمین امنیت دادهها است. این حلقهها شامل توسعهدهندگان، کاربران محصول و کاربران میشوند. برای توسعهدهندگان، آگاهی از امنیت دادهها باید از همان ابتدای جمعآوری و پردازش دادهها وجود داشته باشد.
اغلب، وقتی مشکلی پیش نمیآید، ما از اهمیت امنیت دادهها آگاه نیستیم. اما اگر نشت دادهها رخ دهد، خسارت میتواند بسیار زیاد باشد. نشت دادهها میتواند به دلیل مشکلات فنی یا حملات عمدی برای سرقت دادهها رخ دهد. هنگامی که دادهها نشت میکنند، اطلاعات افراد یا سازمانها میتواند توسط افراد شرور برای اهداف غیرقانونی مورد استفاده قرار گیرد و مشاغل میتوانند برای رفع مشکلات مرتبط، متحمل ضررهای مالی شوند، حتی به برند آنها آسیب وارد شود.
دکتر دائو دوک مین و تیم VinBigdata در یک رویداد
پس از آرزوی تسلط بر فناوری برای خدمت به مردم ویتنام، آیا گامهایی برای پیشرفت به سوی جهانی شدن وجود خواهد داشت؟
هر سازمان یا کسبوکاری که میخواهد محصولات خود را به بازار بینالمللی عرضه کند، باید با استانداردهای بینالمللی مطابقت داشته باشد. VinBigdata در ارائه راهکارها و فناوری نقاط قوتی دارد، بنابراین تعیین چشمانداز برای فتح جهان طبیعی است.
البته، برای استقرار در محصولات و کاربردهای بسیار متنوع، لازم است از پشتیبانی واحدهای بینالمللی با سالها تجربه و درک کاربران در سراسر جهان برخوردار باشید.
متشکرم!
منبع: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm
نظر (0)