Setelah bekerja untuk sebuah organisasi kecerdasan buatan yang besar di AS, mengapa anda memutuskan untuk pulang ke rumah untuk menyertai VinBigdata?
Semasa bekerja di AS, walaupun saya mengambil bahagian dalam banyak projek kerajaan yang besar, hasil yang saya capai selalunya hanya beberapa langkah dalam proses yang besar. Banyak kali, disebabkan kerahsiaan ketat projek, saya tidak tahu bagaimana penyelesaian yang saya bangunkan digunakan.
Pada 2017, saya kembali ke Vietnam ketika Vietnam dalam peringkat pembangunan dan terdapat banyak masalah berkaitan data besar dan kecerdasan buatan yang perlu diselesaikan. Saya menerima jemputan Profesor Vu Ha Van untuk bersama-sama merealisasikan matlamat membangunkan penyelesaian teknologi Vietnam untuk berkhidmat kepada kehidupan rakyat Vietnam. Saya mendapati kepulangan saya ke Vietnam jauh lebih bermakna kerana saya akan dapat menyelesaikan masalah dengan impak yang lebih besar.
Dr Dao Duc Minh dalam bengkel
Dalam strategi membangunkan kecerdasan buatan, apakah peranan dan pengaruh yang dimainkan oleh data besar, tuan?
Data memainkan peranan yang besar dan berharga dalam melatih kecerdasan buatan. Melatih model kecerdasan buatan berkualiti tinggi selalunya bermula dengan melatih pangkalan data yang besar. Oleh itu, untuk mempunyai kecerdasan buatan yang berkualiti, kita perlu mempunyai data yang baik terlebih dahulu.
Data yang baik mesti memenuhi piawaian dari segi kuantiti dan skala, kualiti, kepelbagaian dan kesejagatan. Proses mengumpul dan memproses beribu-ribu jam data daripada langkah pembersihan data mentah untuk mencipta data berkualiti tinggi untuk dimasukkan ke dalam model kecerdasan buatan adalah sangat mahal dan kompleks. Sebaliknya, untuk menganalisis data besar, kita perlu menggunakan kecerdasan buatan untuk memastikan keupayaan memproses data dengan tepat pada skala besar, dengan itu mencipta keputusan penentu atau ramalan yang lebih baik.
Sebagai contoh, dalam proses membangunkan produk pembantu maya untuk orang Vietnam (ViVi), kami terpaksa mengumpul dan memproses berpuluh-puluh ribu jam data audio berkualiti tinggi, daripada ratusan ribu suara dari wilayah yang berbeza, pelbagai umur dan jantina, dengan kandungan yang merangkumi ratusan bidang...
Atau yang terbaru, pelancaran ViGPT - "Versi Vietnam pertama ChatGPT untuk pengguna akhir" dibangunkan daripada Model Bahasa Besar yang dimiliki sepenuhnya oleh VinBigdata. Model ini dilatih berdasarkan 600 GB data Vietnam yang diperhalusi daripada pelbagai bidang yang berbeza. Dengan pemahaman kami tentang data dan bahasa Vietnam, kami telah menemui pendekatan baharu untuk memendekkan masa pelancaran ViGPT dalam masa 9 bulan sahaja selepas ChatGPT dilahirkan.
Ini adalah sinergi antara data besar dan kecerdasan buatan.
Apakah pandangan anda tentang mengaitkan penyelidikan dengan nilai praktikal untuk berkhidmat kepada masyarakat?
- Saya percaya bahawa penyelidikan teknologi hanya benar-benar berjaya apabila ia benar-benar memasuki kehidupan, menyelesaikan masalah sosial dan meningkatkan kehidupan orang ramai.
Untuk mencipta produk komersial praktikal yang menyelesaikan masalah perniagaan dan sosial, kita mesti sentiasa memberi perhatian dan bertanya soalan: apakah nilai yang akan dibawa oleh data?
Sehingga kini, kami telah menyelidik dan membangunkan pelbagai produk dan penyelesaian untuk pelbagai industri dan bidang, biasanya ViGPT, VinDr - menyediakan penyelesaian AI dalam diagnosis pengimejan perubatan , VinBase - platform kecerdasan buatan bio, atau Vizone - set penyelesaian analisis imej pintar.
Bersama kakitangan utama VinBigdata pada acara Vingroup Corporation
Revolusi perindustrian ke-4 telah berlaku dengan kuat pada skala global. Apakah kelebihan yang anda rasa Vietnam ada?
Berbanding revolusi sebelum ini, saya percaya Vietnam pada masa ini mempunyai banyak kelebihan untuk ditembusi dalam revolusi perindustrian 4.0 ini, membantu meningkatkan kedudukan negara di peta dunia. Dua kunci untuk mencapai matlamat ini ialah data dan orang.
Vietnam kini mempunyai hampir 100 juta orang, di mana sebahagian besar golongan muda menggunakan telefon dan komputer peribadi. Selain itu, kami mempunyai pakar terkemuka dalam kecerdasan buatan dan kakitangan muda berkualiti dalam teknologi maklumat dan mempunyai asas yang sangat baik dalam matematik.
Jadi apakah batasannya?
Had pertama yang jelas ialah walaupun mempunyai populasi yang besar, kami masih menghadapi kesukaran untuk menguasai data, khususnya menyeragamkan dan menyegerakkan data di kemudahan, unit perniagaan dan pentadbiran.
Selain itu, kami juga menghadapi kekangan lain seperti sumber pelaburan yang terhad, terutamanya pelaburan dalam infrastruktur pengkomputeran berprestasi tinggi.
Pada pendapat anda, sejauh manakah peranan penguasaan data Vietnam dalam perjalanan mencipta dan menguasai teknologi untuk melayani kehidupan rakyat Vietnam?
Pada masa ini terdapat banyak produk kecerdasan buatan terkemuka dari dunia, biasanya produk aplikasi AI generatif berdasarkan model bahasa besar seperti ChatGPT daripada OpenAI atau Bard daripada Google. Walau bagaimanapun, bahasa Vietnam bukanlah kumpulan bahasa utama untuk pembangunan produk ini.
Oleh itu, kualiti kandungan khusus Vietnam yang dikembalikan kepada pengguna lebih kurang terjejas dan mempunyai kemungkinan tinggi ralat, lebih berbahaya, ralat dalam pengetahuan asas.
Sebagai orang Vietnam, kami mempunyai kelebihan untuk mengakses sumber data kami sendiri. Hanya kami yang mempunyai keupayaan untuk memahami ciri-ciri data Vietnam, keperluan dan ciri-ciri orang Vietnam. Oleh itu, menguasai data Vietnam benar-benar kunci untuk menguasai teknologi teras, yang merupakan teknologi yang akan memberi perkhidmatan kepada rakyat Vietnam.
Latihan dalaman untuk ahli VinBigdata
Bagaimana untuk mengakses sumber data tertentu, terutamanya apabila kebanyakan orang Vietnam hari ini menggunakan laman rangkaian sosial dari luar negara?
Malah, sumber terbesar data manusia hari ini (bukan sahaja orang Vietnam) adalah di internet dan rangkaian sosial. Walau bagaimanapun, kami masih boleh mengakses dan mengumpul data daripada sumber yang berbeza, berdasarkan pemahaman ciri data Vietnam, bergantung pada ciri yang ditetapkan oleh setiap projek.
Sebagai contoh, model GPT OpenAI mempunyai ratusan, malah trilion parameter, dilatih mengenai jumlah data yang besar, dan menelan belanja berbilion dolar. Berbanding dengan mereka, kami telah memilih laluan yang sama sekali berbeza berdasarkan penyelidikan, keupayaan dan sumber kami: mencipta model bahasa Vietnam dengan seni bina hanya beberapa bilion parameter, dilatih pada set data Vietnam 600 GB yang kami kumpul dan perhalusi sendiri, tetapi dengan keupayaan yang setara dari segi pemprosesan Vietnam. Keputusan menunjukkan bahawa seni bina kami yang dibangunkan sendiri boleh mengoptimumkan diri, memendekkan masa latihan model bahasa, mengurangkan kos dan masih memastikan kualiti model.
Apakah cabaran yang anda dan pasukan anda hadapi dalam proses menyelidik dan membangunkan produk kecerdasan buatan?
Cabaran pertama sudah tentu masa. Gelombang teknologi kecerdasan buatan datang dengan sangat pantas dan berada dalam tempoh letupan. Di dunia, syarikat teknologi terkemuka telah melancarkan produk yang sangat lengkap dengan pantas, sentiasa dikemas kini dan dipertingkatkan. Jika kita lambat dan tidak melancarkan produk tepat pada masanya, kita pasti akan ketinggalan.
Sebaliknya, jika kita ingin mencipta produk yang boleh digunakan dan menyelesaikan masalah sosial yang praktikal, kita juga mesti mempertimbangkan untuk mencari dan membangunkan ciri-ciri produk yang luar biasa, istimewa dan unik.
Pembentangan di Hari Kepintaran Buatan Vietnam (AI4VN 2023)
Malah, ramai individu dan organisasi di Vietnam dan seluruh dunia telah mengalami kerugian besar dalam kebocoran data. Bagaimanakah anda melihat isu keselamatan data?
Boleh dikatakan mana-mana aplikasi hari ini datang daripada data. Apabila bekerja dengan data, di satu pihak, kita mesti memastikan matlamat menggunakan data untuk mencipta teknologi terbaik untuk kehidupan, dan sebaliknya, kita mesti memastikan keselamatan data untuk individu dan organisasi.
Faktor manusia adalah pautan yang sangat penting dalam proses jaminan keselamatan data. Mereka termasuk pembangun, pengguna produk dan pengguna. Bagi pembangun, kesedaran tentang keselamatan data mesti ada sejak awal pengumpulan dan pemprosesan data.
Selalunya, apabila tiada masalah, kita tidak menyedari kepentingan keselamatan data. Tetapi jika kebocoran data berlaku, kerosakan boleh menjadi besar. Kebocoran data boleh berlaku disebabkan masalah teknikal atau serangan yang disengajakan untuk mencuri data. Apabila data bocor, individu atau organisasi boleh menggunakan maklumat mereka oleh orang jahat untuk tujuan yang menyalahi undang-undang, dan perniagaan boleh mengalami kerugian kewangan untuk menyelesaikan masalah berkaitan, malah merosakkan jenama mereka.
Dr. Dao Duc Minh dan pasukan VinBigdata pada satu acara
Selepas aspirasi untuk menguasai teknologi untuk berkhidmat kepada rakyat Vietnam, adakah langkah untuk maju ke dunia?
Mana-mana organisasi atau perniagaan yang ingin membawa produknya ke pasaran antarabangsa mesti mematuhi piawaian antarabangsa. VinBigdata mempunyai kekuatan dalam penyelesaian dan teknologi, jadi menetapkan visi untuk menakluk dunia adalah semula jadi.
Sudah tentu, untuk menggunakan banyak produk dan aplikasi yang berbeza, adalah perlu untuk mendapat sokongan unit antarabangsa dengan pengalaman dan pemahaman bertahun-tahun pengguna di seluruh dunia.
terima kasih!
Sumber: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm
Komen (0)