Dr. Dao Duc Minh: 'Menguasai data Vietnam adalah langkah pertama dalam membangunkan dan menguasai teknologi Vietnam'
Báo Thanh niên•27/05/2024
Setelah bekerja untuk sebuah organisasi kecerdasan buatan yang besar di AS, mengapa anda memutuskan untuk kembali ke Vietnam untuk menyertai VinBigdata? Semasa bekerja di AS, walaupun saya mengambil bahagian dalam banyak projek kerajaan yang besar, hasil yang saya capai selalunya hanya beberapa langkah dalam proses pemprosesan yang besar. Banyak kali, disebabkan prosedur kerahsiaan projek yang sangat ketat, saya tidak tahu bagaimana penyelesaian yang saya bangunkan digunakan. Pada 2017, saya kembali ke Vietnam ketika Vietnam dalam peringkat pembangunan dan terdapat banyak masalah berkaitan data besar dan kecerdasan buatan yang perlu diselesaikan. Saya menerima jemputan Profesor Vu Ha Van untuk bersama-sama merealisasikan matlamat membangunkan penyelesaian teknologi Vietnam untuk berkhidmat kepada kehidupan rakyat Vietnam. Saya mendapati kepulangan saya ke Vietnam jauh lebih bermakna kerana saya akan dapat menyelesaikan masalah dengan pengaruh yang lebih besar.
Dr Dao Duc Minh dalam bengkel
NVCC
Dalam strategi membangunkan kecerdasan buatan, apakah peranan dan pengaruh yang dimainkan oleh data besar, tuan? Data memainkan peranan yang sangat penting dan berharga dalam melatih kecerdasan buatan. Untuk melatih model kecerdasan buatan berkualiti tinggi, kami selalunya bermula dengan melatih pangkalan data yang besar. Oleh itu, untuk mempunyai kecerdasan buatan yang berkualiti, kita perlu mempunyai data yang baik terlebih dahulu. Data yang baik mesti memenuhi piawaian dalam kuantiti dan skala, kualiti, kepelbagaian dan kesejagatan. Proses mengumpul dan memproses beribu-ribu jam data daripada langkah pembersihan data mentah untuk mencipta data berkualiti tinggi untuk dimasukkan ke dalam model kecerdasan buatan adalah sangat mahal dan rumit. Sebaliknya, untuk menganalisis data besar, kita perlu menggunakan kecerdasan buatan untuk memastikan keupayaan memproses data dengan tepat pada skala besar, dengan itu mencipta keputusan yang lebih tegas atau ramalan. Sebagai contoh, dalam proses membangunkan produk pembantu maya untuk orang Vietnam (ViVi), kami terpaksa mengumpul dan memproses berpuluh-puluh ribu jam data audio berkualiti tinggi, daripada ratusan ribu suara dari wilayah yang berbeza, pelbagai peringkat umur dan jantina, dengan kandungan yang merangkumi beratus-ratus bidang... Atau yang terbaru, pelancaran ViGPT - "Versi Bahasa Vietnam pertama bagi Chatting GPT" yang dibangunkan oleh VinBi Model sepenuhnya untuk pengguna akhir VinBi. Model ini dilatih berdasarkan 600 GB data Vietnam yang diperhalusi daripada pelbagai bidang yang berbeza. Dengan pemahaman kami tentang data dan bahasa Vietnam, kami menemui pendekatan baharu untuk memendekkan masa pelancaran ViGPT dalam masa 9 bulan sahaja selepas ChatGPT dilahirkan. Ini adalah resonans antara data besar dan kecerdasan buatan.
Apakah pandangan anda tentang mengaitkan penyelidikan dengan nilai praktikal untuk berkhidmat kepada masyarakat? - Saya percaya bahawa penyelidikan teknologi hanya benar-benar berjaya apabila ia benar-benar memasuki kehidupan, menyelesaikan masalah sosial dan meningkatkan kehidupan orang ramai. Untuk mencipta produk komersial yang praktikal dan menyelesaikan masalah perniagaan dan sosial, kita mesti sentiasa memberi perhatian dan bertanya soalan: apakah nilai yang akan dibawa oleh data? Sehingga kini, kami telah meneliti pelbagai produk dan penyelesaian dalam pelbagai bidang dan profesion, biasanya ViGPT, VinDr - menyediakan penyelesaian AI dalam diagnosis pengimejan perubatan , VinBase - platform untuk kecerdasan buatan, atau Vizone - satu set penyelesaian analisis imej pintar.
Bersama kakitangan utama VinBigdata pada acara Vingroup Corporation
NVCC
Revolusi perindustrian ke-4 telah berlaku dengan kuat pada skala global. Apakah kelebihan yang anda rasa Vietnam ada? Berbanding revolusi sebelum ini, saya rasa Vietnam pada masa ini mempunyai banyak kelebihan untuk ditembusi dalam revolusi perindustrian 4.0 ini, membantu meningkatkan kedudukan negara di peta dunia . Dua kunci untuk mencapai matlamat ini ialah data dan orang. Vietnam kini mempunyai hampir 100 juta orang, di mana sebahagian besar golongan muda menggunakan telefon dan komputer peribadi. Selain itu, kami mempunyai pakar terkemuka dalam kecerdasan buatan dan kakitangan muda yang berkualiti tinggi dalam teknologi maklumat dan mempunyai asas yang sangat baik dalam matematik. Jadi apakah batasannya? Had pertama yang boleh dilihat ialah walaupun mempunyai populasi yang besar, kami masih menghadapi kesukaran untuk menguasai data, khususnya menyeragamkan dan menyegerakkan data di unit kemudahan, perniagaan dan pentadbiran. Selain itu, kami juga menghadapi kekangan lain seperti sumber pelaburan yang terhad, terutamanya pelaburan dalam infrastruktur pengkomputeran berprestasi tinggi.
Pada pendapat anda, sejauh manakah pentingnya menguasai data Vietnam dalam perjalanan mencipta dan menguasai teknologi untuk melayani kehidupan rakyat Vietnam? Pada masa ini, terdapat banyak produk kecerdasan buatan perintis terkemuka dari dunia, biasanya produk aplikasi AI yang dibuat berdasarkan model bahasa besar seperti ChatGPT OpenAI atau Bard of Google. Walau bagaimanapun, bahasa Vietnam bukanlah kumpulan bahasa teras untuk pembangunan produk ini. Oleh itu, kualiti kandungan khusus Vietnam yang dikembalikan kepada pengguna lebih kurang terjejas dan mempunyai kemungkinan tinggi ralat, lebih berbahaya, ralat dalam pengetahuan asas. Sebagai orang Vietnam, kami mempunyai kelebihan untuk mengakses sumber data kami sendiri. Hanya kami yang mempunyai keupayaan untuk memahami ciri-ciri data Vietnam, keperluan dan ciri-ciri orang Vietnam. Oleh itu, menguasai data Vietnam benar-benar kunci untuk menguasai teknologi teras, yang merupakan teknologi yang akan memberi perkhidmatan kepada rakyat Vietnam.
Latihan dalaman untuk ahli VinBigdata
NVCC
Bagaimana untuk mengakses sumber data tertentu, terutamanya apabila kebanyakan orang Vietnam hari ini menggunakan laman rangkaian sosial dari luar negara? Malah, sumber terbesar data manusia hari ini (bukan sahaja orang Vietnam) adalah di internet dan rangkaian sosial. Walau bagaimanapun, kami masih boleh mengakses dan mengumpul data daripada sumber yang berbeza, berdasarkan pemahaman ciri data Vietnam, bergantung pada ciri yang ditetapkan oleh setiap projek. Sebagai contoh, model GPT OpenAI mempunyai sehingga ratusan, malah trilion parameter, dilatih pada jumlah data yang besar dan menelan belanja berbilion dolar. Berbanding dengan mereka, kami telah memilih arah yang sama sekali berbeza berdasarkan penyelidikan, keupayaan dan sumber kami: iaitu, mencipta model bahasa Vietnam dengan seni bina hanya beberapa bilion parameter, dilatih pada set data Vietnam 600 GB yang kami kumpulkan dan perhalusi sendiri, tetapi dengan keupayaan yang setara dari segi pemprosesan Vietnam. Hasilnya menunjukkan bahawa seni bina kami yang dibangunkan sendiri boleh mengoptimumkan diri, memendekkan masa latihan model bahasa, mengurangkan kos sambil masih memastikan kualiti model. Apakah cabaran yang anda dan pasukan anda hadapi dalam proses menyelidik dan membangunkan produk kecerdasan buatan? Cabaran pertama sudah tentu masa. Gelombang teknologi kecerdasan buatan datang dengan sangat pantas dan berada dalam tempoh ledakan. Di dunia, syarikat teknologi terkemuka telah dengan cepat melancarkan produk yang sangat lengkap yang sentiasa dikemas kini dan dipertingkatkan. Jika kita lambat dan tidak melancarkan produk dalam masa, kita pasti akan ketinggalan. Sebaliknya, jika kita ingin mencipta produk yang boleh digunakan dan menyelesaikan masalah sosial yang praktikal, kita juga mesti mempertimbangkan untuk mencari dan membangunkan ciri-ciri produk yang luar biasa, istimewa dan unik.
Pembentangan di Hari Kepintaran Buatan Vietnam (AI4VN 2023)
NVCC
Pada hakikatnya, banyak individu dan organisasi di Vietnam dan dunia telah mengalami banyak kerosakan dalam kebocoran data. Bagaimanakah anda melihat isu keselamatan data? Boleh dikatakan mana-mana aplikasi hari ini datang daripada data. Apabila bekerja dengan data, di satu pihak, kita mesti memastikan matlamat menggunakan data untuk mencipta teknologi terbaik untuk kehidupan, dan sebaliknya, kita mesti memastikan keselamatan data untuk individu dan organisasi. Faktor manusia adalah pautan yang sangat penting dalam proses memastikan keselamatan data. Mereka termasuk pembangun, pengguna produk dan pengguna. Bagi pembangun, kesedaran tentang keselamatan data mesti ada sejak awal pengumpulan dan pemprosesan data. Selalunya, apabila tiada masalah berlaku, kami tidak menyedari kepentingan keselamatan data. Tetapi jika kebocoran data berlaku, kerosakan boleh menjadi besar. Pelanggaran data boleh berlaku disebabkan masalah teknikal atau serangan kecurian data yang disengajakan. Apabila data dilanggar, individu atau organisasi boleh menggunakan maklumat mereka untuk tujuan yang menyalahi undang-undang oleh orang jahat, manakala perniagaan boleh mengalami kerugian kewangan untuk menyelesaikan masalah yang berkaitan, dan juga kerosakan jenama.
Dr. Dao Duc Minh dan pasukan VinBigdata pada satu acara
NVCC
Selepas aspirasi untuk menguasai teknologi untuk berkhidmat kepada rakyat Vietnam, pastinya akan ada langkah untuk maju ke dunia? Mana-mana organisasi atau perusahaan yang ingin membawa produknya ke pasaran antarabangsa mesti mematuhi piawaian antarabangsa. VinBigdata mempunyai kekuatan dalam penyelesaian dan teknologi, jadi menetapkan visi untuk menakluk dunia adalah semula jadi. Sudah tentu, untuk menggunakan banyak produk dan aplikasi yang berbeza, adalah perlu untuk mempunyai rakan kongsi unit antarabangsa dengan pengalaman bertahun-tahun dan pemahaman pengguna di seluruh dunia. terima kasih!
Komen (0)