Dr. Dao Duc Minh: 'Menguasai data Vietnam adalah langkah pertama dalam mengembangkan dan menguasai teknologi Vietnam'
Báo Thanh niên•27/05/2024
Setelah bekerja untuk sebuah organisasi kecerdasan buatan besar di AS, mengapa Anda memutuskan untuk kembali ke Vietnam dan bergabung dengan VinBigdata? Selama bekerja di AS, meskipun saya berpartisipasi dalam banyak proyek pemerintah besar, hasil yang saya capai seringkali hanya beberapa langkah dalam proses pemrosesan yang besar. Sering kali, karena prosedur kerahasiaan proyek yang sangat ketat, saya bahkan tidak tahu bagaimana solusi yang saya kembangkan digunakan. Pada tahun 2017, saya kembali ke Vietnam ketika Vietnam masih dalam tahap pengembangan dan ada banyak masalah terkait big data dan kecerdasan buatan yang perlu dipecahkan. Saya menerima undangan Profesor Vu Ha Van untuk bersama-sama mewujudkan tujuan mengembangkan solusi teknologi Vietnam untuk melayani kehidupan masyarakat Vietnam. Saya merasa kepulangan saya ke Vietnam jauh lebih bermakna karena saya akan dapat bekerja dengan dampak yang lebih besar.
Dr. Dao Duc Minh dalam sebuah lokakarya
NVCC
Dalam strategi pengembangan kecerdasan buatan, apa peran dan pengaruh big data, Pak? Data memainkan peran yang sangat penting dan berharga dalam pelatihan kecerdasan buatan. Untuk melatih model kecerdasan buatan berkualitas tinggi, kita sering memulai dengan melatih basis data yang besar. Oleh karena itu, untuk memiliki kecerdasan buatan yang berkualitas, pertama-tama kita perlu memiliki data yang baik. Data yang baik harus memenuhi standar kuantitas dan skala, kualitas, keragaman, dan universalitas. Proses pengumpulan dan pemrosesan ribuan jam data dari langkah pembersihan data mentah untuk menghasilkan data berkualitas tinggi untuk dimasukkan ke dalam model kecerdasan buatan sangat mahal dan rumit. Sebaliknya, untuk menganalisis big data, kita perlu menggunakan kecerdasan buatan untuk memastikan kemampuan memproses data secara akurat dalam skala besar, sehingga menciptakan hasil yang lebih menentukan atau prediktif. Misalnya, dalam proses pengembangan produk asisten virtual untuk masyarakat Vietnam (ViVi), kami harus mengumpulkan dan memproses puluhan ribu jam data audio berkualitas tinggi, dari ratusan ribu suara dari berbagai daerah, usia, dan jenis kelamin, dengan konten yang mencakup ratusan bidang... Atau yang terbaru, peluncuran ViGPT - "Versi ChatGPT pertama dalam bahasa Vietnam untuk pengguna akhir" yang dikembangkan dari Model Bahasa Besar yang sepenuhnya dimiliki oleh VinBigdata. Model ini dilatih berdasarkan 600 GB data Vietnam yang telah diolah dari berbagai bidang. Dengan pemahaman kami tentang data dan bahasa Vietnam, kami menemukan pendekatan baru untuk mempersingkat waktu peluncuran ViGPT hanya dalam waktu 9 bulan setelah ChatGPT lahir. Inilah resonansi antara data besar dan kecerdasan buatan.
Bagaimana pandangan Anda tentang menghubungkan riset dengan nilai praktis untuk melayani masyarakat? - Saya percaya bahwa riset teknologi hanya benar-benar berhasil ketika benar-benar diterapkan, memecahkan masalah sosial, dan meningkatkan kualitas hidup masyarakat. Untuk menciptakan produk komersial yang praktis dan memecahkan masalah bisnis dan sosial, kita harus selalu memperhatikan dan bertanya: nilai apa yang akan dihadirkan data untuk kehidupan? Hingga saat ini, kami telah meneliti berbagai produk dan solusi di berbagai bidang dan profesi, khususnya ViGPT, VinDr - penyedia solusi AI dalam diagnosis pencitraan medis , VinBase - platform untuk kecerdasan buatan, atau Vizone - serangkaian solusi analisis citra pintar.
Bersama personel kunci VinBigdata di sebuah acara Vingroup Corporation
NVCC
Revolusi industri ke-4 telah berlangsung dengan kuat dalam skala global. Apa saja keunggulan yang menurut Anda dimiliki Vietnam? Dibandingkan dengan revolusi-revolusi sebelumnya, saya pikir Vietnam saat ini memiliki banyak keunggulan untuk menerobos revolusi industri 4.0 ini, membantu meningkatkan posisi negara di peta dunia . Dua kunci untuk mencapai tujuan ini adalah data dan manusia. Vietnam saat ini memiliki hampir 100 juta penduduk, dengan proporsi anak muda yang tinggi menggunakan ponsel dan komputer pribadi. Selain itu, kami memiliki para ahli terkemuka dalam kecerdasan buatan dan personel muda berkualitas tinggi dalam teknologi informasi serta memiliki dasar yang sangat baik dalam matematika. Lalu apa saja keterbatasannya? Keterbatasan pertama yang dapat dilihat adalah meskipun memiliki populasi yang besar, kami masih mengalami kesulitan dalam menguasai data, khususnya dalam melakukan standarisasi dan sinkronisasi data di fasilitas, unit bisnis, dan administrasi. Selain itu, kami juga menghadapi kendala lain seperti sumber daya investasi yang terbatas, terutama investasi dalam infrastruktur komputasi berkinerja tinggi.
Menurut Anda, seberapa pentingkah penguasaan data Vietnam dalam perjalanan menciptakan dan menguasai teknologi untuk melayani kehidupan masyarakat Vietnam? Saat ini, terdapat banyak produk kecerdasan buatan terkemuka di dunia, khususnya produk aplikasi AI yang dibuat berdasarkan model bahasa besar seperti ChatGPT dari OpenAI atau Bard dari Google. Namun, bahasa Vietnam bukanlah kelompok bahasa inti untuk pengembangan produk-produk ini. Oleh karena itu, kualitas konten khusus bahasa Vietnam yang dikembalikan kepada pengguna sedikit banyak terpengaruh dan memiliki kemungkinan kesalahan yang tinggi, yang lebih berbahaya, kesalahan dalam pengetahuan dasar. Sebagai masyarakat Vietnam, kita memiliki keuntungan mengakses sumber data kita sendiri. Hanya kita yang memiliki kemampuan untuk memahami karakteristik data Vietnam, kebutuhan, dan karakteristik masyarakat Vietnam. Oleh karena itu, penguasaan data Vietnam merupakan kunci untuk menguasai teknologi inti, yaitu teknologi yang akan melayani masyarakat Vietnam.
Pelatihan internal untuk anggota VinBigdata
NVCC
Bagaimana cara mengakses sumber data tertentu, terutama ketika sebagian besar orang Vietnam saat ini menggunakan situs jejaring sosial dari luar negeri? Faktanya, sumber data manusia terbesar saat ini (tidak hanya orang Vietnam) ada di internet dan jejaring sosial. Namun, kami masih dapat mengakses dan mengumpulkan data dari berbagai sumber, berdasarkan pemahaman karakteristik data Vietnam, tergantung pada karakteristik yang ditetapkan oleh setiap proyek. Misalnya, model GPT OpenAI memiliki ratusan, bahkan triliunan parameter, yang dilatih pada data dalam jumlah besar dan menghabiskan biaya miliaran dolar. Dibandingkan dengan mereka, kami telah memilih arah yang sama sekali berbeda berdasarkan penelitian, kemampuan, dan sumber daya kami: yaitu, menciptakan model bahasa Vietnam dengan arsitektur hanya beberapa miliar parameter, yang dilatih pada set data Vietnam berukuran 600 GB yang kami kumpulkan dan sempurnakan sendiri, tetapi dengan kemampuan yang setara dalam hal pemrosesan bahasa Vietnam. Hasilnya menunjukkan bahwa arsitektur yang kami kembangkan sendiri dapat mengoptimalkan dirinya sendiri, mempersingkat waktu pelatihan model bahasa, mengurangi biaya, sekaligus memastikan kualitas model. Apa saja tantangan yang Anda dan tim hadapi dalam proses penelitian dan pengembangan produk kecerdasan buatan? Tantangan pertama tentu saja adalah waktu. Gelombang teknologi kecerdasan buatan datang dengan sangat cepat dan sedang berada di puncaknya. Di dunia, perusahaan-perusahaan teknologi terkemuka telah dengan cepat meluncurkan produk-produk yang sangat lengkap dan terus diperbarui serta ditingkatkan. Jika kita lambat dan tidak meluncurkan produk tepat waktu, kita pasti akan tertinggal. Di sisi lain, jika kita ingin menciptakan produk yang dapat diterapkan dan memecahkan masalah sosial praktis, kita juga harus mempertimbangkan untuk menemukan dan mengembangkan fitur-fitur unggulan, khusus, dan unik dari produk tersebut.
Presentasi di Hari Kecerdasan Buatan Vietnam (AI4VN 2023)
NVCC
Pada kenyataannya, banyak individu dan organisasi di Vietnam dan dunia telah menderita banyak kerugian akibat kebocoran data. Bagaimana Anda memandang masalah keamanan data? Dapat dikatakan bahwa setiap aplikasi saat ini berasal dari data. Ketika bekerja dengan data, di satu sisi, kita harus memastikan tujuan penerapan data untuk menciptakan teknologi terbaik bagi kehidupan, dan di sisi lain, kita harus memastikan keamanan data bagi individu dan organisasi. Faktor manusia merupakan mata rantai yang sangat penting dalam proses memastikan keamanan data. Mereka termasuk pengembang, pengguna produk, dan pengguna. Bagi pengembang, kesadaran akan keamanan data harus ada sejak awal pengumpulan dan pemrosesan data. Seringkali, ketika tidak ada masalah yang terjadi, kita tidak menyadari pentingnya keamanan data. Namun jika kebocoran data terjadi, kerusakannya bisa sangat besar. Pelanggaran data dapat terjadi karena masalah teknis atau serangan pencurian data yang disengaja. Ketika data dilanggar, individu atau organisasi dapat memiliki informasi mereka yang digunakan untuk tujuan ilegal oleh orang jahat, sementara bisnis dapat menderita kerugian finansial untuk memperbaiki masalah terkait, dan bahkan kerusakan merek.
Dr. Dao Duc Minh dan tim VinBigdata di sebuah acara
NVCC
Setelah bercita-cita menguasai teknologi untuk melayani masyarakat Vietnam, pasti akan ada langkah untuk maju ke dunia internasional, bukan? Setiap organisasi atau perusahaan yang ingin membawa produknya ke pasar internasional harus mematuhi standar internasional. VinBigdata memiliki keunggulan dalam solusi dan teknologi, sehingga menetapkan visi untuk menaklukkan dunia adalah hal yang wajar. Tentu saja, untuk menerapkannya pada berbagai produk dan aplikasi, diperlukan dukungan dari unit-unit internasional yang berpengalaman dan memahami pengguna di seluruh dunia selama bertahun-tahun. Terima kasih!
Komentar (0)