PV: Pak, bisakah Anda memberi tahu kami tentang peran dan nilai data dalam pelatihan kecerdasan buatan?
Bapak Dao Duc Minh: Keberhasilan kecerdasan buatan akan sangat bergantung pada kemampuan memilih, mengumpulkan, dan memproses data. Untuk melatih model kecerdasan buatan berkualitas tinggi, kami sering kali memulai dengan pelatihan dari basis data yang cukup besar.
Kemudian, ketika model tersebut diterapkan dan diuji, pengumpulan dan pemrosesan data yang berkelanjutan akan memainkan peran yang sangat penting dalam meningkatkan dan menyempurnakan kualitas model.
Data harus memenuhi standar kuantitas, kualitas, keragaman, dan universalitas. Misalnya, dalam proses pengembangan produk Asisten Virtual ViVi untuk masyarakat Vietnam, untuk melatih mereka, kami harus mengumpulkan dan memproses puluhan ribu jam data berkualitas tinggi, dari ratusan ribu suara dari berbagai daerah, usia, dan jenis kelamin, dengan konten yang mencakup ratusan bidang,...
Data mentah awalnya dibersihkan, diberi label, dan diproses melalui berbagai langkah untuk menciptakan sumber data berkualitas tinggi yang akan dimasukkan ke dalam model AI, sehingga meningkatkan akurasi ViVi. Angka ini hampir mencapai maksimum: >98%.
Mengumpulkan dan memproses ribuan jam data sangat mahal dan rumit. Namun, kita membutuhkan data yang baik untuk menghasilkan kecerdasan buatan yang berkualitas. ChatGPT atau Bard (chatbot Google) keduanya dilatih pada sumber data besar yang dikumpulkan dari berbagai sumber di internet.
Agar AI berhasil, ia harus dilatih pada sumber data yang besar dan beragam, sehingga hasil yang dihasilkan akan sangat akurat. Sebaliknya, untuk menganalisis big data, kita perlu menggunakan AI untuk memastikan kemampuan memproses data secara akurat dalam skala besar, sehingga menghasilkan hasil yang lebih menentukan atau prediktif.
Ini adalah resonansi antara kecerdasan buatan dan data besar.
PV: Mohon ceritakan tentang proses pemilihan dan pengumpulan data untuk pembelajaran mesin. Bagaimana data ini akan dikumpulkan dan dari sumber apa? Terutama karena sumber informasi terbanyak tentang pengguna Vietnam adalah situs jejaring sosial perusahaan asing (Google, Facebook, dll.).
Bapak Dao Duc Minh: Langkah pertama dalam proses pemilihan dan pengumpulan data untuk model pembelajaran mesin adalah memahami pilihan yang tepat. Kita dapat merujuk pada model 5V big data, sumber data yang baik akan mencakup kelima faktor: volume, nilai, variasi, kecepatan, dan kebenaran.
Biasanya, untuk membuat model AI terbaik untuk aplikasi praktis, sumber data yang baik harus beragam dan universal untuk banyak masalah serupa, serta spesifik dan individual untuk aplikasi tersebut.
Faktanya, sumber data manusia terbesar ada di internet dan jejaring sosial. Sumber data ini sebagian besar dimiliki oleh perusahaan asing. Namun, data dapat berasal dari berbagai sumber, dan Vietnam masih memiliki keuntungan mengakses sumber datanya sendiri. Selain itu, terdapat permasalahan data yang hanya dapat dipecahkan oleh orang Vietnam. Karena kamilah yang memahami karakteristik "data Vietnam", memahami kebutuhan dan karakteristik orang Vietnam, sehingga berhasil menerapkan teknologi untuk melayani kehidupan orang Vietnam.
Bagi ViVi, tantangan pertama yang dihadapi VinBigData adalah menghadirkan produk asisten suara buatan orang Vietnam, untuk orang Vietnam. Artinya, kita harus menguasai sumber data Vietnam, dipadukan dengan teknologi kecerdasan buatan untuk menghadirkan produk yang sangat aplikatif, yang secara optimal melayani kebutuhan orang Vietnam.
Dari tujuan-tujuan ini, kami memahami apa dan di mana kami perlu mengumpulkan sumber data untuk pelatihan. Sumber data ini tidak harus berupa sumber data yang luas di internet.
Dengan keinginan untuk menguasai data dan teknologi Vietnam, sejak awal berdirinya, VinBigData telah membangun sumber datanya sendiri yang unik bagi masyarakat Vietnam. Total data yang kami miliki telah mencapai lebih dari 3.500 Terabita. Secara spesifik, kami memiliki: Data jutaan suara multi-regional di Vietnam; lebih dari 2 juta citra medis dari berbagai sumber; jutaan data citra kamera berbagai objek di Vietnam (orang, kendaraan, dan objek), dan puluhan basis data multidisiplin yang berbeda..., yang semuanya telah dikumpulkan, dibersihkan, diproses, dan diberi label.
Khususnya, pada tahun 2021, kami juga mengumumkan Proyek Pengurutan 1000 Genom Vietnam (diterbitkan oleh Big Data Research Institute - pendahulu VinBigData), yang menjadikannya salah satu unit pemilik basis data genom Vietnam terbesar. Hasil penelitian ini telah dan sedang dibagikan kepada komunitas dokter dan ahli genetika, dengan tujuan mewujudkan pengobatan personalisasi bagi Vietnam di masa depan.
PV : Apa yang terjadi selanjutnya setelah data terkumpul dan bagaimana data tersebut distandarisasi? Apakah semakin besar datanya, semakin baik?
Bapak Dao Duc Minh: Seperti yang telah saya katakan, volume merupakan salah satu faktor penting dalam pengumpulan data. Namun, saya juga ingin menekankan bahwa: Jika data tidak diseleksi, dibersihkan, dan diklasifikasikan dengan jelas, big data saja tidak cukup.
Umumnya, data akan melalui siklus pemrosesan dasar yang meliputi: Pengumpulan (data terstruktur dan tidak terstruktur), penyimpanan (data disimpan dalam sistem basis data), pemrosesan (termasuk serangkaian langkah seperti penyaringan, pembersihan, pelabelan, peningkatan data, ekstraksi/sintesis informasi, serta visualisasi data), dan analisis. Proses ini dapat diulang berkali-kali selama pengembangan dan penyelesaian sistem AI.
Yang terpenting adalah nilai apa yang akan dihadirkan data bagi kehidupan? Inilah yang telah dipupuk VinBigData selama hampir 5 tahun dalam penelitian dan pengembangan produk. Kami percaya bahwa hanya ketika teknologi benar-benar hadir, memecahkan masalah sosial, dan meningkatkan kualitas hidup manusia, penelitian akan benar-benar berhasil.
PV: Anda baru-baru ini banyak berbicara tentang bagaimana kami mengumpulkan dan membangun gudang data kami sendiri. Jadi, apa kriteria yang akan digunakan untuk menentukan batasan pengumpulan dan penggunaan data guna memastikan hak pengguna?
Bapak Dao Duc Minh: Proses pengumpulan dan pemrosesan data memerlukan peraturan perundang-undangan atau standar keamanan untuk melindungi pengguna maupun bisnis. Vietnam masih dalam proses membangun dan menyempurnakan standar khusus untuk melindungi data pengguna.
Sudah ada cukup banyak standar di dunia . Misalnya: GDPR – standar perlindungan data pengguna Uni Eropa; atau PCI-DSS adalah standar yang bertujuan melindungi pengguna pembayaran kartu.
Ketika kita ingin mempopulerkan atau membawa produk Vietnam ke pasar internasional, mematuhi standar internasional ini sangatlah penting.
Dalam waktu dekat, untuk menjamin hak-hak pengguna, VinBigData berupaya menciptakan transparansi dalam proses pengumpulan dan penggunaan data dengan tujuan dan sasaran pengumpulan dan penggunaan data yang dipublikasikan. Terutama dengan data milik individu.
Saat ini, VinBigData telah menandatangani perjanjian dengan sejumlah organisasi internasional untuk menjamin keamanan dan hak-hak pengguna. Setelah itu, kami berharap dapat mencapai konsensus antara pelaku bisnis dan Pemerintah untuk segera membangun koridor hukum serta standar hukum terkait perlindungan data pengguna.
PV: Ketika memiliki big data, bagaimana kecerdasan buatan menghadapi risiko atau kerentanan keamanan data?
Tuan Dao Duc Minh: Jika digunakan dengan benar, Data akan menjadi aset yang berharga. Risiko kehilangan dan kebocoran data merupakan masalah yang membutuhkan langkah-langkah keamanan sejak awal.
Hingga sesuatu terjadi, kita seringkali tidak sepenuhnya memahami pentingnya keamanan data. Namun, jika sesuatu terjadi, kerusakannya akan sangat besar. Baru-baru ini, lebih dari 200 juta data pengguna Twitter bocor. Informasi pengguna dijual secara publik di berbagai platform. Bayangkan jika jutaan pengguna ini mengajukan gugatan, Twitter akan menderita kerugian besar.
Jika kebocoran data murni bersifat teknis, kerusakannya biasanya lebih kecil. Namun, jika kebocoran terkait dengan pencurian data yang disengaja, konsekuensinya sangat tidak terduga. Bagi individu, pelaku kejahatan dapat sepenuhnya memanfaatkan informasi yang bocor untuk berbagai tujuan ilegal. Bagi bisnis, kebocoran informasi tidak hanya menyebabkan kerugian finansial yang besar untuk memperbaiki masalah terkait, tetapi juga merusak reputasi dan merek di pasar.
PV : Solusi apa yang dibutuhkan untuk "menambal" kerentanan ini dan meningkatkan keamanan data, Pak?
Tn. Dao Duc Minh: Solusi pertama dan paling berguna adalah pencegahan sejak awal: Membangun peralatan untuk melindungi keamanan dan keselamatan informasi; perlindungan berlapis; mengoperasikan proses yang benar.
Secara spesifik, pencegahan keselamatan dan keamanan mencakup banyak lapisan. Selain berinvestasi dalam peralatan keamanan dan keselamatan, perlu juga membangun proses pemrosesan dan interaksi dengan pengguna dan data, menetapkan proses kontrol siklus hidup data yang ketat, dan pada saat yang sama meningkatkan keterampilan dan kesadaran keamanan informasi pengguna dan tim operasional, serta menetapkan hak penggunaan data yang sesuai (siapa yang berhak mengakses dan menggunakan data yang mana?).
Di sisi lain, pelaku bisnis juga perlu mengidentifikasi dan bersikap fleksibel dalam menerapkan kebijakan keamanan data, mengklasifikasikan tingkat sensitivitas dan tingkat keamanan setiap jenis data agar memiliki langkah-langkah pengamanan yang tepat, menghindari penerapan kebijakan keamanan informasi secara mekanis terlalu ketat, yang terkadang dapat menghambat proses pengembangan dan eksploitasi data.
Khususnya untuk unit yang menggunakan data untuk pengembangan, klasifikasi data menjadi lebih penting. Karena data harus sering bersirkulasi antar departemen.
Bisnis perlu bersiap menghadapi skenario terburuk, dengan para ahli relevan yang siap sedia meminimalkan kerusakan semaksimal mungkin.
PV : 2023 akan menjadi tahun data. Apa saja kekuatan dan kelemahan Vietnam dalam hal data? Menurut Anda, apa saja yang perlu kita persiapkan untuk tahun data digital yang sukses?
Bapak Dao Duc Minh: Tahun 2023 akan menjadi tahun data digital bagi Vietnam. Dari segi keunggulan, kita unggul dalam hal data. Vietnam memiliki populasi 100 juta jiwa. Di antaranya, proporsi anak muda yang menggunakan ponsel pintar, komputer pribadi, dll., cukup tinggi. Hal ini merupakan karakteristik untuk mempromosikan data dan memunculkan masalah yang perlu dipecahkan oleh kecerdasan buatan di Vietnam. Kekuatan kedua adalah sumber daya manusianya. Secara spesifik, Vietnam memiliki para pakar kecerdasan buatan terkemuka di dunia. Selain itu, sumber daya manusia muda di bidang teknologi informasi di negara ini memiliki dasar matematika yang sangat baik. Kedua sumber daya manusia ini dapat dipadukan untuk menciptakan produk berstandar internasional.
Mengenai keterbatasannya, kami mengalami kesulitan dalam menstandardisasi data. Di Vietnam, setiap tempat, setiap perusahaan, setiap unit administratif memiliki data yang berbeda. Data tidak terstandardisasi, terfragmentasi, dan tidak sinkron. Kami juga membutuhkan koridor hukum yang lebih spesifik untuk menstandardisasi data.
Agar tahun data digital Vietnam sukses, Vietnam perlu memahami poin-poin inti sekaligus memanfaatkan kekuatan teknologi. Resonansi antara big data dan kecerdasan buatan akan menjadi pendorong bagi tahun data digital Vietnam.
Dengan menguasai data dari semua tingkatan, mulai dari pusat hingga daerah, pemerintahan, hingga perusahaan, Vietnam akan mampu "melestarikan" sumber daya digital negara yang berharga. Dikombinasikan dengan teknologi intelektual yang canggih, kita akan mampu "memanfaatkan" sumber daya ini secara maksimal.
“Orang Vietnam memiliki data Vietnam” juga membantu Vietnam menghindari situasi: Membeli kembali produk yang dieksploitasi dengan sumber dayanya sendiri.
Saat ini, khususnya di era revolusi 4.0, Vietnam memiliki banyak keunggulan dibandingkan revolusi-revolusi sebelumnya. Kita memiliki peluang untuk memanfaatkan teknologi agar dapat dengan cepat mengejar ketertinggalan dan meningkatkan posisi negara di peta dunia. Saya pikir kunci untuk mencapai tujuan ini dengan lebih cepat dan berkelanjutan adalah "data" dan "manusia".
PV: Setelah bekerja di perusahaan kecerdasan buatan besar di AS, apa yang membuat Anda kembali ke Vietnam?
Bapak Dao Duc Minh: Pada tahun 2017, saya kembali ke Vietnam. Bisa dibilang ini adalah titik balik. Selama bekerja di AS, meskipun saya mengerjakan banyak proyek pemerintah besar, hasil yang saya capai seringkali hanya beberapa langkah dalam proses pemrosesan yang besar. Bahkan ada kalanya saya tidak tahu apakah solusi yang saya kembangkan telah digunakan atau belum, karena prosedur keamanan proyek tersebut sangat ketat.
Sementara itu, Vietnam sedang dalam tahap pembangunan, dan masih banyak permasalahan terkait big data dan kecerdasan buatan yang perlu dipecahkan. Saat itu, saya menerima undangan dari Profesor Vu Ha Van: Kembali ke Vietnam untuk mewujudkan tujuan mengembangkan solusi teknologi Vietnam demi melayani kehidupan masyarakat Vietnam.
Saya merasa jika saya tetap di Vietnam, saya akan mampu mengatasi masalah-masalah dengan dampak yang lebih besar. Itulah salah satu poin penting yang membuat kepulangan saya jauh lebih bermakna.
PV: Terima kasih atas percakapan ini.
- Organisasi produksi: Viet Anh - Hong Van
- Dibawakan oleh: Thi Uyen
- Foto: Thanh Dat
Komentar (0)