Vietnam.vn - Nền tảng quảng bá Việt Nam

Untuk menyelesaikan masalah data Vietnam, kita mesti memahami ciri-ciri orang Vietnam.

Báo Nhân dânBáo Nhân dân14/07/2023

Rakyat Vietnam akan lebih memahami keperluan dan ciri-ciri rakyat mereka sendiri, dengan itu memahami ciri-ciri data Vietnam. Ini adalah asas untuk berjaya menggunakan teknologi untuk berkhidmat kepada kehidupan rakyat Vietnam.
Akhbar Nhan Dan mengadakan perbualan dengan Dr. Dao Duc Minh, Pengarah Besar Syarikat Saham Bersama VinBigData ( Vingroup Corporation) mengenai pengumpulan, penggunaan dan peranan data besar dalam pembangunan kecerdasan buatan di Vietnam, terutamanya peranan orang Vietnam dalam masalah data Vietnam.

PV: Tuan, bolehkah anda memberitahu kami tentang peranan dan nilai data dalam melatih kecerdasan buatan?

Encik Dao Duc Minh: Kejayaan kecerdasan buatan akan bergantung pada pengetahuan cara memilih, mengumpul dan memproses data. Untuk melatih model kecerdasan buatan berkualiti tinggi, kami selalunya bermula dengan latihan daripada pangkalan data yang agak besar.

Kemudian, apabila model digunakan dan diuji, pengumpulan dan pemprosesan data yang berterusan akan memainkan peranan yang sangat penting dalam meningkatkan dan menyempurnakan kualiti model.

Data mesti memenuhi piawaian dari segi kuantiti, kualiti, kepelbagaian dan kesejagatan. Sebagai contoh, dalam proses membangunkan produk Pembantu Maya ViVi untuk orang Vietnam, untuk melatih mereka, kami perlu mengumpul dan memproses berpuluh-puluh ribu jam data berkualiti tinggi, daripada ratusan ribu suara dari wilayah yang berbeza, pelbagai umur dan jantina, dengan kandungan yang merangkumi ratusan bidang,...

Data mentah pada mulanya dibersihkan, dilabel dan diproses melalui banyak langkah untuk mencipta sumber data berkualiti tinggi untuk dimasukkan ke dalam model AI, dengan itu meningkatkan ketepatan ViVi. Jumlah ini mencapai hampir maksimum: >98%.

Mengumpul dan memproses beribu-ribu jam data adalah sangat mahal dan rumit. Tetapi kami memerlukan data yang baik untuk mempunyai kecerdasan buatan yang berkualiti. ChatGPT atau Bard (chatbot Google) kedua-duanya dilatih mengenai sumber data besar yang dikumpul daripada pelbagai sumber di Internet.

Agar AI berjaya, ia mesti dilatih mengenai sumber data yang besar dan pelbagai, supaya hasil yang dihasilkan akan menjadi sangat tepat. Sebaliknya, untuk menganalisis data besar, kita perlu menggunakan AI untuk memastikan keupayaan memproses data dengan tepat pada skala besar, dengan itu mencipta keputusan yang lebih tegas atau ramalan.

Ia adalah resonans antara kecerdasan buatan dan data besar.

PV: Sila beritahu kami tentang proses memilih dan mengumpul data untuk pembelajaran mesin. Bagaimanakah data ini akan dikumpulkan dan dari sumber apa? Lebih-lebih lagi apabila tempat yang paling banyak memiliki maklumat tentang pengguna Vietnam ialah laman rangkaian sosial syarikat asing (Google, Facebook...)

Encik Dao Duc Minh: Langkah pertama dalam proses memilih dan mengumpul data untuk model pembelajaran mesin adalah untuk memahami apakah pilihan yang baik. Kita boleh merujuk kepada model 5V data besar, sumber data yang baik akan merangkumi kesemua 5 faktor: volum, nilai, kepelbagaian, halaju dan kebenaran.

Lazimnya, untuk mencipta model AI terbaik untuk aplikasi praktikal, sumber data yang baik perlu menjadi pelbagai dan universal merentas banyak masalah yang serupa, serta khusus dan individu untuk aplikasi itu.

Ia adalah fakta bahawa sumber terbesar data manusia adalah di Internet dan rangkaian sosial. Sumber data ini sebahagian besarnya dimiliki oleh syarikat asing. Walau bagaimanapun, data boleh datang daripada pelbagai sumber dan Vietnam masih mempunyai kelebihan untuk mengakses sumber datanya sendiri. Selain itu, terdapat masalah data yang hanya boleh diselesaikan oleh orang Vietnam. Kerana kami adalah orang yang memahami ciri-ciri "data Vietnam", memahami keperluan dan ciri-ciri orang Vietnam, dengan itu berjaya menggunakan teknologi untuk melayani kehidupan orang Vietnam.

Untuk ViVi, masalah pertama yang VinBigData nyatakan ialah membawa produk pembantu suara yang dibuat oleh orang Vietnam, untuk orang Vietnam. Iaitu, kita mesti menguasai sumber data Vietnam, digabungkan dengan teknologi kecerdasan buatan untuk membawa produk yang sangat sesuai, memenuhi keperluan rakyat Vietnam secara optimum.

Daripada matlamat ini, kami memahami perkara dan di mana kami perlu mengumpul sumber data untuk latihan. Sumber data ini tidak semestinya sumber data yang luas di web.

Dengan keinginan untuk menguasai data dan teknologi Vietnam, sejak penubuhannya, VinBigData telah membina sumber datanya sendiri yang unik untuk orang Vietnam. Jumlah data yang kami miliki telah mencapai lebih daripada 3,500 Terabait. Khususnya, kami mempunyai: Data tentang berjuta-juta suara berbilang wilayah di Vietnam; lebih daripada 2 juta imej perubatan daripada pelbagai sumber; berjuta-juta data pada imej kamera berbilang objek di Vietnam (orang, kenderaan dan objek), dan berpuluh-puluh pangkalan data pelbagai disiplin yang berbeza..., semuanya telah dikumpul, dibersihkan, diproses dan dilabelkan.

Khususnya, pada tahun 2021, kami juga mengumumkan Projek Menjujukan 1000 Genom Vietnam (diterbitkan oleh Institut Penyelidikan Data Besar - pendahulu VinBigData), menjadi salah satu unit yang memiliki pangkalan data genom Vietnam terbesar. Hasil penyelidikan ini telah dan sedang dikongsi dengan komuniti doktor dan pakar genetik, yang bertujuan untuk perubatan peribadi untuk Vietnam pada masa hadapan.

PV : Apakah yang berlaku seterusnya selepas data dikumpul dan bagaimana ia diseragamkan? Adakah lebih besar data, lebih baik?

Encik Dao Duc Minh: Seperti yang saya katakan, volum adalah salah satu faktor penting semasa mengumpul data. Walau bagaimanapun, saya juga ingin menekankan bahawa: Jika ia tidak dipilih, dibersihkan dan diklasifikasikan dengan jelas, data besar sahaja tidak mencukupi.

Lazimnya, data akan melalui kitaran pemprosesan asas termasuk: Pengumpulan (data berstruktur dan tidak berstruktur), penyimpanan (data disimpan dalam sistem pangkalan data), pemprosesan (termasuk satu siri langkah seperti penapisan, pembersihan, pelabelan, peningkatan data, pengekstrakan/sintesis maklumat, serta visualisasi data) dan analisis. Proses ini boleh diulang berkali-kali semasa pembangunan dan penyiapan sistem AI.

Perkara yang penting ialah apakah nilai yang akan dihidupkan oleh data? Inilah yang telah dipupuk oleh VinBigData selama hampir 5 tahun meneliti dan membangunkan produk. Kami percaya bahawa hanya apabila teknologi benar-benar memasuki kehidupan, menyelesaikan masalah sosial dan meningkatkan kehidupan orang ramai, penyelidikan akan benar-benar berjaya.

PV: Baru-baru ini anda telah banyak bercakap tentang cara kami mengumpul dan mencipta gudang data kami sendiri. Jadi apakah kriteria untuk menentukan sempadan pengumpulan dan penggunaan data untuk memastikan hak pengguna?

Encik Dao Duc Minh: Proses mengumpul dan memproses data memerlukan peraturan undang-undang atau piawaian keselamatan untuk melindungi pengguna serta perniagaan. Vietnam masih dalam proses membina dan menyempurnakan piawaian khusus untuk melindungi data pengguna.

Sudah terdapat beberapa piawaian di dunia . Contohnya: GDPR – piawaian perlindungan data pengguna Kesatuan Eropah; atau PCI-DSS ialah standard yang bertujuan untuk melindungi pengguna pembayaran kad.

Apabila kita ingin mempopularkan atau membawa produk Vietnam ke pasaran antarabangsa, mematuhi piawaian antarabangsa ini adalah sangat perlu.

Dalam masa terdekat, untuk memastikan hak pengguna, VinBigData berusaha untuk mewujudkan ketelusan dalam proses mengumpul dan menggunakan data dengan tujuan dan objektif mengumpul dan menggunakan data didedahkan kepada umum. Terutama dengan data yang dimiliki oleh individu.

Pada masa ini, VinBigData telah menandatangani beberapa siri organisasi antarabangsa untuk memastikan keselamatan dan hak pengguna. Selepas itu, kami berharap untuk mempunyai konsensus antara perniagaan dan Kerajaan untuk membina koridor undang-undang serta piawaian undang-undang untuk melindungi data pengguna tidak lama lagi.

PV: Apabila memiliki data besar, bagaimanakah kecerdasan buatan akan menghadapi risiko atau kelemahan keselamatan data?

Encik Dao Duc Minh: Jika digunakan dengan betul,   Data akan menjadi aset yang berharga. Risiko kehilangan dan kebocoran data adalah isu yang memerlukan langkah keselamatan dari awal.

Sehingga sesuatu berlaku, kami sering tidak memahami sepenuhnya kepentingan keselamatan data. Tetapi apabila sesuatu berlaku, kerosakan akan menjadi besar. Baru-baru ini, lebih daripada 200 juta data pengguna Twitter telah dibocorkan. Maklumat pengguna telah dijual secara terbuka pada banyak platform yang berbeza. Katakan jika semua berjuta-juta pengguna ini memfailkan tuntutan mahkamah, Twitter akan mengalami kerugian besar.

Jika kebocoran data adalah teknikal semata-mata, kerosakan biasanya kurang. Tetapi jika kebocoran itu berkaitan dengan kecurian data yang disengajakan, akibatnya sangat tidak dapat diramalkan. Bagi individu, orang jahat boleh menggunakan sepenuhnya maklumat yang bocor untuk pelbagai tujuan haram yang berbeza. Bagi perniagaan, kebocoran maklumat bukan sahaja menyebabkan kerugian kewangan yang besar untuk menyelesaikan masalah berkaitan, tetapi juga menyebabkan kerosakan kepada reputasi dan jenama di pasaran.

PV : Apakah penyelesaian yang diperlukan untuk "menambal" kelemahan ini dan meningkatkan keselamatan data, tuan?

Encik Dao Duc Minh: Penyelesaian pertama dan paling berguna ialah pencegahan dari awal: Membina peralatan untuk melindungi keselamatan dan keselamatan maklumat; perlindungan berbilang lapisan; menjalankan proses yang betul.

Khususnya, pencegahan keselamatan dan keselamatan merangkumi banyak lapisan yang berbeza. Selain melabur dalam peralatan keselamatan dan keselamatan; adalah perlu untuk membina proses secara serentak untuk memproses dan berinteraksi dengan pengguna dan data, mewujudkan proses kawalan kitaran hayat data yang ketat, dan pada masa yang sama meningkatkan kemahiran dan kesedaran keselamatan maklumat pengguna dan pasukan operasi, dan menetapkan hak penggunaan data yang sesuai (siapa yang berhak untuk mengakses dan menggunakan data yang mana?)

Sebaliknya, perniagaan juga perlu mengenal pasti dan fleksibel dalam menggunakan dasar keselamatan data, mengklasifikasikan tahap sensitiviti dan tahap keselamatan setiap jenis data untuk mempunyai langkah keselamatan yang sesuai, mengelakkan penggunaan dasar keselamatan maklumat secara mekanikal terlalu ketat, yang kadangkala boleh menghalang proses pembangunan dan eksploitasi data.

Khusus untuk unit yang menggunakan data untuk pembangunan, klasifikasi data adalah lebih penting. Kerana data perlu banyak beredar antara jabatan yang berbeza.

Perniagaan perlu bersedia untuk senario kes terburuk, dengan pakar yang berkaitan bersedia untuk meminimumkan kerosakan semaksimal mungkin.

PV : 2023 akan menjadi tahun data. Apakah kekuatan dan kelemahan Vietnam dalam data? Pada pendapat anda, apakah yang perlu kita sediakan untuk tahun data digital yang berjaya?

Encik Dao Duc Minh: 2023 akan menjadi tahun data digital untuk Vietnam. Dari segi kelebihan, kami mempunyai kelebihan dalam data. Vietnam mempunyai populasi 100 juta. Daripada jumlah itu, peratusan golongan muda yang menggunakan telefon pintar, komputer peribadi dan lain-lain adalah tinggi. Itu adalah ciri untuk mempromosikan data dan menimbulkan masalah yang perlu diselesaikan oleh kecerdasan buatan di Vietnam. Kekuatan kedua ialah manusia. Secara khusus, Vietnam mempunyai pakar terkemuka dunia dalam kecerdasan buatan. Selain itu, sumber manusia muda dalam teknologi maklumat di negara ini mempunyai asas yang sangat baik dalam matematik. Ini adalah dua sumber manusia yang boleh digabungkan untuk mencipta produk bertaraf antarabangsa.

Mengenai batasan, kami menghadapi kesukaran untuk menyeragamkan data. Di Vietnam, setiap tempat, setiap perusahaan, setiap unit pentadbiran mempunyai data yang berbeza. Data tidak diseragamkan, dipecah-pecah dan tidak disegerakkan. Kami juga memerlukan koridor undang-undang yang lebih khusus untuk menyeragamkan data.

Untuk mencapai tahun data digital yang berjaya, Vietnam perlu memahami perkara teras serta memanfaatkan kuasa teknologi. Resonans antara data besar dan kecerdasan buatan akan menjadi tuil untuk tahun data digital Vietnam.

Dengan menguasai data dari semua peringkat dari pusat kepada tempatan, kerajaan dan perusahaan, Vietnam akan dapat "memelihara" sumber digital negara yang berharga. Digabungkan dengan teknologi intelek termaju, kami akan dapat "mengeksploitasi" sumber ini sepenuhnya.

“Rakyat Vietnam memiliki data Vietnam” juga membantu Vietnam mengelakkan situasi: Membeli semula produk yang dieksploitasi atas sumbernya sendiri.

Pada masa sekarang, khususnya dalam revolusi 4.0, Vietnam mempunyai banyak kelebihan berbanding revolusi sebelumnya. Kita berpeluang memanfaatkan teknologi untuk mengejar dan memperbaiki kedudukan negara dengan pantas di peta dunia. Saya fikir kunci untuk mencapai matlamat ini dengan lebih cepat dan lebih mampan ialah "data" dan "orang".

PV: Setelah bekerja di sebuah syarikat kecerdasan buatan yang besar di AS, apakah yang membuatkan anda kembali ke Vietnam?

Encik Dao Duc Minh: Pada 2017, saya kembali ke Vietnam. Ia boleh dikatakan bahawa ini adalah titik perubahan. Semasa bekerja di AS, walaupun saya bekerja pada banyak projek kerajaan yang besar, hasil yang saya capai selalunya hanya beberapa langkah dalam proses pemprosesan yang besar. Malah ada kalanya saya tidak tahu sama ada penyelesaian yang saya bangunkan telah digunakan atau tidak, kerana prosedur keselamatan projek itu sangat ketat.

Sementara itu, Vietnam dalam peringkat pembangunan, terdapat banyak masalah mengenai data besar dan kecerdasan buatan yang perlu diselesaikan. Pada masa itu, saya menerima jemputan daripada Profesor Vu Ha Van: Kembali ke Vietnam untuk merealisasikan matlamat membangunkan penyelesaian teknologi Vietnam untuk melayani kehidupan rakyat Vietnam.

Saya merasakan bahawa jika saya tinggal di Vietnam, saya akan dapat menyelesaikan masalah dengan impak yang lebih besar. Itu adalah salah satu perkara penting yang menjadikan kepulangan saya lebih bermakna.

PV: Terima kasih atas perbualan ini.

  • Organisasi pengeluaran: Viet Anh - Hong Van
  • Dipersembahkan oleh: Thi Uyen
  • Foto: Thanh Dat
Nhandan.vn

Komen (0)

No data
No data

Dalam kategori yang sama

Imej awan gelap 'hampir runtuh' di Hanoi
Hujan turun, jalan-jalan bertukar menjadi sungai, orang Hanoi membawa bot ke jalanan
Lakonan semula Perayaan Pertengahan Musim Luruh Dinasti Ly di Thang Long Imperial Citadel
Pelancong Barat seronok membeli mainan Pesta Pertengahan Musim Luruh di Jalan Hang Ma untuk diberikan kepada anak dan cucu mereka.

Daripada pengarang yang sama

Warisan

Rajah

Perniagaan

No videos available

Peristiwa semasa

Sistem Politik

Tempatan

produk