Vietnam.vn - Nền tảng quảng bá Việt Nam

För att lösa det vietnamesiska dataproblemet måste vi förstå den vietnamesiska befolkningens egenskaper.

Báo Nhân dânBáo Nhân dân14/07/2023

Det vietnamesiska folket kommer bäst att förstå sitt eget folks behov och egenskaper, och därigenom förstå egenskaperna hos vietnamesisk data. Detta är grunden för att framgångsrikt tillämpa teknik för att tjäna det vietnamesiska folkets liv.
Tidningen Nhan Dan hade ett samtal med Dr. Dao Duc Minh, generaldirektör för VinBigData Joint Stock Company ( Vingroup Corporation), om insamling, användning och roll av big data i utvecklingen av artificiell intelligens i Vietnam, särskilt vietnamesernas roll i det vietnamesiska dataproblemet.

PV: Herrn, kan ni berätta om datas roll och värde i utbildningen av artificiell intelligens?

Herr Dao Duc Minh: Framgången för artificiell intelligens kommer till stor del att bero på att man vet hur man väljer, samlar in och bearbetar data. För att träna en högkvalitativ artificiell intelligensmodell börjar vi ofta med att träna från en ganska stor databas.

När modellen sedan är driftsatt och testad kommer fortsatt datainsamling och bearbetning att spela en mycket viktig roll för att förbättra och finslipa modellens kvalitet.

Data måste uppfylla standarder vad gäller kvantitet, kvalitet, mångfald och universalitet. Till exempel, under utvecklingen av ViVi Virtual Assistant-produkten för vietnameser, för att utbilda dem, var vi tvungna att samla in och bearbeta tiotusentals timmar högkvalitativ data, från hundratusentals röster från olika regioner, olika åldrar och kön, med innehåll som spänner över hundratals områden,...

Rådata rensas, märks och bearbetas initialt genom många steg för att skapa en datakälla av högsta kvalitet som kan matas in i AI-modellen, vilket förbättrar ViVis noggrannhet. Denna siffra når nästan det maximala: >98 %.

Att samla in och bearbeta tusentals timmar data är mycket dyrt och komplicerat. Men vi behöver bra data för att ha artificiell intelligens av hög kvalitet. ChatGPT eller Bard (Googles chatbot) är båda tränade på enorma datakällor som samlats in från många olika källor på internet.

För att AI ska bli framgångsrik måste den tränas på stora och mångsidiga datakällor, så att de producerade resultaten blir mycket exakta. För att analysera stordata måste vi däremot använda AI för att säkerställa förmågan att bearbeta data korrekt i stor skala, och därigenom skapa resultat som är mer avgörande eller prediktiva.

Det är en resonans mellan artificiell intelligens och big data.

PV: Berätta gärna om processen för att välja och samla in data för maskininlärning. Hur kommer dessa data att samlas in och från vilka källor? Särskilt när den plats som äger mest information om vietnamesiska användare är utländska företags sociala nätverk (Google, Facebook...).

Herr Dao Duc Minh: Det första steget i processen att välja och samla in data för maskininlärningsmodeller är att förstå vad som är ett bra val. Vi kan hänvisa till 5V-modellen för stordata, en bra datakälla kommer att inkludera alla 5 faktorer: volym, värde, variation, hastighet och sanningsenlighet.

För att skapa den bästa AI-modellen för en praktisk tillämpning måste en bra datakälla vanligtvis vara både mångsidig och universell över många liknande problem, samt specifik och individuell för den tillämpningen.

Det är ett faktum att den största källan till mänsklig data finns på internet och sociala nätverk. Denna datakälla ägs till stor del av utländska företag. Data kan dock komma från många olika källor och Vietnam har fortfarande fördelen att ha tillgång till sina egna datakällor. Dessutom finns det dataproblem som bara vietnameserna kan lösa. För det är vi som förstår egenskaperna hos "vietnamesisk data", förstår vietnamesernas behov och egenskaper, och därigenom framgångsrikt tillämpar teknik för att tjäna vietnamesernas liv.

För ViVi var det första problemet som VinBigData satte upp att ta fram en röstassistentprodukt tillverkad av vietnameser, för vietnameser. Det vill säga att vi måste behärska vietnamesiska datakällor, kombinerat med artificiell intelligens-teknik för att skapa en mycket användbar produkt som optimalt tillgodoser vietnamesernas behov.

Utifrån dessa mål förstår vi vilka och var vi behöver samla in datakällor för utbildning. Denna datakälla behöver inte nödvändigtvis vara de enorma datakällorna på webben.

Med en önskan att bemästra vietnamesisk data och teknologi har VinBigData sedan starten byggt sina egna datakällor som är unika för vietnameserna. Den totala mängden data vi äger har nått mer än 3 500 terabyte. Mer specifikt har vi: Data om miljontals multiregionala röster i Vietnam; mer än 2 miljoner medicinska bilder från många olika källor; miljontals data om kamerabilder av flera objekt i Vietnam (människor, fordon och föremål), och dussintals olika tvärvetenskapliga databaser..., som alla har samlats in, rengjorts, bearbetats och märkts.

I synnerhet tillkännagav vi 2021 även projektet Project to Sequence 1000 Vietnamese Genomes (publicerat av Big Data Research Institute – föregångaren till VinBigData), vilket blev en av de enheter som äger den största vietnamesiska genomdatabasen. Detta forskningsresultat har delats och delas fortfarande med läkar- och genetikergemenskapen, med målet att skapa personlig medicin för Vietnam i framtiden.

PV : Vad händer sedan efter att data har samlats in och hur standardiseras den? Ju större data, desto bättre?

Herr Dao Duc Minh: Som jag sa är volym en av de viktiga faktorerna vid insamling av data. Jag vill dock också betona att: Om data inte väljs ut, rengörs och klassificeras tydligt räcker det inte med big data ensamt.

Vanligtvis går data igenom en grundläggande bearbetningscykel som inkluderar: insamling (strukturerad och ostrukturerad data), lagring (data lagras i ett databassystem), bearbetning (inklusive en serie steg som filtrering, rensning, märkning, dataförbättring, informationsutvinning/syntes samt datavisualisering) och analys. Denna process kan upprepas många gånger under utvecklingen och färdigställandet av ett AI-system.

Det viktiga är vilket värde data kommer att ge till livet? Det är detta som VinBigData har vårdat i nästan 5 år av forskning och produktutveckling. Vi tror att först när tekniken verkligen kommer in i livet, löser sociala problem och förbättrar människors liv, kommer forskningen att bli verkligt framgångsrik.

PV: Du har nyligen pratat mycket om hur vi samlar in och skapar våra egna datalager. Så vilka kriterier kommer att vara för att fastställa gränserna för datainsamling och användning för att säkerställa användarrättigheter?

Herr Dao Duc Minh: Processen att samla in och behandla data kräver lagar eller säkerhetsstandarder för att skydda både användare och företag. Vietnam håller fortfarande på att bygga och finslipa specifika standarder för att skydda användardata.

Det finns redan en hel del standarder i världen . Till exempel: GDPR – Europeiska unionens standard för dataskydd; eller PCI-DSS är en standard som syftar till att skydda användare av kortbetalningar.

När vi vill popularisera eller lansera vietnamesiska produkter på den internationella marknaden är det mycket viktigt att följa dessa internationella standarder.

För att säkerställa användarnas rättigheter strävar VinBigData inom den närmaste framtiden efter att skapa transparens i processen för insamling och användning av data, där syftena och målen för insamling och användning av data offentliggörs. Särskilt när det gäller data som ägs av individer.

För närvarande har VinBigData tecknat avtal med en rad internationella organisationer för att säkerställa användarnas säkerhet och rättigheter. Efter det hoppas vi kunna uppnå enighet mellan företag och regeringen för att snart bygga en rättslig korridor samt rättsliga standarder för att skydda användardata.

PV: Hur kommer artificiell intelligens att möta risker eller sårbarheter i datasäkerheten när man har tillgång till stordata?

Herr Dao Duc Minh: Om det används på rätt sätt,   Data kommer att vara en värdefull tillgång. Risken för dataförlust och läckage är en fråga som kräver säkerhetsåtgärder från början.

Tills något händer förstår vi ofta inte helt vikten av datasäkerhet. Men när något händer blir skadan enorm. Nyligen läckte mer än 200 miljoner Twitter-användares data ut. Användarinformation såldes offentligt på många olika plattformar. Tänk om alla dessa miljoner användare lämnade in en stämningsansökan skulle Twitter drabbas av enorma förluster.

Om dataläckan är rent teknisk är skadan vanligtvis mindre. Men om läckan är relaterad till avsiktlig datastöld är konsekvenserna mycket oförutsägbara. För individer kan skurkar utnyttja den läckta informationen helt och hållet för många olika olagliga syften. När det gäller företag orsakar informationsläckan inte bara stora ekonomiska förluster för att åtgärda relaterade problem, utan skadar också rykte och varumärke på marknaden.

PV : Vilka lösningar behövs för att "patcha" dessa sårbarheter och förbättra datasäkerheten, herrn?

Herr Dao Duc Minh: Den första och mest användbara lösningen är förebyggande åtgärder från början: Att bygga utrustning för att skydda informationssäkerheten; flerskiktsskydd; att använda korrekt process.

Mer specifikt omfattar säkerhets- och säkerhetsförebyggande åtgärder många olika lager. Förutom att investera i säkerhetsutrustning är det nödvändigt att samtidigt bygga en process för bearbetning och interaktion med användare och data, etablera en strikt process för datalivscykelkontroll och samtidigt förbättra användarnas och driftsteamets kompetens och medvetenhet om informationssäkerhet, samt tilldela lämpliga rättigheter för dataanvändning (vem har rätt att komma åt och använda vilka data?).

Å andra sidan måste företag också identifiera och vara flexibla i tillämpningen av datasäkerhetspolicyer, klassificera känslighetsnivån och säkerhetsnivån för varje typ av data för att ha lämpliga säkerhetsåtgärder, och undvika att mekaniskt tillämpa informationssäkerhetspolicyer för strikt, vilket ibland kan hindra processen för datautveckling och utnyttjande.

Speciellt för enheter som använder data för utveckling är dataklassificering ännu viktigare. Eftersom data kommer att behöva cirkulera mycket mellan olika avdelningar.

Företag måste vara förberedda på det värsta tänkbara scenariot, med relevanta experter till hands för att minimera skadorna i största möjliga utsträckning.

PV : 2023 kommer att bli dataåret. Vilka är Vietnams styrkor och svagheter inom data? Vad behöver vi enligt din åsikt för att förbereda oss för ett framgångsrikt år med digital data?

Herr Dao Duc Minh: 2023 kommer att bli Vietnams digitala dataår. När det gäller fördelar har vi en fördel inom data. Vietnam har en befolkning på 100 miljoner. Av dessa är andelen unga människor som använder smartphones, persondatorer etc. hög. Det är en egenskap som främjar data och ställer problem som behöver lösas med artificiell intelligens i Vietnam. Den andra styrkan är människorna. Vietnam har specifikt världens ledande experter inom artificiell intelligens. Dessutom har de unga mänskliga resurserna inom informationsteknik i landet en mycket god grund i matematik. Dessa är två mänskliga resurser som kan kombineras för att skapa produkter av internationell standard.

När det gäller begränsningar har vi svårt att standardisera data. I Vietnam har varje plats, varje företag, varje administrativ enhet olika data. Data är inte standardiserade, fragmenterade och inte synkroniserade. Vi behöver också en mer specifik rättslig korridor för att standardisera data.

För att få ett framgångsrikt digitalt dataår behöver Vietnam förstå kärnpunkterna och dra nytta av teknikens kraft. Samspelet mellan big data och artificiell intelligens kommer att vara hävstången för Vietnams digitala dataår.

Genom att behärska data från alla nivåer, från central till lokal, myndighetsnivå och företagsnivå, kommer Vietnam att kunna "bevara" landets värdefulla digitala resurser. I kombination med avancerad intellektuell teknologi kommer vi att kunna "utnyttja" denna resurs till fullo.

”Vietnameserna äger vietnamesiska data” hjälper också Vietnam att undvika situationen att: Köpa tillbaka produkter som utnyttjas med egna resurser.

Just nu, särskilt under 4.0-revolutionen, har Vietnam många fördelar jämfört med tidigare revolutioner. Vi har möjlighet att dra nytta av tekniken för att snabbt komma ikapp och förbättra landets position på världskartan. Jag tror att nyckeln till att uppnå detta mål snabbare och mer hållbart är "data" och "människor".

PV: Efter att ha arbetat på ett stort företag inom artificiell intelligens i USA, vad fick dig att återvända till Vietnam?

Herr Dao Duc Minh: År 2017 återvände jag till Vietnam. Man kan säga att detta var en vändpunkt. Medan jag arbetade i USA, trots att jag arbetade med många stora statliga projekt, var resultaten jag uppnådde ofta bara några steg i en stor bearbetningsprocess. Det fanns till och med tillfällen då jag inte visste om de lösningar jag utvecklat hade använts eller inte, eftersom projektets säkerhetsrutiner var mycket strikta.

Samtidigt befinner sig Vietnam i utvecklingsstadiet och det finns många problem kring big data och artificiell intelligens som behöver lösas. Vid den tidpunkten fick jag en inbjudan från professor Vu Ha Van: Återvänd till Vietnam för att förverkliga målet att utveckla vietnamesiska tekniska lösningar för att tjäna det vietnamesiska folkets liv.

Jag känner att om jag stannar i Vietnam kommer jag att kunna arbeta med problem med större effekt. Det är en av de viktiga punkterna som gör min återkomst mycket mer meningsfull.

PV: Tack för den här konversationen.

  • Produktionsorganisation: Viet Anh - Hong Van
  • Framförd av: Thi Uyen
  • Foto: Thanh Dat
Nhandan.vn

Kommentar (0)

No data
No data

I samma kategori

Bild av mörka moln "på väg att kollapsa" i Hanoi
Regnet öste ner, gatorna förvandlades till floder, Hanoi-folket tog med sig båtar ut på gatorna
Återuppförande av Ly-dynastins midhöstfestival vid Thang Longs kejserliga citadell
Västerländska turister tycker om att köpa leksaker till midhöstfestivalen på Hang Ma Street för att ge till sina barn och barnbarn.

Av samma författare

Arv

Figur

Företag

No videos available

Aktuella händelser

Politiskt system

Lokal

Produkt