Vietnam.vn - Nền tảng quảng bá Việt Nam

For å løse det vietnamesiske dataproblemet, må vi forstå hva som kjennetegner den vietnamesiske befolkningen.

Báo Nhân dânBáo Nhân dân14/07/2023

Det vietnamesiske folket vil forstå behovene og egenskapene til sitt eget folk best, og dermed forstå egenskapene til vietnamesiske data. Dette er grunnlaget for å kunne bruke teknologi på en vellykket måte for å tjene livene til det vietnamesiske folket.
Nhan Dan Newspaper hadde en samtale med Dr. Dao Duc Minh, daglig leder i VinBigData Joint Stock Company ( Vingroup Corporation), om innsamling, bruk og rolle av stordata i utviklingen av kunstig intelligens i Vietnam, spesielt vietnamesernes rolle i det vietnamesiske dataproblemet.

PV: Kan du fortelle oss om rollen og verdien av data i opplæring av kunstig intelligens?

Herr Dao Duc Minh: Suksessen til kunstig intelligens vil i stor grad avhenge av å vite hvordan man velger, samler inn og behandler data. For å trene en kunstig intelligensmodell av høy kvalitet starter vi ofte med å trene fra en ganske stor database.

Når modellen er distribuert og testet, vil fortsatt datainnsamling og -behandling spille en svært viktig rolle i å forbedre og perfeksjonere modellkvaliteten.

Data må oppfylle standarder når det gjelder kvantitet, kvalitet, mangfold og universalitet. For eksempel, i prosessen med å utvikle ViVi Virtual Assistant-produktet for vietnamesere, for å lære dem opp, måtte vi samle inn og behandle titusenvis av timer med data av høy kvalitet, fra hundretusenvis av stemmer fra forskjellige regioner, ulike aldre og kjønn, med innhold som spenner over hundrevis av felt,...

Rådataene blir først renset, merket og behandlet gjennom mange trinn for å lage en datakilde av høyeste kvalitet som skal mates inn i AI-modellen, og dermed forbedre ViVis nøyaktighet. Dette tallet når nesten maksimum: >98 %.

Det er svært dyrt og komplisert å samle inn og behandle tusenvis av timer med data. Men vi trenger gode data for å ha kunstig intelligens av høy kvalitet. ChatGPT eller Bard (Googles chatbot) er begge trent på enorme datakilder samlet fra mange forskjellige kilder på internett.

For at AI skal lykkes, må den trenes på store og mangfoldige datakilder, slik at resultatene som produseres blir svært nøyaktige. For å analysere stordata må vi derimot bruke AI for å sikre evnen til å behandle data nøyaktig i stor skala, og dermed skape resultater som er mer avgjørende eller prediktive.

Det er en resonans mellom kunstig intelligens og stordata.

PV: Fortell oss om prosessen med å velge og samle inn data for maskinlæring. Hvordan vil disse dataene bli samlet inn, og fra hvilke kilder? Spesielt når det er de sosiale nettverkene til utenlandske selskaper (Google, Facebook...) som eier mest informasjon om vietnamesiske brukere.

Herr Dao Duc Minh: Det første trinnet i prosessen med å velge og samle inn data for maskinlæringsmodeller er å forstå hva som er et godt valg. Vi kan referere til 5V-modellen for stordata, en god datakilde vil inkludere alle 5 faktorene: volum, verdi, variasjon, hastighet og sannferdighet.

For å lage den beste AI-modellen for en praktisk anvendelse, må en god datakilde vanligvis være både mangfoldig og universell på tvers av mange lignende problemer, samt spesifikk og individuell for den anvendelsen.

Det er et faktum at den største kilden til menneskelige data er på internett og sosiale nettverk. Denne datakilden eies i stor grad av utenlandske selskaper. Data kan imidlertid komme fra mange forskjellige kilder, og Vietnam har fortsatt fordelen av å ha tilgang til sine egne datakilder. Dessuten finnes det dataproblemer som bare vietnamesere kan løse. Fordi vi er de som forstår egenskapene til "vietnamesiske data", forstår behovene og egenskapene til vietnamesere, og dermed lykkes med å anvende teknologi for å tjene livene til vietnamesere.

For ViVi var det første problemet VinBigData satte seg å lage et stemmeassistentprodukt laget av vietnamesere, for vietnamesere. Det vil si at vi må mestre vietnamesiske datakilder, kombinere med kunstig intelligens-teknologi for å lage et svært anvendelig produkt som optimalt betjener vietnamesernes behov.

Fra disse målene forstår vi hva og hvor vi trenger å samle inn datakilder for opplæring. Denne datakilden trenger ikke nødvendigvis å være de enorme datakildene på nettet.

Med et ønske om å mestre vietnamesisk data og teknologi har VinBigData siden oppstarten bygget sine egne datakilder som er unike for vietnamesere. Den totale mengden data vi eier har nådd mer enn 3500 terabyte. Mer spesifikt har vi: Data om millioner av multiregionale stemmer i Vietnam; mer enn 2 millioner medisinske bilder fra mange forskjellige kilder; millioner av data om kamerabilder av flere objekter i Vietnam (personer, kjøretøy og objekter), og dusinvis av forskjellige tverrfaglige databaser..., som alle har blitt samlet inn, renset, behandlet og merket.

Spesielt i 2021 annonserte vi også Project to Sequence 1000 Vietnamese Genomes (utgitt av Big Data Research Institute – forgjengeren til VinBigData), og ble dermed en av enhetene som eier den største vietnamesiske genomdatabasen. Dette forskningsresultatet har blitt og blir delt med leger og genetikere, med sikte på persontilpasset medisin for Vietnam i fremtiden.

PV : Hva skjer etter at dataene er samlet inn, og hvordan standardiseres de? Jo større dataene er, desto bedre?

Herr Dao Duc Minh: Som sagt er volum en av de viktigste faktorene når man samler inn data. Jeg vil imidlertid også understreke at: Hvis det ikke er tydelig utvalgt, renset og klassifisert, er ikke stordata alene nok.

Vanligvis vil data gå gjennom en grunnleggende behandlingssyklus som inkluderer: Innsamling (strukturerte og ustrukturerte data), lagring (data lagres i et databasesystem), behandling (inkludert en rekke trinn som filtrering, rensing, merking, dataforbedring, informasjonsutvinning/syntese, samt datavisualisering) og analyse. Denne prosessen kan gjentas mange ganger under utviklingen og ferdigstillelsen av et AI-system.

Det viktigste er hvilken verdi data vil bringe til live? Dette er hva VinBigData har pleiet i nesten 5 år med forskning og produktutvikling. Vi tror at bare når teknologi virkelig kommer inn i livet, løser sosiale problemer og forbedrer folks liv, vil forskningen bli virkelig vellykket.

PV: Du har nylig snakket mye om hvordan vi samler inn og oppretter våre egne datalagre. Så hva vil være kriteriene for å bestemme grensene for datainnsamling og -bruk for å sikre brukerrettigheter?

Herr Dao Duc Minh: Prosessen med å samle inn og behandle data krever juridiske forskrifter eller sikkerhetsstandarder for å beskytte brukere så vel som bedrifter. Vietnam er fortsatt i ferd med å bygge og perfeksjonere spesifikke standarder for å beskytte brukerdata.

Det finnes allerede en god del standarder i verden . For eksempel: GDPR – EUs standard for databeskyttelse; eller PCI-DSS er en standard som har som mål å beskytte brukere av kortbetalinger.

Når vi ønsker å popularisere eller bringe vietnamesiske produkter til det internasjonale markedet, er det svært nødvendig å overholde disse internasjonale standardene.

For å sikre brukernes rettigheter, streber VinBigData i den nærmeste fremtid etter å skape åpenhet i prosessen med å samle inn og bruke data, der formålene og målene med innsamling og bruk av data blir offentliggjort. Spesielt med data som eies av enkeltpersoner.

For øyeblikket har VinBigData inngått avtaler med en rekke internasjonale organisasjoner for å sikre brukernes sikkerhet og rettigheter. Etter det håper vi å oppnå enighet mellom bedrifter og myndigheter om snart å bygge en juridisk korridor samt juridiske standarder for beskyttelse av brukerdata.

PV: Hvordan vil kunstig intelligens møte risikoer eller sårbarheter i datasikkerheten når man besitter stordata?

Herr Dao Duc Minh: Hvis brukt riktig,   Data vil være en verdifull ressurs. Risikoen for datatap og -lekkasje er et problem som krever sikkerhetstiltak fra starten av.

Inntil noe skjer, forstår vi ofte ikke fullt ut viktigheten av datasikkerhet. Men når noe skjer, vil skaden være enorm. Nylig ble dataene til mer enn 200 millioner Twitter-brukere lekket. Brukerinformasjon ble offentlig solgt på mange forskjellige plattformer. Tenk deg at hvis alle disse millionene brukerne anla et søksmål, ville Twitter lidd store tap.

Hvis datalekkasjen er rent teknisk, er skaden vanligvis mindre. Men hvis lekkasjen er relatert til forsettlig datatyveri, er konsekvensene svært uforutsigbare. For enkeltpersoner kan skurker bruke den lekkede informasjonen til mange forskjellige ulovlige formål. Når det gjelder bedrifter, forårsaker informasjonslekkasjen ikke bare store økonomiske tap for å fikse relaterte problemer, men forårsaker også skade på omdømme og merkevare i markedet.

PV : Hvilke løsninger trengs for å «oppdatere» disse sårbarhetene og forbedre datasikkerheten, sir?

Herr Dao Duc Minh: Den første og mest nyttige løsningen er forebygging fra starten av: Bygge utstyr for å beskytte informasjonssikkerhet og trygghet; flerlagsbeskyttelse; bruke riktig prosess.

Mer spesifikt omfatter sikkerhets- og trygghetsforebygging mange forskjellige lag. I tillegg til å investere i sikkerhetsutstyr er det nødvendig å samtidig bygge en prosess for behandling og samhandling med brukere og data, etablere en streng kontrollprosess for datalivssyklusen, og samtidig forbedre ferdighetene og bevisstheten rundt informasjonssikkerhet hos brukere og driftsteamet, og tildele passende rettigheter til databruk (hvem har rett til å få tilgang til og bruke hvilke data?).

På den annen side må bedrifter også identifisere og være fleksible i anvendelsen av datasikkerhetspolicyer, klassifisere sensitivitetsnivået og sikkerhetsnivået for hver datatype for å ha passende sikkerhetstiltak, og unngå å mekanisk anvende informasjonssikkerhetspolicyer for strengt, noe som noen ganger kan hindre prosessen med datautvikling og -utnyttelse.

Spesielt for enheter som bruker data til utvikling, er dataklassifisering enda viktigere. Fordi data må sirkulere mye mellom ulike avdelinger.

Bedrifter må være forberedt på verst tenkelige scenario, med relevante eksperter tilgjengelig for å minimere skadene i størst mulig grad.

PV : 2023 blir dataenes år. Hva er Vietnams styrker og svakheter innen data? Hva mener du trenger vi for å forberede oss på et vellykket år med digitale data?

Herr Dao Duc Minh: 2023 blir året for digitale data for Vietnam. Når det gjelder fordeler, har vi et fortrinn innen data. Vietnam har en befolkning på 100 millioner. Av disse er andelen unge mennesker som bruker smarttelefoner, personlige datamaskiner osv. høy. Dette er en egenskap som fremmer data og stiller problemer som må løses med kunstig intelligens i Vietnam. Den andre styrken er mennesker. Vietnam har spesielt verdensledende eksperter på kunstig intelligens. I tillegg har de unge menneskelige ressursene innen informasjonsteknologi i landet et veldig godt grunnlag i matematikk. Dette er to menneskelige ressurser som kan kombineres for å skape produkter av internasjonal standard.

Når det gjelder begrensninger, har vi problemer med å standardisere data. I Vietnam har hvert sted, hver bedrift, hver administrativ enhet forskjellige data. Dataene er ikke standardiserte, fragmenterte og ikke synkroniserte. Vi trenger også en mer spesifikk juridisk korridor for å standardisere data.

For å ha et vellykket digitalt dataår, må Vietnam forstå kjernepunktene samt dra nytte av teknologiens kraft. Resonansen mellom stordata og kunstig intelligens vil være den viktigste drivkraften for Vietnams digitale dataår.

Ved å mestre data fra alle nivåer, fra sentralt til lokalt, myndigheter og bedrifter, vil Vietnam kunne «bevare» landets verdifulle digitale ressurser. Kombinert med avansert intellektuell teknologi vil vi kunne «utnytte» denne ressursen til det fulle.

«Vietnameserne eier vietnamesiske data» hjelper også Vietnam med å unngå situasjonen med å kjøpe tilbake produkter som er utnyttet på egne ressurser.

Akkurat nå, spesielt i 4.0-revolusjonen, har Vietnam mange fordeler sammenlignet med tidligere revolusjoner. Vi har muligheten til å dra nytte av teknologi for raskt å ta igjen og forbedre landets posisjon på verdenskartet. Jeg tror nøkkelen til å nå dette målet raskere og mer bærekraftig er «data» og «mennesker».

PV: Etter å ha jobbet i et stort kunstig intelligens-selskap i USA, hva fikk deg til å returnere til Vietnam?

Herr Dao Duc Minh: I 2017 returnerte jeg til Vietnam. Man kan si at dette var et vendepunkt. Mens jeg jobbet i USA, selv om jeg jobbet med mange store offentlige prosjekter, var resultatene jeg oppnådde ofte bare noen få trinn i en stor behandlingsprosess. Det var til og med tider da jeg ikke visste om løsningene jeg utviklet hadde blitt brukt eller ikke, fordi prosjektets sikkerhetsprosedyrer var svært strenge.

I mellomtiden er Vietnam i utviklingsfasen, og det er mange problemer knyttet til stordata og kunstig intelligens som må løses. På den tiden mottok jeg en invitasjon fra professor Vu Ha Van: Retur til Vietnam for å realisere målet om å utvikle vietnamesiske teknologiløsninger for å tjene livene til det vietnamesiske folket.

Jeg føler at hvis jeg blir værende i Vietnam, vil jeg kunne jobbe med problemer med større effekt. Det er et av de viktige punktene som gjør at jeg kommer tilbake mye mer meningsfullt.

PV: Takk for denne samtalen.

  • Produksjonsorganisasjon: Viet Anh - Hong Van
  • Fremført av: Thi Uyen
  • Bilde: Thanh Dat
Nhandan.vn

Kommentar (0)

No data
No data

I samme kategori

Bilde av mørke skyer som er i ferd med å kollapse i Hanoi
Regnet øste ned, gatene ble til elver, folk fra Hanoi brakte båter ut i gatene
Gjenoppføring av Ly-dynastiets midthøstfestival ved Thang Long keiserlige citadell
Vestlige turister liker å kjøpe leker til midthøstfestivalen på Hang Ma-gaten for å gi til barna og barnebarna sine.

Av samme forfatter

Arv

Figur

Forretninger

No videos available

Aktuelle hendelser

Det politiske systemet

Lokalt

Produkt