Dr. Dao Duc Minh: «Å mestre vietnamesiske data er det første steget i å utvikle og mestre vietnamesisk teknologi»
Báo Thanh niên•27/05/2024
Etter å ha jobbet for en stor kunstig intelligens-organisasjon i USA, hvorfor bestemte du deg for å returnere til Vietnam for å bli med i VinBigdata? Mens jeg jobbet i USA, deltok jeg i mange store offentlige prosjekter, men resultatene jeg oppnådde var ofte bare noen få trinn i en stor behandlingsprosess. Mange ganger, på grunn av de svært strenge konfidensialitetsprosedyrene i prosjektene, visste jeg ikke engang hvordan løsningene jeg hadde utviklet ble brukt. I 2017 returnerte jeg til Vietnam da Vietnam var i utviklingsfasen, og det var mange problemer knyttet til stordata og kunstig intelligens som måtte løses. Jeg takket ja til invitasjonen fra professor Vu Ha Van om sammen å realisere målet om å utvikle vietnamesiske teknologiløsninger for å tjene livene til vietnamesere. Jeg synes at min retur til Vietnam er mye mer meningsfull fordi jeg vil kunne jobbe med problemer med større innflytelse.
Dr. Dao Duc Minh på et verksted
NVCC
I strategien for å utvikle kunstig intelligens, hvilken rolle og innflytelse spiller stordata, sir? Data spiller en svært viktig og verdifull rolle i trening av kunstig intelligens. For å trene en kunstig intelligensmodell av høy kvalitet, starter vi ofte med å trene en stor database. Derfor, for å ha kunstig intelligens av høy kvalitet, må vi først ha gode data. Gode data må oppfylle standarder for mengde og skala, kvalitet, mangfold og universalitet. Prosessen med å samle inn og behandle tusenvis av timer med data fra rengjøringstrinnet for rådata for å lage data av høyeste kvalitet som skal mates inn i den kunstige intelligensmodellen er svært dyr og komplisert. Tvert imot, for å analysere stordata, må vi bruke kunstig intelligens for å sikre evnen til å behandle data nøyaktig i stor skala, og dermed skape mer avgjørende eller prediktive resultater. For eksempel, i prosessen med å utvikle et virtuelt assistentprodukt for vietnamesere (ViVi), måtte vi samle inn og behandle titusenvis av timer med lyddata av høy kvalitet, fra hundretusenvis av stemmer fra forskjellige regioner, ulike aldre og kjønn, med innhold som spenner over hundrevis av felt... Eller senest lanseringen av ViGPT – «Den første vietnamesiske versjonen av ChatGPT for sluttbrukere» utviklet fra en Big Language Model som eies fullt ut av VinBigdata. Denne modellen ble trent basert på 600 GB raffinerte vietnamesiske data fra mange forskjellige felt. Med vår forståelse av vietnamesiske data og språk fant vi en ny tilnærming for å forkorte lanseringstiden for ViGPT innen bare 9 måneder etter at ChatGPT ble født. Dette er resonansen mellom big data og kunstig intelligens.
Hva er ditt syn på å koble forskning med praktisk verdi for å tjene samfunnet? – Jeg tror at teknologiforskning bare er virkelig vellykket når den faktisk kommer til live, løser sosiale problemer og forbedrer folks liv. For å skape praktiske kommersielle produkter og løse forretnings- og sosiale problemer, må vi alltid være oppmerksomme og stille spørsmålet: hvilken verdi vil data gi til live? Frem til nå har vi forsket på en rekke produkter og løsninger innen ulike felt og yrker, vanligvis ViGPT, VinDr – som tilbyr AI-løsninger innen medisinsk bildediagnostikk, VinBase – en plattform for kunstig intelligens, eller Vizone – et sett med smarte bildeanalyseløsninger.
Med nøkkelpersonell fra VinBigdata på et arrangement i regi av Vingroup Corporation
NVCC
Den fjerde industrielle revolusjonen har funnet sted sterkt på global skala. Hvilke fordeler tror du Vietnam har? Sammenlignet med tidligere revolusjoner, tror jeg Vietnam for tiden har mange fordeler å bryte gjennom i denne 4.0 industrielle revolusjonen, noe som bidrar til å forbedre landets posisjon på verdenskartet . De to nøklene til å nå dette målet er data og mennesker. Vietnam har for tiden nesten 100 millioner mennesker, hvorav en høy andel unge bruker telefoner og personlige datamaskiner. I tillegg har vi anerkjente eksperter innen kunstig intelligens og ungt, høykvalifisert personell innen informasjonsteknologi, og har et veldig godt grunnlag i matematikk. Så hva er begrensningene? Den første begrensningen som kan sees er at til tross for en stor befolkning, har vi fortsatt problemer med å mestre data, spesielt med å standardisere og synkronisere data på anlegg, forretnings- og administrative enheter. I tillegg står vi også overfor andre begrensninger, som begrensede investeringsressurser, spesielt investeringer i høyytelses datainfrastruktur.
Hvor viktig mener du er det å mestre vietnamesiske data i prosessen med å skape og mestre teknologi som tjener livene til vietnameserne? For tiden finnes det mange ledende og banebrytende kunstig intelligens-produkter fra verden, vanligvis AI-applikasjonsprodukter laget basert på store språkmodeller som ChatGPT fra OpenAI eller Bard fra Google. Vietnamesisk er imidlertid ikke kjernespråkgruppen for utviklingen av disse produktene. Derfor påvirkes kvaliteten på vietnamesisk-spesifikt innhold som returneres til brukerne mer eller mindre, og det er stor sannsynlighet for feil, og enda farligere, feil i grunnleggende kunnskap. Som vietnamesere har vi fordelen av å ha tilgang til våre egne datakilder. Bare vi har evnen til å forstå egenskapene til vietnamesiske data, behovene og egenskapene til vietnameserne. Derfor er det å mestre vietnamesiske data virkelig nøkkelen til å mestre kjerneteknologier, som er teknologiene som vil tjene vietnameserne.
Intern opplæring for VinBigdata-medlemmer
NVCC
Hvordan få tilgang til spesifikke datakilder, spesielt når de fleste vietnamesere i dag bruker sosiale nettverk fra utlandet? Faktisk er den største kilden til menneskelige data i dag (ikke bare vietnamesere) på internett og sosiale nettverk. Vi kan imidlertid fortsatt få tilgang til og samle inn data fra forskjellige kilder, basert på forståelsen av vietnamesiske dataegenskaper, avhengig av egenskapene som er satt av hvert prosjekt. For eksempel har OpenAIs GPT-modeller opptil hundrevis, til og med billioner av parametere, trent på enorme mengder data og koster milliarder av dollar. Sammenlignet med dem har vi valgt en helt annen retning basert på vår forskning, våre evner og ressurser: det vil si å lage en vietnamesisk språkmodell med en arkitektur på bare noen få milliarder parametere, trent på et 600 GB vietnamesisk datasett som vi samlet inn og raffinerte selv, men med tilsvarende muligheter når det gjelder vietnamesisk prosessering. Resultatene viser at vår egenutviklede arkitektur kan selvoptimalisere, forkorte språkmodelltreningstiden, redusere kostnader samtidig som den sikrer modellkvaliteten. Hva er utfordringene du og teamet ditt har møtt i prosessen med å forske på og utvikle kunstig intelligens-produkter? Den første utfordringen er absolutt tid. Bølgen av kunstig intelligens-teknologi kommer veldig raskt og er inne i en oppgangsperiode. I verden har ledende teknologiselskaper raskt lansert svært komplette produkter som stadig oppdateres og forbedres. Hvis vi er trege og ikke lanserer produkter i tide, vil vi garantert henge etter. På den annen side, hvis vi ønsker å lage produkter som kan anvendes og løse praktiske samfunnsproblemer, må vi også vurdere å finne og utvikle de enestående, spesielle og unike egenskapene til produktet.
Presentasjon på Vietnams dag for kunstig intelligens (AI4VN 2023)
NVCC
I virkeligheten har mange enkeltpersoner og organisasjoner i Vietnam og verden lidd mye skade i datalekkasjer. Hvordan ser du på spørsmålet om datasikkerhet? Man kan si at enhver applikasjon i dag kommer fra data. Når vi jobber med data, må vi på den ene siden sikre målet om å bruke data for å skape den beste teknologien for livet, og på den andre siden må vi sikre datasikkerhet for enkeltpersoner og organisasjoner. Den menneskelige faktoren er et svært viktig ledd i prosessen med å sikre datasikkerhet. Disse inkluderer utviklere, produktbrukere og brukere. For utviklere må bevissthet om datasikkerhet være til stede helt fra begynnelsen av datainnsamling og -behandling. Ofte, når det ikke oppstår noe problem, er vi ikke klar over viktigheten av datasikkerhet. Men hvis en datalekkasje oppstår, kan skaden være enorm. Datainnbrudd kan oppstå på grunn av tekniske problemer eller bevisste datatyveriangrep. Når data blir brutt, kan enkeltpersoner eller organisasjoner få informasjonen sin brukt til ulovlige formål av skurker, mens bedrifter kan lide økonomiske tap for å fikse relaterte problemer, og til og med merkevareskade.
Dr. Dao Duc Minh og VinBigdata-teamet på et arrangement
NVCC
Etter ambisjonen om å mestre teknologi for å tjene det vietnamesiske folket, vil det helt sikkert bli skritt for å avansere ut i verden? Enhver organisasjon eller bedrift som ønsker å bringe produktene sine til det internasjonale markedet, må overholde internasjonale standarder. VinBigdata har styrker innen løsninger og teknologi, så det er naturlig å sette seg en visjon om å erobre verden. For å distribuere for mange forskjellige produkter og applikasjoner er det selvfølgelig nødvendig å ha samarbeid med internasjonale enheter med mange års erfaring og forståelse for brukere over hele verden. Takk!
Kommentar (0)