«Å mestre vietnamesiske data er det første steget i å utvikle og mestre vietnamesisk teknologi»

[annonse_1]

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 1.

Etter å ha jobbet for en stor kunstig intelligens-organisasjon i USA, hvorfor bestemte du deg for å returnere til Vietnam for å bli med i VinBigdata?

Mens jeg jobbet i USA, deltok jeg i mange store offentlige prosjekter, men resultatene jeg oppnådde var ofte bare noen få steg i en stor prosess. Mange ganger, på grunn av prosjektenes strenge konfidensialitet, visste jeg ikke engang hvordan løsningene jeg utviklet ble brukt.

I 2017, da jeg returnerte til Vietnam, var det i utviklingsfasen, og det var mange problemer knyttet til stordata og kunstig intelligens som måtte løses. Jeg takket ja til invitasjonen fra professor Vu Ha Van om sammen å realisere målet om å utvikle vietnamesiske teknologiløsninger for å tjene livene til vietnameserne. Jeg syntes at min tilbakekomst til Vietnam var mye mer meningsfull fordi jeg ville kunne jobbe med problemer med større effekt.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 2. — Dr. Dao Duc Minh på et verksted

Hvilken rolle og innflytelse spiller stordata i strategien for å utvikle kunstig intelligens, sir?

Data spiller en enorm og verdifull rolle i trening av kunstig intelligens. Trening av en kunstig intelligens-modell av høy kvalitet starter ofte med trening av en stor database. Derfor, for å ha kunstig intelligens av høy kvalitet, må vi først ha gode data.

Gode data må oppfylle standarder når det gjelder kvantitet og skala, kvalitet, variasjon og universalitet. Prosessen med å samle inn og behandle tusenvis av timer med data fra rådata-rensetrinnet for å lage data av høyeste kvalitet som skal brukes i kunstig intelligens-modeller er svært dyr og kompleks. For å analysere stordata må vi derimot bruke kunstig intelligens for å sikre evnen til å behandle data nøyaktig i stor skala, og dermed skape bedre avgjørende eller prediktive resultater.

For eksempel, i prosessen med å utvikle et virtuelt assistentprodukt for vietnamesere (ViVi), måtte vi samle inn og behandle titusenvis av timer med lyddata av høy kvalitet, fra hundretusenvis av stemmer fra forskjellige regioner, ulike aldre og kjønn, med innhold som spenner over hundrevis av felt ...

Eller nylig lanseringen av ViGPT – «Den første vietnamesiske versjonen av ChatGPT for sluttbrukere» utviklet fra en stor språkmodell som eies av VinBigdata. Denne modellen er trent basert på 600 GB med raffinerte vietnamesiske data fra mange forskjellige felt. Med vår forståelse av vietnamesiske data og språk har vi funnet en ny tilnærming for å forkorte lanseringstiden for ViGPT innen bare 9 måneder etter at ChatGPT ble født.

Dette er synergien mellom stordata og kunstig intelligens.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 3.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 4.

Hva er ditt syn på å koble forskning med praktisk verdi for å tjene samfunnet?

– Jeg tror at teknologiforskning bare er virkelig vellykket når den faktisk kommer inn i livet, løser sosiale problemer og forbedrer folks liv.

For å skape praktiske kommersielle produkter som løser forretningsmessige og sosiale problemer, må vi alltid være oppmerksomme og stille spørsmålet: hvilken verdi vil data bringe til live?

Frem til nå har vi forsket på og utviklet en rekke produkter og løsninger for ulike bransjer og felt, typisk ViGPT, VinDr – som tilbyr AI-løsninger innen medisinsk bildediagnostikk, VinBase – en plattform for biokunstig intelligens, eller Vizone – et smart sett med løsninger for bildeanalyse.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 5. — Med nøkkelpersonell fra VinBigdata på et arrangement i regi av Vingroup Corporation

Den fjerde industrielle revolusjonen har funnet sted i sterk global skala. Hvilke fordeler tror du Vietnam har?

Sammenlignet med tidligere revolusjoner, tror jeg at Vietnam for tiden har mange fordeler å bryte gjennom i denne industrielle revolusjonen 4.0, og som bidrar til å forbedre landets posisjon på verdenskartet. De to nøklene til å nå dette målet er data og mennesker.

Vietnam har for tiden nesten 100 millioner innbyggere, hvorav en høy andel unge bruker telefoner og personlige datamaskiner. I tillegg har vi anerkjente eksperter på kunstig intelligens og kvalifisert ungt personell innen informasjonsteknologi, og vi har et veldig godt grunnlag i matematikk.

Så hva er begrensningene?

Den første åpenbare begrensningen er at til tross for at vi har en stor befolkning, har vi fortsatt problemer med å mestre data, spesielt med å standardisere og synkronisere data på anlegg, forretnings- og administrative enheter.

I tillegg står vi også overfor andre begrensninger, som begrensede investeringsressurser, spesielt investeringer i infrastruktur for høyytelses databehandling.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 6.

Hvor viktig mener du er det å mestre vietnamesiske data i reisen med å skape og mestre teknologi for å tjene livene til vietnameserne?

Det finnes for tiden mange ledende AI-produkter fra verden, vanligvis AI-applikasjoner basert på store språkmodeller som ChatGPT fra OpenAI eller Bard fra Google. Vietnamesisk er imidlertid ikke den viktigste språkgruppen for utviklingen av disse produktene.

Derfor påvirkes kvaliteten på vietnamesiskspesifikt innhold som returneres til brukerne mer eller mindre, og det er stor sannsynlighet for feil, og enda farligere, feil i grunnleggende kunnskap.

Som vietnamesere har vi fordelen av å ha tilgang til våre egne datakilder. Bare vi har evnen til å forstå egenskapene til vietnamesiske data, behovene og egenskapene til vietnameserne. Derfor er det å mestre vietnamesiske data virkelig nøkkelen til å mestre kjerneteknologier, som er teknologiene som vil tjene vietnameserne.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 7. — Intern opplæring for VinBigdata-medlemmer

Hvordan får man tilgang til spesifikke datakilder, spesielt når de fleste vietnamesere i dag bruker sosiale nettverkssider fra utlandet?

Faktisk er den største kilden til menneskelige data i dag (ikke bare vietnamesere) på internett og sosiale nettverk. Vi kan imidlertid fortsatt få tilgang til og samle inn data fra forskjellige kilder, basert på forståelsen av vietnamesiske dataegenskaper, avhengig av egenskapene som er satt av hvert prosjekt.

For eksempel har OpenAIs GPT-modeller hundrevis, til og med billioner av parametere, er trent på enorme mengder data og koster milliarder av dollar. Sammenlignet med dem har vi valgt en helt annen vei basert på vår forskning, våre evner og ressurser: å lage en vietnamesisk språkmodell med en arkitektur på bare noen få milliarder parametere, trent på et vietnamesisk datasett på 600 GB som vi samlet inn og raffinerte selv, men med tilsvarende muligheter for behandling av vietnamesisk. Resultatene viser at vår egenutviklede arkitektur kan selvoptimalisere, forkorte opplæringstiden for språkmodellen, redusere kostnader og fortsatt sikre modellkvalitet.

Hvilke utfordringer har du og teamet ditt møtt på i prosessen med å forske på og utvikle produkter innen kunstig intelligens?

Den første utfordringen er utvilsomt tid. Bølgen av kunstig intelligens-teknologi kommer veldig raskt og er inne i en eksplosjonsperiode. I verden har ledende teknologiselskaper raskt lansert svært komplette produkter, som stadig oppdateres og forbedres. Hvis vi er trege og ikke lanserer produkter i tide, vil vi garantert henge etter.

På den annen side, hvis vi ønsker å lage produkter som kan anvendes og løse praktiske samfunnsproblemer, må vi også vurdere å finne og utvikle de fremragende, spesielle og unike egenskapene til produktet.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 8. — Presentasjon på Vietnams dag for kunstig intelligens (AI4VN 2023)

Faktisk har mange enkeltpersoner og organisasjoner i Vietnam og rundt om i verden lidd store tap i datalekkasjer. Hvordan ser du på spørsmålet om datasikkerhet?

Man kan si at enhver applikasjon i dag kommer fra data. Når vi jobber med data, må vi på den ene siden sikre målet om å bruke data for å skape den beste teknologien for livet, og på den andre siden må vi sørge for datasikkerhet for enkeltpersoner og organisasjoner.

Den menneskelige faktoren er et svært viktig ledd i prosessen med å sikre datasikkerhet. Dette inkluderer utviklere, produktbrukere og brukere. Utviklere må ha bevissthet om datasikkerhet helt fra starten av datainnsamling og -behandling.

Ofte, når det ikke oppstår noe problem, er vi ikke klar over viktigheten av datasikkerhet. Men hvis en datalekkasje oppstår, kan skaden være enorm. Datalekkasjer kan oppstå på grunn av tekniske problemer eller bevisste angrep for å stjele data. Når data lekker, kan enkeltpersoner eller organisasjoner få informasjonen sin brukt av skurker til ulovlige formål, og bedrifter kan lide økonomiske tap for å fikse relaterte problemer, til og med skade på merkevaren sin.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 9. — Dr. Dao Duc Minh og VinBigdata-teamet på et arrangement

Etter ambisjonen om å mestre teknologi for å tjene det vietnamesiske folket, vil det bli skritt for å avansere ut i verden?

Enhver organisasjon eller bedrift som ønsker å bringe produktene sine til det internasjonale markedet, må overholde internasjonale standarder. VinBigdata har styrker innen løsninger og teknologi, så det er naturlig å sette seg en visjon om å erobre verden.

For å kunne distribuere for mange forskjellige produkter og applikasjoner er det selvsagt nødvendig å ha støtte fra internasjonale enheter med mange års erfaring og forståelse for brukere over hele verden.

Takk skal du ha!

[annonse_2]
Kilde: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm