Dr. Dao Duc Minh: "Att bemästra vietnamesisk data är det första steget i att utveckla och bemästra vietnamesisk teknologi"
Báo Thanh niên•27/05/2024
Eftersom du har arbetat för en stor organisation inom artificiell intelligens i USA, varför bestämde du dig för att återvända till Vietnam för att gå med i VinBigdata? Medan jag arbetade i USA, trots att jag deltog i många stora statliga projekt, var de resultat jag uppnådde ofta bara några steg i en stor bearbetningsprocess. Många gånger, på grund av projektens mycket strikta sekretessförfaranden, visste jag inte ens hur de lösningar jag hade utvecklat användes. År 2017 återvände jag till Vietnam när Vietnam var i utvecklingsstadiet och det fanns många problem relaterade till big data och artificiell intelligens som behövde lösas. Jag accepterade professor Vu Ha Vans inbjudan att tillsammans förverkliga målet att utveckla vietnamesiska tekniska lösningar för att tjäna vietnamesernas liv. Jag tycker att min återkomst till Vietnam är mycket mer meningsfull eftersom jag kommer att kunna arbeta med problem med större inflytande.
Dr. Dao Duc Minh i en workshop
NVCC
I strategin för att utveckla artificiell intelligens, vilken roll och vilket inflytande spelar stordata, sir? Data spelar en mycket viktig och värdefull roll i träningen av artificiell intelligens. För att träna en högkvalitativ modell för artificiell intelligens börjar vi ofta med att träna en stor databas. För att ha artificiell intelligens av hög kvalitet behöver vi därför först ha bra data. Bra data måste uppfylla standarder för kvantitet och skala, kvalitet, mångfald och universalitet. Processen att samla in och bearbeta tusentals timmar data från rensningssteget för rådata för att skapa data av högsta kvalitet som matas in i modellen för artificiell intelligens är mycket dyr och komplicerad. Tvärtom, för att analysera stordata måste vi använda artificiell intelligens för att säkerställa möjligheten att bearbeta data korrekt i stor skala och därigenom skapa mer avgörande eller prediktiva resultat. Till exempel, under processen att utveckla en virtuell assistentprodukt för vietnameser (ViVi), var vi tvungna att samla in och bearbeta tiotusentals timmar högkvalitativ ljuddata, från hundratusentals röster från olika regioner, olika åldrar och kön, med innehåll som spänner över hundratals områden... Eller alldeles nyligen lanseringen av ViGPT - "Den första vietnamesiska versionen av ChatGPT för slutanvändare" utvecklad från en Big Language Model som helt ägdes av VinBigdata. Denna modell tränades baserat på 600 GB förfinad vietnamesisk data från många olika områden. Med vår förståelse av vietnamesisk data och språk fann vi en ny metod för att förkorta lanseringstiden för ViGPT inom bara 9 månader efter att ChatGPT föddes. Detta är resonansen mellan big data och artificiell intelligens.
Vad är din syn på att koppla forskning till praktiskt värde för att tjäna samhället? - Jag tror att teknikforskning bara är verkligt framgångsrik när den faktiskt kommer till liv, löser sociala problem och förbättrar människors liv. För att skapa praktiska kommersiella produkter och lösa affärs- och sociala problem måste vi alltid vara uppmärksamma och ställa frågan: vilket värde kommer data att ge till liv? Hittills har vi forskat på en mängd olika produkter och lösningar inom olika områden och yrken, vanligtvis ViGPT, VinDr - som tillhandahåller AI-lösningar inom medicinsk bilddiagnostik, VinBase - en plattform för artificiell intelligens, eller Vizone - en uppsättning smarta bildanalyslösningar.
Med nyckelpersoner från VinBigdata vid ett evenemang för Vingroup Corporation
NVCC
Den fjärde industriella revolutionen har pågått starkt på global nivå. Vilka fördelar anser du att Vietnam har? Jämfört med tidigare revolutioner tror jag att Vietnam för närvarande har många fördelar att bryta igenom i denna 4.0-industriella revolution, vilket bidrar till att förbättra landets position på världskartan . De två nycklarna till att uppnå detta mål är data och människor. Vietnam har för närvarande nästan 100 miljoner människor, varav en hög andel unga använder telefoner och persondatorer. Dessutom har vi välrenommerade experter inom artificiell intelligens och ung, högkvalificerad personal inom informationsteknik och har en mycket god grund i matematik. Så vilka är begränsningarna? Den första begränsningen som kan ses är att trots en stor befolkning har vi fortfarande svårt att behärska data, särskilt att standardisera och synkronisera data vid anläggningar, affärs- och administrativa enheter. Dessutom står vi inför andra begränsningar såsom begränsade investeringsresurser, särskilt investeringar i högpresterande datorinfrastruktur.
Enligt din åsikt, hur viktigt är det att bemästra vietnamesisk data i processen att skapa och bemästra teknik som gynnar vietnamesernas liv? För närvarande finns det många ledande banbrytande produkter inom artificiell intelligens i världen, vanligtvis AI-applikationer som skapats baserade på stora språkmodeller som ChatGPT från OpenAI eller Bard från Google. Vietnamesiska är dock inte den centrala språkgruppen för utvecklingen av dessa produkter. Därför påverkas kvaliteten på det vietnamesiskt specifikt innehåll som returneras till användarna mer eller mindre och det finns en hög sannolikhet för fel, och ännu farligare, fel i grundläggande kunskaper. Som vietnameser har vi fördelen att vi har tillgång till våra egna datakällor. Det är bara vi som har förmågan att förstå egenskaperna hos vietnamesisk data, deras behov och egenskaper. Att bemästra vietnamesisk data är därför nyckeln till att bemästra kärnteknologier, vilka är de teknologier som kommer att tjäna vietnameserna.
Intern utbildning för VinBigdata-medlemmar
NVCC
Hur får man tillgång till specifika datakällor, särskilt när de flesta vietnameser idag använder sociala nätverkssajter utifrån? Faktum är att den största källan till mänsklig data idag (inte bara vietnameser) är internet och sociala nätverk. Vi kan dock fortfarande komma åt och samla in data från olika källor, baserat på förståelsen av vietnamesiska dataegenskaper, beroende på de egenskaper som varje projekt sätter. Till exempel har OpenAI:s GPT-modeller upp till hundratals, till och med biljoner parametrar, tränade på enorma mängder data och kostar miljarder dollar. Jämfört med dem har vi valt en helt annan riktning baserat på vår forskning, våra kapaciteter och resurser: det vill säga att skapa en vietnamesisk språkmodell med en arkitektur på endast några miljarder parametrar, tränad på en 600 GB stor vietnamesisk datamängd som vi själva samlat in och förfinat, men med motsvarande kapacitet när det gäller vietnamesisk bearbetning. Resultaten visar att vår egenutvecklade arkitektur kan självoptimera, förkorta språkmodellens träningstid, minska kostnaderna samtidigt som modellens kvalitet säkerställs. Vilka är de utmaningar som du och ditt team har stött på i processen att undersöka och utveckla artificiella intelligensprodukter? Den första utmaningen är definitivt tid. Vågen av artificiell intelligens-teknik kommer mycket snabbt och är inne i en högkonjunktur. I världen har ledande teknikföretag snabbt lanserat mycket kompletta produkter som ständigt uppdateras och förbättras. Om vi är långsamma och inte lanserar produkter i tid kommer vi säkerligen att hamna på efterkälken. Å andra sidan, om vi vill skapa produkter som kan tillämpas och lösa praktiska samhällsproblem, måste vi också överväga att hitta och utveckla produktens enastående, speciella och unika egenskaper.
Presentation på Vietnams dag för artificiell intelligens (AI4VN 2023)
NVCC
I verkligheten har många individer och organisationer i Vietnam och världen drabbats av stora skador på grund av dataläckor. Hur ser du på frågan om datasäkerhet? Man kan säga att alla tillämpningar idag kommer från data. När vi arbetar med data måste vi å ena sidan säkerställa målet att tillämpa data för att skapa den bästa tekniken för livet, och å andra sidan måste vi säkerställa datasäkerhet för individer och organisationer. Den mänskliga faktorn är en mycket viktig länk i processen att säkerställa datasäkerhet. Dessa inkluderar utvecklare, produktanvändare och användare. För utvecklare måste medvetenheten om datasäkerhet finnas redan från början av datainsamling och bearbetning. Ofta, när inga problem uppstår, är vi inte medvetna om vikten av datasäkerhet. Men om en dataläcka inträffar kan skadan bli enorm. Dataintrång kan uppstå på grund av tekniska problem eller avsiktliga datastöldattacker. När dataintrång inträffar kan individer eller organisationer få sin information använd för olagliga ändamål av skurkar, medan företag kan drabbas av ekonomiska förluster för att åtgärda relaterade problem, och till och med varumärkesskador.
Dr. Dao Duc Minh och VinBigdata-teamet vid ett evenemang
NVCC
Efter strävan att bemästra teknik för att betjäna det vietnamesiska folket, kommer det säkert att finnas steg för att avancera ut i världen? Alla organisationer eller företag som vill lansera sina produkter på den internationella marknaden måste uppfylla internationella standarder. VinBigdata har styrkor inom lösningar och teknik, så det är naturligt att sätta en vision att erövra världen. För att kunna distribuera för många olika produkter och applikationer är det naturligtvis nödvändigt att ha sällskap av internationella enheter med många års erfarenhet och förståelse för användare runt om i världen. Tack!
Kommentar (0)