Dr. Dao Duc Minh: 'Het beheersen van Vietnamese data is de eerste stap in het ontwikkelen en beheersen van Vietnamese technologie'
Báo Thanh niên•27/05/2024
Waarom besloot u terug te keren naar Vietnam om u bij VinBigdata aan te sluiten, nadat u voor een grote organisatie op het gebied van kunstmatige intelligentie in de VS had gewerkt? Hoewel ik in de VS aan veel grote overheidsprojecten heb meegewerkt, waren de resultaten die ik behaalde vaak slechts enkele stappen in een omvangrijk verwerkingsproces. Door de zeer strikte vertrouwelijkheidsprocedures van de projecten wist ik vaak niet eens hoe de door mij ontwikkelde oplossingen werden gebruikt. In 2017 keerde ik terug naar Vietnam, toen Vietnam nog in de ontwikkelingsfase zat en er veel problemen met betrekking tot big data en kunstmatige intelligentie moesten worden opgelost. Ik accepteerde de uitnodiging van professor Vu Ha Van om samen met mij het doel te realiseren om Vietnamese technologische oplossingen te ontwikkelen ten behoeve van het leven van de Vietnamezen. Ik vind mijn terugkeer naar Vietnam veel zinvoller, omdat ik met meer impact aan problemen kan werken.
Dr. Dao Duc Minh in een workshop
NVCC
Welke rol en invloed speelt big data in de strategie voor de ontwikkeling van kunstmatige intelligentie, meneer? Data speelt een zeer belangrijke en waardevolle rol bij het trainen van kunstmatige intelligentie. Om een hoogwaardig model voor kunstmatige intelligentie te trainen, beginnen we vaak met het trainen van een grote database. Om hoogwaardige kunstmatige intelligentie te hebben, hebben we daarom eerst goede data nodig. Goede data moet voldoen aan normen op het gebied van kwantiteit en schaal, kwaliteit, diversiteit en universaliteit. Het proces van het verzamelen en verwerken van duizenden uren aan data vanaf de ruwe data-opschoning tot data van de hoogste kwaliteit om in het kunstmatige-intelligentiemodel te verwerken, is erg duur en ingewikkeld. Integendeel, om big data te analyseren, moeten we kunstmatige intelligentie gebruiken om de mogelijkheid te garanderen om data op grote schaal nauwkeurig te verwerken, waardoor we meer beslissende of voorspellende resultaten kunnen genereren. Bijvoorbeeld, tijdens de ontwikkeling van een virtuele assistent voor Vietnamezen (ViVi), moesten we tienduizenden uren aan hoogwaardige audiodata verzamelen en verwerken, afkomstig van honderdduizenden stemmen uit verschillende regio's, van diverse leeftijden en geslachten, met content die honderden vakgebieden besloeg... Of, meest recent, de lancering van ViGPT - "De eerste Vietnamese versie van ChatGPT voor eindgebruikers", ontwikkeld op basis van een Big Language Model dat volledig eigendom was van VinBigdata. Dit model werd getraind op basis van 600 GB aan verfijnde Vietnamese data uit vele verschillende vakgebieden. Met onze kennis van de Vietnamese data en taal vonden we een nieuwe aanpak om de lanceringstijd van ViGPT te verkorten binnen slechts negen maanden na de geboorte van ChatGPT. Dit is de resonantie tussen big data en kunstmatige intelligentie.
Wat is uw visie op het koppelen van onderzoek aan praktische waarde ten dienste van de gemeenschap? - Ik geloof dat technologisch onderzoek pas echt succesvol is als het daadwerkelijk in de praktijk wordt toegepast, maatschappelijke problemen oplost en het leven van mensen verbetert. Om praktische commerciële producten te creëren en zakelijke en maatschappelijke problemen op te lossen, moeten we altijd aandacht besteden aan en ons afvragen: welke waarde brengen data tot leven? Tot nu toe hebben we onderzoek gedaan naar diverse producten en oplossingen in diverse vakgebieden en beroepen, zoals ViGPT, VinDr – een AI-oplossing voor medische beelddiagnostiek, VinBase – een platform voor kunstmatige intelligentie, en Vizone – een reeks slimme oplossingen voor beeldanalyse.
Met sleutelpersoneel van VinBigdata op een evenement van Vingroup Corporation
NVCC
De 4e industriële revolutie heeft zich wereldwijd sterk voltrokken. Welke voordelen heeft Vietnam volgens jou? Vergeleken met eerdere revoluties denk ik dat Vietnam momenteel veel voordelen heeft om door te breken in deze 4.0 industriële revolutie, wat bijdraagt aan het verbeteren van de positie van het land op de wereldkaart . De twee sleutels tot het bereiken van dit doel zijn data en mensen. Vietnam heeft momenteel bijna 100 miljoen inwoners, waarvan een groot deel jongeren telefoons en pc's gebruikt. Daarnaast hebben we gerenommeerde experts in kunstmatige intelligentie en jong, hooggekwalificeerd personeel in informatietechnologie en hebben we een zeer goede basis in wiskunde. Dus wat zijn de beperkingen? De eerste beperking die zichtbaar is, is dat we ondanks een grote bevolking nog steeds moeite hebben met het beheersen van data, met name het standaardiseren en synchroniseren van data bij faciliteiten, bedrijven en administratieve eenheden. Daarnaast hebben we ook te maken met andere beperkingen, zoals beperkte investeringsmiddelen, met name investeringen in high-performance computing-infrastructuur.
Hoe belangrijk is het beheersen van Vietnamese data volgens u in het proces van het creëren en beheersen van technologie ten dienste van het leven van Vietnamezen? Momenteel zijn er wereldwijd veel toonaangevende, baanbrekende producten op het gebied van kunstmatige intelligentie (AI), meestal AI-applicaties die zijn ontwikkeld op basis van grote taalmodellen zoals ChatGPT van OpenAI of Bard van Google. Vietnamees is echter niet de belangrijkste taalgroep voor de ontwikkeling van deze producten. Daarom wordt de kwaliteit van de Vietnamese content die aan gebruikers wordt geretourneerd, in meer of mindere mate beïnvloed en is de kans op fouten, en nog gevaarlijker, fouten in basiskennis groot. Als Vietnamezen hebben we het voordeel dat we toegang hebben tot onze eigen databronnen. Alleen wij zijn in staat de kenmerken van Vietnamese data, de behoeften en kenmerken van Vietnamezen te begrijpen. Daarom is het beheersen van Vietnamese data echt de sleutel tot het beheersen van kerntechnologieën, de technologieën die Vietnamezen ten dienste zullen staan.
Interne training voor VinBigdata-leden
NVCC
Hoe krijg je toegang tot specifieke databronnen, vooral nu de meeste Vietnamezen tegenwoordig sociale netwerksites vanuit het buitenland gebruiken? Sterker nog, de grootste bron van menselijke data (niet alleen Vietnamezen) is tegenwoordig het internet en sociale netwerken. We kunnen echter nog steeds data uit verschillende bronnen benaderen en verzamelen, gebaseerd op inzicht in de Vietnamese datakenmerken, afhankelijk van de kenmerken die door elk project worden vastgesteld. De GPT-modellen van OpenAI hebben bijvoorbeeld honderden, zelfs biljoenen parameters, getraind op enorme hoeveelheden data en kosten miljarden dollars. Vergeleken met deze modellen hebben we op basis van ons onderzoek, onze mogelijkheden en middelen een compleet andere richting gekozen: namelijk het creëren van een Vietnamees taalmodel met een architectuur van slechts een paar miljard parameters, getraind op een Vietnamese dataset van 600 GB die we zelf hebben verzameld en verfijnd, maar met gelijkwaardige mogelijkheden op het gebied van Vietnamese verwerking. De resultaten tonen aan dat onze zelfontwikkelde architectuur zichzelf kan optimaliseren, de trainingstijd van taalmodellen kan verkorten, kosten kan verlagen en tegelijkertijd de modelkwaliteit kan garanderen. Wat zijn de uitdagingen die u en uw team zijn tegengekomen tijdens het onderzoek naar en de ontwikkeling van producten voor kunstmatige intelligentie? De eerste uitdaging is zeker tijd. De golf van kunstmatige intelligentie (AI) komt razendsnel op gang en bevindt zich in een bloeiperiode. Wereldwijd hebben toonaangevende technologiebedrijven snel zeer complete producten gelanceerd die voortdurend worden bijgewerkt en verbeterd. Als we traag zijn en producten niet op tijd lanceren, lopen we zeker achter. Aan de andere kant, als we producten willen creëren die toepasbaar zijn en praktische maatschappelijke problemen oplossen, moeten we ook rekening houden met het vinden en ontwikkelen van de bijzondere, bijzondere en unieke kenmerken van het product.
Presentatie op Vietnam Artificial Intelligence Day (AI4VN 2023)
NVCC
In werkelijkheid hebben veel individuen en organisaties in Vietnam en de rest van de wereld veel schade geleden door datalekken. Hoe kijkt u aan tegen het probleem van gegevensbeveiliging? Je zou kunnen zeggen dat elke toepassing tegenwoordig voortkomt uit data. Bij het werken met data moeten we enerzijds het doel nastreven om data te gebruiken om de beste technologie voor het leven te creëren, en anderzijds moeten we de gegevensbeveiliging voor individuen en organisaties waarborgen. De menselijke factor is een zeer belangrijke schakel in het proces van het waarborgen van gegevensbeveiliging. Deze omvat ontwikkelaars, productgebruikers en gebruikers. Ontwikkelaars moeten zich vanaf het begin van het verzamelen en verwerken van gegevens bewust zijn van gegevensbeveiliging. Vaak zijn we ons, wanneer er geen probleem is, niet bewust van het belang van gegevensbeveiliging. Maar als er een datalek optreedt, kan de schade enorm zijn. Datalekken kunnen ontstaan door technische problemen of opzettelijke diefstal van gegevens. Wanneer er een datalek is, kunnen de gegevens van individuen of organisaties door criminelen voor illegale doeleinden worden gebruikt, terwijl bedrijven financiële verliezen kunnen lijden door het oplossen van gerelateerde problemen, en zelfs merkschade.
Dr. Dao Duc Minh en het VinBigdata-team tijdens een evenement
NVCC
Na de ambitie om technologie onder de knie te krijgen om de Vietnamese bevolking te bedienen, zullen er ongetwijfeld stappen volgen om de wereld te veroveren. Elke organisatie of onderneming die haar producten op de internationale markt wil brengen, moet voldoen aan internationale normen. VinBigdata heeft sterke punten in oplossingen en technologie, dus het ontwikkelen van een visie om de wereld te veroveren is vanzelfsprekend. Om te kunnen inzetten voor veel verschillende producten en toepassingen, is het natuurlijk noodzakelijk om te kunnen rekenen op de steun van internationale teams met jarenlange ervaring en kennis van gebruikers wereldwijd. Dank u wel!
Reactie (0)