'Het beheersen van Vietnamese data is de eerste stap in het ontwikkelen en beheersen van Vietnamese technologie'

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 1.

Waarom hebt u besloten om terug te keren naar Vietnam om bij VinBigdata te gaan werken, nadat u voor een grote organisatie op het gebied van kunstmatige intelligentie in de VS hebt gewerkt?

Tijdens mijn werk in de VS nam ik weliswaar deel aan veel grote overheidsprojecten , maar de resultaten die ik behaalde, waren vaak slechts enkele stappen in een groot proces. Door de strikte vertrouwelijkheid van de projecten wist ik vaak niet eens hoe de door mij ontwikkelde oplossingen werden gebruikt.

Toen ik in 2017 terugkeerde naar Vietnam, bevond het zich nog in de ontwikkelingsfase en waren er veel problemen met big data en kunstmatige intelligentie die moesten worden opgelost. Ik accepteerde de uitnodiging van professor Vu Ha Van om samen met hen het doel te realiseren om Vietnamese technologische oplossingen te ontwikkelen ten behoeve van de Vietnamese bevolking. Ik vond mijn terugkeer naar Vietnam veel zinvoller, omdat ik me kon richten op problemen met een grotere impact.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 2. — Dr. Dao Duc Minh in een workshop

Welke rol en invloed speelt big data in de strategie voor de ontwikkeling van kunstmatige intelligentie, meneer?

Data speelt een enorme en waardevolle rol bij het trainen van kunstmatige intelligentie. Het trainen van een hoogwaardig model voor kunstmatige intelligentie begint vaak met het trainen van een grote database. Om hoogwaardige kunstmatige intelligentie te hebben, hebben we daarom eerst goede data nodig.

Goede data moeten voldoen aan normen op het gebied van kwantiteit en schaal, kwaliteit, variëteit en universaliteit. Het proces van het verzamelen en verwerken van duizenden uren aan data vanaf de ruwe data-opschoning tot data van de hoogste kwaliteit voor gebruik in AI-modellen is zeer kostbaar en complex. Om big data te analyseren, moeten we daarentegen AI gebruiken om data op grote schaal nauwkeurig te kunnen verwerken, wat leidt tot betere, doorslaggevende of voorspellende resultaten.

Bij de ontwikkeling van een virtueel assistentproduct voor Vietnamezen (ViVi) moesten we bijvoorbeeld tienduizenden uren aan hoogwaardige audiogegevens verzamelen en verwerken, van honderdduizenden stemmen uit verschillende regio's, van verschillende leeftijden en geslachten, met content die honderden vakgebieden besloeg...

Of, meest recent, de lancering van ViGPT - "De eerste Vietnamese versie van ChatGPT voor eindgebruikers", ontwikkeld op basis van een Large Language Model dat volledig eigendom is van VinBigdata. Dit model is getraind op basis van 600 GB aan verfijnde Vietnamese data uit diverse vakgebieden. Dankzij onze kennis van Vietnamese data en taal hebben we een nieuwe aanpak gevonden om de lanceringstijd van ViGPT te verkorten, binnen slechts 9 maanden na de lancering van ChatGPT.

Dit is de synergie tussen big data en kunstmatige intelligentie.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 3.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 4.

Wat is uw visie op het koppelen van onderzoek aan praktische waarde ten behoeve van de gemeenschap?

- Ik geloof dat technologisch onderzoek alleen succesvol is als het daadwerkelijk in de praktijk wordt toegepast, maatschappelijke problemen oplost en de levens van mensen verbetert.

Om praktische, commerciële producten te creëren die zakelijke en maatschappelijke problemen oplossen, moeten we ons altijd afvragen: welke waarde kunnen data toevoegen aan het leven?

Tot nu toe hebben we een scala aan producten en oplossingen onderzocht en ontwikkeld voor verschillende industrieën en vakgebieden, meestal ViGPT, VinDr (AI-oplossingen voor medische beelddiagnostiek), VinBase (een platform voor bio-kunstmatige intelligentie) of Vizone (een slimme set oplossingen voor beeldanalyse).

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 5. — Met sleutelpersoneel van VinBigdata op een evenement van Vingroup Corporation

De vierde industriële revolutie vindt wereldwijd krachtig plaats. Welke voordelen heeft Vietnam volgens jou?

Vergeleken met eerdere revoluties denk ik dat Vietnam momenteel veel voordelen heeft om door te breken in deze 4.0 industriële revolutie, wat de positie van het land op de wereldkaart zal helpen verbeteren. De twee sleutels om dit doel te bereiken zijn data en mensen.

Vietnam telt momenteel bijna 100 miljoen inwoners, van wie een groot deel jongeren telefoons en pc's gebruikt. Daarnaast hebben we gerenommeerde experts in kunstmatige intelligentie en gekwalificeerd jong personeel in de informatietechnologie, en een zeer goede basis in wiskunde.

Wat zijn de beperkingen?

De eerste duidelijke beperking is dat we ondanks de grote populatie nog steeds moeite hebben met het beheersen van de gegevens, met name met het standaardiseren en synchroniseren van gegevens bij faciliteiten, bedrijven en administratieve eenheden.

Daarnaast worden we ook geconfronteerd met andere beperkingen, zoals beperkte investeringsmiddelen, met name investeringen in high-performance computing-infrastructuur.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 6.

Hoe belangrijk is volgens jou het beheersen van Vietnamese data in de ontwikkeling en beheersing van technologie ten behoeve van het leven van de Vietnamese bevolking?

Er zijn momenteel wereldwijd veel toonaangevende AI-producten, meestal AI-toepassingen gebaseerd op grote taalmodellen zoals ChatGPT van OpenAI of Bard van Google. Vietnamees is echter niet de belangrijkste taalgroep voor de ontwikkeling van deze producten.

Daardoor wordt de kwaliteit van de Vietnamese inhoud die aan gebruikers wordt teruggegeven in meer of mindere mate beïnvloed en is de kans groot dat er fouten in zitten, en nog gevaarlijker: fouten in de basiskennis.

Als Vietnamezen hebben we het voordeel dat we toegang hebben tot onze eigen databronnen. Alleen wij zijn in staat de kenmerken van Vietnamese data, de behoeften en kenmerken van de Vietnamezen te begrijpen. Daarom is het beheersen van Vietnamese data de sleutel tot het beheersen van kerntechnologieën, de technologieën die de Vietnamezen ten goede komen.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 7. — Interne training voor VinBigdata-leden

Hoe krijg je toegang tot specifieke gegevensbronnen, vooral nu de meeste Vietnamezen tegenwoordig gebruikmaken van sociale netwerksites in het buitenland?

Sterker nog, de grootste bron van menselijke data (niet alleen van Vietnamezen) is tegenwoordig het internet en sociale netwerken. We kunnen echter nog steeds data uit verschillende bronnen raadplegen en verzamelen, afhankelijk van de Vietnamese datakenmerken en de kenmerken die door elk project worden vastgelegd.

De GPT-modellen van OpenAI hebben bijvoorbeeld honderden, zelfs biljoenen parameters, worden getraind op enorme hoeveelheden data en kosten miljarden dollars. Vergeleken met deze modellen hebben we op basis van ons onderzoek, onze mogelijkheden en onze middelen een compleet andere aanpak gekozen: het creëren van een Vietnamees taalmodel met een architectuur van slechts een paar miljard parameters, getraind op een Vietnamese dataset van 600 GB die we zelf hebben verzameld en verfijnd, maar met vergelijkbare mogelijkheden voor de verwerking van Vietnamees. De resultaten tonen aan dat onze zelfontwikkelde architectuur zichzelf kan optimaliseren, de trainingstijd van het taalmodel kan verkorten, kosten kan verlagen en toch de kwaliteit van het model kan garanderen.

Wat zijn de uitdagingen die u en uw team tegenkwamen tijdens het onderzoek naar en de ontwikkeling van producten voor kunstmatige intelligentie?

De eerste uitdaging is zeker tijd. De golf van kunstmatige intelligentie (AI) komt razendsnel op gang en bevindt zich in een explosieve fase. Wereldwijd hebben toonaangevende technologiebedrijven snel zeer complete producten gelanceerd, die voortdurend worden bijgewerkt en verbeterd. Als we traag zijn en producten niet op tijd lanceren, raken we zeker achterop.

Als we daarentegen producten willen creëren die toepasbaar zijn en praktische maatschappelijke problemen oplossen, moeten we ook rekening houden met het vinden en ontwikkelen van de bijzondere, unieke eigenschappen van het product.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 8. — Presentatie op Vietnam Artificial Intelligence Day (AI4VN 2023)

Sterker nog, veel mensen en organisaties in Vietnam en de rest van de wereld hebben grote verliezen geleden door datalekken. Hoe kijkt u aan tegen de kwestie van gegevensbeveiliging?

We kunnen stellen dat elke toepassing tegenwoordig voortkomt uit data. Bij het werken met data moeten we enerzijds het doel nastreven om data te gebruiken voor de beste technologie voor het leven, en anderzijds de dataveiligheid voor individuen en organisaties waarborgen.

De menselijke factor is een zeer belangrijke schakel in het proces van databeveiliging. Ontwikkelaars, productgebruikers en gebruikers behoren tot deze groep. Ontwikkelaars moeten zich vanaf het allereerste begin van de dataverzameling en -verwerking bewust zijn van databeveiliging.

Vaak zijn we ons niet bewust van het belang van gegevensbeveiliging, ook al is er geen probleem. Maar als er een datalek optreedt, kan de schade enorm zijn. Datalekken kunnen ontstaan door technische problemen of opzettelijke aanvallen om gegevens te stelen. Bij datalekken kunnen de gegevens van personen of organisaties door criminelen worden gebruikt voor illegale doeleinden, en bedrijven kunnen financiële verliezen lijden door het oplossen van gerelateerde problemen, of zelfs hun merknaam beschadigen.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 9. — Dr. Dao Duc Minh en het VinBigdata-team tijdens een evenement

Zullen er, na de ambitie om technologie onder de knie te krijgen om het Vietnamese volk te dienen, stappen worden gezet om vooruitgang te boeken in de wereld?

Elke organisatie of bedrijf dat zijn producten internationaal op de markt wil brengen, moet voldoen aan internationale normen. VinBigdata is sterk in oplossingen en technologie, dus het is logisch om een visie te ontwikkelen om de wereld te veroveren.

Om te kunnen implementeren voor veel verschillende producten en toepassingen is uiteraard de ondersteuning van internationale eenheden met jarenlange ervaring en kennis van gebruikers over de hele wereld noodzakelijk.

Bedankt!

Bron: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm