'Vietnamese versie van ChatGPT' en het verhaal van de pionier

Het product zorgde al snel voor opwinding in de Vietnamese wetenschappelijke en technologische gemeenschap.

Kies het moeilijke pad om het Vietnamese probleem op te lossen

Eind 2022 veroorzaakte ChatGPT een "big bang" en opende daarmee een race tussen landen en giganten in de technologiesector om kunstmatige AI te veroveren. Destijds stond de Vietnamese technologiegemeenschap ook te popelen om Vietnamese producten te ontwikkelen die technologisch zelfvoorzienend zouden zijn en zo de afhankelijkheid van internationale producten zouden verminderen. Niet elke eenheid heeft echter de capaciteit en vastberadenheid om die wens te realiseren zoals VinBigdata.

"Generatieve AI is een lastig probleem. Grote bedrijven zoals OpenAI of Google moeten ook veel tijd en middelen investeren in onderzoek om producten te kunnen creëren zoals we die nu zien. Deze producten zijn erg goed, maar wetenschappers begrijpen het werkingsmechanisme ervan nog steeds niet volledig. Wanneer er fouten in zitten, en welke fouten dat zullen zijn, kunnen weinigen voorspellen. Het ontwikkelen van een product vergelijkbaar met ChatGPT voor Vietnamezen in minder dan een jaar tijd brengt veel uitdagingen met zich mee. Maar we hebben ervoor gekozen om het risico te nemen, want als een Vietnamese versie van ChatGPT niet door Vietnamezen wordt gemaakt, wie gaat het dan maken?" - aldus professor Vu Ha Van, directeur wetenschap van VinBigdata.

Sterker nog, maar weinig bedrijven kiezen ervoor om hun eigen Large Language Models helemaal zelf te bouwen. OpenAI's GPT 3 bijvoorbeeld, heeft 175 miljard parameters en is getraind op een dataset van 45 terabyte. De kosten hiervoor bedroegen $ 4,6 miljoen. Volgens berekeningen kan de ontwikkeling van GPT 4 zelfs oplopen tot $ 100 miljoen. "Met zulke enorme aantallen is het erg moeilijk om een bedrijf te vinden dat zich kan veroorloven om in deze technologie te investeren", aldus Dr. Nguyen Kim Anh, Product Director van VinBigdata.

Om Vietnamese bedrijven toegang te geven tot nieuwe generatie AI-technologie, met optimale kosten en infrastructuur, koos VinBigdata voor een compleet andere aanpak: het creëren van een taalmodel met slechts 1,6 miljard parameters, maar met mogelijkheden die vergelijkbaar zijn met die van grote taalmodellen met miljarden parameters. "De resultaten tonen aan dat het met de door VinBigdata zelf ontwikkelde architectuur absoluut mogelijk is om het trainingsproces voor taalmodellen te optimaliseren en te versnellen, de infrastructuurkosten (inclusief trainingskosten en gebruikskosten) te verlagen en toch de kwaliteit van het model te waarborgen", voegde Dr. Nguyen Kim Anh eraan toe.

Nadat het VinBigdata-team het probleem van de grote taalmodellen had opgelost tijdens het proces van het 'concipiëren' van ViGPT en na het onderzoeken van buitenlandse modellen, realiseerde het zich ook een andere uitdaging: 'illusie', die voortkomt uit de inherente aard van statistische waarschijnlijkheidsmodellen.

Daarom worden 's werelds grootste taalmodellen vaak getraind met Engelse databronnen. Daardoor begrijpt dit model de context en cultuur van de Vietnamezen niet echt en reageert het er niet correct op. Dit leidt tot hallucinaties die ertoe leiden dat grote taalmodellen onjuiste antwoorden 'verzinnen'.

Om zo snel mogelijk de optimale oplossing te vinden, wordt het Natural Language Processing (NLP)-team van VinBigdata opgedeeld in kleine groepen. Deze teams analyseren en bespreken verschillende ideeën om zo de meest geschikte uiteindelijke oplossing te vinden.

"Uiteindelijk hebben we besloten om een andere architectuur te ontwikkelen dan de meeste huidige grote taalmodellen, en training uit te voeren op een nauwkeurig afgestemde Vietnamese dataset van 600 GB, om een 'intelligente virtuele assistent' te creëren die de context van Vietnamese mensen kan begrijpen en antwoorden kan geven", voegde Dr. Nguyen Kim Anh toe.

Streven naar een Vietnamees technologisch ecosysteem

Volgens de beoordelingsresultaten van de Vietnamese Language Proficiency Assessment Standards (VMLU) behaalde ViGPT een gemiddelde score van 42,24%, alleen ChatGPT (48,54%) scoorde hoger. Dankzij dit resultaat kan ViGPT snel informatie zoeken en vragen beantwoorden over specifieke onderwerpen in Vietnam.

Naast de mogelijkheden van de virtuele assistent, is het de wens van het ontwikkelteam om ViGPT te integreren in vertrouwde, dagelijks gebruikte producten om zo veranderingen teweeg te brengen in het leven van de Vietnamezen. Dat is de drijvende kracht achter het VinBigdata-team om een ecosysteem van taal- en spraakproducten te bouwen die ViGPT toepassen - het "Vi"-ecosysteem omvat: ViChat, ViVoice en ViVi Virtual Assistant. Deze producten kunnen in vele sectoren worden gebruikt, van de auto-industrie, bankwezen, financiën, verzekeringen tot transport en vele andere sectoren.

"Wanneer we met technologie werken, met name AI, willen we niet alleen interessante, complexe en moeilijk te begrijpen systemen veroveren. We willen tastbare, zeer toepasbare producten creëren, waarbij AI de directe factor is die veranderingen in het leven teweegbrengt", aldus VinBigdata Product Director.

De succesvolle ontwikkeling van ViGPT is daarom slechts de eerste stap in de ontwikkeling van "puur Vietnamese" technologie en data ten dienste van miljoenen Vietnamezen. Een vertegenwoordiger van VinBigdata zei dat deze unit tot doel heeft ViGPT te integreren in het VinBase 2.0 multicognitieve AI-platform, om zo uitstekende oplossingen te bieden voor organisaties en bedrijven van verschillende omvang en in verschillende sectoren.

Vóór ViGPT maakte het team van experts en ingenieurs op het gebied van taal- en spraakverwerkingstechnologie VinBigdata naam met de lancering van ViVi, de eerste complete Vietnamese virtuele assistent (toegepast en geïmplementeerd in VinFast elektrische auto's, Vinhomes Resident-applicaties en Vinhomes Online e-commerceplatform). Tegelijkertijd beheerst het team de meest geavanceerde technologieën ter wereld, zoals stembiometrie en stemklonen, volledig.

Al deze technologieën zijn ontwikkeld op basis van een database van 3500 terabyte, met een focus op Vietnamese data, verzameld, geanalyseerd en verfijnd door VinBigdata. Het uiteindelijke doel is om wereldtechnologie in de Vietnamese praktijk te brengen met behulp van Vietnamese data- en kennissystemen.

ViGPT is de eerste "Vietnamese versie van ChatGPT" voor eindgebruikers, gebaseerd op het Vietnamese Large Language Model (LLM), ontwikkeld door VinBigdata. ViGPT beschikt over uitstekende functies en is ontworpen om optimaal aan te sluiten bij de behoeften van Vietnamezen, zoals het creëren van content, het zoeken naar informatie en het beantwoorden van veelgestelde vragen met Vietnamese accenten. Registreer u en ervaar ViGPT op: vigpt.vinbigdata.com

Reactie (0)