Produkten skapade snabbt uppståndelse i den vietnamesiska vetenskaps- och teknikgemenskapen.

Välj den svåra vägen för att lösa det vietnamesiska problemet

I slutet av 2022 skapade ChatGPT en "big bang", vilket inledde en kapplöpning om att erövra artificiell AI mellan länder och jättar inom teknikområdet. Vid den tiden var det vietnamesiska tekniksamhället också ivrigt att utveckla vietnamesiska produkter för att bli självförsörjande inom teknik, vilket minskade beroendet av internationella produkter. Men inte alla enheter har förmågan och beslutsamheten att förverkliga den önskan som VinBigdata.

”Generativ AI är ett svårt problem. Stora företag som OpenAI eller Google måste också investera mycket resurser och tid i forskning för att kunna skapa produkter som vi ser dem. Dessa produkter är mycket bra, men i själva verket förstår forskare fortfarande inte helt dess funktionsmekanism. När det finns fel, och vilka felen kommer att vara, kan få förutsäga. Att utveckla en produkt som liknar ChatGPT för vietnameser, på kort tid på mindre än ett år, finns det många utmaningar. Men vi valde att "riskera", för om en vietnamesisk version av ChatGPT inte tillverkas av vietnameser, vem kommer då att tillverka den?" - Professor Vu Ha Van - vetenskapschef på VinBigdata, delade.

Faktum är att väldigt få företag väljer att bygga sina egna stora språkmodeller från grunden. Till exempel har OpenAI:s GPT 3 175 miljarder parametrar och tränades på en datauppsättning på 45 terabyte och kostade 4,6 miljoner dollar. Enligt beräkningar kan summan pengar för att utveckla GPT 4 till och med uppgå till 100 miljoner dollar. "Med så stora siffror är det mycket svårt att hitta ett företag som har råd att investera i den här tekniken", säger Dr. Nguyen Kim Anh - produktchef för VinBigdata.

foto 1.jpg

För att vietnamesiska företag ska kunna få tillgång till den nya generationens AI-teknik, med optimala kostnader och infrastruktur, valde VinBigdata en helt annan riktning, nämligen att skapa en språkmodell med endast 1,6 miljarder parametrar, men med kapacitet motsvarande stora språkmodeller med miljarder parametrar. ”Resultaten visar att med den arkitektur som VinBigdata själva utvecklat är det fullt möjligt att optimera och accelerera språkmodellens utbildningsprocess, minska infrastrukturkostnaderna (inklusive utbildningskostnader och användningskostnader), men ändå säkerställa modellens kvalitet”, tillade Dr. Nguyen Kim Anh.

Efter att ha löst problemet med stora språkmodeller, under processen att "utveckla" ViGPT, och efter att ha undersökt utländska modeller, insåg VinBigdata-teamet också en annan utmaning, nämligen "illusion", som härrör från den inneboende naturen hos statistiska sannolikhetsmodeller.

Följaktligen tränas världens största språkmodeller ofta med engelska datakällor. Därför förstår och svarar denna modell inte riktigt korrekt på den vietnamesiska befolkningens kontext och kultur. Detta leder till hallucinationer som får stora språkmodeller att "fabricera" felaktiga svar.

foto 3.jpg

För att hitta den optimala lösningen på kortast möjliga tid är VinBigdatas NLP-team (Natural Language Processing) uppdelat i små grupper som analyserar och diskuterar olika idéer för att hitta den lämpligaste slutliga inriktningen.

”Slutligen bestämde vi oss för att utveckla en arkitektur som skiljer sig från de flesta av de nuvarande stora språkmodellerna och genomföra utbildning på en finjusterad vietnamesisk datamängd på 600 GB för att skapa en ’intelligent virtuell assistent’ som kan förstå och ge svar i enlighet med vietnamesernas kontext”, tillade Dr. Nguyen Kim Anh.

Ambition om ett vietnamesiskt teknologiskt ekosystem

Enligt bedömningsresultaten från Vietnamese Language Proficiency Assessment Standards (VMLU) uppnådde ViGPT ett genomsnittligt resultat på 42,24 %, näst efter ChatGPT (48,54 %). Detta resultat gör det möjligt för ViGPT att snabbt söka efter information och svara på frågor om specifika ämnen i Vietnam.

Utöver den virtuella assistentens kapacitet är utvecklingsteamets önskan att integrera ViGPT i välbekanta produkter för daglig användning för att skapa förändringar i vietnamesiska människors liv. Det är drivkraften som motiverar VinBigdata-teamet att bygga ett ekosystem av språk- och röstprodukter som tillämpar ViGPT - "Vi"-ekosystemet inkluderar: ViChat, ViVoice, ViVi Virtual Assistant. Dessa produkter kan användas inom många branscher, från bilindustrin, bank- och finansbranschen, försäkringsbranschen till transportbranschen och många andra områden.

”När vi arbetar med teknik, särskilt AI, vill vi inte bara erövra intressanta, komplexa och svåröverskådliga system. Vi vill skapa konkreta, mycket användbara produkter, där AI är den direkta aktören som skapar förändringar i livet”, bekräftade VinBigdatas produktchef.

foto 4.jpg

Därför är den framgångsrika utvecklingen av ViGPT bara det första steget i resan mot att föra "rent vietnamesisk" teknologi och data till miljontals vietnameser. En representant för VinBigdata sa att denna enhet syftar till att integrera ViGPT i VinBase 2.0-plattformen för multikognitiv artificiell intelligens, för att tillhandahålla enastående lösningar för organisationer och företag av olika storlekar och branscher.

Innan ViGPT satte teamet av experter och ingenjörer inom språk- och talbehandlingsteknik, VinBigdata, sin prägel genom att lansera ViVi – den första heltäckande vietnamesiska virtuella assistenten (använd och driftsatt på VinFast -elbilar, Vinhomes Resident-applikationer och Vinhomes Online e-handelsplattform), samtidigt som de fullständigt behärskade de mest avancerade teknikerna i världen, såsom röstbiometri eller röstkloning.

Alla dessa teknologier är utvecklade baserat på en databas på 3 500 terabyte, med huvudsaklig fokus på vietnamesiskspecifik data, insamlad, analyserad och förfinad av VinBigdata. Det yttersta målet är att föra in världsteknologi i det vietnamesiska livet med hjälp av vietnamesiska data- och kunskapssystem.

ViGPT är den första "vietnamesiska versionen av ChatGPT" för slutanvändare, byggd på den vietnamesiska stora språkmodellen (LLM) som utvecklats av VinBigdata. ViGPT har enastående funktioner och är utformad för att bäst passa vietnamesiska människors behov, såsom innehållsskapande, informationssökning och att besvara vanliga frågor med vietnamesiska särdrag. Registrera dig och upplev ViGPT på: vigpt.vinbigdata.com

Thanh Ha