«Vietnamesisk versjon av ChatGPT» og historien om pioneren

[annonse_1]

Produktet skapte raskt blest i det vietnamesiske vitenskaps- og teknologimiljøet.

Velg den vanskelige veien for å løse det vietnamesiske problemet

På slutten av 2022 skapte ChatGPT et «big bang», som åpnet et kappløp om å erobre kunstig AI blant land og giganter innen teknologifeltet. På den tiden var det vietnamesiske teknologimiljøet også ivrig etter å utvikle vietnamesiske produkter for å bli selvforsynte med teknologi, og dermed redusere avhengigheten av internasjonale produkter. Imidlertid har ikke alle enheter evnen og besluttsomheten til å realisere dette ønsket slik VinBigdata har.

«Generativ AI er et vanskelig problem. Store selskaper som OpenAI eller Google må også investere mye ressurser og tid i forskning for å kunne lage produkter slik vi ser. Disse produktene er veldig gode, men faktisk forstår ikke forskere fullt ut hvordan de fungerer. Få kan forutsi når det er feil, og hva feilene vil være. Å utvikle et produkt som ligner på ChatGPT for vietnamesere på kort tid, under et år, er mange utfordringer. Men vi valgte å «ta en risiko», for hvis en vietnamesisk versjon av ChatGPT ikke lages av vietnamesere, hvem vil da lage den?» – Professor Vu Ha Van – vitenskapsdirektør i VinBigdata – delte.

Faktisk er det svært få selskaper som velger å bygge sine egne store språkmodeller fra bunnen av. For eksempel har OpenAIs GPT 3 175 milliarder parametere og ble trent på et datasett på 45 terabyte og kostet 4,6 millioner dollar. Ifølge beregninger kan beløpet for å utvikle GPT 4 til og med nå 100 millioner dollar. «Med så enorme tall er det svært vanskelig å finne et selskap som har råd til å investere i denne teknologien», sa Dr. Nguyen Kim Anh – produktdirektør i VinBigdata.

For at vietnamesiske bedrifter skulle få tilgang til en ny generasjon AI-teknologi, med optimale kostnader og infrastruktur, valgte VinBigdata en helt annen retning, som er å lage en språkmodell med bare 1,6 milliarder parametere, men med muligheter tilsvarende store språkmodeller med milliarder av parametere. «Resultatene viser at med arkitekturen utviklet av VinBigdata selv, er det fullt mulig å optimalisere og akselerere språkmodellopplæringsprosessen, redusere infrastrukturkostnader (inkludert opplæringskostnader og brukskostnader), men fortsatt sikre modellens kvalitet», la Dr. Nguyen Kim Anh til.

Etter å ha løst problemet med store språkmodeller, under prosessen med å «unnfange» ViGPT, og etter å ha undersøkt utenlandske modeller, innså VinBigdata-teamet også en annen utfordring, som er «illusjon», som kommer fra den iboende naturen til statistiske sannsynlighetsmodeller.

Følgelig er verdens største språkmodeller ofte trent med engelske datakilder. Derfor forstår og responderer ikke denne modellen riktig på konteksten og kulturen til vietnamesere. Dette fører til hallusinasjoner som får store språkmodeller til å «fabrikere» feil svar.

For å finne den optimale løsningen på kortest mulig tid, er VinBigdatas team for naturlig språkbehandling (NLP) delt inn i små grupper, som analyserer og diskuterer ulike ideer for å finne den mest passende endelige retningen.

«Til slutt bestemte vi oss for å utvikle en annen arkitektur enn de fleste av de nåværende store språkmodellene, og gjennomføre opplæring på et finjustert vietnamesisk datasett på 600 GB, for å lage en «intelligent virtuell assistent» som kan forstå og gi svar i henhold til konteksten til vietnamesere», la dr. Nguyen Kim Anh til.

Ambisjon om et vietnamesisk teknologiøkosystem

Ifølge vurderingsresultatene fra Vietnamese Language Proficiency Assessment Standards (VMLU) oppnådde ViGPT en gjennomsnittlig poengsum på 42,24 %, nest etter ChatGPT (48,54 %). Dette resultatet lar ViGPT raskt søke etter informasjon og svare på spørsmål om spesifikke emner i Vietnam.

I tillegg til den virtuelle assistentens muligheter, er utviklingsteamets ønske å integrere ViGPT i kjente produkter for daglig bruk for å skape endringer i livene til vietnamesere. Det er drivkraften som motiverer VinBigdata-teamet til å bygge et økosystem av språk- og taleprodukter som anvender ViGPT – «Vi»-økosystemet inkluderer: ViChat, ViVoice og ViVi Virtual Assistant. Disse produktene kan brukes i mange bransjer, fra bilindustrien, bank- og finansindustrien, forsikring til transport og mange andre felt.

«Når vi jobber med teknologi, spesielt AI, ønsker vi ikke bare å erobre interessante, komplekse og vanskelige systemer å se. Vi ønsker å skape konkrete, svært anvendelige produkter, der AI er den direkte aktøren som skaper endringer i livet», bekreftet produktdirektøren i VinBigdata.

Derfor er den vellykkede utviklingen av ViGPT bare det første steget i reisen mot å bringe «rent vietnamesisk» teknologi og data til livene til millioner av vietnamesere. En representant for VinBigdata sa at denne enheten har som mål å integrere ViGPT i VinBase 2.0-plattformen for multikognitiv kunstig intelligens, for å tilby fremragende løsninger for organisasjoner og bedrifter av ulike størrelser og bransjer.

Før ViGPT satte teamet av eksperter og ingeniører innen språk- og talebehandlingsteknologi, VinBigdata, sitt preg ved å lansere ViVi – den første omfattende vietnamesiske virtuelle assistenten (anvendt og distribuert på VinFast -elbiler, Vinhomes Resident-applikasjoner og Vinhomes Online e-handelsplattform), samtidig som de fullstendig mestret de mest avanserte teknologiene i verden, som stemmebiometri eller stemmekloning.

Alle disse teknologiene er utviklet basert på en database på 3500 terabyte, med hovedfokus på vietnamesisk-spesifikke data, samlet inn, analysert og forbedret av VinBigdata. Det endelige målet er å bringe verdensteknologi inn i vietnamesisk liv ved hjelp av vietnamesiske data- og kunnskapssystemer.

ViGPT er den første «vietnamesiske versjonen av ChatGPT» for sluttbrukere, bygget på den vietnamesiske storspråkmodellen (LLM) utviklet av VinBigdata. ViGPT har enestående funksjoner og er designet for å passe best mulig til vietnamesernes behov, som innholdsproduksjon, informasjonssøk og svar på vanlige spørsmål med vietnamesiske kjennetegn. Registrer deg og opplev ViGPT på: vigpt.vinbigdata.com

Thanh Ha

[annonse_2]
Kilde