Zalo a cesta překonávání překážek k dosažení domácích aspirací

Bratr Zalo 1

Exploze generativní umělé inteligence (Generative AI) zcela změnila globální technologickou krajinu.

Bratr Zalo 2

Od doby, kdy OpenAI koncem roku 2022 spustila ChatGPT, se neustále objevuje řada podobných modelů LLM, které se uplatňují v mnoha oblastech, jako je zdravotnictví, vzdělávání , finance, právo... Závod se stal nelítostným, a to nejen na úrovni podniků, ale i na národní úrovni, pokud jde o školicí kapacitu, výpočetní infrastrukturu a data.

Velké společnosti jako OpenAI, Google, Meta nebo Microsoft s finančním potenciálem a příznivými podmínkami „rychle“ investovaly miliardy dolarů do vlastnictví tisíců špičkových GPU, jako je Nvidia H100 – klíčového faktoru pro trénování modelů LLM. Cena akcií Nvidie v tomto období prudce vzrostla, což odráží celosvětovou touhu po infrastruktuře.

Bratr Zalo 3

Technologické společnosti v rozvojových zemích se kromě problémů s náklady potýkají také s omezeními v dovozu a vývozu zařízení s čipy pro umělou inteligenci z USA. To vede k nedostatku školicího vybavení a k „pomalejšímu“ vývoji ve srovnání s technologickými giganty. Pokud jde o domácí ambice, Zalo není výjimkou.

Bratr Zalo 4

Co se týče dat, předchozí problémy strojového učení vyžadovaly velké množství trénovacích dat, ale pro rozsáhlé jazykové modely se jedná o obrovské množství dat. Pro dostatečně dobrý model systém LLM vyžaduje desítky nebo dokonce stovky miliard vstupních textových tokenů. Vietnamština se zároveň z hlediska popularity „nevyrovná“ angličtině a čínštině. To znásobilo obtíže pro vietnamské vývojáře LLM.

Bratr Zalo 5

V roce 2023 dobyly technologický svět rozsáhlé jazykové modely (LLM), jako například GPT-3.5 a GPT-4, a mnoho vietnamských podniků si také zvolilo vyladěné modely zahraniční výroby, aby si zkrátily cestu a uspěly v procesu vzdělávání v LLM.

Zalo zvolil jinou cestu – náročnější, ale autonomnější: Samostudium modelu od nuly (model od nuly). Cestu, která vyžaduje, aby vše bylo postaveno od nuly – od dat, architektury modelu až po celý proces školení. Toto rozhodnutí nebylo soupeřením s giganty, ale realizací aspirace vietnamského lidu: zvládnutí modelu LLM v jejich mateřském jazyce.

Bratr Zalo 6

„Předvídali jsme obtíže a přesto jsme se rozhodli zapojit se do hry brzy. Nekonkurovali jsme přímo „velkým hráčům“, ale vybrali jsme si specializovaný trh, kde se nám mohlo dařit lépe. Naším cílem je vybudovat model, který budou mít Vietnamci plně pod kontrolou – od dat až po algoritmy,“ sdělil Dr. Nguyen Truong Son, ředitel vědy ve společnosti Zalo AI.

Přestože vietnamští inženýři čelili mnoha překážkám ve třech hlavních faktorech, včetně infrastruktury, dat a úrovně školení, proaktivně našli řešení k překonání obtíží. To dokazuje ducha a vůli vietnamského lidu v obtížných podmínkách, zejména v tomto případě překonávání výzev v procesu vývoje LLM pro vietnamské občany.

Bratr Zalo 7

Pro výuku LLM potřebovali inženýři správnou infrastrukturu. V té době však byly grafické karty jako Nvidia H100 téměř „globální raritou“. Velké společnosti si je mezitím předobjednaly na rok a zaplatily za ně miliony dolarů. Ve Vietnamu se Zalo také pokusil koupit 8 serverů DGX H100, ale nebylo to snadné, protože musel čekat na každou várku dodávek od výrobce.

Vzhledem k absenci grafických karet Nvidia museli vietnamští inženýři flexibilně využívat spotřebitelské grafické karty k experimentování s každým řádkem kódu a spouštění každého malého modelu. Místo čekání se inženýři proaktivně připravili, aby vše bylo připraveno, až budou mít moderní vybavení.

Pokud jde o data, Zalo se místo spoléhání na dostupné zdroje investovalo do vybudování vysoce kvalitního datového skladu speciálně pro vietnamštinu, aby vyrovnalo vážný nedostatek oproti angličtině a čínštině.

Zalo anh 8

Díky své flexibilní vývojové strategii se společnosti Zalo podařilo zkrátit dobu vývoje svého rozsáhlého jazykového modelu z očekávaných 18 měsíců na 6 měsíců. Na konci roku 2023 byl vietnamský rozsáhlý jazykový model společnosti Zalo oficiálně spuštěn na akci, která shromáždila přední technologickou a AI komunitu ve Vietnamu - Zalo AI Summit. Zde model LLM společnosti Zalo debutoval prostřednictvím výzvy Kahoot, kterou stanovila platforma Tinhte.vn, a překvapivě překonal GPT 3.5, hned za GPT4 - modelem LLM, který byl v té době považován za nejsilnější na světě.

Na základě hodnotící platformy VMLU (Vietnamese Multitask Language Understanding Benchmark Suite for Large Language Models) je model Zalo 1,5krát výkonnější než GPT-3.5 od OpenAI. Do konce roku 2024 tento model překoná velká jména jako GPT-4 (OpenAI), Gemma-2-9B (Google) nebo Phi-3-small (Microsoft) a v žebříčku VMLU se co do vietnamských zpracovatelských schopností umístí pouze za modelem LLaMA-3-70B od Mety.

Bratr Zalo 9

Zalo se nezastavuje pouze u výzkumu, ale postupně přivádí technologie z laboratoře k životu komercializací a popularizací aplikačních produktů z LLM.

Zalo anh 10

Začátkem roku 2025 přilákal obecný asistent pro otázky a odpovědi Kiki Info – provozovaný jako oficiální účet na platformě Zalo – za necelé 2 měsíce více než 1 milion uživatelů. Další aplikace, Thiep AI, dosáhla také působivého počtu 15 milionů vytvořených a odeslaných karet za pouhé 2 měsíce.

Bratr Zalo 11

Zalova cesta se netýká jen společnosti, která chce vyvíjet technologie. Je součástí širšího kontextu – Vietnam agresivně podporuje inovace prostřednictvím politik z rezoluce 57-NQ/TW o rozvoji vědy a techniky a národní digitální transformaci. Zejména je kladen důraz na oblast umělé inteligence.

Vznik a rychlý rozvoj vietnamského LLM od společnosti Zalo není jen technologickým krokem vpřed pro firmu, ale také důkazem inherentní kapacity a vytrvalosti vietnamského technologického týmu.

Díky metodě „od nuly“ – trénování modelů od základu – si Zalo zvolilo delší cestu, ale pomohlo Vietnamu skutečně zvládnout umělou inteligenci. Nejen z hlediska výsledků, ale také z hlediska celého procesu od architektury modelu, dat, algoritmů až po aplikační produkty. Úspěch Zalo také pomohl Vietnamu stát se jednou z mála zemí jihovýchodní Asie, které vlastní domácí model LLM – což je strategický milník v kontextu stále tvrdší globální technologické konkurence.

Zalo anh 12

Na dlouhé cestě, která je před námi, se Zalo nezastaví pouze u jednoho modelu nebo několika produktů, ale bude model i nadále zdokonalovat, aby sloužil uživatelům a vytvořil vietnamskou platformu umělé inteligence s konkurenceschopnou kvalitou: „Cesta vývoje umělé inteligence společnosti Zalo je stále dlouhá. Budeme i nadále optimalizovat model do šířky i hloubky a zároveň podporovat praktické využití. Konečným cílem je vytvářet kvalitní produkty umělé inteligence, které prakticky slouží vietnamskému lidu,“ dodal pan Son.

Úspěšný vývoj vietnamského LLM ve společnosti Zalo není jen průlomem pro podnikání, ale také otevírá potenciální budoucnost pro vietnamskou umělou inteligenci. Vytrvalost a aspirace vietnamského lidu vedly cestu k dosažení hodnotných výsledků. Budoucnost vietnamské umělé inteligence nebude mít jen „Zalo“, ale také generaci statečných inženýrů, kteří budou následovat, dědit a dobýt svět technologií.

Bratr Zalo 13