Abychom vyřešili problém s vietnamskými daty, musíme porozumět charakteristikám Vietnamců.

Vietnamský lid nejlépe rozumí potřebám a charakteristikám svého vlastního lidu, a proto pochopí charakteristiky vietnamských dat. To je základ pro úspěšné využití technologií ve prospěch života Vietnamců.

Noviny Nhan Dan hovořily s Dr. Dao Duc Minhem, generálním ředitelem akciové společnosti VinBigData ( Vingroup Corporation), o sběru, využití a roli velkých dat (Big Data) ve vývoji umělé inteligence ve Vietnamu, zejména o roli Vietnamců v problému s daty ve Vietnamu.

PV: Pane, mohl byste nám říct o roli a hodnotě dat při trénování umělé inteligence?

Pan Dao Duc Minh: Úspěch umělé inteligence bude do značné míry záviset na znalosti, jak vybírat, shromažďovat a zpracovávat data. Pro trénování vysoce kvalitního modelu umělé inteligence často začínáme trénováním z poměrně velké databáze.

Poté, co je model nasazen a otestován, bude další sběr a zpracování dat hrát velmi důležitou roli ve zlepšování a zdokonalování kvality modelu.

Data musí splňovat standardy z hlediska kvantity, kvality, rozmanitosti a univerzálnosti. Například při vývoji produktu ViVi Virtual Assistant pro Vietnamce, abychom je mohli vyškolit, jsme museli shromáždit a zpracovat desítky tisíc hodin vysoce kvalitních dat od stovek tisíc hlasů z různých regionů, různého věku a pohlaví, s obsahem zahrnujícím stovky oblastí,...

Nezpracovaná data jsou nejprve vyčištěna, označena a zpracována v mnoha krocích, aby se vytvořil zdroj dat nejvyšší kvality, který se použije v modelu umělé inteligence, čímž se zlepší přesnost ViVi. Toto číslo dosahuje téměř maxima: >98 %.

Sběr a zpracování tisíců hodin dat je velmi drahé a složité. Pro kvalitní umělou inteligenci však potřebujeme kvalitní data. ChatGPT nebo Bard (chatbot od Googlu) jsou oba trénovány na obrovských zdrojích dat shromážděných z mnoha různých zdrojů na internetu.

Aby byla umělá inteligence úspěšná, musí být trénována na velkých a rozmanitých zdrojích dat, aby produkované výsledky byly vysoce přesné. Naopak, pro analýzu velkých dat musíme umělou inteligenci použít k zajištění schopnosti přesně zpracovávat data ve velkém měřítku, a tím vytvářet rozhodnější nebo prediktivní výsledky.

Jde o rezonanci mezi umělou inteligencí a velkými daty.

PV: Řekněte nám prosím o procesu výběru a sběru dat pro strojové učení. Jak budou tato data shromažďována a z jakých zdrojů? Zvláště když místem, které vlastní nejvíce informací o vietnamských uživatelích, jsou sociální sítě zahraničních společností (Google, Facebook...).

Pan Dao Duc Minh: Prvním krokem v procesu výběru a sběru dat pro modely strojového učení je pochopit, co je dobrá volba. Můžeme se odvolat na model 5V velkých dat, dobrý zdroj dat bude zahrnovat všech 5 faktorů: objem, hodnotu, rozmanitost, rychlost a pravdivost.

Pro vytvoření nejlepšího modelu umělé inteligence pro praktickou aplikaci musí být dobrý zdroj dat obvykle rozmanitý a univerzální napříč mnoha podobnými problémy, ale také specifický a individuální pro danou aplikaci.

Je faktem, že největším zdrojem lidských dat je internet a sociální sítě. Tento zdroj dat je z velké části vlastněn zahraničními společnostmi. Data však mohou pocházet z mnoha různých zdrojů a Vietnam má stále výhodu v přístupu k vlastním datovým zdrojům. Kromě toho existují problémy s daty, které mohou vyřešit pouze Vietnamci. Protože my rozumíme charakteristikám „vietnamských dat“, rozumíme potřebám a charakteristikám Vietnamců, a tím úspěšně aplikujeme technologie ve prospěch životů Vietnamců.

Pro ViVi byl prvním problémem, který si VinBigData stanovila, vytvoření hlasového asistenta vytvořeného Vietnamci pro Vietnamce. To znamená, že musíme zvládnout vietnamské datové zdroje a zkombinovat je s technologií umělé inteligence, abychom přinesli vysoce použitelný produkt, který optimálně slouží potřebám Vietnamců.

Z těchto cílů chápeme, jaké a kde potřebujeme shromažďovat datové zdroje pro školení. Tímto zdrojem dat nemusí nutně být obrovské množství datových zdrojů na webu.

S touhou zvládnout vietnamská data a technologie si VinBigData od svého vzniku vybudovala vlastní datové zdroje, které jsou jedinečné pro vietnamský lid. Celkové množství dat, která vlastníme, dosáhlo více než 3 500 terabajtů. Konkrétně máme: Data o milionech multiregionálních hlasů ve Vietnamu; více než 2 miliony lékařských snímků z mnoha různých zdrojů; miliony dat o snímcích různých objektů ve Vietnamu (osoby, vozidla a předměty) z kamer a desítky různých multidisciplinárních databází..., které všechny byly shromážděny, vyčištěny, zpracovány a označeny.

Zejména v roce 2021 jsme také oznámili projekt sekvenování 1000 vietnamských genomů (publikovaný Big Data Research Institute – předchůdcem VinBigData), čímž jsme se stali jednou z jednotek vlastnících největší vietnamskou genomovou databázi. Tento výsledek výzkumu byl a je sdílen s komunitou lékařů a genetiků s cílem personalizované medicíny pro Vietnam v budoucnu.

PV : Co se děje po shromáždění dat a jak jsou standardizována? Čím větší data, tím lepší?

Pan Dao Duc Minh: Jak jsem řekl, objem je jedním z důležitých faktorů při sběru dat. Chci však také zdůraznit, že: Pokud nejsou data jasně vybrána, vyčištěna a klasifikována, samotná velká data nestačí.

Data obvykle procházejí základním cyklem zpracování, který zahrnuje: sběr (strukturovaná a nestrukturovaná data), ukládání (data jsou uložena v databázovém systému), zpracování (včetně řady kroků, jako je filtrování, čištění, označování, vylepšování dat, extrakce/syntéza informací a vizualizace dat) a analýzu. Tento proces lze během vývoje a dokončení systému umělé inteligence mnohokrát opakovat.

Důležité je, jakou hodnotu data přinesou životu? Právě o to se VinBigData stará už téměř 5 let výzkumu a vývoje produktů. Věříme, že výzkum bude skutečně úspěšný pouze tehdy, když technologie skutečně vstoupí do života, vyřeší sociální problémy a zlepší životy lidí.

PV: Nedávno jste hodně mluvil o tom, jak shromažďujeme a vytváříme vlastní datové sklady. Jaká tedy budou kritéria pro určení hranic shromažďování a používání dat, aby byla zajištěna uživatelská práva?

Pan Dao Duc Minh: Proces shromažďování a zpracování dat vyžaduje právní předpisy nebo bezpečnostní standardy k ochraně uživatelů i podniků. Vietnam stále probíhá proces budování a zdokonalování specifických standardů na ochranu uživatelských dat.

Ve světě již existuje poměrně dost standardů. Například: GDPR – standard Evropské unie pro ochranu uživatelských dat; nebo PCI-DSS, což je standard zaměřený na ochranu uživatelů platebních karet.

Pokud chceme popularizovat nebo uvést vietnamské výrobky na mezinárodní trh, je dodržování těchto mezinárodních standardů velmi důležité.

V nejbližší budoucnosti se společnost VinBigData snaží zajistit práva uživatelů a zajistit transparentnost procesu shromažďování a používání dat, přičemž účely a záměry shromažďování a používání dat budou zveřejněny, zejména pokud jde o data vlastněná jednotlivci.

Společnost VinBigData v současné době podepsala smlouvy s řadou mezinárodních organizací, aby zajistila bezpečnost a práva uživatelů. Doufáme, že poté dosáhneme konsensu mezi podniky a vládou a brzy vybudujeme právní koridor a právní standardy na ochranu uživatelských dat.

PV: Jak bude umělá inteligence čelit rizikům nebo zranitelnostem v oblasti zabezpečení dat, když bude vlastnit velká data?

Pan Dao Duc Minh: Při správném použití Data budou cenným aktivem. Riziko ztráty a úniku dat je problém, který vyžaduje bezpečnostní opatření od samého začátku.

Dokud se něco nestane, často plně nechápeme důležitost zabezpečení dat. Ale když se něco stane, škody budou obrovské. Nedávno unikla data více než 200 milionů uživatelů Twitteru. Uživatelské informace byly veřejně prodávány na mnoha různých platformách. Představme si, že kdyby všechny tyto miliony uživatelů podaly žalobu, Twitter by utrpěl obrovské ztráty.

Pokud je únik dat čistě technického rázu, škody jsou obvykle menší. Pokud je však únik spojen s úmyslnou krádeží dat, jsou následky velmi nepředvídatelné. Jednotlivci mohou zneužít uniklé informace k mnoha různým nezákonným účelům. Pro firmy únik informací způsobuje nejen obrovské finanční ztráty spojené s řešením souvisejících problémů, ale také poškozuje reputaci a značku na trhu.

PV : Jaká řešení jsou potřeba k „opravení“ těchto zranitelností a zlepšení zabezpečení dat, pane?

Pan Dao Duc Minh: Prvním a nejužitečnějším řešením je prevence od samého začátku: budování zařízení na ochranu bezpečnosti a ochrany informací; vícevrstvá ochrana; provozování správného procesu.

Konkrétně bezpečnost a prevence zahrnují mnoho různých vrstev. Kromě investic do bezpečnostního vybavení je nutné současně vybudovat proces pro zpracování a interakci s uživateli a daty, zavést přísný proces kontroly životního cyklu dat a zároveň zlepšit dovednosti a povědomí o informační bezpečnosti uživatelů a provozního týmu a přidělit příslušná práva k používání dat (kdo má právo přistupovat k jakým datům a používat je?).

Na druhou stranu musí podniky také identifikovat a být flexibilní v uplatňování zásad zabezpečení dat, klasifikovat úroveň citlivosti a úroveň zabezpečení každého typu dat, aby měly vhodná bezpečnostní opatření, a vyhnout se příliš striktnímu mechanickému uplatňování zásad zabezpečení informací, které může někdy bránit procesu vývoje a využívání dat.

Zejména pro jednotky, které používají data pro vývoj, je klasifikace dat ještě důležitější. Data totiž budou muset mezi různými odděleními hodně cirkulovat.

Firmy musí být připraveny na nejhorší možný scénář a mít k dispozici příslušné odborníky, aby se škody co nejvíce minimalizovaly.

PV : Rok 2023 bude rokem dat. Jaké jsou silné a slabé stránky Vietnamu v oblasti dat? Na co se podle vašeho názoru musíme připravit pro úspěšný rok digitálních dat?

Pan Dao Duc Minh: Rok 2023 bude pro Vietnam rokem digitálních dat. Co se týče výhod, máme výhodu v datech. Vietnam má 100 milionů obyvatel. Z toho je vysoký podíl mladých lidí používajících chytré telefony, osobní počítače atd. To je charakteristické pro podporu dat a představuje problémy, které je třeba ve Vietnamu řešit pomocí umělé inteligence. Druhou silnou stránkou jsou lidé. Konkrétně Vietnam má přední světové odborníky v oblasti umělé inteligence. Kromě toho mají mladí lidé v oblasti informačních technologií v zemi velmi dobré základy v matematice. Jsou to dva lidské zdroje, které lze kombinovat a vytvářet produkty mezinárodní úrovně.

Pokud jde o omezení, máme potíže se standardizací dat. Ve Vietnamu má každé místo, každý podnik, každá administrativní jednotka jiná data. Data nejsou standardizovaná, fragmentovaná a nejsou synchronizovaná. Potřebujeme také specifičtější právní koridor pro standardizaci dat.

Aby Vietnam zažil úspěšný rok digitálních dat, musí pochopit klíčové body a zároveň využít sílu technologií. Rezonance mezi velkými daty a umělou inteligencí bude hnací silou vietnamského roku digitálních dat.

Zvládnutím dat ze všech úrovní, od centrální po místní, vládní a podnikovou, bude Vietnam schopen „zachovat“ cenné digitální zdroje země. V kombinaci s pokročilými intelektuálními technologiemi budeme schopni tyto zdroje „využít“ naplno.

„Vietnamský lid vlastní vietnamská data“ také pomáhá Vietnamu vyhnout se situaci, kdy: Zpětně vykupuje produkty využívané z vlastních zdrojů.

V současné době, konkrétně v období revoluce 4.0, má Vietnam oproti předchozím revolucím mnoho výhod. Máme příležitost využít technologií k rychlému dohonění a zlepšení pozice země na mapě světa. Myslím, že klíčem k rychlejšímu a udržitelnějšímu dosažení tohoto cíle jsou „data“ a „lidé“.

PV: Co vás po práci ve velké americké společnosti zabývající se umělou inteligencí přivedlo k návratu do Vietnamu?

Pan Dao Duc Minh: V roce 2017 jsem se vrátil do Vietnamu. Dá se říci, že to byl zlomový bod. Během práce v USA, ačkoli jsem pracoval na mnoha velkých vládních projektech, výsledky, kterých jsem dosáhl, byly často jen několika kroky ve velkém procesu zpracování. Byly dokonce chvíle, kdy jsem nevěděl, zda byla řešení, která jsem vyvinul, použita, či nikoli, protože bezpečnostní postupy projektu byly velmi přísné.

Vietnam se mezitím nachází ve fázi vývoje a existuje mnoho problémů týkajících se velkých dat a umělé inteligence, které je třeba vyřešit. V té době jsem dostal pozvání od profesora Vu Ha Vana: Návrat do Vietnamu, abych si uvědomil cíl vývoje vietnamských technologických řešení, která budou sloužit životům vietnamského lidu.

Mám pocit, že když zůstanu ve Vietnamu, budu moci pracovat na problémech s větším dopadem. To je jeden z důležitých bodů, díky nimž je můj návrat mnohem smysluplnější.

PV: Děkuji za tento rozhovor.