Aby rozwiązać problem danych wietnamskich, musimy zrozumieć cechy Wietnamczyków.

Naród wietnamski najlepiej zrozumie potrzeby i cechy własnego narodu, dzięki czemu będzie mógł zrozumieć specyfikę wietnamskich danych. To podstawa skutecznego wykorzystania technologii w służbie życiu Wietnamczyków.

Dziennik Nhan Dan przeprowadził rozmowę z dr. Dao Duc Minhem, dyrektorem generalnym VinBigData Joint Stock Company ( Vingroup Corporation) na temat gromadzenia, wykorzystywania i roli dużych zbiorów danych w rozwoju sztucznej inteligencji w Wietnamie, a zwłaszcza roli Wietnamczyków w problemie danych wietnamskich.

PV: Panie, czy mógłby Pan opowiedzieć nam o roli i wartości danych w szkoleniu sztucznej inteligencji?

Pan Dao Duc Minh: Sukces sztucznej inteligencji będzie w dużej mierze zależał od umiejętności selekcji, gromadzenia i przetwarzania danych. Aby wytrenować wysokiej jakości model sztucznej inteligencji, często zaczynamy od trenowania na podstawie dość dużej bazy danych.

Następnie, gdy model zostanie wdrożony i przetestowany, dalsze zbieranie i przetwarzanie danych odegra bardzo ważną rolę w ulepszaniu i udoskonalaniu jakości modelu.

Dane muszą spełniać standardy pod względem ilości, jakości, różnorodności i uniwersalności. Na przykład, opracowując produkt ViVi Virtual Assistant dla Wietnamczyków, aby ich przeszkolić, musieliśmy zebrać i przetworzyć dziesiątki tysięcy godzin wysokiej jakości danych, pochodzących od setek tysięcy osób z różnych regionów, w różnym wieku i o różnej płci, z treściami obejmującymi setki dziedzin...

Surowe dane są wstępnie oczyszczane, etykietowane i przetwarzane w wielu etapach, aby stworzyć źródło danych najwyższej jakości, które można zasilić model AI, zwiększając tym samym dokładność ViVi. Liczba ta sięga niemal maksimum: >98%.

Gromadzenie i przetwarzanie tysięcy godzin danych jest bardzo kosztowne i skomplikowane. Potrzebujemy jednak dobrych danych, aby móc korzystać z wysokiej jakości sztucznej inteligencji. ChatGPT i Bard (czatbot Google'a) są trenowane na ogromnych zbiorach danych zebranych z wielu różnych źródeł w internecie.

Aby sztuczna inteligencja odniosła sukces, musi być trenowana na dużych i zróżnicowanych źródłach danych, aby generowane wyniki były wysoce precyzyjne. Z kolei, aby analizować duże zbiory danych, musimy wykorzystać sztuczną inteligencję, aby zapewnić możliwość dokładnego przetwarzania danych na dużą skalę, generując w ten sposób bardziej decyzyjne i predykcyjne wyniki.

Jest to rezonans pomiędzy sztuczną inteligencją i dużymi zbiorami danych.

PV: Proszę opowiedzieć nam o procesie selekcji i gromadzenia danych do uczenia maszynowego. W jaki sposób te dane będą gromadzone i z jakich źródeł? Zwłaszcza, że najwięcej informacji o wietnamskich użytkownikach znajduje się w serwisach społecznościowych firm zagranicznych (Google, Facebook...).

Pan Dao Duc Minh: Pierwszym krokiem w procesie selekcji i gromadzenia danych dla modeli uczenia maszynowego jest zrozumienie, co jest dobrym wyborem. Możemy odwołać się do modelu 5V dużych zbiorów danych – dobre źródło danych będzie uwzględniać wszystkie 5 czynników: wolumen, wartość, różnorodność, prędkość i wiarygodność.

Zazwyczaj, aby stworzyć najlepszy model sztucznej inteligencji do praktycznego zastosowania, dobre źródło danych musi być zarówno zróżnicowane i uniwersalne w odniesieniu do wielu podobnych problemów, jak i specyficzne i indywidualne dla danego zastosowania.

Faktem jest, że największym źródłem danych o ludziach jest internet i sieci społecznościowe. Źródła te w dużej mierze należą do firm zagranicznych. Jednak dane mogą pochodzić z wielu różnych źródeł, a Wietnam nadal ma przewagę w dostępie do własnych źródeł danych. Poza tym istnieją problemy z danymi, które mogą rozwiązać tylko Wietnamczycy. Ponieważ to my rozumiemy specyfikę „danych wietnamskich”, rozumiemy potrzeby i specyfikę Wietnamczyków, a tym samym skutecznie wdrażamy technologię, aby służyć ich życiu.

Pierwszym problemem, jaki postawiła sobie firma VinBigData, było stworzenie asystenta głosowego stworzonego przez Wietnamczyków i przeznaczonego dla Wietnamczyków. Oznacza to, że musimy opanować wietnamskie źródła danych i połączyć je z technologią sztucznej inteligencji, aby stworzyć produkt o wysokiej użyteczności, optymalnie odpowiadający potrzebom Wietnamczyków.

Na podstawie tych celów rozumiemy, jakie i gdzie musimy gromadzić źródła danych do szkolenia. Źródłem tych danych niekoniecznie muszą być rozległe źródła danych w internecie.

Dążąc do opanowania wietnamskich danych i technologii, VinBigData od samego początku tworzyła własne źródła danych, unikalne dla Wietnamczyków. Łączna ilość posiadanych przez nas danych przekroczyła 3500 terabajtów. W szczególności dysponujemy: danymi dotyczącymi milionów głosów z różnych regionów w Wietnamie; ponad 2 milionami obrazów medycznych z wielu różnych źródeł; milionami danych dotyczących zdjęć z kamer wielu obiektów w Wietnamie (ludzi, pojazdów i obiektów) oraz dziesiątkami różnych multidyscyplinarnych baz danych... Wszystkie te dane zostały zebrane, oczyszczone, przetworzone i oznaczone.

W szczególności, w 2021 roku ogłosiliśmy również Projekt Sekwencji 1000 Wietnamskich Genomów (opublikowany przez Big Data Research Institute – poprzednika VinBigData), stając się jedną z jednostek posiadających największą bazę danych genomu Wietnamu. Wyniki tych badań były i są udostępniane społeczności lekarzy i genetyków, dążąc do stworzenia w przyszłości medycyny spersonalizowanej dla Wietnamu.

PV : Co dzieje się po zebraniu danych i jak są one standaryzowane? Czy im więcej danych, tym lepiej?

Pan Dao Duc Minh: Jak już wspomniałem, ilość danych jest jednym z najważniejszych czynników przy ich gromadzeniu. Chcę jednak podkreślić, że jeśli dane nie zostaną odpowiednio wyselekcjonowane, oczyszczone i sklasyfikowane, same duże zbiory danych nie wystarczą.

Zazwyczaj dane przechodzą przez podstawowy cykl przetwarzania, obejmujący: gromadzenie (dane ustrukturyzowane i nieustrukturyzowane), przechowywanie (dane są przechowywane w systemie baz danych), przetwarzanie (obejmujące szereg kroków, takich jak filtrowanie, czyszczenie, etykietowanie, wzbogacanie danych, ekstrakcja/synteza informacji oraz wizualizacja danych) oraz analizę. Proces ten można powtarzać wielokrotnie podczas opracowywania i realizacji systemu sztucznej inteligencji.

Ważne jest, jaką wartość wniosą dane? To właśnie VinBigData pielęgnuje od prawie 5 lat, prowadząc badania i rozwijając produkty. Wierzymy, że badania naukowe odniosą prawdziwy sukces dopiero wtedy, gdy technologia naprawdę wkroczy w życie, rozwiązując problemy społeczne i poprawiając jakość życia ludzi.

PV: Ostatnio dużo mówiłeś o tym, jak gromadzimy i tworzymy własne magazyny danych. Jakie więc będą kryteria wyznaczania granic gromadzenia i wykorzystywania danych, aby zapewnić prawa użytkowników?

Pan Dao Duc Minh: Proces gromadzenia i przetwarzania danych wymaga regulacji prawnych lub standardów bezpieczeństwa, aby chronić zarówno użytkowników, jak i firmy. Wietnam wciąż pracuje nad tworzeniem i udoskonalaniem konkretnych standardów ochrony danych użytkowników.

Na świecie istnieje już wiele standardów. Na przykład: RODO – standard Unii Europejskiej dotyczący ochrony danych użytkowników; lub PCI-DSS – standard mający na celu ochronę użytkowników kart płatniczych.

Jeśli chcemy spopularyzować wietnamskie produkty lub wprowadzić je na rynek międzynarodowy, przestrzeganie międzynarodowych standardów jest koniecznością.

W najbliższej przyszłości, aby zapewnić prawa użytkowników, VinBigData dąży do zapewnienia przejrzystości procesu gromadzenia i wykorzystywania danych, a cele i założenia gromadzenia i wykorzystywania danych będą upubliczniane, zwłaszcza w przypadku danych należących do osób fizycznych.

Obecnie VinBigData podpisała umowy z szeregiem organizacji międzynarodowych, aby zapewnić bezpieczeństwo i prawa użytkowników. Mamy nadzieję, że wkrótce uda się osiągnąć konsensus między firmami a rządem, aby stworzyć korytarz prawny i standardy prawne dotyczące ochrony danych użytkowników.

PV: W jaki sposób sztuczna inteligencja poradzi sobie z ryzykiem lub lukami w zabezpieczeniach danych, dysponując dużymi zbiorami danych?

Pan Dao Duc Minh: Jeśli użyjesz go prawidłowo, Dane będą cennym zasobem. Ryzyko utraty i wycieku danych to problem, który wymaga stosowania środków bezpieczeństwa od samego początku.

Dopóki coś się nie wydarzy, często nie do końca rozumiemy wagę bezpieczeństwa danych. Ale kiedy już coś się stanie, szkody będą ogromne. Niedawno wyciekły dane ponad 200 milionów użytkowników Twittera. Informacje o użytkownikach zostały publicznie sprzedane na wielu różnych platformach. Wyobraźmy sobie, że gdyby te miliony użytkowników wniosły pozew, Twitter poniósłby ogromne straty.

Jeśli wyciek danych ma charakter czysto techniczny, szkody są zazwyczaj mniejsze. Jeśli jednak wyciek jest związany z celową kradzieżą danych, konsekwencje są bardzo nieprzewidywalne. W przypadku osób fizycznych, przestępcy mogą wykorzystać wyciekłe informacje do wielu różnych, nielegalnych celów. W przypadku firm, wyciek informacji nie tylko powoduje ogromne straty finansowe w związku z koniecznością naprawy powiązanych problemów, ale także szkodzi reputacji i marce na rynku.

PV : Panie, jakie rozwiązania są potrzebne, aby „załatać” te luki w zabezpieczeniach i poprawić bezpieczeństwo danych?

Pan Dao Duc Minh: Pierwszym i najbardziej użytecznym rozwiązaniem jest zapobieganie od samego początku: budowanie sprzętu chroniącego bezpieczeństwo informacji, wielowarstwowa ochrona, wdrażanie prawidłowego procesu.

W szczególności, bezpieczeństwo i zapobieganie zagrożeniom obejmują wiele różnych poziomów. Oprócz inwestowania w sprzęt zabezpieczający, konieczne jest jednoczesne opracowanie procesu przetwarzania i interakcji z użytkownikami i danymi, ustanowienie ścisłej kontroli cyklu życia danych, a także podniesienie kwalifikacji i świadomości użytkowników i zespołu operacyjnego w zakresie bezpieczeństwa informacji oraz przypisanie odpowiednich uprawnień do korzystania z danych (kto ma prawo dostępu i korzystania z których danych?).

Z drugiej strony przedsiębiorstwa muszą również identyfikować i elastycznie stosować zasady bezpieczeństwa danych, klasyfikując poziom wrażliwości i poziom bezpieczeństwa każdego typu danych w celu wdrożenia odpowiednich środków bezpieczeństwa, unikając przy tym mechanicznego i zbyt ścisłego stosowania zasad bezpieczeństwa informacji, które czasami mogą utrudniać proces rozwoju i eksploatacji danych.

Klasyfikacja danych jest szczególnie istotna w przypadku jednostek, które wykorzystują dane do celów rozwojowych. Dzieje się tak, ponieważ dane będą musiały krążyć między różnymi działami.

Przedsiębiorstwa muszą być przygotowane na najgorszy scenariusz i mieć pod ręką odpowiednich ekspertów, aby w jak największym stopniu zminimalizować szkody.

PV : Rok 2023 będzie rokiem danych. Jakie są mocne i słabe strony Wietnamu w zakresie danych? Twoim zdaniem, czego potrzebujemy, aby przygotować się na udany rok dla danych cyfrowych?

Pan Dao Duc Minh: Rok 2023 będzie rokiem cyfrowych danych dla Wietnamu. Jeśli chodzi o korzyści, mamy przewagę w zakresie danych. Wietnam ma 100 milionów mieszkańców. Wśród nich wysoki jest odsetek młodych ludzi korzystających ze smartfonów, komputerów osobistych itp. To sprzyja promowaniu danych i stawianiu problemów, które wymagają rozwiązania przez sztuczną inteligencję w Wietnamie. Drugą mocną stroną są ludzie. Wietnam ma w szczególności czołowych światowych ekspertów w dziedzinie sztucznej inteligencji. Ponadto młodzi pracownicy w branży informatycznej w kraju mają bardzo dobre podstawy z matematyki. To dwa zasoby ludzkie, które można połączyć, aby tworzyć produkty o międzynarodowych standardach.

Jeśli chodzi o ograniczenia, mamy trudności ze standaryzacją danych. W Wietnamie każde miejsce, każde przedsiębiorstwo, każda jednostka administracyjna ma inne dane. Dane nie są standaryzowane, rozdrobnione i niezsynchronizowane. Potrzebujemy również bardziej szczegółowego korytarza prawnego, aby ujednolicić dane.

Aby rok danych cyfrowych był udany, Wietnam musi zrozumieć sedno sprawy i wykorzystać potencjał technologii. Rezonans między dużymi zbiorami danych a sztuczną inteligencją będzie dźwignią dla roku danych cyfrowych w Wietnamie.

Dzięki opanowaniu danych ze wszystkich poziomów, od centralnego po lokalny, od administracji rządowej po przedsiębiorstwa, Wietnam będzie w stanie „zachować” cenne zasoby cyfrowe kraju. W połączeniu z zaawansowanymi technologiami intelektualnymi, będziemy w stanie „wykorzystać” te zasoby w pełni.

„Wietnamczycy są właścicielami wietnamskich danych” pomaga również Wietnamowi uniknąć sytuacji: wykupywania produktów eksploatowanych przy użyciu własnych zasobów.

Obecnie, a szczególnie w okresie rewolucji 4.0, Wietnam ma wiele atutów w porównaniu z poprzednimi rewolucjami. Mamy możliwość wykorzystania technologii, aby szybko nadrobić zaległości i poprawić pozycję kraju na mapie świata. Myślę, że kluczem do szybszego i bardziej zrównoważonego osiągnięcia tego celu są „dane” i „ludzie”.

PV: Co skłoniło Cię do powrotu do Wietnamu po pracy w dużej amerykańskiej firmie zajmującej się sztuczną inteligencją?

Pan Dao Duc Minh: W 2017 roku wróciłem do Wietnamu. Można powiedzieć, że to był punkt zwrotny. Pracując w Stanach Zjednoczonych, mimo że brałem udział w wielu dużych projektach rządowych, osiągane przeze mnie rezultaty często ograniczały się do kilku kroków w rozbudowanym procesie przetwarzania. Zdarzały się nawet sytuacje, gdy nie wiedziałem, czy opracowane przeze mnie rozwiązania zostały wykorzystane, ponieważ procedury bezpieczeństwa projektu były bardzo rygorystyczne.

Tymczasem Wietnam jest w fazie rozwoju, istnieje wiele problemów związanych z dużymi zbiorami danych i sztuczną inteligencją, które wymagają rozwiązania. W tym czasie otrzymałem zaproszenie od profesora Vu Ha Van: Powrót do Wietnamu, aby zrealizować cel, jakim jest opracowanie wietnamskich rozwiązań technologicznych służących życiu Wietnamczyków.

Czuję, że jeśli zostanę w Wietnamie, będę mógł pracować nad problemami o większym wpływie. To jeden z ważnych czynników, który sprawia, że mój powrót jest o wiele bardziej wartościowy.

PV: Dziękuję za tę rozmowę.