PV: Domnule, ne puteți spune despre rolul și valoarea datelor în antrenarea inteligenței artificiale?
Dl. Dao Duc Minh: Succesul inteligenței artificiale va depinde în mare măsură de cunoștințele despre cum să selecteze, să colecteze și să proceseze datele. Pentru a antrena un model de inteligență artificială de înaltă calitate, începem adesea prin antrenament dintr-o bază de date destul de mare.
Apoi, când modelul este implementat și testat, colectarea și procesarea continuă a datelor vor juca un rol foarte important în îmbunătățirea și perfecționarea calității modelului.
Datele trebuie să îndeplinească standarde în ceea ce privește cantitatea, calitatea, diversitatea și universalitatea. De exemplu, în procesul de dezvoltare a produsului ViVi Virtual Assistant pentru vietnamezi, pentru a-i instrui, a trebuit să colectăm și să procesăm zeci de mii de ore de date de înaltă calitate, de la sute de mii de voci din diferite regiuni, vârste și sexe diverse, cu conținut care acoperă sute de domenii,...
Datele brute sunt inițial curățate, etichetate și procesate prin mai multe etape pentru a crea o sursă de date de cea mai înaltă calitate care să fie introdusă în modelul de inteligență artificială, îmbunătățind astfel precizia ViVi. Acest număr atinge aproape maximul: >98%.
Colectarea și procesarea a mii de ore de date este foarte costisitoare și complicată. Dar avem nevoie de date bune pentru a avea inteligență artificială de calitate. ChatGPT sau Bard (chatbotul Google) sunt ambele antrenate pe surse uriașe de date colectate din diverse surse de pe internet.
Pentru ca inteligența artificială să aibă succes, aceasta trebuie antrenată pe surse de date mari și diverse, astfel încât rezultatele produse să fie extrem de precise. Dimpotrivă, pentru a analiza volume mari de date, trebuie să folosim inteligența artificială pentru a asigura capacitatea de a procesa datele cu precizie la scară largă, creând astfel rezultate mai decisive sau predictive.
Este o rezonanță între inteligența artificială și big data.
PV: Vă rugăm să ne spuneți despre procesul de selectare și colectare a datelor pentru învățarea automată. Cum vor fi colectate aceste date și din ce surse? Mai ales când locul care deține cele mai multe informații despre utilizatorii vietnamezi sunt site-urile de socializare ale companiilor străine (Google, Facebook...).
Dl. Dao Duc Minh: Primul pas în procesul de selectare și colectare a datelor pentru modelele de învățare automată este înțelegerea unei alegeri bune. Putem face referire la modelul 5V al big data, o sursă de date bună va include toți cei 5 factori: volum, valoare, varietate, viteză și veridicitate.
De obicei, pentru a crea cel mai bun model de inteligență artificială pentru o aplicație practică, o sursă de date bună va trebui să fie atât diversă și universală pentru multe probleme similare, cât și specifică și individuală pentru aplicația respectivă.
Este un fapt că cea mai mare sursă de date umane se află pe internet și pe rețelele sociale. Această sursă de date este deținută în mare parte de companii străine. Cu toate acestea, datele pot proveni din multe surse diferite, iar Vietnamul are în continuare avantajul de a accesa propriile surse de date. În plus, există probleme legate de date pe care doar vietnamezii le pot rezolva. Deoarece noi suntem cei care înțelegem caracteristicile „datelor vietnameze”, înțelegem nevoile și caracteristicile vietnamezilor, aplicând astfel cu succes tehnologia în serviciul vieții vietnamezilor.
Pentru ViVi, prima problemă pe care VinBigData și-a propus-o a fost să ofere un produs de asistență vocală creat de vietnamezi, pentru vietnamezi. Adică, trebuie să stăpânim sursele de date vietnameze, să le combinăm cu tehnologia inteligenței artificiale pentru a crea un produs extrem de aplicabil, care să deservească optim nevoile vietnamezilor.
Pornind de la aceste obiective, înțelegem ce și de unde trebuie să colectăm surse de date pentru antrenament. Această sursă de date nu trebuie neapărat să fie vastele surse de date de pe web.
Cu dorința de a stăpâni datele și tehnologia vietnameză, încă de la înființare, VinBigData și-a construit propriile surse de date, unice pentru poporul vietnamez. Cantitatea totală de date pe care o deținem a ajuns la peste 3.500 de terabytes. Mai exact, avem: date despre milioane de voci multiregionale din Vietnam; peste 2 milioane de imagini medicale din multe surse diferite; milioane de date despre imagini de cameră ale mai multor obiecte din Vietnam (persoane, vehicule și obiecte) și zeci de baze de date multidisciplinare diferite..., toate acestea fiind colectate, curățate, procesate și etichetate.
În special, în 2021, am anunțat și Proiectul de Secvențiere a 1000 de Genomuri Vietnameze (publicat de Institutul de Cercetare Big Data - predecesorul VinBigData), devenind una dintre unitățile care dețin cea mai mare bază de date de genom vietnamez. Rezultatul acestei cercetări a fost și este împărtășit cu comunitatea de medici și geneticieni, vizând medicina personalizată pentru Vietnam în viitor.
PV : Ce se întâmplă după ce datele sunt colectate și cum sunt standardizate? Cu cât datele sunt mai mari, cu atât mai bine?
Dl. Dao Duc Minh: După cum am spus, volumul este unul dintre factorii importanți în colectarea datelor. Cu toate acestea, vreau să subliniez și faptul că: dacă datele nu sunt selectate, curățate și clasificate în mod clar, volumele mari de date nu sunt suficiente.
De obicei, datele vor trece printr-un ciclu de procesare de bază, care include: colectarea (date structurate și nestructurate), stocarea (datele sunt stocate într-un sistem de baze de date), procesarea (inclusiv o serie de etape precum filtrarea, curățarea, etichetarea, îmbunătățirea datelor, extragerea/sinteza informațiilor, precum și vizualizarea datelor) și analiza. Acest proces poate fi repetat de mai multe ori în timpul dezvoltării și finalizării unui sistem de inteligență artificială.
Important este ce valoare vor aduce datele la viață? Aceasta este ceea ce VinBigData cultivă de aproape 5 ani de cercetare și dezvoltare de produse. Credem că numai atunci când tehnologia va intra cu adevărat în viață, va rezolva problemele sociale și va îmbunătăți viața oamenilor, cercetarea va avea cu adevărat succes.
PV: Ați vorbit recent mult despre modul în care colectăm și creăm propriile noastre depozite de date. Așadar, care vor fi criteriile pentru a determina limitele colectării și utilizării datelor pentru a asigura drepturile utilizatorilor?
Dl. Dao Duc Minh: Procesul de colectare și prelucrare a datelor necesită reglementări legale sau standarde de securitate pentru a proteja atât utilizatorii, cât și întreprinderile. Vietnamul este încă în proces de elaborare și perfecționare a standardelor specifice pentru protejarea datelor utilizatorilor.
Există deja destul de multe standarde în lume . De exemplu: GDPR – standardul Uniunii Europene privind protecția datelor utilizatorilor; sau PCI-DSS este un standard care vizează protejarea utilizatorilor de plăți cu cardul.
Când dorim să popularizăm sau să aducem produse vietnameze pe piața internațională, respectarea acestor standarde internaționale este foarte necesară.
În viitorul imediat, pentru a asigura drepturile utilizatorilor, VinBigData se străduiește să creeze transparență în procesul de colectare și utilizare a datelor, scopurile și obiectivele colectării și utilizării datelor fiind făcute publice. În special în cazul datelor deținute de persoane fizice.
În prezent, VinBigData a semnat acorduri cu o serie de organizații internaționale pentru a asigura securitatea și drepturile utilizatorilor. După aceea, sperăm să ajungem la un consens între companii și Guvern pentru a construi în curând un coridor juridic, precum și standarde legale privind protejarea datelor utilizatorilor.
PV: Atunci când deținem big data, cum se va confrunta inteligența artificială cu riscuri sau vulnerabilități de securitate a datelor?
Dl. Dao Duc Minh: Dacă este folosit corect, Datele vor fi un bun valoros. Riscul pierderii și scurgerii de date este o problemă care necesită măsuri de securitate încă de la început.
Până când nu se întâmplă ceva, adesea nu înțelegem pe deplin importanța securității datelor. Dar când se întâmplă ceva, pagubele vor fi uriașe. Recent, datele a peste 200 de milioane de utilizatori Twitter au fost scurse. Informațiile utilizatorilor au fost vândute public pe multe platforme diferite. Să presupunem că dacă toți acești milioane de utilizatori ar intenta un proces, Twitter ar suferi pierderi uriașe.
Dacă scurgerea de date este pur tehnică, pagubele sunt de obicei mai mici. Dar dacă scurgerea este legată de un furt intenționat de date, consecințele sunt foarte imprevizibile. Pentru indivizi, infractorii pot folosi complet informațiile scurse în diverse scopuri ilegale. În ceea ce privește companiile, scurgerea de informații nu numai că provoacă pierderi financiare uriașe pentru a remedia problemele conexe, dar provoacă și daune reputației și mărcii pe piață.
PV : Ce soluții sunt necesare pentru a „remedia” aceste vulnerabilități și a îmbunătăți securitatea datelor, domnule?
Dl. Dao Duc Minh: Prima și cea mai utilă soluție este prevenirea de la început: construirea de echipamente pentru protejarea securității și siguranței informațiilor; protecție pe mai multe niveluri; operarea corectă a procesului.
Mai exact, prevenirea siguranței și securității include multe niveluri diferite. Pe lângă investițiile în echipamente de securitate și siguranță, este necesar să se construiască simultan un proces de procesare și interacțiune cu utilizatorii și datele, să se stabilească un proces strict de control al ciclului de viață al datelor și, în același timp, să se îmbunătățească abilitățile și conștientizarea securității informațiilor ale utilizatorilor și ale echipei operaționale și să se atribuie drepturi adecvate de utilizare a datelor (cine are dreptul să acceseze și să utilizeze ce date?).
Pe de altă parte, companiile trebuie să identifice și să fie flexibile în aplicarea politicilor de securitate a datelor, clasificând nivelul de sensibilitate și nivelul de securitate al fiecărui tip de date pentru a avea măsuri de securitate adecvate, evitând aplicarea mecanică prea strictă a politicilor de securitate a informațiilor, care uneori poate împiedica procesul de dezvoltare și exploatare a datelor.
Mai ales pentru unitățile care utilizează date pentru dezvoltare, clasificarea datelor este și mai importantă. Deoarece datele vor trebui să circule mult între diferite departamente.
Întreprinderile trebuie să fie pregătite pentru cel mai rău scenariu, cu experți relevanți la dispoziție pentru a minimiza daunele în cea mai mare măsură posibilă.
PV : 2023 va fi anul datelor. Care sunt punctele forte și punctele slabe ale Vietnamului în domeniul datelor? În opinia dumneavoastră, de ce avem nevoie pentru a ne pregăti pentru un an de succes al datelor digitale?
Dl. Dao Duc Minh: Anul 2023 va fi anul datelor digitale pentru Vietnam. În ceea ce privește avantajele, avem un avantaj în ceea ce privește datele. Vietnamul are o populație de 100 de milioane. Dintre acestea, proporția tinerilor care utilizează smartphone-uri, computere personale etc. este mare. Aceasta este o caracteristică care promovează datele și ridică probleme care trebuie rezolvate de inteligența artificială în Vietnam. Al doilea punct forte îl reprezintă oamenii. Mai exact, Vietnamul are cei mai importanți experți mondiali în inteligența artificială. În plus, resursele umane tinere din domeniul tehnologiei informației din țară au o bază foarte bună în matematică. Acestea sunt două resurse umane care pot fi combinate pentru a crea produse la standarde internaționale.
În ceea ce privește limitările, întâmpinăm dificultăți în standardizarea datelor. În Vietnam, fiecare loc, fiecare întreprindere, fiecare unitate administrativă are date diferite. Datele nu sunt standardizate, fragmentate și nu sunt sincronizate. De asemenea, avem nevoie de un coridor juridic mai specific pentru a standardiza datele.
Pentru a avea un an al datelor digitale de succes, Vietnamul trebuie să înțeleagă punctele esențiale și să profite de puterea tehnologiei. Rezonanța dintre big data și inteligența artificială va fi pârghia pentru anul datelor digitale al Vietnamului.
Prin stăpânirea datelor de la toate nivelurile, de la central la local, de la guvern și întreprinderi, Vietnamul va putea „păstra” valoroasele resurse digitale ale țării. Combinate cu tehnologii intelectuale avansate, vom putea „exploata” această resursă la maximum.
„Vietnamii dețin date vietnameze” ajută, de asemenea, Vietnamul să evite situația de: răscumpărare a produselor exploatate pe propriile resurse.
În prezent, mai ales în revoluția 4.0, Vietnamul are multe avantaje față de revoluțiile anterioare. Avem oportunitatea de a profita de tehnologie pentru a recupera rapid decalajul și a îmbunătăți poziția țării pe harta lumii. Cred că cheia pentru atingerea acestui obiectiv mai rapid și mai sustenabil o reprezintă „datele” și „oamenii”.
PV: Având în vedere că ați lucrat la o mare companie de inteligență artificială din SUA, ce v-a determinat să vă întoarceți în Vietnam?
Dl. Dao Duc Minh: În 2017, m-am întors în Vietnam. Se poate spune că acesta a fost un punct de cotitură. În timp ce lucram în SUA, deși am lucrat la multe proiecte guvernamentale mari, rezultatele pe care le-am obținut au fost adesea doar câțiva pași dintr-un proces amplu de procesare. Au fost chiar momente când nu știam dacă soluțiile pe care le-am dezvoltat au fost utilizate sau nu, deoarece procedurile de securitate ale proiectului erau foarte stricte.
Între timp, Vietnamul se află în stadiul de dezvoltare, existând multe probleme legate de big data și inteligența artificială care trebuie rezolvate. La acea vreme, am primit o invitație din partea profesorului Vu Ha Van: să mă întorc în Vietnam pentru a realiza obiectivul de a dezvolta soluții tehnologice vietnameze care să servească vieților poporului vietnamez.
Simt că, dacă rămân în Vietnam, voi putea lucra la probleme cu un impact mai mare. Acesta este unul dintre punctele importante care fac ca întoarcerea mea să fie mult mai semnificativă.
PV: Mulțumesc pentru această conversație.
- Organizație producție: Viet Anh - Hong Van
- Interpretat de: Thi Uyen
- Foto: Thanh Dat
Comentariu (0)