Având în vedere că ați lucrat pentru o mare organizație de inteligență artificială din SUA, de ce ați decis să vă întoarceți în Vietnam pentru a vă alătura VinBigdata?
În timp ce lucram în SUA, deși am participat la numeroase proiecte guvernamentale mari, rezultatele obținute au fost adesea doar câțiva pași dintr-un proces amplu. De multe ori, din cauza confidențialității stricte a proiectelor, nici măcar nu știam cum erau utilizate soluțiile pe care le dezvoltasem.
În 2017, când m-am întors în Vietnam, acesta se afla în stadiul de dezvoltare și existau multe probleme legate de big data și inteligența artificială care trebuiau rezolvate. Am acceptat invitația profesorului Vu Ha Van de a realiza împreună obiectivul de a dezvolta soluții tehnologice vietnameze care să servească vieților poporului vietnamez. Am considerat că întoarcerea mea în Vietnam a fost mult mai semnificativă, deoarece aș putea lucra la probleme cu un impact mai mare.
Dr. Dao Duc Minh într-un atelier
În strategia de dezvoltare a inteligenței artificiale, ce rol și influență joacă big data, domnule?
Datele joacă un rol imens și valoros în antrenarea inteligenței artificiale. Antrenarea unui model de inteligență artificială de înaltă calitate începe adesea cu antrenarea unei baze de date mari. Prin urmare, pentru a avea inteligență artificială de calitate, trebuie mai întâi să avem date bune.
Datele bune trebuie să îndeplinească standarde în ceea ce privește cantitatea și amploarea, calitatea, varietatea și universalitatea. Procesul de colectare și procesare a mii de ore de date din etapa de curățare a datelor brute pentru a crea date de cea mai înaltă calitate care să fie introduse în modelele de inteligență artificială este foarte costisitor și complex. În schimb, pentru a analiza big data, trebuie să folosim inteligența artificială pentru a asigura capacitatea de a procesa datele cu precizie la scară largă, creând astfel rezultate decisive sau predictive mai bune.
De exemplu, în procesul de dezvoltare a unui produs de asistent virtual pentru vietnamezi (ViVi), a trebuit să colectăm și să procesăm zeci de mii de ore de date audio de înaltă calitate, de la sute de mii de voci din diferite regiuni, vârste și sexe diverse, cu conținut care acoperă sute de domenii...
Sau, cel mai recent, lansarea ViGPT - „Prima versiune vietnameză a ChatGPT pentru utilizatorii finali”, dezvoltată dintr-un Model de Limbaj Mare deținut în întregime de VinBigdata. Acest model este antrenat pe baza a 600 GB de date vietnameze rafinate din diverse domenii. Cu cunoștințele noastre despre datele și limba vietnameză, am găsit o nouă abordare pentru a scurta timpul de lansare a ViGPT în doar 9 luni de la nașterea ChatGPT.
Aceasta este sinergia dintre big data și inteligența artificială.
Care este opinia dumneavoastră despre corelarea cercetării cu valoarea practică în serviciul comunității?
- Cred că cercetarea tehnologică are cu adevărat succes doar atunci când intră efectiv în viață, rezolvă probleme sociale și îmbunătățește viața oamenilor.
Pentru a crea produse comerciale practice care să rezolve probleme de afaceri și sociale, trebuie să fim mereu atenți și să ne punem întrebarea: ce valoare vor aduce datele la viață?
Până în prezent, am cercetat și dezvoltat o varietate de produse și soluții pentru diverse industrii și domenii, în special ViGPT, VinDr - oferind soluții de inteligență artificială în diagnosticarea imagistică medicală , VinBase - o platformă de inteligență bioartificială sau Vizone - un set de soluții inteligente de analiză a imaginilor.
Cu personalul cheie al VinBigdata la un eveniment al Vingroup Corporation
A patra revoluție industrială are loc cu forță la scară globală. Ce avantaje credeți că are Vietnamul?
Comparativ cu revoluțiile anterioare, cred că Vietnamul are în prezent multe avantaje de depășit în această revoluție industrială 4.0, contribuind la îmbunătățirea poziției țării pe harta lumii. Cele două chei pentru atingerea acestui obiectiv sunt datele și oamenii.
Vietnamul are în prezent aproape 100 de milioane de locuitori, dintre care o proporție mare de tineri utilizează telefoane și computere personale. În plus, avem experți reputați în inteligență artificială și personal tânăr calificat în tehnologia informației și avem o bază foarte bună în matematică.
Deci, care sunt limitările?
Prima limitare evidentă este că, în ciuda unei populații numeroase, încă întâmpinăm dificultăți în stăpânirea datelor, în special în standardizarea și sincronizarea datelor la nivel de facilități, unități comerciale și administrative.
În plus, ne confruntăm și cu alte constrângeri, cum ar fi resursele limitate de investiții, în special investițiile în infrastructura de calcul de înaltă performanță.
În opinia dumneavoastră, cât de important este rolul stăpânirii datelor vietnameze în parcursul de creare și stăpânire a tehnologiei care să servească viețile vietnamezilor?
În prezent, există multe produse de inteligență artificială de top în lume, de obicei aplicații de inteligență artificială bazate pe modele lingvistice mari, cum ar fi ChatGPT de la OpenAI sau Bard de la Google. Cu toate acestea, vietnameza nu este principalul grup lingvistic pentru dezvoltarea acestor produse.
Prin urmare, calitatea conținutului specific vietnamez returnat utilizatorilor este mai mult sau mai puțin afectată și prezintă o probabilitate ridicată de erori, mai periculos, erori în cunoștințele de bază.
Ca vietnamezi, avem avantajul de a accesa propriile surse de date. Doar noi avem capacitatea de a înțelege caracteristicile datelor vietnameze, nevoile și particularitățile poporului vietnamez. Prin urmare, stăpânirea datelor vietnameze este cu adevărat cheia pentru stăpânirea tehnologiilor de bază, care sunt tehnologiile care vor servi poporul vietnamez.
Instruire internă pentru membrii VinBigdata
Cum să accesezi anumite surse de date, mai ales când majoritatea vietnamezilor folosesc astăzi rețele sociale din străinătate?
De fapt, cea mai mare sursă de date umane din ziua de azi (nu doar despre vietnamezi) este internetul și rețelele sociale. Cu toate acestea, putem accesa și colecta date din diferite surse, pe baza înțelegerii caracteristicilor datelor vietnameze, în funcție de caracteristicile stabilite de fiecare proiect.
De exemplu, modelele GPT ale OpenAI au sute, chiar trilioane de parametri, sunt antrenate pe cantități uriașe de date și costă miliarde de dolari. Comparativ cu acestea, noi am ales o cale complet diferită pe baza cercetării, capacităților și resurselor noastre: crearea unui model de limbă vietnameză cu o arhitectură de doar câteva miliarde de parametri, antrenat pe un set de date vietnameze de 600 GB pe care l-am colectat și rafinat singuri, dar cu capacități echivalente în procesarea limbii vietnameze. Rezultatele arată că arhitectura noastră dezvoltată intern se poate auto-optimiza, poate scurta timpul de antrenare a modelului lingvistic, poate reduce costurile și, în același timp, poate asigura calitatea modelului.
Care sunt provocările pe care dumneavoastră și echipa dumneavoastră le-ați întâmpinat în procesul de cercetare și dezvoltare a produselor de inteligență artificială?
Prima provocare este cu siguranță timpul. Valul tehnologiei inteligenței artificiale vine foarte rapid și se află într-o perioadă de explozie. În lume, companiile de tehnologie de top au lansat rapid produse extrem de complete, actualizate și îmbunătățite constant. Dacă suntem lenți și nu lansăm produse la timp, cu siguranță vom rămâne în urmă.
Pe de altă parte, dacă dorim să creăm produse care pot fi aplicate și care pot rezolva probleme sociale practice, trebuie să luăm în considerare și găsirea și dezvoltarea caracteristicilor remarcabile, speciale și unice ale produsului.
Prezentare la Ziua Inteligenței Artificiale din Vietnam (AI4VN 2023)
De fapt, multe persoane și organizații din Vietnam și din întreaga lume au suferit pierderi mari din cauza scurgerilor de date. Cum vedeți problema securității datelor?
Se poate spune că orice aplicație din ziua de azi provine din date. Atunci când lucrăm cu date, pe de o parte, trebuie să ne asigurăm de obiectivul de a aplica datele pentru a crea cea mai bună tehnologie pentru viață, iar pe de altă parte, trebuie să asigurăm securitatea datelor pentru indivizi și organizații.
Factorul uman este o verigă foarte importantă în procesul de asigurare a securității datelor. Aceștia includ dezvoltatori, utilizatori de produse și utilizatori. Pentru dezvoltatori, conștientizarea securității datelor trebuie să fie prezentă încă de la începutul colectării și prelucrării datelor.
Adesea, atunci când nu apare nicio problemă, nu suntem conștienți de importanța securității datelor. Dar dacă are loc o scurgere de date, pagubele pot fi uriașe. Scurgerile de date pot apărea din cauza unor probleme tehnice sau a unor atacuri intenționate de furt de date. Atunci când există scurgeri de date, informațiile persoanelor sau organizațiilor pot fi utilizate de către infractori în scopuri ilegale, iar companiile pot suferi pierderi financiare pentru a remedia problemele conexe, chiar și daune aduse mărcii lor.
Dr. Dao Duc Minh și echipa VinBigdata la un eveniment
După aspirația de a stăpâni tehnologia pentru a servi poporul vietnamez, vor exista pași pentru a avansa în lume?
Orice organizație sau afacere care dorește să își aducă produsele pe piața internațională trebuie să respecte standardele internaționale. VinBigdata are puncte forte în soluții și tehnologie, așa că stabilirea unei viziuni de cucerire a lumii este firească.
Desigur, pentru a fi implementat pentru o varietate de produse și aplicații, este necesar să se beneficieze de sprijinul unor unități internaționale cu mulți ani de experiență și înțelegere a utilizatorilor din întreaga lume.
Mulțumesc!
Sursă: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm
Comentariu (0)