PV: Uram, mesélne nekünk az adatok szerepéről és értékéről a mesterséges intelligencia betanításában?
Dao Duc Minh úr: A mesterséges intelligencia sikere nagymértékben függ az adatok kiválasztásának, gyűjtésének és feldolgozásának ismeretétől. Egy kiváló minőségű mesterséges intelligencia modell betanításához gyakran egy meglehetősen nagy adatbázisból kezdjük a betanítást.
Ezután, amikor a modellt telepítik és tesztelik, a folyamatos adatgyűjtés és -feldolgozás nagyon fontos szerepet játszik a modell minőségének javításában és tökéletesítésében.
Az adatoknak mennyiségi, minőségi, sokszínűségi és egyetemességi szabványoknak kell megfelelniük. Például a vietnamiak számára készült ViVi virtuális asszisztens termék fejlesztése és betanítása során több tízezer órányi kiváló minőségű adatot kellett összegyűjtenünk és feldolgoznunk, több százezer hangtól, különböző régiókból, korosztályokból és neműekből, több száz területet felölelő tartalommal...
A nyers adatokat kezdetben megtisztítják, címkézik és számos lépésben feldolgozzák, hogy a lehető legjobb minőségű adatforrást hozzák létre az AI-modellbe, ezáltal javítva a ViVi pontosságát. Ez a szám majdnem eléri a maximumot: >98%.
Több ezer órányi adat gyűjtése és feldolgozása nagyon drága és bonyolult. De jó minőségű adatokra van szükségünk ahhoz, hogy minőségi mesterséges intelligenciával rendelkezzünk. A ChatGPT vagy a Bard (a Google chatbotja) egyaránt hatalmas adatforrásokon képződik, amelyeket az internet számos különböző forrásából gyűjtöttek össze.
Ahhoz, hogy a mesterséges intelligencia sikeres legyen, nagy és változatos adatforrásokon kell betanítani, hogy a kapott eredmények rendkívül pontosak legyenek. Ezzel szemben a big data elemzéséhez mesterséges intelligenciát kell használnunk, hogy biztosítsuk az adatok pontos feldolgozásának képességét nagy léptékben, ezáltal meghatározóbb vagy prediktívebb eredményeket hozva létre.
Ez egyfajta rezonancia a mesterséges intelligencia és a big data között.
PV: Kérlek, mesélj a gépi tanuláshoz szükséges adatok kiválasztásának és gyűjtésének folyamatáról. Hogyan fogják ezeket az adatokat gyűjteni, és milyen forrásokból? Különösen akkor, ha a vietnami felhasználókról a legtöbb információval rendelkező hely a külföldi cégek (Google, Facebook...) közösségi oldalai.
Dao Duc Minh úr: A gépi tanulási modellekhez szükséges adatok kiválasztásának és gyűjtésének folyamatában az első lépés annak megértése, hogy mi a jó választás. Utalhatunk a big data 5V-os modelljére, egy jó adatforrás mind az 5 tényezőt tartalmazza: mennyiség, érték, változatosság, sebesség és hitelesség.
Egy gyakorlati alkalmazáshoz leginkább illeszkedő MI-modell létrehozásához jellemzően egy jó adatforrásnak sokszínűnek és univerzálisnak kell lennie számos hasonló problémára kiterjedően, valamint az adott alkalmazásra jellemzőnek és egyedinek.
Tény, hogy az emberi adatok legnagyobb forrása az internet és a közösségi hálózatok. Ez az adatforrás nagyrészt külföldi vállalatok tulajdonában van. Az adatok azonban sokféle forrásból származhatnak, és Vietnamnak továbbra is megvan az az előnye, hogy saját adatforrásaihoz fér hozzá. Emellett vannak olyan adatproblémák, amelyeket csak a vietnami emberek tudnak megoldani. Mert mi vagyunk azok, akik megértjük a "vietnami adatok" jellemzőit, megértjük a vietnami emberek igényeit és jellemzőit, ezáltal sikeresen alkalmazzuk a technológiát a vietnami emberek életének szolgálatára.
A ViVi számára a VinBigData elsődleges feladata egy vietnamiak által készített hangsegéd termék létrehozása volt vietnamiak számára. Vagyis el kell sajátítanunk a vietnami adatforrásokat, és azokat mesterséges intelligencia technológiával kell kombinálnunk, hogy egy rendkívül alkalmazható terméket hozzunk létre, amely optimálisan szolgálja a vietnamiak igényeit.
Ezen célokból megértjük, hogy milyen adatforrásokat és hol kell gyűjtenünk a betanításhoz. Ennek az adatforrásnak nem feltétlenül kell a weben található hatalmas adatforrásoknak lennie.
A vietnami adatok és technológia elsajátítására irányuló vágytól vezérelve a VinBigData megalakulása óta saját, a vietnami emberekre jellemző adatforrásokat épített ki. A birtokunkban lévő adatok teljes mennyisége meghaladta a 3500 terabájtot. Konkrétan a következőkkel rendelkezünk: Több millió vietnami régióból származó hang adatai; több mint 2 millió orvosi kép számos különböző forrásból; több millió adat vietnami objektumok (emberek, járművek és tárgyak) kamerafelvételeiről, valamint több tucat különböző multidiszciplináris adatbázis..., amelyeket mindegyiket összegyűjtöttünk, megtisztítottunk, feldolgoztunk és címkéztünk.
Különösen 2021-ben jelentettük be az 1000 vietnami genom szekvenálására irányuló projektet (amelyet a Big Data Research Institute - a VinBigData elődje - adott ki), amellyel a legnagyobb vietnami genom adatbázissal rendelkező egységek egyikévé váltunk. Ezt a kutatási eredményt megosztották és megosztják az orvosok és genetikusok közösségével, a jövőben a személyre szabott orvoslás felé törekedve Vietnam számára.
PV : Mi történik az adatok gyűjtése után, és hogyan szabványosítják azokat? Minél nagyobb az adatmennyiség, annál jobb?
Dao Duc Minh úr: Ahogy mondtam, a mennyiség az egyik fontos tényező az adatgyűjtés során. Azt is szeretném hangsúlyozni, hogy ha az adatok nincsenek egyértelműen szelektálva, tisztítva és osztályozva, a big data önmagában nem elég.
Az adatok jellemzően egy alapvető feldolgozási cikluson mennek keresztül, amely magában foglalja: gyűjtést (strukturált és strukturálatlan adatok), tárolást (az adatokat adatbázisrendszerben tárolják), feldolgozást (beleértve a szűrés, tisztítás, címkézés, adatbővítés, információkinyerés/szintézis, valamint adatvizualizáció) és elemzést. Ez a folyamat többször is megismételhető egy mesterséges intelligencia rendszer fejlesztése és befejezése során.
A fontos kérdés az, hogy milyen értéket képviselnek az adatok? A VinBigData közel 5 éve kutatja és fejleszti termékeit, ezért a kutatás valóban sikeres lesz. Hisszük, hogy a technológia csak akkor válik igazán sikeressé, ha valóban életre kel, megoldja a társadalmi problémákat és javítja az emberek életét.
PV: Mostanában sokat beszélt arról, hogyan gyűjtjük és hozzuk létre saját adattárházainkat. Milyen kritériumok alapján fogják meghatározni az adatgyűjtés és -felhasználás határait a felhasználói jogok biztosítása érdekében?
Dao Duc Minh úr: Az adatgyűjtés és -feldolgozás folyamata jogi szabályozásokat vagy biztonsági szabványokat igényel a felhasználók és a vállalkozások védelme érdekében. Vietnam még mindig a felhasználói adatok védelmére szolgáló specifikus szabványok kidolgozásán és tökéletesítésén dolgozik.
Már most is számos szabvány létezik a világon . Például: a GDPR – az Európai Unió felhasználói adatvédelmi szabványa; vagy a PCI-DSS egy olyan szabvány, amelynek célja a kártyás fizetést végző felhasználók védelme.
Amikor vietnami termékeket szeretnénk népszerűsíteni vagy a nemzetközi piacra hozni, nagyon fontos, hogy megfeleljünk ezeknek a nemzetközi szabványoknak.
A VinBigData a felhasználók jogainak biztosítása érdekében a közeljövőben átláthatóságot kíván teremteni az adatgyűjtés és -felhasználás folyamatában, nyilvánosságra hozva az adatgyűjtés és -felhasználás céljait és célkitűzéseit. Különösen az egyének tulajdonában lévő adatok esetében.
A VinBigData jelenleg számos nemzetközi szervezettel írt alá szerződést a felhasználók biztonságának és jogainak garantálása érdekében. Ezt követően reméljük, hogy hamarosan konszenzus születik a vállalkozások és a kormány között egy jogi folyosó, valamint a felhasználói adatok védelmére vonatkozó jogi szabványok kiépítésében.
PV: A mesterséges intelligencia hogyan néz szembe a kockázatokkal vagy az adatbiztonsági sebezhetőségekkel, ha big data birtokában van?
Dao Duc Minh úr: Ha megfelelően használják, Az adatok értékes eszközök lesznek. Az adatvesztés és -szivárgás kockázata olyan probléma, amely kezdettől fogva biztonsági intézkedéseket igényel.
Amíg valami nem történik, gyakran nem értjük teljesen az adatbiztonság fontosságát. De amikor valami történik, a kár hatalmas lesz. Nemrégiben több mint 200 millió Twitter-felhasználó adatai szivárogtak ki. A felhasználói információkat nyilvánosan értékesítették számos különböző platformon. Tegyük fel, hogy ha mindezek a több millió felhasználó pert indítana, a Twitter hatalmas veszteségeket szenvedne el.
Ha az adatszivárgás pusztán technikai jellegű, a kár általában kisebb. De ha a szivárgás szándékos adatlopással kapcsolatos, a következmények nagyon kiszámíthatatlanok. Magánszemélyek számára a rosszfiúk a kiszivárgott információkat sokféle illegális célra felhasználhatják. Ami a vállalkozásokat illeti, az információszivárgás nemcsak hatalmas anyagi veszteséget okoz a kapcsolódó problémák megoldása miatt, hanem a piaci hírnév és a márka károsítását is.
PV : Milyen megoldásokra van szükség ezen sebezhetőségek „befoltozásához” és az adatbiztonság javításához, uram?
Dao Duc Minh úr: Az első és leghasznosabb megoldás a megelőzés kezdettől fogva: az információbiztonságot és -védelmet biztosító berendezések építése; többrétegű védelem; a helyes folyamat működtetése.
Konkrétan a biztonsági és védelmi megelőzés számos különböző réteget foglal magában. A biztonsági és védelmi berendezésekbe való befektetésen túl egyidejűleg szükséges kiépíteni egy folyamatot a felhasználók és az adatok feldolgozására és a velük való interakcióra, szigorú adatéletciklus-ellenőrzési folyamatot létrehozni, ugyanakkor fejleszteni a felhasználók és az üzemeltető csapat információbiztonsági készségeit és tudatosságát, valamint megfelelő adatfelhasználási jogokat kiosztani (kinek van joga hozzáférni és felhasználni mely adatokat?).
Másrészt a vállalkozásoknak azonosítaniuk és rugalmasan kell alkalmazniuk az adatbiztonsági szabályzatokat, osztályozniuk kell az egyes adattípusok érzékenységi szintjét és biztonsági szintjét a megfelelő biztonsági intézkedések érdekében, elkerülve az információbiztonsági szabályzatok mechanikus, túl szigorú alkalmazását, ami néha akadályozhatja az adatfejlesztés és -kihasználás folyamatát.
Különösen azoknál az egységeknél, amelyek fejlesztésre használnak adatokat, az adatosztályozás még fontosabb. Mivel az adatoknak sokat kell áramolniuk a különböző részlegek között.
A vállalkozásoknak fel kell készülniük a legrosszabb forgatókönyvre, és a megfelelő szakértőkkel kell rendelkezniük a károk lehető legnagyobb mértékű minimalizálása érdekében.
PV : 2023 az adatok éve lesz. Mik Vietnam erősségei és gyengeségei az adatok terén? Véleménye szerint mire kell felkészülnünk egy sikeres digitális adatévhez?
Dao Duc Minh úr: 2023 a digitális adatok éve lesz Vietnam számára. Előnyök tekintetében az adatok terén van előnyünk. Vietnam lakossága 100 millió. Ebből magas a fiatalok aránya, akik okostelefonokat, személyi számítógépeket stb. használnak. Ez egy olyan jellemző, amely elősegíti az adatok népszerűsítését, és olyan problémákat vet fel, amelyeket mesterséges intelligenciával kell megoldani Vietnámban. A második erősség az emberek. Konkrétan Vietnam rendelkezik a világ vezető mesterséges intelligencia szakértőivel. Ezenkívül az ország fiatal informatikai humánerőforrása nagyon jó matematikai alapokkal rendelkezik. Ez a két emberi erőforrás kombinálható nemzetközi színvonalú termékek létrehozásához.
Ami a korlátokat illeti, nehézségeink vannak az adatok szabványosításával. Vietnámban minden helyen, minden vállalkozásban, minden közigazgatási egységben más adatok vannak. Az adatok nincsenek szabványosítva, töredezettek és nincsenek szinkronizálva. Szükségünk van egy konkrétabb jogi folyosóra is az adatok szabványosításához.
Ahhoz, hogy Vietnamnak sikeres digitális adatéve legyen, meg kell értenie a lényeget, valamint ki kell használnia a technológia erejét. A big data és a mesterséges intelligencia közötti rezonancia lesz Vietnam digitális adatévének mozgatórugója.
Azáltal, hogy minden szinten, a központitól a helyi, kormányzati és vállalati szinteken is gyűjtött adatokat felhasználunk, Vietnam képes lesz „megőrzni” az ország értékes digitális erőforrásait. A fejlett szellemi technológiákkal kombinálva képesek leszünk a lehető legteljesebb mértékben „kiaknázni” ezt az erőforrást.
A „vietnamiak birtokolják a vietnami adatokat” elvet abban is segít Vietnámnak, hogy elkerülje a következő helyzeteket: saját erőforrásaiból kitermelt termékek visszavásárlása.
Jelenleg, különösen a 4.0-ás forradalom idején, Vietnamnak számos előnye van a korábbi forradalmakhoz képest. Lehetőségünk van kihasználni a technológia adta lehetőségeket, hogy gyorsan felzárkózzunk és javítsuk az ország helyzetét a világtérképen. Úgy gondolom, hogy e cél gyorsabb és fenntarthatóbb elérésének kulcsa az „adat” és az „emberek”.
PV: Miután egy nagy mesterséges intelligenciával foglalkozó cégnél dolgozott az Egyesült Államokban, mi késztette arra, hogy visszatérjen Vietnamba?
Dao Duc Minh úr: 2017-ben visszatértem Vietnámba. Mondhatni, ez fordulópont volt. Az Egyesült Államokban végzett munkám során, bár számos nagyszabású kormányzati projekten dolgoztam, az elért eredmények gyakran csupán néhány lépést jelentettek egy nagyszabású feldolgozási folyamatban. Voltak olyan időszakok is, amikor nem tudtam, hogy az általam kidolgozott megoldásokat használták-e vagy sem, mivel a projekt biztonsági eljárásai nagyon szigorúak voltak.
Eközben Vietnam fejlesztési szakaszban van, számos probléma merül fel a big data és a mesterséges intelligencia terén, amelyeket meg kell oldani. Akkoriban Vu Ha Van professzor meghívást kapott: Visszatérés Vietnamba, hogy megvalósítsam a vietnami technológiai megoldások fejlesztésének célját a vietnami emberek életének szolgálatában.
Úgy érzem, ha Vietnámban maradok, nagyobb hatással tudok majd problémákon dolgozni. Ez az egyik fontos pont, ami sokkal jelentőségteljesebbé teszi a visszatérésemet.
PV: Köszönöm ezt a beszélgetést.
- Gyártó szervezet: Viet Anh - Hong Van
- Előadó: Thi Uyen
- Fénykép: “Thanh Dat”
Hozzászólás (0)