Dr. Dao Duc Minh: „A vietnami adatok elsajátítása az első lépés a vietnami technológia fejlesztése és elsajátítása felé”
Báo Thanh niên•27/05/2024
Miután egy nagy mesterséges intelligenciával foglalkozó szervezetnél dolgozott az Egyesült Államokban, miért döntött úgy, hogy visszatér Vietnamba, hogy csatlakozzon a VinBigdatához? Az Egyesült Államokban végzett munkám során, bár számos nagyszabású kormányzati projektben vettem részt, az elért eredmények gyakran csupán néhány lépést jelentettek egy nagyszabású feldolgozási folyamatban. Sokszor a projektek nagyon szigorú titoktartási eljárásai miatt azt sem tudtam, hogyan használják fel az általam kifejlesztett megoldásokat. 2017-ben tértem vissza Vietnamba, amikor Vietnam még fejlesztési szakaszban volt, és számos, a big data és a mesterséges intelligenciával kapcsolatos probléma merült fel, amelyeket meg kellett oldani. Elfogadtam Vu Ha Van professzor meghívását, hogy közösen megvalósítsuk azt a célt, hogy vietnami technológiai megoldásokat fejlesszünk ki a vietnami emberek életét szolgálva. Sokkal jelentőségteljesebbnek találom a vietnami visszatérésemet, mert így nagyobb befolyással bíró problémákon dolgozhatok.
Dr. Dao Duc Minh egy workshopon
NVCC
A mesterséges intelligencia fejlesztésének stratégiájában milyen szerepet és befolyást játszik a big data? Az adatok nagyon fontos és értékes szerepet játszanak a mesterséges intelligencia betanításában. Egy kiváló minőségű mesterséges intelligencia modell betanításához gyakran egy nagy adatbázis betanításával kezdjük. Ezért ahhoz, hogy minőségi mesterséges intelligenciával rendelkezzünk, először jó adatokra van szükségünk. A jó adatoknak meg kell felelniük a mennyiségi és méretbeli, minőségi, sokszínűségi és egyetemességi szabványoknak. A nyers adattisztítási lépésből származó több ezer órányi adat összegyűjtésének és feldolgozásának folyamata, hogy a mesterséges intelligencia modellbe betáplálható legmagasabb minőségű adatokat hozzuk létre, nagyon költséges és bonyolult. Éppen ellenkezőleg, a big data elemzéséhez mesterséges intelligenciát kell használnunk, hogy biztosítsuk az adatok pontos feldolgozásának képességét nagy léptékben, ezáltal meghatározóbb vagy prediktívebb eredményeket hozzunk létre. Például egy vietnami embereknek szóló virtuális asszisztens termék (ViVi) fejlesztése során több tízezer órányi kiváló minőségű hangadatot kellett összegyűjtenünk és feldolgoznunk, több százezer hangtól, különböző régiókból, korosztályokból és neműekből, több száz területet felölelő tartalommal... Vagy legutóbb a ViGPT - "A ChatGPT első vietnami verziója végfelhasználók számára" - elindítása, amelyet egy teljes mértékben a VinBigdata tulajdonában lévő Big Language Model-ből fejlesztettek ki. Ezt a modellt 600 GB finomított vietnami adat alapján képeztük ki, amelyek számos különböző területről származnak. A vietnami adatok és nyelv ismeretével új megközelítést találtunk a ViGPT bevezetésének idejének lerövidítésére, mindössze 9 hónappal a ChatGPT megszületése után. Ez a big data és a mesterséges intelligencia közötti rezonancia.
Mi a véleményed a kutatás gyakorlati értékkel való összekapcsolásáról a közösség szolgálata érdekében? - Úgy hiszem, hogy a technológiai kutatás csak akkor igazán sikeres, ha ténylegesen belép az életbe, társadalmi problémákat old meg és javítja az emberek életét. Ahhoz, hogy gyakorlatias kereskedelmi termékeket hozzunk létre, valamint üzleti és társadalmi problémákat oldjunk meg, mindig figyelnünk kell, és fel kell tennünk a kérdést: milyen értéket képviselnek az adatok? Eddig számos terméket és megoldást kutattunk különböző területeken és szakmákban, jellemzően a ViGPT-t, a VinDr-t - amely mesterséges intelligencia alapú megoldásokat kínál az orvosi képalkotó diagnosztikában, a VinBase-t - egy mesterséges intelligencia platformot, vagy a Vizone-t - egy intelligens képelemző megoldások halmazát.
A VinBigdata kulcsfontosságú munkatársaival a Vingroup Corporation rendezvényén
NVCC
A 4. ipari forradalom erőteljesen zajlik globális szinten. Milyen előnyei vannak Ön szerint Vietnamnak? A korábbi forradalmakhoz képest úgy gondolom, hogy Vietnamnak jelenleg számos előnye van ahhoz, hogy kitörjön ebben a 4.0 ipari forradalomban, és javítsa az ország helyzetét a világtérképen . E cél elérésének két kulcsa az adat és az emberek. Vietnamban jelenleg közel 100 millió ember él, akik közül a fiatalok nagy aránya használ telefont és személyi számítógépet. Ezenkívül elismert szakértőkkel rendelkezünk a mesterséges intelligencia területén, valamint fiatal, magas színvonalú informatikai személyzettel, és nagyon jó matematikai alapokkal rendelkezünk. Mik tehát a korlátok? Az első látható korlát az, hogy a nagy népesség ellenére továbbra is nehézségeink vannak az adatok elsajátításával, különösen az adatok szabványosításával és szinkronizálásával a létesítményekben, üzleti és adminisztratív egységekben. Emellett más korlátokkal is szembesülünk, például korlátozott beruházási forrásokkal, különösen a nagy teljesítményű számítástechnikai infrastruktúrába történő beruházásokkal.
Véleménye szerint mennyire fontos a vietnami adatok elsajátítása a vietnami emberek életét szolgáló technológia létrehozásának és elsajátításának útján? Jelenleg számos vezető úttörő mesterséges intelligencia termék létezik a világon, jellemzően olyan MI alkalmazástermékek, amelyek nagy nyelvi modelleken alapulnak, mint például az OpenAI ChatGPT-je vagy a Google Bard-ja. A vietnami nyelv azonban nem az ilyen termékek fejlesztésének fő nyelvi csoportja. Ezért a felhasználóknak visszaküldött vietnami-specifikus tartalom minősége többé-kevésbé befolyásolja, és nagy a hibalehetőség, veszélyesebb esetben az alapvető ismeretekben bekövetkező hibák. Vietnami emberekként előnyünkre válik, hogy a saját adatforrásainkhoz férhetünk hozzá. Csak mi vagyunk képesek megérteni a vietnami adatok jellemzőit, a vietnami emberek igényeit és jellemzőit. Ezért a vietnami adatok elsajátítása valóban a kulcs az alapvető technológiák elsajátításához, amelyek a vietnami embereket szolgálják.
Belső képzés VinBigdata tagoknak
NVCC
Hogyan lehet hozzáférni bizonyos adatforrásokhoz, különösen akkor, amikor a legtöbb vietnami ember külföldről használja a közösségi oldalakat? Valójában a legnagyobb emberi adatforrás ma (nem csak a vietnamiak) az internet és a közösségi hálózatok. Azonban továbbra is hozzáférhetünk és gyűjthetünk adatokat különböző forrásokból, a vietnami adatjellemzők megértése alapján, az egyes projektek által meghatározott jellemzőktől függően. Például az OpenAI GPT-modelljei akár több száz, akár billió paraméterrel is rendelkezhetnek, hatalmas mennyiségű adaton vannak betanítva, és dollármilliárdokba kerülnek. Hozzájuk képest mi egy teljesen más irányt választottunk a kutatásunk, a képességeink és az erőforrásaink alapján: vagyis egy vietnami nyelvi modell létrehozását, amelynek architektúrája mindössze néhány milliárd paraméterből áll, egy 600 GB-os vietnami adathalmazon van betanítva, amelyet mi magunk gyűjtöttünk és finomítottunk, de a vietnami feldolgozás tekintetében ezzel egyenértékű képességekkel rendelkezik. Az eredmények azt mutatják, hogy saját fejlesztésű architektúránk képes önoptimalizálódni, lerövidíteni a nyelvi modell betanítási idejét, csökkenteni a költségeket, miközben továbbra is biztosítja a modell minőségét. Milyen kihívásokkal találkozott Ön és csapata a mesterséges intelligencia termékek kutatása és fejlesztése során? Az első kihívás minden bizonnyal az idő. A mesterséges intelligencia technológia hulláma nagyon gyorsan érkezik, és fellendülési időszakában van. A világ vezető technológiai vállalatai gyorsan piacra dobtak rendkívül komplett termékeket, amelyeket folyamatosan frissítenek és fejlesztenek. Ha lassúak vagyunk, és nem időben dobjuk piacra a termékeket, biztosan lemaradunk. Másrészt, ha olyan termékeket akarunk létrehozni, amelyek alkalmazhatók és gyakorlati társadalmi problémákat oldanak meg, akkor a termék kiemelkedő, különleges és egyedi tulajdonságainak megtalálását és fejlesztését is figyelembe kell vennünk.
Előadás a Vietnámi Mesterséges Intelligencia Napján (AI4VN 2023)
NVCC
A valóságban Vietnámban és a világ számos egyéne és szervezete szenvedett el jelentős károkat adatszivárgások miatt. Hogyan látja az adatbiztonság kérdését? Elmondható, hogy ma már minden alkalmazás adatokból származik. Az adatokkal való munka során egyrészt biztosítanunk kell azt a célt, hogy az adatokat az élet legjobb technológiájának megteremtésére használjuk fel, másrészt pedig biztosítanunk kell az egyének és szervezetek adatbiztonságát. Az emberi tényező nagyon fontos láncszem az adatbiztonság biztosításának folyamatában. Ide tartoznak a fejlesztők, a termékfelhasználók és a felhasználók. A fejlesztők számára az adatbiztonság tudatosságának már az adatgyűjtés és -feldolgozás kezdetétől jelen kell lennie. Gyakran, amikor nincs probléma, nem vagyunk tisztában az adatbiztonság fontosságával. De ha adatszivárgás történik, a kár hatalmas lehet. Az adatszivárgások technikai problémák vagy szándékos adatlopási támadások miatt következhetnek be. Adatszivárgás esetén az egyének vagy szervezetek adatait illegális célokra használhatják fel rosszfiúk, míg a vállalkozások pénzügyi veszteségeket szenvedhetnek el a kapcsolódó problémák megoldása miatt, sőt akár márkakárosodást is.
Dr. Dao Duc Minh és a VinBigdata csapata egy rendezvényen
NVCC
Miután a vietnami emberek szolgálatára törekedtünk, biztosan lesznek lépések a világ felé is? Minden szervezetnek vagy vállalkozásnak, amely termékeit a nemzetközi piacra szeretné hozni, meg kell felelnie a nemzetközi szabványoknak. A VinBigdata erősségei a megoldások és a technológia terén vannak, így természetes, hogy a világ meghódítására törekszik. Természetesen ahhoz, hogy sokféle termékhez és alkalmazáshoz telepíthessük, sokéves tapasztalattal és a világ minden tájáról érkező felhasználók megértésével rendelkező nemzetközi egységek társaságára van szükség. Köszönjük!
Hozzászólás (0)