Competiția de Limba și Prelucrarea Vorbirii Vietnameze (VLSP) face parte din Conferința Internațională anuală privind Limba și Prelucrarea Vorbirii Vietnameze, organizată de Clubul VLSP, o filială a Asociației Vietnameze pentru Tehnologia Informației. VLSP 2023 organizează 10 competiții privind prelucrarea vorbirii și a textului, reunind cercetători de top, experți și unități de dezvoltare tehnologică.
Deși aceasta a fost a patra oară când Viettel AI a participat la competiție și câștigase de trei ori înainte, inginerii Viettel au întâmpinat totuși multe dificultăți din cauza schimbărilor în structura categoriilor competiției.
Mai exact, comparativ cu anul trecut, categoriile Recunoaștere Vorbire și Recunoaștere Emoții au fost unite anul acesta într-o singură categorie. Echipele trebuie să rezolve două probleme simultan pentru a asigura recunoașterea atât a textului, cât și a emoției din propoziție, volumul de muncă și dificultatea fiind dublate.
Folosește fiecare dată, fie ea de calitate inferioară sau superioară
Nu numai că modifică structura categoriilor, examenul din acest an se concentrează și pe construirea de modele de la zero cu condiții de date limitate, inclusiv date brute, neetichetate și de calitate scăzută. Examenul oferă 4 grupuri de date cu calitate și formă diferite. Există date care includ doar audio neetichetat, date care includ doar audio și text, date care includ emoții și audio, de înaltă calitate, etichete standard și date care includ emoții și audio, de calitate scăzută. Fiecare set de date este clar definit pentru a servi fiecărui scop și categorie de examen, cu un total de peste 300 de ore pe toate seturile de date. Acesta este un număr destul de modest în comparație cu seturile de date standard pentru antrenarea recunoașterii vorbirii, care necesită de obicei până la 1.000-2.000 de ore sau mai mult.
Fiecare echipă a avut la dispoziție mai puțin de 2 luni pentru a-și finaliza și a-și trimite lucrarea, dar, în realitate, timpul efectiv petrecut pentru cercetarea soluțiilor a fost mult mai mic din cauza lipsei de resurse.
„Anul acesta, Viettel AI a dedicat o mulțime de resurse de infrastructură de calcul cercetării de noi tehnologii, precum și dezvoltării de produse, în timp ce recunoașterea vorbirii este o tehnologie care necesită resurse hardware foarte mari”, a declarat dl. Dang Dinh Son - Inginer de Inteligență Artificială, Platformă de Asistență Virtuală, Viettel AI.
Confruntată cu volumul și calitatea redusă a datelor, echipa de cercetare a ajuns imediat la punctul de vedere al „nevoii de a utiliza toate datele, indiferent de calitatea lor scăzută sau ridicată”. Pentru a realiza acest lucru, este necesar să se construiască un ciclu de antrenament pentru a procesa toate datele, precum și un singur model pentru a rezolva mai multe probleme diferite, în loc de mai multe modele.
Rezultatele stăpânirii tehnologiei de pionierat
În contextul lipsei atât de date, cât și de resurse, echipa de cercetare a decis să construiască un proces de procesare simplu, nu masiv, dar, important, rafinat până la cel mai mic detaliu.
Inginerii de inteligență artificială de la Viettel au studiat cu atenție cele mai recente cercetări de la conferințe și reviste de renume din întreaga lume pentru a găsi o abordare. Combinate cu metode de procesare a datelor pentru antrenarea modelului care s-au dovedit eficiente, echipa de cercetare a construit un ciclu de antrenament pentru a procesa toate datele disponibile. Ciclul include 3 etape: construirea unui model pre-antrenat pentru a descrie caracteristicile vocale fără etichete, reglarea fină pornind de la modelul pre-antrenat pentru două probleme: recunoașterea vorbirii și recunoașterea emoțiilor și inferența.
„Experiența dobândită în rezolvarea problemelor legate de lipsa datelor în timpul dezvoltării și implementării produselor anterioare a contribuit, de asemenea, semnificativ la a ajuta echipa să găsească o metodă decisivă. Dimpotrivă, cunoștințele și rezultatele obținute în urma testării au potențialul de a fi aplicate imediat produselor Viettel AI, astfel încât procesul de lucru în timpul testării a decurs destul de bine”, a declarat dl. Bui Tien Dat - Inginer Platformă Asistent Virtual, Viettel AI.
Drept urmare, Viettel AI nu numai că a câștigat premiul întâi la categoriile Recunoaștere vorbire și Recunoaștere emoții vorbire, dar a obținut și un scor impresionant de 89,18% (următoarele echipe au fost 83,40%, respectiv 78,45%).
Dl. Son a spus că factorul cheie constă în modelul de procesare a vorbirii special pentru limba vietnameză, pe care Viettel AI l-a dezvoltat de mult timp.
„În loc să utilizeze modele și instrucțiuni din rezultatele cercetărilor disponibile, Viettel AI a ales să construiască și să dezvolte propriul model pentru procesarea vorbirii în limba vietnameză. Acest model este actualizat constant, optimizat și devine din ce în ce mai eficient”, a declarat dl. Son.
Nu numai că se oprește în fața concurenței, această soluție Viettel AI va fi premisa pentru modernizarea produselor centralei telefonice virtuale, asistentul virtual Viettel, ajutând la identificarea mai precisă a emoțiilor clienților în conversații, oferind astfel feedback sau alegând nuanțele potrivite ale cuvintelor. Astfel, conversațiile dintre oameni și inteligența artificială vor deveni mai naturale, îmbunătățind experiența utilizatorului. De asemenea, sunt deschise multe aplicații noi în domeniul relațiilor cu clienții, cum ar fi construirea unui sistem de identificare automată a reclamațiilor clienților și a reclamațiilor către centrală pentru o gestionare promptă sau pentru exploatarea informațiilor.
Reprezentantul unității a declarat că Viettel AI va continua să dezvolte tehnologia, să actualizeze constant produsele pentru a crește precizia, a îmbunătăți experiența utilizatorului și eficiența produselor.
Quoc Tuan
Sursă
Comentariu (0)