Transformarea inteligenței artificiale în Vietnam are loc în forță, tehnologia OCR (recunoaștere optică a caracterelor) jucând un rol din ce în ce mai important în digitalizarea documentelor. Foto: Ilustrație
Recent, Institutul de Aplicații Tehnologice CMC (CMC ATI) a anunțat modelul CATI-VLM (Visual Document Understanding - Înțelegerea Vizuală a Documentelor) dezvoltat de echipa de cercetare dintr-un depozit de date de 5 TB, care a ajuns în Top 12 în lume și Top 1 în Vietnam în clasamentul anunțat recent de Robust Reading Competition (RRC) în iunie 2025, la categoria Document Visual Question Answering (DocVQA).
Dl. Dang Minh Tuan, directorul CMC ATI, a declarat: „Suntem foarte încântați că capacitatea de cercetare a echipei CMC a fost afirmată prin intermediul unui teren de joacă global prestigios precum RRC. Suntem mândri că, într-un timp scurt, echipa a putut obține un rang înalt, fiind la egalitate cu nume mari din țările dezvoltate. Mai important, aceasta este o demonstrație clară a capacității de a stăpâni tehnologia pentru a rezolva probleme specifice vietnamezilor și domenii specializate din Vietnam.”
În contextul transformării digitale și al transformării inteligenței artificiale din Vietnam, care are loc cu avânt, tehnologia OCR (recunoaștere optică a caracterelor) joacă un rol din ce în ce mai important în digitalizarea documentelor, automatizarea proceselor de afaceri, economisirea costurilor și îmbunătățirea eficienței managementului.
Totuși, având în vedere caracteristicile limbii vietnameze, precum accente și scris de mână, problema recunoașterii nu se oprește la „citirea cuvintelor”, ci necesită ca modelul să aibă capacitatea de a înțelege contextul în mod cuprinzător.
CATI-VLM diferă de OCR-ul tradițional prin faptul că nu numai că extrage caractere, ci înțelege și mai multe straturi de informații: conținut textual, elemente non-textuale (casete de bifat, casete de selectare, diagrame, semnături, formule), aspect (structura paginii, tabele, formulare) și stil (fonturi, evidențieri...).
Modelul poate răspunde la întrebări vizuale puse pe imaginile documentelor, similar ChatGPT, fără a fi nevoie să înveți în prealabil formulare specifice.
Competiția de Lectură Robustă (RRC) este un prestigios teren de joacă științific , organizat de Centrul de Viziune prin Computer al Universității Autonome din Barcelona (UAB) din Spania, o instituție de cercetare prestigioasă la nivel mondial în domeniul vederii prin computer.
Inițiată în 2011, însoțind întotdeauna Conferința Internațională privind Analiza și Recunoașterea Textului (ICDAR) - unul dintre cele mai mari forumuri din lume privind analiza documentelor și viziunea computerizată, competiția a devenit un eveniment important, atrăgând cercetători, ingineri de la universități prestigioase, institute de cercetare și companii de tehnologie precum Universitatea Tsinghua, Hyundai Motor Group și Tencent...
Misiunile RRC sunt concepute pentru a stimula progresul tehnologic, legat de probleme din lumea reală, de la traduceri și gestionarea datelor întreprinderilor până la analize urbane și procesarea documentelor istorice.
De la muncă la creșterea copiilor: Cum folosesc directorii generali din domeniul tehnologiei inteligența artificială în fiecare zi. De la Jensen Huang la Tim Cook, cei mai puternici directori generali din domeniul tehnologiei din lume valorifică inteligența artificială în viața lor de zi cu zi.
Sursă: https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html
Comentariu (0)