Die Kern-KI von „Make in Vietnam“ belegt weltweit einen der 12 Plätze.

Im Kontext der digitalen Transformation und des Einsatzes künstlicher Intelligenz (KI) in Vietnam spielt die OCR-Technologie (optische Zeichenerkennung) eine zunehmend wichtige Rolle bei der Digitalisierung von Dokumenten, der Automatisierung von Geschäftsprozessen, der Kosteneinsparung und der Steigerung der Managementeffizienz. Aufgrund der Besonderheiten des Vietnamesischen mit seinen Akzenten und der Handschrift beschränkt sich die Erkennungsaufgabe jedoch nicht auf das bloße „Lesen von Wörtern“, sondern erfordert ein Modell, das den Kontext umfassend erfassen kann.

Kürzlich gab das CMC Technology Application Institute (CMC ATI) bekannt, dass das vom Forschungsteam aus einem 5 TB großen Data Warehouse entwickelte CATI-VLM-Modell (Visual Document Understanding) in der Kategorie Document Visual Question Answering (DocVQA) den 12. Platz weltweit und den 1. Platz in Vietnam in der Rangliste des Robust Reading Competition (RRC) im Juni 2025 erreicht hat.

Bildunterschrift

RRC-Ranking in der DocVQA-Kategorie 6/2025.

Der Robust Reading Competition (RRC) ist ein renommierter wissenschaftlicher Wettbewerb (https://rrc.cvc.uab.es/), der vom Computer Vision Center (CVC) der Universitat Autònoma de Barcelona (UAB), Spanien, organisiert wird – einer weltweit führenden Forschungseinrichtung im Bereich Computer Vision. Der Wettbewerb, der 2011 ins Leben gerufen wurde und stets die Internationale Konferenz für Textanalyse und -erkennung (ICDAR) begleitet – eines der weltweit größten Foren für Dokumentenanalyse und Computer Vision –, hat sich zu einem wichtigen Ereignis entwickelt und zieht Forscher und Ingenieure von renommierten Universitäten, Forschungsinstituten und Technologieunternehmen wie der Tsinghua-Universität, der Hyundai Motor Group und Tencent an. Die Aufgaben des RRC sind darauf ausgerichtet, den technologischen Fortschritt zu fördern und eng mit praktischen Problemen von der Übersetzung über das Datenmanagement in Unternehmen bis hin zur Stadtanalyse und der Verarbeitung historischer Dokumente verknüpft.

Dr. Dang Minh Tuan, Direktor des CMC ATI, erklärte: „Die Forschungskompetenz des CMC-Teams wird durch die Teilnahme an einem so renommierten internationalen Wettbewerb wie dem RRC bestätigt. Wir sind stolz darauf, dass das Team in so kurzer Zeit eine so hohe Platzierung erreichen konnte und sich mit Größen aus Industrieländern messen kann. Noch wichtiger ist jedoch, dass dies ein deutlicher Beweis für die Fähigkeit ist, Technologien zu beherrschen, um spezifische Probleme der Vietnamesen und spezialisierter Bereiche in Vietnam zu lösen.“

CATI-VLM unterscheidet sich von herkömmlicher OCR dadurch, dass es nicht nur Zeichen extrahiert, sondern auch mehrere Informationsebenen versteht: Textinhalte, Nicht-Text-Elemente (Kontrollkästchen, Diagramme, Unterschriften, Formeln), Layout (Seitenstruktur, Tabellen, Formulare) und Stil (Schriftarten, Hervorhebungen usw.). Das Modell kann, ähnlich wie ChatGPT, visuelle Fragen zu Dokumentbildern beantworten, ohne vorher spezifische Formulare lernen zu müssen.

Kommentar (0)