RRC-Ranking in der DocVQA-Kategorie 6/2025.
Angesichts der rasanten digitalen Transformation und des Einsatzes künstlicher Intelligenz in Vietnam spielt die OCR-Technologie (optische Zeichenerkennung) eine immer wichtigere Rolle bei der Digitalisierung von Dokumenten, der Automatisierung von Geschäftsprozessen, der Kosteneinsparung und der Steigerung der Managementeffizienz. Aufgrund der Besonderheiten der vietnamesischen Sprache mit ihren Akzenten und der Handschrift beschränkt sich die Erkennungsaufgabe jedoch nicht auf das bloße Lesen von Wörtern, sondern erfordert ein Modell, das den Kontext umfassend versteht.
Kürzlich gab das CMC Technology Application Institute (CMC ATI) das CATI-VLM (Visual Document Understanding)-Modell bekannt, das vom Forschungsteam aus einem 5 TB großen Data Warehouse entwickelt wurde und viele internationale Konkurrenten übertraf, um in der Kategorie Document Visual Question Answering (DocVQA), die gerade vom Robust Reading Competition (RRC) im Juni 2025 veröffentlicht wurde, unter die Top 12 weltweit und unter die Nummer 1 in Vietnam zu gelangen.
Der Robust Reading Competition (RRC) ist ein renommierter wissenschaftlicher Wettbewerb (https://rrc.cvc.uab.es/), der vom Computer Vision Center (CVC) der Universitat Autònoma de Barcelona (UAB) in Spanien organisiert wird, einer weltweit angesehenen Forschungseinrichtung auf dem Gebiet der Computer Vision.
Der Wettbewerb wurde 2011 ins Leben gerufen und findet jährlich im Rahmen der International Conference on Text Analysis and Recognition (ICDAR) statt – einem der weltweit führenden Foren im Bereich Computer Vision. Er zieht zahlreiche Forscher und Ingenieure von Universitäten, Forschungsinstituten und großen Technologiekonzernen wie der Tsinghua-Universität, der Hyundai Motor Group und Tencent an. Die Aufgaben des RRC sind darauf ausgerichtet, den technologischen Fortschritt zu fördern und eng mit praktischen Problemen von der Übersetzung über das Datenmanagement in Unternehmen bis hin zur Stadtanalyse und der Verarbeitung historischer Dokumente verknüpft.
Dr. Dang Minh Tuan, Direktor des CMC ATI, erklärte: „Wir freuen uns sehr, dass die Forschungsleistung des CMC-Teams durch eine so renommierte internationale Plattform wie das RRC bestätigt wurde. Innerhalb kürzester Zeit hat das Forschungsteam hohe Platzierungen erreicht und damit seine internationale Wettbewerbsfähigkeit gegenüber namhaften Institutionen aus Industrieländern unter Beweis gestellt. Noch wichtiger ist jedoch, dass dies ein deutlicher Beweis für die Fähigkeit ist, Technologien zu beherrschen, um spezifische Probleme der vietnamesischen Sprache und spezialisierter Fachgebiete in Vietnam zu lösen.“
Dr. Dang Minh Tuan, Direktor von CMC ATI.
CATI-VLM unterscheidet sich von herkömmlicher OCR dadurch, dass es nicht nur Zeichen extrahiert, sondern auch mehrere Informationsebenen versteht: Textinhalte, Nicht-Text-Elemente (Kontrollkästchen, Diagramme, Unterschriften, Formeln), Layout (Seitenstruktur, Tabellen, Formulare) und Stil (Schriftarten, Hervorhebungen usw.). Das Modell kann, ähnlich wie ChatGPT, visuelle Fragen zu Dokumentbildern beantworten, ohne vorher spezifische Formulare lernen zu müssen.
Bemerkenswert ist, dass CATI-VLM mit nur 3 Milliarden Parametern in 4 von 7 Datensätzen die höchste Genauigkeit in der RRC-Rangliste erreichte und damit viele Big-Tech-Modelle wie Deepseek (27 Milliarden Parameter), GPT-4 Vision Turbo + Amazon Textract OCR (Top 34) oder Baidu (Top 22) übertraf.
Die Leistung zeugt auch von einem praxisorientierten Ansatz, der sich auf die Beherrschung der Kerntechnologie und die Optimierung des Modells für die Infrastrukturbedingungen Vietnams konzentriert, anstatt auf die Skalierung der Parameter.
Muster-Bewerbungsformular für die Hochschulzulassung
Der Text wurde anhand der Handschrift im obigen Bild identifiziert.
Herr Nguyen Trung Chinh, Vorstandsvorsitzender und Executive Chairman der CMC Technology Group, betonte: „Dies ist das Ergebnis von über einem Jahrzehnt kontinuierlicher Investitionen in Forschung und Entwicklung. Die herausragenden Erfolge von CMC im internationalen Technologiesektor bestätigen die Strategie, vietnamesische Technologie zu beherrschen, verbunden mit der Ausrichtung auf die KI-Transformation und dem Eintritt in den globalen Markt. Wir sind überzeugt, dass vietnamesische Technologie durchaus in der Lage ist, mit den globalen Technologiekonzernen gleichzuziehen und sich einen bedeutenden Platz auf der Weltkarte der Technologie zu sichern.“
CATI-VLM wird in der Produktkette des C.OpenAI-Ökosystems eingesetzt, darunter: CLS virtueller Assistent zur Überprüfung juristischer Dokumente, CMC SmartDoc - digitale Dokumentenkonvertierungsplattform, CMC KMS Wissensmanagementsystem, automatisches Berichtssystem für intelligente Büros und Agentic Documents-Anwendungen der neuen Generation.
QUANG HUY
Quelle: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html






Kommentar (0)