Die KI-Transformation in Vietnam schreitet rasant voran, die OCR-Technologie (optische Zeichenerkennung) spielt eine immer wichtigere Rolle bei der Dokumentendigitalisierung. Foto: Illustration
Kürzlich gab das CMC Technology Application Institute (CMC ATI) bekannt, dass das vom Forschungsteam aus einem 5 TB großen Data Warehouse entwickelte CATI-VLM-Modell (Visual Document Understanding) in der Kategorie Document Visual Question Answering (DocVQA) den 12. Platz weltweit und den 1. Platz in Vietnam in der Rangliste des Robust Reading Competition (RRC) im Juni 2025 erreicht hat.
Herr Dang Minh Tuan, Direktor von CMC ATI, erklärte: „Wir freuen uns sehr, dass die Forschungskompetenz des CMC-Teams durch eine so renommierte internationale Veranstaltung wie das RRC bestätigt wurde. Wir sind stolz darauf, dass das Team in so kurzer Zeit eine so hohe Platzierung erreichen konnte und sich mit Größen aus Industrieländern messen kann. Noch wichtiger ist jedoch, dass dies ein deutlicher Beweis für die Fähigkeit ist, Technologien zu beherrschen, um spezifische Probleme der Vietnamesen und spezialisierter Bereiche in Vietnam zu lösen.“
Im Kontext der in Vietnam stark voranschreitenden digitalen Transformation und der Transformation durch künstliche Intelligenz spielt die OCR-Technologie (Optical Character Recognition) eine zunehmend wichtige Rolle bei der Digitalisierung von Dokumenten, der Automatisierung von Geschäftsprozessen, der Kosteneinsparung und der Verbesserung der Managementeffizienz.
Aufgrund der Besonderheiten des Vietnamesischen mit Akzenten und Handschrift beschränkt sich das Erkennungsproblem jedoch nicht auf das bloße „Lesen von Wörtern“, sondern erfordert, dass das Modell die Fähigkeit besitzt, den Kontext umfassend zu verstehen.
CATI-VLM unterscheidet sich von der herkömmlichen OCR dadurch, dass es nicht nur Zeichen extrahiert, sondern auch mehrere Informationsebenen versteht: Textinhalte, Nicht-Text-Elemente (Ankreuzfelder, Kontrollkästchen, Diagramme, Signaturen, Formeln), Layout (Seitenstruktur, Tabellen, Formulare) und Stil (Schriftarten, Hervorhebungen usw.).
Das Modell kann, ähnlich wie ChatGPT, visuelle Fragen zu Dokumentenbildern beantworten, ohne dass vorher bestimmte Formulare gelernt werden müssen.
Der Robust Reading Competition (RRC) ist ein prestigeträchtiger wissenschaftlicher Wettbewerb, der vom Computer Vision Center der Universitat Autònoma de Barcelona (UAB) in Spanien organisiert wird, einer weltweit renommierten Forschungseinrichtung auf dem Gebiet der Computer Vision.
Der 2011 ins Leben gerufene Wettbewerb, der stets parallel zur Internationalen Konferenz für Textanalyse und -erkennung (ICDAR) – einem der weltweit größten Foren für Dokumentenanalyse und Computer Vision – stattfindet, hat sich zu einem wichtigen Ereignis entwickelt und zieht Forscher und Ingenieure von renommierten Universitäten, Forschungsinstituten und Technologieunternehmen wie der Tsinghua-Universität, der Hyundai Motor Group und Tencent an.
Die Missionen des RRC sind darauf ausgerichtet, den technologischen Fortschritt voranzutreiben und sich mit realen Problemen zu befassen, die von Übersetzung und Unternehmensdatenmanagement bis hin zu Stadtanalysen und der Verarbeitung historischer Dokumente reichen.
Von der Arbeit bis zur Kindererziehung: Wie Tech-CEOs KI im Alltag nutzen. Von Jensen Huang bis Tim Cook: Die mächtigsten Tech-CEOs der Welt setzen KI in ihrem Alltag ein.
Quelle: https://vietnamnet.vn/ai-loi-make-in-vietnam-cua-cmc-duoc-xep-hang-top-12-the-gioi-2417479.html






Kommentar (0)