בינה מלאכותית מרכזית של "Make in Vietnam" מדורגת בין 12 המובילות בעולם

בהקשר של טרנספורמציה דיגיטלית וטרנספורמציה של בינה מלאכותית (AI) בווייטנאם, טכנולוגיית OCR (זיהוי תווים אופטי) ממלאת תפקיד חשוב יותר ויותר בדיגיטציה של מסמכים, אוטומציה של תהליכים עסקיים, חיסכון בעלויות ושיפור יעילות הניהול. עם זאת, עם המאפיינים של השפה הווייטנאמית עם מבטאים וכתב יד, בעיית הזיהוי אינה נעצרת ב"קריאת מילים", אלא דורשת מהמודל להיות בעל יכולת להבין את ההקשר בצורה מקיפה.

לאחרונה, מכון יישומי הטכנולוגיה CMC (CMC ATI) הכריז על מודל CATI-VLM (הבנה חזותית של מסמכים) שפותח על ידי צוות המחקר ממחסן נתונים גדול בנפח 5TB, והגיע למקום ה-12 המוביל בעולם ולמקום הראשון בווייטנאם בדירוג שהוכרז לאחרונה על ידי תחרות הקריאה העממית (RRC) ביוני 2025 בקטגוריית מענה על שאלות חזותיות של מסמכים (DocVQA).

כיתוב לתמונה

דירוג RRC בקטגוריית DocVQA 6/2025.

תחרות הקריאה החזקה (RRC) היא מגרש משחקים מדעי יוקרתי (https://rrc.cvc.uab.es/) המאורגנת על ידי מרכז הראייה הממוחשבת (CVC) של האוניברסיטה האוטונומית של ברצלונה (UAB) בספרד, מתקן מחקר יוקרתי בעולם בתחום הראייה הממוחשבת. התחרות, שהחלה בשנת 2011, מלווה תמיד את הכנס הבינלאומי לניתוח וזיהוי טקסט ICDAR - אחד הפורומים הגדולים בעולם לניתוח מסמכים וראייה ממוחשבת, הפכה לאירוע חשוב, המושך אליו חוקרים, מהנדסים מאוניברסיטאות יוקרתיות, מכוני מחקר וחברות טכנולוגיה כמו אוניברסיטת צינגהואה, קבוצת יונדאי מוטור וטנסנט... משימותיה של RRC נועדו לקדם התקדמות טכנולוגית, המקושרת קשר הדוק לבעיות מעשיות, החל מתרגום, ניהול נתונים ארגוניים ועד ניתוח עירוני ועיבוד מסמכים היסטורי.

ד"ר דאנג מין טואן, מנהל CMC ATI, שיתף: "יכולת המחקר של צוות CMC מאושרת באמצעות מגרש משחקים עולמי יוקרתי כמו RRC. אנו גאים בכך שבזמן קצר בלבד, הצוות יכול להגיע לדירוג גבוה, ולעמוד כתף אל כתף עם שמות גדולים ממדינות מפותחות. וחשוב מכך, זוהי הדגמה ברורה של היכולת לשלוט בטכנולוגיה כדי לפתור בעיות ספציפיות של וייטנאמים ותחומים מיוחדים בווייטנאם."

CATI-VLM שונה מ-OCR מסורתי בכך שהוא לא רק מחלץ תווים, אלא גם מבין שכבות מרובות של מידע: תוכן טקסט, אלמנטים שאינם טקסט (תיבות סימון, תיבות סימון, תרשימים, חתימות, נוסחאות), פריסה (מבנה עמוד, טבלאות, טפסים) וסגנון (גופנים, הדגשות וכו'). המודל יכול לענות על שאלות ויזואליות המוצגות על תמונות מסמכים, בדומה ל-ChatGPT, מבלי ללמוד טפסים ספציפיים מראש.

לפי עיתון ניוז אנד פיפל

מקור: https://doanhnghiepvn.vn/cong-nghe/ai-loi-make-in-vietnam-duoc-xep-hang-top-12-the-gioi/20250703100726051