דירוג RRC בקטגוריית DocVQA 6/2025.
בהקשר של טרנספורמציה דיגיטלית וטרנספורמציה של יישומי בינה מלאכותית המתרחשת בווייטנאם, טכנולוגיית OCR (זיהוי תווים אופטי) ממלאת תפקיד חשוב יותר ויותר בדיגיטציה של מסמכים, אוטומציה של תהליכים עסקיים, חיסכון בעלויות ושיפור יעילות הניהול. עם זאת, עם מאפייני השפה הווייטנאמית עם מבטאים וכתב יד, בעיית הזיהוי אינה נעצרת ב"קריאת מילים", אלא דורשת מהמודל להיות בעל יכולת להבין את ההקשר בצורה מקיפה.
לאחרונה, מכון יישומי הטכנולוגיה CMC (CMC ATI) הכריז על מודל CATI-VLM (הבנה חזותית של מסמכים) - שפותח על ידי צוות המחקר ממחסן נתונים גדול בנפח 5TB, ועבר מתחרים בינלאומיים רבים והגיע ל-12 המובילים בעולם ולראשון בווייטנאם בדירוג שהוכרז לאחרונה על ידי תחרות הקריאה העממית (RRC) ביוני 2025 בקטגוריית מענה על שאלות חזותיות של מסמכים (DocVQA).
תחרות הקריאה החזקה (RRC) היא מגרש משחקים מדעי יוקרתי, (https://rrc.cvc.uab.es/) המאורגנת על ידי מרכז הראייה הממוחשבת (CVC) של האוניברסיטה האוטונומית של ברצלונה (UAB) בספרד, מתקן מחקר יוקרתי בעולם בתחום הראייה הממוחשבת.
התחרות החלה בשנת 2011 ומתקיימת מדי שנה במסגרת הכנס הבינלאומי לניתוח וזיהוי טקסט (ICDAR) - אחד הפורומים המובילים בעולם בתחום הראייה הממוחשבת. התחרות מושכת אליה מספר רב של חוקרים ומהנדסים מאוניברסיטאות, מכוני מחקר ותאגידי טכנולוגיה גדולים כמו אוניברסיטת צינגהואה, קבוצת יונדאי מוטור, טנסנט... בעיות ה-RRC נועדו לקדם התקדמות טכנולוגית, תוך קשר הדוק לבעיות מעשיות, החל מתרגום, ניהול נתונים ארגוניים ועד ניתוח עירוני ועיבוד מסמכים היסטוריים.
ד"ר דאנג מין טואן, מנהל CMC ATI, שיתף: "אנו שמחים מאוד שיכולת המחקר של צוות CMC אושרה באמצעות מגרש משחקים עולמי יוקרתי כמו RRC. תוך זמן קצר, צוות המחקר השיג דירוגים גבוהים, והדגים את התחרותיות הבינלאומית שלו מול שמות גדולים ממדינות מפותחות. וחשוב מכך, זוהי הדגמה ברורה של היכולת לשלוט בטכנולוגיה כדי לפתור בעיות ספציפיות של השפה הוייטנאמית ותחומים מיוחדים בווייטנאם."
ד"ר דאנג מין טואן, מנהל CMC ATI.
CATI-VLM שונה מ-OCR מסורתי בכך שהוא לא רק מחלץ תווים, אלא גם מבין שכבות מרובות של מידע: תוכן טקסט, אלמנטים שאינם טקסט (תיבות סימון, תיבות סימון, תרשימים, חתימות, נוסחאות), פריסה (מבנה עמוד, טבלאות, טפסים) וסגנון (גופנים, הדגשות וכו'). המודל יכול לענות על שאלות ויזואליות המוצגות על תמונות מסמכים, בדומה ל-ChatGPT, מבלי ללמוד טפסים ספציפיים מראש.
ראוי לציין כי בדירוג RRC, CATI-VLM עם 3 מיליארד פרמטרים בלבד השיגה את הדיוק הגבוה ביותר במערכי נתונים 4/7, ועקפה מודלים רבים של חברות טכנולוגיה גדולות כמו Deepseek (27 מיליארד פרמטרים), GPT-4 Vision Turbo + Amazon Textract OCR (34 המובילים) או Baidu (22 המובילים).
ההישג מראה גם גישה מעשית, המתמקדת בשליטה בטכנולוגיית הליבה, אופטימיזציה של המודל כך שיתאים לתנאי התשתית של וייטנאם במקום לרדוף אחר קנה מידה של פרמטרים.
טופס בקשה לדוגמה לקבלה למכללה
הטקסט זוהה מכתב היד שבתמונה למעלה.
מר נגוין טרונג צ'ין, יו"ר מועצת המנהלים ויו"ר בכיר של קבוצת הטכנולוגיה CMC, הדגיש: "זוהי תוצאה של יותר מעשור של השקעה מתמשכת במחקר ופיתוח (מו"פ) טכנולוגי. הישגיה הגבוהים של CMC בתחום הטכנולוגי הבינלאומי מאשרים את האסטרטגיה של שליטה בטכנולוגיה וייטנאמית, בשילוב עם הכיוון של טרנספורמציה של בינה מלאכותית וכניסה לשוק העולמי. אנו מאמינים שהמודיעין הווייטנאמי מסוגל לחלוטין לעמוד כתף אל כתף עם חברות הטכנולוגיה הגדולות העולמיות, וליצור עמדה ראויה על מפת הטכנולוגיה העולמית."
CATI-VLM ייושם בשרשרת המוצרים של המערכת האקולוגית C.OpenAI, כולל: עוזר וירטואלי CLS לסקירת מסמכים משפטיים, CMC SmartDoc - פלטפורמת המרת מסמכים דיגיטלית, מערכת ניהול ידע CMC KMS, מערכת דיווח אוטומטית למשרדים חכמים ויישומי Agentic Documents מהדור החדש.
קוואנג הוי
מקור: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html
תגובה (0)