![]() |
DeepSeek הוציאה מודל בינה מלאכותית חדש המסוגל לעבד מסמכים עם פי 7-20 פחות טוקנים בהשוואה לשיטות מסורתיות. צילום: The Verge . |
על פי SCMP , DeepSeek פרסמה מודל חדש של בינה מלאכותית (AI) רב-מודאלית המסוגל לעבד מסמכים גדולים ומורכבים עם פחות משמעותית של טוקנים - פי 7-20 פחות - בהשוואה לשיטות עיבוד טקסט מסורתיות.
אסימונים הם יחידות הטקסט הקטנות ביותר שמעבדת בינה מלאכותית. צמצום מספר האסימונים פירושו חיסכון בעלויות חישוב והגברת היעילות של מודל בינה מלאכותית.
כדי להשיג זאת, מודל DeepSeek-OCR (זיהוי תווים אופטי) השתמש בתפיסה חזותית כאמצעי לדחיסת מידע. גישה זו מאפשרת למודלים גדולים של שפה לעבד כמויות עצומות של טקסט מבלי לגרור עלויות חישוב הגדלות באופן יחסי.
"באמצעות DeepSeek-OCR, הדגמנו כי שימוש בתפיסה חזותית לדחיסת מידע יכול להשיג הפחתות משמעותיות של אסימונים - פי 7-20 עבור שלבים היסטוריים קונטקסטואליים שונים - ומציע כיוון מבטיח", הצהיר DeepSeek.
על פי פוסט בבלוג של החברה, DeepSeek-OCR מורכב משני רכיבים עיקריים: DeepEncoder ו-DeepSeek3B-MoE-A570M, הפועל כמפענח.
במודל זה, DeepEncoder משמש ככלי מרכזי, המסייע לשמור על רמות הפעלה נמוכות תחת קלט ברזולוציה גבוהה תוך השגת יחסי דחיסה חזקים כדי להפחית את מספר האסימונים.
לאחר מכן, המפענח הוא מודל תערובת מומחים (MoE) עם 570 מיליון פרמטרים, שתפקידו לשחזר את הטקסט המקורי. ארכיטקטורת MoE מחלקת את המודל לתת-רשתות המתמחות בעיבוד תת-קבוצה של נתוני הקלט, תוך אופטימיזציה של הביצועים מבלי להפעיל את המודל כולו.
ב-OmniDocBench, מדד קריאות מסמכים, DeepSeek-OCR עולה בביצועיו על מודלים מרכזיים של OCR כמו GOT-OCR 2.0 ו-MinerU 2.0, תוך שימוש משמעותית בפחות טוקנים.
מקור: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







תגובה (0)