![]() |
DeepSeek مدل هوش مصنوعی جدیدی را منتشر میکند که میتواند اسناد را با ۷ تا ۲۰ برابر توکن کمتر نسبت به روشهای سنتی پردازش کند. عکس: The Verge . |
طبق گزارش SCMP ، شرکت DeepSeek یک مدل هوش مصنوعی چندوجهی جدید منتشر کرده است که قادر به پردازش اسناد بزرگ و پیچیده با تعداد توکنهای بسیار کمتری است، ۷ تا ۲۰ برابر کمتر از روشهای سنتی پردازش متن.
توکنها کوچکترین واحدهای متنی هستند که هوش مصنوعی پردازش میکند. کاهش تعداد توکنها به معنای صرفهجویی در هزینههای محاسباتی و افزایش کارایی یک مدل هوش مصنوعی است.
برای دستیابی به این هدف، مدل DeepSeek-OCR (تشخیص نوری کاراکتر) از ادراک بصری به عنوان وسیلهای برای فشردهسازی اطلاعات استفاده کرد. این رویکرد به مدلهای زبانی بزرگ اجازه میدهد تا حجم عظیمی از متن را بدون متحمل شدن هزینه محاسباتی به نسبت افزایش یافته، پردازش کنند.
دیپسیک گفت: «ما از طریق DeepSeek-OCR نشان دادهایم که استفاده از ادراک بصری برای فشردهسازی اطلاعات میتواند به کاهش قابل توجه توکنها - از ۷ تا ۲۰ برابر برای دورههای مختلف تاریخی - دست یابد که مسیری امیدوارکننده را ارائه میدهد.»
طبق پست وبلاگ این شرکت، DeepSeek-OCR از دو جزء اصلی، DeepEncoder و DeepSeek3B-MoE-A570M که به عنوان رمزگشا عمل میکند، تشکیل شده است.
در میان آنها، DeepEncoder به عنوان موتور اصلی مدل عمل میکند و به حفظ سطح فعالسازی پایین تحت ورودی با وضوح بالا کمک میکند، در حالی که به نسبت فشردهسازی قوی برای کاهش تعداد توکنها دست مییابد.
سپس رمزگشا یک مدل ترکیبی از متخصصان (MoE) با ۵۷۰ میلیون پارامتر است که وظیفه بازتولید متن اصلی را بر عهده دارد. معماری MoE مدل را به زیرشبکههایی تقسیم میکند که در پردازش زیرمجموعهای از دادههای ورودی تخصص دارند و عملکرد را بدون نیاز به فعال کردن کل مدل بهینه میکنند.
در OmniDocBench، یک معیار سنجش خوانایی اسناد، DeepSeek-OCR از مدلهای اصلی OCR مانند GOT-OCR 2.0 و MinerU 2.0 بهتر عمل میکند، در حالی که از توکنهای بسیار کمتری استفاده میکند.
منبع: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html
نظر (0)