![]() |
شرکت DeepSeek یک مدل هوش مصنوعی جدید منتشر کرده است که قادر به پردازش اسناد با توکنهای ۷ تا ۲۰ برابر کمتر از روشهای سنتی است. عکس: The Verge . |
طبق گزارش SCMP ، شرکت DeepSeek یک مدل هوش مصنوعی چندوجهی جدید منتشر کرده است که قادر به پردازش اسناد بزرگ و پیچیده با توکنهای بسیار کمتر - ۷ تا ۲۰ برابر کمتر - نسبت به روشهای سنتی پردازش متن است.
توکنها کوچکترین واحدهای متنی هستند که هوش مصنوعی پردازش میکند. کاهش تعداد توکنها به معنای صرفهجویی در هزینههای محاسباتی و افزایش کارایی یک مدل هوش مصنوعی است.
برای دستیابی به این هدف، مدل DeepSeek-OCR (تشخیص نوری کاراکتر) از ادراک بصری به عنوان وسیلهای برای فشردهسازی اطلاعات استفاده کرد. این رویکرد به مدلهای زبانی بزرگ اجازه میدهد تا حجم عظیمی از متن را بدون متحمل شدن هزینههای محاسباتی فزاینده، پردازش کنند.
دیپسیک اظهار داشت: «ما از طریق DeepSeek-OCR نشان دادهایم که استفاده از ادراک بصری برای فشردهسازی اطلاعات میتواند به کاهش قابل توجه توکنها - از ۷ تا ۲۰ برابر برای مراحل مختلف تاریخی - دست یابد که مسیری امیدوارکننده را ارائه میدهد.»
طبق پست وبلاگ این شرکت، DeepSeek-OCR از دو جزء اصلی تشکیل شده است: DeepEncoder و DeepSeek3B-MoE-A570M که به عنوان رمزگشا عمل میکند.
در این مدل، DeepEncoder به عنوان ابزار اصلی عمل میکند و به حفظ سطوح فعالسازی پایین تحت ورودی با وضوح بالا کمک میکند و در عین حال به نسبتهای فشردهسازی قوی برای کاهش تعداد توکنها دست مییابد.
متعاقباً، رمزگشا یک مدل ترکیبی از متخصصان (MoE) با ۵۷۰ میلیون پارامتر است که وظیفه بازسازی متن اصلی را بر عهده دارد. معماری MoE مدل را به زیرشبکههایی تقسیم میکند که در پردازش زیرمجموعهای از دادههای ورودی تخصص دارند و عملکرد را بدون فعال کردن کل مدل بهینه میکنند.
در OmniDocBench، معیاری برای سنجش خوانایی اسناد، DeepSeek-OCR از مدلهای اصلی OCR مانند GOT-OCR 2.0 و MinerU 2.0 بهتر عمل میکند، در حالی که از توکنهای بسیار کمتری استفاده میکند.
منبع: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







نظر (0)