دیپسیک نشان میدهد که چگونه مدلهای هوش مصنوعی کمهزینه میسازند. عکس: بلومبرگ . |
در یک گزارش تحقیقاتی که در ۱۵ می منتشر شد، DeepSeek برای اولین بار جزئیاتی از چگونگی ساخت یکی از قدرتمندترین سیستمهای هوش مصنوعی متنباز جهان را با کسری از هزینه رقبای خود به اشتراک گذاشت.
این مطالعه با عنوان «بینشهایی در مورد DeepSeek-V3: چالشها و تأملات مقیاسپذیری در مورد سختافزار برای معماریهای هوش مصنوعی» با همکاری بنیانگذار آن، لیانگ ونفنگ، نوشته شده است. DeepSeek موفقیت خود را به طراحی موازی سختافزار و نرمافزار نسبت میدهد، رویکردی متمایز در مقایسه با بسیاری از شرکتهایی که هنوز بر بهینهسازی مستقل نرمافزار تمرکز دارند.
تیم تحقیقاتی در این گزارش نوشت: «DeepSeek-V3 که روی ۲۰۴۸ پردازنده گرافیکی Nvidia H800 آموزش دیده است، نشان داد که چگونه طراحی موازی میتواند به طور مؤثر چالشها را حل کند و آموزش و استنتاج کارآمد را در مقیاس بزرگ امکانپذیر سازد.» DeepSeek و صندوق پوشش ریسک High-Flyer تراشههای H800 را قبل از ممنوعیت صادرات آنها به چین توسط ایالات متحده از سال ۲۰۲۳، انبار کرده بودند.
طبق این مقاله، تیم تحقیقاتی DeepSeek به خوبی از محدودیتهای سختافزاری و هزینههای گزاف آموزش مدلهای زبانی بزرگ (LLM)، فناوری زیربنایی پشت چتباتهایی مانند ChatGPT شرکت OpenAI، آگاه بود. بنابراین، آنها مجموعهای از بهینهسازیهای فنی را برای افزایش عملکرد حافظه، بهبود ارتباط بین تراشهها و افزایش کارایی کلی زیرساخت هوش مصنوعی اجرا کردند.
علاوه بر این، DeepSeek بر نقش معماری مدل متخصص ترکیبی (MoE) تأکید دارد. این یک روش یادگیری ماشینی است که مدل هوش مصنوعی را به زیرشبکههایی تقسیم میکند که هر کدام بخش جداگانهای از دادههای ورودی را پردازش میکنند و برای بهینهسازی نتایج به صورت مشترک کار میکنند.
MoE به کاهش هزینههای آموزش و افزایش سرعت استدلال کمک میکند. این روش اکنون به طور گسترده در صنعت فناوری چین، از جمله جدیدترین مدل Qwen3 شرکت علیبابا، مورد استفاده قرار میگیرد.
DeepSeek اولین بار زمانی مورد توجه قرار گرفت که مدل پایه V3 خود را در دسامبر 2024 و مدل استدلال R1 خود را در ژانویه منتشر کرد. این محصولات باعث ایجاد غوغایی در بازار جهانی شدند و به کاهش گسترده سهام فناوریهای مرتبط با هوش مصنوعی کمک کردند.
اگرچه DeepSeek اخیراً هیچ برنامهی دیگری را فاش نکرده است، اما از طریق گزارشهای منظم، علاقهی جامعه را حفظ کرده است. در اواخر ماه مارس، این شرکت بهروزرسانی جزئی برای DeepSeek-V3 منتشر کرد و تا پایان آوریل، آنها بیسروصدا سیستم Prover-V2 را برای پردازش اثبات ریاضی راهاندازی کردند.
منبع: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html






نظر (0)