دیپ‌سیک اسرار خود را فاش می‌کند.

دیپ‌سیک نشان می‌دهد که چگونه مدل‌های هوش مصنوعی کم‌هزینه می‌سازند. عکس: بلومبرگ .

در یک گزارش تحقیقاتی که در ۱۵ می منتشر شد، DeepSeek برای اولین بار جزئیاتی از چگونگی ساخت یکی از قدرتمندترین سیستم‌های هوش مصنوعی متن‌باز جهان را با کسری از هزینه رقبای خود به اشتراک گذاشت.

این مطالعه با عنوان «بینش‌هایی در مورد DeepSeek-V3: چالش‌ها و تأملات مقیاس‌پذیری در مورد سخت‌افزار برای معماری‌های هوش مصنوعی» با همکاری بنیانگذار آن، لیانگ ونفنگ، نوشته شده است. DeepSeek موفقیت خود را به طراحی موازی سخت‌افزار و نرم‌افزار نسبت می‌دهد، رویکردی متمایز در مقایسه با بسیاری از شرکت‌هایی که هنوز بر بهینه‌سازی مستقل نرم‌افزار تمرکز دارند.

تیم تحقیقاتی در این گزارش نوشت: «DeepSeek-V3 که روی ۲۰۴۸ پردازنده گرافیکی Nvidia H800 آموزش دیده است، نشان داد که چگونه طراحی موازی می‌تواند به طور مؤثر چالش‌ها را حل کند و آموزش و استنتاج کارآمد را در مقیاس بزرگ امکان‌پذیر سازد.» DeepSeek و صندوق پوشش ریسک High-Flyer تراشه‌های H800 را قبل از ممنوعیت صادرات آنها به چین توسط ایالات متحده از سال ۲۰۲۳، انبار کرده بودند.

طبق این مقاله، تیم تحقیقاتی DeepSeek به خوبی از محدودیت‌های سخت‌افزاری و هزینه‌های گزاف آموزش مدل‌های زبانی بزرگ (LLM)، فناوری زیربنایی پشت چت‌بات‌هایی مانند ChatGPT شرکت OpenAI، آگاه بود. بنابراین، آنها مجموعه‌ای از بهینه‌سازی‌های فنی را برای افزایش عملکرد حافظه، بهبود ارتباط بین تراشه‌ها و افزایش کارایی کلی زیرساخت هوش مصنوعی اجرا کردند.

علاوه بر این، DeepSeek بر نقش معماری مدل متخصص ترکیبی (MoE) تأکید دارد. این یک روش یادگیری ماشینی است که مدل هوش مصنوعی را به زیرشبکه‌هایی تقسیم می‌کند که هر کدام بخش جداگانه‌ای از داده‌های ورودی را پردازش می‌کنند و برای بهینه‌سازی نتایج به صورت مشترک کار می‌کنند.

MoE به کاهش هزینه‌های آموزش و افزایش سرعت استدلال کمک می‌کند. این روش اکنون به طور گسترده در صنعت فناوری چین، از جمله جدیدترین مدل Qwen3 شرکت علی‌بابا، مورد استفاده قرار می‌گیرد.

DeepSeek اولین بار زمانی مورد توجه قرار گرفت که مدل پایه V3 خود را در دسامبر 2024 و مدل استدلال R1 خود را در ژانویه منتشر کرد. این محصولات باعث ایجاد غوغایی در بازار جهانی شدند و به کاهش گسترده سهام فناوری‌های مرتبط با هوش مصنوعی کمک کردند.

اگرچه DeepSeek اخیراً هیچ برنامه‌ی دیگری را فاش نکرده است، اما از طریق گزارش‌های منظم، علاقه‌ی جامعه را حفظ کرده است. در اواخر ماه مارس، این شرکت به‌روزرسانی جزئی برای DeepSeek-V3 منتشر کرد و تا پایان آوریل، آنها بی‌سروصدا سیستم Prover-V2 را برای پردازش اثبات ریاضی راه‌اندازی کردند.

منبع: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html