هوش مصنوعی جدید DeepSeek با عملکرد فوقالعاده خود همچنان در دنیای فناوری سر و صدا ایجاد میکند. عکس: SCMP . |
DeepSeek رسماً DeepSeek V3-0324، آخرین نسخه از خانواده V3 زبانهای مدلسازی در مقیاس بزرگ (LLM) را معرفی میکند.
این مدل مانند مدلهای قبلی خود، به صورت رایگان و متنباز از طریق پلتفرم Hugging Face منتشر میشود و پیشرفتهای چشمگیری نسبت به نسخههای قبلی، بهویژه در زمینههای استدلال و برنامهنویسی، دارد.
به طور خاص، طبق گفته OpenRouter، DeepSeek V3-0324 با استفاده از Mixture of Experts (MoE)، یک روش یادگیری ماشینی بسیار محبوب در برخی از مدلهای هوش مصنوعی چینی، ساخته شده است و ۶۸۵ میلیارد پارامتر دارد.
طبق بررسیهای اولیه، این مدل عملکرد چشمگیری را در طیف وسیعی از وظایف نشان میدهد. در همین حال، یک پست در ردیت نشان میدهد که DeepSeek V3-0324 در آزمایش تولید کد، با مدل Sonnet 3.7 گوگل برابری کرده است.
منابع همچنین نشان میدهند که DeepSeek V3-0324 قادر به تولید قطعه کدهای طولانی بدون خطا است. وبسایت تحلیل هوش مصنوعی Vidhya این مدل را آزمایش کرده و توانایی آن را در تولید روان ۷۰۰ خط کد مشاهده کرده است.
در ایکس، برنامه DeepSeek V3-0324 نیز سر و صدای زیادی به پا کرد. برای اثبات این موضوع، کاربری به نام Deepanshu Sharma ویدیویی منتشر کرد که نشان میداد این مدل هوش مصنوعی میتواند به راحتی یک وبسایت کامل با بیش از ۸۰۰ خط کد تولید کند.
DeepSeek در دسامبر ۲۰۲۴، زمانی که DeepSeek-V3 را عرضه کرد، به پربحثترین شرکت هوش مصنوعی چینی تبدیل شد. این مدل به عملکردی قابل مقایسه با GPT-4o دست یافت، اما تنها از کسری از منابع محاسباتی آن استفاده میکرد.
کمی بعد، DeepSeek مدل استدلال DeepSeek-R1 خود را منتشر کرد. طبق گزارش TechCrunch ، R1 در معیارهایی مانند AIME، MATH-500 و SWE-bench Verified از مدل o1 شرکت OpenAI عملکرد بهتری داشت.
در عین حال، رقم ۵.۶ میلیون دلاری برای آموزش نهایی مدل DeepSeek نیز در مقایسه با صدها میلیون دلاری که شرکتهای پیشرو آمریکایی برای آموزش مدلهای خود هزینه میکنند، تکاندهنده است.
منبع: https://znews.vn/at-chu-bai-moi-cua-deepseek-lo-dien-post1540831.html






نظر (0)