ডিপসিকের গবেষকরা V3.2-exp নামে একটি নতুন পরীক্ষামূলক মডেল ঘোষণা করেছেন, যা দীর্ঘ প্রেক্ষাপটের ক্রিয়াকলাপে ব্যবহারের সময় অনুমানের খরচ উল্লেখযোগ্যভাবে হ্রাস করার জন্য ডিজাইন করা হয়েছে।
ডিপসিক হাগিং ফেস-এ একটি পোস্টে মডেলটি ঘোষণা করেছে এবং গিটহাবে একটি লিঙ্কযুক্ত একাডেমিক পেপারও পোস্ট করেছে।
জটিল নতুন মডেলের সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্যটির নাম ডিপসিক স্পার্স অ্যাটেনশন। মূলত, সিস্টেমটি প্রসঙ্গ উইন্ডো থেকে নির্দিষ্ট অংশগুলিকে অগ্রাধিকার দেওয়ার জন্য "লাইটনিং ইনডেক্সার" নামক একটি মডিউল ব্যবহার করে।
ডিপসিক সাশ্রয়ী ইনফারেন্স মডেল ঘোষণা করেছে।
"সূক্ষ্ম-দানাযুক্ত টোকেন নির্বাচন ব্যবস্থা" নামে একটি পৃথক সিস্টেম তারপর মডিউলের সীমিত মনোযোগ উইন্ডোতে লোড করার জন্য সেই স্নিপেটগুলি থেকে নির্দিষ্ট টোকেন নির্বাচন করে। একত্রিতভাবে, তারা স্পার্স অ্যাটেনশন মডেলগুলিকে অপেক্ষাকৃত কম সার্ভার লোড সহ দীর্ঘ প্রসঙ্গের অংশগুলিতে কাজ করার অনুমতি দেয়।
দীর্ঘ-প্রসঙ্গিক ক্রিয়াকলাপের জন্য, সিস্টেমের সুবিধাগুলি উল্লেখযোগ্য। ডিপসিকের প্রাথমিক পরীক্ষায় দেখা গেছে যে দীর্ঘ-প্রসঙ্গিক পরিস্থিতিতে একটি সরল অনুমান ফাংশন (API) কলের খরচ অর্ধেক পর্যন্ত কমানো যেতে পারে।
আরও শক্তিশালী মূল্যায়ন তৈরির জন্য আরও পরীক্ষার প্রয়োজন, কিন্তু যেহেতু মডেলটি উন্মুক্ত এবং হাগিং ফেসে অবাধে পাওয়া যায়, তাই তৃতীয় পক্ষের পরীক্ষাগুলি গবেষণাপত্রের দাবিগুলি মূল্যায়ন করতে খুব বেশি সময় লাগবে না।
অন্যান্য এআই চ্যাটবট মডেলের বিপরীতে, যা প্রচুর শক্তি খরচ করে, ডিপসিক প্রশিক্ষণ থেকে শুরু করে পরিচালনা পর্যন্ত খরচ সাশ্রয় করার দিকে এগিয়ে যায়।
ডিপসিকের নতুন মডেলটি সাম্প্রতিক সাফল্যের একটি সিরিজ যা অনুমান খরচের সমস্যা মোকাবেলা করে - মূলত, একটি প্রাক-প্রশিক্ষিত এআই মডেল চালানোর সার্ভার খরচ, এটিকে প্রশিক্ষণের খরচের বিপরীতে।
ডিপসিকের ক্ষেত্রে, গবেষকরা মৌলিক ট্রান্সফরমার স্থাপত্যকে আরও দক্ষ করার উপায় খুঁজছিলেন - এবং দেখেছিলেন যে উল্লেখযোগ্য উন্নতি করা প্রয়োজন।
চীনে অবস্থিত, ডিপসিক এআই উন্মাদনার মধ্যে একটি অস্বাভাবিক ব্যক্তিত্ব, বিশেষ করে যারা এআই গবেষণাকে মার্কিন যুক্তরাষ্ট্র এবং চীনের মধ্যে প্রতিযোগিতা হিসেবে দেখেন। কোম্পানিটি এই বছরের শুরুতে তার R1 মডেলটি নিয়ে ব্যাপক আলোড়ন তুলেছিল, যা মূলত তার মার্কিন প্রতিযোগীদের তুলনায় অনেক কম খরচে রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে প্রশিক্ষিত করা হয়েছিল।
যাইহোক, মডেলটি AI প্রশিক্ষণে পূর্ণাঙ্গ বিপ্লব ঘটাতে ব্যর্থ হয়েছিল, যা কেউ কেউ ভবিষ্যদ্বাণী করেছিলেন, এবং পরবর্তী মাসগুলিতে কোম্পানিটি ধীরে ধীরে স্পটলাইট থেকে পিছিয়ে যায়।
নতুন "অল্প মনোযোগ" পদ্ধতিটি R1 এর মতো এত ক্ষোভের সৃষ্টি করার সম্ভাবনা কম - তবে এটি এখনও মার্কিন পরিষেবা প্রদানকারীদের অনুমান ব্যয় কম রাখার জন্য কিছু অত্যন্ত প্রয়োজনীয় কৌশল শেখাতে পারে।
https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/
সূত্র: https://khoahocdoisong.vn/deepseek-dao-tao-da-re-nay-con-co-ban-suy-luan-re-hon-post2149057353.html
মন্তব্য (0)