![]() |
ডিপসিক একটি নতুন এআই মডেল প্রকাশ করেছে যা ঐতিহ্যবাহী পদ্ধতির তুলনায় ৭-২০ গুণ কম টোকেন ব্যবহার করে নথি প্রক্রিয়াকরণ করতে সক্ষম। ছবি: দ্য ভার্জ । |
SCMP- এর মতে, DeepSeek একটি নতুন মাল্টিমোডাল কৃত্রিম বুদ্ধিমত্তা (AI) মডেল প্রকাশ করেছে যা ঐতিহ্যবাহী টেক্সট প্রক্রিয়াকরণ পদ্ধতির তুলনায় উল্লেখযোগ্যভাবে কম টোকেন - ৭-২০ গুণ কম - দিয়ে বৃহৎ এবং জটিল নথি প্রক্রিয়াকরণ করতে সক্ষম।
টোকেন হলো টেক্সটের ক্ষুদ্রতম একক যা এআই প্রক্রিয়া করে। টোকেনের সংখ্যা কমানোর অর্থ হল গণনার খরচ সাশ্রয় করা এবং একটি এআই মডেলের দক্ষতা বৃদ্ধি করা।
এটি অর্জনের জন্য, ডিপসিক-ওসিআর (অপটিক্যাল ক্যারেক্টার রিকগনিশন) মডেল তথ্য সংকুচিত করার মাধ্যম হিসেবে ভিজ্যুয়াল পারসেপশন ব্যবহার করেছে। এই পদ্ধতির মাধ্যমে বৃহৎ ভাষা মডেলগুলিকে আনুপাতিকভাবে গণনামূলক খরচ বৃদ্ধি না করেই বিশাল পরিমাণে টেক্সট প্রক্রিয়াকরণ করতে সাহায্য করে।
"ডিপসিক-ওসিআর-এর মাধ্যমে, আমরা প্রমাণ করেছি যে তথ্য সংকুচিত করার জন্য ভিজ্যুয়াল পারসেপশন ব্যবহার করে উল্লেখযোগ্য টোকেন হ্রাস অর্জন করা যেতে পারে - বিভিন্ন ঐতিহাসিক প্রাসঙ্গিক পর্যায়ে 7-20 গুণ পর্যন্ত - যা একটি আশাব্যঞ্জক দিকনির্দেশনা প্রদান করে," ডিপসিক বলেছেন।
কোম্পানির ব্লগ পোস্ট অনুসারে, ডিপসিক-ওসিআর দুটি প্রধান উপাদান নিয়ে গঠিত: ডিপএনকোডার এবং ডিপসিক৩বি-এমওই-এ৫৭০এম, যা ডিকোডার হিসেবে কাজ করে।
এই মডেলে, ডিপএনকোডার মূল হাতিয়ার হিসেবে কাজ করে, উচ্চ-রেজোলিউশন ইনপুটের অধীনে কম অ্যাক্টিভেশন স্তর বজায় রাখতে সাহায্য করে এবং টোকেনের সংখ্যা কমাতে শক্তিশালী কম্প্রেশন অনুপাত অর্জন করে।
পরবর্তীকালে, ডিকোডারটি ৫৭০ মিলিয়ন প্যারামিটার সহ একটি মিক্সচার-অফ-এক্সপার্টস (MoE) মডেল, যা মূল টেক্সট পুনর্গঠনের দায়িত্বে রয়েছে। MoE আর্কিটেকচার মডেলটিকে সাবনেটওয়ার্কে বিভক্ত করে যা ইনপুট ডেটার একটি উপসেট প্রক্রিয়াকরণে বিশেষজ্ঞ, সম্পূর্ণ মডেল সক্রিয় না করেই কর্মক্ষমতা অপ্টিমাইজ করে।
ডকুমেন্ট পঠনযোগ্যতার জন্য একটি মানদণ্ড, OmniDocBench-এ, DeepSeek-OCR উল্লেখযোগ্যভাবে কম টোকেন ব্যবহার করে GOT-OCR 2.0 এবং MinerU 2.0-এর মতো প্রধান OCR মডেলগুলিকে ছাড়িয়ে যায়।
সূত্র: https://znews.vn/deepseek-lai-co-dot-pha-post1595902.html







মন্তব্য (0)