
ঘোড়ায় চড়া মহাকাশচারীর ছবিটি দুই ধরনের এআই-নির্মিত মডেলের সমন্বয়ে তৈরি করা হয়েছে। ছবি: এমআইটি নিউজ
যখন গতি এবং গুণমানের মধ্যে আর কোনো আপস করতে হয় না।
এআই-চালিত ছবি তৈরির ক্ষেত্রে বর্তমানে দুটি প্রধান পদ্ধতি রয়েছে:
ডিফিউশন মডেলের সাহায্যে বিস্তারিত ও স্পষ্ট ছবি তৈরি করা যায়। তবে, এই মডেলগুলো খুব ধীরগতির এবং প্রচুর কম্পিউটেশনাল রিসোর্স খরচ করে, কারণ প্রতিটি পিক্সেল থেকে নয়েজ দূর করতে কয়েক ডজন প্রসেসিং ধাপের প্রয়োজন হয়।
অন্যদিকে, অটোরেগ্রেসিভ মডেলগুলো অনেক দ্রুত কাজ করে, কারণ এগুলো একটি ছবির ছোট ছোট অংশ পর্যায়ক্রমে অনুমান করতে পারে। তবে, এগুলো প্রায়শই কম বিস্তারিত ছবি তৈরি করে এবং এতে ভুলের সম্ভাবনা বেশি থাকে।
HART (হাইব্রিড অটোরিগ্রেসিভ ট্রান্সফরমার) উভয় পদ্ধতির সমন্বয়ে "উভয়ের সেরা দিকগুলো" প্রদান করে। প্রথমত, এটি একটি অটোরিগ্রেসিভ মডেল ব্যবহার করে ছবিটিকে বিচ্ছিন্ন টোকেনে এনকোড করার মাধ্যমে সামগ্রিক চিত্রটি তৈরি করে। এরপর, একটি সামান্য ডিফিউজ মডেল আরও প্রক্রিয়াকরণ করে রেসিডুয়াল টোকেন—অর্থাৎ এনকোডিং প্রক্রিয়ার সময় হারিয়ে যাওয়া খুঁটিনাটি বিষয়গুলো—যোগ করে।
এর ফলে সবচেয়ে উন্নত ডিফিউশন মডেলগুলোর সমতুল্য (বা তার চেয়েও উন্নত) মানের ছবি পাওয়া যায়, কিন্তু এর প্রসেসিং নয় গুণ দ্রুততর এবং এতে ৩১% কম কম্পিউটিং রিসোর্স ব্যবহৃত হয়।
এই নতুন পদ্ধতিটি দ্রুত গতিতে উচ্চ মানের ছবি তৈরি করতে সাহায্য করে।
HART-এর অন্যতম উল্লেখযোগ্য উদ্ভাবন হলো অটোরেগ্রেসিভ মডেল ব্যবহারের সময় তথ্য হারানোর সমস্যাটির সমাধান করার পদ্ধতি। ছবিকে স্বতন্ত্র টোকেনে রূপান্তর করলে প্রক্রিয়াটি দ্রুততর হয়, কিন্তু এর ফলে বস্তুর রূপরেখা, মুখের বৈশিষ্ট্য, চুল, চোখ এবং মুখের মতো গুরুত্বপূর্ণ বিবরণও হারিয়ে যায়।
HART-এর সমাধান হলো, ডিফিউশন মডেলটি যেন রেসিড্যুয়াল টোকেন ব্যবহার করে শুধুমাত্র এই খুঁটিনাটি বিষয়গুলো 'জোড়া লাগানোর' কাজেই মনোনিবেশ করে। এবং যেহেতু মডেলটি অটোরিগ্রেশনের মাধ্যমে ইতোমধ্যেই বেশিরভাগ কাজ করে ফেলেছে, তাই ডিফিউশন মডেলটির জন্য আগের মতো ৩০টিরও বেশি ধাপের পরিবর্তে মাত্র ৮টি প্রসেসিং ধাপের প্রয়োজন হয়।
"প্রসারণ মডেলটি বাস্তবায়ন করা সহজ এবং তাই এটি আরও কার্যকর," সহ-লেখক হাওতিয়ান ট্যাং ব্যাখ্যা করেছেন।
সুনির্দিষ্টভাবে বলতে গেলে, ৭০০ মিলিয়ন প্যারামিটারযুক্ত একটি অটোরিগ্রেসিভ ট্রান্সফরমার মডেল এবং ৩৭ মিলিয়ন প্যারামিটারযুক্ত একটি মাইল্ড ডিফিউশন মডেলের সমন্বয় HART-কে এমন পারফরম্যান্স অর্জন করতে সক্ষম করে যা ২ বিলিয়ন পর্যন্ত প্যারামিটারযুক্ত একটি ডিফিউশন মডেলের সমতুল্য, কিন্তু নয় গুণ দ্রুততর।
প্রাথমিকভাবে, গবেষণা দলটি ছবি তৈরির প্রক্রিয়ার একেবারে শুরুর দিকে ডিফিউশন মডেলটিকে অন্তর্ভুক্ত করার চেষ্টা করেছিল, কিন্তু এর ফলে ত্রুটি জমা হতে থাকে। সবচেয়ে কার্যকর পদ্ধতি হলো, চূড়ান্ত ধাপটি ডিফিউশন মডেলের ওপর ছেড়ে দেওয়া এবং ছবির কেবল 'অনুপস্থিত' অংশগুলোর ওপর মনোযোগ দেওয়া।
মাল্টিমিডিয়া এআই-এর ভবিষ্যৎ উন্মোচন।
গবেষণা দলটির পরবর্তী পদক্ষেপ হলো HART আর্কিটেকচারের উপর ভিত্তি করে এআই ভিশন মডেল তৈরি করা – যা একটি পরবর্তী প্রজন্মের ভাষা। যেহেতু HART পরিবর্ধনযোগ্য এবং বিভিন্ন ধরণের ডেটার (মাল্টিমোডাল) সাথে খাপ খাইয়ে নিতে পারে, তাই তারা এটিকে ভিডিও তৈরি, অডিও পূর্বাভাস এবং আরও অনেক ক্ষেত্রে প্রয়োগ করতে সক্ষম হবেন বলে আশা করছেন।
এই গবেষণাটি এমআইটি-আইবিএম ওয়াটসন এআই ল্যাব, এমআইটি-অ্যামাজন সায়েন্স সেন্টার, এমআইটি এআই হার্ডওয়্যার প্রোগ্রাম এবং মার্কিন যুক্তরাষ্ট্রের ন্যাশনাল সায়েন্স ফাউন্ডেশনসহ একাধিক সংস্থা দ্বারা অর্থায়ন করা হয়েছিল। মডেলটি প্রশিক্ষণের জন্য এনভিডিয়া জিপিইউ পরিকাঠামোও সরবরাহ করেছিল।
(এমআইটি নিউজ অনুসারে)
উৎস: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html
মন্তব্য (0)