নতুন এআই টুল ৯ গুণ দ্রুত উচ্চমানের ছবি তৈরি করে

MIT এবং NVIDIA-এর বিজ্ঞানীরা সফলভাবে HART তৈরি করেছেন - এমন একটি টুল যা ব্যতিক্রমী দ্রুত গতিতে উচ্চমানের ছবি তৈরি করে, যদিও খুব কম রিসোর্স ব্যবহার করে যে এটি সরাসরি ল্যাপটপ বা স্মার্টফোনে চালানো যেতে পারে।

VietNamNet•26/03/2025

ছবি ১.jpg

ঘোড়ায় চড়ে থাকা একজন মহাকাশচারীর এই ছবিটি দুটি ধরণের জেনারেটিভ এআই মডেল ব্যবহার করে তৈরি করা হয়েছে। ছবি: এমআইটি নিউজ

যখন গতি এবং গুণমান আর বিনিময়যোগ্য নয়

এআই ইমেজিংয়ের ক্ষেত্রে বর্তমানে দুটি প্রধান পদ্ধতি রয়েছে:

ডিফিউশন মডেলগুলি তীক্ষ্ণ, বিস্তারিত চিত্রের জন্য অনুমতি দেয়। তবে, এগুলি ধীর এবং গণনার দিক থেকে ব্যয়বহুল, প্রতিটি পিক্সেল থেকে শব্দ অপসারণের জন্য কয়েক ডজন প্রক্রিয়াকরণ পদক্ষেপের প্রয়োজন হয়।

অটোরিগ্রেসিভ মডেলগুলি অনেক দ্রুত কারণ তারা একটি ছবির ছোট অংশগুলিকে ধারাবাহিকভাবে পূর্বাভাস দেয়। কিন্তু তারা প্রায়শই কম বিশদ সহ চিত্র তৈরি করে এবং ত্রুটির ঝুঁকিতে থাকে।

HART (হাইব্রিড অটোরিগ্রেসিভ ট্রান্সফরমার) দুটিকে একত্রিত করে, "উভয় জগতের সেরা" প্রদান করে। এটি প্রথমে একটি অটোরিগ্রেসিভ মডেল ব্যবহার করে সামগ্রিক চিত্রটি বিচ্ছিন্ন টোকেনে এনকোড করে তৈরি করে। তারপর, একটি হালকা ডিফিউশন মডেল অবশিষ্ট টোকেনগুলি পূরণ করার দায়িত্ব নেয় - এনকোডিংয়ের সময় হারিয়ে যাওয়া বিস্তারিত তথ্য।

ফলস্বরূপ প্রাপ্ত চিত্রগুলি অত্যাধুনিক ডিফিউশন মডেলের সাথে তুলনীয় (অথবা আরও ভালো) মানের, তবে প্রক্রিয়াকরণে ৯ গুণ দ্রুত এবং ৩১% কম গণনামূলক সংস্থান ব্যবহার করে।

উচ্চ গতিতে মানসম্পন্ন ছবি তৈরির নতুন পদ্ধতি

HART-এর উল্লেখযোগ্য উদ্ভাবনগুলির মধ্যে একটি হল অটোরিগ্রেসিভ মডেল ব্যবহার করার সময় তথ্য হারানোর সমস্যাটি কীভাবে সমাধান করা হয়। ছবিগুলিকে বিচ্ছিন্ন টোকেনে রূপান্তর করা প্রক্রিয়াটিকে দ্রুততর করে, তবে বস্তুর প্রান্ত, মুখের বৈশিষ্ট্য, চুল, চোখ, মুখ ইত্যাদির মতো গুরুত্বপূর্ণ বিবরণও হারায়।

HART-এর সমাধান হল ডিফিউশন মডেলটি কেবলমাত্র অবশিষ্ট টোকেনের মাধ্যমে এই বিবরণগুলিকে "প্যাচ আপ" করার উপর মনোনিবেশ করবে। এবং যেহেতু অটোরিগ্রেসিভ মডেলটি ইতিমধ্যেই বেশিরভাগ কাজ সম্পন্ন করেছে, তাই ডিফিউশন মডেলটির আগের মতো 30টিরও বেশি ধাপের পরিবর্তে কেবল 8টি প্রক্রিয়াকরণ ধাপের প্রয়োজন।

"প্রসারণ মডেলটি বাস্তবায়ন করা সহজ, যা উচ্চ দক্ষতার দিকে পরিচালিত করে," সহ-লেখক হাওতিয়ান ট্যাং ব্যাখ্যা করেন।

বিশেষ করে, ৭০০ মিলিয়ন প্যারামিটার সহ একটি অটোরিগ্রেসিভ ট্রান্সফরমার মডেল এবং ৩৭ মিলিয়ন প্যারামিটার সহ একটি লাইটওয়েট ডিফিউশন মডেলের সংমিশ্রণ HART কে ২ বিলিয়ন প্যারামিটার পর্যন্ত ডিফিউশন মডেলের মতো একই কর্মক্ষমতা দেয়, কিন্তু ৯ গুণ দ্রুত।

প্রাথমিকভাবে, দলটি চিত্র তৈরির প্রক্রিয়ার প্রাথমিক পর্যায়ে ডিফিউশন মডেলকে একীভূত করার চেষ্টা করেছিল, কিন্তু এতে ত্রুটিগুলি জমে ওঠে। সবচেয়ে কার্যকর পদ্ধতি ছিল ডিফিউশন মডেলকে চূড়ান্ত ধাপটি পরিচালনা করতে দেওয়া এবং শুধুমাত্র চিত্রের "অনুপস্থিত" অংশগুলিতে মনোনিবেশ করা।

মাল্টিমিডিয়া এআই-এর ভবিষ্যৎ উন্মোচন

দলের পরবর্তী পদক্ষেপ হল HART আর্কিটেকচারের উপর ভিত্তি করে পরবর্তী প্রজন্মের ভিজ্যুয়াল-ভাষাগত AI মডেল তৈরি করা। যেহেতু HART স্কেলেবল এবং বিস্তৃত ডেটা টাইপের (মাল্টিমোডাল) সাথে খাপ খাইয়ে নিতে পারে, তাই তারা ভিডিও জেনারেশন, অডিও ভবিষ্যদ্বাণী এবং অন্যান্য অনেক ক্ষেত্রে এটি প্রয়োগ করতে সক্ষম হবে বলে আশা করে।

এই গবেষণাটি MIT-IBM ওয়াটসন এআই ল্যাব, MIT-Amazon সায়েন্স সেন্টার, MIT AI হার্ডওয়্যার প্রোগ্রাম এবং US National Science Foundation সহ বেশ কয়েকটি সংস্থার অর্থায়নে পরিচালিত হয়েছিল। NVIDIA মডেলটিকে প্রশিক্ষণের জন্য GPU অবকাঠামোও দান করেছে।

(এমআইটি নিউজ অনুসারে)

সূত্র: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html