Vietnam.vn - Nền tảng quảng bá Việt Nam

নতুন এআই টুল ৯ গুণ দ্রুত উচ্চ মানের ছবি তৈরি করে।

এমআইটি এবং এনভিডিয়ার বিজ্ঞানীরা সফলভাবে HART তৈরি করেছেন – এটি এমন একটি টুল যা অত্যন্ত দ্রুত গতিতে উচ্চ-মানের ছবি তৈরি করতে পারে এবং এত কম রিসোর্স ব্যবহার করে যে এটি সরাসরি ল্যাপটপ বা স্মার্টফোনে চালানো যায়।

VietNamNetVietNamNet26/03/2025

anh1.jpg

ঘোড়ায় চড়া মহাকাশচারীর ছবিটি দুই ধরনের এআই-নির্মিত মডেলের সমন্বয়ে তৈরি করা হয়েছে। ছবি: এমআইটি নিউজ


যখন গতি এবং গুণমানের মধ্যে আর কোনো আপস করতে হয় না।

এআই-চালিত ছবি তৈরির ক্ষেত্রে বর্তমানে দুটি প্রধান পদ্ধতি রয়েছে:

ডিফিউশন মডেলের সাহায্যে বিস্তারিত ও স্পষ্ট ছবি তৈরি করা যায়। তবে, এই মডেলগুলো খুব ধীরগতির এবং প্রচুর কম্পিউটেশনাল রিসোর্স খরচ করে, কারণ প্রতিটি পিক্সেল থেকে নয়েজ দূর করতে কয়েক ডজন প্রসেসিং ধাপের প্রয়োজন হয়।

অন্যদিকে, অটোরেগ্রেসিভ মডেলগুলো অনেক দ্রুত কাজ করে, কারণ এগুলো একটি ছবির ছোট ছোট অংশ পর্যায়ক্রমে অনুমান করতে পারে। তবে, এগুলো প্রায়শই কম বিস্তারিত ছবি তৈরি করে এবং এতে ভুলের সম্ভাবনা বেশি থাকে।

HART (হাইব্রিড অটোরিগ্রেসিভ ট্রান্সফরমার) উভয় পদ্ধতির সমন্বয়ে "উভয়ের সেরা দিকগুলো" প্রদান করে। প্রথমত, এটি একটি অটোরিগ্রেসিভ মডেল ব্যবহার করে ছবিটিকে বিচ্ছিন্ন টোকেনে এনকোড করার মাধ্যমে সামগ্রিক চিত্রটি তৈরি করে। এরপর, একটি সামান্য ডিফিউজ মডেল আরও প্রক্রিয়াকরণ করে রেসিডুয়াল টোকেন—অর্থাৎ এনকোডিং প্রক্রিয়ার সময় হারিয়ে যাওয়া খুঁটিনাটি বিষয়গুলো—যোগ করে।

এর ফলে সবচেয়ে উন্নত ডিফিউশন মডেলগুলোর সমতুল্য (বা তার চেয়েও উন্নত) মানের ছবি পাওয়া যায়, কিন্তু এর প্রসেসিং নয় গুণ দ্রুততর এবং এতে ৩১% কম কম্পিউটিং রিসোর্স ব্যবহৃত হয়।

এই নতুন পদ্ধতিটি দ্রুত গতিতে উচ্চ মানের ছবি তৈরি করতে সাহায্য করে।

HART-এর অন্যতম উল্লেখযোগ্য উদ্ভাবন হলো অটোরেগ্রেসিভ মডেল ব্যবহারের সময় তথ্য হারানোর সমস্যাটির সমাধান করার পদ্ধতি। ছবিকে স্বতন্ত্র টোকেনে রূপান্তর করলে প্রক্রিয়াটি দ্রুততর হয়, কিন্তু এর ফলে বস্তুর রূপরেখা, মুখের বৈশিষ্ট্য, চুল, চোখ এবং মুখের মতো গুরুত্বপূর্ণ বিবরণও হারিয়ে যায়।

HART-এর সমাধান হলো, ডিফিউশন মডেলটি যেন রেসিড্যুয়াল টোকেন ব্যবহার করে শুধুমাত্র এই খুঁটিনাটি বিষয়গুলো 'জোড়া লাগানোর' কাজেই মনোনিবেশ করে। এবং যেহেতু মডেলটি অটোরিগ্রেশনের মাধ্যমে ইতোমধ্যেই বেশিরভাগ কাজ করে ফেলেছে, তাই ডিফিউশন মডেলটির জন্য আগের মতো ৩০টিরও বেশি ধাপের পরিবর্তে মাত্র ৮টি প্রসেসিং ধাপের প্রয়োজন হয়।

"প্রসারণ মডেলটি বাস্তবায়ন করা সহজ এবং তাই এটি আরও কার্যকর," সহ-লেখক হাওতিয়ান ট্যাং ব্যাখ্যা করেছেন।

সুনির্দিষ্টভাবে বলতে গেলে, ৭০০ মিলিয়ন প্যারামিটারযুক্ত একটি অটোরিগ্রেসিভ ট্রান্সফরমার মডেল এবং ৩৭ মিলিয়ন প্যারামিটারযুক্ত একটি মাইল্ড ডিফিউশন মডেলের সমন্বয় HART-কে এমন পারফরম্যান্স অর্জন করতে সক্ষম করে যা ২ বিলিয়ন পর্যন্ত প্যারামিটারযুক্ত একটি ডিফিউশন মডেলের সমতুল্য, কিন্তু নয় গুণ দ্রুততর।

প্রাথমিকভাবে, গবেষণা দলটি ছবি তৈরির প্রক্রিয়ার একেবারে শুরুর দিকে ডিফিউশন মডেলটিকে অন্তর্ভুক্ত করার চেষ্টা করেছিল, কিন্তু এর ফলে ত্রুটি জমা হতে থাকে। সবচেয়ে কার্যকর পদ্ধতি হলো, চূড়ান্ত ধাপটি ডিফিউশন মডেলের ওপর ছেড়ে দেওয়া এবং ছবির কেবল 'অনুপস্থিত' অংশগুলোর ওপর মনোযোগ দেওয়া।

মাল্টিমিডিয়া এআই-এর ভবিষ্যৎ উন্মোচন।

গবেষণা দলটির পরবর্তী পদক্ষেপ হলো HART আর্কিটেকচারের উপর ভিত্তি করে এআই ভিশন মডেল তৈরি করা – যা একটি পরবর্তী প্রজন্মের ভাষা। যেহেতু HART পরিবর্ধনযোগ্য এবং বিভিন্ন ধরণের ডেটার (মাল্টিমোডাল) সাথে খাপ খাইয়ে নিতে পারে, তাই তারা এটিকে ভিডিও তৈরি, অডিও পূর্বাভাস এবং আরও অনেক ক্ষেত্রে প্রয়োগ করতে সক্ষম হবেন বলে আশা করছেন।

এই গবেষণাটি এমআইটি-আইবিএম ওয়াটসন এআই ল্যাব, এমআইটি-অ্যামাজন সায়েন্স সেন্টার, এমআইটি এআই হার্ডওয়্যার প্রোগ্রাম এবং মার্কিন যুক্তরাষ্ট্রের ন্যাশনাল সায়েন্স ফাউন্ডেশনসহ একাধিক সংস্থা দ্বারা অর্থায়ন করা হয়েছিল। মডেলটি প্রশিক্ষণের জন্য এনভিডিয়া জিপিইউ পরিকাঠামোও সরবরাহ করেছিল।

(এমআইটি নিউজ অনুসারে)


উৎস: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


মন্তব্য (0)

আপনার অনুভূতি শেয়ার করতে একটি মন্তব্য করুন!

একই বিষয়ে

একই বিভাগে

একই লেখকের

ঐতিহ্য

চিত্র

ব্যবসা

সাম্প্রতিক ঘটনাবলী

রাজনৈতিক ব্যবস্থা

স্থানীয়

পণ্য

Happy Vietnam
পর্দার আড়ালে

পর্দার আড়ালে

গরম বাতাসের বেলুন উৎসব

গরম বাতাসের বেলুন উৎসব

দীর্ঘস্থায়ী

দীর্ঘস্থায়ী