সোরা (ওপেনএআই)
সোরা হল নতুন নাম যা ঘোষণা করা হয়েছে কিন্তু এটি সবচেয়ে বেশি আলোড়ন সৃষ্টি করেছে, আংশিকভাবে কারণ এটি OpenAI - ChatGPT-এর বিখ্যাত ডেভেলপারের একটি পণ্য, তবে মূলত প্রোগ্রামটি কেবল টেক্সট কমান্ড ব্যবহার করে তৈরি করা ভিডিওগুলির মানের কারণে।
ChatGPT-এর সাফল্য কোম্পানির AI-কে ভাষার গভীর ধারণাও দেয়। সোরার দক্ষতা প্রদর্শনকারী ক্লিপগুলিতে চরিত্রগুলিকে এমনভাবে চলাফেরা এবং নিজেদের প্রকাশ করতে দেখানো হয়েছে যা মানুষের তোলা ছবির মতোই প্রাণবন্ত।
টেক্সট কমান্ড ব্যবহার করে সোরা দ্বারা তৈরি "পরাবাস্তববাদী" ভিডিও।
কিন্তু নিরাপত্তার কারণে, সোরা এখনও জনসাধারণের জন্য উপলব্ধ নয়। ওপেনএআই সাধারণ জনগণের জন্য এটি উপলব্ধ করার আগে সতর্কতামূলক ব্যবস্থা গ্রহণ করবে, বিশেষ করে ক্রমবর্ধমান সংখ্যক এআই ব্যবহারকারীকে ব্যবহারকারীর ছদ্মবেশ ধারণ করা বা অপরাধ করার মতো জঘন্য উদ্দেশ্যে ব্যবহার করা হচ্ছে।
লুমিয়ের (গুগল)
লুমিয়ের হলো গুগলের একটি পণ্য, যা STUNet (Space-Time-U-Net) স্ট্রাকচার ডিফিউশন মডেলের উপর ভিত্তি করে টেক্সট ইনপুট থেকে ভিডিও তৈরি করতে সক্ষম। লুমিয়ের স্থির ফ্রেমগুলিকে একসাথে সেলাই করার ঝামেলা করে না, বরং, এই AI ভিডিওর বিশদ (স্থানিক অংশ) সনাক্ত করে, কীভাবে তারা নড়াচড়া করে, একই সাথে পরিবর্তন করে (অস্থায়ী অংশ), যার ফলে প্রক্রিয়াটি সুচারুভাবে চলতে সাহায্য করে।
সোরার মতো, লুমিয়ের জনসাধারণের জন্য প্রকাশ করা হয়নি। কোম্পানিটি ২০২৪ সালের জানুয়ারির শেষের দিকে জেমিনি লঞ্চের পর এই মডেলটি চালু করে - বার্ডের সাথে সিঙ্ক্রোনাইজ করা বৃহৎ ভাষার মডেল।
ভিডিওপয়েট (গুগল)
এই বৃহৎ ভাষা মডেল (LLM) ২০২৩ সালে Google Search দ্বারা তৈরি ভিডিও, ছবি, অডিও এবং টেক্সটের বিশাল ভাণ্ডার থেকে প্রশিক্ষিত। VideoPoet ইনপুট উৎস যেমন টেক্সট, ছবি, ভিডিও... থেকে ভিডিও তৈরি, কন্টেন্ট হাইলাইট, ভিডিওকে অডিওতে রূপান্তর, স্থির ছবিগুলিকে অ্যানিমেশনে রূপান্তর করার জন্য বিভিন্ন কাজ সম্পাদন করতে পারে...
ভিডিওপয়েটের মূল ধারণাটি এসেছে যেকোনো অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলকে ভিডিও জেনারেশন সিস্টেমে অনুবাদ করার প্রয়োজনীয়তা থেকে। বর্তমান অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলগুলি মানুষের মতো টেক্সট এবং প্রোগ্রামিং কোড প্রক্রিয়া করতে পারে, কিন্তু ভিডিওর ক্ষেত্রে সমস্যা হয়। ভিডিওপয়েট টোকেনাইজেশন ব্যবহার করে যেকোনো ফর্ম্যাট থেকে ইনপুটকে এমন একটি ভাষায় অনুবাদ করে যা এটি বুঝতে পারে।
টেক্সট থেকে ভিডিও তৈরির সরঞ্জামগুলি বেশিরভাগ ক্ষেত্রেই তাদের সীমা পরীক্ষা করছে
ইমু ভিডিও (মেটা)
গুগল এবং ওপেনএআই ছাড়াও, মেটাও কৃত্রিম বুদ্ধিমত্তা তৈরিতে সক্রিয় বিগ টেক কোম্পানিগুলির মধ্যে একটি। ফেসবুকের মালিকানাধীন কোম্পানিটি ইমু ভিডিও নামে একটি ভিডিও তৈরির এআইও তৈরি করেছে, যা ছবিগুলিকে টেক্সটে রূপান্তর করতে পারে এবং তারপর ক্লিপ তৈরি করতে ডেটা হিসেবে ব্যবহার করতে পারে।
বিটা পরীক্ষকদের কাছ থেকে ইমু ভিডিও ইতিবাচক পর্যালোচনা পাচ্ছে, ৮১% ইমেজেন ভিডিও (গুগল) এর চেয়ে এটি পছন্দ করেছেন। ৯০% এরও বেশি PYOCO (এনভিডিয়া) এর চেয়ে মেটার মডেল পছন্দ করেছেন, এমনকি মেটার মেক-এ-ভিডিও (৯৬%) এর চেয়েও ভালো।
কগভিডিও (সিংহুয়া বিশ্ববিদ্যালয়, চীন)
উপরের মডেলগুলির বিপরীতে, যা বিশ্বের শীর্ষস্থানীয় প্রযুক্তি কোম্পানিগুলির সমস্ত পণ্য, CogVideo হল একটি AI যা সিংহুয়া বিশ্ববিদ্যালয়ের একটি গবেষণা দল দ্বারা তৈরি করা হয়েছে - যা চীনের পাশাপাশি এশিয়ার একটি শীর্ষস্থানীয় মর্যাদাপূর্ণ স্কুল। প্রোগ্রামটি CogView2 এর উপর ভিত্তি করে তৈরি, একটি প্রাক-প্রশিক্ষিত টেক্সট-টু-ইমেজ মডেল।
কম্পিউটার শিল্প বিশেষজ্ঞ গ্লেন মার্শাল, যিনি CogVideo পরীক্ষা করেছিলেন, তিনি বলেন, "পরিচালকরা তাদের চাকরি হারাতে পারেন।" CogVideo-এর সাহায্যে তৈরি তার ক্লিপ, " The Crow" , উচ্চ প্রশংসা পেয়েছে এবং ব্রিটিশ একাডেমি চলচ্চিত্র পুরষ্কার (BAFTA) এর জন্য মনোনীত হয়েছে।
[বিজ্ঞাপন_২]
উৎস লিঙ্ক






মন্তব্য (0)