Vietnam.vn - Nền tảng quảng bá Việt Nam

সোরার মতো টেক্সট-টু-ভিডিও এআই

Báo Thanh niênBáo Thanh niên20/02/2024

[বিজ্ঞাপন_১]

সোরা (ওপেনএআই)

সোরা হল নতুন নাম যা ঘোষণা করা হয়েছে কিন্তু এটি সবচেয়ে বেশি আলোড়ন সৃষ্টি করেছে, আংশিকভাবে কারণ এটি OpenAI - ChatGPT-এর বিখ্যাত ডেভেলপারের একটি পণ্য, তবে মূলত প্রোগ্রামটি কেবল টেক্সট কমান্ড ব্যবহার করে তৈরি করা ভিডিওগুলির মানের কারণে।

ChatGPT-এর সাফল্য কোম্পানির AI-কে ভাষার গভীর ধারণাও দেয়। সোরার দক্ষতা প্রদর্শনকারী ক্লিপগুলিতে চরিত্রগুলিকে এমনভাবে চলাফেরা এবং নিজেদের প্রকাশ করতে দেখানো হয়েছে যা মানুষের তোলা ছবির মতোই প্রাণবন্ত।

Video "siêu thực" do Sora tạo từ các lệnh văn bản

টেক্সট কমান্ড ব্যবহার করে সোরা দ্বারা তৈরি "পরাবাস্তববাদী" ভিডিও।

কিন্তু নিরাপত্তার কারণে, সোরা এখনও জনসাধারণের জন্য উপলব্ধ নয়। ওপেনএআই সাধারণ জনগণের জন্য এটি উপলব্ধ করার আগে সতর্কতামূলক ব্যবস্থা গ্রহণ করবে, বিশেষ করে ক্রমবর্ধমান সংখ্যক এআই ব্যবহারকারীকে ব্যবহারকারীর ছদ্মবেশ ধারণ করা বা অপরাধ করার মতো জঘন্য উদ্দেশ্যে ব্যবহার করা হচ্ছে।

লুমিয়ের (গুগল)

লুমিয়ের হলো গুগলের একটি পণ্য, যা STUNet (Space-Time-U-Net) স্ট্রাকচার ডিফিউশন মডেলের উপর ভিত্তি করে টেক্সট ইনপুট থেকে ভিডিও তৈরি করতে সক্ষম। লুমিয়ের স্থির ফ্রেমগুলিকে একসাথে সেলাই করার ঝামেলা করে না, বরং, এই AI ভিডিওর বিশদ (স্থানিক অংশ) সনাক্ত করে, কীভাবে তারা নড়াচড়া করে, একই সাথে পরিবর্তন করে (অস্থায়ী অংশ), যার ফলে প্রক্রিয়াটি সুচারুভাবে চলতে সাহায্য করে।

সোরার মতো, লুমিয়ের জনসাধারণের জন্য প্রকাশ করা হয়নি। কোম্পানিটি ২০২৪ সালের জানুয়ারির শেষের দিকে জেমিনি লঞ্চের পর এই মডেলটি চালু করে - বার্ডের সাথে সিঙ্ক্রোনাইজ করা বৃহৎ ভাষার মডেল।

ভিডিওপয়েট (গুগল)

এই বৃহৎ ভাষা মডেল (LLM) ২০২৩ সালে Google Search দ্বারা তৈরি ভিডিও, ছবি, অডিও এবং টেক্সটের বিশাল ভাণ্ডার থেকে প্রশিক্ষিত। VideoPoet ইনপুট উৎস যেমন টেক্সট, ছবি, ভিডিও... থেকে ভিডিও তৈরি, কন্টেন্ট হাইলাইট, ভিডিওকে অডিওতে রূপান্তর, স্থির ছবিগুলিকে অ্যানিমেশনে রূপান্তর করার জন্য বিভিন্ন কাজ সম্পাদন করতে পারে...

ভিডিওপয়েটের মূল ধারণাটি এসেছে যেকোনো অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলকে ভিডিও জেনারেশন সিস্টেমে অনুবাদ করার প্রয়োজনীয়তা থেকে। বর্তমান অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলগুলি মানুষের মতো টেক্সট এবং প্রোগ্রামিং কোড প্রক্রিয়া করতে পারে, কিন্তু ভিডিওর ক্ষেত্রে সমস্যা হয়। ভিডিওপয়েট টোকেনাইজেশন ব্যবহার করে যেকোনো ফর্ম্যাট থেকে ইনপুটকে এমন একটি ভাষায় অনুবাদ করে যা এটি বুঝতে পারে।

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn

টেক্সট থেকে ভিডিও তৈরির সরঞ্জামগুলি বেশিরভাগ ক্ষেত্রেই তাদের সীমা পরীক্ষা করছে

ইমু ভিডিও (মেটা)

গুগল এবং ওপেনএআই ছাড়াও, মেটাও কৃত্রিম বুদ্ধিমত্তা তৈরিতে সক্রিয় বিগ টেক কোম্পানিগুলির মধ্যে একটি। ফেসবুকের মালিকানাধীন কোম্পানিটি ইমু ভিডিও নামে একটি ভিডিও তৈরির এআইও তৈরি করেছে, যা ছবিগুলিকে টেক্সটে রূপান্তর করতে পারে এবং তারপর ক্লিপ তৈরি করতে ডেটা হিসেবে ব্যবহার করতে পারে।

বিটা পরীক্ষকদের কাছ থেকে ইমু ভিডিও ইতিবাচক পর্যালোচনা পাচ্ছে, ৮১% ইমেজেন ভিডিও (গুগল) এর চেয়ে এটি পছন্দ করেছেন। ৯০% এরও বেশি PYOCO (এনভিডিয়া) এর চেয়ে মেটার মডেল পছন্দ করেছেন, এমনকি মেটার মেক-এ-ভিডিও (৯৬%) এর চেয়েও ভালো।

কগভিডিও (সিংহুয়া বিশ্ববিদ্যালয়, চীন)

উপরের মডেলগুলির বিপরীতে, যা বিশ্বের শীর্ষস্থানীয় প্রযুক্তি কোম্পানিগুলির সমস্ত পণ্য, CogVideo হল একটি AI যা সিংহুয়া বিশ্ববিদ্যালয়ের একটি গবেষণা দল দ্বারা তৈরি করা হয়েছে - যা চীনের পাশাপাশি এশিয়ার একটি শীর্ষস্থানীয় মর্যাদাপূর্ণ স্কুল। প্রোগ্রামটি CogView2 এর উপর ভিত্তি করে তৈরি, একটি প্রাক-প্রশিক্ষিত টেক্সট-টু-ইমেজ মডেল।

কম্পিউটার শিল্প বিশেষজ্ঞ গ্লেন মার্শাল, যিনি CogVideo পরীক্ষা করেছিলেন, তিনি বলেন, "পরিচালকরা তাদের চাকরি হারাতে পারেন।" CogVideo-এর সাহায্যে তৈরি তার ক্লিপ, " The Crow" , উচ্চ প্রশংসা পেয়েছে এবং ব্রিটিশ একাডেমি চলচ্চিত্র পুরষ্কার (BAFTA) এর জন্য মনোনীত হয়েছে।


[বিজ্ঞাপন_২]
উৎস লিঙ্ক

মন্তব্য (0)

No data
No data

একই বিষয়ে

একই বিভাগে

আজ সকালে, কুই নহন সমুদ্র সৈকত শহরটি কুয়াশার মধ্যে 'স্বপ্নময়'
'মেঘ শিকার' মৌসুমে সা পা'র মনোমুগ্ধকর সৌন্দর্য
প্রতিটি নদী - একটি যাত্রা
হো চি মিন সিটি নতুন সুযোগে এফডিআই উদ্যোগ থেকে বিনিয়োগ আকর্ষণ করে

একই লেখকের

ঐতিহ্য

চিত্র

ব্যবসায়

ডং ভ্যান স্টোন মালভূমি - বিশ্বের একটি বিরল 'জীবন্ত ভূতাত্ত্বিক জাদুঘর'

বর্তমান ঘটনাবলী

রাজনৈতিক ব্যবস্থা

স্থানীয়

পণ্য