কয়েক মিনিটের মধ্যেই টেক্সটকে ভিডিওতে রূপান্তরকারী AI-এর 'পর্দার আড়ালে'

মাত্র কয়েকটি কমান্ডের সাহায্যে, AI পটভূমি, আলো থেকে শুরু করে প্রতিটি ছোট নড়াচড়া পর্যন্ত প্রাণবন্ত ফ্রেম তৈরি করতে পারে... এটি কীভাবে এটি করে?

Báo Tuổi Trẻ•16/08/2025

AI - Ảnh 1. — এআই টুল ব্যবহার করে ছবি তৈরি

আগে, একটি ভিডিও তৈরি করতে, আপনার একটি ক্যামেরা, একজন পরিচালক, অভিনেতা এবং ঘন্টার পর ঘন্টা সম্পাদনার প্রয়োজন হত। এখন, কীবোর্ডে মাত্র কয়েকটি শব্দের সাহায্যে, AI পটভূমি, আলো থেকে শুরু করে প্রতিটি ছোট নড়াচড়া পর্যন্ত প্রাণবন্ত, সম্পূর্ণ ফ্রেম তৈরি করতে পারে।

এই "অলৌকিক ঘটনার" পিছনে রয়েছে একগুচ্ছ অত্যাধুনিক প্রযুক্তি যা সম্পর্কে খুব কম লোকই জানে।

টেক্সট থেকে ইমেজে: প্রথম যাত্রা

Tuoi Tre Online- এর গবেষণা অনুসারে, যখন আপনি কয়েকটি বর্ণনামূলক বাক্য টাইপ করেন, তখন AI সিস্টেম প্রথমে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) প্রযুক্তি ব্যবহার করে বিষয়বস্তু "পড়বে"। এটি কেবল প্রতিটি শব্দকেই চিনতে পারে না, AI বাক্যের প্রেক্ষাপট, আবেগ এবং উপাদানগুলির মধ্যে সম্পর্ক বিশ্লেষণও করে।

উদাহরণস্বরূপ, যদি আপনি "পুরাতন শহরে বিকেলের বৃষ্টি" লেখেন, তাহলে AI বুঝতে পারবে এটি একটি বহিরঙ্গন দৃশ্য, যেখানে আবহাওয়ার উপাদান, বিকেলের আলো এবং ধ্রুপদী স্থাপত্যের পরিবেশ রয়েছে।

বিষয়বস্তু বোঝার পর, AI প্রাথমিক স্থির চিত্র তৈরির পর্যায়ে চলে যায়। এই ধাপে, একটি সাধারণ প্রযুক্তি হল ডিফিউশন মডেল, যেখানে AI একটি শব্দহীন সাদা পটভূমি থেকে প্রতিটি বিবরণ দৃশ্যমান না হওয়া পর্যন্ত ছবিটি "রঙ" করে। আলো, রঙ, রচনা এবং শৈলী সঠিক কিনা তা নিশ্চিত করার জন্য প্রতিটি পিক্সেল গণনা করা হয়।

খুব কম লোকই জানেন যে এই পর্যায়ে, AI কয়েক ডজন পরীক্ষামূলক সংস্করণ তৈরি করতে পারে এবং চালিয়ে যাওয়ার আগে সেরাটি বেছে নিতে পারে।

আরেকটি "গোপন" হলো উন্নত সিস্টেমগুলিতে বিশাল ইমেজ ডাটাবেসও অন্তর্ভুক্ত থাকে, যা অনেক উৎস থেকে প্রশিক্ষিত। এটি AI কে লক্ষ লক্ষ বিবরণের স্মৃতি দেয়, জল কীভাবে আলো প্রতিফলিত করে থেকে শুরু করে গাছগুলি বাতাসে কীভাবে ঝুঁকে পড়ে, যাতে প্রথম ফ্রেমটি যতটা সম্ভব স্বাভাবিক হয়।

কীভাবে AI ছবিগুলিকে মসৃণ গতিতে রূপান্তরিত করে

প্রথম ফ্রেমটি সম্পূর্ণ হয়ে গেলে, সবচেয়ে বড় চ্যালেঞ্জ হল এটিকে একটি ধারাবাহিক চিত্রের ক্রমানুসারে রূপান্তর করা যা গতির ধারণা দেয়। সময়ের সাথে সাথে প্রতিটি বস্তু কীভাবে পরিবর্তিত হবে তা কল্পনা করার জন্য AI গতি পূর্বাভাস মডেল ব্যবহার করে। এখানেই পদার্থবিদ্যার অ্যালগরিদম আসে, যা মাধ্যাকর্ষণ, বাতাস, জল বা ভার্চুয়াল ক্যামেরা কম্পনের মতো বিষয়গুলিকে অনুকরণ করে।

দৃশ্যগুলো যাতে তোতলানো না হয়, তার জন্য এআই ফ্রেম ইন্টারপোলেশন ব্যবহার করে। এটি দুটি মুহূর্তের মধ্যবর্তী ফ্রেমগুলিকে "কল্পনা" করে, তারপর সেগুলোকে মসৃণ গতিতে একত্রিত করে। যদি ভিডিওতে চরিত্র থাকে, তাহলে সিস্টেমটিকে প্রেক্ষাপটের সাথে মিল রেখে শরীরের নড়াচড়া, মুখের ভাব এবং চোখের নড়াচড়াও প্রক্রিয়া করতে হয়।

একটি অজানা রহস্য: প্রদর্শনের আগে, অনেক AI সিস্টেম একটি স্বয়ংক্রিয় "পোস্ট-প্রোডাকশন" ধাপও সম্পাদন করে। তারা রঙ, আলো সামঞ্জস্য করে, ঝাপসা বা গভীরতার প্রভাব যোগ করে যাতে ভিডিওটি পেশাদার ক্যামেরা দ্বারা তোলা হয়েছে বলে মনে হয়। কিছু প্ল্যাটফর্ম এমনকি উপযুক্ত পরিবেষ্টিত শব্দ এবং পটভূমি সঙ্গীত তৈরি করে, যার ফলে চূড়ান্ত পণ্যটি একটি বাস্তব দৃশ্যের মতো দেখায়।

ভাষা প্রক্রিয়াকরণ, 3D রেন্ডারিং, পদার্থবিদ্যা সিমুলেশন থেকে শুরু করে পোস্ট-প্রোডাকশন সম্পাদনা পর্যন্ত অনেক প্রযুক্তির সংমিশ্রণের জন্য ধন্যবাদ, মাত্র কয়েকটি লাইনের টেক্সট দিয়ে, ব্যবহারকারীরা একটি সম্পূর্ণ ভিডিওর মালিক হতে পারেন। এই নির্বিঘ্নতা অনেক লোককে ভাবতে বাধ্য করে যে AI হল "চিত্রগ্রহণ", কিন্তু বাস্তবে সবকিছুই শূন্য থেকে তৈরি , ফ্রেম বাই ফ্রেম, এমন গতিতে যা মানুষের সাথে মেলে না।

বিষয়ে ফিরে যান

তুয়ান ভি

সূত্র: https://tuoitre.vn/hau-truong-ai-chuyen-van-ban-thanh-video-trong-vai-phut-20250815190549144.htm