
Veo3 হলো গুগলের সর্বশেষ এআই মডেল, যা মে মাসের শেষের দিকে চালু হয়েছে এবং এটি ব্যবহারকারীদের ভয়েস কমান্ডের মাধ্যমে ভিডিও তৈরি করার সুযোগ দেয়। এই মডেলটি কন্টেন্ট ক্রিয়েশন কমিউনিটির দৃষ্টি আকর্ষণ করেছে, কারণ এটি শব্দ এবং সংলাপসহ ভিডিও তৈরির সুযোগ দেয়—যা গুগলের মডেলের পূর্ববর্তী সংস্করণগুলোতে ছিল না—এবং এর ফলে ভিডিওগুলো আরও বাস্তবসম্মত হয়ে ওঠে।
অনেক ব্যবহারকারী ৮ সেকেন্ড পর্যন্ত দীর্ঘ Veo 3 ভিডিও ক্লিপ ব্যবহার করে বিজ্ঞাপন, ASMR ভিডিও, ফ্যান্টাসি সিনেমার ট্রেলার এবং মজাদার রাস্তার সাক্ষাৎকার তৈরি করেন।
অস্কার-মনোনীত পরিচালক ড্যারেন অ্যারোনফস্কি ‘অ্যানসেস্ট্রা’ নামের একটি স্বল্পদৈর্ঘ্য চলচ্চিত্র তৈরি করতে এই টুলটি ব্যবহার করেছেন। সংবাদ সম্মেলনে, গুগল ডিপমাইন্ডের সিইও ডেমিস হাসাবিস ভিও ৩-কে সিনেমার জগতে "নির্বাক চলচ্চিত্রের যুগ থেকে উত্তরণের" একটি পদক্ষেপ হিসেবে তুলনা করেছেন।
Veo 3 থেকে "স্থায়ী" সাবটাইটেল
তবে, অনেক ব্যবহারকারী দেখেছেন যে এই টুলটি প্রত্যাশা অনুযায়ী কাজ করে না। সংলাপসহ ক্লিপ তৈরি করার সময়, Veo 3 প্রায়শই স্বয়ংক্রিয়ভাবে অর্থহীন, এলোমেলো সাবটাইটেল যোগ করে দেয়, এমনকি যখন কমান্ডে স্পষ্টভাবে সাবটাইটেল যোগ না করার কথা বলা থাকে।
এই সাবটাইটেলগুলো সরানো সহজ নয়। ব্যবহারকারীরা ক্লিপটি পুনরায় তৈরি করতে বাধ্য হন, যার জন্য 'টোকেন' খরচ করতে হয়, যার অর্থ গুগলে আরও বেশি অর্থ ব্যয় করা। অথবা সাবটাইটেলগুলো সরানোর জন্য বাহ্যিক টুল ব্যবহার করতে হয়, কিংবা ভিডিওটি ট্রিম করতে হয়।
![]() |
Veo 3 বাস্তবসম্মত দৃশ্য এবং ঠোঁটের নড়াচড়ার সাথে সামঞ্জস্যপূর্ণ সংলাপ তৈরি করে, কিন্তু সাবটাইটেলগুলো অর্থহীন। ছবি: লেসরং । |
গুগল ল্যাবস এবং জেমিনির ভাইস প্রেসিডেন্ট জশ উডওয়ার্ড ৯ই জুন এক্স-এ পোস্ট করে জানান যে, গুগল স্প্যাম সমস্যা কমাতে প্যাচ তৈরি করেছে। কিন্তু এক মাসেরও বেশি সময় পরেও, ব্যবহারকারীরা গুগল ল্যাবসের ডিসকর্ড চ্যানেলে এই সমস্যাটির কথা জানিয়ে চলেছেন, যা প্রমাণ করে যে বড় আকারের এআই মডেলের বাগ ঠিক করা সহজ কাজ নয়।
গুগলের পূর্ববর্তী এআই ভিডিও তৈরির মডেলগুলোর মতো, ভিও ৩-ও একটি পেইড মডেল, যার মাসিক খরচ ২৪৯.৯৯ ডলার থেকে শুরু। একটি ৮-সেকেন্ডের ভিডিও তৈরি করতে, ব্যবহারকারীরা ফ্লো, জেমিনি বা অন্য কোনো প্ল্যাটফর্মে একটি বিবরণ লেখেন। ভিও ৩ ব্যবহার করে প্রতিটি ক্লিপ তৈরি করতে কমপক্ষে ২০টি এআই ক্রেডিট খরচ হয় এবং ব্যবহারকারীরা ২৫ ডলার দিয়ে টপ-আপ করে ২,৫০০ ক্রেডিট পেতে পারেন।
বাণিজ্যিক পরিচালক মোনা ওয়েইস বলেন, সাবটাইটেল সরানোর জন্য ফুটেজ নতুন করে তৈরি করা একটি বড় খরচের বিষয় হয়ে উঠছে। তিনি বলেন, “আপনি যদি Veo3 ব্যবহার করে সংলাপসহ কোনো দৃশ্য তৈরি করেন, তাহলে আউটপুটের প্রায় ৪০ শতাংশে অর্থহীন সাবটাইটেল থাকবে, যা ভিডিওটিকে ব্যবহারের অযোগ্য করে তোলে।” তিনি আরও বলেন, “পছন্দের একটি দৃশ্য পেতে অনেক টাকা খরচ হয়, কিন্তু শেষ পর্যন্ত তা ব্যবহারের অযোগ্য হয়ে পড়ে।”
![]() |
Veo 3 থেকে অর্থহীন সাবটাইটেল সরানো কঠিন। ছবি: টেকনোলজি রিভিউ । |
যখন ওয়াইস তার নষ্ট হওয়া ক্রেডিটগুলো ফেরত পাওয়ার আশায় ডিসকর্ডের মাধ্যমে গুগল ল্যাবসকে বিষয়টি জানান, তখন সাপোর্ট টিম তাকে কোম্পানির আনুষ্ঠানিক সাপোর্ট বিভাগে যোগাযোগ করতে বলে। তারা Veo 3 সাবস্ক্রিপশন ফি ফেরত দেওয়ার প্রস্তাব দিলেও ক্রেডিটগুলো ফেরত দেয়নি। ওয়াইস তা প্রত্যাখ্যান করেন, কারণ টাকা ফেরত নিলে তিনি মডেলটি ব্যবহারের সুযোগ হারাতেন।
গুগল ল্যাবস ডিসকর্ড সাপোর্ট টিম জানিয়েছে যে, ভয়েস শনাক্ত হলে সাবটাইটেল স্বয়ংক্রিয়ভাবে চালু হয়ে যেতে পারে এবং তারা এই বাগটি ঠিক করার জন্য কাজ করছে।
সমস্যাটি গুগলের কর্মপন্থা থেকেই উদ্ভূত।
Veo 3 যে স্বয়ংক্রিয়ভাবে সাবটাইটেল যোগ করে, তার কারণটি হলো সেই ডেটা যার ওপর ভিত্তি করে মডেলটিকে প্রশিক্ষণ দেওয়া হয়েছিল।
যদিও গুগল তার মডেলগুলোকে প্রশিক্ষণ দিতে ব্যবহৃত ডেটার বিভাগগুলো সম্পর্কে বিস্তারিত তথ্য প্রকাশ করেনি, তবে সম্ভবত এর মধ্যে ইউটিউব এবং টিকটকের মতো প্ল্যাটফর্মের ভিডিও অন্তর্ভুক্ত রয়েছে, যেগুলোর অনেকগুলোতে সাবটাইটেল থাকে। যুক্তরাষ্ট্রের ম্যাসাচুসেটসের ক্লার্ক ইউনিভার্সিটির ভিডিও শেয়ারিং প্ল্যাটফর্ম এবং এআই গবেষক শুও নিউ-এর মতে, এই সাবটাইটেলগুলো সরাসরি ভিডিও ফ্রেমে যুক্ত থাকে, ফলে প্রশিক্ষণ ডেটা হিসেবে ব্যবহারের আগে এগুলো অপসারণ করা কঠিন হয়ে পড়ে।
তিনি ব্যাখ্যা করেন, “টেক্সট-টু-ভিডিও মডেলগুলোকে রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে এমন কন্টেন্ট তৈরি করার জন্য প্রশিক্ষণ দেওয়া হয় যা মানুষের তৈরি ভিডিওর অনুকরণ করে, এবং যদি সেই ভিডিওগুলোতে সাবটাইটেল থাকে, তবে মডেলটি ‘শিখতে’ পারে যে সাবটাইটেল যোগ করলে পণ্যটি মানুষের তৈরি ভিডিওর মতো আরও বেশি হয়ে ওঠে।”
![]() |
ইউটিউব এবং টিকটক ভিডিও থেকে প্রাপ্ত মডেল প্রশিক্ষণের ডেটা দ্বারা ভিও ৩ প্রভাবিত হয়েছিল। ছবি: ম্যাশাবল । |
গুগলের একজন মুখপাত্র বলেছেন: “আমরা আমাদের ভিডিও তৈরির সক্ষমতা ক্রমাগত উন্নত করছি, বিশেষ করে টেক্সট, স্বাভাবিক কণ্ঠস্বর এবং নিখুঁতভাবে সমন্বিত অডিওর ক্ষেত্রে। আমরা ব্যবহারকারীদের উৎসাহিত করি, যদি তারা ফলাফলে অসামঞ্জস্যতা দেখতে পান, তবে যেন কমান্ডটি পুনরায় চেষ্টা করেন এবং লাইক বা ডিসলাইক ফিচারের মাধ্যমে আমাদের মতামত জানান।”
এছাড়াও, স্টোনি ব্রুক ইউনিভার্সিটির এআই সিস্টেমের গবেষক তুহিন চক্রবর্তীর মতে, এই মডেলটি "কোনো সাবটাইটেল নেই"-এর মতো নির্দেশ উপেক্ষা করার কারণ হলো, নেতিবাচক বিবৃতি (যা এআই-কে কিছু করতে নিষেধ করে) সাধারণত ইতিবাচক নির্দেশের চেয়ে কম কার্যকর।
সমস্যাটি পুরোপুরি সমাধান করতে, গুগলকে Veo 3-কে প্রশিক্ষণ দিতে ব্যবহৃত সমস্ত ভিডিওর প্রতিটি ফ্রেম পরীক্ষা করতে হবে এবং তারপর মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার আগে সাবটাইটেলসহ ভিডিওগুলি সরিয়ে ফেলতে বা সেগুলির লেবেল পরিবর্তন করতে হবে। এতে কয়েক সপ্তাহ সময় লাগবে, চক্রবর্তী যোগ করেন।
তথ্যচিত্র নির্মাতা এবং এমআইটি ওপেন ডকুমেন্টারি ল্যাবের শিল্প পরিচালক ক্যাটেরিনা সিজেক যুক্তি দেন যে, এই ঘটনাটি পুরোপুরি প্রস্তুত নয় এমন পণ্য প্রকাশ করার ক্ষেত্রে গুগলের সদিচ্ছাকেই তুলে ধরে।
"গুগলকে জিততে হবে," সিজেক বলেন। "ঠোঁটের নড়াচড়ার সাথে মিলিয়ে অডিও তৈরি করতে পারে এমন একটি টুল সবার আগে তাদেরই আনতে হবে। আর সাবটাইটেলের সমস্যা সমাধানের চেয়ে এটাই বেশি গুরুত্বপূর্ণ।"
উৎস: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









মন্তব্য (0)