Veo 3 کے ساتھ بڑا مسئلہ

Veo3 گوگل کا تازہ ترین AI ماڈل ہے، جو مئی کے آخر میں لانچ کیا گیا تھا، جو صارفین کو آواز کے کمانڈز کی بنیاد پر ویڈیوز بنانے کی اجازت دیتا ہے۔ اس ماڈل نے مواد تخلیق کرنے والی کمیونٹی کی توجہ مبذول کرائی ہے کیونکہ یہ آواز اور مکالمے کے ساتھ ویڈیوز بنانے کی اجازت دیتا ہے، یہ خصوصیت گوگل کے ماڈل کے پچھلے ورژن میں دستیاب نہیں ہے، اس طرح انہیں مزید حقیقت پسندانہ بناتا ہے۔

بہت سے صارفین کمرشلز، ASMR ویڈیوز، خیالی فلموں کے ٹریلرز، اور مزاحیہ اسٹریٹ انٹرویوز بنانے کے لیے 8 سیکنڈ تک کے Veo 3 ویڈیو کلپس کا استعمال کرتے ہیں۔

آسکر نامزد ڈائریکٹر ڈیرن آرونوفسکی نے ایک مختصر فلم بنانے کے لیے ٹول کا استعمال کیا جسے اینسسٹرا کہا جاتا ہے۔ پریس کانفرنس میں، گوگل ڈیپ مائنڈ کے سی ای او ڈیمس ہاسابیس نے Veo 3 کا موازنہ سینما میں "خاموش فلمی دور سے باہر" کے قدم سے کیا۔

Veo 3 سے "مسلسل" سب ٹائٹلز

تاہم، بہت سے صارفین نے پایا ہے کہ یہ ٹول توقع کے مطابق کام نہیں کرتا ہے۔ ڈائیلاگ کے ساتھ کلپس بناتے وقت، Veo 3 اکثر خود بخود بے معنی، گڑبڑ سب ٹائٹلز داخل کرتا ہے، یہاں تک کہ جب کمانڈ واضح طور پر سب ٹائٹلز کو شامل نہ کرنے کا کہتی ہو۔

ان سب ٹائٹلز کو ہٹانا آسان نہیں ہے۔ صارفین کلپ کو دوبارہ بنانے پر مجبور ہوتے ہیں، "ٹوکن" خرچ کرتے ہیں جس کا مطلب ہے کہ گوگل پر زیادہ پیسہ خرچ کرنا، یا سب ٹائٹلز کو ہٹانے کے لیے بیرونی ٹولز کا استعمال کرنا، یا سب ٹائٹلز کو ہٹانے کے لیے ویڈیو کو تراشنا۔

Veo 3 حقیقت پسندانہ بصری اور مکالمے تیار کرتا ہے جو ہونٹوں کی حرکت سے میل کھاتا ہے، لیکن سب ٹائٹلز بے معنی ہیں۔ تصویر: کم غلط ۔

گوگل لیبز اور جیمنی کے نائب صدر جوش ووڈورڈ نے 9 جون کو X پر پوسٹ کیا کہ گوگل نے اسپام کے مسئلے کو کم کرنے کے لیے پیچ تیار کیے ہیں۔ لیکن ایک ماہ سے زیادہ بعد، صارفین گوگل لیبز کے ڈسکارڈ چینل پر اس مسئلے کی اطلاع دیتے رہتے ہیں، جس سے یہ ظاہر ہوتا ہے کہ بڑے اے آئی ماڈلز میں کیڑے کو ٹھیک کرنا آسان نہیں ہے۔

گوگل کے پچھلے AI ویڈیو بنانے والے ماڈلز کی طرح، Veo 3 ایک ادا شدہ ماڈل ہے، جس کی قیمت $249.99 فی مہینہ سے شروع ہوتی ہے۔ 8 سیکنڈ کی ویڈیو بنانے کے لیے، صارف Flow، Gemini، یا کسی اور پلیٹ فارم میں تفصیل درج کرتے ہیں۔ Veo 3 کا استعمال کرتے ہوئے ہر کلپ کی تخلیق پر کم از کم 20 AI کریڈٹ لاگت آتی ہے، اور صارفین 2500 کریڈٹ کے لیے $25 میں ٹاپ اپ کر سکتے ہیں۔

ایک کمرشل ڈائریکٹر مونا ویس کہتی ہیں کہ سب ٹائٹلز کو ہٹانے کے لیے فوٹیج کو دوبارہ بنانا ایک اہم خرچ ہوتا جا رہا ہے۔ وہ کہتی ہیں، "اگر آپ Veo3 کا استعمال کرتے ہوئے مکالمے کے ساتھ ایک منظر بناتے ہیں، تو تقریباً 40% آؤٹ پٹ میں بے معنی سب ٹائٹلز ہوں گے جو کہ ویڈیو کو ناقابل استعمال قرار دیتے ہیں۔" "اپنی پسند کے منظر کو حاصل کرنے میں بہت زیادہ رقم خرچ ہوتی ہے، لیکن یہ ناقابل استعمال ہوتا ہے۔"

Veo 3 پر بے معنی سب ٹائٹلز کو ہٹانا مشکل ہے۔ تصویر: ٹیکنالوجی کا جائزہ ۔

جب ویس نے اپنے ضائع شدہ کریڈٹس کو واپس حاصل کرنے کی امید میں Discord کے ذریعے Google Labs کو اس مسئلے کی اطلاع دی، تو سپورٹ ٹیم نے اسے کمپنی کے آفیشل سپورٹ ڈیپارٹمنٹ کے پاس بھیج دیا۔ انہوں نے Veo 3 سبسکرپشن فیس کے لیے رقم کی واپسی کی پیشکش کی، لیکن کریڈٹ کے لیے نہیں۔ ویس نے انکار کر دیا کیونکہ رقم کی واپسی کو قبول کرنے کا مطلب ماڈل تک رسائی کو کھونا ہوگا۔

گوگل لیبز ڈسکارڈ سپورٹ ٹیم نے کہا کہ آواز کا پتہ چلنے پر سب ٹائٹلز خود بخود فعال ہو سکتے ہیں، اور وہ اس مسئلے کو ٹھیک کرنے کے لیے کام کر رہے ہیں۔

مسئلہ گوگل کے نقطہ نظر سے پیدا ہوتا ہے۔

Veo 3 خود بخود ذیلی عنوانات داخل کرنے کی وجہ اس ڈیٹا سے ہوتی ہے جس پر ماڈل کو تربیت دی گئی تھی۔

اگرچہ گوگل نے اپنے ماڈلز کو تربیت دینے کے لیے استعمال ہونے والے ڈیٹا کیٹیگریز کی تفصیلات جاری نہیں کی ہیں، لیکن اس میں ممکنہ طور پر یوٹیوب اور ٹک ٹاک جیسے پلیٹ فارمز کی ویڈیوز شامل ہیں، جن میں سے بہت سے سب ٹائٹلز پر مشتمل ہے۔ کلارک یونیورسٹی (میساچوسٹس، یو ایس اے) میں ویڈیو شیئرنگ پلیٹ فارمز اور اے آئی پر تحقیق کرنے والے شو نیو کے مطابق، یہ سب ٹائٹلز براہ راست ویڈیو فریموں میں ایمبیڈ کیے گئے ہیں، جس سے انہیں تربیتی ڈیٹا کے طور پر استعمال کرنے سے پہلے ہٹانا مشکل ہو جاتا ہے۔

"ٹیکسٹ ٹو ویڈیو ماڈلز کو ایسے مواد بنانے کے لیے کمک سیکھنے کی تربیت دی جاتی ہے جو انسانوں کی بنائی ہوئی ویڈیوز کی نقل کرتا ہے، اور اگر ان ویڈیوز میں سب ٹائٹلز ہیں، تو ماڈل 'سیکھ' سکتا ہے کہ سب ٹائٹلز شامل کرنے سے پروڈکٹ انسان کی بنائی ہوئی ویڈیو کی طرح بن جاتی ہے،" انہوں نے وضاحت کی۔

Veo 3 YouTube اور TikTok ویڈیوز کے ماڈل ٹریننگ ڈیٹا سے متاثر ہوا۔ تصویر: میش ایبل ۔

گوگل کے ایک ترجمان نے کہا: "ہم مسلسل اپنی ویڈیو بنانے کی صلاحیتوں کو بہتر بنا رہے ہیں، خاص طور پر ٹیکسٹ، قدرتی آواز کی آواز، اور بالکل مطابقت پذیر آڈیو کے لحاظ سے۔ ہم صارفین کی حوصلہ افزائی کرتے ہیں کہ وہ کمانڈ کو دوبارہ آزمائیں اگر وہ نتائج کو متضاد محسوس کریں اور پسند یا ناپسند کی خصوصیت کے ذریعے ہمیں فیڈ بیک فراہم کریں۔"

مزید برآں، اسٹونی بروک یونیورسٹی میں اے آئی سسٹمز کے ایک محقق، توہین چکربرتی کے مطابق، اس ماڈل کے "کوئی سب ٹائٹلز" جیسے اشارے کو نظر انداز کرنے کی وجہ یہ ہے کہ منفی بیانات (AI کو کچھ نہ کرنے کی ہدایت) عام طور پر مثبت اشارے سے کم موثر ہوتے ہیں۔

اس مسئلے کو مکمل طور پر حل کرنے کے لیے، گوگل کو Veo 3 کو تربیت دینے کے لیے استعمال ہونے والی تمام ویڈیوز کے ہر فریم کی جانچ کرنی ہوگی، پھر ماڈل کو دوبارہ تربیت دینے سے پہلے ویڈیوز کو ہٹانا یا سب ٹائٹلز کے ساتھ دوبارہ لگانا ہوگا۔ چکربرتی نے مزید کہا کہ اس میں ہفتے لگیں گے۔

ایم آئی ٹی اوپن ڈاکیومینٹری لیب میں ایک دستاویزی فلم ساز اور آرٹ ڈائریکٹر کیٹرینا سیزیک کا استدلال ہے کہ یہ مسئلہ گوگل کی ان مصنوعات کو جاری کرنے کی خواہش کو ظاہر کرتا ہے جو ابھی مکمل طور پر ختم نہیں ہوئے ہیں۔

"گوگل کو جیت کی ضرورت ہے،" Cizek نے کہا۔ "انہیں ایک ایسا ٹول ریلیز کرنے والے پہلے فرد بننے کی ضرورت ہے جو ہونٹوں کی حرکت سے مماثل آڈیو بنا سکے۔ اور یہ سب ٹائٹل کے مسئلے کو حل کرنے سے زیادہ اہم ہے۔"

ماخذ: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html