
Veo3 گوگل کا تازہ ترین AI ماڈل ہے جو مئی کے آخر میں لانچ کیا گیا تھا، جو اسے کمانڈز پر مبنی ویڈیوز بنانے کی اجازت دیتا ہے۔ اس ماڈل نے مواد تخلیق کرنے والی کمیونٹی کی توجہ مبذول کرائی ہے کیونکہ یہ اسے آواز اور مکالمے کے ساتھ ویڈیوز بنانے کی اجازت دیتا ہے، یہ ایک خصوصیت جو گوگل کے پچھلے ماڈل ورژن میں دستیاب نہیں تھی، اس طرح اسے مزید حقیقت پسندانہ بناتا ہے۔
بہت سے صارفین Veo 3 ویڈیوز استعمال کرتے ہیں، جو کہ 8 سیکنڈ تک کے ہوتے ہیں، اشتہارات، ASMR ویڈیوز، خیالی فلموں کے ٹریلرز، اور مزاحیہ اسٹریٹ انٹرویوز بنانے کے لیے۔
آسکر نامزد ڈائریکٹر ڈیرن آرونوفسکی نے ایک مختصر فلم بنانے کے لیے ٹول کا استعمال کیا جسے اینسسٹرا کہا جاتا ہے۔ ایک پریس کانفرنس کے دوران، گوگل ڈیپ مائنڈ کے سی ای او ڈیمس ہاسابیس نے Veo 3 کا موازنہ سنیما میں خاموش دور سے دور ہونے سے کیا۔
Veo 3 سے "مسلسل" سب ٹائٹلز
تاہم، بہت سے صارفین نے محسوس کیا ہے کہ ٹول توقع کے مطابق کام نہیں کرتا ہے۔ ڈائیلاگ کے ساتھ کلپس بناتے وقت، Veo 3 اکثر بے معنی، گندے سب ٹائٹلز کو خود بخود داخل کرتا ہے، یہاں تک کہ جب کمانڈ واضح طور پر سب ٹائٹلز کو شامل نہ کرنے کا کہتا ہو۔
ان سب ٹائٹلز کو ہٹانا آسان نہیں ہے۔ صارفین کو کلپ کو دوبارہ بنانے، "ٹوکنز" خرچ کرنے پر مجبور کیا جاتا ہے جس کا مطلب ہے کہ گوگل کے لیے زیادہ پیسہ خرچ کرنا، یا سب ٹائٹلز کو ہٹانے کے لیے ایک بیرونی ٹول استعمال کرنا، یا سب ٹائٹلز کو ہٹانے کے لیے ویڈیو کو تراشنا۔
![]() |
Veo 3 جاندار تصاویر تیار کرتا ہے، ڈائیلاگ منہ کی حرکت سے میل کھاتا ہے، لیکن سب ٹائٹلز بے معنی ہیں۔ تصویر: کم غلط ۔ |
گوگل لیبز اور جیمنی کے نائب صدر جوش ووڈورڈ نے 9 جون کو X پر پوسٹ کیا کہ گوگل نے اسپام کو کم کرنے کے لیے پیچ تیار کیے ہیں۔ لیکن ایک ماہ سے زیادہ بعد، صارفین گوگل لیبز ڈسکارڈ چینل پر اس مسئلے کی اطلاع دیتے رہتے ہیں، جس سے یہ ظاہر ہوتا ہے کہ بڑے AI ماڈلز میں کیڑے کو ٹھیک کرنا آسان نہیں ہے۔
گوگل کے پچھلے ویڈیو بنانے والے AI ماڈلز کی طرح، Veo 3 ایک ادا شدہ ماڈل ہے، جس کی قیمت $249.99 فی ماہ ہے۔ 8 سیکنڈ کی ویڈیو بنانے کے لیے، صارف Flow، Gemini، یا کسی اور پلیٹ فارم میں تفصیل درج کرتے ہیں۔ Veo 3 کے ساتھ بنائے گئے ہر کلپ کی لاگت کم از کم 20 AI کریڈٹس ہے، اور صارفین $25 میں 2,500 کریڈٹ کے لیے ٹاپ اپ کر سکتے ہیں۔
ایک کمرشل ڈائریکٹر مونا ویس نے کہا کہ سب ٹائٹلز کو ہٹانے کے لیے فوٹیج کو دوبارہ بنانا ایک اہم خرچ ہوتا جا رہا ہے۔ "اگر آپ Veo3 کے ساتھ ایک بولا ہوا منظر بناتے ہیں، تو تقریباً 40% آؤٹ پٹ میں فضول سب ٹائٹلز ہوں گے جو ویڈیو کو ناقابل استعمال بنا دیتے ہیں،" اس نے کہا۔ "اپنی پسند کا منظر حاصل کرنے کے لیے بہت پیسہ لگتا ہے، لیکن آخر کار یہ ناقابل استعمال ہے۔"
![]() |
Veo 3 پر بے معنی سب ٹائٹلز کو ہٹانا مشکل ہے۔ تصویر: ٹیکنالوجی کا جائزہ ۔ |
جب ویس نے ضائع شدہ کریڈٹس کی واپسی کی امید میں Discord کے ذریعے Google Labs کو اس مسئلے کی اطلاع دی، تو سپورٹ ٹیم نے اسے کمپنی کے آفیشل سپورٹ ڈیپارٹمنٹ میں منتقل کر دیا۔ انہوں نے Veo 3 سبسکرپشن کی قیمت واپس کرنے کی پیشکش کی، لیکن کریڈٹ نہیں۔ ویس نے انکار کر دیا کیونکہ رقم کی واپسی کو قبول کرنے کا مطلب ماڈل تک رسائی کو کھونا ہوگا۔
گوگل لیبز کی ڈسکارڈ سپورٹ ٹیم کا کہنا ہے کہ اگر اسپیچ کا پتہ چلا تو کیپشنز خود بخود فعال ہو سکتے ہیں، اور وہ ٹھیک کرنے پر کام کر رہے ہیں۔
گوگل کے نقطہ نظر کے ساتھ مسئلہ
Veo 3 خودکار طور پر سب ٹائٹلز داخل کرنے کی وجہ اس ڈیٹا سے آتی ہے جس پر ماڈل کو تربیت دی جاتی ہے۔
اگرچہ گوگل نے ماڈل کی تربیت کے لیے استعمال ہونے والے ڈیٹا کیٹیگریز کی تفصیلات ظاہر نہیں کیں، لیکن اس میں ممکنہ طور پر YouTube اور TikTok کی ویڈیوز شامل ہیں، جن میں سے بہت سے کیپشنز براہ راست فریم میں ایمبیڈ کیے گئے ہیں، جس کی وجہ سے ماڈل ٹریننگ ڈیٹا کے طور پر استعمال ہونے سے پہلے انہیں ہٹانا مشکل ہو گیا ہے، ویڈیو شیئرنگ پلیٹ فارمز اور AI کے محقق کلارک یونیورسٹی (میساچوسٹس، USA) میں شو نیو کے مطابق۔
"ٹیکسٹ ٹو ویڈیو ماڈلز کو تربیت دی جاتی ہے کہ وہ مواد تیار کرنے کے لیے کمک سیکھنے کا استعمال کریں جو انسانی تخلیق کردہ ویڈیوز کی نقل کرتا ہے، اور اگر ان ویڈیوز میں سب ٹائٹلز ہیں، تو ماڈل 'سیکھ' سکتا ہے کہ سب ٹائٹلز شامل کرنے سے پروڈکٹ زیادہ انسانی تخلیق کردہ ویڈیوز کی طرح بن جاتا ہے،" وہ بتاتے ہیں۔
![]() |
Veo 3 YouTube اور TikTok ویڈیوز کے ماڈل ٹریننگ ڈیٹا سے متاثر ہے۔ تصویر: Mashable |
گوگل کے ایک ترجمان نے کہا، "ہم مسلسل اپنی ویڈیو بنانے کی صلاحیتوں کو بہتر بنا رہے ہیں، خاص طور پر ٹیکسٹ، فطری تقریر، اور بالکل مطابقت پذیر آڈیو کے ارد گرد،" گوگل کے ترجمان نے کہا۔ "ہم صارفین کی حوصلہ افزائی کرتے ہیں کہ اگر وہ متضاد نتائج دیکھیں تو اپنے کمانڈز کو دوبارہ آزمائیں اور نتائج کو پسند یا ناپسند کرکے ہمیں رائے دیں۔"
مزید برآں، اسٹونی بروک یونیورسٹی میں اے آئی سسٹمز کے ایک محقق توہین چکربرتی کے مطابق، ماڈل کی جانب سے "کوئی سب ٹائٹلز" جیسی ہدایات کو نظر انداز کرنے کی وجہ یہ ہے کہ منفی بیانات (اے آئی کو کچھ نہ کرنے کو کہتے) اکثر مثبت اشارے سے کم موثر ہوتے ہیں۔
چکربرتی نے مزید کہا کہ اس مسئلے کو مکمل طور پر حل کرنے کے لیے، گوگل کو Veo 3 کو تربیت دینے کے لیے استعمال ہونے والی تمام ویڈیوز کے ہر فریم کی جانچ کرنی ہوگی، پھر ماڈل کو دوبارہ تربیت دینے سے پہلے کیپشن والی ویڈیوز کو ہٹانا یا ریبل کرنا ہوگا، جس میں ہفتے لگیں گے۔
ایم آئی ٹی اوپن ڈاکیومینٹری لیب میں ایک دستاویزی فلم ساز اور آرٹ ڈائریکٹر کیٹرینا سیزیک کہتی ہیں کہ اس مسئلے سے ظاہر ہوتا ہے کہ گوگل اب بھی ایسی مصنوعات جاری کرنے کے لیے تیار ہے جو ابھی مکمل نہیں ہوئی ہیں۔
"گوگل کو جیت کی ضرورت ہے،" Cizek نے کہا۔ "انہیں سب سے پہلے ایک ایسا ٹول جاری کرنے کی ضرورت ہے جو ہونٹوں کی آوازوں سے مماثل ہو سکے۔ اور یہ کیپشن کے مسئلے کو حل کرنے سے زیادہ اہم ہے۔"
ماخذ: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html
تبصرہ (0)