
Veo3 הוא מודל הבינה המלאכותית האחרון של גוגל, שהושק בסוף מאי, ומאפשר למשתמשים ליצור סרטונים המבוססים על פקודות קוליות. מודל זה משך תשומת לב מצד קהילת יצירת התוכן מכיוון שהוא מאפשר יצירת סרטונים עם קול ודיאלוג, תכונה שלא הייתה זמינה בגרסאות קודמות של המודל של גוגל, ובכך הופך אותם לריאליסטיים יותר.
משתמשים רבים משתמשים בקטעי וידאו של Veo 3, באורך של עד 8 שניות, כדי ליצור פרסומות, סרטוני ASMR, טריילרים לסרטי פנטזיה וראיונות רחוב הומוריסטיים.
הבמאי המועמד לאוסקר דארן ארונופסקי השתמש בכלי כדי ליצור סרט קצר בשם Ancestra. במסיבת העיתונאים, מנכ"ל גוגל דיפמיינד, דמיס האסאביס, השווה את Veo 3 לצעד "יציאה מעידן הסרטים האילם" בקולנוע.
כתוביות ל"מתמיד" מ-Veo 3
עם זאת, משתמשים רבים גילו שכלי זה אינו פועל כמצופה. בעת יצירת קליפים עם דיאלוגים, Veo 3 לעתים קרובות מוסיף אוטומטית כתוביות חסרות משמעות ומבולבלות, גם כאשר הפקודה מציינת בבירור לא להוסיף כתוביות.
הסרת הכתוביות הללו אינה פשוטה. משתמשים נאלצים ליצור מחדש את הסרטון, להוציא "טוקנים" שמשמעותם הוצאה של יותר כסף בגוגל, או להשתמש בכלים חיצוניים כדי להסיר את הכתוביות, או לקצץ את הסרטון כדי להסיר את הכתוביות.
![]() |
Veo 3 מייצר ויזואליה ריאליסטית ודיאלוגים התואמים את תנועות השפתיים, אך הכתוביות חסרות משמעות. צילום: Lesswrong . |
ג'וש וודוורד, סגן נשיא גוגל לאבס וג'מיני, פרסם ב-X ב-9 ביוני שגוגל פיתחה תיקונים כדי להפחית את בעיית הספאם. אבל יותר מחודש לאחר מכן, משתמשים ממשיכים לדווח על בעיה זו בערוץ דיסקורד של גוגל לאבס, מה שמראה שתיקון באגים במודלים גדולים של בינה מלאכותית אינו קל.
כמו המודלים הקודמים של גוגל ליצירת סרטוני בינה מלאכותית, Veo 3 הוא מודל בתשלום, החל מ -249.99 דולר לחודש. כדי ליצור סרטון בן 8 שניות, המשתמשים מזינים תיאור ב-Flow, Gemini או פלטפורמה אחרת. כל יצירת קליפ באמצעות Veo 3 עולה לפחות 20 נקודות זכות לבינה מלאכותית, ומשתמשים יכולים להטעין ב -25 דולר עבור 2,500 נקודות זכות.
מונה וייס, במאית מסחרית, אומרת ששחזור של קטעי וידאו כדי להסיר כתוביות הופך להוצאה משמעותית. "אם תיצרו סצנה עם דיאלוגים באמצעות Veo3, כ-40% מהפלט יכילו כתוביות חסרות משמעות שיהפכו את הסרטון לבלתי שמיש", היא אומרת. "זה עולה הרבה כסף להשיג סצנה שאתם אוהבים, אבל בסופו של דבר היא הופכת לבלתי שמיש".
![]() |
קשה להסיר כתוביות חסרות משמעות ב-Veo 3. צילום: Technology Review . |
כאשר וייס דיווחה על הבעיה ל-Google Labs דרך דיסקורד בתקווה לקבל בחזרה את הקרדיטים המבוזבזים שלה, צוות התמיכה הפנה אותה למחלקת התמיכה הרשמית של החברה. הם הציעו החזר עבור דמי המנוי של Veo 3, אך לא עבור הקרדיטים. וייס סירבה מכיוון שקבלת ההחזר תביא לאובדן הגישה למודל.
צוות התמיכה של Google Labs Discord הצהיר כי ייתכן שכתוביות יופעלו אוטומטית אם יזוהה קול, והם פועלים לתיקון באג זה.
הבעיה נובעת מהגישה של גוגל.
הסיבה ש-Veo 3 מוסיף כתוביות באופן אוטומטי נובעת מהנתונים עליהם אומן המודל.
למרות שגוגל לא פרסמה פרטים על קטגוריות הנתונים המשמשות לאימון המודלים שלה, סביר להניח שהיא כוללת סרטונים מפלטפורמות כמו יוטיוב וטיקטוק, שרבים מהם מכילים כתוביות. כתוביות אלו מוטמעות ישירות בפריימים של הווידאו, מה שמקשה על הסרתן לפני השימוש בהן כנתוני אימון, כך לפי שואו ניו, חוקר פלטפורמות שיתוף וידאו ובינה מלאכותית באוניברסיטת קלארק (מסצ'וסטס, ארה"ב).
"מודלים של טקסט-לווידאו מאומנים באמצעות למידת חיזוקים כדי ליצור תוכן המחקה סרטונים מעשה ידי אדם, ואם לסרטונים אלה יש כתוביות, המודל יכול 'ללמוד' שהוספת כתוביות הופכת את המוצר לדומה יותר לסרטון מעשה ידי אדם", הסביר.
![]() |
Veo 3 הושפע מנתוני אימון מודלים מיוטיוב וטיקטוק. תמונה: Mashable . |
דובר גוגל אמר: "אנו משפרים כל הזמן את יכולות יצירת הסרטונים שלנו, במיוחד מבחינת טקסט, קול טבעי ושמע מסונכרן בצורה מושלמת. אנו מעודדים משתמשים לנסות שוב את הפקודה אם הם מוצאים את התוצאות לא עקביות ולספק לנו משוב באמצעות תכונת הלייק או הדיסלייק."
יתר על כן, הסיבה לכך שמודל זה מתעלם מהנחיות כמו "אין כתוביות" היא משום שהצהרות שליליות (המורות לבינה המלאכותית לא לעשות משהו) הן בדרך כלל פחות יעילות מהנחיות חיוביות, על פי טוהין צ'קרברטי, חוקר מערכות בינה מלאכותית באוניברסיטת סטוני ברוק.
כדי לפתור את הבעיה לחלוטין, גוגל תצטרך לבחון כל פריים בכל הסרטונים המשמשים לאימון Veo 3, ולאחר מכן להסיר או לשנות את תיוג הסרטונים עם כתוביות לפני אימון מחדש של המודל. זה ייקח שבועות, הוסיף צ'קרבארטי.
קטרינה צ'יזק, יוצרת סרטים דוקומנטריים ומנהלת אמנותית במעבדת הדוקומנטרי הפתוחה של MIT, טוענת כי בעיה זו מדגימה את נכונותה של גוגל לשחרר מוצרים שעדיין לא גמורים במלואם.
"גוגל צריכה ניצחון", הצהיר צ'יזק. "הם צריכים להיות הראשונים להוציא כלי שיכול ליצור אודיו שמתאים לתנועות שפתיים. וזה חשוב יותר מתיקון בעיית הכתוביות."
מקור: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html









תגובה (0)