
Το Veo3 είναι το τελευταίο μοντέλο τεχνητής νοημοσύνης της Google που κυκλοφόρησε στα τέλη Μαΐου, επιτρέποντάς της να δημιουργεί βίντεο με βάση εντολές. Αυτό το μοντέλο έχει προσελκύσει την προσοχή της κοινότητας δημιουργίας περιεχομένου επειδή της επιτρέπει να δημιουργεί βίντεο με ήχο και διάλογο, μια λειτουργία που δεν ήταν διαθέσιμη στην προηγούμενη έκδοση του μοντέλου της Google, καθιστώντας το έτσι πιο ρεαλιστικό.
Πολλοί χρήστες χρησιμοποιούν βίντεο Veo 3, τα οποία έχουν διάρκεια έως και 8 δευτερόλεπτα, για να δημιουργήσουν διαφημίσεις, βίντεο ASMR, τρέιλερ ταινιών φαντασίας και χιουμοριστικές συνεντεύξεις στο δρόμο.
Ο υποψήφιος για Όσκαρ σκηνοθέτης Ντάρεν Αρονόφσκι χρησιμοποίησε το εργαλείο για να δημιουργήσει μια ταινία μικρού μήκους με τίτλο Ancestra. Κατά τη διάρκεια συνέντευξης Τύπου, ο Διευθύνων Σύμβουλος της Google DeepMind, Ντέμις Χασάμπις, συνέκρινε το Veo 3 με μια απομάκρυνση από την εποχή του βωβού κινηματογράφου.
"Μόνιμοι" υπότιτλοι από το Veo 3
Ωστόσο, πολλοί χρήστες έχουν διαπιστώσει ότι το εργαλείο δεν λειτουργεί όπως αναμένεται. Κατά τη δημιουργία κλιπ με διαλόγους, το Veo 3 συχνά εισάγει αυτόματα άσκοπους, ακατάστατους υπότιτλους, ακόμη και όταν η εντολή δηλώνει ρητά να μην προστεθούν υπότιτλοι.
Η αφαίρεση αυτών των υπότιτλων δεν είναι απλή. Οι χρήστες αναγκάζονται να αναδημιουργήσουν το κλιπ, να ξοδέψουν «μάρκες», που σημαίνει ότι ξοδεύουν περισσότερα χρήματα για την Google, ή να χρησιμοποιήσουν ένα εξωτερικό εργαλείο για να αφαιρέσουν τους υπότιτλους ή να περικόψουν το βίντεο για να αφαιρέσουν τους υπότιτλους.
![]() |
Το Veo 3 παράγει ρεαλιστικές εικόνες, οι διάλογοι ταιριάζουν με τις κινήσεις του στόματος, αλλά οι υπότιτλοι είναι χωρίς νόημα. Φωτογραφία: Lesswrong . |
Ο Josh Woodward, αντιπρόεδρος των Google Labs και Gemini, δημοσίευσε στο X στις 9 Ιουνίου ότι η Google είχε αναπτύξει ενημερώσεις κώδικα για τη μείωση του ανεπιθύμητου περιεχομένου. Ωστόσο, περισσότερο από ένα μήνα αργότερα, οι χρήστες συνεχίζουν να αναφέρουν το πρόβλημα στο κανάλι Discord του Google Labs, δείχνοντας ότι η διόρθωση σφαλμάτων σε μεγάλα μοντέλα τεχνητής νοημοσύνης δεν είναι εύκολη.
Όπως και τα προηγούμενα μοντέλα τεχνητής νοημοσύνης δημιουργίας βίντεο της Google, το Veo 3 είναι ένα μοντέλο επί πληρωμή, με τιμή εκκίνησης 249,99 $ ανά μήνα. Για να δημιουργήσουν ένα βίντεο 8 δευτερολέπτων, οι χρήστες εισάγουν μια περιγραφή στο Flow, το Gemini ή σε άλλη πλατφόρμα. Κάθε κλιπ που δημιουργείται με το Veo 3 κοστίζει τουλάχιστον 20 μονάδες τεχνητής νοημοσύνης και οι χρήστες μπορούν να ανανεώσουν τον χρόνο τους για 2.500 μονάδες έναντι 25 $ .
Η Μόνα Βάις, εμπορική διευθύντρια, δήλωσε ότι η αναδημιουργία υλικού για την αφαίρεση υποτίτλων γίνεται ένα σημαντικό έξοδο. «Αν δημιουργήσετε μια σκηνή ομιλίας με το Veo3, περίπου το 40% του αποτελέσματος θα έχει ασυναρτησίες υπότιτλους που καθιστούν το βίντεο άχρηστο», είπε. «Είναι πολλά χρήματα για να αποκτήσεις μια σκηνή που σου αρέσει, αλλά στο τέλος είναι άχρηστη».
![]() |
Οι άσκοποι υπότιτλοι είναι δύσκολο να αφαιρεθούν στο Veo 3. Φωτογραφία: Technology Review . |
Όταν η Weiss ανέφερε το πρόβλημα στα Google Labs μέσω του Discord με την ελπίδα να λάβει επιστροφή χρημάτων για τις χαμένες μονάδες, η ομάδα υποστήριξης την μετέφερε στο επίσημο τμήμα υποστήριξης της εταιρείας. Προσφέρθηκαν να επιστρέψουν το κόστος της συνδρομής Veo 3, αλλά όχι τις μονάδες. Η Weiss αρνήθηκε επειδή η αποδοχή επιστροφής χρημάτων θα σήμαινε απώλεια πρόσβασης στο μοντέλο.
Η ομάδα υποστήριξης του Discord των Google Labs αναφέρει ότι οι υπότιτλοι μπορούν να ενεργοποιηθούν αυτόματα εάν εντοπιστεί ομιλία και ότι εργάζονται για μια λύση.
Το πρόβλημα με την προσέγγιση της Google
Ο λόγος που το Veo 3 εισάγει αυτόματα υπότιτλους προέρχεται από τα δεδομένα στα οποία έχει εκπαιδευτεί το μοντέλο.
Ενώ η Google δεν αποκάλυψε τις λεπτομέρειες των κατηγοριών δεδομένων που χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου, πιθανότατα περιελάμβανε βίντεο από το YouTube και το TikTok, πολλά από τα οποία έχουν ενσωματωμένες λεζάντες απευθείας στο καρέ, καθιστώντας δύσκολη την αφαίρεσή τους πριν χρησιμοποιηθούν ως δεδομένα εκπαίδευσης μοντέλου, σύμφωνα με τον Shuo Niu, ερευνητή σε πλατφόρμες κοινής χρήσης βίντεο και Τεχνητής Νοημοσύνης στο Πανεπιστήμιο Clark (Μασαχουσέτη, ΗΠΑ).
«Τα μοντέλα μετατροπής κειμένου σε βίντεο εκπαιδεύονται χρησιμοποιώντας ενισχυτική μάθηση για να δημιουργούν περιεχόμενο που μιμείται βίντεο που δημιουργούνται από ανθρώπους και, εάν αυτά τα βίντεο έχουν υπότιτλους, το μοντέλο μπορεί να «μάθει» ότι η προσθήκη υπότιτλων κάνει το προϊόν να μοιάζει περισσότερο με βίντεο που δημιουργούνται από ανθρώπους», εξηγεί.
![]() |
Το Veo 3 επηρεάζεται από δεδομένα εκπαίδευσης μοντέλων από βίντεο στο YouTube και το TikTok. Φωτογραφία: Mashable . |
«Βελτιώνουμε συνεχώς τις δυνατότητες δημιουργίας βίντεο, ειδικά γύρω από κείμενο, φυσική ομιλία και τέλεια συγχρονισμένο ήχο», δήλωσε εκπρόσωπος της Google. «Ενθαρρύνουμε τους χρήστες να επαναλάβουν τις εντολές τους εάν δουν ασυνεπή αποτελέσματα και να μας δώσουν σχόλια επισημαίνοντας με like ή dislike τα αποτελέσματα».
Επιπλέον, ο λόγος που το μοντέλο αγνοεί οδηγίες όπως «Χωρίς υπότιτλους» είναι επειδή οι αρνητικές δηλώσεις (που ζητούν από την Τεχνητή Νοημοσύνη να μην κάνει κάτι) είναι συχνά λιγότερο αποτελεσματικές από τις θετικές προτροπές, σύμφωνα με τον Tuhin Chakrabarty, ερευνητή συστημάτων Τεχνητής Νοημοσύνης στο Πανεπιστήμιο Stony Brook.
Για να διορθώσει πλήρως το πρόβλημα, η Google θα πρέπει να εξετάσει κάθε καρέ όλων των βίντεο που χρησιμοποιήθηκαν για την εκπαίδευση του Veo 3 και στη συνέχεια να αφαιρέσει ή να αλλάξει την ονομασία των βίντεο με τους υπότιτλους πριν από την επανεκπαίδευση του μοντέλου, κάτι που θα διαρκέσει εβδομάδες, πρόσθεσε ο Chakrabarty.
Η Κατερίνα Τσίζεκ, σκηνοθέτης ντοκιμαντέρ και καλλιτεχνική διευθύντρια στο MIT Open Documentary Lab, λέει ότι το ζήτημα δείχνει ότι η Google εξακολουθεί να είναι πρόθυμη να κυκλοφορήσει προϊόντα που δεν έχουν ολοκληρωθεί ακόμη.
«Η Google χρειάζεται μια νίκη», είπε ο Cizek. «Πρέπει να είναι οι πρώτοι που θα κυκλοφορήσουν ένα εργαλείο που μπορεί να ταιριάζει με τους ήχους των χειλιών. Και αυτό είναι πιο σημαντικό από την επίλυση του προβλήματος των υπότιτλων».
Πηγή: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html
Σχόλιο (0)