Το μεγάλο πρόβλημα με το Veo 3

Αυτό το μοντέλο τεχνητής νοημοσύνης εισάγει αυτόματα ακατάστατους, χωρίς νόημα υπότιτλους σε βίντεο περισσότερο από ένα μήνα μετά την κυκλοφορία του. Αυτή η κατάσταση δείχνει ότι η Google είναι πρόθυμη να κυκλοφορήσει ημιτελή προϊόντα για να επιδείξει τις δυνατότητές της στην τεχνητή νοημοσύνη.

ZNews•19/07/2025

Το Veo3 είναι το τελευταίο μοντέλο τεχνητής νοημοσύνης της Google, το οποίο κυκλοφόρησε στα τέλη Μαΐου και επιτρέπει στους χρήστες να δημιουργούν βίντεο με βάση φωνητικές εντολές. Αυτό το μοντέλο έχει προσελκύσει την προσοχή της κοινότητας δημιουργίας περιεχομένου, καθώς επιτρέπει τη δημιουργία βίντεο με ήχο και διάλογο, μια λειτουργία που δεν ήταν διαθέσιμη σε προηγούμενες εκδόσεις του μοντέλου της Google, καθιστώντας τα έτσι πιο ρεαλιστικά.

Πολλοί χρήστες χρησιμοποιούν βίντεο κλιπ Veo 3, διάρκειας έως και 8 δευτερολέπτων, για να δημιουργήσουν διαφημίσεις, βίντεο ASMR, τρέιλερ ταινιών φαντασίας και χιουμοριστικές συνεντεύξεις στο δρόμο.

Ο υποψήφιος για Όσκαρ σκηνοθέτης Ντάρεν Αρονόφσκι χρησιμοποίησε το εργαλείο για να δημιουργήσει μια ταινία μικρού μήκους με τίτλο Ancestra. Στη συνέντευξη Τύπου, ο Διευθύνων Σύμβουλος της Google DeepMind, Ντέμις Χασάμπις, συνέκρινε το Veo 3 με ένα βήμα «έξοδο από την εποχή του βωβού κινηματογράφου» στον κινηματογράφο.

"Μόνιμοι" υπότιτλοι από το Veo 3

Ωστόσο, πολλοί χρήστες έχουν διαπιστώσει ότι αυτό το εργαλείο δεν λειτουργεί όπως αναμένεται. Κατά τη δημιουργία κλιπ με διαλόγους, το Veo 3 συχνά εισάγει αυτόματα άσκοπους, μπερδεμένους υπότιτλους, ακόμα και όταν η εντολή αναφέρει σαφώς να μην προστεθούν υπότιτλοι.

Η αφαίρεση αυτών των υπότιτλων δεν είναι απλή. Οι χρήστες αναγκάζονται να αναδημιουργήσουν το κλιπ, ξοδεύοντας "μάρκες", που σημαίνει ότι ξοδεύουν περισσότερα χρήματα στην Google, ή να χρησιμοποιήσουν εξωτερικά εργαλεία για να αφαιρέσουν τους υπότιτλους ή να περικόψουν το βίντεο για να αφαιρέσουν τους υπότιτλους.

Το Veo 3 παράγει ρεαλιστικά γραφικά και διαλόγους που ταιριάζουν με τις κινήσεις των χειλιών, αλλά οι υπότιτλοι είναι ανούσιοι. Φωτογραφία: Lesswrong .

Ο Josh Woodward, αντιπρόεδρος των Google Labs και Gemini, δημοσίευσε στο X στις 9 Ιουνίου ότι η Google είχε αναπτύξει ενημερώσεις κώδικα για τη μείωση του προβλήματος του spam. Ωστόσο, περισσότερο από ένα μήνα αργότερα, οι χρήστες συνεχίζουν να αναφέρουν αυτό το πρόβλημα στο κανάλι Discord των Google Labs, δείχνοντας ότι η διόρθωση σφαλμάτων σε μεγάλα μοντέλα τεχνητής νοημοσύνης δεν είναι εύκολη.

Όπως και τα προηγούμενα μοντέλα δημιουργίας βίντεο με τεχνητή νοημοσύνη της Google, το Veo 3 είναι ένα μοντέλο επί πληρωμή, με τιμή εκκίνησης 249,99 $ ανά μήνα. Για να δημιουργήσουν ένα βίντεο 8 δευτερολέπτων, οι χρήστες εισάγουν μια περιγραφή στο Flow, το Gemini ή σε άλλη πλατφόρμα. Κάθε δημιουργία κλιπ χρησιμοποιώντας το Veo 3 κοστίζει τουλάχιστον 20 μονάδες τεχνητής νοημοσύνης και οι χρήστες μπορούν να ανανεώσουν τον χρόνο ομιλίας τους με 25 $ για 2.500 μονάδες.

Η Μόνα Βάις, διευθύντρια διαφημίσεων, λέει ότι η αναδημιουργία πλάνων για την αφαίρεση υποτίτλων γίνεται ένα σημαντικό έξοδο. «Αν δημιουργήσετε μια σκηνή με διαλόγους χρησιμοποιώντας το Veo3, περίπου το 40% της εξόδου θα έχει άσκοπους υπότιτλους, καθιστώντας το βίντεο άχρηστο», λέει. «Κοστίζει πολλά χρήματα για να αποκτήσετε μια σκηνή που σας αρέσει, αλλά καταλήγει να είναι άχρηστη».

Μπορεί επίσης να σας αρέσει

Η Νότια Κορέα ιδρύει κέντρα παραγωγής τσιπ.VTV.vn - Σύμφωνα με το σχέδιο, η Νότια Κορέα στοχεύει να διπλασιάσει την παραγωγική της ικανότητα σε τσιπ μνήμης τα επόμενα πέντε χρόνια.

Ντακ Λακ: Παροχή πληροφοριών για την ισότητα των φύλων σε κάθε νοικοκυριό σε απομακρυσμένες περιοχές.Η επαρχία Ντακ Λακ θα χρησιμοποιήσει το τοπικό σύστημα ραδιοτηλεοπτικών μεταδόσεων σε συνεργασία με ομάδες Zalo της κοινότητας σε κατοικημένες περιοχές για τη διάδοση πληροφοριών για την ισότητα των φύλων σε κάθε νοικοκυριό, ειδικά σε απομακρυσμένες περιοχές και περιοχές που κατοικούνται από εθνοτικές μειονότητες.

Οι ομάδες και οι σελίδες θαυμαστών ενδέχεται να αποκλειστούν μόνιμα εάν διαπράξουν αυτές τις παραβάσεις.(Εφημερίδα Dan Tri) - Σελίδες κοινότητας, ομάδες κοινότητας ή κανάλια περιεχομένου ενδέχεται να επιβληθούν πρόστιμα έως και 50 εκατομμύρια VND και σε ορισμένες περιπτώσεις να αποκλειστούν οριστικά.

Οι άσκοποι υπότιτλοι είναι δύσκολο να αφαιρεθούν στο Veo 3. Φωτογραφία: Technology Review .

Όταν η Weiss ανέφερε το πρόβλημα στα Google Labs μέσω του Discord ελπίζοντας να πάρει πίσω τα χαμένα credits της, η ομάδα υποστήριξης την παρέπεμψε στο επίσημο τμήμα υποστήριξης της εταιρείας. Προσέφεραν επιστροφή χρημάτων για τη συνδρομή Veo 3, αλλά όχι για τα credits. Η Weiss αρνήθηκε επειδή η αποδοχή της επιστροφής χρημάτων θα σήμαινε απώλεια πρόσβασης στο μοντέλο.

Η ομάδα υποστήριξης του Google Labs Discord δήλωσε ότι οι υπότιτλοι ενδέχεται να ενεργοποιηθούν αυτόματα εάν εντοπιστεί φωνή και εργάζονται για να διορθώσουν αυτό το σφάλμα.

Το πρόβλημα πηγάζει από την προσέγγιση της Google.

Ο λόγος που το Veo 3 εισάγει αυτόματα υπότιτλους πηγάζει από τα δεδομένα στα οποία εκπαιδεύτηκε το μοντέλο.

Παρόλο που η Google δεν έχει δημοσιεύσει λεπτομέρειες σχετικά με τις κατηγορίες δεδομένων που χρησιμοποιούνται για την εκπαίδευση των μοντέλων της, πιθανότατα περιλαμβάνει βίντεο από πλατφόρμες όπως το YouTube και το TikTok, πολλά από τα οποία περιέχουν υπότιτλους. Αυτοί οι υπότιτλοι ενσωματώνονται απευθείας στα καρέ του βίντεο, γεγονός που καθιστά δύσκολη την αφαίρεσή τους πριν χρησιμοποιηθούν ως δεδομένα εκπαίδευσης, σύμφωνα με τον Shuo Niu, ερευνητή σε πλατφόρμες κοινής χρήσης βίντεο και Τεχνητής Νοημοσύνης στο Πανεπιστήμιο Clark (Μασαχουσέτη, ΗΠΑ).

«Τα μοντέλα μετατροπής κειμένου σε βίντεο εκπαιδεύονται χρησιμοποιώντας ενισχυτική μάθηση για να δημιουργήσουν περιεχόμενο που μιμείται βίντεο που έχουν δημιουργηθεί από ανθρώπους και, εάν αυτά τα βίντεο έχουν υπότιτλους, το μοντέλο μπορεί να «μάθει» ότι η προσθήκη υπότιτλων κάνει το προϊόν να μοιάζει περισσότερο με ένα βίντεο που έχει δημιουργηθεί από ανθρώπους», εξήγησε.

Το Veo 3 επηρεάστηκε από δεδομένα εκπαίδευσης μοντέλων από βίντεο στο YouTube και το TikTok. Εικόνα: Mashable .

Ένας εκπρόσωπος της Google δήλωσε: «Βελτιώνουμε συνεχώς τις δυνατότητες δημιουργίας βίντεο, ειδικά όσον αφορά το κείμενο, τη φυσική φωνή και τον τέλεια συγχρονισμένο ήχο. Ενθαρρύνουμε τους χρήστες να δοκιμάσουν ξανά την εντολή εάν διαπιστώσουν ότι τα αποτελέσματα είναι ασυνεπή και να μας παρέχουν σχόλια μέσω της λειτουργίας «μου αρέσει» ή «δεν μου αρέσει».

Ηνωμένες Πολιτείες - Βιετνάμ: Μην το χάσετε

Το Βιετνάμ ενθαρρύνει τις αμερικανικές επιχειρήσεις να επεκτείνουν τις επενδύσεις τους στην υψηλή τεχνολογία.Το πρωί της 26ης Ιουνίου, στην έδρα της κυβέρνησης, ο Αντιπρόεδρος της κυβέρνησης Ho Quoc Dung δέχθηκε τον κ. Jeff Place, Διευθυντή Εφοδιαστικής Αλυσίδας της Coherent Group (ΗΠΑ). Κατά τη διάρκεια της συνάντησης, ο Αντιπρόεδρος της κυβέρνησης επιβεβαίωσε ότι το Βιετνάμ ενθαρρύνει τις αμερικανικές επιχειρήσεις να επεκτείνουν τις επενδύσεις τους, ιδίως στις βιομηχανίες υψηλής τεχνολογίας, καινοτομίας και ημιαγωγών.

Ενθάρρυνση των αμερικανικών επιχειρήσεων να επεκτείνουν τις επενδύσεις τους σε τομείς υψηλής τεχνολογίας.Ο Αντιπρόεδρος της Κυβέρνησης Χο Κουόκ Ντουνγκ δήλωσε ότι το Βιετνάμ καλωσορίζει τις αμερικανικές επιχειρήσεις να συνεχίσουν να επεκτείνουν τις δραστηριότητές τους στο Βιετνάμ, ιδίως σε βιομηχανίες υψηλής τεχνολογίας και τομείς με υψηλή προστιθέμενη αξία.

Το Βιετνάμ και οι Ηνωμένες Πολιτείες ενισχύουν τη συνεργασία τους στην αντιμετώπιση των συνεπειών του πολέμου.VTV.vn - Στις 22 Ιουνίου, ο Γενικός Γραμματέας και Πρόεδρος To Lam δέχτηκε τον Αναπληρωτή Γραμματέα του Ναυτικού των ΗΠΑ Hung Cao.

Επιπλέον, ο λόγος που αυτό το μοντέλο αγνοεί προτροπές όπως "Χωρίς υπότιτλους" είναι επειδή οι αρνητικές δηλώσεις (που δίνουν εντολή στην τεχνητή νοημοσύνη να μην κάνει κάτι) είναι γενικά λιγότερο αποτελεσματικές από τις καταφατικές προτροπές, σύμφωνα με τον Tuhin Chakrabarty, ερευνητή συστημάτων τεχνητής νοημοσύνης στο Πανεπιστήμιο Stony Brook.

Για να επιλύσει πλήρως το πρόβλημα, η Google θα πρέπει να εξετάσει κάθε καρέ όλων των βίντεο που χρησιμοποιήθηκαν για την εκπαίδευση του Veo 3 και, στη συνέχεια, να αφαιρέσει ή να αλλάξει την ονομασία των βίντεο με υπότιτλους πριν από την επανεκπαίδευση του μοντέλου. Αυτό θα διαρκέσει εβδομάδες, πρόσθεσε ο Chakrabarty.

Η Κατερίνα Τσίζεκ, σκηνοθέτης ντοκιμαντέρ και καλλιτεχνική διευθύντρια στο MIT Open Documentary Lab, υποστηρίζει ότι αυτό το τεύχος καταδεικνύει την προθυμία της Google να κυκλοφορήσει προϊόντα που δεν έχουν ακόμη ολοκληρωθεί πλήρως.

«Η Google χρειάζεται μια νίκη», δήλωσε ο Cizek. «Πρέπει να είναι οι πρώτοι που θα κυκλοφορήσουν ένα εργαλείο που μπορεί να δημιουργήσει ήχο που να ταιριάζει με τις κινήσεις των χειλιών. Και αυτό είναι πιο σημαντικό από την επίλυση του προβλήματος των υποτίτλων».

Πηγή: https://znews.vn/van-de-lon-cua-veo-3-post1569402.html