Vietnam.vn - Nền tảng quảng bá Việt Nam

Τεχνητές νοημοσύνης κειμένου σε βίντεο όπως η Sora

Báo Thanh niênBáo Thanh niên20/02/2024

[διαφήμιση_1]

Sora (OpenAI)

Το Sora είναι το νεότερο όνομα που ανακοινώθηκε, αλλά έχει προκαλέσει τη μεγαλύτερη αναστάτωση, εν μέρει επειδή είναι προϊόν του OpenAI - του διάσημου προγραμματιστή του ChatGPT, αλλά κυρίως λόγω της ποιότητας των βίντεο που δημιουργεί το πρόγραμμα απλώς από εντολές κειμένου.

Η επιτυχία της εταιρείας με το ChatGPT δίνει επίσης στην τεχνητή νοημοσύνη της μια βαθιά κατανόηση της γλώσσας. Τα κλιπ που καταδεικνύουν τις ικανότητες του Sora δείχνουν χαρακτήρες να κινούνται και να εκφράζονται με έναν τρόπο που είναι τόσο ρεαλιστικός όσο μια ανθρώπινη ταινία.

Video "siêu thực" do Sora tạo từ các lệnh văn bản

«Σουρεαλιστικό» βίντεο που δημιουργήθηκε από τον Sora από εντολές κειμένου

Ωστόσο, το Sora δεν είναι ακόμη διαθέσιμο για δημόσια κατανάλωση, για λόγους ασφαλείας. Το OpenAI θα λάβει προσεκτικά μέτρα πριν το διαθέσει στο ευρύ κοινό, ειδικά δεδομένου του αυξανόμενου αριθμού χρηστών Τεχνητής Νοημοσύνης που χρησιμοποιούνται για κακόβουλους σκοπούς, όπως η πλαστοπροσωπία χρηστών ή η διάπραξη εγκλημάτων.

Λουμιέρε (Google)

Το Lumiere είναι ένα προϊόν της Google, το οποίο είναι επίσης ικανό να δημιουργεί βίντεο από την εισαγωγή κειμένου, βασισμένο στο μοντέλο διάχυσης δομής STUNet (Space-Time-U-Net). Η Lumiere δεν ασχολείται με τη συρραφή στατικών καρέ, αλλά, αντίθετα, αυτή η τεχνητή νοημοσύνη αναγνωρίζει τις λεπτομέρειες στο βίντεο (χωρικό μέρος), παρακολουθεί τον τρόπο με τον οποίο κινούνται, αλλάζουν ταυτόχρονα (χρονικό μέρος), βοηθώντας έτσι την ομαλή λειτουργία της διαδικασίας.

Όπως και η Sora, η Lumiere δεν έχει κυκλοφορήσει στο κοινό. Η εταιρεία παρουσίασε αυτό το μοντέλο μόλις στα τέλη Ιανουαρίου 2024, μετά την κυκλοφορία του Gemini - του μεγάλου γλωσσικού μοντέλου που μόλις συγχρονίστηκε με την Bard.

VideoPoet (Google)

Αυτό το μεγάλο γλωσσικό μοντέλο (LLM) εκπαιδεύεται από ένα τεράστιο αποθετήριο βίντεο, φωτογραφιών, ήχου και κειμένου που αναπτύχθηκε από την Αναζήτηση Google το 2023. Το VideoPoet μπορεί να εκτελέσει διάφορες εργασίες από πηγές εισόδου όπως κείμενο, φωτογραφίες, βίντεο... για να δημιουργήσει βίντεο, να επισημάνει περιεχόμενο, να μετατρέψει βίντεο σε ήχο, να μετατρέψει στατικές εικόνες σε κινούμενα σχέδια...

Η αρχική ιδέα για το VideoPoet προέκυψε από την ανάγκη μετάφρασης οποιουδήποτε αυτοπαλίνδρομου γλωσσικού μοντέλου σε ένα σύστημα δημιουργίας βίντεο. Τα τρέχοντα αυτοπαλίνδρομα γλωσσικά μοντέλα μπορούν να επεξεργάζονται κείμενο και κώδικα προγραμματισμού όπως οι άνθρωποι, αλλά δυσκολεύονται όταν πρόκειται για βίντεο. Το VideoPoet λύνει αυτό το πρόβλημα χρησιμοποιώντας tokenization για να μεταφράσει την είσοδο από οποιαδήποτε μορφή σε μια γλώσσα που μπορεί να καταλάβει.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn

Τα εργαλεία για τη δημιουργία βίντεο από κείμενο δοκιμάζουν ως επί το πλείστον τα όριά τους

Βίντεο Emu (Meta)

Εκτός από την Google και την OpenAI, η Meta είναι επίσης μια από τις μεγάλες τεχνολογικές εταιρείες που δραστηριοποιούνται στη δημιουργία τεχνητής νοημοσύνης. Η εταιρεία που κατέχει το Facebook ανέπτυξε επίσης μια τεχνητή νοημοσύνη για τη δημιουργία βίντεο που ονομάζεται Emu Video, η οποία μπορεί να μετατρέψει εικόνες σε κείμενο και στη συνέχεια να τη χρησιμοποιήσει ως δεδομένα για τη δημιουργία κλιπ.

Το Emu Video λαμβάνει θετικές κριτικές από τους δοκιμαστές beta, με το 81% να το προτιμά έναντι του Imagen Video (Google). Πάνω από το 90% επέλεξε το μοντέλο της Meta έναντι του PYOCO (Nvidia), ακόμη και καλύτερα από το Make-A-Video της Meta (96%).

CogVideo (Πανεπιστήμιο Tsinghua, Κίνα)

Σε αντίθεση με τα παραπάνω μοντέλα, τα οποία είναι όλα προϊόντα κορυφαίων εταιρειών τεχνολογίας στον κόσμο , το CogVideo είναι μια τεχνητή νοημοσύνη που αναπτύχθηκε από μια ερευνητική ομάδα του Πανεπιστημίου Tsinghua - ενός κορυφαίου πανεπιστημίου στην Κίνα αλλά και στην Ασία. Το πρόγραμμα βασίζεται στο CogView2, ένα προ-εκπαιδευμένο μοντέλο μετατροπής κειμένου σε εικόνα.

Ο ειδικός στην τέχνη των υπολογιστών, Γκλεν Μάρσαλ, ο οποίος δοκίμασε το CogVideo, δήλωσε ότι «οι σκηνοθέτες θα μπορούσαν να χάσουν τις δουλειές τους». Το κλιπ του, με τίτλο The Crow , που δημιουργήθηκε με τη βοήθεια του CogVideo, έλαβε μεγάλο έπαινο και ήταν υποψήφιο για βραβείο της Βρετανικής Ακαδημίας Κινηματογράφου (BAFTA).


[διαφήμιση_2]
Σύνδεσμος πηγής

Σχόλιο (0)

No data
No data

Στο ίδιο θέμα

Στην ίδια κατηγορία

Ο Ήρωας της Εργασίας Τάι Χουόνγκ τιμήθηκε απευθείας με το Μετάλλιο Φιλίας από τον Ρώσο πρόεδρο Βλαντιμίρ Πούτιν στο Κρεμλίνο.
Χαμένος στο δάσος με τα νεράιδα, καθ' οδόν για την κατάκτηση του Φου Σα Φιν
Σήμερα το πρωί, η παραλιακή πόλη Quy Nhon είναι «ονειρική» στην ομίχλη
Σαγηνευτική ομορφιά του Σα Πα στην εποχή του «κυνηγιού σύννεφων»

Από τον ίδιο συγγραφέα

Κληρονομία

Εικόνα

Επιχείρηση

Σήμερα το πρωί, η παραλιακή πόλη Quy Nhon είναι «ονειρική» στην ομίχλη

Τρέχοντα γεγονότα

Πολιτικό Σύστημα

Τοπικός

Προϊόν