Vietnam.vn - Nền tảng quảng bá Việt Nam

Νέο εργαλείο τεχνητής νοημοσύνης δημιουργεί φωτογραφίες υψηλής ποιότητας, 9 φορές πιο γρήγορα

Επιστήμονες από το MIT και την NVIDIA ανέπτυξαν με επιτυχία το HART - ένα εργαλείο που δημιουργεί εικόνες υψηλής ποιότητας με εξαιρετικά γρήγορη ταχύτητα, καταναλώνοντας τόσο λίγους πόρους που μπορεί να εκτελεστεί απευθείας σε φορητό υπολογιστή ή smartphone.

VietNamNetVietNamNet26/03/2025

φωτογραφία 1.jpg

Αυτή η εικόνα ενός αστροναύτη που ιππεύει άλογο δημιουργήθηκε χρησιμοποιώντας δύο τύπους μοντέλων γενετικής τεχνητής νοημοσύνης. Φωτογραφία: MIT News


Όταν η ταχύτητα και η ποιότητα δεν αποτελούν πλέον συμβιβασμό

Στον τομέα της απεικόνισης με τεχνητή νοημοσύνη, υπάρχουν σήμερα δύο κύριες προσεγγίσεις:

Τα μοντέλα διάχυσης επιτρέπουν την παραγωγή ευκρινών, λεπτομερών εικόνων. Ωστόσο, είναι αργά και υπολογιστικά ακριβά, απαιτώντας δεκάδες βήματα επεξεργασίας για την αφαίρεση του θορύβου από κάθε εικονοστοιχείο.

Τα αυτοπαλίνδρομα μοντέλα είναι πολύ πιο γρήγορα επειδή προβλέπουν μικρά μέρη μιας εικόνας διαδοχικά. Αλλά συχνά παράγουν εικόνες με λιγότερες λεπτομέρειες και είναι επιρρεπή σε σφάλματα.

Το HART (υβριδικός αυτοπαλίνδρομος μετασχηματιστής) συνδυάζει τα δύο, παρέχοντας το «καλύτερο και των δύο κόσμων». Αρχικά χρησιμοποιεί ένα αυτοπαλίνδρομο μοντέλο για να κατασκευάσει τη συνολική εικόνα κωδικοποιώντας την σε διακριτά tokens. Στη συνέχεια, ένα ελαφρύ μοντέλο διάχυσης αναλαμβάνει να συμπληρώσει τα υπολειπόμενα tokens - τις λεπτομερείς πληροφορίες που χάνονται κατά την κωδικοποίηση.

Οι εικόνες που προκύπτουν είναι συγκρίσιμης (ή καλύτερης) ποιότητας με τα μοντέλα διάχυσης τελευταίας τεχνολογίας, αλλά είναι 9 φορές ταχύτερες στην επεξεργασία και χρησιμοποιούν 31% λιγότερους υπολογιστικούς πόρους.

Νέα προσέγγιση για τη δημιουργία ποιοτικών εικόνων με υψηλή ταχύτητα

Μία από τις αξιοσημείωτες καινοτομίες του HART είναι ο τρόπος με τον οποίο λύνει το πρόβλημα της απώλειας πληροφοριών κατά τη χρήση αυτοπαλίνδρομων μοντέλων. Η μετατροπή εικόνων σε διακριτά διακριτικά στοιχεία (tokens) επιταχύνει τη διαδικασία, αλλά χάνει επίσης σημαντικές λεπτομέρειες όπως άκρες αντικειμένων, χαρακτηριστικά προσώπου, μαλλιά, μάτια, στόματα κ.λπ.

Η λύση του HART είναι να επικεντρωθεί το μοντέλο διάχυσης μόνο στην «επιδιόρθωση» αυτών των λεπτομερειών μέσω υπολειμματικών διακριτικών. Και επειδή το αυτοπαλίνδρομο μοντέλο έχει ήδη κάνει το μεγαλύτερο μέρος της εργασίας, το μοντέλο διάχυσης χρειάζεται μόνο 8 βήματα επεξεργασίας αντί για πάνω από 30 βήματα όπως πριν.

«Το μοντέλο διάχυσης είναι πιο εύκολο στην εφαρμογή, οδηγώντας σε υψηλότερη απόδοση», εξηγεί ο συν-συγγραφέας Haotian Tang.

Συγκεκριμένα, ο συνδυασμός ενός αυτοπαλίνδρομου μοντέλου μετασχηματιστή με 700 εκατομμύρια παραμέτρους και ενός ελαφρού μοντέλου διάχυσης με 37 εκατομμύρια παραμέτρους δίνει στο HART την ίδια απόδοση με ένα μοντέλο διάχυσης με έως και 2 δισεκατομμύρια παραμέτρους, αλλά 9 φορές ταχύτερη.

Αρχικά, η ομάδα προσπάθησε επίσης να ενσωματώσει το μοντέλο διάχυσης στα πρώτα στάδια της διαδικασίας δημιουργίας εικόνας, αλλά αυτό συσσώρευσε σφάλματα. Η πιο αποτελεσματική προσέγγιση ήταν να αφήσει το μοντέλο διάχυσης να χειριστεί το τελικό βήμα και να επικεντρωθεί μόνο στα «ελλείποντα» μέρη της εικόνας.

Ανοίγοντας το μέλλον της τεχνητής νοημοσύνης πολυμέσων

Το επόμενο βήμα της ομάδας είναι η κατασκευή οπτικογλωσσικών μοντέλων τεχνητής νοημοσύνης επόμενης γενιάς με βάση την αρχιτεκτονική HART. Δεδομένου ότι το HART είναι επεκτάσιμο και προσαρμόσιμο σε ένα ευρύ φάσμα τύπων δεδομένων (πολυτροπικό), αναμένεται να είναι σε θέση να το εφαρμόσει στην παραγωγή βίντεο , την πρόβλεψη ήχου και σε πολλούς άλλους τομείς.

Αυτή η έρευνα χρηματοδοτήθηκε από διάφορους οργανισμούς, όπως το Εργαστήριο Τεχνητής Νοημοσύνης Watson του MIT-IBM, το Επιστημονικό Κέντρο MIT-Amazon, το Πρόγραμμα Υλικού Τεχνητής Νοημοσύνης του MIT και το Εθνικό Ίδρυμα Επιστημών των ΗΠΑ. Η NVIDIA δώρισε επίσης υποδομή GPU για την εκπαίδευση του μοντέλου.

(Σύμφωνα με το MIT News)


Πηγή: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html


Σχόλιο (0)

Αφήστε ένα σχόλιο για να μοιραστείτε τα συναισθήματά σας!

Στο ίδιο θέμα

Στην ίδια κατηγορία

Ο καθεδρικός ναός της Παναγίας των Παρισίων στην πόλη Χο Τσι Μινχ φωτίστηκε έντονα για να υποδεχτεί τα Χριστούγεννα του 2025
Τα κορίτσια του Ανόι «ντύνονται» όμορφα για την περίοδο των Χριστουγέννων
Λαμπερό μετά την καταιγίδα και την πλημμύρα, το χωριό χρυσάνθεμων Τετ στο Τζία Λάι ελπίζει ότι δεν θα υπάρξουν διακοπές ρεύματος για να σωθούν τα φυτά.
Η πρωτεύουσα του κίτρινου βερίκοκου στην κεντρική περιοχή υπέστη σοβαρές απώλειες μετά από διπλές φυσικές καταστροφές

Από τον ίδιο συγγραφέα

Κληρονομία

Εικόνα

Επιχείρηση

Καφετέρια στο Νταλάτ βλέπει αύξηση 300% στους πελάτες επειδή ο ιδιοκτήτης υποδύεται ρόλο σε «ταινία πολεμικών τεχνών»

Τρέχοντα γεγονότα

Πολιτικό Σύστημα

Τοπικός

Προϊόν

Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC
Footer Banner Agribank
Footer Banner LPBank
Footer Banner MBBank
Footer Banner VNVC