Το νέο εργαλείο τεχνητής νοημοσύνης δημιουργεί εικόνες υψηλής ποιότητας 9 φορές πιο γρήγορα.

Επιστήμονες από το MIT και την NVIDIA ανέπτυξαν με επιτυχία το HART – ένα εργαλείο για τη δημιουργία εικόνων υψηλής ποιότητας σε εξαιρετικά γρήγορες ταχύτητες, καταναλώνοντας τόσο λίγους πόρους που μπορεί να εκτελεστεί απευθείας σε φορητούς υπολογιστές ή smartphones.

VietNamNet•26/03/2025

Η εικόνα του αστροναύτη που ιππεύει άλογο δημιουργήθηκε συνδυάζοντας δύο τύπους μοντέλων που δημιουργούνται από τεχνητή νοημοσύνη. Φωτογραφία: MIT News

Όταν η ταχύτητα και η ποιότητα δεν αποτελούν πλέον συμβιβασμό.

Στον τομέα της δημιουργίας εικόνων με τεχνητή νοημοσύνη, υπάρχουν αυτήν τη στιγμή δύο κύριες μέθοδοι:

Τα μοντέλα διάχυσης επιτρέπουν τη δημιουργία λεπτομερών, ευκρινών εικόνων. Ωστόσο, είναι πολύ αργά και καταναλώνουν πολλούς υπολογιστικούς πόρους, επειδή απαιτούν δεκάδες βήματα επεξεργασίας για την αφαίρεση θορύβου από κάθε pixel.

Τα αυτοπαλίνδρομα μοντέλα, από την άλλη πλευρά, είναι πολύ πιο γρήγορα επειδή μπορούν να προβλέψουν μικρά μέρη μιας εικόνας διαδοχικά. Ωστόσο, συχνά παράγουν εικόνες με λιγότερες λεπτομέρειες και είναι επιρρεπή σε σφάλματα.

Το HART (υβριδικός αυτοπαλίνδρομος μετασχηματιστής) συνδυάζει και τα δύο, προσφέροντας «το καλύτερο και των δύο κόσμων». Πρώτον, χρησιμοποιεί ένα αυτοπαλίνδρομο μοντέλο για να κατασκευάσει τη συνολική εικόνα κωδικοποιώντας την σε διακριτά tokens. Στη συνέχεια, ένα ελαφρώς διάχυτο μοντέλο επεξεργάζεται περαιτέρω για να προσθέσει υπολειμματικά tokens - λεπτομέρειες που χάνονται κατά τη διαδικασία κωδικοποίησης.

Το αποτέλεσμα είναι εικόνες συγκρίσιμης (ή ανώτερης) ποιότητας σε σχέση με τα πιο προηγμένα μοντέλα διάχυσης, αλλά η επεξεργασία είναι εννέα φορές ταχύτερη και χρησιμοποιεί 31% λιγότερους υπολογιστικούς πόρους.

Αυτή η νέα προσέγγιση βοηθά στη δημιουργία εικόνων υψηλής ποιότητας με μεγάλη ταχύτητα.

Μία από τις αξιοσημείωτες καινοτομίες του HART είναι ο τρόπος με τον οποίο αντιμετωπίζει το πρόβλημα της απώλειας πληροφοριών κατά τη χρήση αυτοπαλίνδρομων μοντέλων. Η μετατροπή εικόνων σε διακριτά διακριτικά στοιχεία (tokens) επιταχύνει τη διαδικασία, αλλά έχει επίσης ως αποτέλεσμα την απώλεια σημαντικών λεπτομερειών, όπως περιγράμματα αντικειμένων, χαρακτηριστικά προσώπου, μαλλιά, μάτια και στόμα.

Η λύση του HART είναι να επικεντρωθεί το μοντέλο διάχυσης αποκλειστικά στην «επιδιόρθωση» αυτών των λεπτομερειών χρησιμοποιώντας υπολειμματικά tokens. Και επειδή το μοντέλο έχει ήδη κάνει το μεγαλύτερο μέρος της εργασίας μέσω αυτοπαλινδρόμησης, το μοντέλο διάχυσης χρειάζεται μόνο 8 βήματα επεξεργασίας αντί για πάνω από 30 όπως πριν.

«Το μοντέλο διάχυσης είναι πιο εύκολο στην εφαρμογή και επομένως πιο αποτελεσματικό», εξήγησε ο συν-συγγραφέας Haotian Tang.

Συγκεκριμένα, ο συνδυασμός ενός αυτοπαλίνδρομου μοντέλου μετασχηματιστή με 700 εκατομμύρια παραμέτρους και ενός μοντέλου ήπιας διάχυσης με 37 εκατομμύρια παραμέτρους επιτρέπει στο HART να επιτύχει απόδοση συγκρίσιμη με ένα μοντέλο διάχυσης με έως και 2 δισεκατομμύρια παραμέτρους, αλλά εννέα φορές ταχύτερη.

Αρχικά, η ερευνητική ομάδα προσπάθησε επίσης να ενσωματώσει το μοντέλο διάχυσης στα αρχικά στάδια της διαδικασίας δημιουργίας εικόνας, αλλά αυτό οδήγησε σε συσσώρευση σφαλμάτων. Η πιο αποτελεσματική προσέγγιση είναι να αφήσουμε το μοντέλο διάχυσης να χειριστεί το τελικό βήμα και να επικεντρωθούμε μόνο στα "ελλείποντα" μέρη της εικόνας.

Ξεκλειδώνοντας το μέλλον της τεχνητής νοημοσύνης πολυμέσων.

Το επόμενο βήμα της ερευνητικής ομάδας είναι η δημιουργία μοντέλων όρασης τεχνητής νοημοσύνης – μιας γλώσσας επόμενης γενιάς που βασίζεται στην αρχιτεκτονική HART. Επειδή η HART είναι επεκτάσιμη και προσαρμόσιμη σε πολλούς τύπους δεδομένων (πολυτροπικά), αναμένεται να είναι σε θέση να την εφαρμόσουν στη δημιουργία βίντεο , την πρόβλεψη ήχου και σε πολλούς άλλους τομείς.

Αυτή η έρευνα χρηματοδοτήθηκε από πολλούς οργανισμούς, συμπεριλαμβανομένων του Εργαστηρίου Τεχνητής Νοημοσύνης Watson του MIT-IBM, του Επιστημονικού Κέντρου MIT-Amazon, του Προγράμματος Υλικού Τεχνητής Νοημοσύνης του MIT και του Εθνικού Ιδρύματος Επιστημών των ΗΠΑ. Η NVIDIA παρείχε επίσης υποδομή GPU για την εκπαίδευση του μοντέλου.

(Σύμφωνα με το MIT News)

Πηγή: https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html