Η αναβάθμιση του Google Gemini χρησιμοποιεί το μοντέλο εικόνας «nano banana» που αναπτύχθηκε από την Google DeepMind. Η λειτουργία είναι πλέον διαθέσιμη παγκοσμίως τόσο για δωρεάν όσο και για επί πληρωμή χρήστες. Το μεγαλύτερο δυνατό σημείο της είναι η ικανότητά της να διατηρεί τα πρόσωπα και τα αντικείμενα ομοιόμορφα στις εικόνες, κάτι με το οποίο άλλα εργαλεία τεχνητής νοημοσύνης συχνά δυσκολεύονται.

«Έχουμε βελτιώσει σημαντικά την ποιότητα της εικόνας και την ικανότητα του μοντέλου να ακολουθεί οδηγίες», δήλωσε η Nicole Brichtova, επικεφαλής προϊόντος στην DeepMind. «Αυτή η ενημέρωση κάνει την επεξεργασία πιο απρόσκοπτη και τα αποτελέσματα είναι αρκετά καλά ώστε να μπορούν να χρησιμοποιηθούν για οποιονδήποτε σκοπό».

Κράτα το «εσένα» σε κάθε φωτογραφία

Ένα από τα πράγματα που κάνουν τις φωτογραφίες με τεχνητή νοημοσύνη να φαίνονται ψεύτικες είναι ότι οι μικρές λεπτομέρειες παραμορφώνονται. Η Google λέει ότι το Gemini λύνει αυτό το πρόβλημα, επιτρέποντάς σας να αλλάξετε ολόκληρη τη σκηνή διατηρώντας παράλληλα το πρόσωπο και την έκφραση ίδια. Μπορείτε να δοκιμάσετε ένα νέο χτένισμα, να αλλάξετε το χρώμα του τοίχου ή να φέρετε ένα κατοικίδιο στη σκηνή χωρίς να ανησυχείτε για παραμόρφωση της εικόνας.

Συνδυάστε φωτογραφίες μεταξύ τους.gif
Συγχώνευση φωτογραφιών με νέο πλαίσιο από δύο υπάρχουσες εικόνες χρησιμοποιώντας το Google Gemini. Πηγή: Google

Το Gemini σάς επιτρέπει επίσης να ανεβάσετε πολλές φωτογραφίες για να τις συνδυάσετε σε μία, όπως να συνδυάσετε ένα πορτρέτο με τη γάτα σας για να δημιουργήσετε μια φωτογραφία των δυο σας να κάνετε ποδήλατο μαζί στο δρόμο.

Το Gemini υποστηρίζει επεξεργασία πολλαπλών στροφών, επιτρέποντας στους χρήστες να προσθέσουν κάθε λεπτομέρεια σε έναν χώρο: από ταπετσαρία, έπιπλα, μέχρι χρώμα μπογιάς. Το θετικό είναι ότι αλλάζει μόνο το μέρος που χρειάζεται επεξεργασία, τα υπόλοιπα παραμένουν ίδια.

Επιπλέον, ο Δίδυμος μπορεί να συνδυάσει στυλ μεταξύ φωτογραφιών. Για παράδειγμα, να μετατρέψει τις αδιάβροχες μπότες σε παπούτσια με φλοράλ σχέδια ή να δημιουργήσει ένα φόρεμα με μοτίβο πεταλούδας.

Αγώνας δρόμου για τη δημιουργία εικόνας με τεχνητή νοημοσύνη μεταξύ των τεχνολογικών γιγάντων

Η αναβάθμιση της Google έρχεται καθώς ο πόλεμος της απεικόνισης με τεχνητή νοημοσύνη κλιμακώνεται. Η OpenAI είχε προηγουμένως κυκλοφορήσει το GPT-4o, το οποίο μπορεί να δημιουργεί εικόνες απευθείας, και έγινε viral με μια σειρά από memes τύπου Studio Ghibli. Ο Διευθύνων Σύμβουλος Sam Altman αποκάλυψε ότι ο αριθμός των χρηστών αυξήθηκε τόσο πολύ που οι GPU της εταιρείας σχεδόν «έλιωσαν».

Για να συμβαδίσει, η Meta ανακοίνωσε μια συνεργασία με την Midjourney, ενώ η γερμανική νεοσύστατη εταιρεία Black Forest Labs με το μοντέλο FLUX κυριαρχεί σε πολλά charts.

επεξεργασία πολλαπλών στροφών.gif
Δυνατότητες επεξεργασίας φωτογραφιών σε πολλαπλά βήματα του Google Gemini. Πηγή: Google

Η Google ελπίζει ότι η Gemini θα καταφέρει να καλύψει το χάσμα με το ChatGPT. Σύμφωνα με τον Διευθύνοντα Σύμβουλο Sundar Pichai, η Gemini έχει αυτή τη στιγμή 450 εκατομμύρια μηνιαίους χρήστες, πολύ λιγότερους από το ChatGPT, το οποίο έχει περισσότερους από 700 εκατομμύρια εβδομαδιαίους χρήστες.

Η Μπρίχτοβα είπε ότι το Gemini έχει σχεδιαστεί για σενάρια πραγματικού κόσμου, από την οπτικοποίηση καθιστικών και κήπων έως τη δημιουργία διασκεδαστικών φωτογραφιών. Το μοντέλο έχει καλύτερη «γνώση του κόσμου » και μπορεί να συνδυάσει πολλαπλές φωτογραφίες και παλέτες χρωμάτων σε μία μόνο απόδοση.

Ωστόσο, η Google θέτει επίσης αυστηρά όρια. Όλες οι εικόνες που δημιουργούνται έχουν ένα σαφές υδατογράφημα και κρυφά αναγνωριστικά στα μεταδεδομένα. Η εταιρεία απαγορεύει αυστηρά τη δημιουργία ευαίσθητων εικόνων ακούσια για την αποτροπή της κατάχρησης deepfake.

Η Google έχει ζητήσει συγγνώμη στο παρελθόν για τις ανακριβείς ιστορικές εικόνες της Gemini. Αυτή τη φορά, η εταιρεία πιστεύει ότι έχει πετύχει μια ισορροπία μεταξύ δημιουργικότητας και ασφάλειας. «Θέλουμε οι χρήστες να είναι δημιουργικοί, αλλά δεν επιτρέπονται όλα», τόνισε η Brichtova.

Με το Gemini 2.5 Flash Image, η Google στοιχηματίζει στην αναβάθμιση της εμπειρίας επεξεργασίας φωτογραφιών με τεχνητή νοημοσύνη, ελπίζοντας να διατηρήσει τους παλιούς χρήστες και να προσελκύσει νέους σε έναν σκληρό τεχνολογικό αγώνα με τις OpenAI, Meta και άλλους ανταγωνιστές.

(Σύμφωνα με το TechCrunch, Οδηγός του Tom)

Με 85 εκατομμύρια VND ανά «εγκέφαλο», η Nvidia ανοίγει το δρόμο για την εποχή της ανθρώπινης κατασκευής ρομπότ. Η Nvidia μόλις κυκλοφόρησε το Jetson AGX Thor - ένα τσιπ που ονομάζεται «εγκέφαλος ρομπότ», ικανό να βοηθά τις μηχανές να βλέπουν, να σκέφτονται και να ενεργούν σαν άνθρωποι, ανοίγοντας τον αγώνα της φυσικής τεχνητής νοημοσύνης στην τιμή των 3.499 δολαρίων ΗΠΑ.

Πηγή: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html