Aktualizacja Google Gemini wykorzystuje model obrazu „nano banana” opracowany przez Google DeepMind. Funkcja jest teraz dostępna globalnie, zarówno dla użytkowników darmowych, jak i płatnych. Jej największą zaletą jest możliwość zachowania spójności twarzy i obiektów na zdjęciach, z czym często borykają się inne narzędzia AI.

„Naprawdę poprawiliśmy jakość obrazów i zdolność modelu do wykonywania instrukcji” – powiedziała Nicole Brichtova, dyrektor ds. produktów w DeepMind. „Ta aktualizacja sprawia, że ​​edycje są płynniejsze, a wyniki są na tyle dobre, że można je wykorzystać w dowolnym celu”.

Zachowaj „siebie” na każdym zdjęciu

Jednym z powodów, dla których zdjęcia AI wyglądają sztucznie, jest to, że drobne szczegóły ulegają zniekształceniu. Google twierdzi, że Gemini rozwiązuje ten problem, umożliwiając zmianę całej sceny przy zachowaniu tej samej twarzy i wyrazu twarzy. Możesz wypróbować nową fryzurę, zmienić kolor ściany lub dodać do kadru zwierzaka, nie martwiąc się o zniekształcenie obrazu.

Połącz zdjęcia.gif
Łączenie zdjęć z nowym kontekstem z dwóch istniejących obrazów za pomocą Google Gemini. Źródło: Google

Gemini umożliwia także przesłanie wielu zdjęć i połączenie ich w jedno, np. połączenie portretu z kotem w celu utworzenia zdjęcia, na którym oboje jedziecie drogą.

Gemini obsługuje edycję wieloetapową, pozwalając użytkownikom na dodanie każdego szczegółu do przestrzeni: od tapety, mebli, po kolor farby. Zaletą jest to, że zmienia się tylko ta część, która wymaga edycji, reszta pozostaje bez zmian.

Co więcej, Bliźnięta potrafią mieszać style między zdjęciami. Na przykład zamienić kalosze w buty z kwiatowym wzorem lub stworzyć sukienkę w motyle.

Wyścig gigantów technologicznych w tworzeniu obrazów AI

Aktualizacja Google'a pojawia się w momencie, gdy wojna o sztuczną inteligencję w dziedzinie obrazowania zaostrza się. OpenAI wprowadziło wcześniej GPT-4o, które może generować obrazy bezpośrednio, i zyskało popularność dzięki serii memów w stylu Studio Ghibli. Prezes Sam Altman ujawnił, że liczba użytkowników wzrosła tak bardzo, że procesory graficzne firmy „prawie się stopiły”.

Aby dotrzymać kroku, Meta ogłosiła partnerstwo z Midjourney, podczas gdy niemiecki startup Black Forest Labs ze swoim modelem FLUX dominuje na wielu listach przebojów.

edycja wieloobrotowa.gif
Możliwości wieloetapowej edycji zdjęć w Google Gemini. Źródło: Google

Google ma nadzieję, że Gemini zniweluje dystans do ChatGPT. Według CEO Sundara Pichaia, Gemini ma obecnie 450 milionów użytkowników miesięcznie, daleko w tyle za ChatGPT, które ma ponad 700 milionów użytkowników tygodniowo.

Brichtova powiedziała, że ​​Gemini został zaprojektowany z myślą o rzeczywistych scenariuszach, od wizualizacji salonów i ogrodów po tworzenie rozrywkowych zdjęć. Model ma lepszą „wiedzę o świecie ” i może łączyć wiele zdjęć i palet kolorów w jednym renderze.

Google nakłada jednak również surowe ograniczenia. Wszystkie wygenerowane obrazy mają wyraźny znak wodny i ukryty w metadanych znak identyfikacyjny. Firma surowo zabrania tworzenia wrażliwych obrazów bez zezwolenia, aby zapobiec nadużyciom deepfake.

Google przeprosiło już wcześniej za niedokładne zdjęcia historyczne w Gemini. Tym razem firma uważa, że ​​udało jej się znaleźć równowagę między kreatywnością a bezpieczeństwem. „Chcemy, aby użytkownicy byli kreatywni, ale nie wszystko jest dozwolone” – podkreśliła Brichtova.

Dzięki Gemini 2.5 Flash Image firma Google stawia na udoskonalenie edycji zdjęć z wykorzystaniem sztucznej inteligencji, mając nadzieję na utrzymanie dotychczasowych użytkowników i przyciągnięcie nowych w zaciętym wyścigu technologicznym z OpenAI, Meta i innymi konkurentami.

(Według TechCrunch, Tom's Guide)

Za 85 milionów VND za „mózg” Nvidia toruje drogę do ery, w której ludzie będą tworzyć roboty. Nvidia właśnie wprowadziła na rynek Jetson AGX Thor – chip nazywany „mózgiem robota”, który pozwala maszynom widzieć, myśleć i działać jak ludzie, otwierając tym samym wyścig na fizyczną sztuczną inteligencję za 3499 USD.

Source: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html