Aktualizacja Google Gemini wykorzystuje model obrazu „nano banana” opracowany przez Google DeepMind. Funkcja jest teraz dostępna globalnie, zarówno dla użytkowników darmowych, jak i płatnych. Jej największą zaletą jest możliwość zachowania spójności twarzy i obiektów na zdjęciach, z czym często borykają się inne narzędzia AI.
„Naprawdę poprawiliśmy jakość obrazów i zdolność modelu do wykonywania instrukcji” – powiedziała Nicole Brichtova, dyrektor ds. produktów w DeepMind. „Ta aktualizacja sprawia, że edycje są płynniejsze, a wyniki są na tyle dobre, że można je wykorzystać w dowolnym celu”.
Zachowaj „siebie” na każdym zdjęciu
Jednym z powodów, dla których zdjęcia AI wyglądają sztucznie, jest to, że drobne szczegóły ulegają zniekształceniu. Google twierdzi, że Gemini rozwiązuje ten problem, umożliwiając zmianę całej sceny przy zachowaniu tej samej twarzy i wyrazu twarzy. Możesz wypróbować nową fryzurę, zmienić kolor ściany lub dodać do kadru zwierzaka, nie martwiąc się o zniekształcenie obrazu.

Gemini umożliwia także przesłanie wielu zdjęć i połączenie ich w jedno, np. połączenie portretu z kotem w celu utworzenia zdjęcia, na którym oboje jedziecie drogą.
Gemini obsługuje edycję wieloetapową, pozwalając użytkownikom na dodanie każdego szczegółu do przestrzeni: od tapety, mebli, po kolor farby. Zaletą jest to, że zmienia się tylko ta część, która wymaga edycji, reszta pozostaje bez zmian.
Co więcej, Bliźnięta potrafią mieszać style między zdjęciami. Na przykład zamienić kalosze w buty z kwiatowym wzorem lub stworzyć sukienkę w motyle.
Wyścig gigantów technologicznych w tworzeniu obrazów AI
Aktualizacja Google'a pojawia się w momencie, gdy wojna o sztuczną inteligencję w dziedzinie obrazowania zaostrza się. OpenAI wprowadziło wcześniej GPT-4o, które może generować obrazy bezpośrednio, i zyskało popularność dzięki serii memów w stylu Studio Ghibli. Prezes Sam Altman ujawnił, że liczba użytkowników wzrosła tak bardzo, że procesory graficzne firmy „prawie się stopiły”.
Aby dotrzymać kroku, Meta ogłosiła partnerstwo z Midjourney, podczas gdy niemiecki startup Black Forest Labs ze swoim modelem FLUX dominuje na wielu listach przebojów.

Google ma nadzieję, że Gemini zniweluje dystans do ChatGPT. Według CEO Sundara Pichaia, Gemini ma obecnie 450 milionów użytkowników miesięcznie, daleko w tyle za ChatGPT, które ma ponad 700 milionów użytkowników tygodniowo.
Brichtova powiedziała, że Gemini został zaprojektowany z myślą o rzeczywistych scenariuszach, od wizualizacji salonów i ogrodów po tworzenie rozrywkowych zdjęć. Model ma lepszą „wiedzę o świecie ” i może łączyć wiele zdjęć i palet kolorów w jednym renderze.
Google nakłada jednak również surowe ograniczenia. Wszystkie wygenerowane obrazy mają wyraźny znak wodny i ukryty w metadanych znak identyfikacyjny. Firma surowo zabrania tworzenia wrażliwych obrazów bez zezwolenia, aby zapobiec nadużyciom deepfake.
Google przeprosiło już wcześniej za niedokładne zdjęcia historyczne w Gemini. Tym razem firma uważa, że udało jej się znaleźć równowagę między kreatywnością a bezpieczeństwem. „Chcemy, aby użytkownicy byli kreatywni, ale nie wszystko jest dozwolone” – podkreśliła Brichtova.
Dzięki Gemini 2.5 Flash Image firma Google stawia na udoskonalenie edycji zdjęć z wykorzystaniem sztucznej inteligencji, mając nadzieję na utrzymanie dotychczasowych użytkowników i przyciągnięcie nowych w zaciętym wyścigu technologicznym z OpenAI, Meta i innymi konkurentami.
(Według TechCrunch, Tom's Guide)

Source: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
Komentarz (0)