Google Gemini przenosi sztuczną inteligencję na wyższy poziom: zmieniaj tło, fryzurę i łącz zdjęcia za pomocą jednego polecenia

Aktualizacja Google Gemini wykorzystuje model obrazu „nano banana” opracowany przez Google DeepMind. Funkcja jest teraz dostępna globalnie, zarówno dla użytkowników darmowych, jak i płatnych. Jej największą zaletą jest możliwość zachowania spójności twarzy i obiektów na obrazach, z czym często borykają się inne narzędzia AI.

„Naprawdę poprawiliśmy jakość obrazu i zdolność modelu do wykonywania instrukcji” – powiedziała Nicole Brichtova, dyrektor ds. produktów w DeepMind. „Ta aktualizacja sprawia, że edycja jest płynniejsza, a wyniki są na tyle dobre, że można je wykorzystać w dowolnym celu”.

Zachowaj „siebie” na każdym zdjęciu

Jednym z powodów, dla których zdjęcia AI wyglądają sztucznie, jest to, że drobne szczegóły ulegają zniekształceniu. Google twierdzi, że Gemini rozwiązuje ten problem, umożliwiając zmianę całej sceny przy zachowaniu tej samej twarzy i wyrazu twarzy. Możesz wypróbować nową fryzurę, zmienić kolor ściany lub dodać do kadru zwierzaka, nie martwiąc się o zniekształcenie obrazu.

Połącz zdjęcia.gif — Łączenie zdjęć z nowym kontekstem z dwóch istniejących obrazów za pomocą Google Gemini. Źródło: Google

Gemini umożliwia także przesłanie wielu zdjęć i połączenie ich w jedno, np. połączenie portretu z kotem w celu utworzenia zdjęcia, na którym oboje jedziecie drogą.

Gemini obsługuje edycję wieloetapową, pozwalając użytkownikom na dodanie każdego szczegółu do przestrzeni: od tapety, mebli, po kolor farby. Zaletą jest to, że zmienia się tylko ta część, która wymaga edycji, reszta pozostaje bez zmian.

Co więcej, Bliźnięta potrafią mieszać style między zdjęciami. Na przykład zamienić kalosze w buty z kwiatowym wzorem lub stworzyć sukienkę w motyle.

Wyścig gigantów technologicznych w tworzeniu obrazów AI

Aktualizacja Google'a pojawia się w momencie, gdy wojna o obrazowanie AI nabiera tempa. OpenAI wprowadziło wcześniej GPT-4o, które może generować obrazy bezpośrednio, i zyskało popularność dzięki serii memów w stylu Studio Ghibli. Prezes Sam Altman ujawnił, że liczba użytkowników wzrosła tak bardzo, że procesory graficzne firmy niemal się „stopiły”.

Aby dotrzymać kroku, Meta ogłosiła partnerstwo z Midjourney, podczas gdy niemiecki startup Black Forest Labs ze swoim modelem FLUX dominuje na wielu listach przebojów.

edycja wieloobrotowa.gif — Możliwości wieloetapowej edycji zdjęć w Google Gemini. Źródło: Google

Google ma nadzieję, że Gemini zniweluje tę różnicę dzięki ChatGPT. Według prezesa Sundara Pichaia, Gemini ma obecnie 450 milionów użytkowników miesięcznie, znacznie mniej niż ChatGPT, który ma ponad 700 milionów użytkowników tygodniowo.

Brichtova powiedziała, że Gemini został zaprojektowany z myślą o rzeczywistych scenariuszach, od wizualizacji salonów i ogrodów po tworzenie rozrywkowych zdjęć. Model ma lepszą „wiedzę o świecie ” i może łączyć wiele zdjęć i palet kolorów w jednym renderze.

Google nakłada jednak również surowe ograniczenia. Wszystkie wygenerowane obrazy mają wyraźny znak wodny i ukryte identyfikatory w metadanych. Firma surowo zabrania tworzenia wrażliwych obrazów bez własnej woli, aby zapobiec nadużyciom deepfake.

Google przeprosiło już wcześniej za niedokładne zdjęcia historyczne w Gemini. Tym razem firma uważa, że udało jej się znaleźć równowagę między kreatywnością a bezpieczeństwem. „Chcemy, aby użytkownicy byli kreatywni, ale nie wszystko jest dozwolone” – podkreśliła Brichtova.

Dzięki Gemini 2.5 Flash Image firma Google stawia na udoskonalenie edycji zdjęć z wykorzystaniem sztucznej inteligencji, mając nadzieję na utrzymanie dotychczasowych użytkowników i przyciągnięcie nowych w zaciętym wyścigu technologicznym z OpenAI, Meta i innymi konkurentami.

(Według TechCrunch, Tom's Guide)

Za 85 milionów VND za „mózg” Nvidia toruje drogę do ery, w której ludzie będą tworzyć roboty. Nvidia właśnie wprowadziła na rynek Jetson AGX Thor – chip nazywany „mózgiem robota”, który pozwala maszynom widzieć, myśleć i działać jak ludzie, otwierając tym samym wyścig na rynku sztucznej inteligencji w cenie 3499 USD.

Source: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html