Aktualizace Google Gemini využívá obrazový model „nano banán“ vyvinutý společností Google DeepMind. Tato funkce je nyní dostupná globálně pro bezplatné i placené uživatele. Její největší silnou stránkou je schopnost zachovat konzistenci obličejů a objektů na fotografiích, což je něco, s čím se jiné nástroje umělé inteligence často potýkají.

„Opravdu jsme vylepšili kvalitu obrázků a schopnost modelu řídit se pokyny,“ řekla Nicole Brichtova, produktová vedoucí společnosti DeepMind. „Tato aktualizace umožňuje plynulejší úpravy a výsledky jsou dostatečně dobré pro použití k jakémukoli účelu.“

Mějte „vy“ na každé fotce

Jednou z věcí, která způsobuje, že fotografie vytvořené umělou inteligencí vypadají falešně, je zkreslení malých detailů. Google tvrdí, že Gemini tento problém řeší a umožňuje změnit celou scénu, aniž by se museli obávat zkreslení obrazu. Můžete si vyzkoušet nový účes, změnit barvu zdi nebo do scény přivést domácího mazlíčka, aniž byste se museli obávat zkreslení obrazu.

Spojení fotografií dohromady.gif
Sloučení fotografií s novým kontextem ze dvou existujících obrázků pomocí Google Gemini. Zdroj: Google

Gemini vám také umožňuje nahrát více fotografií a sloučit je do jedné, například zkombinováním portrétu s vaší kočkou vytvoříte fotografii, na které jedete společně na silnici.

Gemini podporuje vícenásobné úpravy, což uživatelům umožňuje přidat do prostoru každý detail: od tapety, nábytku až po barvu. Výhodou je, že se mění pouze ta část, kterou je třeba upravit, zbytek zůstává stejný.

Blíženci navíc dokáží kombinovat styly mezi fotografiemi. Například proměnit holínky v boty s květinovým vzorem nebo si vytvořit šaty s motýlím vzorem.

Závod mezi technologickými giganty v tvorbě obrazů s umělou inteligencí

Vylepšení Googlu přichází v době, kdy se vyostřují války v oblasti zobrazování s využitím umělé inteligence. OpenAI dříve spustila GPT-4o, který dokáže generovat obrázky přímo, a stal se virálním díky sérii memů ve stylu Studia Ghibli. Generální ředitel Sam Altman prozradil, že počet uživatelů se natolik zvýšil, že se grafické procesory společnosti „téměř roztavily“.

Aby Meta držela krok, oznámila partnerství se společností Midjourney, zatímco německý startup Black Forest Labs se svým modelem FLUX dominuje mnoha žebříčkům.

víceotáčková editace.gif
Vícekrokové možnosti úpravy fotografií v Google Gemini. Zdroj: Google

Google doufá, že Gemini dokáže překlenout rozdíl díky ChatGPT. Gemini má v současnosti podle generálního ředitele Sundara Pichaie 450 milionů uživatelů měsíčně, což je výrazně méně než ChatGPT, který má více než 700 milionů uživatelů týdně.

Brichtova uvedla, že Gemini je navržen pro reálné scénáře, od vizualizace obývacích pokojů a zahrad až po tvorbu zábavných fotografií. Model má lepší „znalost světa “ a dokáže kombinovat více fotografií a barevných palet do jednoho renderu.

Google však také stanovuje přísná omezení. Všechny generované obrázky mají jasný vodoznak a identifikační značku skrytou v metadatech. Společnost přísně zakazuje vytváření citlivých obrázků bez povolení, aby se zabránilo zneužívání deepfake.

Google se již dříve omluvil za nepřesné historické snímky Gemini. Tentokrát se společnost domnívá, že našla rovnováhu mezi kreativitou a bezpečností. „Chceme, aby uživatelé byli kreativní, ale ne všechno je dovoleno,“ zdůraznila Brichtová.

S Gemini 2.5 Flash Image sází Google na vylepšení zážitku z úpravy fotografií s využitím umělé inteligence a doufá, že si udrží staré uživatele a přiláká nové v nelítostném technologickém závodě s OpenAI, Meta a dalšími konkurenty.

(Podle TechCrunch, Tomův průvodce)

Za 85 milionů VND za „mozek“ otevírá Nvidia cestu éře lidí vyrábějících roboty. Nvidia právě uvedla na trh Jetson AGX Thor – čip přezdívaný „robotický mozek“, který dokáže strojům pomoci vidět, myslet a jednat jako lidé a otevírá tak závod ve fyzické umělé inteligenci za 3 499 USD.

Zdroj: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html