Aktualizace Google Gemini využívá obrazový model „nano banán“ vyvinutý společností Google DeepMind. Tato funkce je nyní dostupná globálně pro bezplatné i placené uživatele. Její největší silnou stránkou je schopnost zachovat konzistenci obličejů a objektů v obrázcích, s čímž se jiné nástroje umělé inteligence často potýkají.

„Opravdu jsme vylepšili kvalitu obrazu a schopnost modelu sledovat pokyny,“ řekla Nicole Brichtova, produktová vedoucí ve společnosti DeepMind. „Tato aktualizace usnadňuje úpravy a výsledky jsou dostatečně dobré pro použití k jakémukoli účelu.“

Mějte „vy“ na každé fotce

Jednou z věcí, která způsobuje, že fotografie vytvořené umělou inteligencí vypadají falešně, je zkreslení malých detailů. Google tvrdí, že Gemini tento problém řeší a umožňuje změnit celou scénu, aniž by se museli obávat zkreslení obrazu. Můžete si vyzkoušet nový účes, změnit barvu zdi nebo do scény přivést domácího mazlíčka, aniž byste se museli obávat zkreslení obrazu.

Spojení fotografií dohromady.gif
Sloučení fotografií s novým kontextem ze dvou existujících obrázků pomocí Google Gemini. Zdroj: Google

Gemini vám také umožňuje nahrát více fotografií a sloučit je do jedné, například zkombinováním portrétu s vaší kočkou vytvoříte fotografii, na které jedete společně na silnici.

Gemini podporuje vícenásobné úpravy, což uživatelům umožňuje přidat do prostoru každý detail: od tapety, nábytku až po barvu. Výhodou je, že se mění pouze ta část, kterou je třeba upravit, zbytek zůstává stejný.

Blíženci navíc dokáží kombinovat styly mezi fotografiemi. Například proměnit holínky v boty s květinovým vzorem nebo si vytvořit šaty s motýlím vzorem.

Závod mezi technologickými giganty v tvorbě obrázků s umělou inteligencí

Vylepšení Googlu přichází v době, kdy se vyostřuje válka o zobrazování pomocí umělé inteligence. OpenAI dříve spustila GPT-4o, který dokáže generovat obrázky přímo, a stala se virální díky sérii memů ve stylu Studia Ghibli. Generální ředitel Sam Altman prozradil, že počet uživatelů se natolik zvýšil, že se grafické procesory společnosti téměř „roztavily“.

Aby Meta držela krok, oznámila partnerství se společností Midjourney, zatímco německý startup Black Forest Labs se svým modelem FLUX dominuje mnoha žebříčkům.

víceotáčková editace.gif
Vícekrokové možnosti úpravy fotografií v Google Gemini. Zdroj: Google

Google doufá, že Gemini dokáže tuto mezeru překlenout pomocí ChatGPT. Podle generálního ředitele Sundara Pichaie má Gemini v současné době 450 milionů uživatelů měsíčně, což je mnohem méně než ChatGPT, který má více než 700 milionů uživatelů týdně.

Brichtova uvedla, že Gemini je navržen pro reálné scénáře, od vizualizace obývacích pokojů a zahrad až po tvorbu zábavných fotografií. Model má lepší „znalost světa “ a dokáže kombinovat více fotografií a barevných palet do jednoho renderu.

Google si však také stanovuje přísná omezení. Všechny generované obrázky mají jasný vodoznak a skryté identifikátory v metadatech. Společnost přísně zakazuje nedobrovolné vytváření citlivých obrázků, aby se zabránilo zneužívání deepfake.

Google se již dříve omluvil za nepřesné historické snímky Gemini. Tentokrát se společnost domnívá, že našla rovnováhu mezi kreativitou a bezpečností. „Chceme, aby uživatelé byli kreativní, ale ne všechno je dovoleno,“ zdůraznila Brichtová.

S Gemini 2.5 Flash Image sází Google na vylepšení zážitku z úpravy fotografií s využitím umělé inteligence a doufá, že si udrží staré uživatele a přiláká nové v nelítostném technologickém závodě s OpenAI, Meta a dalšími konkurenty.

(Podle TechCrunch, Tomův průvodce)

Za 85 milionů VND za „mozek“ otevírá Nvidia cestu éře lidí vyrábějících roboty. Nvidia právě uvedla na trh Jetson AGX Thor – čip s názvem „robotický mozek“, který dokáže strojům pomoci vidět, myslet a jednat jako lidé a otevírá tak závod ve fyzické umělé inteligenci za cenu 3 499 USD.

Zdroj: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html