A Google Gemini frissítése a Google DeepMind által kifejlesztett „nano banán” képmodellt használja. A funkció mostantól globálisan elérhető mind ingyenes, mind fizetős felhasználók számára. Legnagyobb erőssége, hogy képes az arcokat és a tárgyakat konzisztensen tartani a fotókon, amivel más mesterséges intelligencia eszközök gyakran küzdenek.

„Nagyon sokat tettünk a képek minőségén és a modell utasításkövető képességén” – mondta Nicole Brichtova, a DeepMind termékvezetője. „Ez a frissítés zökkenőmentesebbé teszi a szerkesztéseket, és az eredmények elég jók ahhoz, hogy bármilyen célra felhasználhatók legyenek.”

Tartsd meg magad minden fotón

Az egyik dolog, ami miatt a mesterséges intelligencia által készített fotók műhatásnak tűnnek, az az apró részletek torzulása. A Google szerint a Gemini megoldja ezt a problémát, lehetővé téve a teljes jelenet megváltoztatását, miközben az arc és a kifejezés változatlan marad. Kipróbálhatunk egy új frizurát, megváltoztathatjuk a fal színét, vagy bevihetünk egy háziállatot a jelenetbe anélkül, hogy a kép torzulása miatt kellene aggódnunk.

Fotók összeolvasztása.gif
Két meglévő képből származó új kontextusú fotók egyesítése a Google Gemini segítségével. Forrás: Google

A Gemini lehetővé teszi több fotó feltöltését is, amelyeket egyetlen fotóvá egyesíthetsz, például egy portrét a macskáddal kombinálva, hogy létrehozz egy képet rólatok, amint együtt motoroztok az úton.

A Gemini támogatja a többlépéses szerkesztést, lehetővé téve a felhasználók számára, hogy minden részletet hozzáadjanak egy térhez: a tapétától és a bútoroktól kezdve a festék színéig. A nagy előnye, hogy csak a szerkesztendő rész változik, a többi változatlan marad.

Ezenkívül az Ikrek jegyűek keverhetik a stílusokat a fotók között. Például gumicsizmát virágmintás cipővé alakíthatnak, vagy pillangómintás ruhát készíthetnek.

AI képalkotási verseny a technológiai óriások között

A Google frissítése a mesterséges intelligencia képalkotási háborúinak fellángolódásával egy időben érkezik. Az OpenAI korábban elindította a GPT-4o-t, amely közvetlenül képes képeket generálni, és egy sor Studio Ghibli stílusú mémmel terjedt el virálisként. Sam Altman vezérigazgató elárulta, hogy a felhasználók száma annyira megnőtt, hogy a vállalat GPU-i „szinte elolvadtak”.

A lépéstartás kedvéért a Meta bejelentette partnerségét a Midjourney-val, míg a német Black Forest Labs startup FLUX modelljével számos listát ural.

többfordulatos szerkesztés.gif
A Google Gemini többlépéses fotószerkesztési képességei. Forrás: Google

A Google abban bízik, hogy a Gemini a ChatGPT-vel áthidalhatja a lemaradást. A Gemini jelenleg havi 450 millió felhasználóval rendelkezik Sundar Pichai vezérigazgató szerint, ami messze elmarad a ChatGPT-től, amelynek heti több mint 700 millió felhasználója van.

Brichtova szerint a Geminit valós helyzetekre tervezték, a nappalik és kertek vizualizálásától kezdve a szórakoztató fotók készítéséig. A modell jobb „ világismerettel ” rendelkezik, és több fotót és színpalettát képes egyetlen renderelésben kombinálni.

A Google azonban szigorú korlátozásokat is bevezet. Minden létrehozott kép egyértelmű vízjellel és egy metaadatokban elrejtett azonosító jellel rendelkezik. A vállalat szigorúan tiltja az érzékeny képek engedély nélküli létrehozását a deepfake-ek visszaéléseinek megelőzése érdekében.

A Google korábban már bocsánatot kért a Gemini pontatlan történelmi képei miatt. A vállalat ezúttal úgy véli, hogy egyensúlyt teremtett a kreativitás és a biztonság között. „Azt akarjuk, hogy a felhasználók kreatívak legyenek, de nem minden megengedett” – hangsúlyozta Brichtova.

A Gemini 2.5 Flash Image-el a Google a mesterséges intelligencia alapú fotószerkesztési élmény fejlesztésére törekszik, abban a reményben, hogy megtartja a régi felhasználókat és újakat vonz be egy kiélezett technológiai versenyben az OpenAI-val, a Metával és más versenytársakkal.

(A TechCrunch szerint, Tom kalauza)

„Agyanként” 85 millió vietnami dongért az Nvidia utat nyit az emberek robotkészítő korszakának. Az Nvidia nemrégiben piacra dobta a Jetson AGX Thort – egy „robotagynak” nevezett chipet, amely képes segíteni a gépeknek abban, hogy úgy lássanak, gondolkodjanak és viselkedjenek, mint az emberek, ezzel 3499 dollárért megnyitva a fizikai mesterséges intelligencia versenyét.

Forrás: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html