A Google Gemini a következő szintre emeli a mesterséges intelligenciát: egyetlen paranccsal módosíthatja a hátteret, a frizurát és kombinálhatja a fényképeket

A Google Gemini frissítése a Google DeepMind által kifejlesztett „nano banán” képmodellt használja. A funkció mostantól globálisan elérhető mind ingyenes, mind fizetős felhasználók számára. Legnagyobb erőssége, hogy képes az arcokat és az objektumokat konzisztensen tartani a képeken, amivel más mesterséges intelligencia eszközök gyakran küzdenek.

„Nagyon sokat tettünk a képminőség és a modell utasításkövető képességének javítása érdekében” – mondta Nicole Brichtova, a DeepMind termékvezetője. „Ez a frissítés zökkenőmentesebbé teszi a szerkesztést, és az eredmények elég jók ahhoz, hogy bármilyen célra felhasználhatók legyenek.”

Tartsd meg magad minden fotón

Az egyik dolog, ami miatt a mesterséges intelligencia által készített fotók műhatásnak tűnnek, az az apró részletek torzulása. A Google szerint a Gemini megoldja ezt a problémát, lehetővé téve a teljes jelenet megváltoztatását, miközben az arc és a kifejezés változatlan marad. Kipróbálhatunk egy új frizurát, megváltoztathatjuk a fal színét, vagy bevihetünk egy háziállatot a jelenetbe anélkül, hogy a kép torzulása miatt kellene aggódnunk.

Fotók összeolvasztása.gif — Két meglévő képből származó új kontextusú fotók egyesítése a Google Gemini segítségével. Forrás: Google

A Gemini lehetővé teszi több fotó feltöltését is, amelyeket egyetlen fotóvá egyesíthetsz, például egy portrét a macskáddal kombinálva, hogy létrehozz egy képet rólatok, amint együtt motoroztok az úton.

A Gemini támogatja a többlépéses szerkesztést, lehetővé téve a felhasználók számára, hogy minden részletet hozzáadjanak egy térhez: a tapétától és a bútoroktól kezdve a festék színéig. A nagy előnye, hogy csak a szerkesztendő rész változik, a többi változatlan marad.

Ezenkívül az Ikrek jegyűek keverhetik a stílusokat a fotók között. Például gumicsizmát virágmintás cipővé alakíthatnak, vagy pillangómintás ruhát készíthetnek.

Mesterséges intelligencia képalkotási verseny a technológiai óriások között

A Google frissítése a mesterséges intelligencia képalkotási háborújának felforrósodásával egy időben érkezik. Az OpenAI korábban elindította a GPT-4o-t, amely közvetlenül képes képeket generálni, és egy sor Studio Ghibli stílusú mémmel terjedt el virálisan. Sam Altman vezérigazgató elárulta, hogy a felhasználók száma annyira megnőtt, hogy a vállalat GPU-i szinte „elolvadtak”.

A lépéstartás kedvéért a Meta bejelentette partnerségét a Midjourney-val, míg a német Black Forest Labs startup FLUX modelljével számos listát ural.

többfordulatos szerkesztés.gif — A Google Gemini többlépéses fotószerkesztési képességei. Forrás: Google

A Google abban bízik, hogy a Gemini a ChatGPT-vel áthidalhatja a lemaradást. Sundar Pichai vezérigazgató szerint a Gemini jelenleg havi 450 millió felhasználóval rendelkezik, ami jóval alacsonyabb, mint a ChatGPT-nek, amelynek több mint 700 millió heti felhasználója van.

Brichtova szerint a Geminit valós helyzetekre tervezték, a nappalik és kertek vizualizálásától kezdve a szórakoztató fotók készítéséig. A modell jobb „ világismerettel ” rendelkezik, és több fotót és színpalettát képes egyetlen renderelésben kombinálni.

A Google azonban szigorú korlátokat is felállít. Minden létrehozott kép egyértelmű vízjellel és rejtett azonosítóval rendelkezik a metaadatokban. A vállalat szigorúan tiltja az érzékeny képek akaratlan létrehozását a deepfake-ekkel való visszaélések megelőzése érdekében.

A Google korábban már bocsánatot kért a Gemini pontatlan történelmi képei miatt. A vállalat ezúttal úgy véli, hogy egyensúlyt teremtett a kreativitás és a biztonság között. „Azt akarjuk, hogy a felhasználók kreatívak legyenek, de nem minden megengedett” – hangsúlyozta Brichtova.

A Gemini 2.5 Flash Image-el a Google a mesterséges intelligencia alapú fotószerkesztési élmény fejlesztésére fogad, abban a reményben, hogy megtartja a régi felhasználókat és újakat vonz be egy kiélezett technológiai versenyben az OpenAI-val, a Metával és más versenytársakkal.

(A TechCrunch szerint, Tom kalauza)

„Agyanként” 85 millió vietnami dongért az Nvidia utat nyit az emberek robotkészítő korszakának. Az Nvidia nemrégiben piacra dobta a Jetson AGX Thort – egy „robotagynak” nevezett chipet, amely képes segíteni a gépeknek abban, hogy úgy lássanak, gondolkodjanak és viselkedjenek, mint az emberek, megnyitva ezzel a fizikai mesterséges intelligencia versenyét 3499 dollárért.

Forrás: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html