A Google Gemini frissítése a Google DeepMind által kifejlesztett „nano banán” képmodellt használja. A funkció mostantól globálisan elérhető mind ingyenes, mind fizetős felhasználók számára. Legnagyobb erőssége, hogy képes az arcokat és a tárgyakat konzisztensen tartani a fotókon, amivel más mesterséges intelligencia eszközök gyakran küzdenek.
„Nagyon sokat tettünk a képek minőségén és a modell utasításkövető képességén” – mondta Nicole Brichtova, a DeepMind termékvezetője. „Ez a frissítés zökkenőmentesebbé teszi a szerkesztéseket, és az eredmények elég jók ahhoz, hogy bármilyen célra felhasználhatók legyenek.”
Tartsd meg magad minden fotón
Az egyik dolog, ami miatt a mesterséges intelligencia által készített fotók műhatásnak tűnnek, az az apró részletek torzulása. A Google szerint a Gemini megoldja ezt a problémát, lehetővé téve a teljes jelenet megváltoztatását, miközben az arc és a kifejezés változatlan marad. Kipróbálhatunk egy új frizurát, megváltoztathatjuk a fal színét, vagy bevihetünk egy háziállatot a jelenetbe anélkül, hogy a kép torzulása miatt kellene aggódnunk.

A Gemini lehetővé teszi több fotó feltöltését is, amelyeket egyetlen fotóvá egyesíthetsz, például egy portrét a macskáddal kombinálva, hogy létrehozz egy képet rólatok, amint együtt motoroztok az úton.
A Gemini támogatja a többlépéses szerkesztést, lehetővé téve a felhasználók számára, hogy minden részletet hozzáadjanak egy térhez: a tapétától és a bútoroktól kezdve a festék színéig. A nagy előnye, hogy csak a szerkesztendő rész változik, a többi változatlan marad.
Ezenkívül az Ikrek jegyűek keverhetik a stílusokat a fotók között. Például gumicsizmát virágmintás cipővé alakíthatnak, vagy pillangómintás ruhát készíthetnek.
AI képalkotási verseny a technológiai óriások között
A Google frissítése a mesterséges intelligencia képalkotási háborúinak fellángolódásával egy időben érkezik. Az OpenAI korábban elindította a GPT-4o-t, amely közvetlenül képes képeket generálni, és egy sor Studio Ghibli stílusú mémmel terjedt el virálisként. Sam Altman vezérigazgató elárulta, hogy a felhasználók száma annyira megnőtt, hogy a vállalat GPU-i „szinte elolvadtak”.
A lépéstartás kedvéért a Meta bejelentette partnerségét a Midjourney-val, míg a német Black Forest Labs startup FLUX modelljével számos listát ural.

A Google abban bízik, hogy a Gemini a ChatGPT-vel áthidalhatja a lemaradást. A Gemini jelenleg havi 450 millió felhasználóval rendelkezik Sundar Pichai vezérigazgató szerint, ami messze elmarad a ChatGPT-től, amelynek heti több mint 700 millió felhasználója van.
Brichtova szerint a Geminit valós helyzetekre tervezték, a nappalik és kertek vizualizálásától kezdve a szórakoztató fotók készítéséig. A modell jobb „ világismerettel ” rendelkezik, és több fotót és színpalettát képes egyetlen renderelésben kombinálni.
A Google azonban szigorú korlátozásokat is bevezet. Minden létrehozott kép egyértelmű vízjellel és egy metaadatokban elrejtett azonosító jellel rendelkezik. A vállalat szigorúan tiltja az érzékeny képek engedély nélküli létrehozását a deepfake-ek visszaéléseinek megelőzése érdekében.
A Google korábban már bocsánatot kért a Gemini pontatlan történelmi képei miatt. A vállalat ezúttal úgy véli, hogy egyensúlyt teremtett a kreativitás és a biztonság között. „Azt akarjuk, hogy a felhasználók kreatívak legyenek, de nem minden megengedett” – hangsúlyozta Brichtova.
A Gemini 2.5 Flash Image-el a Google a mesterséges intelligencia alapú fotószerkesztési élmény fejlesztésére törekszik, abban a reményben, hogy megtartja a régi felhasználókat és újakat vonz be egy kiélezett technológiai versenyben az OpenAI-val, a Metával és más versenytársakkal.
(A TechCrunch szerint, Tom kalauza)

Forrás: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
Hozzászólás (0)