Google Gemini-uppgraderingen använder bildmodellen "nano banana" som utvecklats av Google DeepMind. Funktionen är nu tillgänglig globalt för både gratis- och betalanvändare. Dess största styrka är dess förmåga att hålla ansikten och objekt konsekventa i foton, något som andra AI-verktyg ofta kämpar med.
”Vi har verkligen höjt kvaliteten på bilderna och modellens förmåga att följa instruktioner”, säger Nicole Brichtova, produktchef på DeepMind. ”Den här uppdateringen gör redigeringarna mer sömlösa och resultaten är tillräckligt bra för att användas för vilket ändamål som helst.”
Behåll "du" på varje foto
En av de saker som får AI-foton att se falska ut är att små detaljer förvrängs. Google säger att Gemini löser detta problem, så att du kan ändra hela scenen samtidigt som ansiktet och uttrycket behålls. Du kan prova en ny frisyr, ändra färgen på väggen eller ta med ett husdjur i scenen utan att oroa dig för bildförvrängning.

Med Gemini kan du också ladda upp flera foton för att kombinera till ett, till exempel genom att kombinera ett porträtt med din katt för att skapa ett foto på er två som kör tillsammans på vägen.
Gemini stöder redigering i flera steg, vilket gör att användare kan lägga till alla detaljer i ett utrymme: från tapeter och möbler till färg. Fördelen är att bara den del som behöver redigeras ändras, resten förblir detsamma.
Dessutom kan Gemini blanda stilar mellan foton. Till exempel förvandla gummistövlar till blommiga skor eller skapa en fjärilsmönstrad klänning.
AI-bildskapande kapplöpning mellan teknikjättar
Googles uppgradering kommer samtidigt som AI-avbildningskrig hettar till. OpenAI lanserade tidigare GPT-4o, som kan generera bilder direkt, och blev viral med en serie memes i Studio Ghibli-stil. VD:n Sam Altman avslöjade att antalet användare ökade så mycket att företagets GPU:er "nästan smälte".
För att hänga med i utvecklingen tillkännagav Meta ett partnerskap med Midjourney, medan den tyska startupen Black Forest Labs med sin FLUX-modell dominerar många listor.

Google hoppas att Gemini kan minska gapet med ChatGPT. Gemini har för närvarande 450 miljoner användare varje månad, enligt VD:n Sundar Pichai, långt efter ChatGPT, som har mer än 700 miljoner användare varje vecka.
Brichtova sa att Gemini är utformad för verkliga scenarier, från att visualisera vardagsrum och trädgårdar till att skapa underhållande foton. Modellen har bättre " världskunskap " och kan kombinera flera foton och färgpaletter i en enda rendering.
Google har dock också strikta begränsningar. Alla genererade bilder har ett tydligt vattenmärke och ett identifieringsmärke dolt i metadata. Företaget förbjuder strikt skapandet av känsliga bilder utan tillstånd för att förhindra deepfakes-missbruk.
Google har tidigare bett om ursäkt för Gemini:s felaktiga historiska bilder. Den här gången anser företaget att de har hittat en balans mellan kreativitet och säkerhet. ”Vi vill att användare ska vara kreativa, men allt är inte tillåtet”, betonade Brichtova.
Med Gemini 2.5 Flash Image satsar Google på att förbättra AI-fotoredigeringsupplevelsen, i hopp om att behålla gamla användare och locka nya i en hård teknikkapplöpning med OpenAI, Meta och andra konkurrenter.
(Enligt TechCrunch, Toms guide)

Källa: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
Kommentar (0)