Google Gemini-uppgraderingen använder bildmodellen "nano banana" som utvecklats av Google DeepMind. Funktionen är nu tillgänglig globalt för både gratis- och betalanvändare. Dess största styrka är dess förmåga att hålla ansikten och objekt konsekventa i bilder, något som andra AI-verktyg ofta kämpar med.

”Vi har verkligen höjt bildkvaliteten och modellens förmåga att följa instruktioner”, säger Nicole Brichtova, produktchef på DeepMind. ”Den här uppdateringen gör redigeringen mer sömlös och resultaten är tillräckligt bra för att användas för vilket ändamål som helst.”

Behåll "du" på varje foto

En av de saker som får AI-foton att se falska ut är att små detaljer förvrängs. Google säger att Gemini löser detta problem, så att du kan ändra hela scenen samtidigt som ansiktet och uttrycket behålls. Du kan prova en ny frisyr, ändra färgen på väggen eller ta med ett husdjur i scenen utan att oroa dig för bildförvrängning.

Blanda foton tillsammans.gif
Sammanfoga foton med nytt sammanhang från två befintliga bilder med Google Gemini. Källa: Google

Med Gemini kan du också ladda upp flera foton för att kombinera till ett, till exempel genom att kombinera ett porträtt med din katt för att skapa ett foto på er två som kör tillsammans på vägen.

Gemini stöder redigering i flera steg, vilket gör att användare kan lägga till alla detaljer i ett utrymme: från tapeter och möbler till färg. Fördelen är att bara den del som behöver redigeras ändras, resten förblir detsamma.

Dessutom kan Gemini blanda stilar mellan foton. Till exempel förvandla gummistövlar till blommiga skor eller skapa en fjärilsmönstrad klänning.

AI-bildskapandekapplöpning bland teknikjättar

Googles uppgradering kommer samtidigt som kriget om AI-avbildning hettar upp. OpenAI lanserade tidigare GPT-4o, som kan generera bilder direkt, och blev viralt med en serie memes i Studio Ghibli-stil. VD:n Sam Altman avslöjade att antalet användare ökade så mycket att företagets grafikkort nästan "smälte".

För att hänga med i utvecklingen tillkännagav Meta ett partnerskap med Midjourney, medan den tyska startupen Black Forest Labs med sin FLUX-modell dominerar många listor.

flervarvsredigering.gif
Google Gemini:s flerstegsfunktioner för fotoredigering. Källa: Google

Google hoppas att Gemini kan minska gapet med ChatGPT. Enligt VD:n Sundar Pichai har Gemini för närvarande 450 miljoner användare varje månad, vilket är mycket lägre än ChatGPT, som har mer än 700 miljoner användare varje vecka.

Brichtova sa att Gemini är utformad för verkliga scenarier, från att visualisera vardagsrum och trädgårdar till att skapa underhållande foton. Modellen har bättre " världskunskap " och kan kombinera flera foton och färgpaletter i en enda rendering.

Google sätter dock också strikta gränser. Alla genererade bilder har en tydlig vattenstämpel och dolda identifierare i metadata. Företaget förbjuder strikt ofrivilligt skapande av känsliga bilder för att förhindra deepfakes-missbruk.

Google har tidigare bett om ursäkt för Gemini:s felaktiga historiska bilder. Den här gången anser företaget att de har hittat en balans mellan kreativitet och säkerhet. ”Vi vill att användare ska vara kreativa, men allt är inte tillåtet”, betonade Brichtova.

Med Gemini 2.5 Flash Image satsar Google på att förbättra AI-fotoredigeringsupplevelsen, i hopp om att behålla gamla användare och locka nya i en hård teknikkapplöpning med OpenAI, Meta och andra konkurrenter.

(Enligt TechCrunch, Toms guide)

För 85 miljoner VND per "hjärna" banar Nvidia väg för en era där människor bygger robotar. Nvidia har precis lanserat Jetson AGX Thor - ett chip kallat "robothjärnan", som kan hjälpa maskiner att se, tänka och agera som människor, och öppnar därmed den fysiska AI-kapplöpningen till ett pris av 3 499 USD.

Källa: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html