Google Gemini-oppgraderingen bruker bildemodellen «nano banana» utviklet av Google DeepMind. Funksjonen er nå tilgjengelig globalt for både gratis- og betalte brukere. Den største styrken er evnen til å holde ansikter og objekter konsistente i bilder, noe andre AI-verktøy ofte sliter med.

«Vi har virkelig forbedret kvaliteten på bildene og modellens evne til å følge instruksjoner», sa Nicole Brichtova, produktansvarlig hos DeepMind. «Denne oppdateringen gjør redigeringen mer sømløs, og resultatene er gode nok til å kunne brukes til ethvert formål.»

Ha «deg» på hvert bilde

En av tingene som får AI-bilder til å se falske ut, er at små detaljer blir forvrengt. Google sier at Gemini løser dette problemet, slik at du kan endre hele scenen samtidig som ansiktet og uttrykket beholdes. Du kan prøve en ny frisyre, endre fargen på veggen eller ta med et kjæledyr inn i scenen uten å bekymre deg for bildeforvrengning.

Bland bilder sammen.gif
Slå sammen bilder med ny kontekst fra to eksisterende bilder ved hjelp av Google Gemini. Kilde: Google

Gemini lar deg også laste opp flere bilder som du kan kombinere til ett, for eksempel ved å kombinere et portrett med katten din for å lage et bilde av dere to som kjører sammen på veien.

Gemini støtter redigering i flere omganger, slik at brukerne kan legge til alle detaljer i et rom: fra tapet og møbler til malingsfarge. Plusspoenget er at bare den delen som må redigeres endres, resten forblir den samme.

I tillegg kan Gemini blande stiler mellom bilder. For eksempel gjøre gummistøvler om til sko med blomstertrykk, eller lage en sommerfuglmønstret kjole.

AI-bildeskaping Kappløp mellom teknologigiganter

Googles oppgradering kommer samtidig som krigene om AI-avbildning tilspisser seg. OpenAI lanserte tidligere GPT-4o, som kan generere bilder direkte, og gikk viralt med en serie memer i Studio Ghibli-stil. Administrerende direktør Sam Altman avslørte at antallet brukere økte så mye at selskapets GPU-er «nesten smeltet».

For å holde tritt annonserte Meta et samarbeid med Midjourney, mens den tyske oppstartsbedriften Black Forest Labs med sin FLUX-modell dominerer mange hitlister.

flersvingsredigering.gif
Google Gemini sine flertrinns fotoredigeringsfunksjoner. Kilde: Google

Google håper Gemini kan tette gapet med ChatGPT. Gemini har for tiden 450 millioner månedlige brukere, ifølge administrerende direktør Sundar Pichai, langt bak ChatGPT, som har mer enn 700 millioner ukentlige brukere.

Brichtova sa at Gemini er designet for virkelige scenarier, fra å visualisere stuer og hager til å lage underholdende bilder. Modellen har bedre « verdenskunnskap » og kan kombinere flere bilder og fargepaletter i én enkelt gjengivelse.

Google har imidlertid også strenge grenser. Alle genererte bilder har et tydelig vannmerke og et identifikasjonsmerke skjult i metadataene. Selskapet forbyr strengt opprettelse av sensitive bilder uten tillatelse for å forhindre misbruk av deepfakes.

Google har tidligere beklaget Gemini sine unøyaktige historiske bilder. Denne gangen mener selskapet at de har funnet en balanse mellom kreativitet og sikkerhet. «Vi ønsker at brukerne skal være kreative, men ikke alt er tillatt», understreket Brichtova.

Med Gemini 2.5 Flash Image satser Google på å forbedre AI-bilderedigeringsopplevelsen, i håp om å beholde gamle brukere og tiltrekke seg nye i et hardt teknologikappløp med OpenAI, Meta og andre konkurrenter.

(Ifølge TechCrunch, Toms guide)

For 85 millioner dong per «hjerne» baner Nvidia vei for en æra der mennesker lager roboter. Nvidia har nettopp lansert Jetson AGX Thor – en brikke kalt «robothjernen», som er i stand til å hjelpe maskiner med å se, tenke og handle som mennesker, og åpner dermed kappløpet om fysisk AI for 3499 dollar.

Kilde: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html