Google Gemini-oppgraderingen bruker bildemodellen «nano banana» utviklet av Google DeepMind. Funksjonen er nå tilgjengelig globalt for både gratis- og betalte brukere. Den største styrken er evnen til å holde ansikter og objekter konsistente i bilder, noe andre AI-verktøy ofte sliter med.
«Vi har virkelig forbedret bildekvaliteten og modellens evne til å følge instruksjoner», sa Nicole Brichtova, produktansvarlig hos DeepMind. «Denne oppdateringen gjør redigeringen mer sømløs, og resultatene er gode nok til å kunne brukes til ethvert formål.»
Ha «deg» på hvert bilde
En av tingene som får AI-bilder til å se falske ut, er at små detaljer blir forvrengt. Google sier at Gemini løser dette problemet, slik at du kan endre hele scenen samtidig som ansiktet og uttrykket beholdes. Du kan prøve en ny frisyre, endre fargen på veggen eller ta med et kjæledyr inn i scenen uten å bekymre deg for bildeforvrengning.

Gemini lar deg også laste opp flere bilder som du kan kombinere til ett, for eksempel ved å kombinere et portrett med katten din for å lage et bilde av dere to som kjører sammen på veien.
Gemini støtter redigering i flere omganger, slik at brukerne kan legge til alle detaljer i et rom: fra tapet og møbler til malingsfarge. Plusspoenget er at bare den delen som må redigeres endres, resten forblir den samme.
I tillegg kan Gemini blande stiler mellom bilder. For eksempel gjøre gummistøvler om til sko med blomstertrykk, eller lage en sommerfuglmønstret kjole.
Kappløp om kunstig intelligens-bildeproduksjon blant teknologigiganter
Googles oppgradering kommer samtidig som krigen om AI-avbildning hetter opp. OpenAI lanserte tidligere GPT-4o, som kan generere bilder direkte, og gikk viralt med en serie memer i Studio Ghibli-stil. Administrerende direktør Sam Altman avslørte at antallet brukere økte så mye at selskapets GPU-er nesten «smeltet».
For å holde tritt annonserte Meta et samarbeid med Midjourney, mens den tyske oppstartsbedriften Black Forest Labs med sin FLUX-modell dominerer mange hitlister.

Google håper Gemini kan tette gapet med ChatGPT. Ifølge administrerende direktør Sundar Pichai har Gemini for tiden 450 millioner månedlige brukere, mye lavere enn ChatGPT, som har mer enn 700 millioner ukentlige brukere.
Brichtova sa at Gemini er designet for virkelige scenarier, fra å visualisere stuer og hager til å lage underholdende bilder. Modellen har bedre « verdenskunnskap » og kan kombinere flere bilder og fargepaletter i én enkelt gjengivelse.
Google setter imidlertid også strenge grenser. Alle genererte bilder har et tydelig vannmerke og skjulte identifikatorer i metadataene. Selskapet forbyr strengt utilsiktet oppretting av sensitive bilder for å forhindre misbruk av deepfakes.
Google har tidligere beklaget Gemini sine unøyaktige historiske bilder. Denne gangen mener selskapet at de har funnet en balanse mellom kreativitet og sikkerhet. «Vi ønsker at brukerne skal være kreative, men ikke alt er tillatt», understreket Brichtova.
Med Gemini 2.5 Flash Image satser Google på å forbedre AI-bilderedigeringsopplevelsen, i håp om å beholde gamle brukere og tiltrekke seg nye i et hardt teknologikappløp med OpenAI, Meta og andre konkurrenter.
(Ifølge TechCrunch, Toms guide)

Kilde: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
Kommentar (0)