O Google Gemini leva a IA para o próximo nível: altere o plano de fundo, o penteado e combine fotos com apenas um comando

A atualização do Google Gemini utiliza o modelo de imagem "nano banana" desenvolvido pelo Google DeepMind. O recurso já está disponível globalmente para usuários gratuitos e pagos. Seu maior ponto forte é a capacidade de manter rostos e objetos consistentes nas imagens, algo que outras ferramentas de IA frequentemente enfrentam dificuldades.

“Nós realmente aprimoramos a qualidade da imagem e a capacidade do modelo de seguir instruções”, disse Nicole Brichtova, líder de produto da DeepMind. “Esta atualização torna a edição mais fluida e os resultados são bons o suficiente para serem usados para qualquer finalidade.”

Mantenha “você” em cada foto

Um dos motivos pelos quais as fotos com IA parecem falsas é que pequenos detalhes ficam distorcidos. O Google afirma que o Gemini resolve esse problema, permitindo que você altere toda a cena, mantendo o rosto e a expressão facial inalterados. Você pode experimentar um novo penteado, mudar a cor da parede ou trazer um animal de estimação para a cena sem se preocupar com a distorção da imagem.

Misture fotos.gif — Combine fotos com um novo contexto a partir de duas imagens existentes usando o Google Gemini. Fonte: Google

O Gemini também permite que você carregue várias fotos para combiná-las em uma, como combinar um retrato com seu gato para criar uma foto de vocês dois andando juntos na estrada.

O Gemini suporta edição multi-turno, permitindo que os usuários adicionem todos os detalhes a um espaço: do papel de parede aos móveis e à cor da tinta. A vantagem é que apenas a parte que precisa ser editada muda, o resto permanece o mesmo.

Além disso, o geminiano pode misturar estilos entre as fotos. Por exemplo, transformar botas de chuva em sapatos com estampa floral ou criar um vestido com estampa de borboletas.

Corrida de criação de imagens de IA entre gigantes da tecnologia

A atualização do Google ocorre em um momento em que a guerra de imagens por IA se intensifica. A OpenAI lançou anteriormente o GPT-4o, que pode gerar imagens diretamente, e viralizou com uma série de memes no estilo Studio Ghibli. O CEO Sam Altman revelou que o número de usuários aumentou tanto que as GPUs da empresa quase "derreteram".

Para acompanhar, a Meta anunciou uma parceria com a Midjourney, enquanto a startup alemã Black Forest Labs, com seu modelo FLUX, está dominando muitas paradas.

edição multivoltas.gif — Recursos de edição de fotos em várias etapas do Google Gemini. Fonte: Google

O Google espera que o Gemini consiga diminuir a diferença em relação ao ChatGPT. De acordo com o CEO Sundar Pichai, o Gemini tem atualmente 450 milhões de usuários mensais, número muito inferior ao do ChatGPT, que tem mais de 700 milhões de usuários semanais.

Brichtova disse que o Gemini foi projetado para cenários do mundo real, desde a visualização de salas de estar e jardins até a criação de fotos divertidas. O modelo possui melhor "conhecimento do mundo " e pode combinar várias fotos e paletas de cores em uma única renderização.

No entanto, o Google também estabelece limites rigorosos. Todas as imagens geradas têm uma marca d'água clara e identificadores ocultos nos metadados. A empresa proíbe terminantemente a criação involuntária de imagens sensíveis para evitar abusos de deepfake.

O Google já havia se desculpado anteriormente pelas imagens históricas imprecisas do Gemini. Desta vez, a empresa acredita ter encontrado um equilíbrio entre criatividade e segurança. "Queremos que os usuários sejam criativos, mas nem tudo é permitido", enfatizou Brichtova.

Com o Gemini 2.5 Flash Image, o Google aposta em elevar a experiência de edição de fotos com IA, na esperança de reter usuários antigos e atrair novos em uma acirrada corrida tecnológica com OpenAI, Meta e outros concorrentes.

(De acordo com o TechCrunch, Tom's Guide)

Por 85 milhões de VND por "cérebro", a Nvidia abre caminho para a era da criação de robôs por humanos. A Nvidia acaba de lançar o Jetson AGX Thor — um chip apelidado de "cérebro robótico", capaz de ajudar máquinas a enxergar, pensar e agir como humanos, abrindo a corrida da IA física ao preço de 3.499 dólares.

Comentário (0)