A atualização do Google Gemini utiliza o modelo de imagem "nano banana", desenvolvido pelo Google DeepMind. O recurso já está disponível globalmente para usuários gratuitos e pagos. Seu maior ponto forte é a capacidade de manter rostos e objetos consistentes nas fotos, algo que outras ferramentas de IA frequentemente enfrentam dificuldades.
“Realmente aprimoramos a qualidade das imagens e a capacidade do modelo de seguir instruções”, disse Nicole Brichtova, líder de produto da DeepMind. “Esta atualização torna as edições mais fluidas e os resultados são bons o suficiente para serem usados para qualquer finalidade.”
Mantenha “você” em cada foto
Um dos motivos pelos quais as fotos com IA parecem falsas é que pequenos detalhes ficam distorcidos. O Google afirma que o Gemini resolve esse problema, permitindo que você altere toda a cena, mantendo o rosto e a expressão facial inalterados. Você pode experimentar um novo penteado, mudar a cor da parede ou trazer um animal de estimação para a cena sem se preocupar com a distorção da imagem.

O Gemini também permite que você carregue várias fotos para combiná-las em uma, como combinar um retrato com seu gato para criar uma foto de vocês dois andando juntos na estrada.
O Gemini suporta edição multi-turno, permitindo que os usuários adicionem todos os detalhes a um espaço: do papel de parede aos móveis e à cor da tinta. A vantagem é que apenas a parte que precisa ser editada muda, o resto permanece o mesmo.
Além disso, o signo de Gêmeos pode misturar estilos entre as fotos. Por exemplo, transformar botas de chuva em sapatos com estampa floral ou criar um vestido com estampa de borboletas.
Corrida de criação de imagens de IA entre gigantes da tecnologia
A atualização do Google ocorre em um momento em que a guerra por imagens de IA se intensifica. A OpenAI lançou anteriormente o GPT-4o, que pode gerar imagens diretamente, e viralizou com uma série de memes no estilo Studio Ghibli. O CEO Sam Altman revelou que o número de usuários aumentou tanto que as GPUs da empresa "quase derreteram".
Para acompanhar, a Meta anunciou uma parceria com a Midjourney, enquanto a startup alemã Black Forest Labs, com seu modelo FLUX, está dominando muitas paradas.

O Google espera que o Gemini consiga diminuir a diferença com o ChatGPT. O Gemini tem atualmente 450 milhões de usuários mensais, de acordo com o CEO Sundar Pichai, bem atrás do ChatGPT, que tem mais de 700 milhões de usuários semanais.
Brichtova disse que o Gemini foi projetado para cenários do mundo real, desde a visualização de salas de estar e jardins até a criação de fotos divertidas. O modelo tem um "conhecimento de mundo " mais apurado e pode combinar várias fotos e paletas de cores em uma única renderização.
No entanto, o Google também impõe limites rigorosos. Todas as imagens geradas têm uma marca d'água clara e uma marca de identificação oculta nos metadados. A empresa proíbe terminantemente a criação de imagens sensíveis sem permissão para evitar abusos de deepfake.
O Google já havia se desculpado anteriormente pelas imagens históricas imprecisas do Gemini. Desta vez, a empresa acredita ter encontrado um equilíbrio entre criatividade e segurança. "Queremos que os usuários sejam criativos, mas nem tudo é permitido", enfatizou Brichtova.
Com o Gemini 2.5 Flash Image, o Google aposta em elevar a experiência de edição de fotos com IA, na esperança de reter usuários antigos e atrair novos em uma acirrada corrida tecnológica com OpenAI, Meta e outros concorrentes.
(De acordo com o TechCrunch, Tom's Guide)

Fonte: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
Comentário (0)