Google Gemini выводит ИИ на новый уровень: меняйте фон, прическу и объединяйте фотографии всего одной командой

Благодаря новому обновлению Google Gemini позволяет пользователям менять фон, прически и коллажировать фотографии, сохраняя при этом лицо и отличительные черты объекта съемки.

VietNamNet•27/08/2025

Обновление Google Gemini использует модель изображения «нанобанан», разработанную Google DeepMind. Эта функция теперь доступна по всему миру как для бесплатных, так и для платных пользователей. Её главное преимущество — способность сохранять единообразие лиц и объектов на изображениях, с чем часто сталкиваются другие инструменты ИИ.

«Мы значительно улучшили качество изображений и способность модели следовать инструкциям», — сказала Николь Брихтова, руководитель отдела разработки DeepMind. «Это обновление делает редактирование более удобным, а результаты настолько хороши, что их можно использовать в любых целях».

Сохраняйте «себя» на каждой фотографии

Одна из причин, по которой фотографии, созданные с помощью искусственного интеллекта, выглядят поддельными, — это искажение мелких деталей. Google заявляет, что Gemini решает эту проблему, позволяя изменить всю сцену, сохраняя лицо и его выражение. Вы можете попробовать новую причёску, изменить цвет стены или привести в кадр домашнего питомца, не беспокоясь об искажении изображения.

Объединить фотографии вместе.gif — Объедините фотографии с новым контекстом из двух существующих изображений с помощью Google Gemini. Источник: Google

Gemini также позволяет загружать несколько фотографий и объединять их в одну, например, объединяя портрет с вашим котом, можно создать фотографию, на которой вы вдвоем едете по дороге.

Gemini поддерживает многоповоротное редактирование, позволяя пользователям добавлять в пространство каждую деталь: от обоев и мебели до цвета краски. Преимущество в том, что изменяется только та часть, которую нужно отредактировать, остальное остаётся прежним.

Кроме того, Близнецы умеют смешивать стили на фотографиях. Например, превратить резиновые сапоги в туфли с цветочным принтом или создать платье с узором в виде бабочек.

Гонка за создание изображений с помощью ИИ среди технологических гигантов

Обновление Google произошло на фоне обострения войны за искусственный интеллект в области обработки изображений. Ранее OpenAI запустила GPT-4o, способный напрямую генерировать изображения, и он стал вирусным благодаря серии мемов в стиле Studio Ghibli. Генеральный директор Сэм Альтман рассказал, что число пользователей выросло настолько, что графические процессоры компании практически «расплавились».

Чтобы не отставать, Meta объявила о партнерстве с Midjourney, а немецкий стартап Black Forest Labs со своей моделью FLUX доминирует во многих чартах.

многооборотное редактирование.gif — Многошаговые возможности редактирования фотографий в Google Gemini. Источник: Google

Google надеется, что Gemini сможет сократить отставание с помощью ChatGPT. По словам генерального директора Сундара Пичаи, в настоящее время у Gemini 450 миллионов пользователей в месяц, что значительно меньше, чем у ChatGPT, у которого более 700 миллионов пользователей в неделю.

Брихтова отметила, что Gemini разработан для реальных сценариев, от визуализации гостиных и садов до создания развлекательных фотографий. Модель обладает более глубокими знаниями о мире и может объединять несколько фотографий и цветовых палитр в одну визуализацию.

Однако Google также устанавливает строгие ограничения. Все сгенерированные изображения имеют явный водяной знак и скрытые идентификаторы в метаданных. Компания строго запрещает непреднамеренное создание конфиденциальных изображений, чтобы предотвратить использование дипфейков.

Ранее Google уже приносила извинения за неточные исторические изображения в «Джемини». В этот раз компания считает, что ей удалось найти баланс между креативностью и безопасностью. «Мы хотим, чтобы пользователи проявляли творческий подход, но не всё дозволено», — подчеркнула Брихтова.

С выпуском Gemini 2.5 Flash Image компания Google делает ставку на улучшение возможностей редактирования фотографий с помощью ИИ, надеясь удержать старых пользователей и привлечь новых в жесткой технологической гонке с OpenAI, Meta и другими конкурентами.

(По данным TechCrunch, Tom's Guide)

За 85 миллионов донгов за «мозг» Nvidia прокладывает путь к эпохе создания роботов людьми. Nvidia только что выпустила Jetson AGX Thor — чип, получивший название «роботизированный мозг», способный помочь машинам видеть, думать и действовать как люди, открывая гонку за физический ИИ по цене 3499 долларов США.

Источник: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html