Обновление Google Gemini использует модель изображения «нанобанан», разработанную Google DeepMind. Эта функция теперь доступна по всему миру как для бесплатных, так и для платных пользователей. Её главное преимущество — способность сохранять единообразие лиц и объектов на изображениях, с чем часто сталкиваются другие инструменты ИИ.
«Мы значительно улучшили качество изображений и способность модели следовать инструкциям», — сказала Николь Брихтова, руководитель отдела разработки DeepMind. «Это обновление делает редактирование более удобным, а результаты настолько хороши, что их можно использовать в любых целях».
Сохраняйте «себя» на каждой фотографии
Одна из причин, по которой фотографии, созданные с помощью искусственного интеллекта, выглядят поддельными, — это искажение мелких деталей. Google заявляет, что Gemini решает эту проблему, позволяя изменить всю сцену, сохраняя лицо и его выражение. Вы можете попробовать новую причёску, изменить цвет стены или привести в кадр домашнего питомца, не беспокоясь об искажении изображения.

Gemini также позволяет загружать несколько фотографий и объединять их в одну, например, объединяя портрет с вашим котом, можно создать фотографию, на которой вы вдвоем едете по дороге.
Gemini поддерживает многоповоротное редактирование, позволяя пользователям добавлять в пространство каждую деталь: от обоев и мебели до цвета краски. Преимущество в том, что изменяется только та часть, которую нужно отредактировать, остальное остаётся прежним.
Кроме того, Близнецы умеют смешивать стили на фотографиях. Например, превратить резиновые сапоги в туфли с цветочным принтом или создать платье с узором в виде бабочек.
Гонка за создание изображений с помощью ИИ среди технологических гигантов
Обновление Google произошло на фоне обострения войны за искусственный интеллект в области обработки изображений. Ранее OpenAI запустила GPT-4o, способный напрямую генерировать изображения, и он стал вирусным благодаря серии мемов в стиле Studio Ghibli. Генеральный директор Сэм Альтман рассказал, что число пользователей выросло настолько, что графические процессоры компании практически «расплавились».
Чтобы не отставать, Meta объявила о партнерстве с Midjourney, а немецкий стартап Black Forest Labs со своей моделью FLUX доминирует во многих чартах.

Google надеется, что Gemini сможет сократить отставание с помощью ChatGPT. По словам генерального директора Сундара Пичаи, в настоящее время у Gemini 450 миллионов пользователей в месяц, что значительно меньше, чем у ChatGPT, у которого более 700 миллионов пользователей в неделю.
Брихтова отметила, что Gemini разработан для реальных сценариев, от визуализации гостиных и садов до создания развлекательных фотографий. Модель обладает более глубокими знаниями о мире и может объединять несколько фотографий и цветовых палитр в одну визуализацию.
Однако Google также устанавливает строгие ограничения. Все сгенерированные изображения имеют явный водяной знак и скрытые идентификаторы в метаданных. Компания строго запрещает непреднамеренное создание конфиденциальных изображений, чтобы предотвратить использование дипфейков.
Ранее Google уже приносила извинения за неточные исторические изображения в «Джемини». В этот раз компания считает, что ей удалось найти баланс между креативностью и безопасностью. «Мы хотим, чтобы пользователи проявляли творческий подход, но не всё дозволено», — подчеркнула Брихтова.
С выпуском Gemini 2.5 Flash Image компания Google делает ставку на улучшение возможностей редактирования фотографий с помощью ИИ, надеясь удержать старых пользователей и привлечь новых в жесткой технологической гонке с OpenAI, Meta и другими конкурентами.
(По данным TechCrunch, Tom's Guide)

Источник: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
Комментарий (0)