Google Gemini виводить ШІ на новий рівень: змінюйте фон, зачіску та об'єднуйте фотографії лише однією командою

Оновлення Google Gemini використовує модель зображення «нано-банан», розроблену Google DeepMind. Ця функція тепер доступна в усьому світі як для безкоштовних, так і для платних користувачів. Її найбільша перевага полягає в здатності зберігати обличчя та об’єкти на зображеннях узгодженими, з чим часто стикаються інші інструменти штучного інтелекту.

«Ми значно покращили якість зображення та здатність моделі виконувати інструкції», – сказала Ніколь Бріхтова, керівник продукту DeepMind. «Це оновлення робить редагування більш плавним, а результати достатньо хороші, щоб їх можна було використовувати для будь-яких цілей».

Зберігайте «ти» на кожному фото

Одна з причин, чому фотографії, зроблені за допомогою штучного інтелекту, виглядають фальшивими, полягає в тому, що дрібні деталі спотворюються. Google стверджує, що Gemini вирішує цю проблему, дозволяючи змінити всю сцену, зберігаючи обличчя та вираз обличчя незмінними. Ви можете спробувати нову зачіску, змінити колір стіни або привести домашнього улюбленця в кадр, не турбуючись про спотворення зображення.

Злиття фотографій разом.gif — Об’єднайте фотографії з новим контекстом з двох існуючих зображень за допомогою Google Gemini. Джерело: Google

Gemini також дозволяє завантажувати кілька фотографій для об’єднання в одну, наприклад, об’єднати портрет з вашою кішкою, щоб створити фотографію, де ви вдвох їдете разом дорогою.

Gemini підтримує багатоетапне редагування, що дозволяє користувачам додавати до простору кожну деталь: від шпалер, меблів до кольору фарби. Перевагою є те, що змінюється лише та частина, яку потрібно редагувати, решта залишається незмінною.

Крім того, Близнюки можуть поєднувати стилі між фотографіями. Наприклад, перетворити гумові чоботи на туфлі з квітковим принтом або створити сукню з візерунком метеликів.

Перегони зі створення зображень зі штучним інтелектом серед технологічних гігантів

Оновлення Google відбувається на тлі загострення війни за зображення на основі штучного інтелекту. OpenAI раніше запустила GPT-4o, який може генерувати зображення безпосередньо, і стала вірусною завдяки серії мемів у стилі Studio Ghibli. Генеральний директор Сем Альтман розповів, що кількість користувачів зросла настільки, що графічні процесори компанії майже «розтанули».

Щоб не відставати, Meta оголосила про партнерство з Midjourney, тоді як німецький стартап Black Forest Labs зі своєю моделлю FLUX домінує в багатьох чартах.

багатоповоротне редагування.gif — Багатоетапні можливості редагування фотографій у Google Gemini. Джерело: Google

Google сподівається, що Gemini зможе скоротити розрив за допомогою ChatGPT. За словами генерального директора Сундара Пічаї, Gemini наразі має 450 мільйонів користувачів щомісяця, що значно менше, ніж ChatGPT, який має понад 700 мільйонів користувачів щотижня.

Бріхтова сказала, що Gemini розроблений для реальних сценаріїв, від візуалізації віталень та садів до створення цікавих фотографій. Модель має кращі «знання світу » та може поєднувати кілька фотографій та колірних палітр в одному рендерингу.

Однак Google також встановлює суворі обмеження. Усі згенеровані зображення мають чіткий водяний знак та приховані ідентифікатори в метаданих. Компанія суворо забороняє створення конфіденційних зображень мимовільно, щоб запобігти зловживанню діпфейками.

Раніше Google вибачався за неточні історичні зображення Gemini. Цього разу компанія вважає, що їй вдалося знайти баланс між креативністю та безпекою. «Ми хочемо, щоб користувачі були креативними, але не все дозволено», – наголосила Брічтова.

З Gemini 2.5 Flash Image, Google робить ставку на покращення досвіду редагування фотографій за допомогою штучного інтелекту, сподіваючись зберегти старих користувачів та залучити нових у запеклій технологічній гонці з OpenAI, Meta та іншими конкурентами.

(Згідно з TechCrunch, Посібник Тома)

За 85 мільйонів донгів за «мозок» Nvidia прокладає шлях до ери створення людьми роботів. Nvidia щойно випустила Jetson AGX Thor – чіп, який називають «мозком робота», здатний допомагати машинам бачити, думати та діяти як люди, відкриваючи гонку фізичного штучного інтелекту за ціною 3499 доларів США.

Джерело: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html