Оновлення Google Gemini використовує модель зображення «нано-банан», розроблену Google DeepMind. Ця функція тепер доступна в усьому світі як для безкоштовних, так і для платних користувачів. Її найбільша перевага полягає в здатності зберігати обличчя та об’єкти на фотографіях узгодженими, з чим часто стикаються інші інструменти штучного інтелекту.
«Ми значно покращили якість зображень та здатність моделі дотримуватися інструкцій», – сказала Ніколь Бріхтова, керівник продукту в DeepMind. «Це оновлення робить редагування більш плавним, а результати достатньо хорошими, щоб їх можна було використовувати для будь-яких цілей».
Зберігайте «ти» на кожному фото
Одна з причин, чому фотографії, зроблені за допомогою штучного інтелекту, виглядають фальшивими, полягає в тому, що дрібні деталі спотворюються. Google стверджує, що Gemini вирішує цю проблему, дозволяючи змінити всю сцену, зберігаючи обличчя та вираз обличчя незмінними. Ви можете спробувати нову зачіску, змінити колір стіни або привести домашнього улюбленця в кадр, не турбуючись про спотворення зображення.

Gemini також дозволяє завантажувати кілька фотографій для об’єднання в одну, наприклад, об’єднати портрет з вашою кішкою, щоб створити фотографію, де ви вдвох їдете разом дорогою.
Gemini підтримує багатоетапне редагування, що дозволяє користувачам додавати до простору кожну деталь: від шпалер, меблів до кольору фарби. Перевагою є те, що змінюється лише та частина, яку потрібно редагувати, решта залишається незмінною.
Крім того, Близнюки можуть поєднувати стилі між фотографіями. Наприклад, перетворити гумові чоботи на туфлі з квітковим принтом або створити сукню з візерунком метеликів.
Перегони зі створення зображень штучного інтелекту між технологічними гігантами
Оновлення Google відбувається на тлі загострення війни за зображення на основі штучного інтелекту. OpenAI раніше запустив GPT-4o, який може генерувати зображення безпосередньо, і став вірусним завдяки серії мемів у стилі Studio Ghibli. Генеральний директор Сем Альтман розповів, що кількість користувачів зросла настільки, що графічні процесори компанії «майже розтанули».
Щоб не відставати, Meta оголосила про партнерство з Midjourney, тоді як німецький стартап Black Forest Labs зі своєю моделлю FLUX домінує в багатьох чартах.

Google сподівається, що Gemini зможе скоротити розрив за допомогою ChatGPT. За словами генерального директора Сундара Пічаї, Gemini наразі має 450 мільйонів користувачів щомісяця, що значно поступається ChatGPT, який має понад 700 мільйонів користувачів щотижня.
Бріхтова сказала, що Gemini розроблений для реальних сценаріїв, від візуалізації віталень та садів до створення цікавих фотографій. Модель має кращі «знання світу » та може поєднувати кілька фотографій та колірних палітр в одному рендерингу.
Однак Google також накладає суворі обмеження. Усі згенеровані зображення мають чіткий водяний знак та ідентифікаційний знак, прихований у метаданих. Компанія суворо забороняє створення конфіденційних зображень без дозволу, щоб запобігти зловживанню діпфейками.
Раніше Google вибачався за неточні історичні зображення Gemini. Цього разу компанія вважає, що їй вдалося знайти баланс між креативністю та безпекою. «Ми хочемо, щоб користувачі були креативними, але не все дозволено», – наголосила Брічтова.
З Gemini 2.5 Flash Image, Google робить ставку на покращення досвіду редагування фотографій за допомогою штучного інтелекту, сподіваючись зберегти старих користувачів та залучити нових у запеклій технологічній гонці з OpenAI, Meta та іншими конкурентами.
(Згідно з TechCrunch, Посібник Тома)

Джерело: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
Коментар (0)