Парадокс створення зображень за допомогою штучного інтелекту

Замість покращення якості зображення, багато моделей штучного інтелекту активно імітують шум, погане освітлення та візуальні спотворення для підвищення реалістичності.

ZNews•17/12/2025

Nano Banana Pro від Google має досить реалістичну якість зображення. Фото: Mashable .

На ранніх етапах розвитку технології обробки зображень зі штучним інтелектом (ШІ) отримані продукти часто можна було легко ідентифікувати як підробки. Зображення із занадто великою кількістю пальців, спотвореними деталями тіла або нереалістичним освітленням були поширеними ознаками.

Однак ця епоха добігає кінця. Інструменти для створення зображень на базі штучного інтелекту стають дедалі переконливішими не завдяки вдосконаленню самого зображення, а завдяки навмисному додаванню недоліків, що імітують справжні фотографії.

Тенденції у створенні зображень за допомогою штучного інтелекту

OpenAI запустила свій інструмент для генерації зображень DALL-E менше п'яти років тому. Перша версія могла створювати зображення лише з роздільною здатністю 256 x 256 пікселів, що робило її радше експериментальною, ніж практичною. У DALL-E 2 роздільну здатність було збільшено до 1024 x 1024 пікселів, що призвело до значно реалістичніших зображень. Однак деталі все ще мають ознаки аномалій, від розмитих поверхонь до об'єктів, які важко візуально пояснити.

Водночас, Midjourney та Stable Diffusion також швидко привернули увагу творчої спільноти. Протягом наступних кількох років моделі постійно вдосконалювалися, зменшуючи геометричні помилки та покращуючи видимість тексту. Однак значна частина ШІ все ще здавалася «занадто ідеальною», а освітлення, композиція та плавність більше нагадували ілюстрації, ніж реальні фотографії.

Багато моделей штучного інтелекту створюють зображення, які є надто реалістичними. Фото: Bloomberg .

Ця тенденція змінюється. Розробники починають рухатися до реалізму, відтворюючи недоліки, властиві фотографіям, зробленим звичайними пристроями, особливо камерами телефонів.

У другій половині 2025 року Google представив модель створення зображень Nano Banana у застосунку Gemini, а потім оновив її за допомогою Nano Banana Pro. За словами пошукового гіганта, це найреалістичніша модель зображення на сьогоднішній день, яка дозволяє використовувати реальні знання та ефективніше відображати текст.

Примітно, що багато зображень, отриманих цією моделлю, дуже схожі на ті, що були зроблені смартфонами, починаючи від контрастності та перспективи і закінчуючи освітленням та різкістю.

Фотографії, зроблені камерами смартфонів, мають свій унікальний стиль. Через обмеження розміру сенсора та об’єктива, смартфони покладаються на багатокадрову обробку для покращення якості зображення. Це створює фотографії з покращеними темними ділянками, виділеними деталями та оптимізованими для відображення на маленьких екранах. Штучний інтелект, який вивчає цей стиль, робить зображення більш звичними для глядачів, тим самим зменшуючи відчуття штучності.

Парадокс реалістичних зображень

Google — не єдиний випадок. Adobe Firefly пропонує опцію «покращення зображення», яка дозволяє користувачам зменшувати полірування зображень, створених за допомогою штучного інтелекту, щоб вони максимально нагадували реальні фотографії. Meta також містить повзунок «стилювання», який дозволяє користувачам налаштовувати рівень реалізму.

У сфері відео такі інструменти, як Sora від OpenAI або Veo від Google, використовуються для створення низькоякісних зернистих кліпів, що імітують зображення з камер безпеки, які є достатньо «поганими», щоб бути правдоподібними.

Відео, створені за допомогою штучного інтелекту, стають дедалі реалістичнішими. Фото: Bloomberg .

На думку деяких експертів з фотографії, здатність штучного інтелекту імітувати знайомі недоліки може допомогти моделям уникнути потрапляння в «незвичайну долину» – стан, коли зображення дуже нагадують реальність, але все ж створюють відчуття неспокою у глядача. Замість того, щоб відтворювати реальність, штучному інтелекту просто потрібно імітувати те, як люди знімають зображення з усіма їхніми властивими обмеженнями та неточностями.

Цей розвиток створює значний виклик для здатності розрізняти справжні зображення та підроблені. Оскільки зображення, створені штучним інтелектом, дедалі більше нагадують звичайні фотографії, ідентифікація їхнього походження стає все складнішою. У відповідь на це впроваджується стандарт C2PA Content Credentials для додавання криптографічних підписів до зображень, що дозволяє відстежувати їх з моменту створення.

Наразі більшість фотографій, зроблених смартфонами, не мають інформації для автентифікації, а межа між цифрово відредагованими зображеннями та тими, що створені повністю за допомогою штучного інтелекту, стає дедалі розмитішою. Доки стандарти не будуть однаково впроваджені на всьому обладнанні та платформах обміну, користувачам все одно слід бути обережними щодо зображень у цифровому просторі.

Джерело: https://znews.vn/nghich-ly-cua-ai-tao-anh-post1612058.html