Приклади упередженості зображень, створених штучним інтелектом

Як працює генератор зображень на основі штучного інтелекту?

Генератори зображень на основі штучного інтелекту використовують моделі машинного навчання, які беруть введений користувачем текст і генерують одне або кілька зображень, що відповідають опису. Навчання цих моделей вимагає величезних наборів даних з мільйонами зображень.

Хто створив дивні помилки на зображенні? Зображення 1 — Створення зображень за допомогою штучного інтелекту стає простішим. Фото: Ijnet

Хоча ні Midjourney, ні DALL-E 2 публічно не розкривають принцип роботи своїх алгоритмів, більшість генераторів зображень на основі штучного інтелекту використовують процес, який називається дифузією. Моделі дифузії працюють, додаючи випадковий «шум» до навчальних даних, а потім навчаються реконструювати дані, видаляючи шумні частини. Модель повторює цей процес, доки не отримає зображення, яке відповідає вхідним даним.

Це відрізняється від моделей великих мов програмування, таких як ChatGPT. Моделі великих мов навчаються на немаркованих текстових даних, які вони аналізують, щоб вивчати мовні шаблони та генерувати відповіді, подібні до людських.

У генеративному штучному інтелекті вхідні дані впливають на вихідні. Якщо користувач вказує, що він хоче включити до зображення лише людей певного кольору шкіри або статі, модель врахує це.

Однак, крім цього, модель також схильна за замовчуванням повертати певні зображення. Це часто є результатом недостатньої різноманітності в навчальних даних.

Нещодавнє дослідження досліджувало, як Midjourney візуалізує, здавалося б, загальні терміни, включаючи спеціалізовані медіа-професії (такі як «аналітик новин», «коментатор новин» та «перевірник фактів») та більш загальні професії (такі як «журналіст», «репортер», «журналістика»).

Дослідження було проведено у серпні минулого року, а результати були повторно проаналізовані через шість місяців, щоб побачити, як система покращилася за цей час. Загалом дослідники проаналізували понад 100 зображень, згенерованих штучним інтелектом, за цей час.

Ейджизм та сексизм

Хто створив дивні помилки на зображенні 2? — Для певних професій старшим завжди є чоловік. Фото: IJN

Для неконкретних посад Midjourney показує лише зображення молодших чоловіків та жінок. Для конкретних посад показуються як молодші, так і старші люди, але старші люди завжди чоловіки.

Ці результати неявно підкріплюють низку стереотипів, зокрема припущення, що люди похилого віку не працюють на неспеціалізованих посадах, що лише чоловіки похилого віку підходять для професійної роботи, і що менш спеціалізована робота зазвичай призначена для жінок.

Також помітні відмінності у тому, як представлені чоловіки та жінки. Наприклад, жінки молодші та без зморшок, тоді як чоловікам «дозволено» мати зморшки.

Штучний інтелект також, схоже, представляє гендер як бінарну поняття, а не показує приклади більш гнучкого гендерного вираження.

Расові упередження

Хто створив дивні помилки на зображенні 3? — Зображення для «репортерів» або «журналістів» часто показують лише білих людей. Фото: IJN

Усі зображення, знайдені за такими термінами, як «журналіст», «репортер», показують лише зображення білих людей.

Це може відображати брак різноманітності та недостатню представленість у базових навчальних даних ШІ.

Класизм і консерватизм

Усі персонажі на зображенні також мають «консервативний» вигляд. Наприклад, жоден з них не має татуювань, пірсингу, незвичайних зачісок чи будь-яких інших рис, які б відрізняли їх від традиційних зображень.

Багато людей також носять офіційний одяг, такий як сорочки та костюми. Це показники класових очікувань. Хоча це може бути доречно для певних ролей, таких як телеведучі, це не обов'язково є справжнім відображенням того, як репортери чи журналісти зазвичай одягаються.

Урбанізм

Хто створив дивні помилки на зображенні? Зображення 4 — За замовчуванням усі зображення зняті в місті, хоча географічної прив'язки немає. Фото: IJN

Незважаючи на відсутність уточнення місця розташування чи географічного контексту, зображення, що повертаються штучним інтелектом, включають міські простори, такі як хмарочоси чи жваві вулиці. Це неправда, оскільки трохи більше половини населення світу живе в містах.

Застарілий

Зображення працівників ЗМІ включають застарілі технології, такі як друкарські машинки, принтери та старовинні фотоапарати.

Оскільки багато професіоналів сьогодні виглядають однаково, штучний інтелект, схоже, використовує більш диференційовані технології (включаючи застарілі та невикористані), щоб зробити описані ролі більш чіткими.

Тож, якщо ви створюєте власні зображення зі штучним інтелектом, враховуйте потенційні упередження під час написання описів. В іншому випадку ви можете ненавмисно підкріпити шкідливі стереотипи, які суспільство намагалося розвіяти десятиліттями.

Хоангтон (за даними IJN)

Джерело