Примеры искажений изображений, созданных искусственным интеллектом.

Как работают генераторы изображений на основе искусственного интеллекта?

Генераторы изображений на основе искусственного интеллекта используют модели машинного обучения, применяя введенный пользователем текст для создания одного или нескольких изображений, соответствующих описанию. Для обучения этих моделей требуются огромные наборы данных, содержащие миллионы изображений.

Тревожные неточности на изображении связаны с тем, кто его создал (изображение 1). — Создание изображений с помощью ИИ становится очень простым. Фото: Ijnet

Хотя Midjourney и DALL-E 2 публично не раскрыли точный принцип работы своих алгоритмов, большинство генераторов изображений на основе ИИ используют процесс, называемый диффузией. Модели диффузии работают путем добавления случайного «шума» к обучающим данным, а затем обучаются восстанавливать данные, удаляя шум. Модель повторяет этот процесс до тех пор, пока не получит изображение, соответствующее входным данным.

Это отличается от крупномасштабных языковых моделей, таких как ChatGPT. Крупномасштабные языковые модели обучаются на неразмеченных текстовых данных, которые они анализируют для изучения языковых закономерностей и генерации ответов, похожих на человеческие.

В общем, в искусственном интеллекте входные данные влияют на выходные. Если пользователь указывает, что хочет видеть на изображении только людей определенного цвета кожи или пола, модель учтет это.

Однако, помимо этого, модель также будет склонна по умолчанию возвращать определенные изображения. Часто это является результатом недостаточного разнообразия в обучающих данных.

В недавнем исследовании изучалось, как Midjourney визуализирует, казалось бы, общие термины, включая специализированные профессии в сфере СМИ (такие как «аналитик новостей», «комментатор новостей» и «проверяющий факты») и более общие профессии (такие как «журналист», «репортер» и «журналистика»).

Исследование началось в августе прошлого года, а результаты были переоценены через шесть месяцев, чтобы оценить прогресс системы за это время. В общей сложности за этот период исследователи проанализировали более 100 изображений, сгенерированных искусственным интеллектом.

Возрастная дискриминация и гендерная дискриминация

Тревожные расхождения на изображении 2 объясняются тем, кто их создал. — В некоторых профессиях старший по возрасту всегда мужчина. Фото: IJN

В случае с неспецифическими должностями в Midjourney изображены только молодые мужчины и женщины. В случае со специализированными ролями изображены как молодые, так и пожилые люди, но пожилые люди всегда мужчины.

Эти результаты косвенно подкрепляют ряд стереотипов, в том числе предположение о том, что пожилые люди не работают на неспециализированных должностях, что только пожилые мужчины подходят для специализированной работы и что менее специализированная работа, как правило, предназначена для женщин.

Также существуют заметные различия в том, как изображаются мужчины и женщины. Например, женщины изображаются моложе и без морщин, в то время как мужчинам «разрешено» иметь морщины.

Кроме того, ИИ, по-видимому, представляет гендер в бинарном формате, а не демонстрирует примеры более гибкого гендерного самовыражения.

Расовые предрассудки

Тревожные неточности на изображении 3 были допущены кем-то. — Изображения, предназначенные для «репортеров» или «журналистов», как правило, содержат только белых людей. Фото: IJN

Все изображения, найденные по запросам типа «журналист» или «репортер», содержат только изображения белых людей.

Это может отражать недостаток разнообразия и репрезентативности в исходных данных для обучения ИИ.

Классовая дискриминация и консерватизм

Все персонажи на изображениях также имеют «консервативную» внешность. Например, ни у кого из них нет татуировок, пирсинга, необычных причесок или каких-либо других признаков, которые отличали бы их от традиционных образов.

Многие также носят формальную одежду, такую как рубашки и костюмы. Это показатели классовых ожиданий. Хотя такая одежда может быть уместна для определенных ролей, например, для телеведущих, она не обязательно отражает дресс-код для репортеров или журналистов в целом.

Урбанизм

Тревожные неточности на изображении 4 были допущены кем-то. — Все снимки сделаны в городе, хотя географических указаний нет. Фото: IJN

Хотя конкретное географическое местоположение или контекст не указаны, изображения, полученные с помощью ИИ, включают городские пространства, такие как небоскребы или оживленные кварталы. Это неверно, поскольку в городах проживает лишь немногим более половины населения мира .

Устаревший

На фотографиях работников СМИ часто можно увидеть устаревшие технологии, такие как пишущие машинки, принтеры и винтажные фотоаппараты.

Поскольку сегодня многие специалисты выглядят одинаково, искусственный интеллект, по-видимому, все чаще использует дифференцированные технологии (включая устаревшие и больше не применяемые), чтобы сделать описание ролей более понятным.

Поэтому, если вы создаете собственные изображения с помощью ИИ, учитывайте потенциальные искажения при написании описаний. В противном случае вы можете непреднамеренно укреплять вредные стереотипы, которые общество десятилетиями пыталось искоренить.

Хоанг Тон (по данным Императорского флота Японии)

Источник