Exemplos de distorções de imagem criadas por IA.

Como funcionam os geradores de imagens com inteligência artificial?

Os geradores de imagens baseados em inteligência artificial utilizam modelos de aprendizado de máquina, empregando texto inserido pelo usuário para criar uma ou mais imagens que correspondam à descrição. O treinamento desses modelos requer conjuntos de dados massivos contendo milhões de imagens.

As imprecisões preocupantes na imagem são de responsabilidade de quem a criou (imagem 1). — Criar imagens usando IA está se tornando muito fácil. Foto: Ijnet

Embora a Midjourney e a DALL-E 2 não tenham divulgado publicamente o funcionamento exato de seus algoritmos, a maioria dos geradores de imagens por IA utiliza um processo chamado difusão. Os modelos de difusão funcionam adicionando "ruído" aleatório aos dados de treinamento e, em seguida, aprendendo a reconstruir os dados removendo o ruído. O modelo repete esse processo até produzir uma imagem que corresponda à entrada.

Isso difere de modelos de linguagem em larga escala como o ChatGPT. Os modelos de linguagem em larga escala são treinados com dados de texto não rotulados, que eles analisam para aprender padrões de linguagem e gerar respostas semelhantes às humanas.

Em geral, em IA, a entrada influencia a saída. Se o usuário especificar que deseja incluir apenas pessoas de determinadas cores de pele ou gêneros na imagem, o modelo levará isso em consideração.

No entanto, além disso, o modelo também tenderá a retornar determinadas imagens por padrão. Isso geralmente resulta da falta de diversidade nos dados de treinamento.

Um estudo recente explorou como Midjourney visualizou termos aparentemente gerais, incluindo profissões especializadas na mídia (como "analista de notícias", "comentarista de notícias" e "verificador de fatos") e profissões mais gerais (como "jornalista", "repórter" e "jornalismo").

A pesquisa começou em agosto passado e os resultados foram reavaliados após seis meses para avaliar o progresso do sistema durante esse período. No total, os pesquisadores analisaram mais de 100 imagens geradas por IA durante esse período.

Discriminação por idade e discriminação de gênero

As discrepâncias preocupantes na imagem 2 devem-se a quem as criou. — Em determinadas profissões, a pessoa mais velha é sempre do sexo masculino. Foto: IJN

Para cargos não específicos, Midjourney retrata apenas homens e mulheres jovens. Para funções especializadas, tanto jovens quanto idosos são representados, mas os idosos são sempre homens.

Esses resultados reforçam implicitamente vários estereótipos, incluindo a suposição de que pessoas mais velhas não trabalham em funções não especializadas, que apenas homens mais velhos são adequados para trabalhos especializados e que trabalhos menos especializados são normalmente reservados para mulheres.

Existem também diferenças notáveis na forma como homens e mulheres são apresentados. Por exemplo, as mulheres são retratadas como mais jovens e sem rugas, enquanto aos homens é "permitido" que tenham rugas.

A IA também parece representar o gênero em um formato binário, em vez de exibir exemplos de expressões de gênero mais flexíveis.

Preconceito racial

As imprecisões preocupantes na imagem 3 foram criadas por alguém. — As imagens destinadas a "repórteres" ou "jornalistas" geralmente apresentam apenas pessoas brancas. Foto: IJN

Todas as imagens retornadas para termos como "jornalista" ou "repórter" mostram apenas imagens de pessoas brancas.

Isso pode refletir uma falta de diversidade e representatividade nos dados de treinamento de IA subjacentes.

Classismo e conservadorismo

Todos os personagens nas imagens também têm uma aparência "conservadora". Por exemplo, nenhum deles possui tatuagens, piercings, penteados incomuns ou quaisquer outros atributos que os diferenciem das representações tradicionais.

Muitos também usam trajes formais, como camisas e ternos. Esses são indicadores de expectativas de classe. Embora esse tipo de vestimenta possa ser apropriado para certas funções, como apresentadores de televisão, não reflete necessariamente o código de vestimenta para repórteres ou jornalistas em geral.

Urbanismo

As imprecisões preocupantes na imagem 4 foram criadas por alguém. — Todas as imagens foram feitas na cidade, embora não haja indicação geográfica. Foto: IJN

Embora não seja especificada uma localização geográfica ou contexto específico, as imagens retornadas pela IA incluem espaços urbanos como arranha-céus ou bairros movimentados. Isso está incorreto, pois pouco mais da metade da população mundial vive em cidades.

Desatualizado

As imagens de profissionais da mídia frequentemente mostram tecnologias obsoletas, como máquinas de escrever, impressoras e câmeras antigas.

Como muitos profissionais hoje em dia têm perfis semelhantes, a IA parece estar se baseando em tecnologias mais diferenciadas (incluindo aquelas que estão obsoletas e não são mais utilizadas) para tornar as funções descritas mais claras.

Portanto, se você estiver criando suas próprias imagens de IA, considere possíveis vieses ao escrever as descrições. Caso contrário, você pode estar reforçando inadvertidamente estereótipos prejudiciais que a sociedade passou décadas tentando erradicar.

Hoang Ton (de acordo com a IJN)

Fonte