Como funciona o gerador de imagens de IA?
Geradores de imagens baseados em IA utilizam modelos de aprendizado de máquina que utilizam textos inseridos pelo usuário e geram uma ou mais imagens que correspondem à descrição. O treinamento desses modelos requer enormes conjuntos de dados com milhões de imagens.
Criar imagens com IA está cada vez mais fácil. Foto: Ijnet
Embora nem o Midjourney nem o DALL-E 2 divulguem publicamente como seus algoritmos funcionam, a maioria dos geradores de imagens de IA utiliza um processo chamado difusão. Os modelos de difusão funcionam adicionando "ruído" aleatório aos dados de treinamento e, em seguida, aprendendo a reconstruir os dados removendo as partes ruidosas. O modelo repete esse processo até obter uma imagem que corresponda à entrada.
Isso é diferente de grandes modelos de linguagem como o ChatGPT. Grandes modelos de linguagem são treinados com dados de texto não rotulados, que analisam para aprender padrões de linguagem e gerar respostas semelhantes às humanas.
Na IA generativa, a entrada afeta a saída. Se um usuário especificar que deseja incluir apenas pessoas de uma determinada cor de pele ou gênero em uma imagem, o modelo levará isso em consideração.
No entanto, além disso, o modelo também tenderá a retornar determinadas imagens por padrão. Isso geralmente é resultado da falta de diversidade nos dados de treinamento.
Um estudo recente explorou como o Midjourney visualiza termos aparentemente genéricos, incluindo ocupações especializadas na mídia (como “analista de notícias”, “comentarista de notícias” e “verificador de fatos”) e ocupações mais gerais (como “jornalista”, “repórter”, “jornalismo”).
O estudo foi realizado em agosto do ano passado, e os resultados foram refeitos seis meses depois para verificar como o sistema havia melhorado ao longo desse período. No total, os pesquisadores analisaram mais de 100 imagens geradas por IA ao longo desse período.
Idadismo e sexismo
Para ocupações específicas, o mais velho é sempre do sexo masculino. Foto: IJN
Para cargos não específicos, o Midjourney mostra apenas imagens de homens e mulheres mais jovens. Para cargos específicos, são mostradas pessoas mais jovens e mais velhas, mas as mais velhas são sempre do sexo masculino.
Esses resultados reforçam implicitamente uma série de estereótipos, incluindo a suposição de que pessoas mais velhas não trabalham em cargos não especializados, que apenas homens mais velhos são adequados para trabalho profissional e que trabalhos menos especializados são normalmente reservados para mulheres.
Também há diferenças perceptíveis na forma como homens e mulheres são apresentados. Por exemplo, as mulheres são mais jovens e sem rugas, enquanto os homens têm "permissão" para ter rugas.
A IA também parece representar o gênero como binário, em vez de mostrar exemplos de expressão de gênero mais fluida.
Preconceito racial
Imagens de "repórteres" ou "jornalistas" geralmente mostram apenas pessoas brancas. Foto: IJN
Todas as imagens retornadas para termos como “jornalista”, “repórter” mostram apenas imagens de pessoas brancas.
Isso pode refletir uma falta de diversidade e sub-representação nos dados de treinamento subjacentes da IA.
Classismo e conservadorismo
Todos os personagens da imagem também têm uma aparência "conservadora". Por exemplo, nenhum deles tem tatuagens, piercings, penteados incomuns ou quaisquer outros atributos que os diferenciem das representações tradicionais.
Muitas pessoas também usam roupas formais, como camisas e ternos. Esses trajes são indicadores das expectativas de classe. Embora isso possa ser apropriado para certas funções, como apresentadores de televisão, não reflete necessariamente como repórteres ou jornalistas se vestem em geral.
Urbanismo
As imagens são todas ambientadas na cidade por padrão, embora não haja referência geográfica. Foto: IJN
Apesar de não especificar nenhuma localização ou contexto geográfico, as imagens retornadas pela IA incluem espaços urbanos, como arranha-céus ou ruas movimentadas. Isso não é verdade, pois pouco mais da metade da população mundial vive em cidades.
Desatualizado
Imagens de profissionais da mídia incluem tecnologias ultrapassadas, como máquinas de escrever, impressoras e câmeras antigas.
Como muitos profissionais parecem iguais hoje em dia, a IA parece estar recorrendo a tecnologias mais diferenciadas (incluindo aquelas ultrapassadas e não utilizadas) para tornar as funções descritas mais distintas.
Portanto, se você estiver criando suas próprias imagens de IA, considere possíveis vieses ao escrever descrições. Caso contrário, você pode estar inadvertidamente reforçando estereótipos prejudiciais que a sociedade passou décadas tentando dissipar.
Hoang Ton (de acordo com IJN)
[anúncio_2]
Fonte








Comentário (0)