Ejemplos de distorsiones de imagen creadas por IA.

[anuncio_1]

¿Cómo funcionan los generadores de imágenes impulsados por IA?

Los generadores de imágenes basados en inteligencia artificial utilizan modelos de aprendizaje automático que emplean texto introducido por el usuario para crear una o más imágenes que coinciden con la descripción. El entrenamiento de estos modelos requiere conjuntos de datos masivos que contienen millones de imágenes.

Las preocupantes inexactitudes de la imagen se deben a quién la creó (imagen 1). — Crear imágenes con IA es cada vez más fácil. Foto: Ijnet

Aunque Midjourney y DALL-E 2 no han revelado públicamente el funcionamiento exacto de sus algoritmos, la mayoría de los generadores de imágenes de IA utilizan un proceso llamado difusión. Los modelos de difusión funcionan añadiendo "ruido" aleatorio a los datos de entrenamiento y luego aprenden a reconstruir los datos eliminando el ruido. El modelo repite este proceso hasta producir una imagen que coincida con la entrada.

Esto difiere de los modelos de lenguaje a gran escala como ChatGPT. Estos modelos se entrenan con datos de texto sin etiquetar, que analizan para aprender patrones lingüísticos y generar respuestas similares a las humanas.

En la IA general, la entrada influye en la salida. Si el usuario especifica que solo quiere incluir personas de ciertos colores de piel o géneros en la imagen, el modelo lo tendrá en cuenta.

Sin embargo, además de esto, el modelo también tenderá a devolver ciertas imágenes por defecto. Esto suele deberse a la falta de diversidad en los datos de entrenamiento.

Un estudio reciente exploró cómo Midjourney visualizó términos aparentemente generales, incluidas profesiones de medios especializados (como “analista de noticias”, “comentarista de noticias” y “verificador de hechos”) y profesiones más generales (como “periodista”, “reportero” y “periodista”).

La investigación comenzó en agosto pasado y los resultados se reevaluaron seis meses después para evaluar el progreso del sistema durante ese tiempo. En total, los investigadores analizaron más de 100 imágenes generadas por IA durante este período.

Discriminación por edad y discriminación por género

Las preocupantes discrepancias en la imagen 2 se deben a quién las creó. — En ciertas profesiones, la persona mayor siempre es un hombre. Foto: IJN

Para puestos no específicos, Midjourney solo representa a hombres y mujeres jóvenes. Para roles especializados, se representan tanto jóvenes como mayores, pero estos últimos siempre son hombres.

Estos resultados refuerzan implícitamente varios estereotipos, incluida la suposición de que las personas mayores no trabajan en puestos no especializados, que sólo los hombres mayores son aptos para trabajos especializados y que el trabajo menos especializado suele estar reservado para las mujeres.

También hay diferencias notables en la imagen de hombres y mujeres. Por ejemplo, las mujeres son más jóvenes y sin arrugas, mientras que a los hombres se les permite tenerlas.

La IA también parece representar el género en un formato binario, en lugar de mostrar ejemplos de expresión de género más flexible.

prejuicio racial

Las preocupantes inexactitudes en la imagen 3 fueron creadas por alguien. — Las imágenes destinadas a "reporteros" o "periodistas" suelen mostrar únicamente a personas blancas. Foto: IJN

Todas las imágenes devueltas para términos como "periodista" o "reportero" sólo muestran imágenes de personas blancas.

Esto puede reflejar una falta de diversidad y representatividad en los datos de entrenamiento de IA subyacentes.

Clasismo y conservadurismo

Todos los personajes de las imágenes tienen una apariencia conservadora. Por ejemplo, ninguno tiene tatuajes, piercings, peinados inusuales ni ningún otro atributo que los distinga de las representaciones tradicionales.

Muchos también visten ropa formal, como camisas y trajes. Estos son indicadores de las expectativas de clase. Si bien esta vestimenta puede ser apropiada para ciertos roles, como presentadores de televisión, no necesariamente refleja el código de vestimenta de los reporteros o periodistas en general.

Urbanismo

Las preocupantes inexactitudes en la imagen 4 fueron creadas por alguien. — Todas las imágenes están ambientadas en la ciudad, aunque no hay ninguna indicación geográfica. Foto: IJN

Aunque no se especifica ninguna ubicación geográfica ni contexto específico, las imágenes devueltas por la IA incluyen espacios urbanos como rascacielos o barrios concurridos. Esto es incorrecto, ya que solo un poco más de la mitad de la población mundial vive en ciudades.

Anticuado

Las imágenes de trabajadores de los medios a menudo muestran tecnologías obsoletas, como máquinas de escribir, impresoras y cámaras antiguas.

Como hoy en día muchos profesionales se parecen, la IA parece depender de tecnologías más diferenciadas (incluidas aquellas que están obsoletas y ya no se utilizan) para aclarar los roles descritos.

Por lo tanto, si creas tus propias imágenes de IA, considera los posibles sesgos al escribir las descripciones. De lo contrario, podrías estar reforzando inadvertidamente estereotipos dañinos que la sociedad lleva décadas intentando erradicar.

¿Cómo funcionan los generadores de imágenes impulsados ​​por IA?