Comment fonctionnent les générateurs d'images basés sur l'IA ?
Les générateurs d'images basés sur l'intelligence artificielle utilisent des modèles d'apprentissage automatique, exploitant le texte saisi par l'utilisateur pour créer une ou plusieurs images correspondant à la description. L'entraînement de ces modèles nécessite d'immenses ensembles de données contenant des millions d'images.
Créer des images grâce à l'IA devient très facile. Photo : Ijnet
Bien que Midjourney et DALL-E 2 n'aient pas divulgué publiquement le fonctionnement précis de leurs algorithmes, la plupart des générateurs d'images par IA utilisent un processus appelé diffusion. Les modèles de diffusion fonctionnent en ajoutant du « bruit » aléatoire aux données d'entraînement, puis en apprenant à reconstruire ces données en supprimant ce bruit. Le modèle répète ce processus jusqu'à produire une image correspondant à l'image d'entrée.
Cela diffère des modèles de langage à grande échelle comme ChatGPT. Ces derniers sont entraînés sur des données textuelles non étiquetées, qu'ils analysent pour apprendre les structures linguistiques et générer des réponses semblables à celles des humains.
En intelligence artificielle générale, les données d'entrée influencent les données de sortie. Si l'utilisateur précise qu'il souhaite inclure uniquement des personnes de certaines couleurs de peau ou de certains genres dans l'image, le modèle en tiendra compte.
Cependant, le modèle aura également tendance à privilégier certains types d'images. Ceci est souvent dû à un manque de diversité dans les données d'entraînement.
Une étude récente a exploré la manière dont Midjourney visualisait des termes apparemment généraux, y compris des professions médiatiques spécialisées (telles que « analyste de nouvelles », « commentateur de nouvelles » et « vérificateur de faits ») et des professions plus générales (telles que « journaliste », « reporter » et « journalisme »).
Les recherches ont débuté en août dernier et les résultats ont été réévalués six mois plus tard afin d'apprécier les progrès du système durant cette période. Au total, les chercheurs ont analysé plus de 100 images générées par l'IA.
Discrimination fondée sur l'âge et discrimination sexuelle
Dans certaines professions, la personne la plus âgée est toujours un homme. Photo : IJN
Pour les professions non spécifiques, Midjourney ne représente que des jeunes hommes et femmes. Pour les rôles spécialisés, des personnes jeunes et âgées sont représentées, mais les personnes âgées sont toujours des hommes.
Ces résultats renforcent implicitement plusieurs stéréotypes, notamment l'idée que les personnes âgées n'occupent pas de postes non spécialisés, que seuls les hommes âgés sont aptes aux travaux spécialisés et que les travaux moins spécialisés sont généralement réservés aux femmes.
Il existe également des différences notables dans la manière dont les hommes et les femmes sont représentés. Par exemple, les femmes sont plus jeunes et sans rides, tandis que les hommes sont « autorisés » à avoir des rides.
L'IA semble également représenter le genre de manière binaire, plutôt que de présenter des exemples d'expression de genre plus flexible.
préjugés raciaux
Les images destinées aux « reporters » ou aux « journalistes » ne présentent généralement que des personnes blanches. Photo : IJN
Toutes les images renvoyées pour des termes comme « journaliste » ou « reporter » ne montrent que des images de personnes blanches.
Cela peut refléter un manque de diversité et de représentativité dans les données d'entraînement de l'IA sous-jacentes.
Le classisme et le conservatisme
Tous les personnages représentés sur les images ont une apparence « conservatrice ». Par exemple, aucun d'eux ne porte de tatouages, de piercings, de coiffures originales, ni aucun autre attribut qui les distinguerait des représentations traditionnelles.
Nombreux sont ceux qui portent des tenues formelles, comme des chemises et des costumes. Ces vêtements reflètent les attentes liées à un certain statut social. Si cette tenue peut convenir à certaines fonctions, comme celle de présentateur de télévision, elle ne correspond pas nécessairement au code vestimentaire des journalistes en général.
Urbanisme
Toutes les images ont été prises en ville, bien qu'aucune indication géographique ne soit fournie. Photo : IJN
Bien qu'aucun lieu géographique ni contexte précis ne soit indiqué, les images renvoyées par l'IA incluent des espaces urbains tels que des gratte-ciel ou des quartiers animés. Or, c'est inexact, car à peine plus de la moitié de la population mondiale vit en ville.
Dépassé
Les images de professionnels des médias présentent souvent des technologies obsolètes telles que des machines à écrire, des imprimantes et des appareils photo anciens.
Du fait que de nombreux professionnels se ressemblent aujourd'hui, l'IA semble s'appuyer sur des technologies plus différenciées (y compris celles qui sont obsolètes et ne sont plus utilisées) pour clarifier les rôles décrits.
Par conséquent, si vous créez vos propres images générées par IA, tenez compte des biais potentiels lors de la rédaction des descriptions. Autrement, vous risquez de renforcer involontairement des stéréotypes néfastes que la société s'efforce d'éradiquer depuis des décennies.
Hoang Ton (selon IJN)
Source








Comment (0)