Comment fonctionne le générateur d'images AI ?
Les générateurs d'images basés sur l'IA utilisent des modèles d'apprentissage automatique qui, à partir du texte saisi par l'utilisateur, génèrent une ou plusieurs images correspondant à la description. L'entraînement de ces modèles nécessite d'énormes ensembles de données contenant des millions d'images.
Créer des images avec l'IA devient plus facile. Photo : Ijnet
Bien que ni Midjourney ni DALL-E 2 ne divulguent publiquement le fonctionnement de leurs algorithmes, la plupart des générateurs d'images d'IA utilisent un processus appelé diffusion. Les modèles de diffusion fonctionnent en ajoutant du « bruit » aléatoire aux données d'entraînement, puis apprennent à reconstruire les données en supprimant les parties bruyantes. Le modèle répète ce processus jusqu'à ce qu'il produise une image correspondant à l'entrée.
Ceci diffère des grands modèles linguistiques comme ChatGPT. Ces grands modèles linguistiques sont entraînés sur des données textuelles non étiquetées, qu'ils analysent pour apprendre des schémas linguistiques et générer des réponses de type humain.
En IA générative, l'entrée influence la sortie. Si un utilisateur spécifie qu'il souhaite uniquement inclure des personnes d'une certaine couleur de peau ou d'un certain sexe dans une image, le modèle en tiendra compte.
Cependant, le modèle aura également tendance à renvoyer par défaut certaines images. Cela résulte souvent d'un manque de diversité dans les données d'entraînement.
Une étude récente a exploré la manière dont Midjourney visualise des termes apparemment génériques, y compris des professions médiatiques spécialisées (telles que « analyste de nouvelles », « commentateur de nouvelles » et « vérificateur de faits ») et des professions plus générales (telles que « journaliste », « reporter », « journalisme »).
L'étude a débuté en août dernier et les résultats ont été réexaminés six mois plus tard pour évaluer les améliorations apportées au système. Au total, les chercheurs ont analysé plus de 100 images générées par l'IA au cours de cette période.
Âgisme et sexisme
Pour certaines professions, les anciens sont toujours des hommes. Photo : IJN
Pour les intitulés de poste non spécifiques, Midjourney affiche uniquement des images de jeunes hommes et de jeunes femmes. Pour des postes spécifiques, des personnes jeunes et plus âgées sont présentées, mais les plus âgées sont toujours des hommes.
Ces résultats renforcent implicitement un certain nombre de stéréotypes, notamment l’hypothèse selon laquelle les personnes âgées ne travaillent pas dans des postes non spécialisés, que seuls les hommes âgés sont aptes à exercer un travail professionnel et que les travaux moins spécialisés sont généralement réservés aux femmes.
On observe également des différences notables dans la façon dont les hommes et les femmes sont représentés. Par exemple, les femmes sont plus jeunes et sans rides, tandis que les hommes ont le droit d'en avoir.
L’IA semble également représenter le genre comme binaire, plutôt que de montrer des exemples d’expression de genre plus fluide.
Préjugés raciaux
Les images de « reporters » ou de « journalistes » ne montrent souvent que des personnes blanches. Photo : IJN
Toutes les images renvoyées pour des termes tels que « journaliste », « reporter » ne montrent que des images de personnes blanches.
Cela peut refléter un manque de diversité et une sous-représentation dans les données de formation sous-jacentes de l’IA.
Classisme et conservatisme
Tous les personnages de l'image ont également une apparence « conservatrice ». Par exemple, aucun d'entre eux ne porte de tatouages, de piercings, de coiffures inhabituelles ou tout autre attribut qui les distinguerait des représentations traditionnelles.
De nombreuses personnes portent également des vêtements formels, tels que des chemises et des costumes. Ces vêtements reflètent les attentes sociales. Si cela peut convenir à certains rôles, comme celui de présentateur de télévision, cela ne reflète pas nécessairement la tenue vestimentaire habituelle des reporters ou des journalistes.
Urbanisme
Les images sont toutes situées en ville par défaut, sans aucune référence géographique. Photo : IJN
Bien qu'aucun lieu ni contexte géographique ne soit précisé, les images renvoyées par l'IA comprenaient des espaces urbains tels que des gratte-ciel ou des rues animées. Ce n'est pas vrai, car un peu plus de la moitié de la population mondiale vit en ville.
Dépassé
Les images des travailleurs des médias incluent des technologies obsolètes telles que des machines à écrire, des imprimantes et des appareils photo vintage.
Étant donné que de nombreux professionnels se ressemblent aujourd’hui, l’IA semble s’appuyer sur des technologies plus différenciées (y compris des technologies obsolètes et inutilisées) pour rendre les rôles décrits plus distincts.
Si vous créez vos propres images d'IA, tenez compte des biais potentiels lors de la rédaction des descriptions. Sinon, vous risquez de renforcer par inadvertance des stéréotypes néfastes que la société s'efforce de dissiper depuis des décennies.
Hoang Ton (selon IJN)
Source
Comment (0)