Příklady zkreslení v obrázcích generovaných umělou inteligencí

Jak funguje generátor obrázků s umělou inteligencí?

Generátory obrázků založené na umělé inteligenci používají modely strojového učení, které berou texty zadané uživatelem a generují jeden nebo více obrázků odpovídajících popisu. Trénování těchto modelů vyžaduje obrovské datové sady s miliony obrázků.

Kdo vytvořil ty podivné chyby na obrázku? Obrázek 1 — Vytváření obrázků s umělou inteligencí je stále snazší. Foto: Ijnet

Ačkoli ani Midjourney, ani DALL-E 2 veřejně nezveřejňují, jak jejich algoritmy fungují, většina generátorů obrázků s umělou inteligencí používá proces zvaný difúze. Difúzní modely fungují tak, že k trénovacím datům přidávají náhodný „šum“ a poté se naučí data rekonstruovat odstraněním zašumených částí. Model tento proces opakuje, dokud nemá obraz, který odpovídá vstupu.

To se liší od velkých jazykových modelů, jako je ChatGPT. Velké jazykové modely jsou trénovány na neoznačených textových datech, která analyzují, aby se naučily jazykové vzory a generovaly odpovědi podobné lidským.

V generativní umělé inteligenci vstup ovlivňuje výstup. Pokud uživatel určí, že chce do obrázku zahrnout pouze osoby určité barvy pleti nebo pohlaví, model to zohlední.

Kromě toho však bude model také mít tendenci standardně vracet určité obrázky. To je často důsledkem nedostatku diverzity trénovacích dat.

Nedávná studie zkoumala, jak Midjourney vizualizuje zdánlivě obecné pojmy, včetně specializovaných mediálních povolání (jako „analytik zpráv“, „komentátor zpráv“ a „ověřovatel faktů“) a obecnějších povolání (jako „novinář“, „reportér“ a „žurnalistika“).

Studie byla provedena v srpnu loňského roku a výsledky byly znovu analyzovány o šest měsíců později, aby se zjistilo, jak se systém za tu dobu zlepšil. Celkem vědci za tuto dobu analyzovali více než 100 obrázků generovaných umělou inteligencí.

Ageismus a sexismus

Kdo způsobil ty podivné chyby na obrázku 2? — U specifických povolání je starší vždy muž. Foto: IJN

U nespecifikovaných pracovních pozic zobrazuje Midjourney pouze obrázky mladších mužů a žen. U konkrétních rolí se zobrazují mladší i starší lidé, ale starší lidé jsou vždy muži.

Tyto výsledky implicitně posilují řadu stereotypů, včetně předpokladu, že starší lidé nepracují na nespecializovaných pozicích, že pro profesionální práci jsou vhodní pouze starší muži a že méně specializovaná práce je obvykle vyhrazena ženám.

Znatelné rozdíly jsou také v tom, jak jsou muži a ženy prezentováni. Například ženy jsou mladší a bez vrásek, zatímco muži mají vrásky „dovoleno“.

Zdá se také, že umělá inteligence reprezentuje pohlaví binárně, spíše než aby ukazovala příklady fluidnějšího vyjádření pohlaví.

Rasové předsudky

Kdo způsobil ty podivné chyby na obrázku 3? — Obrázky pro „reportéry“ nebo „novináře“ často zobrazují pouze bílé lidi. Foto: IJN

Všechny obrázky vrácené pro výrazy jako „novinář“ nebo „reportér“ zobrazují pouze obrázky bílých lidí.

To může odrážet nedostatek rozmanitosti a nedostatečné zastoupení v podkladových trénovacích datech umělé inteligence.

Klasicismus a konzervatismus

Všechny postavy na obrázku mají také „konzervativní“ vzhled. Například žádná z nich nemá tetování, piercing, neobvyklý účes ani žádné jiné atributy, které by je odlišovaly od tradičních zobrazení.

Mnoho lidí také nosí formální oblečení, jako jsou košile a obleky. To jsou ukazatele společenských očekávání. I když to může být vhodné pro určité role, jako jsou televizní moderátoři, nemusí to nutně odrážet to, jak se reportéři nebo novináři obecně oblékají.

Urbanismus

Kdo vytvořil ty podivné chyby na obrázku? Obrázek 4 — Všechny snímky se standardně odehrávají ve městě, ačkoliv zde není uveden žádný geografický odkaz. Foto: IJN

Přestože umělá inteligence neuvádí žádnou polohu ani geografický kontext, snímky vrácené umělou inteligencí zahrnují městské prostory, jako jsou mrakodrapy nebo rušné ulice. To není pravda, protože ve městech žije něco málo přes polovina světové populace.

Zastaralý

Obrázky mediálních pracovníků zahrnují zastaralé technologie, jako jsou psací stroje, tiskárny a historické fotoaparáty.

Vzhledem k tomu, že mnoho profesionálů dnes vypadá stejně, zdá se, že umělá inteligence čerpá z diferencovanějších technologií (včetně zastaralých a nepoužívaných), aby popisované role lépe odlišila.

Pokud si tedy vytváříte vlastní obrázky s umělou inteligencí, zvažte při psaní popisů potenciální zkreslení. Jinak můžete neúmyslně posilovat škodlivé stereotypy, které se společnost po celá desetiletí snaží vyvrátit.

Hoang Ton (podle IJN)

Zdroj