Példák az MI által generált képek torzítására

[hirdetés_1]

Hogyan működik az AI képgenerátor?

A mesterséges intelligencia alapú képgenerátorok gépi tanulási modelleket használnak, amelyek a felhasználó által megadott szövegekből egy vagy több, a leírásnak megfelelő képet generálnak. Ezen modellek betanításához hatalmas adathalmazokra van szükség, több millió képpel.

Ki okozta a képen látható furcsa hibákat? 1. kép — Egyre könnyebb képeket készíteni mesterséges intelligenciával. Fotó: Ijnet

Bár sem a Midjourney, sem a DALL-E 2 nem hozza nyilvánosságra algoritmusainak működését, a legtöbb mesterséges intelligencia által generált képgenerátor egy diffúziónak nevezett folyamatot használ. A diffúziós modellek úgy működnek, hogy véletlenszerű „zajt” adnak a tanulóadatokhoz, majd megtanulják rekonstruálni az adatokat a zajos részek eltávolításával. A modell ezt a folyamatot addig ismétli, amíg olyan képet nem kap, amely megfelel a bemenetnek.

Ez eltér a nagy nyelvi modellektől, mint például a ChatGPT. A nagy nyelvi modelleket címkézetlen szöveges adatokon képezik ki, amelyeket elemeznek a nyelvi minták megtanulása és az emberi nyelvhez hasonló válaszok generálása érdekében.

A generatív mesterséges intelligenciában a bemenet befolyásolja a kimenetet. Ha egy felhasználó megadja, hogy csak egy bizonyos bőrszínű vagy nemű embereket szeretne a képen megjeleníteni, a modell ezt figyelembe veszi.

Ezen felül azonban a modell hajlamos bizonyos képeket alapértelmezés szerint visszaadni. Ez gyakran a betanítási adatok diverzitásának hiányából ered.

Egy nemrégiben készült tanulmány azt vizsgálta, hogy a Midjourney hogyan vizualizálja a látszólag általános kifejezéseket, beleértve a speciális médiafoglalkozásokat (mint például a „hírelemző”, a „hírkommentátor” és a „tényellenőrző”) és az általánosabb foglalkozásokat (mint például az „újságíró”, a „riporter”, az „újságírás”).

A tanulmányt tavaly augusztusban végezték, és az eredményeket hat hónappal később megismételték, hogy lássák, hogyan fejlődött a rendszer az elmúlt időszakban. Összesen a kutatók több mint 100 mesterséges intelligencia által generált képet elemeztek ez idő alatt.

Korosztály- és szexizmus

Ki okozta a 2. képen látható furcsa hibákat? — Bizonyos foglalkozások esetében az idősebb mindig férfi. Fotó: IJN

Nem konkrét munkakörök esetén a Midjourney csak fiatalabb férfiak és nők képeit mutatja. Konkrét szerepkörök esetén mind a fiatalabb, mind az idősebb személyeket megjeleníti, de az idősebbek mindig férfiak.

Ezek az eredmények implicit módon számos sztereotípiát megerősítenek, beleértve azt a feltételezést is, hogy az idősebb emberek nem dolgoznak nem specializált pozíciókban, hogy csak az idősebb férfiak alkalmasak szakmai munkára, és hogy a kevésbé specializált munka jellemzően a nők számára van fenntartva.

Észrevehető különbségek vannak abban is, hogyan mutatják be a férfiakat és a nőket. Például a nők fiatalabbak és ránctalanabbak, míg a férfiaknak „megengedett”, hogy ráncosak legyenek.

Úgy tűnik, hogy a mesterséges intelligencia a nemet binárisként ábrázolja, ahelyett, hogy a folyékonyabb nemi kifejezés példáit mutatná.

Faji előítélet

Ki okozta a 3. képen látható furcsa hibákat? — A „riporterek” vagy „újságírók” képein gyakran csak fehér emberek láthatók. Fotó: IJN

Az olyan kifejezésekre visszaadott képek, mint az „újságíró”, „riporter”, csak fehér embereket ábrázolnak.

Ez a mesterséges intelligencia mögöttes betanítási adatainak sokszínűségének hiányát és alulreprezentáltságát tükrözheti.

Klasszizmus és konzervativizmus

A képen látható összes szereplő „konzervatív” megjelenésű. Például egyiküknek sincs tetoválása, piercingje, szokatlan frizurája vagy bármilyen más olyan tulajdonsága, amely megkülönböztetné őket a hagyományos ábrázolásoktól.

Sokan viselnek alkalmi öltözetet is, például inget és öltönyt. Ezek az osztályelvárások mutatói. Bár ez bizonyos szerepkörökben, például televíziós műsorvezetőként megfelelő lehet, nem feltétlenül tükrözi hűen a riporterek vagy újságírók általános öltözködését.

Urbanizmus

Ki okozta a képen látható furcsa hibákat? 4. kép — A képek alapértelmezés szerint mind a városban jelennek meg, bár nincs földrajzi hivatkozás. Fotó: IJN

Annak ellenére, hogy nem határoztak meg semmilyen helyszínt vagy földrajzi kontextust, a mesterséges intelligencia által visszaadott képek városi tereket, például felhőkarcolókat vagy forgalmas utcákat is tartalmaznak. Ez nem igaz, mivel a világ népességének valamivel több mint a fele városokban él.

Elavult

A médiamunkások képein olyan elavult technológiák szerepelnek, mint az írógépek, nyomtatók és régi fényképezőgépek.

Mivel sok szakember ma ugyanúgy néz ki, úgy tűnik, hogy a mesterséges intelligencia differenciáltabb technológiákra (beleértve az elavult és nem használt technológiákat is) támaszkodik, hogy a leírt szerepkörök jobban elkülönüljenek.

Tehát, ha saját mesterséges intelligencia által létrehozott képeket készítesz, vedd figyelembe az esetleges torzításokat a leírások írásakor. Ellenkező esetben akaratlanul is megerősítheted azokat a káros sztereotípiákat, amelyeket a társadalom évtizedek óta próbál eloszlatni.

Hoang Ton (az IJN szerint)

[hirdetés_2]
Forrás