Hogyan működik az AI képgenerátor?
A mesterséges intelligencia alapú képgenerátorok gépi tanulási modelleket használnak, amelyek a felhasználó által megadott szövegekből egy vagy több, a leírásnak megfelelő képet generálnak. Ezen modellek betanításához hatalmas adathalmazokra van szükség, több millió képpel.
Egyre könnyebb képeket készíteni mesterséges intelligenciával. Fotó: Ijnet
Bár sem a Midjourney, sem a DALL-E 2 nem hozza nyilvánosságra algoritmusainak működését, a legtöbb mesterséges intelligencia által generált képgenerátor egy diffúziónak nevezett folyamatot használ. A diffúziós modellek úgy működnek, hogy véletlenszerű „zajt” adnak a tanulóadatokhoz, majd megtanulják rekonstruálni az adatokat a zajos részek eltávolításával. A modell ezt a folyamatot addig ismétli, amíg olyan képet nem kap, amely megfelel a bemenetnek.
Ez eltér a nagy nyelvi modellektől, mint például a ChatGPT. A nagy nyelvi modelleket címkézetlen szöveges adatokon képezik ki, amelyeket elemeznek a nyelvi minták megtanulása és az emberi nyelvhez hasonló válaszok generálása érdekében.
A generatív mesterséges intelligenciában a bemenet befolyásolja a kimenetet. Ha egy felhasználó megadja, hogy csak egy bizonyos bőrszínű vagy nemű embereket szeretne a képen megjeleníteni, a modell ezt figyelembe veszi.
Ezen felül azonban a modell hajlamos bizonyos képeket alapértelmezés szerint visszaadni. Ez gyakran a betanítási adatok diverzitásának hiányából ered.
Egy nemrégiben készült tanulmány azt vizsgálta , hogy a Midjourney hogyan vizualizálja a látszólag általános kifejezéseket, beleértve a speciális médiafoglalkozásokat (mint például a „hírelemző”, a „hírkommentátor” és a „tényellenőrző”) és az általánosabb foglalkozásokat (mint például az „újságíró”, a „riporter”, az „újságírás”).
A tanulmányt tavaly augusztusban végezték, és az eredményeket hat hónappal később megismételték, hogy lássák, hogyan fejlődött a rendszer az elmúlt időszakban. Összesen a kutatók több mint 100 mesterséges intelligencia által generált képet elemeztek ez idő alatt.
Korosztály- és szexizmus
Bizonyos foglalkozások esetében az idősebb mindig férfi. Fotó: IJN
Nem konkrét munkakörök esetén a Midjourney csak fiatalabb férfiak és nők képeit mutatja. Konkrét szerepkörök esetén mind a fiatalabb, mind az idősebb személyeket megjeleníti, de az idősebbek mindig férfiak.
Ezek az eredmények implicit módon számos sztereotípiát megerősítenek, beleértve azt a feltételezést is, hogy az idősebb emberek nem dolgoznak nem specializált pozíciókban, hogy csak az idősebb férfiak alkalmasak szakmai munkára, és hogy a kevésbé specializált munka jellemzően a nők számára van fenntartva.
Észrevehető különbségek vannak abban is, hogyan mutatják be a férfiakat és a nőket. Például a nők fiatalabbak és ránctalanabbak, míg a férfiaknak „megengedett”, hogy ráncosak legyenek.
Úgy tűnik, hogy a mesterséges intelligencia a nemet binárisként ábrázolja, ahelyett, hogy a folyékonyabb nemi kifejezés példáit mutatná.
Faji előítélet
A „riporterek” vagy „újságírók” képein gyakran csak fehér emberek láthatók. Fotó: IJN
Az olyan kifejezésekre visszaadott képek, mint az „újságíró”, „riporter”, csak fehér embereket ábrázolnak.
Ez a mesterséges intelligencia mögöttes betanítási adatainak sokszínűségének hiányát és alulreprezentáltságát tükrözheti.
Klasszizmus és konzervativizmus
A képen látható összes szereplő „konzervatív” megjelenésű. Például egyiküknek sincs tetoválása, piercingje, szokatlan frizurája vagy bármilyen más olyan tulajdonsága, amely megkülönböztetné őket a hagyományos ábrázolásoktól.
Sokan viselnek alkalmi öltözetet is, például inget és öltönyt. Ezek az osztályelvárások mutatói. Bár ez bizonyos szerepkörökben, például televíziós műsorvezetőként megfelelő lehet, nem feltétlenül tükrözi hűen a riporterek vagy újságírók általános öltözködését.
Urbanizmus
A képek alapértelmezés szerint mind a városban jelennek meg, bár nincs földrajzi hivatkozás. Fotó: IJN
Annak ellenére, hogy nem határoztak meg semmilyen helyszínt vagy földrajzi kontextust, a mesterséges intelligencia által visszaadott képek városi tereket, például felhőkarcolókat vagy forgalmas utcákat is tartalmaznak. Ez nem igaz, mivel a világ népességének valamivel több mint a fele városokban él.
Elavult
A médiamunkások képein olyan elavult technológiák szerepelnek, mint az írógépek, nyomtatók és régi fényképezőgépek.
Mivel sok szakember ma ugyanúgy néz ki, úgy tűnik, hogy a mesterséges intelligencia differenciáltabb technológiákra (beleértve az elavult és nem használt technológiákat is) támaszkodik, hogy a leírt szerepkörök jobban elkülönüljenek.
Tehát, ha saját mesterséges intelligencia által létrehozott képeket készítesz, vedd figyelembe az esetleges torzításokat a leírások írásakor. Ellenkező esetben akaratlanul is megerősítheted azokat a káros sztereotípiákat, amelyeket a társadalom évtizedek óta próbál eloszlatni.
Hoang Ton (az IJN szerint)
[hirdetés_2]
Forrás
Hozzászólás (0)