Jak działa generator obrazów AI?
Generatory obrazów oparte na sztucznej inteligencji wykorzystują modele uczenia maszynowego, które na podstawie tekstów wprowadzanych przez użytkownika generują jeden lub więcej obrazów pasujących do opisu. Trening tych modeli wymaga ogromnych zbiorów danych obejmujących miliony obrazów.
Tworzenie obrazów za pomocą sztucznej inteligencji staje się coraz łatwiejsze. Zdjęcie: Ijnet
Chociaż ani Midjourney, ani DALL-E 2 nie ujawniają publicznie, jak działają ich algorytmy, większość generatorów obrazów AI wykorzystuje proces zwany dyfuzją. Modele dyfuzyjne działają poprzez dodawanie losowego „szumu” do danych treningowych, a następnie uczą się rekonstruować dane poprzez usuwanie zaszumionych fragmentów. Model powtarza ten proces, aż uzyska obraz pasujący do danych wejściowych.
Różni się to od dużych modeli językowych, takich jak ChatGPT. Duże modele językowe są trenowane na nieoznakowanych danych tekstowych, które analizują, aby uczyć się wzorców językowych i generować odpowiedzi zbliżone do ludzkich.
W generatywnej sztucznej inteligencji dane wejściowe wpływają na dane wyjściowe. Jeśli użytkownik określi, że chce uwzględnić na obrazie tylko osoby o określonym kolorze skóry lub płci, model to uwzględni.
Jednak oprócz tego model będzie miał tendencję do domyślnego zwracania określonych obrazów. Często wynika to z braku zróżnicowania danych treningowych.
W niedawnym badaniu zbadano, w jaki sposób Midjourney wizualizuje pozornie ogólne terminy, w tym specjalistyczne zawody medialne (takie jak „analityk wiadomości”, „komentator wiadomości” i „weryfikator faktów”), a także zawody bardziej ogólne (takie jak „dziennikarz”, „reporter”, „dziennikarstwo”).
Badanie przeprowadzono w sierpniu ubiegłego roku, a wyniki powtórzono sześć miesięcy później, aby sprawdzić, jak system się rozwinął w tym czasie. W sumie naukowcy przeanalizowali w tym czasie ponad 100 obrazów wygenerowanych przez sztuczną inteligencję.
Ageizm i seksizm
W przypadku niektórych zawodów starszym jest zawsze mężczyzna. Zdjęcie: IJN
W przypadku stanowisk niespecyficznych Midjourney wyświetla tylko zdjęcia młodszych mężczyzn i kobiet. W przypadku stanowisk szczegółowych wyświetlane są zarówno osoby młodsze, jak i starsze, ale starsi to zawsze mężczyźni.
Wyniki te pośrednio wzmacniają szereg stereotypów, w tym założenie, że osoby starsze nie pracują na stanowiskach niewymagających specjalistycznej wiedzy, że tylko starsi mężczyźni nadają się do pracy zawodowej i że mniej specjalistyczne prace są zazwyczaj zarezerwowane dla kobiet.
Zauważalne są również różnice w sposobie prezentowania się mężczyzn i kobiet. Na przykład kobiety są młodsze i bez zmarszczek, podczas gdy mężczyznom „dopuszcza się” ich posiadanie.
Wydaje się również, że sztuczna inteligencja przedstawia płeć jako coś binarnego, zamiast pokazywać przykłady bardziej płynnej ekspresji płciowej.
Uprzedzenia rasowe
Zdjęcia dla „reporterów” lub „dziennikarzy” często przedstawiają tylko białych ludzi. Zdjęcie: IJN
Wszystkie obrazy znalezione dla haseł takich jak „dziennikarz”, „reporter” zawierają wyłącznie zdjęcia białych ludzi.
Może to odzwierciedlać brak zróżnicowania i niedoreprezentację podstawowych danych szkoleniowych sztucznej inteligencji.
Klasowość i konserwatyzm
Wszystkie postacie na obrazie mają również „konserwatywny” wygląd. Na przykład żadna z nich nie ma tatuaży, piercingu, nietypowej fryzury ani żadnych innych cech, które odróżniałyby je od tradycyjnych wizerunków.
Wiele osób nosi również formalne ubrania, takie jak koszule i garnitury. Są one wyznacznikiem oczekiwań klasowych. Chociaż może to być stosowne w przypadku niektórych ról, takich jak prezenter telewizyjny, niekoniecznie odzwierciedla to prawdziwy sposób, w jaki dziennikarze i reporterzy zazwyczaj się ubierają.
Urbanistyka
Zdjęcia domyślnie są umiejscowione w mieście, choć nie ma w nich odniesienia geograficznego. Zdjęcie: IJN
Pomimo braku określenia lokalizacji ani kontekstu geograficznego, obrazy zwrócone przez sztuczną inteligencję obejmują przestrzenie miejskie, takie jak wieżowce czy ruchliwe ulice. To nieprawda, ponieważ nieco ponad połowa światowej populacji mieszka w miastach.
Przestarzały
Na zdjęciach pracowników mediów można zobaczyć przestarzałe technologie, takie jak maszyny do pisania, drukarki i zabytkowe aparaty fotograficzne.
Ponieważ wielu specjalistów wygląda dziś podobnie, wydaje się, że sztuczna inteligencja czerpie z bardziej zróżnicowanych technologii (w tym przestarzałych i nieużywanych), aby opisane role były bardziej odrębne.
Jeśli więc tworzysz własne obrazy AI, weź pod uwagę potencjalne uprzedzenia podczas pisania opisów. W przeciwnym razie możesz nieświadomie utrwalać szkodliwe stereotypy, które społeczeństwo od dziesięcioleci próbuje obalić.
Hoang Ton (według IJN)
Źródło








Komentarz (0)