Cum funcționează generatorul de imagini cu inteligență artificială?
Generatoarele de imagini bazate pe inteligență artificială utilizează modele de învățare automată care preiau texte introduse de utilizatori și generează una sau mai multe imagini care corespund descrierii. Antrenarea acestor modele necesită seturi de date uriașe, cu milioane de imagini.
Crearea de imagini cu ajutorul inteligenței artificiale devine din ce în ce mai ușoară. Foto: Ijnet
Deși nici Midjourney, nici DALL-E 2 nu dezvăluie public cum funcționează algoritmii lor, majoritatea generatoarelor de imagini bazate pe inteligență artificială folosesc un proces numit difuzie. Modelele de difuzie funcționează prin adăugarea de „zgomot” aleatoriu la datele de antrenament, apoi învață să reconstruiască datele prin eliminarea părților zgomotoase. Modelul repetă acest proces până când are o imagine care corespunde cu intrarea.
Acest lucru este diferit de modelele lingvistice mari, cum ar fi ChatGPT. Modelele lingvistice mari sunt antrenate pe date text neetichetate, pe care le analizează pentru a învăța modele lingvistice și a genera răspunsuri asemănătoare celor umane.
În inteligența artificială generativă, datele de intrare afectează rezultatele. Dacă un utilizator specifică că dorește să includă într-o imagine doar persoane de o anumită culoare a pielii sau sex, modelul va lua în considerare acest lucru.
Totuși, pe lângă acestea, modelul va avea tendința să returneze implicit anumite imagini. Acest lucru este adesea rezultatul lipsei de diversitate în datele de antrenament.
Un studiu recent a explorat modul în care Midjourney vizualizează termeni aparent generici, inclusiv ocupații specializate din media (cum ar fi „analist de știri”, „comentator de știri” și „verificator de fapte”) și ocupații mai generale (cum ar fi „jurnalist”, „reporter”, „jurnalism”).
Studiul a fost realizat în august anul trecut, iar rezultatele au fost reluate șase luni mai târziu pentru a vedea cum s-a îmbunătățit sistemul în această perioadă. În total, cercetătorii au analizat peste 100 de imagini generate de inteligența artificială în această perioadă.
Ageism și sexism
Pentru anumite ocupații, persoana în vârstă este întotdeauna bărbat. Foto: IJN
Pentru titluri de locuri de muncă nespecifice, Midjourney prezintă doar imagini cu bărbați și femei mai tineri. Pentru roluri specifice, sunt afișate atât persoane mai tinere, cât și persoane mai în vârstă, dar persoanele în vârstă sunt întotdeauna bărbați.
Aceste rezultate întăresc implicit o serie de stereotipuri, inclusiv presupunerea că persoanele în vârstă nu lucrează în poziții nespecializate, că doar bărbații în vârstă sunt potriviți pentru muncă profesională și că munca mai puțin specializată este de obicei rezervată femeilor.
Există, de asemenea, diferențe notabile în modul în care sunt prezentați bărbații și femeile. De exemplu, femeile sunt mai tinere și fără riduri, în timp ce bărbaților li se „permite” să aibă riduri.
IA pare, de asemenea, să reprezinte genul ca fiind binar, în loc să arate exemple de exprimare a genului mai fluidă.
Prejudecăți rasiale
Imaginile pentru „reporteri” sau „jurnaliști” prezintă adesea doar persoane albe. Foto: IJN
Toate imaginile returnate pentru termeni precum „jurnalist”, „reporter” prezintă doar imagini cu persoane albe.
Acest lucru poate reflecta o lipsă de diversitate și o subreprezentare în datele de antrenament subiacente ale IA.
Clasism și conservatorism
Toate personajele din imagine au, de asemenea, un aspect „conservator”. De exemplu, niciunul dintre ele nu are tatuaje, piercing-uri, coafuri neobișnuite sau alte atribute care le-ar distinge de reprezentările tradiționale.
Mulți oameni poartă și haine formale, cum ar fi cămăși și costume. Acestea sunt indicatori ai așteptărilor de clasă. Deși acest lucru poate fi potrivit pentru anumite roluri, cum ar fi prezentatorii de televiziune, nu este neapărat o reflectare fidelă a modului în care se îmbracă în general reporterii sau jurnaliștii.
Urbanism
Imaginile sunt plasate în oraș în mod implicit, deși nu există nicio referință geografică. Foto: IJN
Deși nu specifică nicio locație sau context geografic, imaginile returnate de inteligența artificială includ spații urbane precum zgârie-nori sau străzi aglomerate. Acest lucru nu este adevărat, deoarece puțin peste jumătate din populația lumii trăiește în orașe.
Învechit
Imaginile lucrătorilor din mass-media includ tehnologii învechite, cum ar fi mașini de scris, imprimante și camere foto vintage.
Întrucât mulți profesioniști arată la fel astăzi, se pare că inteligența artificială se bazează pe tehnologii mai diferențiate (inclusiv pe cele învechite și neutilizate) pentru a face rolurile descrise mai distincte.
Așadar, dacă vă creați propriile imagini bazate pe inteligență artificială, luați în considerare potențialele prejudecăți atunci când scrieți descrieri. În caz contrar, s-ar putea să consolidați în mod accidental stereotipuri dăunătoare pe care societatea a încercat decenii întregi să le risipească.
Hoang Ton (conform IJN)
Sursă
Comentariu (0)