Contoh distorsi gambar yang dibuat oleh AI.

Bagaimana cara kerja generator gambar bertenaga AI?

Generator gambar berbasis kecerdasan buatan menggunakan model pembelajaran mesin, memanfaatkan teks yang dimasukkan pengguna untuk membuat satu atau lebih gambar yang sesuai dengan deskripsi. Melatih model-model ini membutuhkan kumpulan data besar yang berisi jutaan gambar.

Ketidakakuratan yang mengkhawatirkan dalam gambar tersebut disebabkan oleh siapa yang membuatnya (gambar 1). — Membuat gambar menggunakan AI menjadi sangat mudah. Foto: Ijnet

Meskipun Midjourney dan DALL-E 2 belum secara publik mengungkapkan cara kerja algoritma mereka secara tepat, sebagian besar generator gambar AI menggunakan proses yang disebut difusi. Model difusi bekerja dengan menambahkan "noise" acak ke data pelatihan, kemudian belajar merekonstruksi data dengan menghilangkan noise tersebut. Model mengulangi proses ini hingga menghasilkan gambar yang sesuai dengan input.

Hal ini berbeda dengan model bahasa skala besar seperti ChatGPT. Model bahasa skala besar dilatih menggunakan data teks tanpa label, yang kemudian dianalisis untuk mempelajari pola bahasa dan menghasilkan respons yang menyerupai manusia.

Dalam AI secara umum, input memengaruhi output. Jika pengguna menentukan bahwa mereka hanya ingin menyertakan orang-orang dengan warna kulit atau jenis kelamin tertentu dalam gambar, model akan mempertimbangkan hal ini.

Namun, selain itu, model juga cenderung secara default mengembalikan gambar-gambar tertentu. Hal ini seringkali disebabkan oleh kurangnya keragaman dalam data pelatihan.

Sebuah studi baru-baru ini meneliti bagaimana Midjourney memvisualisasikan istilah-istilah yang tampaknya umum, termasuk profesi media khusus (seperti "analis berita," "komentator berita," dan "pemeriksa fakta") dan profesi yang lebih umum (seperti "jurnalis," "reporter," dan "pembuatan surat kabar").

Penelitian ini dimulai Agustus lalu, dan hasilnya dievaluasi ulang setelah enam bulan untuk menilai kemajuan sistem selama periode tersebut. Secara total, para peneliti menganalisis lebih dari 100 gambar yang dihasilkan AI selama periode ini.

Diskriminasi usia dan diskriminasi gender

Perbedaan yang mengkhawatirkan pada gambar 2 disebabkan oleh siapa yang membuatnya. — Untuk profesi tertentu, orang yang lebih tua selalu laki-laki. Foto: IJN

Untuk jabatan yang tidak spesifik, Midjourney hanya menggambarkan pria dan wanita muda. Untuk peran khusus, baik orang muda maupun orang tua digambarkan, tetapi orang tua selalu laki-laki.

Hasil ini secara implisit memperkuat beberapa stereotip, termasuk anggapan bahwa orang yang lebih tua tidak bekerja di posisi yang tidak terspesialisasi, bahwa hanya pria yang lebih tua yang cocok untuk pekerjaan yang terspesialisasi, dan bahwa pekerjaan yang kurang terspesialisasi biasanya diperuntukkan bagi wanita.

Terdapat pula perbedaan mencolok dalam cara pria dan wanita ditampilkan. Misalnya, wanita digambarkan lebih muda dan tanpa kerutan, sedangkan pria "diperbolehkan" memiliki kerutan.

AI juga tampaknya merepresentasikan gender dalam format biner, alih-alih menampilkan contoh ekspresi gender yang lebih fleksibel.

Prasangka rasial

Ketidakakuratan yang mengkhawatirkan pada gambar 3 dibuat oleh seseorang. — Gambar yang ditujukan untuk "reporter" atau "jurnalis" biasanya hanya menampilkan orang kulit putih. Foto: IJN

Semua gambar yang ditampilkan untuk istilah seperti "jurnalis" atau "reporter" hanya menampilkan gambar orang kulit putih.

Hal ini mungkin mencerminkan kurangnya keragaman dan keterwakilan dalam data pelatihan AI yang mendasarinya.

Klasisme dan konservatisme

Semua karakter dalam gambar juga memiliki penampilan yang "konservatif". Misalnya, tidak satu pun dari mereka memiliki tato, tindik, gaya rambut yang tidak biasa, atau atribut lain yang akan membedakan mereka dari penggambaran tradisional.

Banyak juga yang mengenakan pakaian formal seperti kemeja dan jas. Ini merupakan indikator ekspektasi kelas sosial. Meskipun pakaian ini mungkin sesuai untuk peran tertentu, seperti presenter televisi, hal itu belum tentu mencerminkan kode berpakaian untuk reporter atau jurnalis pada umumnya.

Urbanisme

Ketidakakuratan yang mengkhawatirkan pada gambar 4 dibuat oleh seseorang. — Semua gambar berlatar di kota, meskipun tidak ada indikasi geografis. Foto: IJN

Meskipun tidak disebutkan lokasi geografis atau konteks spesifik, gambar yang dikembalikan oleh AI mencakup ruang perkotaan seperti gedung pencakar langit atau lingkungan yang ramai. Ini tidak benar, karena hanya sedikit lebih dari setengah populasi dunia yang tinggal di kota.

Usang

Gambar-gambar pekerja media sering menampilkan teknologi usang seperti mesin tik, printer, dan kamera jadul.

Karena banyak profesional saat ini terlihat mirip, AI tampaknya lebih mengandalkan teknologi yang berbeda (termasuk yang sudah usang dan tidak lagi digunakan) untuk memperjelas peran yang dijelaskan.

Oleh karena itu, jika Anda membuat gambar AI sendiri, pertimbangkan potensi bias saat menulis deskripsi. Jika tidak, Anda mungkin secara tidak sengaja memperkuat stereotip berbahaya yang telah diupayakan masyarakat selama beberapa dekade untuk diberantas.

Hoang Ton (menurut IJN)

Sumber