Bagaimanakah penjana imej AI berfungsi?
Penjana imej berasaskan AI menggunakan model pembelajaran mesin yang mengambil teks yang dimasukkan pengguna dan menjana satu atau lebih imej yang sepadan dengan penerangan. Melatih model ini memerlukan set data yang besar dengan berjuta-juta imej.
Membuat imej dengan AI semakin mudah. Foto: Ijnet
Walaupun Midjourney mahupun DALL-E 2 tidak mendedahkan secara terbuka cara algoritma mereka berfungsi, kebanyakan penjana imej AI menggunakan proses yang dipanggil penyebaran. Model resapan berfungsi dengan menambahkan "bunyi" rawak pada data latihan, kemudian belajar membina semula data dengan mengalih keluar bahagian yang bising. Model mengulangi proses ini sehingga ia mempunyai imej yang sepadan dengan input.
Ini berbeza daripada model bahasa besar seperti ChatGPT. Model bahasa yang besar dilatih pada data teks tidak berlabel, yang mereka analisis untuk mempelajari corak bahasa dan menjana respons seperti manusia.
Dalam AI generatif, input mempengaruhi output. Jika pengguna menyatakan bahawa mereka hanya mahu memasukkan orang dari warna kulit atau jantina tertentu dalam imej, model akan mengambil kira perkara itu.
Walau bagaimanapun, sebagai tambahan kepada ini, model ini juga akan cenderung lalai untuk mengembalikan imej tertentu. Ini selalunya disebabkan oleh kekurangan kepelbagaian dalam data latihan.
Satu kajian baru-baru ini meneroka cara Midjourney menggambarkan istilah yang kelihatan umum, termasuk pekerjaan media khusus (seperti "penganalisis berita," "pengulas berita" dan "pemeriksa fakta") dan pekerjaan yang lebih umum (seperti "wartawan," "wartawan," "kewartawanan").
Kajian itu dijalankan pada Ogos tahun lepas, dan hasilnya dijalankan semula enam bulan kemudian untuk melihat bagaimana sistem itu telah bertambah baik pada masa itu. Secara keseluruhan, para penyelidik menganalisis lebih daripada 100 imej yang dijana AI sepanjang masa itu.
Ageisme dan Seksisme
Untuk pekerjaan tertentu, yang lebih tua sentiasa lelaki. Foto: IJN
Untuk jawatan pekerjaan yang tidak khusus, Midjourney hanya menunjukkan imej lelaki dan wanita yang lebih muda. Untuk peranan tertentu, kedua-dua orang yang lebih muda dan lebih tua ditunjukkan, tetapi orang yang lebih tua sentiasa lelaki.
Keputusan ini secara tersirat mengukuhkan beberapa stereotaip, termasuk andaian bahawa orang yang lebih tua tidak bekerja dalam jawatan bukan pengkhususan, bahawa hanya lelaki yang lebih tua yang sesuai untuk kerja profesional, dan bahawa kerja yang kurang khusus biasanya dikhaskan untuk wanita.
Terdapat juga perbezaan yang ketara dalam cara lelaki dan wanita dipersembahkan. Sebagai contoh, wanita lebih muda dan bebas kedutan, manakala lelaki "dibenarkan" mempunyai kedutan.
AI juga nampaknya mewakili jantina sebagai binari, dan bukannya menunjukkan contoh ekspresi jantina yang lebih cair.
Prasangka kaum
Imej untuk "wartawan" atau "wartawan" selalunya hanya menunjukkan orang kulit putih. Foto: IJN
Semua imej yang dikembalikan untuk istilah seperti "wartawan", "wartawan" hanya menunjukkan imej orang kulit putih.
Ini mungkin mencerminkan kekurangan kepelbagaian dan kurang perwakilan dalam data latihan asas AI.
Klasisme dan konservatisme
Semua watak dalam imej juga mempunyai penampilan "konservatif". Sebagai contoh, tiada seorang pun daripada mereka mempunyai tatu, tindikan, gaya rambut yang luar biasa atau sebarang sifat lain yang akan membezakannya daripada gambaran tradisional.
Ramai juga yang memakai pakaian formal seperti baju dan sut. Ini adalah penunjuk jangkaan kelas. Walaupun ini mungkin sesuai untuk peranan tertentu, seperti penyampai televisyen, ia tidak semestinya gambaran sebenar bagaimana wartawan atau wartawan biasanya berpakaian.
Urbanisme
Imej-imej semuanya ditetapkan di bandar secara lalai, walaupun tiada rujukan geografi. Foto: IJN
Walaupun tidak menyatakan sebarang lokasi atau konteks geografi, imej yang dikembalikan oleh AI termasuk ruang bandar seperti bangunan pencakar langit atau jalan yang sibuk. Ini tidak benar kerana hanya lebih separuh penduduk dunia tinggal di bandar.
ketinggalan zaman
Imej pekerja media termasuk teknologi lapuk seperti mesin taip, pencetak dan kamera vintaj.
Memandangkan ramai profesional kelihatan sama hari ini, AI nampaknya menggunakan teknologi yang lebih berbeza (termasuk yang lapuk dan tidak digunakan) untuk menjadikan peranan yang diterangkan lebih jelas.
Jadi, jika anda mencipta imej AI anda sendiri, pertimbangkan kemungkinan bias semasa menulis huraian. Jika tidak, anda mungkin secara tidak sengaja mengukuhkan stereotaip berbahaya yang telah dibelanjakan oleh masyarakat selama beberapa dekad untuk dibuang.
Hoang Ton (menurut IJN)
Sumber
Komen (0)