Yapay zeka görüntü oluşturucu nasıl çalışır?
Yapay zeka tabanlı görüntü oluşturucular, kullanıcı tarafından girilen metinleri alıp açıklamayla eşleşen bir veya daha fazla görüntü üreten makine öğrenimi modellerini kullanır. Bu modelleri eğitmek için milyonlarca görüntü içeren devasa veri kümeleri gerekir.
Yapay zeka ile görüntü oluşturmak giderek kolaylaşıyor. Fotoğraf: Ijnet
Midjourney ve DALL-E 2 algoritmalarının nasıl çalıştığını kamuoyuna açıklamasa da, çoğu yapay zeka görüntü oluşturucu difüzyon adı verilen bir işlem kullanır. Difüzyon modelleri, eğitim verilerine rastgele "gürültü" ekleyerek çalışır ve ardından gürültülü kısımları çıkararak verileri yeniden oluşturmayı öğrenir. Model, girdiyle eşleşen bir görüntü elde edene kadar bu işlemi tekrarlar.
Bu, ChatGPT gibi büyük dil modellerinden farklıdır. Büyük dil modelleri, dil kalıplarını öğrenmek ve insan benzeri yanıtlar üretmek için etiketlenmemiş metin verileri üzerinde eğitilir.
Üretken yapay zekada girdi, çıktıyı etkiler. Bir kullanıcı bir görüntüye yalnızca belirli bir ten rengine veya cinsiyete sahip kişileri dahil etmek istediğini belirtirse, model bunu dikkate alır.
Ancak buna ek olarak, model varsayılan olarak belirli görüntüleri döndürme eğiliminde olacaktır. Bu durum genellikle eğitim verilerindeki çeşitlilik eksikliğinden kaynaklanır.
Yakın zamanda yapılan bir araştırmada, Midjourney'nin görünüşte genel terimleri nasıl görselleştirdiği incelendi . Bunlara, uzmanlaşmış medya meslekleri (örneğin "haber analisti", "haber yorumcusu" ve "gerçek kontrolcüsü") ve daha genel meslekler (örneğin "gazeteci", "muhabir", "gazetecilik") dahildir.
Çalışma geçen yılın Ağustos ayında gerçekleştirildi ve sonuçlar, sistemin bu süre zarfında ne kadar geliştiğini görmek için altı ay sonra tekrar incelendi. Araştırmacılar, bu süre zarfında yapay zeka tarafından oluşturulan 100'den fazla görüntüyü analiz etti.
Yaşçılık ve Cinsiyetçilik
Belirli mesleklerde yaşlı her zaman erkektir. Fotoğraf: IJN
Midjourney, belirli olmayan iş unvanları için yalnızca genç erkek ve kadınların görsellerini gösterir. Belirli roller için hem genç hem de yaşlı kişiler gösterilir, ancak yaşlı kişiler her zaman erkektir.
Bu sonuçlar, yaşlı insanların uzmanlık gerektirmeyen pozisyonlarda çalışmadığı, yalnızca yaşlı erkeklerin profesyonel işlere uygun olduğu ve daha az uzmanlık gerektiren işlerin genellikle kadınlara ayrıldığı varsayımları da dahil olmak üzere bir dizi klişeyi dolaylı olarak güçlendiriyor.
Erkekler ve kadınların sunuluş biçimlerinde de gözle görülür farklılıklar var. Örneğin, kadınlar daha genç ve kırışıksızken, erkeklerin kırışıklıklara sahip olmasına "izin veriliyor".
Yapay zekanın, daha akışkan cinsiyet ifadelerine dair örnekler göstermek yerine, cinsiyeti ikili olarak temsil ettiği görülüyor.
Irksal önyargı
"Muhabirler" veya "gazeteciler" için kullanılan görseller genellikle yalnızca beyaz insanları gösterir. Fotoğraf: IJN
"Gazeteci", "muhabir" gibi terimler için döndürülen tüm görsellerde yalnızca beyaz insanların görüntüleri yer alıyor.
Bu durum, yapay zekanın temel eğitim verilerinde çeşitlilik eksikliği ve yetersiz temsilin bir yansıması olabilir.
Sınıfçılık ve muhafazakarlık
Görseldeki tüm karakterler "muhafazakar" bir görünüme sahip. Örneğin, hiçbirinde dövme, piercing, sıra dışı saç stilleri veya onları geleneksel tasvirlerden ayıracak başka özellikler yok.
Birçok kişi gömlek ve takım elbise gibi resmi kıyafetler de giyer. Bunlar, sınıf beklentilerinin bir göstergesidir. Bu, televizyon sunucuları gibi belirli roller için uygun olsa da, muhabirlerin veya gazetecilerin genel giyim tarzını tam olarak yansıtmaz.
Şehircilik
Görsellerin tamamı varsayılan olarak şehirde çekilmiştir, ancak coğrafi bir referans bulunmamaktadır. Fotoğraf: IJN
Yapay zekanın döndürdüğü görüntüler herhangi bir konum veya coğrafi bağlam belirtmese de, gökdelenler veya kalabalık caddeler gibi kentsel alanları da içeriyor. Bu doğru değil çünkü dünya nüfusunun yarısından biraz fazlası şehirlerde yaşıyor.
Güncelliğini yitirmiş
Medya çalışanlarının görüntüleri arasında daktilo, yazıcı, eski fotoğraf makinesi gibi eski teknolojiler yer alıyor.
Günümüzde pek çok profesyonelin aynı görünmesi nedeniyle, yapay zekanın tanımlanan rolleri daha belirgin hale getirmek için daha farklı teknolojilerden (modası geçmiş ve kullanılmayanlar da dahil) yararlandığı görülüyor.
Dolayısıyla, kendi yapay zeka görsellerinizi oluşturuyorsanız, açıklamalar yazarken olası önyargıları göz önünde bulundurun. Aksi takdirde, toplumun onlarca yıldır ortadan kaldırmaya çalıştığı zararlı klişeleri istemeden pekiştirebilirsiniz.
Hoang Ton (IJN'ye göre)
[reklam_2]
Kaynak
Yorum (0)