เครื่องสร้างภาพ AI ทำงานอย่างไร?
เครื่องสร้างภาพที่ใช้ AI ใช้โมเดลการเรียนรู้ของเครื่องที่นำข้อความที่ผู้ใช้ป้อนและสร้างภาพหนึ่งภาพหรือมากกว่าที่ตรงกับคำอธิบาย การฝึกโมเดลเหล่านี้จำเป็นต้องใช้ชุดข้อมูลขนาดใหญ่ที่มีภาพหลายล้านภาพ
การสร้างภาพด้วย AI ง่ายขึ้นแล้ว ภาพ: Ijnet
แม้ว่าทั้ง Midjourney และ DALL-E 2 จะไม่ได้เปิดเผยวิธีการทำงานของอัลกอริทึมต่อสาธารณะ แต่ตัวสร้างภาพ AI ส่วนใหญ่ใช้กระบวนการที่เรียกว่าการแพร่ (diffusion) แบบจำลองการแพร่ทำงานโดยการเพิ่ม "สัญญาณรบกวน" แบบสุ่มลงในข้อมูลฝึก จากนั้นเรียนรู้การสร้างข้อมูลใหม่โดยการลบส่วนที่มีสัญญาณรบกวนออกไป แบบจำลองจะทำซ้ำกระบวนการนี้จนกว่าจะสร้างภาพที่ตรงกับข้อมูลอินพุต
ซึ่งแตกต่างจากโมเดลภาษาขนาดใหญ่ เช่น ChatGPT โมเดลภาษาขนาดใหญ่ได้รับการฝึกฝนจากข้อมูลข้อความที่ไม่มีป้ายกำกับ ซึ่งจะถูกวิเคราะห์เพื่อเรียนรู้รูปแบบภาษาและสร้างการตอบสนองที่เหมือนมนุษย์
ใน AI เชิงกำเนิด อินพุตจะส่งผลต่อเอาต์พุต หากผู้ใช้ระบุว่าต้องการรวมเฉพาะบุคคลที่มีสีผิวหรือเพศใดเพศหนึ่งในภาพ โมเดลจะคำนึงถึงสิ่งนั้นด้วย
อย่างไรก็ตาม นอกจากนี้ โมเดลยังมีแนวโน้มที่จะส่งคืนรูปภาพบางภาพตามค่าเริ่มต้น ซึ่งมักเป็นผลมาจากการขาดความหลากหลายของข้อมูลฝึกอบรม
การศึกษาล่าสุด สำรวจ ว่า Midjourney สร้างภาพคำศัพท์ทั่วๆ ไปอย่างไร รวมถึงอาชีพสื่อเฉพาะทาง (เช่น "นักวิเคราะห์ข่าว" "ผู้วิจารณ์ข่าว" และ "ผู้ตรวจสอบข้อเท็จจริง") และอาชีพทั่วไปกว่านั้น (เช่น "นักข่าว" "นักข่าว" "นักข่าว")
การศึกษาเริ่มต้นขึ้นในเดือนสิงหาคมปีที่แล้ว และนำผลการศึกษามาวิเคราะห์ซ้ำอีกครั้งในอีกหกเดือนต่อมา เพื่อดูว่าระบบมีการพัฒนาไปอย่างไรบ้างในช่วงเวลาดังกล่าว โดยรวมแล้ว นักวิจัยได้วิเคราะห์ภาพที่สร้างโดย AI มากกว่า 100 ภาพในช่วงเวลาดังกล่าว
ลัทธิอายุและลัทธิเพศ
สำหรับอาชีพเฉพาะ ผู้อาวุโสมักจะเป็นผู้ชายเสมอ ภาพ: IJN
สำหรับตำแหน่งงานที่ไม่เจาะจง Midjourney จะแสดงเฉพาะรูปภาพของผู้ชายและผู้หญิงที่อายุน้อยกว่า สำหรับตำแหน่งงานเฉพาะ จะแสดงทั้งคนหนุ่มสาวและผู้สูงอายุ แต่ผู้สูงอายุจะเป็นเพศชายเสมอ
ผลลัพธ์เหล่านี้ตอกย้ำความคิดแบบเหมารวมโดยปริยายหลายประการ รวมถึงการสันนิษฐานว่าผู้สูงอายุไม่ทำงานในตำแหน่งที่ไม่เฉพาะทาง เฉพาะผู้ชายสูงอายุเท่านั้นที่เหมาะกับงานระดับมืออาชีพ และงานที่ไม่เฉพาะทางมักสงวนไว้สำหรับผู้หญิง
นอกจากนี้ยังมีความแตกต่างอย่างเห็นได้ชัดในการนำเสนอภาพลักษณ์ของผู้ชายและผู้หญิง ตัวอย่างเช่น ผู้หญิงดูอ่อนเยาว์และไม่มีริ้วรอย ในขณะที่ผู้ชาย “ได้รับอนุญาต” ให้มีริ้วรอยได้
นอกจากนี้ AI ยังดูเหมือนจะแสดงเพศเป็นแบบไบนารี แทนที่จะแสดงตัวอย่างการแสดงออกทางเพศที่ยืดหยุ่นกว่า
อคติทางเชื้อชาติ
รูปภาพสำหรับ "นักข่าว" หรือ "นักข่าว" มักแสดงเฉพาะคนผิวขาวเท่านั้น ภาพ: IJN
รูปภาพทั้งหมดที่ปรากฏในคำว่า "นักข่าว", "นักข่าว" จะแสดงเฉพาะรูปภาพของคนผิวขาวเท่านั้น
สิ่งนี้อาจสะท้อนถึงการขาดความหลากหลายและการนำเสนอที่ไม่เพียงพอในข้อมูลการฝึกอบรมพื้นฐานของ AI
ลัทธิชนชั้นและอนุรักษ์นิยม
ตัวละครทุกตัวในภาพมีรูปลักษณ์ที่ "อนุรักษ์นิยม" เช่นกัน ตัวอย่างเช่น ไม่มีตัวละครใดเลยที่มีรอยสัก การเจาะร่างกาย ทรงผมที่แปลกตา หรือลักษณะอื่นใดที่จะทำให้ตัวละครเหล่านี้แตกต่างจากตัวละครดั้งเดิม
หลายคนยังสวมเสื้อผ้าที่เป็นทางการ เช่น เสื้อเชิ้ตและชุดสูท ซึ่งเป็นเครื่องบ่งชี้ถึงความคาดหวังในชนชั้น แม้ว่าเสื้อผ้าแบบนี้อาจเหมาะสมกับบทบาทบางอย่าง เช่น พิธีกรรายการโทรทัศน์ แต่ก็ไม่ได้สะท้อนถึงการแต่งกายของนักข่าวหรือนักข่าวโดยทั่วไปอย่างแท้จริง
การวางผังเมือง
ภาพทั้งหมดถูกตั้งค่าเริ่มต้นในเมือง แม้ว่าจะไม่มีการอ้างอิงทางภูมิศาสตร์ก็ตาม ภาพ: IJN
แม้จะไม่ได้ระบุตำแหน่งหรือบริบททางภูมิศาสตร์ แต่ภาพที่ AI แสดงผลกลับเป็นภาพพื้นที่ในเมือง เช่น ตึกระฟ้า หรือถนนที่พลุกพล่าน ซึ่งไม่เป็นความจริง เนื่องจากประชากรโลก มากกว่าครึ่งอาศัยอยู่ในเมือง
ล้าสมัย
ภาพของบุคลากรด้านสื่อรวมถึงเทคโนโลยีที่ล้าสมัย เช่น เครื่องพิมพ์ดีด เครื่องพิมพ์ และกล้องถ่ายรูปรุ่นเก่า
เนื่องจากผู้เชี่ยวชาญจำนวนมากในปัจจุบันมีหน้าตาเหมือนกันหมด AI จึงดูเหมือนว่าจะดึงเทคโนโลยีที่แตกต่างกันมากขึ้น (รวมถึงเทคโนโลยีที่ล้าสมัยและไม่ได้ใช้งาน) เพื่อทำให้บทบาทที่อธิบายไว้มีความชัดเจนมากขึ้น
ดังนั้น หากคุณกำลังสร้างภาพ AI ของคุณเอง โปรดพิจารณาถึงอคติที่อาจเกิดขึ้นเมื่อเขียนคำอธิบาย มิฉะนั้น คุณอาจกำลังเสริมสร้างอคติแบบแผนที่เป็นอันตรายโดยไม่ตั้งใจ ซึ่งสังคมพยายามขจัดมาหลายทศวรรษ
ฮวง ตัน (ตาม IJN)
แหล่งที่มา
การแสดงความคิดเห็น (0)