כיצד פועל מחולל תמונות של בינה מלאכותית?
מחוללי תמונות מבוססי בינה מלאכותית משתמשים במודלים של למידת מכונה אשר לוקחים טקסטים שהוזנו על ידי המשתמש ומייצרים תמונה אחת או יותר התואמים את התיאור. אימון מודלים אלה דורש מערכי נתונים עצומים עם מיליוני תמונות.
יצירת תמונות בעזרת בינה מלאכותית הופכת לקלה יותר. צילום: Ijnet
למרות שלא Midjourney ולא DALL-E 2 חושפים בפומבי כיצד האלגוריתמים שלהם פועלים, רוב מחוללי תמונות הבינה המלאכותית משתמשים בתהליך הנקרא דיפוזיה. מודלים של דיפוזיה פועלים על ידי הוספת "רעש" אקראי לנתוני אימון, ולאחר מכן לומדים לשחזר את הנתונים על ידי הסרת החלקים הרועשים. המודל חוזר על תהליך זה עד לקבלת תמונה התואמת את הקלט.
זה שונה ממודלים של שפה גדולה כמו ChatGPT. מודלים של שפה גדולה מאומנים על נתוני טקסט לא מתויגים, אותם הם מנתחים כדי ללמוד דפוסי שפה וליצור תגובות אנושיות.
בבינה מלאכותית גנרטיבית, הקלט משפיע על הפלט. אם משתמש מציין שהוא רוצה לכלול רק אנשים מצבע עור או מגדר מסוים בתמונה, המודל יתחשב בכך.
עם זאת, בנוסף לכך, המודל גם נוטה להחזיר כברירת מחדל תמונות מסוימות. לעתים קרובות זה נובע מחוסר גיוון בנתוני האימון.
מחקר שנערך לאחרונה בחן כיצד Midjourney מדמיין מונחים גנריים לכאורה, כולל מקצועות תקשורתיים מיוחדים (כגון "אנליסט חדשות", "פרשן חדשות" ו"בודק עובדות") ומקצועות כלליים יותר (כגון "עיתונאי", "כתב", "עיתונות").
המחקר נערך באוגוסט בשנה שעברה, והתוצאות בוצעו שוב שישה חודשים לאחר מכן כדי לראות כיצד המערכת השתפרה במהלך תקופה זו. בסך הכל, החוקרים ניתחו יותר מ-100 תמונות שנוצרו על ידי בינה מלאכותית במהלך תקופה זו.
גיליזם וסקסיזם
עבור מקצועות ספציפיים, המבוגר הוא תמיד זכר. צילום: IJN
עבור תפקידים לא ספציפיים, Midjourney מציג רק תמונות של גברים ונשים צעירים יותר. עבור תפקידים ספציפיים, מוצגים גם אנשים צעירים וגם אנשים מבוגרים יותר, אך האנשים המבוגרים יותר הם תמיד גברים.
תוצאות אלו מחזקות באופן מרומז מספר סטריאוטיפים, כולל ההנחה שאנשים מבוגרים אינם עובדים בתפקידים שאינם מיוחדים, שרק גברים מבוגרים מתאימים לעבודה מקצועית, וכי עבודה פחות מיוחדת שמורה בדרך כלל לנשים.
ישנם גם הבדלים ניכרים באופן שבו גברים ונשים מוצגים. לדוגמה, נשים צעירות יותר וללא קמטים, בעוד שגברים "מותרים" להיות בעלי קמטים.
נראה כי בינה מלאכותית מייצגת גם מגדר כבינארי, במקום להראות דוגמאות לביטוי מגדרי גמיש יותר.
דעות קדומות גזעיות
תמונות של "כתבים" או "עיתונאים" מראות לעתים קרובות רק אנשים לבנים. צילום: IJN
כל התמונות המוחזרות עבור מונחים כמו "עיתונאי", "כתב" מציגות רק תמונות של אנשים לבנים.
ייתכן שזה משקף חוסר גיוון וייצוג לא מבוטל בנתוני האימון הבסיסיים של הבינה המלאכותית.
קלאסיזם ושמרנות
לכל הדמויות בתמונה יש גם מראה "שמרני". לדוגמה, לאף אחת מהן אין קעקועים, פירסינג, תסרוקות יוצאות דופן או כל תכונה אחרת שתבדיל אותן מתיאורים מסורתיים.
אנשים רבים לובשים גם בגדים רשמיים כמו חולצות וחליפות. אלה הם אינדיקטורים לציפיות מעמדיות. אמנם זה עשוי להתאים לתפקידים מסוימים, כמו מגישי טלוויזיה, אך זה לא בהכרח משקף באופן אמיתי את האופן שבו כתבים או עיתונאים מתלבשים בדרך כלל.
אורבניזם
התמונות כולן ממוקמות בעיר כברירת מחדל, אם כי אין התייחסות גיאוגרפית. צילום: IJN
למרות שלא צוין מיקום או הקשר גיאוגרפי, התמונות שמחזירה הבינה המלאכותית כוללות מרחבים עירוניים כמו גורדי שחקים או רחובות סואנים. זה לא נכון מכיוון שקצת יותר ממחצית אוכלוסיית העולם גרה בערים.
מְיוּשָׁן
תמונות של עובדי מדיה כוללות טכנולוגיות מיושנות כמו מכונות כתיבה, מדפסות ומצלמות ישנות.
מאחר ואנשי מקצוע רבים נראים אותו הדבר כיום, נראה כי בינה מלאכותית נשענת על טכנולוגיות מובחנות יותר (כולל מיושנות ולא בשימוש) כדי להפוך את התפקידים המתוארים למובחנים יותר.
אז אם אתם יוצרים תמונות בינה מלאכותית משלכם, קחו בחשבון הטיות פוטנציאליות בעת כתיבת תיאורים. אחרת, אתם עלולים לחזק בטעות סטריאוטיפים מזיקים שהחברה בילתה עשרות שנים בניסיון להפיג.
הואנג טון (על פי IJN)
[מודעה_2]
מָקוֹר
תגובה (0)