مولد تصویر هوش مصنوعی چگونه کار میکند؟
مولدهای تصویر مبتنی بر هوش مصنوعی از مدلهای یادگیری ماشینی استفاده میکنند که متون وارد شده توسط کاربر را دریافت کرده و یک یا چند تصویر مطابق با توضیحات تولید میکنند. آموزش این مدلها به مجموعه دادههای عظیمی با میلیونها تصویر نیاز دارد.
خلق تصاویر با هوش مصنوعی آسانتر میشود. عکس: Ijnet
در حالی که نه Midjourney و نه DALL-E 2 نحوه کار الگوریتمهای خود را به طور عمومی فاش نمیکنند، اکثر مولدهای تصویر هوش مصنوعی از فرآیندی به نام انتشار استفاده میکنند. مدلهای انتشار با اضافه کردن «نویز» تصادفی به دادههای آموزشی کار میکنند، سپس با حذف قسمتهای نویزدار، یاد میگیرند که دادهها را بازسازی کنند. مدل این فرآیند را تا زمانی که تصویری مطابق با ورودی داشته باشد، تکرار میکند.
این با مدلهای زبانی بزرگ مانند ChatGPT متفاوت است. مدلهای زبانی بزرگ بر روی دادههای متنی بدون برچسب آموزش داده میشوند، که آنها را برای یادگیری الگوهای زبانی و تولید پاسخهای شبیه به انسان تجزیه و تحلیل میکنند.
در هوش مصنوعی مولد، ورودی بر خروجی تأثیر میگذارد. اگر کاربری مشخص کند که فقط میخواهد افرادی با رنگ پوست یا جنسیت خاص را در یک تصویر بگنجاند، مدل این موضوع را در نظر میگیرد.
با این حال، علاوه بر این، مدل به طور پیشفرض تصاویر خاصی را برمیگرداند. این اغلب نتیجه عدم تنوع در دادههای آموزشی است.
یک مطالعه اخیر بررسی کرده است که چگونه Midjourney اصطلاحات به ظاهر عمومی، از جمله مشاغل تخصصی رسانهای (مانند «تحلیلگر خبر»، «مفسر خبر» و «بررسیکننده واقعیت») و مشاغل عمومیتر (مانند «روزنامهنگار»، «خبرنگار»، «روزنامهنگاری») را به تصویر میکشد.
این مطالعه در آگوست سال گذشته انجام شد و نتایج شش ماه بعد دوباره اجرا شد تا مشخص شود سیستم در این مدت چگونه بهبود یافته است. در مجموع، محققان بیش از ۱۰۰ تصویر تولید شده توسط هوش مصنوعی را در این مدت تجزیه و تحلیل کردند.
تبعیض سنی و تبعیض جنسیتی
برای مشاغل خاص، فرد مسنتر همیشه مرد است. عکس: IJN
برای عناوین شغلی غیرمشخص، Midjourney فقط تصاویر مردان و زنان جوان را نشان میدهد. برای نقشهای خاص، هم افراد جوانتر و هم افراد مسنتر نشان داده میشوند، اما افراد مسنتر همیشه مرد هستند.
این نتایج به طور ضمنی تعدادی از کلیشهها را تقویت میکند، از جمله این فرض که افراد مسن در موقعیتهای غیرتخصصی کار نمیکنند، اینکه فقط مردان مسن برای کار حرفهای مناسب هستند، و اینکه کارهای کمتر تخصصی معمولاً مختص زنان است.
همچنین تفاوتهای قابل توجهی در نحوه ارائه مردان و زنان وجود دارد. برای مثال، زنان جوانتر و بدون چین و چروک هستند، در حالی که مردان «مجاز» به داشتن چین و چروک هستند.
همچنین به نظر میرسد هوش مصنوعی، جنسیت را به صورت دوتایی نشان میدهد، به جای اینکه نمونههایی از بیان جنسیتی روانتر را نشان دهد.
تعصب نژادی
تصاویر مربوط به «خبرنگاران» یا «روزنامهنگاران» اغلب فقط افراد سفیدپوست را نشان میدهند. عکس: IJN
تمام تصاویری که برای عباراتی مانند «روزنامهنگار» و «خبرنگار» برگردانده شدهاند، فقط تصاویر افراد سفیدپوست را نشان میدهند.
این ممکن است نشاندهندهی کمبود تنوع و کمبود نمایندگی در دادههای آموزشی زیربنایی هوش مصنوعی باشد.
طبقهگرایی و محافظهکاری
تمام شخصیتهای موجود در تصویر ظاهری «محافظهکارانه» نیز دارند. برای مثال، هیچکدام از آنها خالکوبی، پیرسینگ، مدل موی غیرمعمول یا هیچ ویژگی دیگری که آنها را از تصاویر سنتی متمایز کند، ندارند.
بسیاری از مردم لباسهای رسمی مانند پیراهن و کت و شلوار نیز میپوشند. این لباسها نشاندهندهی انتظارات طبقاتی هستند. اگرچه این لباسها ممکن است برای نقشهای خاصی مانند مجریان تلویزیون مناسب باشند، اما لزوماً بازتاب واقعی نحوهی پوشش کلی خبرنگاران یا روزنامهنگاران نیستند.
شهرسازی
تصاویر به طور پیشفرض در شهر تنظیم شدهاند، اگرچه هیچ مرجع جغرافیایی وجود ندارد. عکس: IJN
با وجود اینکه هیچ مکان یا زمینه جغرافیایی را مشخص نکرده است، تصاویری که توسط هوش مصنوعی برگردانده میشود شامل فضاهای شهری مانند آسمانخراشها یا خیابانهای شلوغ است. این درست نیست زیرا کمی بیش از نیمی از جمعیت جهان در شهرها زندگی میکنند.
منسوخ شده
تصاویر کارکنان رسانه شامل فناوریهای منسوخشدهای مانند ماشین تحریر، چاپگر و دوربینهای قدیمی است.
از آنجایی که امروزه بسیاری از متخصصان شبیه به هم به نظر میرسند، به نظر میرسد هوش مصنوعی از فناوریهای متمایزتری (از جمله فناوریهای منسوخ و بلااستفاده) بهره میبرد تا نقشهای توصیفشده را متمایزتر کند.
بنابراین اگر تصاویر هوش مصنوعی خودتان را ایجاد میکنید، هنگام نوشتن توضیحات، تعصبات احتمالی را در نظر بگیرید. در غیر این صورت، ممکن است ناخواسته کلیشههای مضری را که جامعه دههها برای از بین بردن آنها تلاش کرده است، تقویت کنید.
هوانگ تون (طبق IJN)
منبع
نظر (0)