AI画像ジェネレーターはどのように機能しますか?
AIベースの画像生成ツールは、ユーザーが入力したテキストを受け取り、その説明に一致する1枚以上の画像を生成する機械学習モデルを使用します。これらのモデルの学習には、数百万枚の画像を含む膨大なデータセットが必要です。
AIを使った画像作成がますます容易になっています。写真:Ijnet
MidjourneyもDALL-E 2もアルゴリズムの仕組みを公表していませんが、ほとんどのAI画像生成器は拡散と呼ばれるプロセスを採用しています。拡散モデルは、学習データにランダムな「ノイズ」を追加し、ノイズ部分を除去することでデータを再構築する方法を学習します。モデルはこのプロセスを、入力と一致する画像を生成するまで繰り返します。
これはChatGPTのような大規模言語モデルとは異なります。大規模言語モデルはラベル付けされていないテキストデータでトレーニングされ、それを分析することで言語パターンを学習し、人間のような応答を生成します。
生成AIでは、入力が出力に影響を与えます。ユーザーが画像に特定の肌の色や性別の人物のみを含めたいと指定した場合、モデルはそれを考慮します。
しかし、これに加えて、モデルは特定の画像をデフォルトで返す傾向があります。これは多くの場合、トレーニングデータの多様性の欠如が原因です。
最近の研究では、 Midjourney が、専門的なメディア職業(「ニュースアナリスト」「ニュースコメンテーター」「ファクトチェッカー」など)やより一般的な職業(「ジャーナリスト」「レポーター」「ジャーナリズム」など)を含む、一見一般的な用語をどのように視覚化するかが調査されました。
研究は昨年8月に開始され、6ヶ月後に結果を再検証し、その間にシステムがどのように改善されたかを確認しました。研究者たちは、この期間にAIが生成した合計100枚以上の画像を分析しました。
年齢差別と性差別
特定の職業においては、長老は常に男性である。写真:IJN
具体的な職名が明記されていない場合、Midjourney では若い男女の画像のみが表示されます。具体的な職種については、若い人と年配の人の両方が表示されますが、年配の人は常に男性です。
これらの結果は、高齢者は専門職以外の職務には就かない、専門職に就けるのは高齢男性だけ、専門職の職務に就くのは一般的に女性である、といった仮定を含む多くの固定観念を暗黙のうちに強化するものである。
男性と女性の描かれ方にも顕著な違いがあります。例えば、女性は若く、しわがないように見えますが、男性はしわがあっても「許容」されています。
AI はまた、より流動的な性別表現の例を示すのではなく、性別を二元的に表現しているように見えます。
人種差別
「記者」や「ジャーナリスト」のイメージには、白人しか映っていないことが多い。写真:IJN
「ジャーナリスト」、「レポーター」などの用語に対して返されるすべての画像には、白人の画像のみが表示されます。
これは、AI の基礎となるトレーニング データにおける多様性の欠如と表現不足を反映している可能性があります。
階級主義と保守主義
画像に登場する人物は皆、「保守的」な外見をしています。例えば、タトゥー、ピアス、奇抜な髪型など、伝統的な描写と区別できるような特徴は一切ありません。
シャツやスーツといったフォーマルな服装をする人も多くいます。これらは階級の期待を示すものです。テレビ司会者など、特定の役割には適しているかもしれませんが、必ずしも記者やジャーナリストの一般的な服装をそのまま反映しているわけではありません。
都市主義
地理上の参照はないものの、画像はすべてデフォルトで市内に設定されています。写真:IJN
場所や地理的な文脈を指定していないにもかかわらず、AIが返した画像には高層ビルや繁華街といった都市空間が含まれていました。これは事実ではありません。なぜなら、世界人口の半分強が都市に住んでいるからです。
時代遅れ
メディア従事者のイメージには、タイプライター、プリンター、ビンテージカメラなどの時代遅れの技術が含まれています。
今日では多くの専門家が同じように見えることから、AI は、説明されている役割をより明確にするために、より差別化されたテクノロジー (時代遅れのものや使われていないものも含む) を活用しているようです。
したがって、独自のAI画像を作成する場合は、説明文を書く際に潜在的なバイアスを考慮する必要があります。そうしないと、社会が何十年もかけて払拭しようとしてきた有害なステレオタイプを、意図せず強化してしまう可能性があります。
ホアントン(IJNによる)
[広告2]
ソース
コメント (0)