新たに発売された2つのChatGPTモデルは、前世代よりも捏造情報の頻度が高い。写真: Fireflies 。 |
OpenAIはGPT-4.1の発表からわずか2日後、o3とo4-miniという2つの新しいモデルを正式に発表した。どちらのモデルも、多くの強力な改良により、優れた推論能力を発揮する。
しかし、 TechCrunchによると、これら2つの新しいモデルは依然として「幻覚」や自己創造の問題を抱えているという。実際、OpenAIの古いモデルの一部よりも多くの幻覚を示している。
IBMによると、幻覚とは、大規模言語モデル(LLM)(多くの場合、チャットボットやコンピュータビジョンツール)が、人間には存在しない、あるいは認識できないデータパターンを受け取り、その結果、意味のない、あるいは不正確な結果を生み出す現象である。
つまり、ユーザーはAIが学習済みのデータに基づいて正確な結果を出すことを期待することが多い。しかし、場合によってはAIの結果が正確なデータに基づいていないため、「誤った」応答が生じることがある。
OpenAIは最新の報告書で、モデルの人間に関する知識の正確さを測定するための社内基準であるPersonQAにおいて、o3が質問の33%に回答した際に「幻想」であったことを発見した。
比較のために述べると、この数値はOpenAIの以前の推論モデルであるo1とo3-miniの「錯覚」発生率(それぞれ16%と14.8%)の2倍にあたる。一方、O4-miniモデルはPersonQAテストでさらに悪い結果となり、テスト期間の48%で「錯覚」が発生した。
さらに懸念されるのは、「ChatGPTの生みの親」であるOpenAIが、なぜこのようなことが起こるのか実際には分かっていないことだ。具体的には、o3とo4-miniに関する技術レポートの中で、OpenAIは推論モデルを拡張する際に「なぜ『幻覚』が悪化するのかを理解するには、さらなる研究が必要だ」と述べている。
O3とo4-miniは、プログラミングや数学的タスクなど、一部の分野で優れた性能を発揮します。しかし、「一般的な記述よりも多くの記述を作成する必要がある」ため、両モデルとも「より正確な記述が得られる一方で、より不正確な記述も増える」という結果になっています。
出典:https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html






コメント (0)