هشدار در مورد «توهم‌زا» بودن ChatGPT

دو مدل تازه عرضه شده ChatGPT نسبت به نسل قبلی، فرکانس بالاتری از اطلاعات ساختگی دارند. عکس: Fireflies .

تنها دو روز پس از اعلام GPT-4.1، OpenAI رسماً نه یکی، بلکه دو مدل جدید با نام‌های o3 و o4-mini را عرضه کرد. هر دو مدل، قابلیت‌های استدلال برتر را با پیشرفت‌های قدرتمند بسیاری نشان می‌دهند.

با این حال، طبق گفته TechCrunch ، این دو مدل جدید هنوز از "توهم" یا خود-خلاقی رنج می‌برند. در واقع، آنها توهمات بیشتری نسبت به برخی از مدل‌های قدیمی OpenAI از خود نشان می‌دهند.

طبق گفته IBM، توهمات پدیده‌هایی هستند که در آن‌ها مدل‌های زبانی بزرگ (LLM) - که اغلب چت‌بات‌ها یا ابزارهای بینایی کامپیوتر هستند - الگوهای داده‌ای را دریافت می‌کنند که وجود ندارند یا برای انسان غیرقابل تشخیص هستند و در نتیجه نتایج بی‌معنی یا نادرستی تولید می‌کنند.

به عبارت دیگر، کاربران اغلب انتظار دارند که هوش مصنوعی بر اساس داده‌های آموزش‌دیده، نتایج دقیقی ارائه دهد. با این حال، در برخی موارد، نتایج هوش مصنوعی بر اساس داده‌های دقیق نیست و پاسخی «نادرست» ایجاد می‌کند.

در آخرین گزارش خود، OpenAI کشف کرد که o3 هنگام پاسخ به ۳۳٪ از سؤالات در PersonQA، استاندارد داخلی این شرکت برای سنجش دقت دانش یک مدل از انسان‌ها، "غیرواقعی" بوده است.

برای مقایسه، این رقم دو برابر نرخ «توهم» مدل‌های استدلال قبلی OpenAI، o1 و o3-mini، است که به ترتیب ۱۶٪ و ۱۴.۸٪ بودند. در همین حال، مدل O4-mini در PersonQA حتی بدتر عمل کرد و ۴۸٪ از مدت زمان آزمایش را «توهم» تجربه کرد.

نگران‌کننده‌تر اینکه، «پدر ChatGPT» در واقع نمی‌داند چرا این اتفاق می‌افتد. به طور خاص، OpenAI در گزارش فنی خود در مورد o3 و o4-mini اظهار می‌کند که «برای درک اینکه چرا «توهم‌ها» هنگام مقیاس‌بندی مدل‌های استدلال بدتر می‌شوند، تحقیقات بیشتری لازم است».

O3 و o4-mini در برخی زمینه‌ها، از جمله برنامه‌نویسی و وظایف ریاضی، عملکرد بهتری دارند. با این حال، از آنجا که آنها نیاز به "بیان اظهارات بیشتری نسبت به اظهارات عمومی" دارند، هر دو مدل منجر به "اظهارات دقیق‌تر، اما همچنین اظهارات نادرست‌تر" شده‌اند.

منبع: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html