دو مدل تازه عرضه شده ChatGPT نسبت به نسل قبلی، فرکانس بالاتری از اطلاعات ساختگی دارند. عکس: Fireflies . |
تنها دو روز پس از اعلام GPT-4.1، OpenAI رسماً نه یکی، بلکه دو مدل جدید با نامهای o3 و o4-mini را عرضه کرد. هر دو مدل، قابلیتهای استدلال برتر را با پیشرفتهای قدرتمند بسیاری نشان میدهند.
با این حال، طبق گفته TechCrunch ، این دو مدل جدید هنوز از "توهم" یا خود-خلاقی رنج میبرند. در واقع، آنها توهمات بیشتری نسبت به برخی از مدلهای قدیمی OpenAI از خود نشان میدهند.
طبق گفته IBM، توهمات پدیدههایی هستند که در آنها مدلهای زبانی بزرگ (LLM) - که اغلب چتباتها یا ابزارهای بینایی کامپیوتر هستند - الگوهای دادهای را دریافت میکنند که وجود ندارند یا برای انسان غیرقابل تشخیص هستند و در نتیجه نتایج بیمعنی یا نادرستی تولید میکنند.
به عبارت دیگر، کاربران اغلب انتظار دارند که هوش مصنوعی بر اساس دادههای آموزشدیده، نتایج دقیقی ارائه دهد. با این حال، در برخی موارد، نتایج هوش مصنوعی بر اساس دادههای دقیق نیست و پاسخی «نادرست» ایجاد میکند.
در آخرین گزارش خود، OpenAI کشف کرد که o3 هنگام پاسخ به ۳۳٪ از سؤالات در PersonQA، استاندارد داخلی این شرکت برای سنجش دقت دانش یک مدل از انسانها، "غیرواقعی" بوده است.
برای مقایسه، این رقم دو برابر نرخ «توهم» مدلهای استدلال قبلی OpenAI، o1 و o3-mini، است که به ترتیب ۱۶٪ و ۱۴.۸٪ بودند. در همین حال، مدل O4-mini در PersonQA حتی بدتر عمل کرد و ۴۸٪ از مدت زمان آزمایش را «توهم» تجربه کرد.
نگرانکنندهتر اینکه، «پدر ChatGPT» در واقع نمیداند چرا این اتفاق میافتد. به طور خاص، OpenAI در گزارش فنی خود در مورد o3 و o4-mini اظهار میکند که «برای درک اینکه چرا «توهمها» هنگام مقیاسبندی مدلهای استدلال بدتر میشوند، تحقیقات بیشتری لازم است».
O3 و o4-mini در برخی زمینهها، از جمله برنامهنویسی و وظایف ریاضی، عملکرد بهتری دارند. با این حال، از آنجا که آنها نیاز به "بیان اظهارات بیشتری نسبت به اظهارات عمومی" دارند، هر دو مدل منجر به "اظهارات دقیقتر، اما همچنین اظهارات نادرستتر" شدهاند.
منبع: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html







نظر (0)