
در ماه آوریل، یک ربات هوش مصنوعی که پشتیبانی فنی Cursor، ابزاری رو به رشد برای برنامهنویسان، را بر عهده داشت، به برخی از مشتریان در مورد تغییر در سیاست شرکت اطلاع داد. به طور خاص، در این اطلاعیه آمده بود که آنها دیگر مجاز به استفاده از Cursor در بیش از یک کامپیوتر نیستند.
در انجمنها و رسانههای اجتماعی، مشتریان خشم خود را ابراز کردند. برخی حتی حسابهای Cursor خود را لغو کردند. با این حال، برخی دیگر وقتی متوجه شدند چه اتفاقی افتاده است، حتی بیشتر خشمگین شدند: ربات هوش مصنوعی تغییر سیاستی را اعلام کرده بود که وجود نداشت.
مایکل تروئل، مدیرعامل و یکی از بنیانگذاران این شرکت، در پستی در ردیت نوشت: «ما چنین سیاستی نداریم. البته میتوانید از کرسر روی چندین دستگاه استفاده کنید. متأسفانه، این یک پاسخ نادرست از یک ربات مجهز به هوش مصنوعی است.»
انتشار اخبار جعلی، گسترده و غیرقابل کنترل است.
بیش از دو سال پس از ظهور ChatGPT، شرکتهای فناوری، کارمندان اداری و مصرفکنندگان روزمره، همگی با فرکانس فزایندهای از رباتهای هوش مصنوعی برای طیف وسیعی از وظایف استفاده میکنند.
با این حال، هنوز هیچ راهی برای تضمین تولید اطلاعات دقیق توسط این سیستمها وجود ندارد. به طور متناقضی، جدیدترین و قدرتمندترین فناوریها، که به عنوان سیستمهای «استنتاج» نیز شناخته میشوند، از شرکتهایی مانند OpenAI، گوگل و DeepSeek، در واقع خطاهای بیشتری تولید میکنند.
![]() |
یک مکالمه بیمعنی در ChatGPT که در آن کاربر میپرسد آیا باید به سگش غلات بدهد یا نه. عکس: ردیت. |
در مقابل مهارتهای ریاضی که به طور قابل توجهی بهبود یافتهاند، توانایی مدلهای زبانی بزرگ (LLM) برای درک حقیقت متزلزلتر شده است. نکته قابل توجه این است که حتی خود مهندسان نیز کاملاً از دلیل آن گیج شدهاند.
طبق گزارش نیویورک تایمز ، چتباتهای هوش مصنوعی امروزی برای یادگیری مهارتها از طریق تجزیه و تحلیل حجم عظیمی از دادههای عددی به سیستمهای ریاضی پیچیده متکی هستند. با این حال، آنها نمیتوانند تصمیم بگیرند که چه چیزی درست و چه چیزی غلط است.
از آنجا، پدیده «توهم» یا خود-ابداعی پدیدار میشود. در واقع، طبق مطالعات، جدیدترین نسل LLMها بیشتر از برخی مدلهای قدیمیتر «توهم» را تجربه میکنند.
به طور خاص، OpenAI در آخرین گزارش خود کشف کرد که مدل o3 هنگام پاسخ به ۳۳ درصد از سوالات PersonQA، استاندارد داخلی این شرکت برای سنجش دقت دانش یک مدل از انسانها، «غیرواقعی» بوده است.
برای مقایسه، این رقم دو برابر نرخ «توهم» مدلهای استدلال قبلی OpenAI، o1 و o3-mini، است که به ترتیب ۱۶٪ و ۱۴.۸٪ بودند. در همین حال، مدل o4-mini در PersonQA حتی بدتر عمل کرد و ۴۸٪ از مدت زمان آزمایش را «توهم» تجربه کرد.
نگرانکنندهتر اینکه، «پدر ChatGPT» در واقع نمیداند چرا این اتفاق میافتد. به طور خاص، OpenAI در گزارش فنی خود در مورد o3 و o4-mini اظهار میکند که «برای درک اینکه چرا «توهمها» هنگام مقیاسبندی مدلهای استدلال بدتر میشوند، تحقیقات بیشتری لازم است».
o3 و o4-mini در برخی زمینهها، از جمله برنامهنویسی و وظایف ریاضی، عملکرد بهتری دارند. با این حال، از آنجا که آنها نیاز به "بیان اظهارات بیشتری نسبت به اظهارات عمومی" دارند، هر دو مدل منجر به "اظهارات دقیقتر، اما همچنین اظهارات نادرستتر" شدهاند.
«این هرگز از بین نخواهد رفت.»
به جای مجموعهای دقیق از قوانین تعریفشده توسط مهندسان انسانی، سیستمهای LLM از احتمالات ریاضی برای پیشبینی بهترین پاسخ استفاده میکنند. بنابراین، آنها همیشه تعداد مشخصی خطا خواهند داشت.
عمرو عوضالله، مدیر اجرایی سابق گوگل، گفت: «با وجود تمام تلاشهای ما، مدلهای هوش مصنوعی همیشه در معرض توهمات خواهند بود. این هرگز از بین نخواهد رفت.»
![]() |
طبق گفته IBM، توهمات پدیدههایی هستند که در آنها مدلهای زبانی بزرگ (LLM) - که اغلب چتباتها یا ابزارهای بینایی کامپیوتر هستند - الگوهای دادهای را دریافت میکنند که وجود ندارند یا برای انسان غیرقابل تشخیص هستند و در نتیجه نتایج بیمعنی یا نادرستی تولید میکنند. تصویر: iStock. |
OpenAI در مقالهای مفصل درباره این آزمایشها اظهار داشت که برای درک علت این نتایج به تحقیقات بیشتری نیاز دارد.
به گفته کارشناسان، از آنجا که سیستمهای هوش مصنوعی از حجم بسیار بیشتری از دادهها نسبت به آنچه انسانها میتوانند درک کنند، یاد میگیرند، تشخیص دلیل رفتار آنها بسیار دشوار میشود.
گبی رایلا، سخنگوی OpenAI، گفت: «این خطای دید ذاتاً در مدلهای استنتاج رایجتر است، اگرچه ما به طور فعال در تلاشیم تا میزان مشاهده شده در o3 و o4-mini را کاهش دهیم. ما به مطالعه خطای دید در همه مدلها ادامه خواهیم داد تا دقت و قابلیت اطمینان را بهبود بخشیم.»
آزمایشهای انجام شده توسط شرکتها و محققان مستقل متعدد نشان میدهد که میزان توهمات در مدلهای استنتاج شرکتهایی مانند گوگل یا دیپسیک نیز در حال افزایش است.
از اواخر سال ۲۰۲۳، شرکت عوضالله، وکتارا، بر میزان انتشار اطلاعات نادرست توسط چتباتها نظارت داشته است. این شرکت به این سیستمها یک وظیفه ساده و به راحتی قابل تأیید را محول کرده بود: خلاصه کردن مقالات خاص. حتی در آن زمان، چتباتها به طور مداوم اطلاعات جعلی تولید میکردند.
به طور خاص، تحقیقات اولیه وکتارا تخمین زد که تحت این فرضیه، چتباتها حداقل در ۳٪ موارد و گاهی تا ۲۷٪ اطلاعات را جعل میکنند.
در طول یک سال و نیم گذشته، شرکتهایی مانند OpenAI و گوگل این اعداد را به حدود ۱ یا ۲ درصد کاهش دادهاند. برخی دیگر، مانند استارتاپ سانفرانسیسکویی Anthropic، حدود ۴ درصد را شامل میشوند.
با این حال، میزان توهم در این آزمایش برای سیستمهای استدلال همچنان رو به افزایش بود. سیستم استدلال R1 شرکت DeepSeek، توهم را ۱۴.۳ درصد تجربه کرد، در حالی که o3 شرکت OpenAI، ۶.۸ درصد افزایش یافت.
مشکل دیگر این است که مدلهای استنتاج طوری طراحی شدهاند که قبل از رسیدن به پاسخ نهایی، زمانی را صرف «تفکر» در مورد مسائل پیچیده کنند.
![]() |
اپل در اولین نسخه بتای macOS 15.1 هشداری برای جلوگیری از جعل اطلاعات توسط هوش مصنوعی قرار داد. تصویر: Reddit/devanxd2000 |
با این حال، نکتهی منفی این است که هنگام تلاش برای حل گام به گام یک مسئله، مدل هوش مصنوعی احتمالاً در هر مرحله با توهم مواجه میشود. مهمتر از آن، با صرف زمان بیشتر برای تفکر توسط مدل، خطاها میتوانند انباشته شوند.
جدیدترین رباتها هر مرحله را به کاربر نمایش میدهند، به این معنی که کاربران میتوانند هر خطا را نیز ببینند. محققان همچنین دریافتند که در بسیاری از موارد، فرآیند فکری نمایش داده شده توسط یک چتبات در واقع با پاسخ نهایی ارائه شده توسط آن ارتباطی ندارد.
آریو پرادیپتا گما، محقق هوش مصنوعی در دانشگاه ادینبورگ و از نویسندگان نشریه آنتروپیک، میگوید: «آنچه سیستم میگوید در مورد آن استدلال میکند، لزوماً همان چیزی نیست که واقعاً به آن فکر میکند.»
منبع: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










نظر (0)