چت‌بات‌های هوش مصنوعی به طور فزاینده‌ای «دیوانه» می‌شوند.

موج جدیدی از سیستم‌های «استنتاج» از شرکت‌هایی مانند OpenAI، اطلاعات نادرست را بیشتر می‌کند. نکته خطرناک این است که این شرکت‌ها خودشان هم نمی‌دانند چرا.

ZNews•08/05/2025

در ماه آوریل، یک ربات هوش مصنوعی که پشتیبانی فنی Cursor، ابزاری رو به رشد برای برنامه‌نویسان، را بر عهده داشت، به برخی از مشتریان در مورد تغییر در سیاست شرکت اطلاع داد. به طور خاص، در این اطلاعیه آمده بود که آنها دیگر مجاز به استفاده از Cursor در بیش از یک کامپیوتر نیستند.

در انجمن‌ها و رسانه‌های اجتماعی، مشتریان خشم خود را ابراز کردند. برخی حتی حساب‌های Cursor خود را لغو کردند. با این حال، برخی دیگر وقتی متوجه شدند چه اتفاقی افتاده است، حتی بیشتر خشمگین شدند: ربات هوش مصنوعی تغییر سیاستی را اعلام کرده بود که وجود نداشت.

مایکل تروئل، مدیرعامل و یکی از بنیانگذاران این شرکت، در پستی در ردیت نوشت: «ما چنین سیاستی نداریم. البته می‌توانید از کرسر روی چندین دستگاه استفاده کنید. متأسفانه، این یک پاسخ نادرست از یک ربات مجهز به هوش مصنوعی است.»

انتشار اخبار جعلی، گسترده و غیرقابل کنترل است.

بیش از دو سال پس از ظهور ChatGPT، شرکت‌های فناوری، کارمندان اداری و مصرف‌کنندگان روزمره، همگی با فرکانس فزاینده‌ای از ربات‌های هوش مصنوعی برای طیف وسیعی از وظایف استفاده می‌کنند.

با این حال، هنوز هیچ راهی برای تضمین تولید اطلاعات دقیق توسط این سیستم‌ها وجود ندارد. به طور متناقضی، جدیدترین و قدرتمندترین فناوری‌ها، که به عنوان سیستم‌های «استنتاج» نیز شناخته می‌شوند، از شرکت‌هایی مانند OpenAI، گوگل و DeepSeek، در واقع خطاهای بیشتری تولید می‌کنند.

یک مکالمه بی‌معنی در ChatGPT که در آن کاربر می‌پرسد آیا باید به سگش غلات بدهد یا نه. عکس: ردیت.

در مقابل مهارت‌های ریاضی که به طور قابل توجهی بهبود یافته‌اند، توانایی مدل‌های زبانی بزرگ (LLM) برای درک حقیقت متزلزل‌تر شده است. نکته قابل توجه این است که حتی خود مهندسان نیز کاملاً از دلیل آن گیج شده‌اند.

طبق گزارش نیویورک تایمز ، چت‌بات‌های هوش مصنوعی امروزی برای یادگیری مهارت‌ها از طریق تجزیه و تحلیل حجم عظیمی از داده‌های عددی به سیستم‌های ریاضی پیچیده متکی هستند. با این حال، آنها نمی‌توانند تصمیم بگیرند که چه چیزی درست و چه چیزی غلط است.

از آنجا، پدیده «توهم» یا خود-ابداعی پدیدار می‌شود. در واقع، طبق مطالعات، جدیدترین نسل LLMها بیشتر از برخی مدل‌های قدیمی‌تر «توهم» را تجربه می‌کنند.

به طور خاص، OpenAI در آخرین گزارش خود کشف کرد که مدل o3 هنگام پاسخ به ۳۳ درصد از سوالات PersonQA، استاندارد داخلی این شرکت برای سنجش دقت دانش یک مدل از انسان‌ها، «غیرواقعی» بوده است.

برای مقایسه، این رقم دو برابر نرخ «توهم» مدل‌های استدلال قبلی OpenAI، o1 و o3-mini، است که به ترتیب ۱۶٪ و ۱۴.۸٪ بودند. در همین حال، مدل o4-mini در PersonQA حتی بدتر عمل کرد و ۴۸٪ از مدت زمان آزمایش را «توهم» تجربه کرد.

نگران‌کننده‌تر اینکه، «پدر ChatGPT» در واقع نمی‌داند چرا این اتفاق می‌افتد. به طور خاص، OpenAI در گزارش فنی خود در مورد o3 و o4-mini اظهار می‌کند که «برای درک اینکه چرا «توهم‌ها» هنگام مقیاس‌بندی مدل‌های استدلال بدتر می‌شوند، تحقیقات بیشتری لازم است».

o3 و o4-mini در برخی زمینه‌ها، از جمله برنامه‌نویسی و وظایف ریاضی، عملکرد بهتری دارند. با این حال، از آنجا که آنها نیاز به "بیان اظهارات بیشتری نسبت به اظهارات عمومی" دارند، هر دو مدل منجر به "اظهارات دقیق‌تر، اما همچنین اظهارات نادرست‌تر" شده‌اند.

«این هرگز از بین نخواهد رفت.»

به جای مجموعه‌ای دقیق از قوانین تعریف‌شده توسط مهندسان انسانی، سیستم‌های LLM از احتمالات ریاضی برای پیش‌بینی بهترین پاسخ استفاده می‌کنند. بنابراین، آنها همیشه تعداد مشخصی خطا خواهند داشت.

عمرو عوض‌الله، مدیر اجرایی سابق گوگل، گفت: «با وجود تمام تلاش‌های ما، مدل‌های هوش مصنوعی همیشه در معرض توهمات خواهند بود. این هرگز از بین نخواهد رفت.»

طبق گفته IBM، توهمات پدیده‌هایی هستند که در آن‌ها مدل‌های زبانی بزرگ (LLM) - که اغلب چت‌بات‌ها یا ابزارهای بینایی کامپیوتر هستند - الگوهای داده‌ای را دریافت می‌کنند که وجود ندارند یا برای انسان غیرقابل تشخیص هستند و در نتیجه نتایج بی‌معنی یا نادرستی تولید می‌کنند. تصویر: iStock.

OpenAI در مقاله‌ای مفصل درباره این آزمایش‌ها اظهار داشت که برای درک علت این نتایج به تحقیقات بیشتری نیاز دارد.

به گفته کارشناسان، از آنجا که سیستم‌های هوش مصنوعی از حجم بسیار بیشتری از داده‌ها نسبت به آنچه انسان‌ها می‌توانند درک کنند، یاد می‌گیرند، تشخیص دلیل رفتار آنها بسیار دشوار می‌شود.

گبی رایلا، سخنگوی OpenAI، گفت: «این خطای دید ذاتاً در مدل‌های استنتاج رایج‌تر است، اگرچه ما به طور فعال در تلاشیم تا میزان مشاهده شده در o3 و o4-mini را کاهش دهیم. ما به مطالعه خطای دید در همه مدل‌ها ادامه خواهیم داد تا دقت و قابلیت اطمینان را بهبود بخشیم.»

آزمایش‌های انجام شده توسط شرکت‌ها و محققان مستقل متعدد نشان می‌دهد که میزان توهمات در مدل‌های استنتاج شرکت‌هایی مانند گوگل یا دیپ‌سیک نیز در حال افزایش است.

از اواخر سال ۲۰۲۳، شرکت عوض‌الله، وکتارا، بر میزان انتشار اطلاعات نادرست توسط چت‌بات‌ها نظارت داشته است. این شرکت به این سیستم‌ها یک وظیفه ساده و به راحتی قابل تأیید را محول کرده بود: خلاصه کردن مقالات خاص. حتی در آن زمان، چت‌بات‌ها به طور مداوم اطلاعات جعلی تولید می‌کردند.

به طور خاص، تحقیقات اولیه وکتارا تخمین زد که تحت این فرضیه، چت‌بات‌ها حداقل در ۳٪ موارد و گاهی تا ۲۷٪ اطلاعات را جعل می‌کنند.

در طول یک سال و نیم گذشته، شرکت‌هایی مانند OpenAI و گوگل این اعداد را به حدود ۱ یا ۲ درصد کاهش داده‌اند. برخی دیگر، مانند استارتاپ سانفرانسیسکویی Anthropic، حدود ۴ درصد را شامل می‌شوند.

با این حال، میزان توهم در این آزمایش برای سیستم‌های استدلال همچنان رو به افزایش بود. سیستم استدلال R1 شرکت DeepSeek، توهم را ۱۴.۳ درصد تجربه کرد، در حالی که o3 شرکت OpenAI، ۶.۸ درصد افزایش یافت.

مشکل دیگر این است که مدل‌های استنتاج طوری طراحی شده‌اند که قبل از رسیدن به پاسخ نهایی، زمانی را صرف «تفکر» در مورد مسائل پیچیده کنند.

اپل در اولین نسخه بتای macOS 15.1 هشداری برای جلوگیری از جعل اطلاعات توسط هوش مصنوعی قرار داد. تصویر: Reddit/devanxd2000

با این حال، نکته‌ی منفی این است که هنگام تلاش برای حل گام به گام یک مسئله، مدل هوش مصنوعی احتمالاً در هر مرحله با توهم مواجه می‌شود. مهم‌تر از آن، با صرف زمان بیشتر برای تفکر توسط مدل، خطاها می‌توانند انباشته شوند.

جدیدترین ربات‌ها هر مرحله را به کاربر نمایش می‌دهند، به این معنی که کاربران می‌توانند هر خطا را نیز ببینند. محققان همچنین دریافتند که در بسیاری از موارد، فرآیند فکری نمایش داده شده توسط یک چت‌بات در واقع با پاسخ نهایی ارائه شده توسط آن ارتباطی ندارد.

آریو پرادیپتا گما، محقق هوش مصنوعی در دانشگاه ادینبورگ و از نویسندگان نشریه آنتروپیک، می‌گوید: «آنچه سیستم می‌گوید در مورد آن استدلال می‌کند، لزوماً همان چیزی نیست که واقعاً به آن فکر می‌کند.»

منبع: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html