
در ماه آوریل، یک ربات هوش مصنوعی که پشتیبانی فنی Cursor، ابزاری نوظهور برای برنامهنویسان، را بر عهده دارد، به برخی از مشتریان از تغییر در سیاستهای شرکت اطلاع داد و به طور خاص گفت که دیگر مجاز به استفاده از Cursor در بیش از یک کامپیوتر نیستند.
مشتریان خشم خود را در انجمنها و رسانههای اجتماعی منتشر کردند. برخی حتی حسابهای Cursor خود را لغو کردند. اما برخی دیگر وقتی متوجه شدند چه اتفاقی افتاده است، حتی عصبانیتر شدند: ربات هوش مصنوعی تغییر سیاستی را گزارش کرده بود که وجود نداشت.
مایکل تروئل، مدیرعامل و یکی از بنیانگذاران این شرکت، در پستی در ردیت نوشت: «ما چنین سیاستی نداریم. البته میتوانید از کرسر روی چندین دستگاه استفاده کنید. متأسفانه، این یک پاسخ نادرست از یک ربات مجهز به هوش مصنوعی بود.»
اطلاعات جعلی از کنترل خارج شده است.
بیش از دو سال پس از راهاندازی ChatGPT، شرکتهای فناوری، کارمندان اداری و مصرفکنندگان روزمره با فرکانس فزایندهای از رباتهای هوش مصنوعی برای انجام وظایف مختلف استفاده میکنند.
با این حال، هیچ راهی برای اطمینان از تولید اطلاعات دقیق توسط این سیستمها وجود ندارد. به طور متناقضی، قدرتمندترین فناوریهای جدید، که به عنوان سیستمهای «استنتاج» از شرکتهایی مانند OpenAI، گوگل و DeepSeek شناخته میشوند، خطاهای بیشتری مرتکب میشوند.
![]() |
مکالمهی بیمعنی ChatGPT که در آن کاربر میپرسد آیا سگها باید غلات بخورند یا نه. عکس: ردیت. |
در حالی که مهارتهای ریاضی به طرز چشمگیری بهبود یافتهاند، توانایی مدلهای زبانی بزرگ (LLM) برای ثبت حقیقت متزلزلتر شده است. جالب اینجاست که حتی خود مهندسان هم کاملاً دلیل آن را نمیدانند.
طبق گزارش نیویورک تایمز ، چتباتهای هوش مصنوعی امروزی برای یادگیری مهارتها از طریق تجزیه و تحلیل حجم عظیمی از دادههای دیجیتال، به سیستمهای ریاضی پیچیدهای متکی هستند. با این حال، آنها نمیتوانند تصمیم بگیرند که چه چیزی درست و چه چیزی غلط است.
از آنجا، حالت «توهم» یا خودساختگی اطلاعات ظاهر میشود. در واقع، طبق تحقیقات، آخرین نسل LLMها حتی بیشتر از برخی مدلهای قدیمی «توهم» ایجاد میکنند.
به طور خاص، در آخرین گزارش، OpenAI کشف کرد که مدل o3 هنگام پاسخ دادن به ۳۳٪ از سوالات در PersonQA، استاندارد داخلی شرکت برای سنجش دقت دانش مدل در مورد انسانها، دچار «توهم» شده است.
برای مقایسه، این دو برابر نرخ «توهم» مدلهای استدلال قبلی OpenAI، o1 و o3-mini است که به ترتیب ۱۶٪ و ۱۴.۸٪ دچار خطا بودند. در همین حال، مدل o4-mini در PersonQA حتی بدتر عمل کرد و ۴۸٪ مواقع دچار «توهم» شد.
نگرانکنندهتر اینکه، «پدر ChatGPT» در واقع نمیداند چرا این اتفاق میافتد. بهطور خاص، OpenAI در گزارش فنی مربوط به o3 و o4-mini مینویسد که «برای درک اینکه چرا «توهم» با افزایش مقیاس مدلهای استدلال بدتر میشود، تحقیقات بیشتری لازم است».
مدلهای o3 و o4-mini در برخی زمینهها، از جمله برنامهنویسی و وظایف مرتبط با ریاضی، عملکرد بهتری داشتند. با این حال، از آنجا که آنها نیاز به «ارائه اظهارات بیشتر از تعمیم» داشتند، هر دو مدل از تولید «اظهارات صحیحتر، اما همچنین اظهارات نادرستتر» رنج میبردند.
«که هرگز از بین نخواهد رفت»
به جای مجموعهای دقیق از قوانین که توسط مهندسان انسانی تعیین میشوند، سیستمهای LLM از احتمالات ریاضی برای حدس زدن بهترین پاسخ استفاده میکنند. بنابراین آنها همیشه مقداری خطا دارند.
عمرو عوضالله، از مدیران اجرایی سابق گوگل، گفت: «با وجود تمام تلاشهای ما، مدلهای هوش مصنوعی همیشه توهمزا خواهند بود. این هرگز از بین نخواهد رفت.»
![]() |
طبق گفته IBM، توهم پدیدهای است که در آن مدلهای زبانی بزرگ (LLM) - معمولاً چتباتها یا ابزارهای بینایی کامپیوتر - الگوهای دادهای را دریافت میکنند که وجود ندارند یا برای انسان غیرقابل تشخیص هستند و در نتیجه نتایج بیمعنی یا گمراهکنندهای تولید میکنند. عکس: iStock. |
OpenAI در مقالهای مفصل درباره این آزمایشها اعلام کرد که برای درک دلایل این نتایج به تحقیقات بیشتری نیاز دارد.
کارشناسان میگویند از آنجا که سیستمهای هوش مصنوعی از حجم بسیار بیشتری از دادهها نسبت به آنچه انسانها میتوانند درک کنند، یاد میگیرند، تعیین دلیل چنین رفتاری میتواند دشوار باشد.
گبی رایلا، سخنگوی OpenAI، گفت: «توهمات ذاتاً در مدلهای استنتاج رایجتر هستند، اگرچه ما به طور فعال در تلاشیم تا میزان بروز آنها را در o3 و o4-mini کاهش دهیم. ما به کار بر روی توهمات در تمام مدلها ادامه خواهیم داد تا دقت و قابلیت اطمینان را بهبود بخشیم.»
آزمایشهای چندین شرکت و محقق مستقل نشان میدهد که میزان توهمات برای مدلهای استنتاج شرکتهایی مانند گوگل یا دیپسیک نیز در حال افزایش است.
از اواخر سال ۲۰۲۳، شرکت عوضالله، وکتارا، در حال پیگیری این موضوع است که چتباتها چند وقت یکبار اطلاعات را نادرست ارائه میدهند. این شرکت از سیستمها خواست تا یک کار ساده و به راحتی قابل تأیید خلاصه کردن مقالات خبری خاص را انجام دهند. حتی در آن زمان، چتباتها به جعل اطلاعات ادامه دادند.
به طور خاص، تحقیقات اولیه وکتارا تخمین زد که در این سناریو، چتباتها حداقل ۳٪ از مواقع و گاهی تا ۲۷٪ اطلاعات را جعل میکنند.
در طول یک سال و نیم گذشته، شرکتهایی مانند OpenAI و گوگل این اعداد را به حدود ۱ یا ۲ درصد کاهش دادهاند. برخی دیگر، مانند استارتاپ سانفرانسیسکویی Anthropic، حدود ۴ درصد را شامل میشوند.
با این حال، میزان توهم در این آزمایش برای سیستمهای استنتاج همچنان رو به افزایش بود. فراوانی توهم برای سیستم استنتاج R1 شرکت DeepSeek، 14.3 درصد افزایش یافت، در حالی که o3 شرکت OpenAI، 6.8 درصد افزایش یافت.
مشکل دیگر این است که مدلهای استنتاج طوری طراحی شدهاند که قبل از رسیدن به پاسخ نهایی، زمانی را صرف «فکر کردن» در مورد مسائل پیچیده کنند.
![]() |
اپل در اولین نسخه آزمایشی macOS 15.1، دستورالعملی برای جلوگیری از جعل اطلاعات توسط هوش مصنوعی قرار داد. عکس: Reddit/devanxd2000 |
با این حال، نکتهی منفی این است که هرچه مدل هوش مصنوعی سعی میکند مسئله را گام به گام حل کند، در هر مرحله بیشتر مستعد توهم میشود. مهمتر از آن، با صرف زمان بیشتر برای تفکر توسط مدل، خطاها میتوانند انباشته شوند.
جدیدترین رباتها هر مرحله را به کاربران نشان میدهند، به این معنی که کاربران میتوانند هر خطا را نیز ببینند. محققان همچنین دریافتند که در بسیاری از موارد، فرآیند فکری نشان داده شده توسط یک چتبات در واقع با پاسخ نهایی که ارائه میدهد، ارتباطی ندارد.
آریو پرادیپتا گما، محقق هوش مصنوعی در دانشگاه ادینبورگ و همکار آنتروپیک، میگوید: «آنچه سیستم میگوید استنتاج میکند، لزوماً همان چیزی نیست که واقعاً به آن فکر میکند.»
منبع: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html













نظر (0)