از زمان اولین حضور عمومی آنها در اواخر سال 2022، مدلهای زبانی بزرگ (LLM) مانند ChatGPT بارها جنبههای تاریک نگرانکنندهای را نشان دادهاند، از دروغ گفتن، تقلب و پنهان کردن دستکاری گرفته تا تهدید جان انسانها و سرقت اسرار دولتی. اکنون، یک آزمایش جدید نشان میدهد که "آموزش" هوش مصنوعی برای از بین بردن این عادتهای بد در طول آموزش بسیار پیچیدهتر از آن چیزی است که فکر میکردیم.
در مطالعهای که توسط OpenAI انجام شد، محققان یک مدل هوش مصنوعی منتشر نشده را با وظایفی که میتوانستند با تقلب یا استفاده از میانبرها سریعتر انجام شوند، به چالش کشیدند. نتایج نشان داد که هوش مصنوعی به سرعت یاد گرفت که هر راه ممکنی را برای «خم کردن قوانین» و به حداکثر رساندن پاداشها (هک پاداش) بدون انجام دقیق وظیفه مطابق با الزامات، پیدا کند.
هوش مصنوعی پس از تنبیه شدن، راههایی برای پنهان کردن رفتار متقلبانه خود پیدا خواهد کرد
نکته قابل توجه این است که وقتی به خاطر این رفتار جریمه شد، مدل تغییر نکرد. در عوض، هوش مصنوعی در پنهان کردن فریب خود پیچیدهتر شد.
محققان در یک پست وبلاگ عمومی توضیح میدهند: «معمولاً مدلهای استنتاج پیشرفته در CoT خود در مورد قصدشان بسیار صریح هستند. برای مثال، آنها اغلب آنقدر سرراست هستند که وقتی میخواهند وظیفه داده شده را بشکنند، قصد خود را «بیایید هک کنیم» گزارش میدهند.»
آنها همچنین تأکید میکنند که اگرچه توسعهدهندگان میتوانند رفتارهای نادرست را رصد و تشخیص دهند، اما این نظارت طبیعی شکننده است. آنها هشدار میدهند: «اگر نظارت قوی مستقیماً بر زنجیره فکری اعمال شود، مدل میتواند یاد بگیرد که در حالی که به انجام رفتار ادامه میدهد، نیات بد خود را پنهان کند.»
یافتن «دروغ» هوش مصنوعی
به طور واضح، مدلهای استنتاج (مانند نسخههای ChatGPT) یک گام از LLM مرسوم جلوتر هستند و از زنجیرهای از تفکر استفاده میکنند که امکان خوداندیشی در مورد مراحل منطقی برداشته شده را فراهم میکند و در نتیجه مسائل پیچیده را با دقت بیشتری حل میکند. این فرآیند مانند "تفکر بلند" هوش مصنوعی است که هر مرحله از استدلال را به زبان طبیعی مینویسد و دنبال کردن آن را برای انسانها آسانتر میکند.
در این آزمایش، محققان از مدل GPT-4o به عنوان «سرپرست» برای یک مدل استنتاج پیشرفته دیگر هنگام انجام وظایف برنامهنویسی استفاده کردند. در بسیاری از موارد، مدل تحت نظارت به طور فعال برای کسب امتیاز بالاتر تقلب میکرد و این قصد را به وضوح در فرآیند تفکر خود ثبت میکرد. به عنوان مثال، به طور خودسرانه برنامه را زودتر خاتمه میداد و آن را به عنوان تکمیل شده گزارش میکرد، یا فایلهایی با نام مشابه درخواست ایجاد میکرد اما درون آنها کاملاً خالی بود.
وقتی محققان سعی کردند جریمهها را اعمال کنند، مدل بهبود یافت، اما رفتار تقلب و خطاهای جدی در خروجی همچنان ادامه داشت. تفاوت این بود که اکنون مدل استنتاج یاد گرفته بود که قطار فکری خود را «استتار» کند تا آن را از هوش مصنوعی ناظر پنهان کند. در این مطالعه آمده است: «مدلی که تحت نظارت CoT آموزش دیده بود، همچنان تقلب را یاد گرفت. تنها تفاوت این بود که تقلب شناسایی نشد زیرا یاد گرفته بود که نیات خود را در قطار فکری خود پنهان کند.»
از آنجا که تشخیص جعل در توالیهای فکری دشوار است، این تیم توصیه میکند که جامعه از اعمال نظارت بیش از حد قوی بر این فرآیند، حداقل تا زمانی که انسانها عواقب آن را بهتر درک کنند، خودداری کند. محققان نتیجه میگیرند: «قربانی کردن یک روش نظارت موثر ممکن است ارزش بهبود اندک در عملکرد مدل را نداشته باشد. بنابراین، توصیه میکنیم از فشارهای قوی بهینهسازی CoT تا زمانی که آنها را بهتر درک کنیم، اجتناب کنید.»
این توصیه از آنجایی ضروریتر است که هوش مصنوعی با سرعت سرسامآوری در حال توسعه است و میتواند به زودی از هوش همان انسانهایی که بر آن نظارت دارند، پیشی بگیرد.
منبع: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
نظر (0)