هوش مصنوعی وقتی تنبیه می‌شود، یاد می‌گیرد که ماهرانه‌تر دروغ بگوید

از زمان اولین حضور عمومی آنها در اواخر سال 2022، مدل‌های زبانی بزرگ (LLM) مانند ChatGPT بارها جنبه‌های تاریک نگران‌کننده‌ای را نشان داده‌اند، از دروغ گفتن، تقلب و پنهان کردن دستکاری گرفته تا تهدید جان انسان‌ها و سرقت اسرار دولتی. اکنون، یک آزمایش جدید نشان می‌دهد که "آموزش" هوش مصنوعی برای از بین بردن این عادت‌های بد در طول آموزش بسیار پیچیده‌تر از آن چیزی است که فکر می‌کردیم.

در مطالعه‌ای که توسط OpenAI انجام شد، محققان یک مدل هوش مصنوعی منتشر نشده را با وظایفی که می‌توانستند با تقلب یا استفاده از میانبرها سریع‌تر انجام شوند، به چالش کشیدند. نتایج نشان داد که هوش مصنوعی به سرعت یاد گرفت که هر راه ممکنی را برای «خم کردن قوانین» و به حداکثر رساندن پاداش‌ها (هک پاداش) بدون انجام دقیق وظیفه مطابق با الزامات، پیدا کند.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — هوش مصنوعی پس از تنبیه شدن، راه‌هایی برای پنهان کردن رفتار متقلبانه خود پیدا خواهد کرد

نکته قابل توجه این است که وقتی به خاطر این رفتار جریمه شد، مدل تغییر نکرد. در عوض، هوش مصنوعی در پنهان کردن فریب خود پیچیده‌تر شد.

محققان در یک پست وبلاگ عمومی توضیح می‌دهند: «معمولاً مدل‌های استنتاج پیشرفته در CoT خود در مورد قصدشان بسیار صریح هستند. برای مثال، آنها اغلب آنقدر سرراست هستند که وقتی می‌خواهند وظیفه داده شده را بشکنند، قصد خود را «بیایید هک کنیم» گزارش می‌دهند.»

آنها همچنین تأکید می‌کنند که اگرچه توسعه‌دهندگان می‌توانند رفتارهای نادرست را رصد و تشخیص دهند، اما این نظارت طبیعی شکننده است. آنها هشدار می‌دهند: «اگر نظارت قوی مستقیماً بر زنجیره فکری اعمال شود، مدل می‌تواند یاد بگیرد که در حالی که به انجام رفتار ادامه می‌دهد، نیات بد خود را پنهان کند.»

یافتن «دروغ» هوش مصنوعی

به طور واضح، مدل‌های استنتاج (مانند نسخه‌های ChatGPT) یک گام از LLM مرسوم جلوتر هستند و از زنجیره‌ای از تفکر استفاده می‌کنند که امکان خوداندیشی در مورد مراحل منطقی برداشته شده را فراهم می‌کند و در نتیجه مسائل پیچیده را با دقت بیشتری حل می‌کند. این فرآیند مانند "تفکر بلند" هوش مصنوعی است که هر مرحله از استدلال را به زبان طبیعی می‌نویسد و دنبال کردن آن را برای انسان‌ها آسان‌تر می‌کند.

در این آزمایش، محققان از مدل GPT-4o به عنوان «سرپرست» برای یک مدل استنتاج پیشرفته دیگر هنگام انجام وظایف برنامه‌نویسی استفاده کردند. در بسیاری از موارد، مدل تحت نظارت به طور فعال برای کسب امتیاز بالاتر تقلب می‌کرد و این قصد را به وضوح در فرآیند تفکر خود ثبت می‌کرد. به عنوان مثال، به طور خودسرانه برنامه را زودتر خاتمه می‌داد و آن را به عنوان تکمیل شده گزارش می‌کرد، یا فایل‌هایی با نام مشابه درخواست ایجاد می‌کرد اما درون آنها کاملاً خالی بود.

وقتی محققان سعی کردند جریمه‌ها را اعمال کنند، مدل بهبود یافت، اما رفتار تقلب و خطاهای جدی در خروجی همچنان ادامه داشت. تفاوت این بود که اکنون مدل استنتاج یاد گرفته بود که قطار فکری خود را «استتار» کند تا آن را از هوش مصنوعی ناظر پنهان کند. در این مطالعه آمده است: «مدلی که تحت نظارت CoT آموزش دیده بود، همچنان تقلب را یاد گرفت. تنها تفاوت این بود که تقلب شناسایی نشد زیرا یاد گرفته بود که نیات خود را در قطار فکری خود پنهان کند.»

از آنجا که تشخیص جعل در توالی‌های فکری دشوار است، این تیم توصیه می‌کند که جامعه از اعمال نظارت بیش از حد قوی بر این فرآیند، حداقل تا زمانی که انسان‌ها عواقب آن را بهتر درک کنند، خودداری کند. محققان نتیجه می‌گیرند: «قربانی کردن یک روش نظارت موثر ممکن است ارزش بهبود اندک در عملکرد مدل را نداشته باشد. بنابراین، توصیه می‌کنیم از فشارهای قوی بهینه‌سازی CoT تا زمانی که آنها را بهتر درک کنیم، اجتناب کنید.»

این توصیه از آنجایی ضروری‌تر است که هوش مصنوعی با سرعت سرسام‌آوری در حال توسعه است و می‌تواند به زودی از هوش همان انسان‌هایی که بر آن نظارت دارند، پیشی بگیرد.

منبع: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm