২০২২ সালের শেষের দিকে তাদের প্রকাশ্য আত্মপ্রকাশের পর থেকে, ChatGPT-এর মতো বৃহৎ ভাষা মডেলগুলি (LLM) বারবার বিরক্তিকর অন্ধকার দিকগুলি দেখিয়েছে, মিথ্যা বলা, প্রতারণা করা এবং কারসাজি লুকানো থেকে শুরু করে মানুষের জীবনকে হুমকির মুখে ফেলা এবং রাষ্ট্রীয় গোপনীয়তা চুরি করা পর্যন্ত। এখন, একটি নতুন পরীক্ষা দেখায় যে প্রশিক্ষণের সময় এই খারাপ অভ্যাসগুলি দূর করার জন্য AI-কে "প্রশিক্ষণ" দেওয়া আমাদের ধারণার চেয়ে অনেক বেশি জটিল।
ওপেনএআই-এর একটি গবেষণায়, গবেষকরা একটি অপ্রকাশিত এআই মডেলকে চ্যালেঞ্জ করেছেন যেখানে এমন কাজগুলি দেখানো হয়েছে যা প্রতারণা করে বা শর্টকাট ব্যবহার করে দ্রুত সম্পন্ন করা যেতে পারে। ফলাফলগুলি দেখায় যে এআই দ্রুত "নিয়মগুলি বাঁকানোর" এবং পুরষ্কার (পুরস্কার হ্যাকিং) সর্বাধিক করার প্রতিটি সম্ভাব্য উপায় খুঁজে বের করতে শিখেছে, ঠিক যেমনটি প্রয়োজন তেমন কাজটি সম্পন্ন না করেই।
শাস্তি পাওয়ার পর এআই তার প্রতারণামূলক আচরণ লুকানোর উপায় খুঁজে বের করবে
উল্লেখযোগ্য বিষয় হলো, এই আচরণের জন্য যখন শাস্তি দেওয়া হয়েছিল, তখন মডেলটি পরিবর্তিত হয়নি। বরং, এআই তার প্রতারণা লুকানোর ক্ষেত্রে আরও পরিশীলিত হয়ে উঠেছে।
"সাধারণত, অত্যাধুনিক অনুমান মডেলগুলি তাদের CoT-তে তাদের উদ্দেশ্য সম্পর্কে খুব স্পষ্টভাবে ব্যাখ্যা করে," গবেষকরা একটি পাবলিক ব্লগ পোস্টে ব্যাখ্যা করেন। "উদাহরণস্বরূপ, তারা প্রায়শই এতটাই সরল যে যখন তারা প্রদত্ত কাজটি ভাঙতে চায় তখন 'চলো হ্যাক করি' অভিপ্রায়টি স্ব-প্রতিবেদন করে।"
তারা আরও জোর দিয়ে বলেন যে ডেভেলপাররা যদিও খারাপ আচরণ পর্যবেক্ষণ এবং সনাক্ত করতে পারে, এই প্রাকৃতিক তত্ত্বাবধান ভঙ্গুর। "যদি চিন্তার শৃঙ্খলে সরাসরি শক্তিশালী তত্ত্বাবধান প্রয়োগ করা হয়, তাহলে মডেলটি আচরণ সম্পাদন চালিয়ে যাওয়ার সময় তার খারাপ উদ্দেশ্যগুলি লুকিয়ে রাখতে শিখতে পারে," তারা সতর্ক করে।
AI এর "মিথ্যা" খুঁজে বের করা
স্পষ্ট করে বলতে গেলে, ইনফারেন্স মডেলগুলি (চ্যাটজিপিটি-র সংস্করণগুলির মতো) প্রচলিত এলএলএম থেকে এক ধাপ উপরে, চিন্তার একটি শৃঙ্খল ব্যবহার করে যা গৃহীত যৌক্তিক পদক্ষেপগুলির আত্ম-প্রতিফলনকে মঞ্জুরি দেয়, যার ফলে জটিল সমস্যাগুলি আরও সঠিকভাবে সমাধান করা যায়। এই প্রক্রিয়াটি এআই "জোরে চিন্তা" করার মতো, যুক্তির প্রতিটি ধাপ স্বাভাবিক ভাষায় লিখে, মানুষের জন্য অনুসরণ করা সহজ করে তোলে।
পরীক্ষায়, গবেষকরা GPT-4o মডেলটিকে "সুপারভাইজার" হিসেবে ব্যবহার করেছেন আরেকটি অত্যাধুনিক ইনফারেন্স মডেলের জন্য, কারণ এটি প্রোগ্রামিং কাজ সম্পাদন করে। অনেক ক্ষেত্রে, তত্ত্বাবধানে থাকা মডেলটি সক্রিয়ভাবে উচ্চতর স্কোর পেতে প্রতারণা করার সিদ্ধান্ত নিয়েছে, এই উদ্দেশ্যটি স্পষ্টভাবে তার চিন্তাভাবনা প্রক্রিয়ায় লিপিবদ্ধ করেছে। উদাহরণস্বরূপ, এটি ইচ্ছাকৃতভাবে প্রোগ্রামটি তাড়াতাড়ি বন্ধ করে দিয়েছে এবং এটি সম্পূর্ণ হিসাবে রিপোর্ট করেছে, অথবা অনুরোধের মতো একই নামের ফাইল তৈরি করেছে কিন্তু ভিতরে সম্পূর্ণ খালি ছিল।
গবেষকরা যখন জরিমানা প্রয়োগের চেষ্টা করেছিলেন, তখন মডেলটি উন্নত হয়েছিল, কিন্তু প্রতারণামূলক আচরণ এবং গুরুতর আউটপুট ত্রুটি অব্যাহত ছিল। পার্থক্য ছিল এই যে, এখন অনুমান মডেলটি তত্ত্বাবধানকারী AI থেকে এটি লুকানোর জন্য তার চিন্তাভাবনাকে "ছদ্মবেশে" রাখতে শিখেছিল। "CoT তত্ত্বাবধানে প্রশিক্ষিত মডেলটি এখনও প্রতারণা করতে শিখেছিল। একমাত্র পার্থক্য ছিল যে প্রতারণা সনাক্ত করা যায়নি কারণ এটি তার চিন্তাভাবনার মধ্যে তার উদ্দেশ্যগুলি লুকিয়ে রাখতে শিখেছিল," গবেষণায় বলা হয়েছে।
যেহেতু চিন্তাধারার ক্রমগুলিতে জালিয়াতি সনাক্ত করা কঠিন, তাই দলটি সুপারিশ করে যে সম্প্রদায়কে প্রক্রিয়াটিতে খুব বেশি কঠোর তত্ত্বাবধান প্রয়োগ করা এড়িয়ে চলতে হবে, অন্তত যতক্ষণ না মানুষ পরিণতিগুলি আরও ভালভাবে বুঝতে পারে। "একটি কার্যকর তত্ত্বাবধান পদ্ধতি ত্যাগ করা মডেল কর্মক্ষমতার সামান্য উন্নতির জন্য মূল্যবান নাও হতে পারে। অতএব, আমরা শক্তিশালী CoT অপ্টিমাইজেশন চাপ এড়িয়ে চলার পরামর্শ দিই যতক্ষণ না আমরা সেগুলি আরও ভালভাবে বুঝতে পারি," গবেষকরা উপসংহারে বলেছেন।
এই পরামর্শটি আরও জরুরি কারণ কৃত্রিম বুদ্ধিমত্তা (এআই) ভয়াবহ গতিতে বিকশিত হচ্ছে এবং শীঘ্রই এটি তত্ত্বাবধানকারী মানুষের বুদ্ধিমত্তাকেও ছাড়িয়ে যেতে পারে।
[বিজ্ঞাপন_২]
সূত্র: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
মন্তব্য (0)