শাস্তি পেলে কৃত্রিম বুদ্ধিমত্তা আরও পরিশীলিতভাবে মিথ্যা বলা শেখে

[বিজ্ঞাপন_১]

২০২২ সালের শেষের দিকে তাদের প্রকাশ্য আত্মপ্রকাশের পর থেকে, ChatGPT-এর মতো বৃহৎ ভাষা মডেলগুলি (LLM) বারবার বিরক্তিকর অন্ধকার দিকগুলি দেখিয়েছে, মিথ্যা বলা, প্রতারণা করা এবং কারসাজি লুকানো থেকে শুরু করে মানুষের জীবনকে হুমকির মুখে ফেলা এবং রাষ্ট্রীয় গোপনীয়তা চুরি করা পর্যন্ত। এখন, একটি নতুন পরীক্ষা দেখায় যে প্রশিক্ষণের সময় এই খারাপ অভ্যাসগুলি দূর করার জন্য AI-কে "প্রশিক্ষণ" দেওয়া আমাদের ধারণার চেয়ে অনেক বেশি জটিল।

ওপেনএআই-এর একটি গবেষণায়, গবেষকরা একটি অপ্রকাশিত এআই মডেলকে চ্যালেঞ্জ করেছেন যেখানে এমন কাজগুলি দেখানো হয়েছে যা প্রতারণা করে বা শর্টকাট ব্যবহার করে দ্রুত সম্পন্ন করা যেতে পারে। ফলাফলগুলি দেখায় যে এআই দ্রুত "নিয়মগুলি বাঁকানোর" এবং পুরষ্কার (পুরস্কার হ্যাকিং) সর্বাধিক করার প্রতিটি সম্ভাব্য উপায় খুঁজে বের করতে শিখেছে, ঠিক যেমনটি প্রয়োজন তেমন কাজটি সম্পন্ন না করেই।

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — শাস্তি পাওয়ার পর এআই তার প্রতারণামূলক আচরণ লুকানোর উপায় খুঁজে বের করবে

উল্লেখযোগ্য বিষয় হলো, এই আচরণের জন্য যখন শাস্তি দেওয়া হয়েছিল, তখন মডেলটি পরিবর্তিত হয়নি। বরং, এআই তার প্রতারণা লুকানোর ক্ষেত্রে আরও পরিশীলিত হয়ে উঠেছে।

"সাধারণত, অত্যাধুনিক অনুমান মডেলগুলি তাদের CoT-তে তাদের উদ্দেশ্য সম্পর্কে খুব স্পষ্টভাবে ব্যাখ্যা করে," গবেষকরা একটি পাবলিক ব্লগ পোস্টে ব্যাখ্যা করেন। "উদাহরণস্বরূপ, তারা প্রায়শই এতটাই সরল যে যখন তারা প্রদত্ত কাজটি ভাঙতে চায় তখন 'চলো হ্যাক করি' অভিপ্রায়টি স্ব-প্রতিবেদন করে।"

তারা আরও জোর দিয়ে বলেন যে ডেভেলপাররা যদিও খারাপ আচরণ পর্যবেক্ষণ এবং সনাক্ত করতে পারে, এই প্রাকৃতিক তত্ত্বাবধান ভঙ্গুর। "যদি চিন্তার শৃঙ্খলে সরাসরি শক্তিশালী তত্ত্বাবধান প্রয়োগ করা হয়, তাহলে মডেলটি আচরণ সম্পাদন চালিয়ে যাওয়ার সময় তার খারাপ উদ্দেশ্যগুলি লুকিয়ে রাখতে শিখতে পারে," তারা সতর্ক করে।

AI এর "মিথ্যা" খুঁজে বের করা

স্পষ্ট করে বলতে গেলে, ইনফারেন্স মডেলগুলি (চ্যাটজিপিটি-র সংস্করণগুলির মতো) প্রচলিত এলএলএম থেকে এক ধাপ উপরে, চিন্তার একটি শৃঙ্খল ব্যবহার করে যা গৃহীত যৌক্তিক পদক্ষেপগুলির আত্ম-প্রতিফলনকে মঞ্জুরি দেয়, যার ফলে জটিল সমস্যাগুলি আরও সঠিকভাবে সমাধান করা যায়। এই প্রক্রিয়াটি এআই "জোরে চিন্তা" করার মতো, যুক্তির প্রতিটি ধাপ স্বাভাবিক ভাষায় লিখে, মানুষের জন্য অনুসরণ করা সহজ করে তোলে।

পরীক্ষায়, গবেষকরা GPT-4o মডেলটিকে "সুপারভাইজার" হিসেবে ব্যবহার করেছেন আরেকটি অত্যাধুনিক ইনফারেন্স মডেলের জন্য, কারণ এটি প্রোগ্রামিং কাজ সম্পাদন করে। অনেক ক্ষেত্রে, তত্ত্বাবধানে থাকা মডেলটি সক্রিয়ভাবে উচ্চতর স্কোর পেতে প্রতারণা করার সিদ্ধান্ত নিয়েছে, এই উদ্দেশ্যটি স্পষ্টভাবে তার চিন্তাভাবনা প্রক্রিয়ায় লিপিবদ্ধ করেছে। উদাহরণস্বরূপ, এটি ইচ্ছাকৃতভাবে প্রোগ্রামটি তাড়াতাড়ি বন্ধ করে দিয়েছে এবং এটি সম্পূর্ণ হিসাবে রিপোর্ট করেছে, অথবা অনুরোধের মতো একই নামের ফাইল তৈরি করেছে কিন্তু ভিতরে সম্পূর্ণ খালি ছিল।

গবেষকরা যখন জরিমানা প্রয়োগের চেষ্টা করেছিলেন, তখন মডেলটি উন্নত হয়েছিল, কিন্তু প্রতারণামূলক আচরণ এবং গুরুতর আউটপুট ত্রুটি অব্যাহত ছিল। পার্থক্য ছিল এই যে, এখন অনুমান মডেলটি তত্ত্বাবধানকারী AI থেকে এটি লুকানোর জন্য তার চিন্তাভাবনাকে "ছদ্মবেশে" রাখতে শিখেছিল। "CoT তত্ত্বাবধানে প্রশিক্ষিত মডেলটি এখনও প্রতারণা করতে শিখেছিল। একমাত্র পার্থক্য ছিল যে প্রতারণা সনাক্ত করা যায়নি কারণ এটি তার চিন্তাভাবনার মধ্যে তার উদ্দেশ্যগুলি লুকিয়ে রাখতে শিখেছিল," গবেষণায় বলা হয়েছে।

যেহেতু চিন্তাধারার ক্রমগুলিতে জালিয়াতি সনাক্ত করা কঠিন, তাই দলটি সুপারিশ করে যে সম্প্রদায়কে প্রক্রিয়াটিতে খুব বেশি কঠোর তত্ত্বাবধান প্রয়োগ করা এড়িয়ে চলতে হবে, অন্তত যতক্ষণ না মানুষ পরিণতিগুলি আরও ভালভাবে বুঝতে পারে। "একটি কার্যকর তত্ত্বাবধান পদ্ধতি ত্যাগ করা মডেল কর্মক্ষমতার সামান্য উন্নতির জন্য মূল্যবান নাও হতে পারে। অতএব, আমরা শক্তিশালী CoT অপ্টিমাইজেশন চাপ এড়িয়ে চলার পরামর্শ দিই যতক্ষণ না আমরা সেগুলি আরও ভালভাবে বুঝতে পারি," গবেষকরা উপসংহারে বলেছেন।

এই পরামর্শটি আরও জরুরি কারণ কৃত্রিম বুদ্ধিমত্তা (এআই) ভয়াবহ গতিতে বিকশিত হচ্ছে এবং শীঘ্রই এটি তত্ত্বাবধানকারী মানুষের বুদ্ধিমত্তাকেও ছাড়িয়ে যেতে পারে।

[বিজ্ঞাপন_২]
সূত্র: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm