কৃত্রিম বুদ্ধিমত্তা গোপনে মানুষের মূল্যায়ন করছে।

আগের মতো মানুষের দ্বারা এআই মূল্যায়নের পরিবর্তে, অ্যানথ্রোপিক প্রক্রিয়াটি উল্টে দিয়েছে। ক্লদ ব্যবহারকারীদের চ্যাট হিস্ট্রি বিশ্লেষণ করে এআই ব্যবহারের 'স্তর' নির্ধারণ করবে।

ZNews•31/05/2026

চ্যাবো ক্লদ মিথস্ক্রিয়ার ভিত্তিতে ব্যবহারকারীর দক্ষতা মূল্যায়ন করছে। ছবি: ভেক্টরস্টক ।

অ্যানথ্রোপিকের 'এআই ফ্লুয়েন্সি ইনডেক্স' শীর্ষক সর্বশেষ গবেষণাটি চ্যাটবট ক্লদকে দিয়ে মানুষের মূল্যায়ন করিয়ে প্রচলিত ধারণাকে পাল্টে দিয়েছে। কথোপকথনের কাঠামো বিশ্লেষণ করে, এই এআই ১১-পয়েন্টের একটি স্কেলে ব্যবহারকারীদের দক্ষতার স্তর নির্ধারণ করে।

২৪টি মানদণ্ড সমন্বিত দক্ষতা কাঠামোটি তৈরি করতে, অ্যানথ্রোপিক বিশ্লেষণাত্মক সরঞ্জাম ব্যবহার করে ৯,৮৩০টি বাস্তব ব্যবহারকারীর কথোপকথন স্ক্যান করেছে।

এর মধ্যে, ১৩টি মানদণ্ড পর্দার বাইরে ঘটে, যেমন ব্যবহারকারীরা তাদের ঊর্ধ্বতনদের কাছে নিজেদের এআই ব্যবহার গোপন করেন কি না। বাকি ১১টি মানদণ্ড হলো ব্যবহারকারীর আচরণের পরিমাপক, যা তিনটি প্রধান দিকে বিভক্ত: বর্ণনা, অনুমোদন এবং শনাক্তকরণ।

ক্লডের সাথে ৯,৮৩০টি কথোপকথন জুড়ে এআই মিথস্ক্রিয়ায় প্রতিটি আচরণগত সূচকের ব্যাপকতা। চিত্র: অ্যানথ্রোপিক।

প্রথমত, অনুরোধটি যেভাবে বর্ণনা করা হয়, সেখানে ব্যবহারকারীদের অবশ্যই তারা কী চান সে সম্পর্কে একটি প্রকৃত বোঝাপড়া প্রদর্শন করতে হবে। অস্পষ্ট নির্দেশ দেওয়ার পরিবর্তে, উচ্চ স্কোর অর্জনকারীরা সর্বদা চূড়ান্ত লক্ষ্যটি স্পষ্টভাবে উল্লেখ করেন এবং প্রেক্ষাপটটি বিস্তারিতভাবে ব্যাখ্যা করেন। তারা উপস্থাপনার শৈলী সম্পর্কেও খুব নির্দিষ্ট প্রয়োজনীয়তা প্রদান করেন, যেমন এআই-কে টেবিল তৈরি করতে বলা বা শব্দের সংখ্যা সীমিত করা। লক্ষণীয়ভাবে, এই দলটি প্রায়শই এআই-এর জন্য শুরু থেকেই সঠিক শৈলী "অনুকরণ" করার উদাহরণ হিসাবে বেশ কয়েকটি নমুনা প্রবন্ধ অন্তর্ভুক্ত করে।

দ্বিতীয় দিকটি হলো কাজ বন্টনের পদ্ধতি। গবেষণায় দেখা গেছে যে, দক্ষ ব্যবহারকারীরা এআই-কে একটি বুদ্ধিহীন যন্ত্র হিসেবে নয়, বরং আলোচনার সঙ্গী হিসেবে বিবেচনা করেন। সবচেয়ে বড় পার্থক্যটি হলো অধ্যবসায়। একবারে চূড়ান্ত কোনো নির্দেশ দেওয়ার পরিবর্তে, তারা সম্পূর্ণ সন্তুষ্ট না হওয়া পর্যন্ত এআই-এর উত্তরগুলোকে পরিমার্জন ও সংশোধনের জন্য একাধিকবার কথোপকথনে অংশ নেন। এই আচরণটি ৮৫.৭% উচ্চ-মানের কথোপকথনে দেখা যায়।

সর্বশেষ দিকটি হলো শনাক্তকরণ, যা একটি ফিল্টার হিসেবে কাজ করে এবং চ্যাটবটের দেওয়া তথ্য দ্বারা মানুষকে বিভ্রান্ত হওয়া থেকে রক্ষা করে। ব্যবহারকারীদের ক্রমাগত যুক্তির সারবত্তা নিয়ে প্রশ্ন করতে হবে, এআই-কে কোডের প্রতিটি লাইন ব্যাখ্যা করতে বলতে হবে, অথবা সুস্পষ্ট তথ্যসূত্র চাইতে হবে। সময়োপযোগী মূল্যায়ন এবং সিদ্ধান্তে প্রয়োজনীয় পরিবর্তন আনার জন্য, এআই-এর সমাধানে অনুপস্থিত প্রাসঙ্গিকতা শনাক্ত করার মতো যথেষ্ট বিচক্ষণতাও তাদের থাকতে হবে।

অভিজ্ঞ ব্যবহারকারীরা সাধারণত ক্লেড থেকে ৭-৮ এর কাছাকাছি স্কোর পেয়ে থাকেন। ছবি: এক্স।

তবে, গবেষণাটি ‘বিউটিফুল ইন্টারফেস প্যারাডক্স’ নামে পরিচিত একটি উদ্বেগজনক মনস্তাত্ত্বিক ফাঁদের দিকেও ইঙ্গিত করে। যখন ক্লডের আর্টিফ্যাক্টস ফিচারটি একটি সাবলীল কোড বা একটি নিখুঁত ডায়াগ্রামের মতো দৃষ্টিনন্দন পণ্য তৈরি করে, তখন আমাদের মস্তিষ্ক তাৎক্ষণিকভাবে ‘অলস চিন্তাবিদ’ হয়ে ওঠে এবং সমালোচনামূলক চিন্তাভাবনা বন্ধ করে দেয়।

গবেষণাটির পরিসংখ্যান থেকে দেখা যায় যে, ব্যবহারকারীরা যখন একটি পরিমার্জিত ইন্টারফেস দেখেন, তখন সক্রিয়ভাবে তাতে ত্রুটি খোঁজার প্রবণতা তাৎক্ষণিকভাবে ৫.২% কমে যায়। তথ্যের সত্যতা যাচাই করার ক্ষমতাও ৩.৭% হ্রাস পায় এবং এর যৌক্তিকতা নিয়ে সন্দেহ পোষণকারীদের হার ৩.১% কমে যায়।

অ্যানথ্রোপিকের বিশেষজ্ঞরা উল্লেখ করেছেন, "কোনো কিছু দেখতে নিখুঁত হলে ব্যবহারকারীরা স্বয়ংক্রিয়ভাবে ধরে নেন যে সেটি সঠিক।"

এই ব্যক্তিনিষ্ঠ দৃষ্টিভঙ্গি অত্যন্ত বিপজ্জনক। প্রকৃতপক্ষে, কাজটি যত জটিল হবে, এআই-এর ভুল করার বা তথ্য 'মনগড়া' বলার সম্ভাবনাও তত বাড়বে। মানুষ যদি শুধুমাত্র বাহ্যিক রূপ দেখে অভ্যন্তরীণ গুণ বিচার করে, তবে আমরা এআই দ্বারা খুব সহজেই প্রতারিত হব।

প্রতিবেদন অনুসারে, যারা নিয়মিত পারস্পরিক আলোচনায় অংশ নেন এবং এআই-এর ত্রুটিগুলো তুলে ধরেন, তাদের গড় ব্যবহারকারীদের তুলনায় ৫-৬ গুণ বেশি রেটিং দেওয়া হয়। ব্যবহারকারী গোষ্ঠীর বাকিদের তুলনায় তাদের ত্রুটি এবং অসঙ্গতি খুঁজে বের করার সম্ভাবনাও বেশি। এই "বিশেষজ্ঞরা" সাধারণত ক্লডের কাছ থেকে ১১-এর মধ্যে প্রায় ৭-৮ স্কোর পেয়ে থাকেন।

উৎস: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html