
এপ্রিল মাসে, প্রোগ্রামারদের জন্য একটি ক্রমবর্ধমান হাতিয়ার, কার্সরের জন্য প্রযুক্তিগত সহায়তা পরিচালনাকারী একটি এআই বট কিছু গ্রাহককে কোম্পানির নীতিতে পরিবর্তন সম্পর্কে অবহিত করে। বিশেষ করে, বিজ্ঞপ্তিতে বলা হয়েছে যে তাদের আর একাধিক কম্পিউটারে কার্সর ব্যবহার করার অনুমতি নেই।
ফোরাম এবং সোশ্যাল মিডিয়ায়, গ্রাহকরা তাদের ক্ষোভ প্রকাশ করার জন্য পোস্ট করেছেন। এমনকি কেউ কেউ তাদের কার্সার অ্যাকাউন্ট বাতিলও করেছেন। তবে, কেউ কেউ আরও বেশি ক্ষুব্ধ হয়েছিলেন যখন তারা বুঝতে পেরেছিলেন যে কী ঘটেছে: এআই বট একটি নীতি পরিবর্তন ঘোষণা করেছিল যা বিদ্যমান ছিল না।
"আমাদের এমন কোনও নীতি নেই। অবশ্যই, আপনি একাধিক মেশিনে কার্সার ব্যবহার করতে পারেন। দুর্ভাগ্যবশত, এটি একটি AI-সহায়তাপ্রাপ্ত বট থেকে একটি ভুল প্রতিক্রিয়া," কোম্পানির সিইও এবং সহ-প্রতিষ্ঠাতা মাইকেল ট্রুয়েল একটি রেডিট পোস্টে লিখেছেন।
ভুয়া খবরের বিস্তার ব্যাপক এবং অনিয়ন্ত্রিত।
ChatGPT-এর উত্থানের দুই বছরেরও বেশি সময় পরে, প্রযুক্তি কোম্পানি, অফিস কর্মী এবং দৈনন্দিন গ্রাহকরা সকলেই ক্রমবর্ধমান ফ্রিকোয়েন্সি সহ বিভিন্ন কাজের জন্য AI বট ব্যবহার করছেন।
তবে, এখনও এই সিস্টেমগুলি সঠিক তথ্য তৈরি করে কিনা তার কোনও গ্যারান্টি নেই। বিদ্রূপাত্মকভাবে, ওপেনএআই, গুগল এবং ডিপসিকের মতো কোম্পানিগুলির "ইনফারেন্স" সিস্টেম নামেও পরিচিত নতুন এবং সবচেয়ে শক্তিশালী প্রযুক্তিগুলি আসলে আরও বেশি ত্রুটি তৈরি করছে।
![]() |
ChatGPT-তে একটি অর্থহীন কথোপকথন যেখানে একজন ব্যবহারকারী জিজ্ঞাসা করছেন যে তাদের কুকুরকে সিরিয়াল খাওয়ানো উচিত কিনা। ছবি: Reddit। |
উল্লেখযোগ্যভাবে উন্নত গাণিতিক দক্ষতার বিপরীতে, বৃহৎ ভাষা মডেল (LLM) এর সত্য উপলব্ধি করার ক্ষমতা আরও নড়বড়ে হয়ে পড়েছে। লক্ষণীয় বিষয় হল, এমনকি প্রকৌশলীরাও কেন তা নিয়ে সম্পূর্ণরূপে বিভ্রান্ত।
নিউ ইয়র্ক টাইমসের মতে, আজকের এআই চ্যাটবটগুলি বিপুল পরিমাণে সংখ্যাসূচক তথ্য বিশ্লেষণ করে দক্ষতা অর্জনের জন্য জটিল গাণিতিক পদ্ধতির উপর নির্ভর করে। তবে, তারা কোনটি সঠিক এবং কোনটি ভুল তা নির্ধারণ করতে পারে না।
সেখান থেকেই "হ্যালুসিনেশন" বা স্ব-উদ্ভাবনের ঘটনাটি উদ্ভূত হয়। প্রকৃতপক্ষে, গবেষণা অনুসারে, নতুন প্রজন্মের এলএলএমরা কিছু পুরানো মডেলের তুলনায় "হ্যালুসিনেশন" বেশি অনুভব করে।
বিশেষ করে, তাদের সাম্প্রতিক প্রতিবেদনে, OpenAI আবিষ্কার করেছে যে PersonQA-তে 33% প্রশ্নের উত্তর দেওয়ার সময় o3 মডেলটি "ভ্রান্ত" ছিল, যা মানুষের সম্পর্কে মডেলের জ্ঞানের নির্ভুলতা পরিমাপের জন্য কোম্পানির অভ্যন্তরীণ মান।
তুলনা করার জন্য, এই সংখ্যাটি OpenAI-এর পূর্ববর্তী যুক্তি মডেল, o1 এবং o3-mini-এর "বিভ্রম" হারের দ্বিগুণ, যা যথাক্রমে 16% এবং 14.8% ছিল। ইতিমধ্যে, o4-মিনি মডেলটি PersonQA-তে আরও খারাপ ফলাফল করেছে, পরীক্ষার সময়কালের 48% সময় ধরে "বিভ্রম" অনুভব করেছে।
আরও উদ্বেগের বিষয় হল, "চ্যাটজিপিটির জনক" আসলে জানেন না কেন এটি ঘটছে। বিশেষ করে, o3 এবং o4-মিনি সম্পর্কিত তাদের প্রযুক্তিগত প্রতিবেদনে, OpenAI বলেছে যে যুক্তি মডেলগুলিকে স্কেল করার সময় "কেন 'হ্যালুসিনেশন' আরও খারাপ হয় তা বোঝার জন্য আরও গবেষণা প্রয়োজন"।
o3 এবং o4-মিনি প্রোগ্রামিং এবং গাণিতিক কাজ সহ কিছু ক্ষেত্রে ভালো পারফর্ম করে। যাইহোক, যেহেতু তাদের "সাধারণ বিবৃতির চেয়ে বেশি বিবৃতি দিতে হয়", তাই উভয় মডেলই "আরও সঠিক বিবৃতি, কিন্তু আরও ভুল বিবৃতি" তৈরি করেছে।
"ওটা কখনোই যাবে না।"
মানব প্রকৌশলীদের দ্বারা নির্ধারিত কঠোর নিয়মের পরিবর্তে, LLM সিস্টেমগুলি সর্বোত্তম প্রতিক্রিয়ার পূর্বাভাস দেওয়ার জন্য গাণিতিক সম্ভাব্যতা ব্যবহার করে। অতএব, তারা সর্বদা নির্দিষ্ট সংখ্যক ত্রুটি করবে।
"আমাদের সর্বোত্তম প্রচেষ্টা সত্ত্বেও, AI মডেলগুলি সর্বদা বিভ্রান্তির শিকার হবে। এটি কখনই দূর হবে না," বলেছেন গুগলের প্রাক্তন নির্বাহী আমর আওয়াদাল্লাহ।
![]() |
আইবিএম-এর মতে, হ্যালুসিনেশন হল এমন একটি ঘটনা যেখানে বৃহৎ ভাষা মডেল (এলএলএম) - প্রায়শই চ্যাটবট বা কম্পিউটার ভিশন টুল - এমন ডেটা প্যাটার্ন গ্রহণ করে যা বিদ্যমান থাকে না বা মানুষের কাছে অচেনা হয়, যার ফলে অর্থহীন বা ভুল ফলাফল পাওয়া যায়। ছবি: আইস্টক। |
পরীক্ষা-নিরীক্ষা সম্পর্কে একটি বিস্তারিত গবেষণাপত্রে, OpenAI জানিয়েছে যে এই ফলাফলের কারণ বোঝার জন্য আরও গবেষণার প্রয়োজন।
বিশেষজ্ঞদের মতে, যেহেতু AI সিস্টেমগুলি মানুষের বোধগম্যতার চেয়ে অনেক বেশি পরিমাণে তথ্য থেকে শেখে, তাই তারা কেন এমন আচরণ করে তা নির্ধারণ করা খুব কঠিন হয়ে পড়ে।
"অনুমান মডেলগুলিতে এই বিভ্রমটি সহজাতভাবে বেশি দেখা যায়, যদিও আমরা o3 এবং o4-মিনিতে দেখা হার কমাতে সক্রিয়ভাবে কাজ করছি। নির্ভুলতা এবং নির্ভরযোগ্যতা উন্নত করার জন্য আমরা সমস্ত মডেল জুড়ে বিভ্রমটি অধ্যয়ন চালিয়ে যাব," বলেছেন OpenAI-এর মুখপাত্র গ্যাবি রাইলা।
অসংখ্য স্বাধীন কোম্পানি এবং গবেষকদের পরীক্ষায় দেখা গেছে যে গুগল বা ডিপসিকের মতো কোম্পানির ইনফারেন্স মডেলগুলির ক্ষেত্রেও হ্যালুসিনেশনের হার বাড়ছে।
২০২৩ সালের শেষের দিক থেকে, আওয়াদাল্লাহর কোম্পানি, ভেক্টারা, চ্যাটবটগুলি কত ঘন ঘন ভুল তথ্য ছড়ায় তা পর্যবেক্ষণ করে আসছে। কোম্পানিটি এই সিস্টেমগুলিকে একটি সহজ, সহজেই যাচাইযোগ্য কাজ দিয়েছে: নির্দিষ্ট নিবন্ধগুলির সারসংক্ষেপ তৈরি করা। তবুও, চ্যাটবটগুলি ক্রমাগত তথ্য তৈরি করে চলেছে।
বিশেষ করে, ভেক্টারার প্রাথমিক গবেষণায় অনুমান করা হয়েছে যে, এই অনুমানের অধীনে, চ্যাটবটগুলি কমপক্ষে 3% ক্ষেত্রে এবং কখনও কখনও 27% পর্যন্ত তথ্য তৈরি করেছে।
গত দেড় বছরে, ওপেনএআই এবং গুগলের মতো কোম্পানিগুলি এই সংখ্যাগুলি প্রায় ১ বা ২% এ কমিয়ে এনেছে। অন্যান্য, যেমন সান ফ্রান্সিসকো স্টার্টআপ অ্যানথ্রোপিক, ৪% এর কাছাকাছি অবস্থান করে।
তবে, এই পরীক্ষায় যুক্তি ব্যবস্থার জন্য হ্যালুসিনেশনের হার বৃদ্ধি পেতে থাকে। ডিপসিকের R1 যুক্তি ব্যবস্থায় ১৪.৩% হ্যালুসিনেশন দেখা গেছে, যেখানে ওপেনএআই-এর o3 ৬.৮% বৃদ্ধি পেয়েছে।
আরেকটি সমস্যা হল, অনুমান মডেলগুলি চূড়ান্ত উত্তরে পৌঁছানোর আগে জটিল সমস্যাগুলি সম্পর্কে "চিন্তা" করার জন্য সময় ব্যয় করার জন্য ডিজাইন করা হয়।
![]() |
ম্যাকওএস ১৫.১ এর প্রথম বিটা সংস্করণে, এআই যাতে তথ্য তৈরি করতে না পারে, সেজন্য অ্যাপল একটি প্রম্পট অন্তর্ভুক্ত করেছে। ছবি: Reddit/devanxd2000। |
তবে, নেতিবাচক দিক হল, ধাপে ধাপে কোনও সমস্যা সমাধানের চেষ্টা করার সময়, AI মডেলটি প্রতিটি ধাপে হ্যালুসিনেশনের সম্মুখীন হওয়ার সম্ভাবনা বেশি থাকে। আরও গুরুত্বপূর্ণ বিষয় হল, মডেলটি চিন্তাভাবনায় বেশি সময় ব্যয় করলে ত্রুটিগুলি জমা হতে পারে।
সর্বশেষ বটগুলি ব্যবহারকারীকে প্রতিটি ধাপ প্রদর্শন করে, যার অর্থ ব্যবহারকারীরা প্রতিটি ত্রুটিও দেখতে পারেন। গবেষকরা আরও দেখেছেন যে অনেক ক্ষেত্রে, চ্যাটবট দ্বারা প্রদর্শিত চিন্তাভাবনা প্রক্রিয়াটি আসলে এটি যে চূড়ান্ত উত্তর প্রদান করে তার সাথে সম্পর্কিত নয়।
"সিস্টেমটি যা বলে তা আসলে যা ভাবছে তা নয়," বলেছেন এডিনবার্গ বিশ্ববিদ্যালয়ের একজন এআই গবেষক এবং অ্যানথ্রপিকের একজন অবদানকারী আর্যো প্রদীপ্ত জেমা।
সূত্র: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










মন্তব্য (0)