নতুন চালু হওয়া ChatGPT মডেল দুটিতে আগের প্রজন্মের তুলনায় মনগড়া তথ্যের হার বেশি। ছবি: ফায়ারফ্লাইস । |
GPT-4.1 ঘোষণার মাত্র দুই দিন পরেই, OpenAI আনুষ্ঠানিকভাবে o3 এবং o4-mini নামে একটি নয়, বরং দুটি নতুন মডেল চালু করেছে। উভয় মডেলেই অনেক শক্তিশালী উন্নতির সাথে উন্নততর যুক্তিনির্মাণ ক্ষমতা প্রদর্শিত হয়েছে।
তবে, টেকক্রাঞ্চের মতে, এই দুটি নতুন মডেল এখনও 'বিভ্রম' বা স্ব-উদ্ভাবনের সমস্যায় ভুগছে। প্রকৃতপক্ষে, এগুলো ওপেনএআই-এর কিছু পুরোনো মডেলের চেয়েও বেশি বিভ্রম প্রদর্শন করে।
আইবিএম-এর মতে, হ্যালুসিনেশন হলো এমন একটি ঘটনা যেখানে বৃহৎ ভাষা মডেল (এলএলএম)—যা প্রায়শই চ্যাটবট বা কম্পিউটার ভিশন টুল হয়ে থাকে—এমন ডেটা প্যাটার্ন গ্রহণ করে যা বাস্তবে নেই বা মানুষের কাছে অচেনা, যার ফলে অর্থহীন বা ভুল ফলাফল তৈরি হয়।
অন্য কথায়, ব্যবহারকারীরা প্রায়শই আশা করেন যে এআই প্রশিক্ষিত ডেটার উপর ভিত্তি করে সঠিক ফলাফল দেবে। তবে, কিছু ক্ষেত্রে, এআই-এর ফলাফল সঠিক ডেটার উপর ভিত্তি করে তৈরি হয় না, যার ফলে একটি 'ভুল' প্রতিক্রিয়া তৈরি হয়।
তাদের সর্বশেষ প্রতিবেদনে ওপেনএআই দেখেছে যে, পার্সনকিউএ (PersonQA)-এর ৩৩% প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে ও৩ (o3) মডেলটি "বিভ্রান্তিকর" ছিল। পার্সনকিউএ হলো মানুষ সম্পর্কে কোনো মডেলের জ্ঞানের নির্ভুলতা পরিমাপ করার জন্য কোম্পানিটির অভ্যন্তরীণ মানদণ্ড।
তুলনা করলে দেখা যায়, এই সংখ্যাটি ওপেনএআই-এর পূর্ববর্তী রিজনিং মডেল, ও১ এবং ও৩-মিনি-এর 'ইল্যুশন' হারের দ্বিগুণ, যেগুলোর হার ছিল যথাক্রমে ১৬% এবং ১৪.৮%। অন্যদিকে, ও৪-মিনি মডেলটি পার্সনকিউএ (PersonQA)-তে আরও খারাপ ফল করেছে এবং পরীক্ষার মোট সময়ের ৪৮% জুড়েই 'ইল্যুশন'-এর সম্মুখীন হয়েছে।
আরও উদ্বেগের বিষয় হলো, ‘চ্যাটজিপিটি-র জনক’ আসলেই জানে না কেন এমনটা ঘটছে। বিশেষ করে, ও৩ এবং ও৪-মিনি সম্পর্কিত তাদের প্রযুক্তিগত প্রতিবেদনে ওপেনএআই বলেছে যে, রিজনিং মডেলের পরিধি বাড়ানোর সময় ‘বিভ্রম’ কেন আরও খারাপ হয়, তা বোঝার জন্য ‘আরও গবেষণা প্রয়োজন’।
প্রোগ্রামিং এবং গাণিতিক কাজসহ কিছু ক্ষেত্রে O3 এবং o4-mini ভালো পারফর্ম করে। তবে, যেহেতু তাদের "সাধারণ বিবৃতির চেয়ে বেশি বিবৃতি দিতে হয়," তাই উভয় মডেলের ফলেই "আরও নির্ভুল বিবৃতির পাশাপাশি আরও ভুল বিবৃতিও" তৈরি হয়েছে।
উৎস: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html






মন্তব্য (0)