এআই-এর মারাত্মক দুর্বলতা

গবেষণায় দেখা গেছে যে, এআই-এর প্রোগ্রামিং ক্ষমতা সম্পর্কে বড় বড় দাবি সত্ত্বেও, ভুল সামলানো এমন একটি ক্ষেত্র যেখানে মানুষই সবচেয়ে বেশি পারদর্শী।

ZNews•12/04/2025

প্রোগ্রামিংয়ের ক্ষেত্রে এআই এখনও মানুষকে প্রতিস্থাপন করতে সক্ষম নয়। ছবি: জন ম্যাকগুইর ।

সম্প্রতি, প্রোগ্রামিং অ্যাপ্লিকেশনের জন্য ওপেনএআই (OpenAI) এবং অ্যানথ্রোপিক (Anthropic)-এর শীর্ষস্থানীয় এআই মডেলগুলোর ব্যবহার ক্রমশ বাড়ছে। চ্যাটজিপিটি (ChatGPT) এবং ক্লড (Claude)-এর মেমরি ও প্রসেসিং ক্ষমতা বাড়ানো হয়েছে, যা শত শত লাইনের কোড বিশ্লেষণ করতে পারে, অন্যদিকে জেমিনি (Gemini) প্রোগ্রামারদের জন্য ফলাফল প্রদর্শনের একটি বিশেষ ক্যানভাস (Canvas) ফিচার যুক্ত করেছে।

২০২৪ সালের অক্টোবরে গুগলের সিইও সুন্দর পিচাই জানান যে, সংস্থাটির ২৫% নতুন কোড এআই দ্বারা তৈরি হয়েছে। মেটার সিইও মার্ক জাকারবার্গও কর্পোরেশনের মধ্যে ব্যাপকভাবে এআই কোডিং মডেল প্রয়োগ করার উচ্চাকাঙ্ক্ষা প্রকাশ করেছেন।

তবে, মাইক্রোসফটের গবেষণা ও উন্নয়ন বিভাগ, মাইক্রোসফট রিসার্চের একটি নতুন সমীক্ষায় দেখা গেছে যে, অ্যানথ্রোপিকের ক্লদ ৩.৭ সনেট এবং ওপেনএআই-এর ও৩-মিনি সহ বিভিন্ন এআই মডেল, এসডব্লিউই-বেঞ্চ লাইট নামক একটি প্রোগ্রামিং বেঞ্চমার্কে অনেক ত্রুটি সামলাতে অক্ষম।

গবেষণাটির লেখকগণ নয়টি ভিন্ন এআই মডেল পরীক্ষা করেছেন, যেগুলোতে পাইথন ডিবাগারের মতো বিভিন্ন ডিবাগিং টুল অন্তর্ভুক্ত ছিল এবং যেগুলো একটিমাত্র স্টেটমেন্টেই সমস্যা সমাধান করতে সক্ষম ছিল। মডেলগুলোকে SWE-bench Lite ডেটাসেট থেকে নির্বাচিত ৩০০টি সফটওয়্যার বাগ সমাধান করার দায়িত্ব দেওয়া হয়েছিল।

SWE-bench Lite ডেটাসেট থেকে প্রোগ্রামিং সমস্যা সমাধানের সফলতার হার। চিত্র: মাইক্রোসফট।

আরও শক্তিশালী এবং নতুন মডেল দিয়ে সজ্জিত থাকা সত্ত্বেও, ফলাফলে দেখা গেছে যে এআই এজেন্ট কদাচিৎই অর্পিত ডিবাগিং কাজগুলোর অর্ধেকের বেশি সফলভাবে সম্পন্ন করতে পেরেছে। পরীক্ষিত মডেলগুলোর মধ্যে, Claude 3.7 Sonnet সর্বোচ্চ ৪৮.৪% গড় সাফল্যের হার অর্জন করেছে, এরপরে রয়েছে OpenAI-এর o1 ৩০.২% এবং o3-mini ২২.১%।

উপরে উল্লিখিত নিম্ন পারফরম্যান্সের কিছু কারণের মধ্যে রয়েছে, কিছু মডেলের প্রদত্ত ডিবাগিং টুলগুলো কীভাবে প্রয়োগ করতে হয় তা বুঝতে না পারা। এছাড়াও, লেখকদের মতে, পর্যাপ্ত ডেটার অভাব একটি বড় সমস্যা।

তাদের যুক্তি হলো, মডেলগুলোর প্রশিক্ষণ ব্যবস্থায় এখনও মানুষের শুরু থেকে শেষ পর্যন্ত নেওয়া ডিবাগিং ধাপগুলোকে অনুকরণ করার মতো ডেটার অভাব রয়েছে। অন্য কথায়, বাস্তব জগতের কোনো সফটওয়্যার বাগ মোকাবেলা করার সময় মানুষ ধাপে ধাপে কীভাবে চিন্তা করে ও কাজ করে, সে সম্পর্কে এআই যথেষ্ট কিছু শিখতে পারেনি।

মডেলগুলোকে প্রশিক্ষণ ও পরিমার্জন করলে তারা সফটওয়্যার ডিবাগিংয়ে আরও দক্ষ হয়ে উঠবে। “তবে, এর জন্য প্রশিক্ষণ প্রক্রিয়ায় বিশেষায়িত ডেটাসেটের প্রয়োজন হবে,” লেখকরা উল্লেখ করেছেন।

প্রোগ্রামিং লজিক সম্পর্কে সীমিত জ্ঞানের মতো দুর্বলতার কারণে, কোড তৈরির সময় এআই-এর নিরাপত্তা ঝুঁকি এবং ত্রুটিগুলো অসংখ্য গবেষণায় তুলে ধরা হয়েছে। সম্প্রতি এআই-চালিত প্রোগ্রামিং টুল ‘ডেভিন’-এর একটি পর্যালোচনায় দেখা গেছে যে, এটি ২০টি প্রোগ্রামিং পরীক্ষার মধ্যে মাত্র ৩টি সম্পন্ন করতে পেরেছে।

এআই-এর প্রোগ্রামিং ক্ষমতা এখনও ব্যাপক বিতর্কের বিষয়। এর আগে, ওপেনএআই-এর প্রোডাক্ট ডিরেক্টর কেভিন ওয়েল বলেছিলেন যে এই বছরের শেষ নাগাদ এআই মানব প্রোগ্রামারদের ছাড়িয়ে যাবে।

অন্যদিকে, মাইক্রোসফটের সহ-প্রতিষ্ঠাতা বিল গেটস বিশ্বাস করেন যে, ভবিষ্যতেও প্রোগ্রামিং একটি টেকসই পেশা হিসেবে থাকবে। আমজাদ মাসাদ (রিপ্লিটের সিইও), টড ম্যাককিনন (অকটার সিইও) এবং অরবিন্দ কৃষ্ণ (আইবিএম-এর সিইও)-এর মতো অন্যান্য নেতৃবৃন্দও এই মতের প্রতি তাঁদের সমর্থন জানিয়েছেন।

মাইক্রোসফটের এই গবেষণাটি নতুন না হলেও, এটি ম্যানেজারসহ প্রোগ্রামারদের মনে করিয়ে দেয় যে, এআই-এর হাতে কোডিংয়ের সম্পূর্ণ কর্তৃত্ব তুলে দেওয়ার আগে আরও সতর্কভাবে চিন্তা করা উচিত।

উৎস: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html