তদনুসারে, এমনকি তাদের পরীক্ষিত সেরা পারফর্মিং কৃত্রিম বুদ্ধিমত্তা মডেল কনফিগারেশন, OpenAI এর GPT-4-Turbo, সম্পূর্ণ প্রোফাইল পড়া এবং প্রায়শই অবাস্তব পরিসংখ্যান বা ঘটনাগুলিকে "ভ্রান্ত" করা সত্ত্বেও, এখনও মাত্র 79% সঠিক উত্তর হার অর্জন করেছে।
"এই ধরণের কর্মক্ষমতা হার সম্পূর্ণরূপে অগ্রহণযোগ্য," প্যাট্রোনাস এআই-এর সহ-প্রতিষ্ঠাতা আনন্দ কান্নাপ্পান বলেন। "স্বয়ংক্রিয় এবং উৎপাদন-প্রস্তুত হওয়ার জন্য সঠিক উত্তরের হার অনেক বেশি হওয়া প্রয়োজন।"
এই অনুসন্ধানগুলি বৃহৎ কোম্পানিগুলি, বিশেষ করে আর্থিক খাতের মতো ভারী নিয়ন্ত্রিত শিল্পগুলিতে, গ্রাহক পরিষেবা বা গবেষণায়, তাদের কার্যক্রমে উন্নত প্রযুক্তি অন্তর্ভুক্ত করার চেষ্টা করার কারণে AI মডেলগুলির মুখোমুখি কিছু চ্যালেঞ্জ তুলে ধরে।
আর্থিক তথ্য "ভ্রম"
গত বছরের শেষের দিকে ChatGPT প্রকাশিত হওয়ার পর থেকে চ্যাটবটগুলির জন্য দ্রুত গুরুত্বপূর্ণ সংখ্যাগুলি বের করার এবং আর্থিক বিবৃতি বিশ্লেষণ করার ক্ষমতাকে সবচেয়ে আশাব্যঞ্জক অ্যাপ্লিকেশনগুলির মধ্যে একটি হিসাবে দেখা হচ্ছে।
এসইসি ফাইলিংয়ে গুরুত্বপূর্ণ তথ্য থাকে এবং যদি কোনও বট সঠিকভাবে সংক্ষিপ্তসার করতে পারে বা তাদের বিষয়বস্তু সম্পর্কে দ্রুত প্রশ্নের উত্তর দিতে পারে, তাহলে এটি ব্যবহারকারীদের প্রতিযোগিতামূলক আর্থিক শিল্পে একটি সুবিধা প্রদান করতে পারে।
গত এক বছর ধরে, ব্লুমবার্গ এলপি আর্থিক তথ্যের জন্য নিজস্ব এআই মডেল তৈরি করেছে, এবং ব্যবসায়িক স্কুলের অধ্যাপকরা চ্যাটজিপিটি আর্থিক শিরোনাম বিশ্লেষণ করতে পারে কিনা তা নিয়ে গবেষণা করছেন।
ইতিমধ্যে, জেপি মরগান একটি এআই-চালিত স্বয়ংক্রিয় বিনিয়োগ সরঞ্জামও তৈরি করছে। সাম্প্রতিক ম্যাককিনসির পূর্বাভাসে বলা হয়েছে যে জেনারেটিভ এআই ব্যাংকিং শিল্পকে বছরে ট্রিলিয়ন ডলার বৃদ্ধি করতে পারে।
কিন্তু এখনও অনেক পথ পাড়ি দিতে হবে। যখন মাইক্রোসফট প্রথমবারের মতো OpenAI-এর GPT-এর মাধ্যমে Bing Chat চালু করে, তখন তারা চ্যাটবট ব্যবহার করে দ্রুত আয়ের প্রেস রিলিজ সারসংক্ষেপ করে। পর্যবেক্ষকরা দ্রুত লক্ষ্য করেন যে AI যে সংখ্যাগুলি প্রকাশ করেছে তা বিকৃত, এমনকি বানোয়াট।
একই তথ্য, ভিন্ন উত্তর
বাস্তব-বিশ্বের পণ্যগুলিতে LLM অন্তর্ভুক্ত করার চ্যালেঞ্জের একটি অংশ হল অ্যালগরিদমগুলি অ-নির্ধারণী, অর্থাৎ একই ইনপুট দিলে একই ফলাফল দেওয়ার নিশ্চয়তা দেওয়া হয় না। এর অর্থ হল কোম্পানিগুলিকে আরও কঠোর পরীক্ষা পরিচালনা করতে হবে যাতে নিশ্চিত করা যায় যে AI সঠিকভাবে কাজ করছে, বিষয়বস্তুর বাইরে বিচ্যুত হচ্ছে না এবং নির্ভরযোগ্য ফলাফল প্রদান করছে।
প্যাট্রোনাস এআই বৃহৎ পাবলিকলি ট্রেডেড কোম্পানিগুলির SEC ফাইলিং থেকে নেওয়া ১০,০০০ এরও বেশি প্রশ্নোত্তরের একটি সেট তৈরি করেছে, যার নাম FinanceBench। ডেটাসেটে সঠিক উত্তরগুলির পাশাপাশি সেগুলি খুঁজে বের করার জন্য যেকোনো ফাইলের সঠিক অবস্থান অন্তর্ভুক্ত রয়েছে।
সব উত্তর সরাসরি লেখা থেকে নেওয়া যায় না এবং কিছু প্রশ্নের জন্য গণনা বা হালকা যুক্তির প্রয়োজন হয়।
১৫০-প্রশ্নের সাবসেট পরীক্ষায় চারটি LLM মডেল জড়িত ছিল: OpenAI-এর GPT-4 এবং GPT-4-Turbo, Anthropic-এর Claude 2, এবং Meta-এর Llama 2।
ফলস্বরূপ, GPT-4-Turbo, যখন অন্তর্নিহিত SEC ফাইলিংগুলিতে অ্যাক্সেস দেওয়া হয়েছিল, তখন তারা মাত্র 85% নির্ভুলতা অর্জন করেছিল (তথ্য অ্যাক্সেস না দেওয়া হলে 88% ভুল উত্তরের তুলনায়), যদিও AI-এর উত্তর খুঁজে বের করার জন্য সঠিক পাঠ্যের দিকে একটি মানব মাউস পয়েন্টার ছিল।
মেটা দ্বারা তৈরি একটি ওপেন-সোর্স এআই মডেল, লামা ২-তে সবচেয়ে বেশি সংখ্যক "হ্যালুসিনেশন" ছিল, ৭০% সময় ভুল উত্তর দেওয়া হয়েছিল এবং অন্তর্নিহিত নথির একটি অংশে অ্যাক্সেস দেওয়া হলে মাত্র ১৯% সময় সঠিক উত্তর দেওয়া হয়েছিল।
"দীর্ঘ প্রেক্ষাপট" দেওয়া হলেও অ্যানথ্রপিকের ক্লড ২ ভালো পারফর্ম করেছে, যেখানে প্রায় পুরো প্রাসঙ্গিক SEC ফাইলিং প্রশ্নের সাথে অন্তর্ভুক্ত করা হয়েছে। এটি উত্থাপিত প্রশ্নের ৭৫% উত্তর দিতে সক্ষম হয়েছে, ২১% ভুল উত্তর দিয়েছে এবং ৩% উত্তর দিতে অস্বীকৃতি জানিয়েছে। GPT-4-Turbo দীর্ঘ প্রেক্ষাপটের ক্ষেত্রেও ভালো পারফর্ম করেছে, ৭৯% প্রশ্নের সঠিক উত্তর দিয়েছে এবং ১৭% প্রশ্নের ভুল উত্তর দিয়েছে।
(সিএনবিসি অনুসারে)
এআই স্টার্টআপগুলিতে বিনিয়োগের জন্য বিগ টেকদের প্রতিযোগিতা
এআই প্রযুক্তি ই-কমার্স স্টার্টআপগুলিতে বিপ্লব আনে
AI প্রথমবারের মতো মানুষের চিন্তাভাবনাকে বাস্তবসম্মত ছবিতে পরিণত করেছে
[বিজ্ঞাপন_২]
উৎস






মন্তব্য (0)