بر این اساس، حتی بهترین پیکربندی مدل هوش مصنوعی که آنها آزمایش کردند، یعنی OpenAI's GPT-4-Turbo، با وجود خواندن کل پروفایل و اغلب "توهم" کردن چهرهها یا رویدادهای غیرواقعی، هنوز تنها به نرخ پاسخ صحیح ۷۹٪ دست یافت.
آناند کاناپان، یکی از بنیانگذاران Patronus AI، گفت: «این نوع نرخ عملکرد کاملاً غیرقابل قبول است. نرخ پاسخ صحیح باید بسیار بالاتر باشد تا خودکار و آماده تولید شود.»
این یافتهها برخی از چالشهای پیش روی مدلهای هوش مصنوعی را برجسته میکند، چرا که شرکتهای بزرگ، به ویژه در صنایع به شدت تحت نظارت مانند امور مالی، به دنبال ادغام فناوری پیشرفته در عملیات خود، چه در خدمات مشتری و چه در تحقیقات، هستند.
«توهم» دادههای مالی
از زمان انتشار ChatGPT در اواخر سال گذشته، توانایی استخراج سریع اعداد کلیدی و انجام تجزیه و تحلیل صورتهای مالی، به عنوان یکی از امیدوارکنندهترین کاربردهای چتباتها دیده شده است.
بایگانیهای کمیسیون بورس و اوراق بهادار آمریکا (SEC) حاوی دادههای مهمی هستند و اگر یک ربات بتواند به طور دقیق خلاصه کند یا به سرعت به سوالات مربوط به محتوای آنها پاسخ دهد، میتواند به کاربران در صنعت مالی رقابتی برتری دهد.
در طول سال گذشته، بلومبرگ الپی مدل هوش مصنوعی خود را برای دادههای مالی توسعه داده است و اساتید دانشکدههای بازرگانی در حال بررسی این موضوع بودهاند که آیا ChatGPT میتواند تیترهای مالی را تجزیه و تحلیل کند یا خیر.
در همین حال، جیپیمورگان نیز در حال توسعه یک ابزار سرمایهگذاری خودکار مبتنی بر هوش مصنوعی است. پیشبینی اخیر مککینزی حاکی از آن است که هوش مصنوعی مولد میتواند صنعت بانکداری را سالانه تریلیونها دلار رونق دهد.
اما هنوز راه درازی در پیش است. وقتی مایکروسافت برای اولین بار بینگ چت را با GPT شرکت OpenAI راهاندازی کرد، از این چتبات برای خلاصه کردن سریع گزارشهای مطبوعاتی درآمد استفاده کرد. ناظران به سرعت متوجه شدند که اعدادی که هوش مصنوعی ارائه میدهد، تحریف شده یا حتی ساختگی هستند.
دادههای یکسان، پاسخهای متفاوت
بخشی از چالش ادغام LLM در محصولات دنیای واقعی این است که الگوریتمها قطعی نیستند، به این معنی که تضمین نمیشود با ورودیهای یکسان، نتایج یکسانی تولید کنند. این بدان معناست که شرکتها باید آزمایشهای دقیقتری انجام دهند تا مطمئن شوند که هوش مصنوعی به درستی کار میکند، از موضوع اصلی منحرف نمیشود و نتایج قابل اعتمادی ارائه میدهد.
شرکت Patronus AI مجموعهای شامل بیش از ۱۰،۰۰۰ پرسش و پاسخ برگرفته از پروندههای SEC از شرکتهای بزرگ سهامی عام به نام FinanceBench ساخته است. این مجموعه دادهها شامل پاسخهای صحیح و همچنین مکان دقیق آنها در هر فایل مشخص برای یافتنشان است.
همه پاسخها را نمیتوان مستقیماً از متن استخراج کرد و برخی از سؤالات نیاز به محاسبه یا استدلال سبک دارند.
این آزمون زیرمجموعه ۱۵۰ سوالی شامل چهار مدل LLM بود: GPT-4 و GPT-4-Turbo از OpenAI، Claude 2 از Anthropic و Llama 2 از Meta.
در نتیجه، GPT-4-Turbo، هنگامی که به پروندههای اصلی کمیسیون بورس و اوراق بهادار آمریکا (SEC) دسترسی پیدا کرد، تنها به میزان دقت ۸۵٪ دست یافت (در مقایسه با ۸۸٪ پاسخهای نادرست در صورت عدم دسترسی به دادهها)، با وجود اینکه نشانگر ماوس انسان دقیقاً متن را نشان میداد تا هوش مصنوعی بتواند پاسخ را پیدا کند.
Llama 2، یک مدل هوش مصنوعی متنباز که توسط Meta توسعه داده شده است، بیشترین تعداد «توهم» را داشت، به طوری که وقتی به بخشی از اسناد اصلی دسترسی پیدا کرد، ۷۰ درصد مواقع پاسخ اشتباه و تنها ۱۹ درصد مواقع پاسخ صحیح داد.
ربات Claude 2 شرکت Anthropic در یک «زمینه طولانی» که تقریباً تمام اطلاعات مربوط به SEC به همراه سوال در آن گنجانده شده بود، عملکرد خوبی داشت. این ربات توانست به ۷۵٪ از سوالات مطرح شده پاسخ دهد، ۲۱٪ را اشتباه پاسخ داد و از پاسخ دادن به ۳٪ خودداری کرد. GPT-4-Turbo نیز در یک زمینه طولانی عملکرد خوبی داشت و به ۷۹٪ از سوالات به درستی و ۱۷٪ را اشتباه پاسخ داد.
(به نقل از سیانبیسی)
رقابت شرکتهای بزرگ فناوری برای سرمایهگذاری در استارتآپهای هوش مصنوعی
فناوری هوش مصنوعی، استارتآپهای تجارت الکترونیک را متحول میکند
هوش مصنوعی برای اولین بار با موفقیت افکار انسان را به تصاویر واقعگرایانه تبدیل کرد
منبع
نظر (0)