بر این اساس، حتی بهترین پیکربندی مدل هوش مصنوعی که آنها آزمایش کردند، یعنی OpenAI's GPT-4-Turbo، با وجود خواندن کل پروفایل و اغلب "توهم" کردن چهره‌ها یا رویدادهای غیرواقعی، هنوز تنها به نرخ پاسخ صحیح ۷۹٪ دست یافت.

آناند کاناپان، یکی از بنیانگذاران Patronus AI، گفت: «این نوع نرخ عملکرد کاملاً غیرقابل قبول است. نرخ پاسخ صحیح باید بسیار بالاتر باشد تا خودکار و آماده تولید شود.»

این یافته‌ها برخی از چالش‌های پیش روی مدل‌های هوش مصنوعی را برجسته می‌کند، چرا که شرکت‌های بزرگ، به ویژه در صنایع به شدت تحت نظارت مانند امور مالی، به دنبال ادغام فناوری پیشرفته در عملیات خود، چه در خدمات مشتری و چه در تحقیقات، هستند.

«توهم» داده‌های مالی

از زمان انتشار ChatGPT در اواخر سال گذشته، توانایی استخراج سریع اعداد کلیدی و انجام تجزیه و تحلیل صورت‌های مالی، به عنوان یکی از امیدوارکننده‌ترین کاربردهای چت‌بات‌ها دیده شده است.

بایگانی‌های کمیسیون بورس و اوراق بهادار آمریکا (SEC) حاوی داده‌های مهمی هستند و اگر یک ربات بتواند به طور دقیق خلاصه کند یا به سرعت به سوالات مربوط به محتوای آنها پاسخ دهد، می‌تواند به کاربران در صنعت مالی رقابتی برتری دهد.

تصویر llm 100941414 بزرگ.jpg
هوش مصنوعی درست در مرحله ترکیب داده‌ها با مشکل مواجه است - وظیفه‌ای که انتظار می‌رود بیشترین کمک را به انسان‌ها بکند.

در طول سال گذشته، بلومبرگ ال‌پی مدل هوش مصنوعی خود را برای داده‌های مالی توسعه داده است و اساتید دانشکده‌های بازرگانی در حال بررسی این موضوع بوده‌اند که آیا ChatGPT می‌تواند تیترهای مالی را تجزیه و تحلیل کند یا خیر.

در همین حال، جی‌پی‌مورگان نیز در حال توسعه یک ابزار سرمایه‌گذاری خودکار مبتنی بر هوش مصنوعی است. پیش‌بینی اخیر مک‌کینزی حاکی از آن است که هوش مصنوعی مولد می‌تواند صنعت بانکداری را سالانه تریلیون‌ها دلار رونق دهد.

اما هنوز راه درازی در پیش است. وقتی مایکروسافت برای اولین بار بینگ چت را با GPT شرکت OpenAI راه‌اندازی کرد، از این چت‌بات برای خلاصه کردن سریع گزارش‌های مطبوعاتی درآمد استفاده کرد. ناظران به سرعت متوجه شدند که اعدادی که هوش مصنوعی ارائه می‌دهد، تحریف شده یا حتی ساختگی هستند.

داده‌های یکسان، پاسخ‌های متفاوت

بخشی از چالش ادغام LLM در محصولات دنیای واقعی این است که الگوریتم‌ها قطعی نیستند، به این معنی که تضمین نمی‌شود با ورودی‌های یکسان، نتایج یکسانی تولید کنند. این بدان معناست که شرکت‌ها باید آزمایش‌های دقیق‌تری انجام دهند تا مطمئن شوند که هوش مصنوعی به درستی کار می‌کند، از موضوع اصلی منحرف نمی‌شود و نتایج قابل اعتمادی ارائه می‌دهد.

شرکت Patronus AI مجموعه‌ای شامل بیش از ۱۰،۰۰۰ پرسش و پاسخ برگرفته از پرونده‌های SEC از شرکت‌های بزرگ سهامی عام به نام FinanceBench ساخته است. این مجموعه داده‌ها شامل پاسخ‌های صحیح و همچنین مکان دقیق آنها در هر فایل مشخص برای یافتنشان است.

همه پاسخ‌ها را نمی‌توان مستقیماً از متن استخراج کرد و برخی از سؤالات نیاز به محاسبه یا استدلال سبک دارند.

این آزمون زیرمجموعه ۱۵۰ سوالی شامل چهار مدل LLM بود: GPT-4 و GPT-4-Turbo از OpenAI، Claude 2 از Anthropic و Llama 2 از Meta.

در نتیجه، GPT-4-Turbo، هنگامی که به پرونده‌های اصلی کمیسیون بورس و اوراق بهادار آمریکا (SEC) دسترسی پیدا کرد، تنها به میزان دقت ۸۵٪ دست یافت (در مقایسه با ۸۸٪ پاسخ‌های نادرست در صورت عدم دسترسی به داده‌ها)، با وجود اینکه نشانگر ماوس انسان دقیقاً متن را نشان می‌داد تا هوش مصنوعی بتواند پاسخ را پیدا کند.

Llama 2، یک مدل هوش مصنوعی متن‌باز که توسط Meta توسعه داده شده است، بیشترین تعداد «توهم» را داشت، به طوری که وقتی به بخشی از اسناد اصلی دسترسی پیدا کرد، ۷۰ درصد مواقع پاسخ اشتباه و تنها ۱۹ درصد مواقع پاسخ صحیح داد.

ربات Claude 2 شرکت Anthropic در یک «زمینه طولانی» که تقریباً تمام اطلاعات مربوط به SEC به همراه سوال در آن گنجانده شده بود، عملکرد خوبی داشت. این ربات توانست به ۷۵٪ از سوالات مطرح شده پاسخ دهد، ۲۱٪ را اشتباه پاسخ داد و از پاسخ دادن به ۳٪ خودداری کرد. GPT-4-Turbo نیز در یک زمینه طولانی عملکرد خوبی داشت و به ۷۹٪ از سوالات به درستی و ۱۷٪ را اشتباه پاسخ داد.

(به نقل از سی‌ان‌بی‌سی)

رقابت شرکت‌های بزرگ فناوری برای سرمایه‌گذاری در استارت‌آپ‌های هوش مصنوعی

رقابت شرکت‌های بزرگ فناوری برای سرمایه‌گذاری در استارت‌آپ‌های هوش مصنوعی

ظهور فناوری هوش مصنوعی دنیای فناوری را تکان داده است، اما یک چیز بدون تغییر باقی مانده است - شرکت‌های بزرگ فناوری هنوز قدرت مطلق را در دست دارند.
فناوری هوش مصنوعی، استارت‌آپ‌های تجارت الکترونیک را متحول می‌کند

فناوری هوش مصنوعی، استارت‌آپ‌های تجارت الکترونیک را متحول می‌کند

در فضای رقابتی تجارت الکترونیک، هوش مصنوعی به استارت‌آپ‌ها این فرصت را می‌دهد تا از فناوری برای خدمت‌رسانی به مشتریان و ساده‌سازی عملیات استفاده کنند.
هوش مصنوعی برای اولین بار با موفقیت افکار انسان را به تصاویر واقع‌گرایانه تبدیل کرد

هوش مصنوعی برای اولین بار با موفقیت افکار انسان را به تصاویر واقع‌گرایانه تبدیل کرد

با کمک فناوری هوش مصنوعی (AI)، اکتشافات جدید در تحقیقات تفکر انسان را می‌توان با گشودن دنیایی کاملاً جدید در درون ما مقایسه کرد.