اس کے مطابق، یہاں تک کہ بہترین کارکردگی کا مظاہرہ کرنے والے مصنوعی ذہانت کے ماڈل کی ترتیب جو انہوں نے آزمائی، OpenAI کے GPT-4-Turbo نے، پورے پروفائل کو پڑھنے کے باوجود صرف 79% درست جواب کی شرح حاصل کی اور اکثر غیر حقیقی اعداد و شمار یا واقعات کے "فریب" کا تجربہ کیا۔

پیٹرونس اے آئی کے شریک بانی آنند کناپن نے کہا کہ اس قسم کی کارکردگی کی شرح مکمل طور پر ناقابل قبول ہے۔ "خودکار اور پروڈکشن کے لیے تیار ہونے کے لیے درست جواب کی شرح بہت زیادہ ہونی چاہیے۔"

ان نتائج میں AI ماڈلز کو درپیش کچھ چیلنجوں پر روشنی ڈالی گئی ہے کیونکہ بڑی کمپنیاں، خاص طور پر انتہائی ریگولیٹڈ انڈسٹریز جیسے فنانس میں، اپنے کاموں میں جدید ٹیکنالوجی کو شامل کرنا چاہتی ہیں، چاہے وہ کسٹمر سروس ہو یا تحقیق۔

مالیاتی ڈیٹا "وہم"

کلیدی نمبروں کو تیزی سے نکالنے اور مالی بیانات کا تجزیہ کرنے کی صلاحیت کو چیٹ بوٹس کے لیے سب سے زیادہ امید افزا ایپلی کیشنز میں سے ایک کے طور پر دیکھا گیا ہے جب سے ChatGPT گزشتہ سال کے آخر میں ریلیز ہوا تھا۔

SEC فائلنگ میں اہم ڈیٹا ہوتا ہے، اور اگر کوئی بوٹ اپنے مواد کے بارے میں سوالات کا درست خلاصہ یا فوری جواب دے سکتا ہے، تو یہ صارفین کو مسابقتی مالیاتی صنعت میں برتری دے سکتا ہے۔

llm امیج 100941414 large.jpg
AI ڈیٹا اکٹھا کرنے کے مرحلے پر ہی جدوجہد کرتا ہے - وہ کام جہاں اس سے انسانوں کی سب سے زیادہ مدد کی توقع کی جاتی ہے۔

گزشتہ سال کے دوران، بلومبرگ ایل پی نے مالیاتی ڈیٹا کے لیے اپنا AI ماڈل تیار کیا ہے، اور بزنس اسکول کے پروفیسر اس بات کا مطالعہ کر رہے ہیں کہ آیا ChatGPT مالیاتی سرخیوں کا تجزیہ کر سکتا ہے۔

دریں اثنا، JPMorgan AI سے چلنے والا خودکار سرمایہ کاری کا آلہ بھی تیار کر رہا ہے۔ میک کینسی کی ایک حالیہ پیشن گوئی میں کہا گیا ہے کہ جنریٹو AI بینکنگ انڈسٹری کو سالانہ ٹریلین ڈالر تک بڑھا سکتا ہے۔

لیکن ابھی بھی ایک طویل سفر طے کرنا ہے۔ جب مائیکروسافٹ نے پہلی بار OpenAI کے GPT کے ساتھ Bing Chat کا آغاز کیا، تو اس نے کمائی کی پریس ریلیز کا فوری خلاصہ کرنے کے لیے چیٹ بوٹ کا استعمال کیا۔ مبصرین نے فوری طور پر دیکھا کہ اے آئی نے جو نمبر تھوک دیئے وہ ترچھے یا من گھڑت تھے۔

ایک ہی ڈیٹا، مختلف جوابات

LLM کو حقیقی دنیا کی مصنوعات میں شامل کرنے کے چیلنج کا ایک حصہ یہ ہے کہ الگورتھم تعیین پسند نہیں ہیں، یعنی وہ ایک جیسے ان پٹ کے پیش نظر ایک جیسے نتائج پیدا کرنے کی ضمانت نہیں دیتے ہیں۔ اس کا مطلب ہے کہ کمپنیوں کو مزید سخت جانچ کرنے کی ضرورت ہے تاکہ یہ یقینی بنایا جا سکے کہ AI صحیح طریقے سے کام کر رہا ہے، موضوع سے ہٹ کر نہیں، اور قابل اعتماد نتائج فراہم کر رہا ہے۔

Patronus AI نے 10,000 سے زیادہ سوالات اور جوابات کا ایک سیٹ بنایا ہے جو SEC فائلنگ سے بڑی عوامی طور پر تجارت کی جاتی ہے، جسے FinanceBench کہتے ہیں۔ ڈیٹا سیٹ میں درست جوابات کے ساتھ ساتھ کسی بھی فائل میں ان کو تلاش کرنے کے لیے صحیح مقام بھی شامل ہے۔

تمام جوابات براہ راست متن سے نہیں لیے جا سکتے ہیں اور کچھ سوالات کے لیے حساب کتاب یا ہلکی استدلال کی ضرورت ہوتی ہے۔

150 سوالوں کے سب سیٹ ٹیسٹ میں چار LLM ماڈل شامل تھے: OpenAI کا GPT-4 اور GPT-4-Turbo، Anthropic's Claude 2، اور Meta's Llama 2۔

نتیجے کے طور پر، GPT-4-Turbo، جب SEC کی بنیادی فائلنگ تک رسائی دی گئی، تو اس نے صرف 85% کی درستگی کی شرح حاصل کی (88% کے مقابلے جب اسے ڈیٹا تک رسائی نہیں تھی)، حالانکہ ایک انسان نے جواب تلاش کرنے کے لیے AI کے لیے درست متن کی طرف ماؤس کو اشارہ کیا۔

Llama 2، Meta کی طرف سے تیار کردہ ایک اوپن سورس AI ماڈل میں سب سے زیادہ تعداد میں "ہیلوسینیشنز" تھے، 70% جوابات غلط اور صرف 19% درست تھے جب بنیادی دستاویزات کے ایک حصے تک رسائی دی گئی۔

Anthropic's Claude 2 نے اچھی کارکردگی کا مظاہرہ کیا جب ایک "طویل تناظر" دیا گیا، جس میں سوال کے ساتھ تقریباً پوری متعلقہ SEC فائلنگ شامل ہے۔ یہ 75 فیصد سوالات کے جوابات دینے میں کامیاب رہا، 21 فیصد کا غلط جواب دیا اور 3 فیصد جواب دینے سے انکار کر دیا۔ GPT-4-Turbo نے طویل سیاق و سباق کے ساتھ بھی اچھی کارکردگی کا مظاہرہ کیا، 79% سوالات کا صحیح جواب دیا اور ان میں سے 17% کا غلط جواب دیا۔

(سی این بی سی کے مطابق)

AI اسٹارٹ اپس میں سرمایہ کاری کرنے کے لیے بگ ٹیک کی دوڑ

AI اسٹارٹ اپس میں سرمایہ کاری کرنے کے لیے بگ ٹیک کی دوڑ

AI ٹیکنالوجی کی آمد نے ٹیک کی دنیا کو ہلا کر رکھ دیا ہے، لیکن ایک چیز بدستور برقرار ہے - Big Tech اب بھی مطلق طاقت رکھتی ہے۔
AI ٹیکنالوجی نے ای کامرس اسٹارٹ اپ میں انقلاب برپا کردیا۔

AI ٹیکنالوجی نے ای کامرس اسٹارٹ اپ میں انقلاب برپا کردیا۔

مسابقتی ای کامرس کی جگہ میں، AI سٹارٹ اپس کو موقع فراہم کر رہا ہے کہ وہ ٹکنالوجی سے فائدہ اٹھا کر صارفین کی خدمت کریں اور آپریشنز کو ہموار کریں۔
AI کامیابی کے ساتھ پہلی بار انسانی خیالات کو حقیقت پسندانہ تصاویر میں بدل دیتا ہے۔

AI کامیابی کے ساتھ پہلی بار انسانی خیالات کو حقیقت پسندانہ تصاویر میں بدل دیتا ہے۔

مصنوعی ذہانت (AI) ٹیکنالوجی کی مدد سے انسانی سوچ کی تحقیق میں نئی ​​دریافتوں کا موازنہ ہمارے اندر ایک پوری نئی دنیا کھولنے سے کیا جا سکتا ہے۔