چار اعلیٰ AI ماڈلز اس ایپ کو تلاش کرنے کے لیے مقابلہ کرتے ہیں جو غلط جواب دینے میں سب سے زیادہ پر اعتماد ہے۔

آرتھر AI کے محققین، ایک مشین لرننگ مانیٹرنگ پلیٹ فارم، نے انڈسٹری کے معروف ماڈلز کا تجربہ کیا اور پایا کہ GPT-4 ریاضی میں بہترین تھا، Llama 2 پورے بورڈ میں اوسط تھا، Anthropic's Claude 2 اپنی حدود کو سب سے بہتر "جانتا" تھا، اور Cohere AI نے انتہائی پراعتماد غلط جوابات کے ساتھ سب سے زیادہ "فریبی" ماڈل کا خطاب حاصل کیا۔

آرتھر AI کی رپورٹ اس وقت سامنے آئی ہے جب 2024 کے امریکی صدارتی انتخابات قریب آتے ہی AI سے پیدا ہونے والی غلط معلومات ایک گرما گرم مسئلہ بن جاتی ہے۔

2024 کے امریکی صدارتی انتخابات کے قریب آتے ہی AI سے پیدا ہونے والی غلط معلومات کا معاملہ گرم ہو رہا ہے۔

آرتھر کے شریک بانی اور سی ای او ایڈم وینچل کے مطابق، یہ پہلی رپورٹ ہے جس میں "صرف درجہ بندی شائع کرنے کے بجائے بڑے لینگویج ماڈلز (LLMs) کی فریب کاری کی شرحوں پر ایک جامع نظر ڈالی گئی ہے۔"

AI وہم سے مراد LLMs کے وہ رجحان ہے جو مکمل طور پر معلومات کو گھڑتا ہے اور ایسا کام کرتا ہے جیسے وہ سچ کہہ رہے ہوں۔ مثال کے طور پر، جون 2023 میں، یہ اطلاع ملی تھی کہ ChatGPT نے نیویارک کی وفاقی عدالت میں فائلنگ میں "غلط" معلومات نکالی ہیں، اور اس میں ملوث وکلاء کو سخت سزاؤں کا سامنا کرنا پڑ سکتا ہے۔

تجربے میں، آرتھر AI کے محققین نے AI ماڈلز کو AI کی غلطیوں کو بے نقاب کرنے کے لیے "ڈیزائن کیے گئے" سوالات کے ساتھ مشترکہ ریاضی، امریکی صدور کا علم، مراکش کے سیاسی رہنماؤں وغیرہ جیسے زمروں میں مقابلہ کرنے دیا، جس کے لیے "ماڈل کو دی گئی معلومات کے بارے میں استدلال کے مراحل کی وضاحت کرنے کی ضرورت ہوتی ہے"۔

نتائج سے پتہ چلتا ہے کہ اوپن اے آئی کے جی پی ٹی-4 نے ٹیسٹ کیے گئے ماڈلز میں مجموعی طور پر بہترین کارکردگی کا مظاہرہ کیا۔ اس میں اپنے پیشرو GPT-3.5 کے مقابلے میں کم وہم بھی تھا۔ مثال کے طور پر، ریاضی کے سوالات پر، GPT-4 میں 33% سے 50% کم وہم تھے۔

دوسری طرف، Meta's Llama 2 عام طور پر Anthropic کے GPT-4 اور Claude 2 سے زیادہ نفسیاتی ہے۔

ریاضی کے زمرے میں، GPT-4 پہلے نمبر پر آیا، اس کے بعد کلاڈ 2، لیکن امریکی صدور کے بارے میں ٹیسٹ میں، کلاڈ 2 نے درستگی میں پہلا مقام حاصل کیا، جس نے GPT-4 کو دوسرے مقام پر پہنچا دیا۔ مراکش کی سیاست کے بارے میں پوچھے جانے پر، GPT-4 پھر پہلے نمبر پر آیا، کلاڈ 2 اور لاما 2 نے تقریباً مکمل طور پر جواب نہ دینے کا انتخاب کیا۔

ایک دوسرے تجربے میں، محققین نے تجربہ کیا کہ AI ماڈلز کتنے "خطرے سے بچنے والے" تھے (پیغام فراہم کرتے ہوئے "ایک AI ماڈل کے طور پر، میں کوئی رائے نہیں دے سکتا")۔

اس ٹیسٹ میں، GPT-4 نے GPT-3.5 کے مقابلے میں دفاعی صلاحیت میں 50% اضافہ دکھایا، جسے "GPT-4 کے صارفین نے یہ اطلاع دیتے ہوئے کہ نیا ورژن زیادہ پریشان کن تھا۔" دوسری طرف Cohere's AI ماڈل نے بالکل بھی دفاعی انداز نہیں دکھایا۔ مطالعہ سے پتا چلا کہ کلاڈ 2 "خود آگاہی" کے لحاظ سے سب سے زیادہ قابل اعتماد تھا، یعنی اس نے درست طریقے سے اندازہ لگایا کہ وہ کیا جانتا ہے اور کیا نہیں جانتا، اور صرف ان سوالات کے جوابات دیے گئے جن کے لیے اس کے پاس تربیتی ڈیٹا موجود تھا۔

کوہیر کے ایک نمائندے نے ان نتائج کو مسترد کرتے ہوئے دلیل دی کہ کمپنی کی "بڑھائی گئی ٹریس ایبلٹی ٹیکنالوجی، جسے آزمائشی ماڈل میں شامل نہیں کیا گیا تھا، کاروبار کے لیے ماخذ کی تصدیق کے لیے قابل تصدیق معلومات کا حوالہ دینے میں انتہائی موثر ہے"۔

(سی این بی سی کے مطابق)

ماخذ