لا يزال يتعين على نماذج GPT والذكاء الاصطناعي القوية "الاستسلام" قبل هذا الاختبار

[إعلان_1]

وعليه، حتى أفضل نموذج للذكاء الاصطناعي الذي تم اختباره، وهو GPT-4-Turbo من OpenAI، لم يحقق سوى نسبة إجابة صحيحة بلغت 79% على الرغم من قراءة الملف الشخصي بالكامل و"الهلوسة" في كثير من الأحيان بأرقام أو أحداث غير واقعية.

قال أناند كانابان، المؤسس المشارك لشركة باترونوس للذكاء الاصطناعي: "هذا المعدل من الأداء غير مقبول بتاتًا. يجب أن يكون معدل الإجابة الصحيحة أعلى بكثير حتى تتم أتمتته وجاهزيته للإنتاج".

وتسلط النتائج الضوء على بعض التحديات التي تواجه نماذج الذكاء الاصطناعي حيث تتطلع الشركات الكبرى، وخاصة في الصناعات الخاضعة للتنظيم الشديد مثل القطاع المالي، إلى دمج التكنولوجيا المتقدمة في عملياتها، سواء في خدمة العملاء أو البحث.

"وهم" البيانات المالية

لقد تم اعتبار القدرة على استخراج الأرقام الرئيسية بسرعة وإجراء تحليل للبيانات المالية واحدة من أكثر التطبيقات الواعدة للدردشة الآلية منذ إصدار ChatGPT في أواخر العام الماضي.

تحتوي ملفات لجنة الأوراق المالية والبورصات على بيانات مهمة، وإذا كان الروبوت قادرًا على تلخيص محتوياتها بدقة أو الإجابة بسرعة على أسئلة حولها، فقد يمنح المستخدمين أفضلية في الصناعة المالية التنافسية.

صورة llm 100941414 كبيرة.jpg — تواجه الذكاء الاصطناعي صعوبات كبيرة في مرحلة تجميع البيانات - وهي المهمة التي من المتوقع أن تساعد البشر فيها أكثر من غيرها.

على مدار العام الماضي، طورت شركة Bloomberg LP نموذج الذكاء الاصطناعي الخاص بها للبيانات المالية، وكان أساتذة كليات إدارة الأعمال يدرسون ما إذا كان ChatGPT قادرًا على تحليل العناوين المالية.

في الوقت نفسه، يُطوّر بنك جي بي مورغان أيضًا أداة استثمار آلية مُدعّمة بالذكاء الاصطناعي. وقد أشارت توقعات حديثة لشركة ماكينزي إلى أن الذكاء الاصطناعي المُولّد قد يُعزّز القطاع المصرفي بتريليونات الدولارات سنويًا.

لكن لا يزال الطريق طويلاً. عندما أطلقت مايكروسوفت لأول مرة تطبيق Bing Chat مع منصة OpenAI GPT، استخدمت روبوت الدردشة لتلخيص البيانات الصحفية المتعلقة بالأرباح بسرعة. لاحظ المراقبون سريعًا أن الأرقام التي أصدرها الذكاء الاصطناعي كانت مُشوّهة، أو حتى مُفبركة.

نفس البيانات، إجابات مختلفة

يكمن جزء من تحدي دمج ماجستير الحقوق في المنتجات العملية في أن الخوارزميات غير حتمية، أي أنه لا يُضمن لها تحقيق نفس النتائج عند استخدام نفس المدخلات. هذا يعني أن الشركات بحاجة إلى إجراء اختبارات أكثر صرامة لضمان عمل الذكاء الاصطناعي بشكل صحيح، وعدم انحرافه عن الموضوع، وتقديمه نتائج موثوقة.

قامت Patronus AI ببناء مجموعة بيانات تُسمى FinanceBench، تضم أكثر من 10,000 سؤال وجواب، مستمدة من ملفات هيئة الأوراق المالية والبورصات الأمريكية (SEC) من شركات كبيرة مُدرجة في البورصة. تتضمن مجموعة البيانات الإجابات الصحيحة، بالإضافة إلى الموقع الدقيق في أي ملف للعثور عليها.

لا يمكن أخذ جميع الإجابات مباشرة من النص، وتتطلب بعض الأسئلة الحساب أو التفكير البسيط.

شمل اختبار المجموعة الفرعية المكونة من 150 سؤالاً أربعة نماذج LLM: GPT-4 وGPT-4-Turbo من OpenAI، وClaude 2 من Anthropic، وLlama 2 من Meta.

ونتيجة لذلك، عندما تم منح GPT-4-Turbo إمكانية الوصول إلى ملفات SEC الأساسية، حقق معدل دقة بنسبة 85% فقط (مقارنة بـ 88% من الإجابات غير الصحيحة عندما لم يتم منحه إمكانية الوصول إلى البيانات)، على الرغم من وجود مؤشر فأرة بشري إلى النص الدقيق للذكاء الاصطناعي للعثور على الإجابة.

كان لدى Llama 2، وهو نموذج ذكاء اصطناعي مفتوح المصدر طورته شركة Meta، أعلى عدد من "الهلوسة"، حيث أجاب بشكل غير صحيح بنسبة 70% من الوقت وأجاب بشكل صحيح بنسبة 19% فقط من الوقت عندما تم منحه حق الوصول إلى جزء من المستندات الأساسية.

حقق برنامج كلود 2 من أنثروبيك أداءً جيدًا عند إعطائه سياقًا مطولًا، حيث أُدرجت فيه تقريبًا كامل ملف هيئة الأوراق المالية والبورصات الأمريكية (SEC) ذي الصلة مع السؤال. وتمكن من الإجابة على 75% من الأسئلة المطروحة، وأجاب بشكل خاطئ على 21%، ورفض الإجابة على 3%. كما حقق برنامج GPT-4-Turbo أداءً جيدًا عند إعطائه سياقًا مطولًا، حيث أجاب بشكل صحيح على 79% من الأسئلة، وأجاب بشكل خاطئ على 17% منها.

(وفقا لشبكة CNBC)