בהתאם לכך, אפילו תצורת מודל הבינה המלאכותית בעלת הביצועים הטובים ביותר שבדקו, GPT-4-Turbo של OpenAI, עדיין השיגה שיעור תשובות נכונות של 79% בלבד למרות קריאת הפרופיל כולו ולעתים קרובות "הזיית" נתונים או אירועים לא מציאותיים.
"שיעור ביצועים כזה הוא בלתי מתקבל על הדעת לחלוטין", אמר אנאנד קאנאפאן, מייסד שותף של Patronus AI. "שיעור התשובות הנכונות צריך להיות גבוה בהרבה כדי שהמוצר יהיה אוטומטי ומוכן לייצור."
הממצאים מדגישים כמה מהאתגרים העומדים בפני מודלים של בינה מלאכותית, כאשר חברות גדולות, במיוחד בתעשיות מוסדרות בכבדות כמו פיננסים, מבקשות לשלב טכנולוגיה מתקדמת בפעילותן, בין אם בשירות לקוחות או במחקר.
"אשליה" של נתונים פיננסיים
היכולת לחלץ במהירות מספרים מרכזיים ולבצע ניתוח דוחות כספיים נחשבת לאחת היישומים המבטיחים ביותר עבור צ'אטבוטים מאז יציאת ChatGPT בסוף השנה שעברה.
דוחות שהוגשו ל-SEC מכילים נתונים חשובים, ואם בוט יכול לסכם במדויק או לענות במהירות על שאלות לגבי תוכנם, זה יכול לתת למשתמשים יתרון בתעשיית הפיננסים התחרותית.
במהלך השנה האחרונה, בלומברג LP פיתחה מודל בינה מלאכותית משלה לנתונים פיננסיים, ופרופסורים מבתי ספר למנהל עסקים חקרו האם ChatGPT יכול לנתח כותרות פיננסיות.
בינתיים, ג'יי.פי מורגן מפתחת גם כלי השקעה אוטומטי המופעל על ידי בינה מלאכותית. תחזית עדכנית של מקינזי קבעה כי בינה מלאכותית גנרטורה עשויה להגביר את ענף הבנקאות בטריליוני דולרים בשנה.
אבל הדרך עוד ארוכה. כאשר מיקרוסופט השיקה לראשונה את Bing Chat עם GPT של OpenAI, היא השתמשה בצ'אטבוט כדי לסכם במהירות הודעות לעיתונות על רווחים. משקיפים שמו לב במהרה שהמספרים שהבינה המלאכותית פלטה היו מוטים, או אפילו מפוברקים.
אותם נתונים, תשובות שונות
חלק מהאתגר בשילוב תואר שני במשפטים (LLM) במוצרים מהעולם האמיתי הוא שאלגוריתמים אינם דטרמיניסטיים, כלומר אין ערובה לכך שהם יניבו את אותן תוצאות בהינתן אותם קלטים. משמעות הדבר היא שחברות צריכות לערוך בדיקות קפדניות יותר כדי להבטיח שהבינה המלאכותית פועלת כהלכה, לא סוטה מהנושא ומספקת תוצאות אמינות.
Patronus AI בנתה סט של יותר מ-10,000 שאלות ותשובות שנאספו מדוחות שהוגשו ל-SEC של חברות גדולות בבורסה, הנקראות FinanceBench. מערך הנתונים כולל את התשובות הנכונות וכן את המיקום המדויק בכל קובץ נתון כדי למצוא אותן.
לא כל התשובות ניתנות ללקיחת ישירות מהטקסט וחלק מהשאלות דורשות חישוב או חשיבה קלה.
מבחן המשנה בן 150 השאלות כלל ארבעה מודלים של תואר שני במשפטים (LLM): GPT-4 ו-GPT-4-Turbo של OpenAI, Claude 2 של Anthropic ו-Llama 2 של Meta.
כתוצאה מכך, GPT-4-Turbo, כאשר ניתנה גישה לדוחות הבסיסיים של ה-SEC, השיגה שיעור דיוק של 85% בלבד (בהשוואה ל-88% תשובות שגויות כאשר לא ניתנה גישה לנתונים), למרות שהיה מצביע עכבר אנושי על הטקסט המדויק כדי שהבינה המלאכותית תוכל למצוא את התשובה.
ל-Lama 2, מודל בינה מלאכותית בקוד פתוח שפותח על ידי Meta, היה המספר הגבוה ביותר של "הזיות", כאשר התשובה הייתה שגויה ב-70% מהמקרים וענתה נכונה רק ב-19% מהמקרים כאשר ניתנה גישה לחלק מהמסמכים הבסיסיים.
Claude 2 של Anthropic ביצע ביצועים טובים כאשר ניתנה לו "הקשר ארוך", שבו כמעט כל הדיווח הרלוונטי של ה-SEC נכלל יחד עם השאלה. הוא הצליח לענות על 75% מהשאלות שנשאלו, ענה בצורה שגויה על 21% וסירב לענות על 3%. GPT-4-Turbo גם ביצע ביצועים טובים בהקשר ארוך, ענה נכון על 79% מהשאלות וענה בצורה שגויה על 17% מהן.
(לפי CNBC)
המירוץ של חברות הטכנולוגיה הגדולות להשקיע בסטארט-אפים של בינה מלאכותית
טכנולוגיית בינה מלאכותית מחוללת מהפכה בסטארט-אפים בתחום המסחר האלקטרוני
בינה מלאכותית הופכת מחשבות אנושיות לתמונות מציאותיות בפעם הראשונה
[מודעה_2]
מָקוֹר
תגובה (0)