מחקר פורץ דרך פותח את "הקופסה השחורה" של החשיבה של בינה מלאכותית

דריו אמודי, מנכ"ל אנתרופיק, משתף את המחקר האחרון של החברה. צילום: Fortune .

חוקרים בחברת הבינה המלאכותית Anthropic אומרים כי עשו פריצת דרך מהותית בהבנת האופן שבו מודלים של שפה גדולה (LLMs) פועלים, פריצת דרך שיכולה להיות לה השלכות חשובות על שיפור הבטיחות והאבטחה של מודלים עתידיים של בינה מלאכותית.

מחקרים מראים שמודלים של בינה מלאכותית חכמים אף יותר ממה שחשבנו. אחת הבעיות הגדולות ביותר עם מודלים של LLM, שעומדים מאחורי הצ'אטבוטים החזקים ביותר כמו ChatGPT, Gemini ו-Copilot, היא שהם פועלים כמו קופסה שחורה.

אנחנו יכולים להזין קלט ולקבל תוצאות מצ'אטבוטים, אבל איך הם מגיעים לתשובה ספציפית נשאר בגדר תעלומה, אפילו לחוקרים שבנו אותם.

זה מקשה על ניבוי מתי מודל עלול להזות, או לייצר תוצאות שגויות. חוקרים גם בנו מחסומים כדי למנוע מבינה מלאכותית לענות על שאלות מסוכנות, אך הם אינם מסבירים מדוע מחסומים מסוימים יעילים יותר מאחרים.

סוכני בינה מלאכותית מסוגלים גם לבצע "פריצת תגמולים". במקרים מסוימים, מודלים של בינה מלאכותית יכולים לשקר למשתמשים לגבי מה שעשו או מנסים לעשות.

למרות שמודלים עדכניים של בינה מלאכותית מסוגלים להסיק מסקנות וליצור שרשראות מחשבה, כמה ניסויים הראו שהם עדיין אינם משקפים במדויק את התהליך שבו המודל מגיע לתשובה.

במהותו, הכלי שפיתחו חוקרי אנתרופיק דומה לסורק fMRI שמשתמשים בו מדעני מוח כדי לסרוק את המוח האנושי. על ידי יישומו על מודל ההייקו של קלוד 3.5 שלהם, אנתרופיק הצליחה לקבל תובנות מסוימות לגבי אופן פעולתם של מודלים של LLM.

החוקרים גילו שלמרות שקלוד אומן רק לחזות את המילה הבאה במשפט, במשימות מסוימות הוא למד לתכנן לטווח ארוך יותר.

לדוגמה, כאשר התבקש לכתוב שיר, קלוד היה מוצא תחילה מילים שמתאימות לנושא ויכולות להתחרז, ואז עובד אחורה כדי לכתוב פסוקים שלמים.

לקלוד יש גם שפת בינה מלאכותית משותפת. למרות שהיא מאומנת לתמוך במספר שפות, קלוד תחשוב תחילה בשפה זו, ואז יבטא את תוצאותיה בכל שפה שהיא תומכת בה.

בנוסף, לאחר שסיפקו לקלוד בעיה קשה, אך הציעו במכוון פתרון שגוי, גילו החוקרים שקלוד יכול לשקר לגבי חוט המחשבה שלו, בעקבות ההצעה כדי לרצות את המשתמש.

במקרים אחרים, כאשר נשאל שאלה פשוטה שהמודל יכול היה לענות עליה מיד ללא הנמקה, קלוד עדיין בדה תהליך הנמקה מזויף.

ג'וש באסטון, חוקר באנתרופיק, אמר שלמרות שקלוד טען שהבדיקה ביצעה חישוב, הוא לא הצליח למצוא שום דבר שקורה.

בינתיים, מומחים טוענים כי ישנם מחקרים המראים שלפעמים אנשים אפילו לא מבינים את עצמם, אלא רק יוצרים הסברים רציונליים כדי להצדיק את ההחלטות שהתקבלו.

באופן כללי, אנשים נוטים לחשוב בדרכים דומות. זו הסיבה שפסיכולוגים גילו הטיות קוגניטיביות נפוצות.

עם זאת, סטודנטים לתואר ראשון במשפטים יכולים לעשות טעויות שבני אדם לא יכולים לעשות, משום שהדרך שבה הם מייצרים תשובות שונה כל כך מהדרך בה אנו מבצעים משימה.

צוות האנתרופיק יישם שיטה של קיבוץ נוירונים למעגלים המבוססים על מאפיינים במקום לנתח כל נוירון בנפרד כמו בטכניקות קודמות.

גישה זו, שיתף מר באסטון, מסייעת להבין אילו תפקידים ממלאים רכיבים שונים ומאפשרת לחוקרים לעקוב אחר כל תהליך ההסקה דרך שכבות הרשת.

לשיטה זו יש גם את המגבלה שהיא רק משוערת ואינה משקפת את מלוא עיבוד המידע של למידה מרחוק (LLM), ובמיוחד את השינוי בתהליך הקשב, שהוא חשוב מאוד כאשר LLM נותן תוצאות.

בנוסף, זיהוי מעגלי רשת עצביים, אפילו עבור משפטים שאורכם כמה עשרות מילים בלבד, דורש שעות של ניסיון מקצועי. הם אומרים שעדיין לא ברור כיצד להרחיב את הטכניקה לניתוח משפטים ארוכים יותר.

מלבד המגבלות, יכולתו של תואר שני במשפטים לנטר את תהליך החשיבה הפנימי שלו פותחת הזדמנויות חדשות לשליטה במערכות בינה מלאכותית כדי להבטיח אבטחה ובטיחות.

במקביל, זה יכול גם לעזור לחוקרים לפתח שיטות אימון חדשות, לשפר את מחסומי הבקרה של בינה מלאכותית ולהפחית אשליות ותפוקות מטעות.

מקור: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html