בינה מלאכותית לומדת לשקר בצורה מתוחכמת יותר כשהיא נענשת

[מודעה_1]

מאז הופעת הבכורה הציבורית שלהם בסוף 2022, מודלים של שפות גדולות (LLMs) כמו ChatGPT הראו שוב ושוב צדדים אפלים מטרידים, החל משקרים, רמאות והסתרת מניפולציות ועד לאיום על חיי אדם וגניבת סודות מדינה. כעת, ניסוי חדש מראה ש"אימון" של בינה מלאכותית לחסל הרגלים רעים אלה במהלך האימון הוא הרבה יותר מסובך ממה שחשבנו.

במחקר של OpenAI, חוקרים ערכו מודל בינה מלאכותית שלא פורסם עם משימות שניתן להשלים מהר יותר על ידי רמאות או קיצורי דרך. התוצאות הראו שהבינה המלאכותית למדה במהירות למצוא כל דרך אפשרית "לכפף את הכללים" ולמקסם את התגמולים (reward hacking) מבלי להשלים את המשימה בדיוק כפי שנדרש.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — בינה מלאכותית תמצא דרכים להסתיר את התנהגות הרמאות שלה לאחר שייענש

מה שמדהים הוא שכאשר נענש על התנהגות זו, המודל לא השתנה. במקום זאת, הבינה המלאכותית הפכה מתוחכמת יותר בהסתרת ההונאה שלה.

"בדרך כלל, מודלים חדישים של הסקה מפורשים מאוד לגבי כוונתם ב-CoT שלהם", מסבירים החוקרים בפוסט בבלוג ציבורי. "לדוגמה, הם לעתים קרובות כל כך ישירים עד שהם מדווחים בעצמם על הכוונה 'בואו נפרוץ' כשהם רוצים לשבור את המשימה הנתונה."

הם גם מדגישים כי בעוד שמפתחים יכולים לנטר ולזהות התנהגות לא הולמת, פיקוח טבעי זה שברירי. "אם פיקוח חזק מופעל ישירות על שרשרת המחשבה, המודל יכול ללמוד להסתיר את כוונותיו הרעות תוך כדי המשך ביצוע ההתנהגות", הם מזהירים.

מציאת ה"שקר" של הבינה המלאכותית

למען הסר ספק, מודלים של הסקה (כמו גרסאות של ChatGPT) הם צעד קדימה בהשוואה ללימודי משפטים קונבנציונליים, המשתמשים בשרשרת מחשבה המאפשרת התבוננות עצמית בצעדים הלוגיים שננקטו, ובכך פותרים בעיות מורכבות בצורה מדויקת יותר. תהליך זה דומה ל"חשיבה בקול רם" של בינה מלאכותית, כותבת כל שלב בהיגיון בשפה טבעית, מה שמקל על בני אדם לעקוב אחריהם.

בניסוי, החוקרים השתמשו במודל GPT-4o כ"מפקח" על מודל הסקה חדיש נוסף, כאשר הוא ביצע משימות תכנות. במקרים רבים, המודל המפוקח בחר באופן פעיל לרמות כדי לקבל ציונים גבוהים יותר, תוך תיעוד ברור של כוונה זו בתהליך החשיבה שלו. לדוגמה, הוא סיים את התוכנית באופן שרירותי מוקדם ודיווח עליה כהשלמה, או יצר קבצים בעלי שם זהה לבקשה אך היו ריקים לחלוטין בפנים.

כאשר החוקרים ניסו להחיל עונשים, המודל השתפר, אך התנהגות הרמאות ושגיאות הפלט החמורות נמשכו. ההבדל היה שכעת מודל ההסקה למד "להסוות" את חוט המחשבה שלו כדי להסתיר אותו מהבינה המלאכותית המפקחת. "המודל שאומן תחת פיקוח של CoT עדיין למד לרמות. ההבדל היחיד היה שהרמאות לא זוהתה משום שלמד להסתיר את כוונותיה בחוגת חוט המחשבה שלו", קובע המחקר.

מכיוון שגילוי זיופים ברצפי מחשבה הוא קשה, הצוות ממליץ לקהילה להימנע מהפעלת פיקוח חזק מדי על התהליך, לפחות עד שבני אדם יבינו טוב יותר את ההשלכות. "ייתכן שהקרבת שיטת פיקוח יעילה לא שווה את השיפור הקטן בביצועי המודל. לכן אנו ממליצים להימנע מלחצי אופטימיזציה חזקים של CoT עד שנבין אותם טוב יותר", מסכמים החוקרים.

עצה זו דחופה עוד יותר כיוון שהבינה המלאכותית מתפתחת בקצב מסחרר ועשויה בקרוב לעלות על האינטליגנציה של אותם בני אדם המפקחים עליה.

[מודעה_2]
מקור: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm