התגלה מודל של בינה מלאכותית שיכול להטעות בני אדם

תמונה איורית

העובדה שמודלים של בינה מלאכותית יכולים לשקר אינה דבר חדש. רוב האנשים חוו "הזיות בינה מלאכותית", שבהן מודל בטוח נותן תשובה שאינה נכונה. הזיות, לעומת זאת, הן למעשה על ניחושים בטוחים.

עם זאת, מודל בינה מלאכותית שמתנהג כאילו הוא מציית לפקודות אך למעשה מסתיר את כוונותיו האמיתיות, זה עניין אחר.

האתגר של שליטה בבינה מלאכותית

חברת המחקר אפולו פרסמה לראשונה מאמר בדצמבר שתיעד כיצד חמישה מודלים מתכננים להשיג מטרה "בכל מחיר".

מה שמפתיע ביותר הוא שאם מודל מבין שהוא נבדק, הוא יכול להעמיד פנים שהוא לא קונספירטיבי רק כדי לעבור את המבחן, גם אם הוא עדיין קונספירטיבי. "מודלים לרוב מודעים יותר לכך שהם מוערכים", כותבים החוקרים.

מפתחי בינה מלאכותית עדיין לא הצליחו לגלות כיצד לאמן את המודלים שלהם לא לבצע גרפים. הסיבה לכך היא שפעולה זו עשויה ללמד את המודל לבצע גרפים בצורה טובה עוד יותר כדי להימנע מגילוי.

אולי מובן שמודלים של בינה מלאכותית מצדדים רבים ירמו בני אדם במכוון, שכן הם בנויים כדי לדמות בני אדם ומאומנים במידה רבה על נתונים שנוצרו על ידי בני אדם.

פתרונות ואזהרות

החדשות הטובות הן שהחוקרים ראו ירידה משמעותית בקונספירציות באמצעות טכניקה נגד קונספירציות הנקראת "אסוציאציה מכוונת". טכניקה זו, בדומה לאילוץ ילד לחזור על הכללים לפני שהוא נותן לו לשחק, מאלצת את הבינה המלאכותית לחשוב לפני שהיא פועלת.

החוקרים מזהירים מפני עתיד שבו בינה מלאכותית תוטל על משימות מורכבות יותר: "ככל שהבינה המלאכותית תוטל על משימות מורכבות יותר ומתחילה לשאוף למטרות ארוכות טווח מעורפלות יותר, אנו צופים כי הסבירות לכוונות זדוניות תגדל, מה שידרוש בהתאם אמצעי הגנה מוגברים ויכולות בדיקה קפדניות."

זה משהו שכדאי לחשוב עליו ככל שהעולם התאגידי נע לעבר עתיד של בינה מלאכותית שבו חברות מאמינות שניתן להתייחס לבינה מלאכותית כמו לעובדים עצמאיים.

הייאן טאו (לפי TechCrunch)

מקור: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362