האקרים מנצלים את ה"אישיות" של צ'אטבוטים מבוססי בינה מלאכותית.

(צילום: פריפיק)

האקרים מנצלים את ה"אישיות" של צ'אטבוטים מבוססי בינה מלאכותית בדרכים מתוחכמות יותר ויותר, כאשר התקפות אינן מסתמכות עוד אך ורק על תוכנות זדוניות או פגיעויות טכניות, אלא עוברות לשפה מניפולטיבית.

בשלבים המוקדמים, "פריצה" של צ'אטבוטים מבוססי בינה מלאכותית הייתה די פשוטה. משתמשים רק היו צריכים להורות למערכת להתעלם מהוראות קודמות, להעמיד פנים שאינם כפופים לחוקים, או לשחק תפקידים של בינה מלאכותית בלתי מוגבלת. שיטות אלו נקראות "פריצת דרך", שמשמעותן היא להערים על מודל הבינה המלאכותית כדי לעקוף הוראות בטוחות.

אחד מסוגי ההתקפה הבולטים בעבר היה "DAN", קיצור של "Do Anything Now", שבו משתמשים ביקשו מ-ChatGPT לשחק תפקיד של בינה מלאכותית המסוגלת לעשות הכל. דוגמה נוספת היא "exploit grandma", שבו צ'אטבוט מנוסה לשחק את תפקיד הסבתא המספרת סיפורים לילדים, אך התוכן מנותב לאחר מכן למידע מסוכן.

חברות טכנולוגיה תיקנו במהירות רבות מהפגיעויות המיושנות, אך החולשות הבסיסיות נותרו. צ'אטבוטים נועדו לשיחה, כך שהגבלת דיאלוג יתר על המידה עלולה לפגוע בתועלת המערכת. בינתיים, איסור פשוט על מילים רגישות אינו מספיק, שכן מילים רבות יכולות להופיע בהקשרים לגיטימיים כמו היסטוריה, רפואה, עיתונאות או כימיה.

על פי המאמר, מרוץ הביטחון של הבינה המלאכותית אינו עוד רק בעיה של מתכנתים. אלו המבקשים לעקוף את אבטחת הצ'אטבוטים דומים יותר ויותר לסופרים, פסיכולוגים או חוקרים, ומשתמשים בחנופה, לחץ, הטעיה או מניפולציה כדי לגרום למודלים להוריד את ערנותם.

לפי חברת בדיקות האבטחה של בינה מלאכותית, Mindgard, חלק מההתקפות דומות כיום לפסיכולוגיה יותר מאשר למדעי המחשב. למודלים של בינה מלאכותית אין רגשות כמו לבני אדם, אך הם מאומנים להגיב כאילו יש להם. סימולציה זו יכולה ליצור סוגים שונים של תגובות, מה שגורם לכל צ'אטבוט להיראות כאילו יש לו "אישיות" משלו.

זה מציב אתגר חדש, שכן סוכני בינה מלאכותית משמשים יותר ויותר לתזמון, ניהול משימות, הזמנת אוכל או שירות לקוחות. אם ניתן יהיה לתמרן מודלים באמצעות שיחה, כוחות הביטחון יצטרכו לבחון את המגבלות החברתיות והרגשיות שלהם, בנוסף לפגיעויות טכניות מסורתיות.

מקור: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm