אנתרופי: כמות קטנה של נתונים מספיקה כדי "להרעיל" מודלים ענקיים של בינה מלאכותית

Anthropic: Chỉ lượng tài liệu nhỏ cũng đủ 'đầu độc' mô hình AI khổng lồ - Ảnh 1. — אנתרופיק מזהיר כי הכנסת נתונים זדוניים כדי לעוות תגובות של בינה מלאכותית קלה הרבה יותר משדמיין - צילום: FREEPIK

חברת הבינה המלאכותית אנתרופיק, מפתחת הצ'אטבוט קלוד, פרסמה זה עתה מחקר המראה כי "הרעלת" מודלים של שפה גדולה (LLMs), כלומר, הכנסת נתונים זדוניים כדי לעוות תגובות של בינה מלאכותית, היא קלה הרבה יותר משדמיינתי.

לפי Cyber News, רק 250 מסמכים שעוצבו במיוחד מספיקים כדי לגרום למודל בינה מלאכותית גנרטיבי (GenAI) לתת תשובות שגויות לחלוטין בעת נתקלות בביטוי טריגר מסוים.

מדאיג, גודל המודל אינו מפחית סיכון זה. בעבר, חוקרים סברו שככל שהמודל גדול יותר, כך יידרש יותר מידע זדוני כדי להתקין "דלת אחורית".

אבל אנתרופיק טוענת שגם מודל 13 מיליארד הפרמטרים - שאומן על כמות נתונים גדולה פי 20 - וגם מודל 600 מיליון הפרמטרים יכולים להיפגע עם אותו מספר קטן של מסמכים "מורעלים".

"ממצא זה מאתגר את ההנחה שתוקף חייב לשלוט באחוז מסוים של נתוני אימון. למעשה, ייתכן שהוא זקוק רק לכמות קבועה קטנה מאוד", הדגיש אנתרופיק.

החברה מזהירה כי פגיעויות אלו עלולות להוות סיכונים חמורים לאבטחת מערכות בינה מלאכותית ולאיים על יישום הטכנולוגיה באזורים רגישים.

חזרה לנושא

חאן קווין

מקור: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm