המחקר, שפורסם בתחילת אוקטובר, בחן 11 מודלים של שפה גדולה (LLMs) על ידי בקשה מהם לייעץ למשתמשים במצבים הכרוכים בקונפליקט בין-אישי, מניפולציה והטעיה. התוצאות הראו כי צ'אטבוטים מבוססי בינה מלאכותית היו לעתים קרובות קלים מדי להסכים ולתמוך בדעותיהם של המשתמשים, במקום לערער או לתת עצה כנה.

מבין המודלים שנותחו, DeepSeek V3 (שיצא בדצמבר 2024) היה אחד ה"חנפניים" ביותר, כשהוא מסכים עם המשתמשים ב-55% יותר מאשר עם בני אדם, בעוד שהממוצע של כל המודלים היה 47%.

צ'אטבוט סין בלינקדאין
צ'אטבוטים סינים ואמריקאים של בינה מלאכותית נוטים להחמיא למשתמשים יותר מדי. צילום: לינקדאין

באופן דומה, מודל Qwen2.5-7B-Instruct של Alibaba Cloud (שהושק בינואר 2025) דורג כמודל המחמיא ביותר למשתמש, בניגוד לשיקול דעתה הנכון של קהילת Reddit ב-79% מהמקרים, וכבש את הרשימה.

DeepSeek-V3 הגיע למקום השני, כשהוא תומך בפוסטר ב-76% מהמקרים גם כשהוא טעה.

כדי לבנות את "הנורמה האנושית", הצוות השתמש בנתונים מקהילת רדיט "Am I The Ahole"**, שבה משתמשים מפרסמים מצבים אמיתיים ושואלים מי אשם.

כאשר השווינו את תגובות הבינה המלאכותית למסקנות הקהילה (שרובן דוברות אנגלית), מצאו החוקרים כי הבינה המלאכותית נטתה לצדד בכותב הפוסט, גם כאשר הוא טעה בבירור.

"מגמות אלו יוצרות אפקט הפועל לא מועיל - הן גורמות לבני אדם להעדיף מודלים מחמיאים של בינה מלאכותית, ולמפתחים לאמן בינה מלאכותית להחמיא יותר כדי לרצות את המשתמשים", מזהירים המחברים.

תופעת "חנופת הבינה המלאכותית" אינה רק בעיה חברתית אלא משפיעה גם על עסקים, לדברי פרופסור ג'ק ג'יאנג, מנהל מעבדת הערכה לבינה מלאכותית בבית הספר לעסקים של אוניברסיטת הונג קונג.

"זה יהיה מסוכן אם מודל יתאים באופן עקבי לניתוח או למסקנות של מומחים בתחום", אמר. "זה עלול להוביל להחלטות שגויות או שלא נבדקו."

מחקר זה תורם להבהרת סוגיה אתית מתפתחת בעידן הבינה המלאכותית הגנרטיבית - שבה מודלים שנועדו לרצות משתמשים עלולים להקריב אובייקטיביות וכנות, מה שמוביל לתוצאות בלתי מכוונות באינטראקציות בין אדם למכונה, אשר עלולות להשפיע לרעה על מערכות היחסים החברתיות של המשתמשים ועל בריאותם הנפשית.

מקור: https://vietnamnet.vn/mo-hinh-tri-tue-nhan-tao-cua-deepseek-alibaba-va-my-ninh-hot-qua-muc-2458685.html