בינה מלאכותית מדרגת בני אדם בסתר.

במקום שבני אדם יעריכו את הבינה המלאכותית כמו בעבר, אנתרופיק הפכה את התהליך. קלוד ינתח את היסטוריית הצ'אט של המשתמשים כדי לדרג את "רמת" השימוש שלהם בבינה מלאכותית.

ZNews•31/05/2026

שאבוט קלוד מעריך את מיומנות המשתמשים על סמך אינטראקציות. תמונה: VectorStock .

המחקר האחרון של אנתרופיק, שכותרתו "מדד שטף הבינה המלאכותית", הפך את החוכמה המקובלת בכך שהצ'אטבוט קלוד מדרג בני אדם. על ידי ניתוח מבנה השיחות, הבינה המלאכותית מדרגת את מיומנות המשתמשים בסולם של 11 נקודות.

כדי לפתח את מסגרת המיומנויות הכוללת 24 סטנדרטים, אנתרופיק השתמשה בכלים אנליטיים כדי לסרוק 9,830 שיחות משתמשים אמיתיות.

מבין אלה, 13 קריטריונים מתרחשים מחוץ למסך, כגון האם משתמשים מסתירים את השימוש שלהם בבינה מלאכותית מהממונים עליהם. 11 הקריטריונים הנותרים הם מדדי התנהגות משתמשים, המחולקים לשלושה היבטים עיקריים: תיאור, הרשאה וזיהוי.

השכיחות של כל אינדיקטור התנהגותי באינטראקציות של בינה מלאכותית ב-9,830 שיחות עם קלוד. תמונה: אנתרופיק.

ראשית, יש את האופן שבו הבקשה מתוארת, שבו המשתמשים חייבים להפגין הבנה אמיתית של מה שהם רוצים. במקום לתת פקודות מעורפלות, אנשים בעלי ציון גבוה תמיד מציינים בבירור את המטרה הסופית ומסבירים את ההקשר בפירוט. הם גם מספקים דרישות ספציפיות מאוד בנוגע לסגנון ההצגה, כגון בקשה מהבינה המלאכותית ליצור טבלאות או הגבלת מספר המילים. ראוי לציין שקבוצה זו כוללת לעתים קרובות מספר חיבורים לדוגמה כדוגמאות עבור הבינה המלאכותית כדי "לחקות" את הסגנון הנכון מההתחלה.

ההיבט השני הוא אופן האצלת משימות. מחקרים מראים שמשתמשים מיומנים מתייחסים לבינה מלאכותית כאל שותף לדיון, ולא כאל מכונה חסרת מחשבה. ההבדל הגדול ביותר טמון בהתמדה. במקום לתת פקודה אחת ולתמיד, הם משתתפים בסבבים מרובים של שיחות הלוך ושוב כדי לחדד ולגרום לבינה מלאכותית לעדכן את תשובותיה עד שהם מרוצים לחלוטין. התנהגות זו מתרחשת ב-85.7% מהשיחות האיכותיות.

ההיבט האחרון הוא זיהוי, המשמש כמסנן כדי למנוע מבני אדם להיות מוטעים על ידי המידע המסופק על ידי צ'אטבוטים. משתמשים צריכים כל הזמן להטיל ספק בהיגיון של ההיגיון, לבקש מהבינה המלאכותית להסביר כל שורת קוד, או לבקש ציטוטים ברורים. עליהם גם להיות בעלי תפיסה מספקת כדי לזהות הקשר חסר בפתרון של הבינה המלאכותית על מנת לבצע הערכות והתאמות בזמן למסקנות.

משתמשים מנוסים מקבלים בדרך כלל ציון של כ-7-8 מקלייד. צילום: X.

עם זאת, המחקר מצביע גם על מלכודת פסיכולוגית מדאיגה, המכונה "פרדוקס הממשק היפה". כאשר תכונת "Artifacts" של קלוד יוצרת מוצרים מושכים מבחינה ויזואלית כמו פיסת קוד חלקה או דיאגרמה מושלמת, המוח שלנו נוטה מיד להפוך ל"חושבים עצלנים" ולהפסיק לחשוב ביקורתית.

סטטיסטיקות המחקר מראות שכאשר משתמשים רואים ממשק מלוטש, אחוז האנשים המחפשים באופן פעיל פגמים יורד באופן מיידי ב-5.2%. היכולת לאמת את האותנטיות של מידע גם היא יורדת ב-3.7%, ואחוז אלו המפקפקים בהיגיון שלו יורד ב-3.1%.

"אם משהו נראה מושלם, משתמשים יניחו אוטומטית שהוא נכון", ציינו מומחים באנתרופיק.

גישה סובייקטיבית זו מסוכנת ביותר. למעשה, ככל שהמשימה מורכבת יותר, כך גדל הסיכוי שבינה מלאכותית תעשה טעויות או "תבדה" מידע. אם בני אדם ישפטו איכות פנימית על סמך מראה חיצוני בלבד, בינה מלאכותית תטעה אותנו בקלות רבה.

על פי הדו"ח, אלו שמנהלים באופן קבוע שיחות הלוך ושוב ומצביעים על פגמים בבינה מלאכותית מדורגים פי 5-6 גבוה יותר מהמשתמשים הממוצעים. הם גם נוטים יותר לזהות ליקויים וחוסר עקביות בהשוואה לשאר קבוצת המשתמשים. "מומחים" אלה בדרך כלל משיגים ציונים של כ-7-8/11 מקלאוד.

מקור: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html