Vietnam.vn - Nền tảng quảng bá Việt Nam

צ'אטבוטים מבוססי בינה מלאכותית הופכים ל"משוגעים" יותר ויותר.

גל חדש של מערכות "הסקה" מחברות כמו OpenAI גורם להפצת מידע מוטעה לתכופה יותר. הדבר המסוכן הוא שהחברות הללו גם לא יודעות למה.

ZNewsZNews08/05/2025

באפריל, בוט בינה מלאכותית המטפל בתמיכה טכנית עבור Cursor, כלי פורח למתכנתים, הודיע ​​לכמה לקוחות על שינוי במדיניות החברה. באופן ספציפי, ההודעה ציינה כי הם אינם מורשים עוד להשתמש ב-Cursor ביותר ממחשב אחד.

בפורומים וברשתות החברתיות, לקוחות פרסמו פוסטים כדי להביע את כעסם. חלקם אף ביטלו את חשבונות ה-Cursor שלהם. עם זאת, חלקם זעמו עוד יותר כשהבינו מה קרה: בוט הבינה המלאכותית הודיע ​​על שינוי מדיניות שלא היה קיים.

"אין לנו מדיניות כזו. כמובן, ניתן להשתמש ב-Cursor על מספר מכונות. למרבה הצער, זוהי תגובה לא מדויקת של בוט בסיוע בינה מלאכותית", כתב מייקל טרואל, מנכ"ל ומייסד שותף של החברה, בפוסט ברדיט.

התפשטותן של חדשות מזויפות היא עצומה ובלתי מבוקרת.

יותר משנתיים לאחר הופעתה של ChatGPT, חברות טכנולוגיה, עובדי משרד וצרכנים יומיומיים משתמשים כולם בבוטים של בינה מלאכותית למגוון משימות בתדירות הולכת וגוברת.

עם זאת, עדיין אין דרך להבטיח שמערכות אלו מייצרות מידע מדויק. באופן פרדוקסלי, הטכנולוגיות החדשות והחזקות ביותר, המכונות גם מערכות "הסקה", של חברות כמו OpenAI, גוגל ו-DeepSeek, דווקא מייצרות יותר שגיאות.

AI anh 1

שיחה חסרת היגיון ב-ChatGPT שבה משתמש שואל האם עליו להאכיל את הכלב שלו בדגנים. צילום: Reddit.

בניגוד לשיפור המשמעותי במיומנויות המתמטיות, היכולת של מודלים לשוניים גדולים (LLMs) לתפוס את האמת הפכה רעועה יותר. באופן מפתיע, אפילו המהנדסים עצמם נדהמים לחלוטין מהסיבה לכך.

על פי הניו יורק טיימס , צ'אטבוטים של ימינו המבוססים על בינה מלאכותית מסתמכים על מערכות מתמטיות מורכבות כדי ללמוד מיומנויות על ידי ניתוח כמויות אדירות של נתונים מספריים. עם זאת, הם אינם יכולים להחליט מה נכון ומה לא נכון.

משם, צצה תופעת ה"הזיה" או ההמצאה העצמית. למעשה, על פי מחקרים, הדור החדש ביותר של מורשי תואר ראשון במשפטים חווה "הזיה" בתדירות גבוהה יותר מאשר דגמים ישנים יותר.

באופן ספציפי, בדו"ח האחרון שלה, גילתה OpenAI שמודל o3 היה "אשליה" כאשר ענתה על 33% מהשאלות ב-PersonQA, הסטנדרט הפנימי של החברה למדידת דיוק הידע של מודל על בני אדם.

לשם השוואה, נתון זה כפול משיעור ה"אשליה" של מודלי החשיבה הקודמים של OpenAI, o1 ו-o3-mini, שהיו 16% ו-14.8% בהתאמה. בינתיים, מודל ה-o4-mini הציג ביצועים גרועים אף יותר ב-PersonQA, וחווה "אשליה" במשך 48% ממשך הבדיקה.

מדאיג מכך, "אבי ChatGPT" לא באמת יודע מדוע זה קורה. באופן ספציפי, בדו"ח הטכני שלה על o3 ו-o4-mini, OpenAI מציינת כי "יש צורך במחקר נוסף כדי להבין מדוע 'ההזיות' מחמירות" בעת שינוי קנה מידה של מודלים של חשיבה.

o3 ו-o4-mini מתפקדים טוב יותר בתחומים מסוימים, כולל תכנות ומשימות מתמטיות. עם זאת, מכיוון שהם צריכים "למסור יותר הצהרות מאשר הצהרות כלליות", שני המודלים הביאו ל"הצהרות מדויקות יותר, אך גם הצהרות פחות מדויקות".

"זה לעולם לא ייעלם."

במקום מערכת כללים נוקשה המוגדרת על ידי מהנדסים אנושיים, מערכות LLM משתמשות בהסתברויות מתמטיות כדי לחזות את התגובה הטובה ביותר. לכן, הן תמיד יעשו מספר מסוים של טעויות.

"למרות מאמצינו הטובים ביותר, מודלים של בינה מלאכותית תמיד יהיו נתונים לאשליות. זה לעולם לא ייעלם", אמר עמר עוואדאללה, בכיר לשעבר בגוגל.

AI anh 2

לפי IBM, הזיות הן תופעות שבהן מודלים של שפה גדולה (LLM) - לרוב צ'אטבוטים או כלי ראייה ממוחשבת - מקבלים דפוסי נתונים שאינם קיימים או שאינם ניתנים לזיהוי על ידי בני אדם, ובכך מייצרים תוצאות חסרות משמעות או לא מדויקות. תמונה: iStock.

במאמר מפורט על הניסויים, OpenAI הצהירה כי היא זקוקה למחקר נוסף כדי להבין את הסיבה לתוצאות אלו.

לדברי מומחים, מכיוון שמערכות בינה מלאכותית לומדות מכמויות נתונים גדולות בהרבה ממה שבני אדם יכולים להבין, קשה מאוד לקבוע מדוע הן מתנהגות כפי שהן מתנהגות.

"האשליה נפוצה מטבעה יותר במודלים של הסקה, למרות שאנו פועלים באופן פעיל להפחתת הקצב הנראה ב-o3 וב-o4-mini. נמשיך לחקור את האשליה בכל המודלים כדי לשפר את הדיוק והאמינות", אמר גבי ריילה, דוברת OpenAI.

בדיקות של חברות וחוקרים עצמאיים רבים מראות ששיעור ההזיות עולה גם עבור מודלים של הסקה מחברות כמו גוגל או דיפסיק.

מאז סוף 2023, חברת Vectara של עוואדאללה עוקבת אחר התדירות שבה צ'אטבוטים מפיצים מידע שגוי. החברה הטילה על המערכות הללו משימה פשוטה וניתנת לאימות בקלות: סיכום מאמרים ספציפיים. אפילו אז, הצ'אטבוטים המשיכו להמציא מידע.

באופן ספציפי, המחקר הראשוני של Vectara העריך כי, תחת השערה זו, צ'אטבוטים בדו מידע בלפחות 3% מהמקרים, ולפעמים אף ב-27%.

במהלך השנה וחצי האחרונות, חברות כמו OpenAI וגוגל צמצמו את המספרים הללו לכ-1 או 2%. אחרות, כמו הסטארט-אפ Anthropic מסן פרנסיסקו, נעות סביב 4%.

עם זאת, שיעור ההזיות בניסוי זה המשיך לעלות עבור מערכות החשיבה. מערכת החשיבה R1 של DeepSeek חוותה הזיות ב-14.3%, בעוד ש-o3 של OpenAI גדל ב-6.8%.

בעיה נוספת היא שמודלים של הסקה נועדו להקדיש זמן ל"חשיבה" על בעיות מורכבות לפני הגעה לתשובה סופית.

AI anh 3

אפל כללה בקשה למנוע מבינה מלאכותית להמציא מידע בגרסת הבטא הראשונה של macOS 15.1. תמונה: Reddit/devanxd2000.

עם זאת, החיסרון הוא שכאשר מנסים לפתור בעיה שלב אחר שלב, מודל הבינה המלאכותית נוטה יותר להיתקל בהזיות בכל שלב. וחשוב מכך, טעויות יכולות להצטבר ככל שהמודל מקדיש יותר זמן לחשיבה.

הבוטים החדשים מציגים כל שלב למשתמש, כלומר משתמשים יכולים לראות גם כל שגיאה. חוקרים מצאו גם שבמקרים רבים, תהליך החשיבה שמוצג על ידי צ'אטבוט אינו קשור למעשה לתשובה הסופית שהוא מספק.

"מה שהמערכת אומרת שהיא חושבת עליו אינו בהכרח מה שהיא באמת חושבת", אומר אריו פראדיפטה גמה, חוקר בינה מלאכותית באוניברסיטת אדינבורו ותורם לכתב העת Anthropic.

מקור: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html


תגובה (0)

השאירו תגובה כדי לשתף את התחושות שלכם!

באותה קטגוריה

מאת אותו מחבר

מוֹרֶשֶׁת

דְמוּת

עסקים

ענייני היום

מערכת פוליטית

מְקוֹמִי

מוּצָר

Happy Vietnam
תהילה לווייטנאם!

תהילה לווייטנאם!

קמפינג חברה

קמפינג חברה

דיוקן של נחת

דיוקן של נחת