החולשה הקטלנית של בינה מלאכותית

בינה מלאכותית עדיין לא מסוגלת להחליף בני אדם בתחום התכנות. צילום: ג'ון מקגווייר .

לאחרונה, מודלים מובילים של בינה מלאכותית מבית OpenAI ו-Anthropic נמצאים בשימוש גובר עבור יישומי תכנות. ChatGPT ו-Claude הגדילו את הזיכרון ואת כוח העיבוד כדי לנתח מאות שורות קוד, בעוד ש-Gemini משלבת תכונת תצוגת תוצאות ייעודית של Canvas עבור מתכנתים.

באוקטובר 2024, סונדר פיצ'אי, מנכ"ל גוגל, הצהיר כי 25% מהקוד החדש בחברה נוצר על ידי בינה מלאכותית. מארק צוקרברג, מנכ"ל מטה, הביע גם הוא שאיפות לפרוס באופן נרחב מודלים של קידוד בינה מלאכותית בתוך התאגיד.

עם זאת, מחקר חדש של חברת המחקר והפיתוח של מיקרוסופט, מראה שמודלים של בינה מלאכותית, כולל Claude 3.7 Sonnet של Anthropic ו-o3-mini של OpenAI, אינם מסוגלים להתמודד עם שגיאות רבות במבחן תכנות בשם SWE-bench Lite.

מחברי המחקר בחנו תשעה מודלים שונים של בינה מלאכותית ששילבו מגוון כלי ניפוי שגיאות כגון ניפוי שגיאות של Python והיו מסוגלים לטפל בבעיות במשפט אחד. המודלים הוטל עליהם לפתור 300 באגים בתוכנה שנבחרו מתוך מערך הנתונים SWE-bench Lite.

שיעור הצלחה בפתרון בעיות תכנות ממערך הנתונים SWE-bench Lite. תמונה: מיקרוסופט.

אפילו כאשר צוידו בדגמים חזקים וחדשים יותר, התוצאות הראו שסוכן הבינה המלאכותית כמעט ולא השלים בהצלחה יותר ממחצית משימות ניפוי השגיאות שהוקצו. מבין הדגמים שנבדקו, Claude 3.7 Sonnet השיג את שיעור ההצלחה הממוצע הגבוה ביותר עם 48.4%, ואחריו o1 של OpenAI עם 30.2%, ו-o3-mini עם 22.1%.

חלק מהסיבות לביצועים הנמוכים שהוזכרו לעיל כוללות מודלים מסוימים שאינם מבינים כיצד ליישם את כלי ניפוי השגיאות המסופקים. בנוסף, לדברי המחברים, בעיה גדולה יותר טמונה בחוסר נתונים מספיקים.

הם טוענים שמערכת האימון של המודלים עדיין חסרה נתונים המדמים את שלבי ניפוי השגיאות שבני אדם מבצעים מתחילתו ועד סופו. במילים אחרות, הבינה המלאכותית לא למדה מספיק על האופן שבו בני אדם חושבים ופועלים שלב אחר שלב כשהם מתמודדים עם באג תוכנה בעולם האמיתי.

אימון ושיפור המודלים יעזרו להם להיות מיומנים יותר בניפוי שגיאות בתוכנה. "עם זאת, הדבר ידרוש מערכי נתונים ייעודיים לתהליך האימון", הצהירו המחברים.

מחקרים רבים הצביעו על פגיעויות אבטחה ושגיאות בבינה מלאכותית במהלך יצירת קוד, עקב חולשות כגון הבנה מוגבלת של לוגיקת תכנות. סקירה שנערכה לאחרונה על Devin, כלי תכנות המופעל על ידי בינה מלאכותית, הראתה שהוא השלים רק 3 מתוך 20 בדיקות תכנות.

יכולות התכנות של בינה מלאכותית נותרות נושא לוויכוח רב. בעבר, קווין וייל, מנהל מוצר של OpenAI, הציע שעד סוף השנה, בינה מלאכותית תעקוף את המתכנתים האנושיים.

מצד שני, ביל גייטס, מייסד שותף של מיקרוסופט, מאמין שתכנות יישאר קריירה בת קיימא בעתיד. מנהיגים אחרים כמו אמג'ד מסאד (מנכ"ל Replit), טוד מקינון (מנכ"ל Okta) וארווינד קרישנה (מנכ"ל IBM) הביעו גם הם את תמיכתם בדעה זו.

המחקר של מיקרוסופט, למרות שאינו חדש, משמש כתזכורת למתכנתים, כולל מנהלים, לחשוב בזהירות רבה יותר לפני שהם מעבירים את סמכות הקידוד המלאה לבינה מלאכותית.

מקור: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html