בסוף שבוע אחד באמצע מאי, התקיים מפגש סודי של עולם המתמטיקה. 30 מהמתמטיקאים המובילים בעולם נסעו בחשאי לברקלי, קליפורניה, ארה"ב, כדי להשתתף בעימות עם צ'אטבוט המסוגל "להסיק". הצ'אטבוט הוטל עליו לפתור בעיות שנכתבו על ידי מתמטיקאים עצמם, כדי לבחון את יכולות פתרון הבעיות שלו.
לאחר יומיים של חיפוש רציף של שאלות ברמת פרופסור, מתמטיקאים הופתעו לגלות שהצ'אטבוט הזה יכול לפתור כמה מהבעיות הקשות ביותר שנפתרו אי פעם בהיסטוריה.
"ראיתי עמיתים אומרים במפורש שמודל השפה הגדול הזה מתקרב לרמת הגאונות המתמטית", אמר קן אונו, פרופסור באוניברסיטת וירג'יניה, יו"ר ושופט הישיבה, לסיינטיפיק אמריקן.
הצ'אטבוט שמשך את תשומת ליבנו מופעל על ידי o4-mini , מודל שפה גדול (LLM) שנועד לחשיבה מורכבת. זהו תוצר של OpenAI ומאומן לבצע חשיבה מתוחכמת. למודל המקביל של גוגל, Gemini 2.5 Flash, יש יכולות דומות.
כמו מודלים קודמים של ChatGPT LLM, o4-mini לומד לחזות את המילה הבאה במחרוזת טקסט. עם זאת, o4-mini היא גרסה קלה וגמישה יותר שאומנה על נתונים מעמיקים וכווננה בקפידה על ידי בני אדם - מה שמאפשר לה להתעמק בבעיות מתמטיות שמודלים קודמים לא הצליחו להגיע אליהן.
כדי לבחון את יכולות ה-o4-mini, OpenAI ביקשה מ-Epoch AI, עמותה המתמחה בבדיקת מודלים של תואר שני במשפטים (LLM), ליצור 300 שאלות מתמטיות שלא פורסמו קודם לכן. בעוד ש-LLM מסורתיים יכולים לפתור בעיות מורכבות רבות, כאשר התמודדו עם שאלות חדשות לחלוטין, רובם קיבלו פחות מ-2% ציון נכון, דבר המצביע על כך שהם לא היו באמת מסוגלים להסיק מסקנות.
בפרויקט ההערכה החדש, גייסה Epoch AI את המתמטיקאי הצעיר ד"ר אליוט גלייזר כמנהיגה. הפרויקט החדש, שנקרא FrontierMath , ייכנס לפעולה החל מספטמבר 2024.
הפרויקט אוסף שאלות חדשות בארבע רמות קושי, החל מתואר ראשון, תואר שני ועד מחקר מתקדם. עד אפריל 2025, גלזר גילה ש-o4-mini יכול לפתור כ-20% מהבעיות. לכן הוא עבר עד לרמה 4 - וביקש ממנו לפתור בעיות שאפילו מתמטיקאים מתקדמים היו מתקשים איתן.
המשתתפים אולצו לחתום על הסכם סודיות ויכלו לתקשר רק דרך האפליקציה המוצפנת Signal, מכיוון ששימוש בדוא"ל עלול לאפשר ל-LLM לסרוק ו"להריח" את התוכן, ובכך לזייף את נתוני ההערכה.
כל בעיה ש-o4-mini לא יוכל לפתור תזכה את השואל בפרס של 7,500 דולר.
הצוות הראשוני עשה התקדמות איטית אך יציבה בגיבוש שאלות. אבל גלייזר החליט לזרז את העניינים על ידי קיום פגישה אישית ב-17-18 במאי. 30 המתמטיקאים שהשתתפו חולקו לקבוצות של שישה, שהתחרו זה בזה - לא כדי לפתור בעיות, אלא כדי להעלות בעיות שהבינה המלאכותית לא הצליחה לפתור.
עד ערב ה-17 במאי, קן אונו התחיל להתסכל מהצ'אטבוט, שהפגין רמת מיומנות מתמטית הרבה מעבר למצופה, מה שהקשה על הצוות "ללכוד" אותו. "המצאתי בעיה שמומחים בתחום יזהו כבעיה פתוחה בתורת המספרים - בעיה המתאימה לדוקטורט", אמר.
כתוצאה מכך, כשהוא שאל את o4-mini, הוא נדהם לראות את הצ'אטבוט מנתח, מסיק ומגיע לפתרון הנכון תוך 10 דקות בלבד. באופן ספציפי, בשתי הדקות הראשונות, הוא למד ותפס את כל המסמכים הרלוונטיים. לאחר מכן, הוא הציע לנסות גרסה פשוטה יותר של הבעיה כדי ללמוד כיצד לגשת אליה.
חמש דקות לאחר מכן, הצ'אטבוט נתן את התשובה הנכונה, בנימה בטוחה - אפילו יהירה. "זה התחיל להיות חצוף", אומר אונו, "והוא הוסיף: 'אין צורך בהצעת מחיר כי גיליתי את המספר הסודי!'"
לאחר שהובס על ידי הבינה המלאכותית, בשעות הבוקר המוקדמות של ה-18 במאי, שלח אונו מיד הודעת אזהרה לצוות דרך Signal. "לא הייתי מוכן כלל להתמודד עם מודל כזה", אמר. "מעולם לא ראיתי חשיבה כזו במודל מחשב. זו הייתה חשיבה כמו שמדען אמיתי היה חושב. וזה היה מפחיד."
למרות שהמתמטיקאים הצליחו לבסוף למצוא 10 שאלות שהותירו את ה-o4-mini תקועים, הם עדיין לא יכלו להסתיר את ההלם שלהם ממהירות התפתחות הבינה המלאכותית בתוך שנה אחת בלבד.
אונו משווה את חוויית העבודה עם o4-mini לשיתוף פעולה עם עמית מוכשר מאוד. ויאנג הוי הא, מתמטיקאי במכון לונדון למדעים מתמטיים וחלוץ ביישום בינה מלאכותית במתמטיקה, מעיר: "זה מה שדוקטורנט מוכשר מאוד יכול לעשות - ואפילו יותר."
ויש לציין שבינה מלאכותית עושה זאת הרבה יותר מהר מבני אדם. בעוד שבני אדם צריכים שבועות או חודשים לפתור זאת, o4-mini לוקח רק כמה דקות.
ההתרגשות סביב ה-o4-mini אינה חפה מדאגות. גם אונו וגם הוא מזהירים כי יכולותיו של ה-o4-mini עלולות לגרום לאנשים להיות בטוחים מדי בעצמם. "יש לנו הוכחה באמצעות אינדוקציה, הוכחה באמצעות סתירה, ועכשיו הוכחה באמצעות... מוחצת", אומר הוא. "אם אתה אומר משהו עם מספיק ביטחון, אנשים יירתעו. אני חושב שה-o4-mini שלט בסוג כזה של הוכחה: הוא אומר הכל בביטחון רב".
עם סיום הפגישה, המתמטיקאים החלו לחשוב על עתידה של המתמטיקה. הם דנו באפשרות של "רמה חמישית" - שאלות שאפילו המתמטיקאים הטובים בעולם לא יוכלו לפתור. אם הבינה המלאכותית תגיע לסף זה, תפקידם של המתמטיקאים ישתנה באופן דרמטי: אולי הם יהפכו לשואלים, שיתקשרו וידריכו את החשיבה של הבינה המלאכותית כדי לגלות אמיתות מתמטיות חדשות - בדומה לאופן שבו פרופסור עובד עם סטודנט לתואר שני.
"אני אומר לעמיתיי כבר זמן רב שזו תהיה טעות ענקית לחשוב שבינה מלאכותית כללית לעולם לא תתרחש, שזה רק מחשב", אמר אונו. "אני לא רוצה להיכנס לפאניקה, אבל במובנים מסוימים מודלי השפה הגדולים האלה כבר מתחילים לעקוף את רוב הסטודנטים לתואר שלישי בעולם."
מקור: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp
תגובה (0)