מפגש יוצא דופן שבו מתמטיקאים מבקשים לנצח את הבינה המלאכותית.

בסוף שבוע אחד באמצע מאי, התקיים מפגש סגור של מתמטיקאים. שלושים מהמתמטיקאים המובילים בעולם נסעו בחשאי לברקלי, קליפורניה, ארה"ב, כדי להשתתף בעימות עם צ'אטבוט המסוגל "להסיק". צ'אטבוט זה הוטל עליו לפתור בעיות שהומצאו על ידי המתמטיקאים עצמם, במטרה לבחון את יכולות פתרון הבעיות שלו.

לאחר יומיים רצופים של הפצצת שאלות ברמת פרופסור, מתמטיקאים נדהמו לגלות שהצ'אטבוט הזה יכול לפתור כמה מהבעיות הקשות ביותר שנפתרו אי פעם בהיסטוריה.

"ראיתי עמיתים אומרים במפורש שמודל השפה הגדול הזה מתקרב לרמת הגאונות המתמטית", אמר קן אונו, פרופסור באוניברסיטת וירג'יניה, יו"ר ושופט הכנס, לסיינטיפיק אמריקן.

הצ'אטבוט הנ"ל מבוסס על o4-mini , מודל שפה גדול (LLM) שנועד לחשיבה מורכבת. מוצר זה של OpenAI מאומן לבצע שלבי חשיבה מתוחכמים. מודל דומה של גוגל, הנקרא Gemini 2.5 Flash, גם הוא בעל יכולות דומות.

כמו מודלים קודמים של ChatGPT LLM, o4-mini לומד לחזות את המילה הבאה במחרוזת טקסט. עם זאת, ההבדל טמון בעובדה ש-o4-mini היא גרסה קלה וגמישה יותר, המאומנת על נתונים עמוקים ועוברת כוונון אנושי קפדני - מה שמאפשר לה להתעמק בבעיות מתמטיות שמודלים קודמים לא הצליחו להגיע אליהן.

כדי לאתגר ולהעריך את היכולות של o4-mini, OpenAI הזמינה את Epoch AI - ארגון ללא מטרות רווח המתמחה בבדיקת מודלים של תואר שני במשפטים - ליצור 300 שאלות מתמטיות שלא פורסמו בעבר. בעוד שתוכניות תואר שני מסורתיות יכולות לפתור בעיות מורכבות רבות, כאשר הן מתמודדות עם שאלות חדשות לחלוטין, רובן פתרו נכון רק פחות מ-2%. זה מוכיח שאין להן יכולת חשיבה אמיתית.

בפרויקט ההערכה האחרון שלה, גייסה Epoch AI את הדוקטור הצעיר למתמטיקה, אליוט גלייזר, כמנהל. הפרויקט החדש, שנקרא FrontierMath , יושק בספטמבר 2024.

הפרויקט אסף שאלות חדשות בארבע רמות קושי, החל מתואר ראשון ושני ועד למחקר מעמיק. באפריל 2025, גלזר גילה ש-o4-mini יכול לפתור כ-20% מהבעיות. לכן, הוא העביר אותו מיד לרמה 4 - מה שדרש ממנו לפתור בעיות שאפילו מתמטיקאים מתקדמים מאוד היו מתקשים איתן.

המשתתפים נדרשו לחתום על הסכם סודיות, ולתקשר רק דרך אפליקציית Signal המוצפנת, מכיוון שהשימוש בדוא"ל עלול להיסרק ותוכנו "להילמד" על ידי ה-LLM, ובכך לזייף את נתוני ההערכה.

על כל בעיה ש-o4-mini לא יוכל לפתור, יקבל פותר הבעיה פרס של 7,500 דולר.

קבוצת העבודה הראשונית הייתה איטית אך יציבה בגיבוש שאלות. עם זאת, גלייזר החליט לזרז את העניינים על ידי ארגון פגישה אישית בת יומיים ב-17-18 במאי. שלושים מתמטיקאים נכחו, מחולקים לקבוצות של שישה, והתחרו זה בזה - לא כדי לפתור בעיות, אלא כדי להמציא בעיות שבינה מלאכותית לא יכלה לפתור.

עד ערב ה-17 במאי, קן אונו החל להרגיש תסכול מהצ'אטבוט, שהציג רמת יכולת מתמטית שעלתה בהרבה על הציפיות, מה שהקשה על הצוות "ללכוד" אותו. "המצאתי בעיה שמומחים בתעשייה יזהו כבעיה פתוחה בתורת המספרים - בעיה המתאימה לדוקטורט", הוא סיפר.

כתוצאה מכך, כשהוא שאל את o4-mini, הוא נדהם לראות את הצ'אטבוט מנתח, מסביר ומספק את הפתרון הנכון תוך 10 דקות בלבד. באופן ספציפי, בשתי הדקות הראשונות, הוא חקר ותפס את כל החומר הרלוונטי. לאחר מכן, הוא הציע להתנסות בגרסה פשוטה יותר של הבעיה כדי ללמוד את הגישה.

חמש דקות לאחר מכן, הצ'אטבוט סיפק את התשובה הנכונה, בליווי טון בטוח - אפילו קצת יהיר. "הוא התחיל להתנהג בערמומיות", סיפר אונו, "ואף הוסיף: 'אין צורך לצטט, כבר חישבתי את המספר המסתורי!'"

לאחר שנכשל מול הבינה המלאכותית, בבוקר ה-18 במאי, שלח אונו מיד הודעת התראה לצוות דרך Signal. "לא הייתי מוכן כלל להתמודד עם מודל כזה", אמר. "מעולם לא ראיתי חשיבה כזו במודל מחשב. היא חשבה כמו שמדען אמיתי חושב. וזה היה מפחיד."

למרות שהמתמטיקאים הצליחו בסופו של דבר למצוא 10 שאלות שהטרידו את o4-mini, הם לא יכלו להסתיר את תדהמתם ממהירות התפתחות הבינה המלאכותית בתוך שנה אחת בלבד.

אונו השווה את חוויית העבודה עם o4-mini לשיתוף פעולה עם עמית מוכשר ביותר. יאנג הוי הא, מתמטיקאי במכון למדעים מתמטיים בלונדון וחלוץ ביישום בינה מלאכותית במתמטיקה, העיר: "זה מה שסטודנט לתואר שני טוב מאוד יכול לעשות - אפילו יותר מזה".

וכדאי לציין שבינה מלאכותית עובדת הרבה יותר מהר מבני אדם. בעוד שבני אדם צריכים שבועות או חודשים לפתור את הבעיה, o4-mini לוקח רק כמה דקות.

ההתרגשות סביב קרב המוחות עם o4-mini לוותה בדאגה ניכרת. גם אונו וגם הוא הזהירו כי יכולותיו של o4-mini עלולות להוביל לביטחון עצמי מופרז. "יש לנו הוכחה באמצעות אינדוקציה, הוכחה באמצעות סתירה, ועכשיו הוכחה באמצעות... כוח מכריע", אמר הוא. "אם אתה קובע משהו בביטחון מספיק, אחרים ירגישו מאוימים. אני חושב ש-o4-mini שלטה בסוג ההוכחה הזה: כל מה שהוא אומר הוא ודאי מאוד".

עם סיום הפגישה, המתמטיקאים החלו להרהר בעתיד המתמטיקה. הם דנו באפשרות של "רמה חמישית" - שאלות שאפילו המתמטיקאים הטובים בעולם לא יוכלו לפתור. אם הבינה המלאכותית תגיע לרמה זו, תפקידו של המתמטיקאי ישתנה באופן דרמטי: הוא עשוי להפוך לאחר מכן לשואלים, שיתקשרו עם הבינה המלאכותית וידריכו אותה בהיגיון שלה כדי לגלות אמיתות מתמטיות חדשות - בדומה לאופן שבו פרופסור עובד עם סטודנטים לתארים מתקדמים.

"אני אומר לעמיתיי כבר זמן מה שזו תהיה טעות חמורה להניח שבינה מלאכותית כללית לעולם לא תופיע, שזה רק מחשב", אמר אונו. "אני לא רוצה להיכנס לפאניקה, אבל במובנים מסוימים, מודלי השפה הגדולים האלה כבר החלו להצליח יותר מרוב הסטודנטים לתארים מתקדמים הטובים בעולם."

(וייטנאם+)

מקור: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp