מודל ההסקה החדש של ChatGPT

ה-o3 pro בולט ביכולתו להתמודד עם בקשות מורכבות. תמונה: OpenAI.

OpenAI השיקה את o3 pro בחבילת Pro במחיר של 200 דולר לחודש עם Team דרך API. גרסה משודרגת של o3, שהוצגה לפני מספר חודשים, נחשבת על ידי החברה לגרסה החזקה ביותר הזמינה כיום.

כל הגרסאות עם המילה "pro" הנוספת מקושרות ליכולת לענות על שאלות קשות וארוכות יותר. בניגוד לגרסאות טיפוסיות של בינה מלאכותית, מודל ההיגיון מעבד בעיות שלב אחר שלב, מה שמאפשר לו לפעול בצורה יציבה ואמינה יותר בתחומים כמו פיזיקה, מתמטיקה ותכנות.

"אנו ממליצים להשתמש ב-o3-pro עבור שאלות קשות שבהן אמינות חשובה יותר ממהירות, והמתנה של מספר דקות היא פשרה משתלמת", הצהירה החברה. בסקירות בדיקה משותפות, o3-pro השיג תוצאות טובות יותר בהשוואה לגרסאות o3 ו-o1-pro.

בתגובה למודל החדש הזה, אמר בן הילאק, עובד לשעבר של אפל ומייסד שותף של חברת פיתוח הבינה המלאכותית Raindrop, שהוא הרבה יותר חכם. הוא ריכז היסטוריה של כל הפגישות הקודמות בחברה שלו, ואז ביקש מ-o3-pro ליצור תוכנית.

התוצאות היו מרשימות למדי, ספציפיות ונותחו בבירור - בדיוק כפי שתמיד קיווה שדוגמנות שפה בקנה מידה גדול (LLM) תוכל להשיג. התוכנית כללה מדדי יעד, לוחות זמנים, סדרי עדיפויות והנחיות קפדניות לגבי מה לבטל לחלוטין. "זה היה כל כך ספציפי ומבוסס היטב שנאלצתי לחשוב מחדש על עתיד החברה שלי", כתב.

תמונה 1 של מודל חשיבה חדש

התוצאות שהתקבלו מ-o3 pro (משמאל) הן ספציפיות ואמינות יותר. צילום: בן הילאק/X.

O3-pro עולה 20 דולר לכל מיליון טוקנים המושקעים ו-80 דולר לכל מיליון טוקנים המיוצאים כאשר משתמשים בהם דרך ה-API. זאת בשל יכולתה של הבינה המלאכותית לשנן ולעבד נתונים. מיליון טוקנים המושקעים שווים לכ-750,000 מילים, וזה אפילו יותר מהספר *מלחמה ושלום * , כפי שמשווה The Verge .

OpenAI מציינת שמומחים מדרגים באופן עקבי את o3 pro גבוה יותר מ-o3 בכל קטגוריה שנבדקה. סוקרים גם מעניקים ל-o3 pro דירוגים גבוהים יותר על עקביות במספר קריטריונים כגון בהירות, מעקב ודיוק, במיוחד בתחומים מרכזיים כמו מדע, חינוך , תכנות, עסקים ותמיכה בכתיבה.

במבחן AIME 2024, מבחן שבודק את היכולות המתמטיות של המודל, ה-o3 pro קיבל ציון גבוה יותר אפילו מה-Gemini 2.5 Pro, הבינה המלאכותית המובילה של גוגל. בנוסף, המודל גם עקף את Claude 4 Opus של Anthropic במבחן GPQA Diamond, מבחן ידע מדעי ברמת דוקטורט.

ה-o3 pro משלב גם כלים המאפשרים לו לחפש באינטרנט, לנתח קבצים, להשתמש בפייתון לחישוב ותכנות, ולהתאים אישית תגובות על ידי מינוף זיכרון. בתגובה להיבט זה, ציין בן היילק כי הכלי מדגים בבירור את יכולתו לזהות את סביבתו, לדעת מתי לשאול על העולם החיצון (במקום להעמיד פנים שהוא יודע), ולבחור את הכלי הנכון לכל משימה.

עם זאת, החיסרון הגדול ביותר של המודל טמון בזמן התגובה שלו, שהוא אפילו איטי יותר מזה של ה-o1 pro. היוטיובר ביג'אן בואן מסכים עם כך. "למרות שתגובת המודל די ברורה, בתוך כמה משפטים תיאוריים בלבד, זמן התגובה די ארוך", אמר. במיוחד במקרים עם נתונים חיצוניים לא מספיקים, המודל נוטה לחשוב יתר על המידה, הוסיף בן הילאק.

ל-O3-pro יש גם כמה מגבלות נוספות, כגון חוסר היכולת ליצור תמונות, וכן תמיכה בתכונת Canvas. תכונת הצ'אט הזמנית עם מודל זה ב-ChatGPT מושבתת כעת בעוד ש-OpenAI מתקן "בעיה טכנית".

עם זאת, היילק טוען שזה אינו מודל לצ'אט ידידותי למשתמש כמו Claude 3.5 Sonnet או ChatGPT 4o. נייט בי. ג'ונס, ראש מוצר ב-Rockerbox, מייעץ להשתמש ב-o3 pro למשימות מאתגרות הדורשות 15-20 דקות של מחשבה.

מקור: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html