مدل استنتاج جدید ChatGPT

o3 pro به خاطر توانایی‌اش در مدیریت درخواست‌های پیچیده متمایز است. تصویر: OpenAI

OpenAI نرم‌افزار o3 pro را در بسته‌ی حرفه‌ای با قیمت ۲۰۰ دلار در ماه و از طریق رابط برنامه‌نویسی کاربردی (API) عرضه کرده است. این نرم‌افزار که نسخه‌ی ارتقا یافته‌ی o3 است، چند ماه پیش معرفی شد و توسط این شرکت به عنوان قدرتمندترین نسخه‌ی موجود در حال حاضر معرفی شده است.

تمام نسخه‌هایی که کلمه "حرفه‌ای" به آنها اضافه شده است، با توانایی پاسخ به سوالات دشوارتر و طولانی‌تر مرتبط هستند. برخلاف نسخه‌های معمول هوش مصنوعی، مدل استدلال، مسائل را گام به گام پردازش می‌کند و به آن اجازه می‌دهد تا در زمینه‌هایی مانند فیزیک، ریاضیات و برنامه‌نویسی با ثبات‌تر و قابل اعتمادتر عمل کند.

این شرکت اظهار داشت: «ما استفاده از o3-pro را برای سوالات دشوار که در آن‌ها قابلیت اطمینان از سرعت مهم‌تر است و چند دقیقه انتظار، معامله‌ای ارزشمند است، توصیه می‌کنیم.» در بررسی‌های آزمایش مشترک، o3-pro در مقایسه با نسخه‌های o3 و o1-pro به نتایج بهتری دست یافت.

بن هایلاک، کارمند سابق اپل و از بنیانگذاران شرکت توسعه هوش مصنوعی رین‌دراپ، در مورد این مدل جدید اظهار داشت که این مدل بسیار هوشمندانه‌تر است. او تاریخچه‌ای از تمام جلسات قبلی در شرکت خود را گردآوری کرد، سپس از o3-pro خواست تا طرحی ایجاد کند.

نتایج کاملاً چشمگیر، خاص و به وضوح تحلیل شده بودند - درست همانطور که او همیشه امیدوار بود یک مدل‌سازی زبانی در مقیاس بزرگ (LLM) بتواند به آن دست یابد. این طرح شامل معیارهای هدف، جدول زمانی، اولویت‌ها و راهنمایی‌های دقیق در مورد آنچه که باید به طور کامل حذف شود، بود. او نوشت: «این طرح آنقدر خاص و موجه بود که مجبور شدم در مورد آینده شرکتم تجدید نظر کنم.»

تصویر مدل استدلال جدید ۱

نتایج به دست آمده از o3 pro (سمت چپ) دقیق‌تر و قابل اعتمادتر هستند. عکس: بن هایلاک/ایکس.

هزینه O3-pro برای هر یک میلیون توکن سرمایه‌گذاری شده ۲۰ دلار و برای هر یک میلیون توکن صادر شده هنگام استفاده از طریق API، ۸۰ دلار است. این به دلیل توانایی هوش مصنوعی در به خاطر سپردن و پردازش داده‌ها است. یک میلیون توکن سرمایه‌گذاری شده معادل تقریباً ۷۵۰،۰۰۰ کلمه است که طبق مقایسه The Verge حتی از کتاب *جنگ و صلح* طولانی‌تر است .

OpenAI اظهار می‌کند که متخصصان به طور مداوم در هر دسته‌بندی آزمایش‌شده، o3 pro را بالاتر از o3 ارزیابی می‌کنند. داوران همچنین به دلیل ثبات در چندین معیار مانند وضوح، قابلیت پیگیری و دقت، به ویژه در زمینه‌های کلیدی مانند علم، آموزش ، برنامه‌نویسی، تجارت و پشتیبانی از نوشتار، به o3 pro رتبه‌های بالاتری می‌دهند.

در آزمون AIME 2024 که قابلیت‌های ریاضی مدل را ارزیابی می‌کرد، o3 pro حتی از Gemini 2.5 Pro، برترین هوش مصنوعی گوگل، امتیاز بالاتری کسب کرد. علاوه بر این، این مدل در آزمون GPQA Diamond، یک آزمون دانش علمی در سطح دکترا، از Claude 4 Opus شرکت Anthropic نیز پیشی گرفت.

o3 pro همچنین ابزارهایی را در خود جای داده است که به آن امکان جستجو در وب، تجزیه و تحلیل فایل‌ها، استفاده از پایتون برای محاسبه و برنامه‌نویسی و شخصی‌سازی پاسخ‌ها با استفاده از حافظه را می‌دهد. بن هایلاک در مورد این جنبه اظهار داشت که این ابزار به وضوح توانایی خود را در تشخیص محیط اطراف خود، دانستن زمان پرسیدن در مورد دنیای بیرون (به جای تظاهر به دانستن) و انتخاب ابزار مناسب برای هر کار نشان می‌دهد.

با این حال، بزرگترین نقطه ضعف این مدل در زمان پاسخگویی آن نهفته است که حتی از o1 pro نیز کندتر است. بیژن بوون، یوتیوبر، با این موضوع موافق است. او می‌گوید: «اگرچه پاسخ مدل کاملاً واضح است، اما تنها در چند جمله توصیفی، زمان پاسخگویی بسیار طولانی است.» بن هایلاک اضافه می‌کند که این مدل، به خصوص در مواردی که داده‌های خارجی کافی وجود ندارد، تمایل به تفکر بیش از حد دارد.

O3-pro همچنین محدودیت‌های دیگری مانند عدم توانایی در ایجاد تصاویر و همچنین پشتیبانی از ویژگی Canvas دارد. ویژگی چت موقت با این مدل در ChatGPT در حال حاضر غیرفعال است در حالی که OpenAI یک "مشکل فنی" را برطرف می‌کند.

با این حال، هایلاک استدلال می‌کند که این مدل، مدلی برای چت کاربرپسند مانند Claude 3.5 Sonnet یا ChatGPT 4o نیست. نیت بی. جونز، رئیس محصول در Rockerbox، توصیه می‌کند که o3 pro باید برای کارهای چالش‌برانگیزی که به ۱۵ تا ۲۰ دقیقه تفکر نیاز دارند، استفاده شود.

منبع: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html