Model inferens baharu ChatGPT

O3 pro menonjol kerana keupayaannya untuk mengendalikan permintaan yang kompleks. Imej: OpenAI.

OpenAI telah melancarkan o3 pro dalam pakej Pro berharga $200/bulan dengan Team melalui API. Versi o3 yang dinaik taraf, yang diperkenalkan beberapa bulan yang lalu, o3 pro disebut-sebut oleh syarikat sebagai versi paling berkuasa yang tersedia pada masa ini.

Semua versi dengan perkataan tambahan "pro" dikaitkan dengan keupayaan untuk menjawab soalan yang lebih sukar dan panjang. Tidak seperti versi AI biasa, model penaakulan memproses masalah langkah demi langkah, membolehkannya beroperasi dengan lebih stabil dan andal dalam bidang seperti fizik, matematik dan pengaturcaraan.

“Kami mengesyorkan penggunaan o3-pro untuk soalan sukar yang mana kebolehpercayaan lebih penting daripada kelajuan, dan menunggu beberapa minit adalah satu pertukaran yang berbaloi,” kata syarikat itu. Dalam ulasan ujian bersama, o3-pro mencapai keputusan yang lebih baik berbanding versi o3 dan o1-pro.

Mengulas mengenai model baharu ini, Ben Hylak, bekas pekerja Apple dan pengasas bersama syarikat pembangunan AI Raindrop, berkata ia jauh lebih pintar. Dia menyusun sejarah semua mesyuarat sebelumnya di syarikatnya, kemudian meminta o3-pro untuk membuat rancangan.

Hasilnya agak mengagumkan, spesifik dan dianalisis dengan jelas—seperti yang selalu beliau harapkan dapat dicapai oleh pemodelan bahasa berskala besar (LLM). Pelan itu merangkumi metrik sasaran, garis masa, keutamaan dan panduan ketat tentang apa yang perlu dihapuskan sepenuhnya. “Ia begitu spesifik dan berasas sehingga saya terpaksa memikirkan semula masa depan syarikat saya,” tulisnya.

imej model penaakulan baharu 1

Keputusan yang diperoleh daripada o3 pro (kiri) adalah lebih spesifik dan boleh dipercayai. Foto: Ben Hylak/X.

O3-pro berharga $20 bagi setiap juta token yang dilaburkan dan $80 bagi setiap juta token yang dieksport apabila digunakan melalui API. Ini disebabkan oleh keupayaan AI untuk menghafal dan memproses data. Satu juta token yang dilaburkan bersamaan dengan kira-kira 750,000 patah perkataan, yang mana lebih panjang daripada buku *War and Peace* , seperti yang dibandingkan dengan The Verge .

OpenAI menyatakan bahawa pakar secara konsisten menilai o3 pro lebih tinggi daripada o3 dalam setiap kategori yang diuji. Pengulas juga memberikan penilaian o3 pro yang lebih tinggi untuk konsistensi dalam beberapa kriteria seperti kejelasan, kebolehpatuhan dan ketepatan, terutamanya dalam bidang utama seperti sains, pendidikan , pengaturcaraan, perniagaan dan sokongan penulisan.

Pada AIME 2024, satu ujian yang menilai keupayaan matematik model tersebut, o3 pro mendapat markah lebih tinggi daripada Gemini 2.5 Pro, AI terbaik Google. Di samping itu, model tersebut juga mengatasi Claude 4 Opus Anthropic dalam GPQA Diamond, satu ujian pengetahuan saintifik peringkat kedoktoran.

O3 Pro juga mengintegrasikan alatan yang membolehkannya mencari di web, menganalisis fail, menggunakan Python untuk pengiraan dan pengaturcaraan, dan memperibadikan respons dengan memanfaatkan memori. Mengulas aspek ini, Ben Hylak menyatakan bahawa alatan ini jelas menunjukkan keupayaannya untuk mengenali persekitarannya, mengetahui bila hendak bertanya tentang dunia luar (dan bukannya berpura-pura tahu), dan memilih alatan yang betul untuk setiap tugasan.

Walau bagaimanapun, kelemahan terbesar model ini terletak pada masa tindak balasnya, yang lebih perlahan daripada o1 pro. YouTuber Bijan Bowen bersetuju dengan perkara ini. "Walaupun tindak balas model agak jelas, hanya dalam beberapa ayat deskriptif, masa tindak balas agak lama," katanya. Terutamanya dalam kes dengan data luaran yang tidak mencukupi, model cenderung untuk berfikir secara berlebihan, tambah Ben Hylak.

O3-pro juga mempunyai beberapa batasan lain, seperti ketidakupayaan untuk mencipta imej, serta sokongan untuk ciri Canvas. Ciri sembang sementara dengan model ini dalam ChatGPT kini dinyahdayakan sementara OpenAI membetulkan "isu teknikal".

Walau bagaimanapun, Hylak berhujah bahawa ini bukanlah model untuk sembang mesra pengguna seperti Claude 3.5 Sonnet atau ChatGPT 4o. Nate B. Jones, Ketua Produk di Rockerbox, menasihatkan bahawa o3 pro harus digunakan untuk tugasan mencabar yang memerlukan 15-20 minit pemikiran.

Sumber: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html