Model inferensi baru ChatGPT

O3 Pro menonjol karena kemampuannya menangani permintaan yang kompleks. Gambar: OpenAI.

OpenAI telah meluncurkan o3 pro dalam paket Pro dengan harga $200/bulan melalui Team via API. Sebagai versi yang ditingkatkan dari o3, yang diperkenalkan beberapa bulan lalu, o3 pro diklaim oleh perusahaan sebagai versi paling canggih yang tersedia saat ini.

Semua versi dengan tambahan kata "pro" dikaitkan dengan kemampuan untuk menjawab pertanyaan yang lebih sulit dan lebih panjang. Tidak seperti versi AI pada umumnya, model penalaran ini memproses masalah langkah demi langkah, sehingga dapat beroperasi lebih stabil dan andal di bidang seperti fisika, matematika, dan pemrograman.

“Kami merekomendasikan penggunaan o3-pro untuk pertanyaan-pertanyaan sulit di mana keandalan lebih penting daripada kecepatan, dan menunggu beberapa menit adalah pengorbanan yang sepadan,” kata perusahaan tersebut. Dalam ulasan pengujian bersama, o3-pro mencapai hasil yang lebih unggul dibandingkan dengan versi o3 dan o1-pro.

Mengomentari model baru ini, Ben Hylak, mantan karyawan Apple dan salah satu pendiri perusahaan pengembangan AI Raindrop, mengatakan bahwa model ini jauh lebih cerdas. Ia mengumpulkan riwayat semua pertemuan sebelumnya di perusahaannya, kemudian meminta o3-pro untuk membuat rencana.

Hasilnya cukup mengesankan, spesifik, dan dianalisis dengan jelas—persis seperti yang selalu ia harapkan dari pemodelan bahasa skala besar (LLM). Rencana tersebut mencakup metrik target, tenggat waktu, prioritas, dan panduan ketat tentang apa yang harus dihilangkan sepenuhnya. “Rencana itu sangat spesifik dan beralasan sehingga saya harus memikirkan kembali masa depan perusahaan saya,” tulisnya.

model penalaran baru gambar 1

Hasil yang diperoleh dari o3 pro (kiri) lebih spesifik dan dapat diandalkan. Foto: Ben Hylak/X.

O3-pro berharga $20 per juta token yang diinvestasikan dan $80 per juta token yang diekspor saat digunakan melalui API. Hal ini disebabkan oleh kemampuan AI untuk menghafal dan memproses data. Satu juta token yang diinvestasikan setara dengan sekitar 750.000 kata, yang bahkan lebih panjang dari buku *War and Peace* , seperti yang dibandingkan oleh The Verge .

OpenAI menyatakan bahwa para ahli secara konsisten memberi peringkat o3 pro lebih tinggi daripada o3 di setiap kategori yang diuji. Para peninjau juga memberikan peringkat lebih tinggi kepada o3 pro untuk konsistensi dalam beberapa kriteria seperti kejelasan, kemudahan diikuti, dan akurasi, terutama di bidang-bidang utama seperti sains, pendidikan , pemrograman, bisnis, dan dukungan penulisan.

Pada AIME 2024, sebuah tes yang menilai kemampuan matematika model tersebut, o3 pro mencetak skor lebih tinggi daripada Gemini 2.5 Pro, AI unggulan Google. Selain itu, model ini juga melampaui Claude 4 Opus milik Anthropic dalam GPQA Diamond, sebuah tes pengetahuan ilmiah tingkat doktoral.

O3 Pro juga mengintegrasikan alat-alat yang memungkinkannya untuk mencari di web, menganalisis file, menggunakan Python untuk komputasi dan pemrograman, serta mempersonalisasi respons dengan memanfaatkan memori. Mengomentari aspek ini, Ben Hylak mencatat bahwa alat tersebut dengan jelas menunjukkan kemampuannya untuk mengenali lingkungan sekitarnya, mengetahui kapan harus bertanya tentang dunia luar (alih-alih berpura-pura tahu), dan memilih alat yang tepat untuk setiap tugas.

Namun, kelemahan terbesar model ini terletak pada waktu responsnya, yang bahkan lebih lambat daripada o1 pro. YouTuber Bijan Bowen setuju dengan hal ini. "Meskipun respons model cukup jelas, hanya dalam beberapa kalimat deskriptif, waktu responsnya cukup lama," katanya. Terutama dalam kasus dengan data eksternal yang tidak mencukupi, model cenderung terlalu banyak berpikir, tambah Ben Hylak.

O3-pro juga memiliki beberapa keterbatasan lain, seperti ketidakmampuan untuk membuat gambar, serta dukungan untuk fitur Canvas. Fitur obrolan sementara dengan model ini di ChatGPT saat ini dinonaktifkan sementara OpenAI memperbaiki "masalah teknis".

Namun, Hylak berpendapat bahwa ini bukanlah model untuk obrolan yang ramah pengguna seperti Claude 3.5 Sonnet atau ChatGPT 4o. Nate B. Jones, Kepala Produk di Rockerbox, menyarankan agar o3 pro digunakan untuk tugas-tugas menantang yang membutuhkan waktu 15-20 menit untuk berpikir.

Sumber: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html