โมเดลการอนุมานใหม่ของ ChatGPT

o3 pro โดดเด่นในด้านความสามารถในการจัดการคำขอที่ซับซ้อน ภาพ: OpenAI

OpenAI ได้เปิดตัว o3 pro ในแพ็กเกจ Pro ราคา 200 ดอลลาร์สหรัฐต่อเดือน โดยใช้งานร่วมกับ Team ผ่าน API o3 pro เป็นเวอร์ชันที่ได้รับการอัปเกรดจาก o3 ซึ่งเปิดตัวไปเมื่อไม่กี่เดือนก่อน และทางบริษัทระบุว่าเป็นเวอร์ชันที่ทรงพลังที่สุดในปัจจุบัน

เวอร์ชันทั้งหมดที่มีคำว่า "โปร" เพิ่มเข้ามานั้นเกี่ยวข้องกับความสามารถในการตอบคำถามที่ยากและยาวกว่า แตกต่างจากเวอร์ชัน AI ทั่วไป โมเดลการให้เหตุผลจะประมวลผลปัญหาทีละขั้นตอน ทำให้สามารถทำงานได้อย่างเสถียรและน่าเชื่อถือมากขึ้นในสาขาต่างๆ เช่น ฟิสิกส์ คณิตศาสตร์ และการเขียนโปรแกรม

“เราแนะนำให้ใช้ o3-pro สำหรับคำถามยากๆ ที่ความน่าเชื่อถือมีความสำคัญมากกว่าความเร็ว และการรอเพียงไม่กี่นาทีก็คุ้มค่า” บริษัทกล่าว ในการทดสอบที่เผยแพร่ร่วมกัน o3-pro ให้ผลลัพธ์ที่เหนือกว่าเมื่อเทียบกับเวอร์ชัน o3 และ o1-pro

เบน ไฮแล็ก อดีตพนักงานแอปเปิลและผู้ร่วมก่อตั้งบริษัทพัฒนา AI ชื่อ Raindrop กล่าวถึงโมเดลใหม่นี้ว่า "ฉลาดกว่ามาก" เขาได้รวบรวมประวัติการประชุมทั้งหมดในบริษัทของเขา แล้วขอให้ o3-pro สร้างแผนขึ้นมา

ผลลัพธ์ที่ได้นั้นน่าประทับใจมาก เฉพาะเจาะจง และวิเคราะห์ได้อย่างชัดเจน—ตรงตามที่เขาหวังไว้เสมอว่าการสร้างแบบจำลองภาษาขนาดใหญ่ (LLM) จะสามารถทำได้ แผนดังกล่าวรวมถึงตัวชี้วัดเป้าหมาย กำหนดเวลา ลำดับความสำคัญ และคำแนะนำที่เข้มงวดเกี่ยวกับสิ่งที่จะต้องกำจัดออกไปโดยสิ้นเชิง “มันเฉพาะเจาะจงและมีพื้นฐานที่ดีมากจนผมต้องคิดทบทวนอนาคตของบริษัทใหม่” เขาเขียนไว้

ภาพที่ 1 ของแบบจำลองการให้เหตุผลใหม่

ผลลัพธ์ที่ได้จาก o3 pro (ด้านซ้าย) มีความแม่นยำและน่าเชื่อถือมากกว่า ภาพ: Ben Hylak/X.

O3-pro มีค่าใช้จ่าย 20 ดอลลาร์ต่อโทเค็นที่ลงทุน 1 ล้านโทเค็น และ 80 ดอลลาร์ต่อโทเค็นที่ส่งออก 1 ล้านโทเค็น เมื่อใช้งานผ่าน API เนื่องจาก AI มีความสามารถในการจดจำและประมวลผลข้อมูล โทเค็นที่ลงทุน 1 ล้านโทเค็นเทียบเท่ากับคำประมาณ 750,000 คำ ซึ่งยาวกว่าหนังสือ *สงครามและ สันติภาพ* เสียอีก ตามที่ The Verge เปรียบเทียบไว้

OpenAI ระบุว่าผู้เชี่ยวชาญให้คะแนน o3 pro สูงกว่า o3 ในทุกหมวดหมู่ที่ทดสอบอย่างสม่ำเสมอ ผู้รีวิวยังให้คะแนน o3 pro สูงกว่าในด้านความสม่ำเสมอในหลายเกณฑ์ เช่น ความชัดเจน ความเข้าใจง่าย และความถูกต้อง โดยเฉพาะในด้านสำคัญๆ เช่น วิทยาศาสตร์ การศึกษา การเขียนโปรแกรม ธุรกิจ และการสนับสนุนการเขียน

ในการทดสอบ AIME 2024 ซึ่งเป็นการทดสอบประเมินความสามารถทางคณิตศาสตร์ของโมเดล o3 pro ทำคะแนนได้สูงกว่าแม้กระทั่ง Gemini 2.5 Pro ซึ่งเป็น AI ระดับสูงสุดของ Google นอกจากนี้ โมเดลนี้ยังทำคะแนนได้เหนือกว่า Claude 4 Opus ของ Anthropic ในการทดสอบความรู้ ทางวิทยาศาสตร์ ระดับปริญญาเอก GPQA Diamond อีกด้วย

นอกจากนี้ o3 pro ยังผสานรวมเครื่องมือต่างๆ ที่ช่วยให้สามารถค้นหาข้อมูลบนเว็บ วิเคราะห์ไฟล์ ใช้ Python สำหรับการคำนวณและการเขียนโปรแกรม และปรับแต่งการตอบสนองโดยใช้ประโยชน์จากหน่วยความจำ เบน ไฮแล็ก แสดงความคิดเห็นเกี่ยวกับแง่มุมนี้ว่า เครื่องมือนี้แสดงให้เห็นถึงความสามารถในการจดจำสภาพแวดล้อมได้อย่างชัดเจน รู้ว่าเมื่อใดควรสอบถามเกี่ยวกับโลกภายนอก (แทนที่จะแสร้งทำเป็นรู้) และเลือกเครื่องมือที่เหมาะสมสำหรับแต่ละงาน

อย่างไรก็ตาม ข้อเสียที่ใหญ่ที่สุดของโมเดลนี้อยู่ที่เวลาตอบสนอง ซึ่งช้ากว่า o1 pro เสียอีก ยูทูบเบอร์ Bijan Bowen เห็นด้วยกับเรื่องนี้ “ถึงแม้การตอบสนองของโมเดลจะค่อนข้างชัดเจน แต่ด้วยประโยคอธิบายเพียงไม่กี่ประโยค เวลาตอบสนองกลับค่อนข้างนาน” เขากล่าว Ben Hylak เสริมว่า โดยเฉพาะในกรณีที่มีข้อมูลภายนอกไม่เพียงพอ โมเดลมีแนวโน้มที่จะคิดมากเกินไป

O3-pro ยังมีข้อจำกัดอื่นๆ อีก เช่น ไม่สามารถสร้างภาพได้ และไม่รองรับฟีเจอร์ Canvas ฟีเจอร์แชทชั่วคราวใน ChatGPT ที่ใช้โมเดลนี้ถูกปิดใช้งานชั่วคราวในขณะที่ OpenAI กำลังแก้ไข "ปัญหาทางเทคนิค" อยู่

อย่างไรก็ตาม ไฮแล็กแย้งว่านี่ไม่ใช่รูปแบบการแชทที่ใช้งานง่ายเหมือน Claude 3.5 Sonnet หรือ ChatGPT 4o เนท บี. โจนส์ หัวหน้าฝ่ายผลิตภัณฑ์ของ Rockerbox แนะนำว่าควรใช้ o3 pro สำหรับงานที่ท้าทายซึ่งต้องใช้เวลาคิด 15-20 นาที

ที่มา: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html