โมเดลภาษาใหม่ของ OpenAI มีพื้นฐานมาจากกรอบงาน GPT-4 ก่อนหน้านี้ แต่ได้รับการขยายและปรับปรุงระหว่างการฝึกอบรม แม้จะไม่ใช่ขั้นสูงที่สุด แต่ GPT-4.5 ก็มีความรู้มากขึ้น ทักษะการเขียนที่ดีขึ้น และบุคลิกภาพที่ดีขึ้นกว่ารุ่นก่อน
ตามข้อมูลเกณฑ์มาตรฐาน GPT-4.5 ถือเป็นการอัปเกรดเล็กน้อยจาก GPT-4 ในการประเมินประสิทธิภาพที่ผ่านการตรวจสอบของ SWE-bench โมเดลดังกล่าวทำได้สำเร็จที่ 38% ซึ่งปรับปรุงขึ้น 2-7% เมื่อเทียบกับ GPT-4 แต่ยังคงต่ำกว่าการเรียนรู้เชิงลึกที่ใช้ o3 ของ OpenAI อยู่ 30% สำหรับการเปรียบเทียบ โมเดล Claude 3.7 Sonnet ของ Anthropic มีประสิทธิภาพ 62.3% ในเกณฑ์มาตรฐานเดียวกัน ในเกณฑ์มาตรฐานความแม่นยำของ SimpleQA GPT-4.5 ได้คะแนน 62.5% เมื่อเทียบกับ GPT-4 ที่ได้ 38.2% อย่างไรก็ตาม จากการประเมินประสิทธิภาพอัตราการหลอนประสาทของ SimpleQA นั้น GPT-4.5 มีคะแนนต่ำที่สุดในบรรดาโมเดลภาษาขนาดใหญ่ของ OpenAI
ตอบสนองมาตรฐานใหม่ของ OpenAI
เมื่อไม่นานนี้ ทีมความพร้อมของ OpenAI ได้พัฒนาเกณฑ์มาตรฐานใหม่ที่เรียกว่า SWE-Lancer เพื่อประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ในงานวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง เช่น การพัฒนาคุณลักษณะและการแก้ไขจุดบกพร่อง ในการประเมินประสิทธิภาพครั้งนี้ GPT-4.5 สามารถแก้ไขงาน IC SWE ได้ 20% และงาน SWE Manager ได้ 44% ซึ่งถือว่าปรับปรุงดีขึ้นเล็กน้อยเมื่อเทียบกับรุ่นก่อนหน้า
ในด้านความปลอดภัย กลุ่มที่ปรึกษาความปลอดภัยของ OpenAI จัดให้ GPT-4.5 มีความเสี่ยงระดับกลาง โดยมีคะแนนต่ำในด้านความปลอดภัยทางไซเบอร์และความเป็นอิสระของโมเดล
ผู้ใช้ ChatGPT Pro สามารถสัมผัสประสบการณ์ตัวอย่างของโมเดล GPT-4.5 ได้แล้วผ่านตัวเลือกโมเดลบนเว็บ มือถือ และเดสก์ท็อป รุ่นนี้รองรับการค้นหา ดาวน์โหลดไฟล์ รูปภาพ และฟีเจอร์แคนวาสบน ChatGPT คุณสมบัติหลายโหมดเช่น โหมดเสียง วิดีโอ และการแชร์หน้าจอจะถูกเพิ่มในอนาคต
GPT-4.5 จะพร้อมใช้งานอย่างเป็นทางการในสัปดาห์หน้าสำหรับผู้ใช้ ChatGPT Plus และ Teams เช่นเดียวกับนักพัฒนาที่ต้องชำระเงินทั้งหมดผ่าน Chat Completions API, Assistants API และ Batch API ซึ่งมีฟีเจอร์ที่โดดเด่น เช่น การเรียกใช้ฟังก์ชัน เอาต์พุตที่มีโครงสร้าง การสตรีม และการส่งข้อความของระบบ
การแสดงความคิดเห็น (0)