Το νέο μοντέλο συμπερασμάτων του ChatGPT

Το o3 pro ξεχωρίζει για την ικανότητά του να χειρίζεται πολύπλοκα αιτήματα. Εικόνα: OpenAI.

Η OpenAI κυκλοφόρησε το o3 pro σε πακέτο Pro με τιμή 200$/μήνα με την Team μέσω API. Το o3 pro, μια αναβαθμισμένη έκδοση του o3, η οποία κυκλοφόρησε πριν από μερικούς μήνες, διαφημίζεται από την εταιρεία ως η πιο ισχυρή έκδοση που διατίθεται αυτήν τη στιγμή.

Όλες οι εκδόσεις με την προσθήκη της λέξης "pro" σχετίζονται με την ικανότητα απάντησης σε πιο δύσκολες και μεγαλύτερες ερωτήσεις. Σε αντίθεση με τις τυπικές εκδόσεις Τεχνητής Νοημοσύνης, το μοντέλο συλλογισμού επεξεργάζεται τα προβλήματα βήμα προς βήμα, επιτρέποντάς του να λειτουργεί πιο σταθερά και αξιόπιστα σε τομείς όπως η φυσική, τα μαθηματικά και ο προγραμματισμός.

«Συνιστούμε τη χρήση του o3-pro για δύσκολες ερωτήσεις όπου η αξιοπιστία είναι πιο σημαντική από την ταχύτητα και η αναμονή μερικών λεπτών είναι ένας αξιόλογος συμβιβασμός», δήλωσε η εταιρεία. Σε κοινές αξιολογήσεις δοκιμών, το o3-pro πέτυχε ανώτερα αποτελέσματα σε σύγκριση με τις εκδόσεις o3 και o1-pro.

Σχολιάζοντας αυτό το νέο μοντέλο, ο Ben Hylak, πρώην υπάλληλος της Apple και συνιδρυτής της εταιρείας ανάπτυξης τεχνητής νοημοσύνης Raindrop, είπε ότι είναι πολύ πιο έξυπνο. Συνέταξε ένα ιστορικό όλων των προηγούμενων συναντήσεων στην εταιρεία του και στη συνέχεια ζήτησε από την o3-pro να δημιουργήσει ένα σχέδιο.

Τα αποτελέσματα ήταν αρκετά εντυπωσιακά, συγκεκριμένα και σαφώς αναλυμένα—ακριβώς όπως ήλπιζε πάντα ότι θα μπορούσε να επιτύχει μια μεγάλης κλίμακας μοντελοποίηση γλωσσών (LLM). Το σχέδιο περιελάμβανε μετρήσεις-στόχους, χρονοδιαγράμματα, προτεραιότητες και αυστηρή καθοδήγηση σχετικά με το τι έπρεπε να εξαλειφθεί εντελώς. «Ήταν τόσο συγκεκριμένο και τεκμηριωμένο που έπρεπε να επανεξετάσω το μέλλον της εταιρείας μου», έγραψε.

νέα εικόνα μοντέλου συλλογισμού 1

Τα αποτελέσματα που ελήφθησαν από το o3 pro (αριστερά) είναι πιο συγκεκριμένα και αξιόπιστα. Φωτογραφία: Ben Hylak/X.

Το O3-pro κοστίζει 20 δολάρια ανά εκατομμύριο tokens που επενδύονται και 80 δολάρια ανά εκατομμύριο tokens που εξάγονται όταν χρησιμοποιείται μέσω του API. Αυτό οφείλεται στην ικανότητα της τεχνητής νοημοσύνης να απομνημονεύει και να επεξεργάζεται δεδομένα. Ένα εκατομμύριο tokens που επενδύονται ισοδυναμεί με περίπου 750.000 λέξεις, που είναι ακόμη μεγαλύτερο από το βιβλίο *Πόλεμος και Ειρήνη* , όπως συγκρίνει το The Verge .

Το OpenAI δηλώνει ότι οι ειδικοί αξιολογούν σταθερά το o3 pro υψηλότερα από το o3 σε κάθε κατηγορία που ελέγχθηκε. Οι κριτικοί δίνουν επίσης στο o3 pro υψηλότερες αξιολογήσεις για συνέπεια σε διάφορα κριτήρια, όπως η σαφήνεια, η δυνατότητα παρακολούθησης και η ακρίβεια, ιδιαίτερα σε βασικούς τομείς όπως η επιστήμη, η εκπαίδευση , ο προγραμματισμός, οι επιχειρήσεις και η υποστήριξη γραφής.

Στο AIME 2024, μια δοκιμή που αξιολογούσε τις μαθηματικές δυνατότητες του μοντέλου, το o3 pro σημείωσε υψηλότερη βαθμολογία ακόμη και από το Gemini 2.5 Pro, την κορυφαία τεχνητή νοημοσύνη της Google. Επιπλέον, το μοντέλο ξεπέρασε επίσης το Claude 4 Opus της Anthropic στο GPQA Diamond, μια δοκιμή επιστημονικής γνώσης διδακτορικού επιπέδου.

Το o3 pro ενσωματώνει επίσης εργαλεία που του επιτρέπουν να κάνει αναζήτηση στο διαδίκτυο, να αναλύει αρχεία, να χρησιμοποιεί Python για υπολογισμούς και προγραμματισμό και να εξατομικεύει απαντήσεις αξιοποιώντας τη μνήμη. Σχολιάζοντας αυτή την πτυχή, ο Ben Hylak σημείωσε ότι το εργαλείο καταδεικνύει σαφώς την ικανότητά του να αναγνωρίζει το περιβάλλον του, να γνωρίζει πότε να ρωτάει για τον έξω κόσμο (αντί να προσποιείται ότι γνωρίζει) και να επιλέγει το σωστό εργαλείο για κάθε εργασία.

Ωστόσο, το μεγαλύτερο μειονέκτημα του μοντέλου έγκειται στον χρόνο απόκρισης, ο οποίος είναι ακόμη πιο αργός από αυτόν του o1 pro. Ο YouTuber Bijan Bowen συμφωνεί με αυτό. «Παρόλο που η απόκριση του μοντέλου είναι αρκετά σαφής, μέσα σε λίγες μόνο περιγραφικές προτάσεις, ο χρόνος απόκρισης είναι αρκετά μεγάλος», είπε. Ειδικά σε περιπτώσεις με ανεπαρκή εξωτερικά δεδομένα, το μοντέλο τείνει να υπεραναλύει, πρόσθεσε ο Ben Hylak.

Το O3-pro έχει επίσης κάποιους άλλους περιορισμούς, όπως η αδυναμία δημιουργίας εικόνων, καθώς και η υποστήριξη για τη λειτουργία Canvas. Η προσωρινή λειτουργία συνομιλίας με αυτό το μοντέλο στο ChatGPT είναι προς το παρόν απενεργοποιημένη, ενώ το OpenAI διορθώνει ένα «τεχνικό πρόβλημα».

Ωστόσο, ο Hylak υποστηρίζει ότι αυτό δεν είναι ένα μοντέλο για φιλική προς το χρήστη συνομιλία όπως το Claude 3.5 Sonnet ή το ChatGPT 4o. Ο Nate B. Jones, επικεφαλής προϊόντων στην Rockerbox, συμβουλεύει ότι το o3 pro θα πρέπει να χρησιμοποιείται για απαιτητικές εργασίες που απαιτούν 15-20 λεπτά σκέψης.

Πηγή: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html