Das neue Inferenzmodell von ChatGPT

Das o3 pro zeichnet sich durch seine Fähigkeit aus, komplexe Anfragen zu bearbeiten. Bild: OpenAI.

OpenAI hat o3 pro als Pro-Paket für 200 US-Dollar pro Monat mit Team via API veröffentlicht. o3 pro ist eine verbesserte Version von o3, das vor einigen Monaten vorgestellt wurde, und wird vom Unternehmen als die aktuell leistungsstärkste verfügbare Version beworben.

Alle Versionen mit dem Zusatz „Pro“ zeichnen sich durch die Fähigkeit aus, komplexere und längere Fragen zu beantworten. Im Gegensatz zu typischen KI-Systemen verarbeitet dieses Modell Probleme schrittweise, wodurch es in Bereichen wie Physik, Mathematik und Programmierung stabiler und zuverlässiger arbeitet.

„Wir empfehlen die Verwendung von o3-pro für schwierige Aufgaben, bei denen Zuverlässigkeit wichtiger ist als Geschwindigkeit und ein paar Minuten Wartezeit sich lohnen“, so das Unternehmen. In gemeinsamen Tests erzielte o3-pro im Vergleich zu den Versionen o3 und o1-pro überlegene Ergebnisse.

Ben Hylak, ehemaliger Apple-Mitarbeiter und Mitgründer des KI-Entwicklungsunternehmens Raindrop, kommentierte das neue Modell mit den Worten: „Es ist deutlich intelligenter.“ Er hatte zuvor alle Meetings in seinem Unternehmen dokumentiert und o3-pro anschließend mit der Erstellung eines entsprechenden Plans beauftragt.

Die Ergebnisse waren beeindruckend, präzise und klar analysiert – genau so, wie er es sich von einem groß angelegten Sprachmodellierungsprojekt (LLM) erhofft hatte. Der Plan enthielt Zielvorgaben, Zeitpläne, Prioritäten und klare Vorgaben, was vollständig eliminiert werden sollte. „Er war so detailliert und fundiert, dass ich die Zukunft meines Unternehmens überdenken musste“, schrieb er.

neues Argumentationsmodell, Abbildung 1

Die mit dem o3 pro (links) erzielten Ergebnisse sind spezifischer und zuverlässiger. Foto: Ben Hylak/X.

O3-pro kostet 20 US-Dollar pro investierter Million Token und 80 US-Dollar pro exportierter Million Token bei Nutzung über die API. Dies liegt an der Fähigkeit der KI, Daten zu speichern und zu verarbeiten. Eine Million investierter Token entspricht etwa 750.000 Wörtern, was sogar länger ist als der Roman *Krieg und Frieden* , wie The Verge vergleicht.

OpenAI gibt an, dass Experten o3 pro in allen getesteten Kategorien durchweg besser bewerten als o3. Auch hinsichtlich der Konsistenz in Kriterien wie Verständlichkeit, Nachvollziehbarkeit und Genauigkeit erhält o3 pro von den Rezensenten höhere Bewertungen, insbesondere in Schlüsselbereichen wie Wissenschaft, Bildung , Programmierung, Wirtschaft und Schreibunterstützung.

Im AIME 2024, einem Test zur Bewertung der mathematischen Fähigkeiten des Modells, erzielte das o3 pro sogar ein besseres Ergebnis als das Gemini 2.5 Pro, Googles leistungsstärkste KI. Darüber hinaus übertraf das Modell auch Anthropics Claude 4 Opus im GPQA Diamond, einem wissenschaftlichen Wissenstest auf Doktorandenniveau.

Das o3 pro integriert außerdem Tools, die es ermöglichen, im Web zu suchen, Dateien zu analysieren, Python für Berechnungen und Programmierung zu nutzen und Antworten mithilfe des Speichers zu personalisieren. Ben Hylak merkte dazu an, dass das Tool seine Fähigkeit, die Umgebung zu erkennen, deutlich unter Beweis stellt, indem es weiß, wann es nach der Außenwelt fragen muss (anstatt so zu tun, als ob es Bescheid wüsste) und für jede Aufgabe das passende Werkzeug auswählt.

Der größte Nachteil des Modells liegt jedoch in seiner Reaktionszeit, die sogar noch langsamer ist als die des o1 pro. YouTuber Bijan Bowen bestätigt dies: „Obwohl die Antwort des Modells recht eindeutig ist, ist die Reaktionszeit bei nur wenigen beschreibenden Sätzen ziemlich lang“, sagte er. Insbesondere bei unzureichenden externen Daten neige das Modell dazu, zu viel nachzudenken, fügte Ben Hylak hinzu.

O3-pro weist zudem einige weitere Einschränkungen auf, beispielsweise die fehlende Möglichkeit, Bilder zu erstellen, sowie die fehlende Unterstützung für die Canvas-Funktion. Die temporäre Chat-Funktion dieses Modells in ChatGPT ist derzeit deaktiviert, während OpenAI ein technisches Problem behebt.

Hylak argumentiert jedoch, dass dies kein Modell für benutzerfreundliche Chats wie Claude 3.5 Sonnet oder ChatGPT 4o sei. Nate B. Jones, Produktchef bei Rockerbox, empfiehlt, das o3 pro für anspruchsvolle Aufgaben zu verwenden, die 15-20 Minuten Nachdenken erfordern.

Quelle: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html