ChatGPTs nye inferensmodell

o3 pro skiller seg ut for sin evne til å håndtere komplekse forespørsler. Bilde: OpenAI.

OpenAI har lansert o3 pro i en Pro-pakke til en pris av $200/måned med Team via API. O3 pro er en oppgradert versjon av o3, som ble introdusert for noen måneder siden, og omtales av selskapet som den kraftigste versjonen som er tilgjengelig for øyeblikket.

Alle versjoner med det ekstra ordet «pro» er assosiert med muligheten til å svare på vanskeligere og lengre spørsmål. I motsetning til typiske AI-versjoner behandler resonneringsmodellen problemer trinn for trinn, slik at den kan operere mer stabilt og pålitelig innen felt som fysikk, matematikk og programmering.

«Vi anbefaler å bruke o3-pro for vanskelige spørsmål der pålitelighet er viktigere enn hastighet, og det å vente noen minutter er en verdig avveining», uttalte selskapet. I delte testvurderinger oppnådde o3-pro bedre resultater sammenlignet med o3- og o1-pro-versjonene.

I en kommentar til denne nye modellen sa Ben Hylak, en tidligere Apple-ansatt og medgründer av AI-utviklingsselskapet Raindrop, at den er mye smartere. Han samlet en historikk over alle tidligere møter i selskapet sitt, og ba deretter o3-pro om å lage en plan.

Resultatene var ganske imponerende, spesifikke og tydelig analyserte – akkurat slik han alltid hadde håpet at storskala språkmodellering (LLM) kunne oppnå. Planen inkluderte målmålinger, tidslinjer, prioriteringer og streng veiledning om hva som skulle elimineres helt. «Det var så spesifikt og velbegrunnet at jeg måtte revurdere fremtiden til selskapet mitt», skrev han.

ny resonneringsmodell bilde 1

Resultatene fra o3 pro (venstre) er mer spesifikke og pålitelige. Foto: Ben Hylak/X.

O3-pro koster 20 dollar per million investerte tokens og 80 dollar per million eksporterte tokens når den brukes via API-et. Dette skyldes AI-ens evne til å huske og behandle data. Én million investerte tokens tilsvarer omtrent 750 000 ord, noe som er enda lenger enn boken *Krig og fred* , som The Verge sammenligner.

OpenAI oppgir at eksperter konsekvent rangerer o3 pro høyere enn o3 i alle testede kategorier. Anmeldere gir også o3 pro høyere rangeringer for konsistens i flere kriterier som klarhet, følgelighet og nøyaktighet, spesielt på viktige områder som vitenskap, utdanning , programmering, næringsliv og skrivestøtte.

På AIME 2024, en test som vurderer modellens matematiske evner, scoret o3 pro høyere enn Gemini 2.5 Pro, Googles beste AI. I tillegg overgikk modellen også Anthropics Claude 4 Opus i GPQA Diamond, en vitenskapelig kunnskapstest på doktorgradsnivå.

o3 pro integrerer også verktøy som lar den søke på nettet, analysere filer, bruke Python til beregning og programmering, og tilpasse svar ved å utnytte minne. Ben Hylak kommenterte dette aspektet og bemerket at verktøyet tydelig demonstrerer sin evne til å gjenkjenne omgivelsene sine, vite når man skal spørre om omverdenen (i stedet for å late som man vet), og velge riktig verktøy for hver oppgave.

Modellens største ulempe ligger imidlertid i responstiden, som er enda tregere enn o1 pro. YouTuberen Bijan Bowen er enig i dette. «Selv om modellens respons er ganske tydelig, er responstiden ganske lang innen bare noen få beskrivende setninger», sa han. Spesielt i tilfeller med utilstrekkelige eksterne data har modellen en tendens til å overtenke, la Ben Hylak til.

O3-pro har også noen andre begrensninger, som manglende evne til å lage bilder, samt støtte for Canvas-funksjonen. Den midlertidige chatfunksjonen med denne modellen i ChatGPT er for øyeblikket deaktivert mens OpenAI fikser et «teknisk problem».

Hylak argumenterer imidlertid for at dette ikke er en modell for brukervennlig chat som Claude 3.5 Sonnet eller ChatGPT 4o. Nate B. Jones, produktsjef hos Rockerbox, anbefaler at o3 pro bør brukes til utfordrende oppgaver som krever 15–20 minutters tenketid.

Kilde: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html