El nuevo modelo de inferencia de ChatGPT

El o3 pro destaca por su capacidad para gestionar solicitudes complejas. Imagen: OpenAI.

OpenAI ha lanzado o3 pro en un paquete Pro con un precio de $200 al mes con Team vía API. Esta versión mejorada de o3, presentada hace unos meses, es promocionada por la compañía como la más potente disponible actualmente.

Todas las versiones con la palabra "pro" añadida se asocian con la capacidad de responder preguntas más difíciles y extensas. A diferencia de las versiones típicas de IA, el modelo de razonamiento procesa los problemas paso a paso, lo que le permite operar con mayor estabilidad y fiabilidad en campos como la física, las matemáticas y la programación.

“Recomendamos usar o3-pro para preguntas difíciles donde la fiabilidad es más importante que la velocidad, y esperar unos minutos es una buena compensación”, declaró la compañía. En las pruebas compartidas, o3-pro obtuvo resultados superiores a los de las versiones o3 y o1-pro.

Al comentar sobre este nuevo modelo, Ben Hylak, exempleado de Apple y cofundador de la empresa de desarrollo de IA Raindrop, afirmó que es mucho más inteligente. Recopiló un historial de todas las reuniones previas en su empresa y luego le pidió a o3-pro que creara un plan.

Los resultados fueron impresionantes, específicos y claramente analizados, tal como siempre había esperado que un modelado lingüístico a gran escala (LLM) pudiera lograr. El plan incluía métricas objetivo, plazos, prioridades y una guía estricta sobre qué eliminar por completo. «Era tan específico y bien fundamentado que tuve que replantearme el futuro de mi empresa», escribió.

Nueva imagen del modelo de razonamiento 1

Los resultados obtenidos con o3 pro (izquierda) son más específicos y fiables. Foto: Ben Hylak/X.

O3-pro cuesta $20 por millón de tokens invertidos y $80 por millón de tokens exportados cuando se usa a través de la API. Esto se debe a la capacidad de la IA para memorizar y procesar datos. Un millón de tokens invertidos equivale aproximadamente a 750,000 palabras, incluso más extenso que el libro *Guerra y Paz* , según The Verge .

OpenAI afirma que los expertos califican consistentemente a o3 pro por encima de o3 en todas las categorías evaluadas. Los revisores también otorgan calificaciones más altas a o3 pro por su consistencia en varios criterios, como claridad, facilidad de seguimiento y precisión, especialmente en áreas clave como ciencia, educación , programación, negocios y apoyo a la escritura.

En AIME 2024, una prueba que evalúa las capacidades matemáticas del modelo, el o3 pro obtuvo una puntuación incluso superior a la del Gemini 2.5 Pro, la IA líder de Google. Además, el modelo también superó a Claude 4 Opus de Anthropic en el GPQA Diamond, una prueba de conocimientos científicos de nivel doctoral.

El o3 pro también integra herramientas que le permiten buscar en la web, analizar archivos, usar Python para computación y programación, y personalizar respuestas aprovechando la memoria. Al comentar sobre este aspecto, Ben Hylak señaló que la herramienta demuestra claramente su capacidad para reconocer su entorno, saber cuándo preguntar sobre el mundo exterior (en lugar de fingir saber) y seleccionar la herramienta adecuada para cada tarea.

Sin embargo, la mayor desventaja del modelo reside en su tiempo de respuesta, que es incluso más lento que el del o1 pro. El YouTuber Bijan Bowen coincide con esto. "Aunque la respuesta del modelo es bastante clara, con solo unas pocas frases descriptivas, el tiempo de respuesta es bastante largo", afirmó. Ben Hylak añadió que, especialmente en casos con datos externos insuficientes, el modelo tiende a pensar demasiado.

O3-pro también presenta otras limitaciones, como la imposibilidad de crear imágenes y la compatibilidad con la función Canvas. La función de chat temporal con este modelo en ChatGPT está actualmente deshabilitada mientras OpenAI soluciona un problema técnico.

Sin embargo, Hylak argumenta que este no es un modelo de chat intuitivo como Claude 3.5 Sonnet o ChatGPT 4o. Nate B. Jones, director de producto de Rockerbox, recomienda usar el o3 pro para tareas complejas que requieren entre 15 y 20 minutos de reflexión.

Fuente: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html