o3 pro destaca por su capacidad para gestionar solicitudes complejas. Foto: OpenAI. |
OpenAI ha lanzado o3 pro en su paquete Pro por $200 al mes y Team vía API. Una versión mejorada del o3 presentado hace unos meses, o3 pro es considerado por la compañía como el más potente hasta la fecha.
Todas las versiones con la etiqueta "pro" estarán asociadas con la capacidad de responder preguntas más difíciles y extensas. A diferencia de las versiones convencionales de IA, los modelos de inferencia resuelven problemas paso a paso, lo que les permite trabajar con mayor fiabilidad y consistencia en áreas como la física, las matemáticas y la programación.
“Recomendamos el o3-pro para preguntas difíciles donde la fiabilidad es más importante que la velocidad, y la espera de unos minutos compensa el sacrificio”, afirmó la compañía. En las pruebas compartidas, el o3-pro superó a las versiones o3 y o1-pro.
Ben Hylak, exempleado de Apple y cofundador de la startup de IA Raindrop, afirmó que el nuevo modelo es mucho más inteligente. Recopiló un historial de todas las reuniones previas en su empresa y luego le pidió a o3-pro que creara un plan.
Los resultados fueron impresionantes, tan específicos y analíticos como esperaba que fuera un modelo lingüístico extenso (LLM). El plan incluía métricas objetivo, plazos, prioridades e instrucciones estrictas sobre qué eliminar por completo. «Era tan específico y fundamentado que tuve que replantearme el futuro de mi empresa», escribe.
Los resultados del o3 pro (izquierda) son más específicos y sólidos. Foto: Ben Hylak/X. |
O3-pro cuesta $20 por millón de tokens de entrada y $80 por millón de tokens de salida cuando se usa a través de la API. Esta es la capacidad de la IA para recordar y procesar datos. Un millón de tokens de entrada equivale a unas 750,000 palabras, una extensión superior a la del libro "Guerra yPaz" de The Verge .
OpenAI afirma que los expertos otorgaron sistemáticamente al o3 pro una calificación superior a la del o3 en todas las categorías evaluadas. Los evaluadores también otorgaron al o3 pro una calificación superior por su consistencia en diversos criterios, como la claridad, la facilidad para seguir instrucciones y la precisión, especialmente en áreas clave como ciencia, educación , programación, negocios y apoyo a la escritura.
En AIME 2024, una prueba que evalúa las habilidades matemáticas de un modelo, el o3 pro obtuvo una puntuación superior a la de Gemini 2.5 Pro, la IA insignia de Google. Además, el modelo también superó a Claude 4 Opus de Anthropic en GPQA Diamond, una prueba de conocimientos científicos de nivel doctoral.
o3 pro también incluye herramientas integradas que permiten buscar en la web, analizar archivos, usar Python para cálculos y programación, y personalizar respuestas aprovechando la memoria. Al respecto, Ben Hylak afirmó que la herramienta demuestra claramente su capacidad para reconocer el entorno, saber cuándo preguntar sobre el mundo exterior (en lugar de fingir saber) y elegir la herramienta adecuada para cada tarea.
Sin embargo, la mayor desventaja del modelo es su tiempo de respuesta, que es incluso más lento que el del o1 pro. El YouTuber Bijan Bowen coincide. «Aunque la respuesta del modelo es bastante clara, en tan solo unas pocas frases de descripción, el tiempo de respuesta es bastante largo», afirmó. Ben Hylak añadió que, especialmente cuando no hay suficientes datos externos, el modelo tiende a pensar de forma aleatoria.
El O3-pro también presenta otras limitaciones, como la imposibilidad de generar imágenes y la compatibilidad con la función Canvas. La función de chat temporal de ChatGPT con este modelo está actualmente deshabilitada mientras OpenAI soluciona un problema técnico.
Sin embargo, el Sr. Hylak afirmó que este no es un modelo para que los usuarios chateen como Claude 3.5 Sonnet o ChatGPT 4o. Nate B. Jones, director de producto de Rockerbox, aconsejó que o3 pro se use para tareas difíciles que requieren de 15 a 20 minutos de reflexión.
Fuente: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html
Kommentar (0)