El nuevo modelo de lenguaje de OpenAI se basa en el marco GPT-4 anterior, pero se amplía y mejora durante el entrenamiento. Si bien no es el más avanzado, GPT-4.5 cuenta con más conocimientos, habilidades de escritura mejoradas y una personalidad más refinada que su predecesor.
Según los datos de referencia, GPT-4.5 es una mejora modesta con respecto a GPT-4. En el benchmark SWE-bench Verified, el modelo alcanzó un 38%, una mejora del 2-7% sobre GPT-4, pero todavía un 30% más bajo que el aprendizaje profundo basado en o3 de OpenAI. A modo de comparación, el modelo Claude 3.7 Sonnet de Anthropic logra una eficiencia del 62,3 % en el mismo punto de referencia. En la prueba de precisión de SimpleQA, GPT-4.5 obtuvo un puntaje del 62,5%, en comparación con el 38,2% de GPT-4. Sin embargo, en el índice de referencia Hallucination Rate de SimpleQA, GPT-4.5 obtiene el puntaje más bajo entre los modelos de lenguaje grandes de OpenAI.
Cumpliendo con los nuevos estándares de OpenAI
Recientemente, el equipo de Preparación de OpenAI desarrolló un nuevo punto de referencia llamado SWE-Lancer para evaluar el desempeño de modelos de lenguaje grandes en tareas de ingeniería de software del mundo real, como el desarrollo de funciones y la corrección de errores. En este punto de referencia, GPT-4.5 puede resolver el 20% de las tareas de IC SWE y el 44% de las tareas de SWE Manager, una ligera mejora respecto del modelo anterior.
En términos de seguridad, el grupo asesor de seguridad de OpenAI clasificó a GPT-4.5 como de riesgo medio, con puntajes bajos en las áreas de ciberseguridad y autonomía del modelo.
Los usuarios de ChatGPT Pro ahora pueden experimentar una vista previa del modelo GPT-4.5 a través del selector de modelos en la web, dispositivos móviles y computadoras de escritorio. Este modelo admite la búsqueda, descarga de archivos, imágenes y funciones de lienzo en ChatGPT. En el futuro se agregarán funciones multimodales como el modo de voz, video y compartir pantalla.
GPT-4.5 estará disponible oficialmente la próxima semana para los usuarios de ChatGPT Plus y Teams, así como para todos los desarrolladores pagos a través de la API de finalizaciones de chat, la API de asistentes y la API de lotes, con características notables como llamadas de función, salidas estructuradas, transmisión y mensajería del sistema.
Kommentar (0)