Le nouveau modèle de langage d'OpenAI est basé sur le framework GPT-4 précédent, mais est étendu et amélioré pendant la formation. Bien qu'il ne soit pas le plus avancé, GPT-4.5 offre plus de connaissances, des compétences d'écriture améliorées et une personnalité plus raffinée que son prédécesseur.
Selon les données de référence, GPT-4.5 est une mise à niveau modeste par rapport à GPT-4. Sur le benchmark SWE-bench Verified, le modèle a atteint 38 %, soit une amélioration de 2 à 7 % par rapport à GPT-4, mais toujours 30 % de moins que l'apprentissage profond basé sur o3 d'OpenAI. À titre de comparaison, le modèle Claude 3.7 Sonnet d'Anthropic atteint une efficacité de 62,3 % sur le même benchmark. Lors du test de précision de SimpleQA, GPT-4.5 a obtenu un score de 62,5 %, contre 38,2 % pour GPT-4. Cependant, sur le benchmark Hallucination Rate de SimpleQA, GPT-4.5 obtient le score le plus bas parmi les grands modèles de langage d'OpenAI.
Répondre aux nouvelles normes d'OpenAI
Récemment, l'équipe de préparation d'OpenAI a développé un nouveau benchmark appelé SWE-Lancer pour évaluer les performances de grands modèles de langage sur des tâches d'ingénierie logicielle réelles telles que le développement de fonctionnalités et la correction de bogues. Dans ce benchmark, GPT-4.5 peut résoudre 20 % des tâches IC SWE et 44 % des tâches SWE Manager, une légère amélioration par rapport au modèle précédent.
En termes de sécurité, le groupe consultatif de sécurité d'OpenAI a classé GPT-4.5 comme présentant un risque moyen, avec de faibles scores dans les domaines de la cybersécurité et de l'autonomie du modèle.
Les utilisateurs de ChatGPT Pro peuvent désormais découvrir un aperçu du modèle GPT-4.5 via le sélecteur de modèles sur le Web, le mobile et le bureau. Ce modèle prend en charge la recherche, le téléchargement de fichiers, d'images et les fonctionnalités de canevas sur ChatGPT. Des fonctionnalités multimodales telles que le mode vocal, la vidéo et le partage d'écran seront ajoutées à l'avenir.
GPT-4.5 sera officiellement disponible la semaine prochaine pour les utilisateurs de ChatGPT Plus et Teams, ainsi que pour tous les développeurs payants via l'API Chat Completions, l'API Assistants et l'API Batch, avec des fonctionnalités notables telles que les appels de fonctions, les sorties structurées, le streaming et la messagerie système.
Comment (0)