Les deux nouveaux modèles ChatGPT ont une fréquence de fabrication d'informations plus élevée que la génération précédente. Photo : Fireflies . |
Deux jours seulement après l'annonce de GPT-4.1, OpenAI a officiellement publié non pas un, mais deux nouveaux modèles, appelés o3 et o4-mini. Ces deux modèles présentent des capacités d'inférence supérieures et plusieurs améliorations majeures.
Cependant, selon TechCrunch , ces deux nouveaux modèles souffrent encore d'« hallucination » ou de fabrication d'informations. En fait, ils souffrent davantage d'« hallucination » que certains des anciens modèles d'OpenAI.
Selon IBM, les hallucinations surviennent lorsqu'un grand modèle de langage (LLM) — généralement un chatbot ou un outil de vision par ordinateur — reçoit des modèles de données qui n'existent pas ou qui sont méconnaissables pour les humains, ce qui donne des résultats dénués de sens ou trompeurs.
En d'autres termes, les utilisateurs demandent souvent à l'IA de produire des résultats précis, basés sur les données d'entraînement. Cependant, dans certains cas, les résultats de l'IA ne reposent pas sur des données précises, ce qui crée des réponses « illusoires ».
Dans son dernier rapport, OpenAI a constaté qu'o3 avait « halluciné » en répondant à 33 % des questions sur PersonQA, la référence interne de l'entreprise pour mesurer la précision des connaissances d'un modèle sur les humains.
À titre de comparaison, ce taux est deux fois supérieur à celui des précédents modèles de raisonnement d'OpenAI, o1 et o3-mini, qui souffraient respectivement de 16 % et 14,8 % du temps. Le modèle O4-mini, quant à lui, obtenait des résultats encore pires sur PersonQA, avec 48 % de cas d'hallucinations.
Plus inquiétant encore, le « père de ChatGPT » ignore précisément pourquoi cela se produit. Plus précisément, dans le rapport technique sur o3 et o4-mini, OpenAI écrit que « des recherches supplémentaires sont nécessaires pour comprendre pourquoi l'illusion s'aggrave » à mesure que les modèles de raisonnement évoluent.
Les modèles o3 et o4-mini ont obtenu de meilleurs résultats dans certains domaines, notamment en programmation et en mathématiques. Cependant, comme ils devaient « formuler davantage d'affirmations que généraliser », les deux modèles ont eu du mal à produire « davantage d'affirmations correctes, mais aussi davantage d'affirmations incorrectes ».
Source : https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html
Comment (0)