Le chatbot d'OpenAI continue de s'améliorer grâce aux nouvelles technologies. Photo : New York Times . |
En septembre 2024, OpenAI a publié une version de ChatGPT qui intègre le modèle o1, capable de raisonner sur des tâches liées aux mathématiques, aux sciences et à la programmation informatique.
Contrairement à la version précédente de ChatGPT, la nouvelle technologie prendra le temps de « réfléchir » aux solutions des problèmes complexes avant de donner une réponse.
Après OpenAI, de nombreux concurrents tels que Google, Anthropic et DeepSeek ont également introduit des modèles de raisonnement similaires. Bien que perfectible, cette technologie d'amélioration des chatbots reste très appréciée des développeurs.
Comment l'IA raisonne
En clair, le raisonnement permet au chatbot de consacrer plus de temps à résoudre le problème posé par l'utilisateur.
« Le raisonnement est la manière dont le système effectue un travail supplémentaire après avoir reçu une question », a déclaré Dan Klein, professeur d'informatique à l'Université de Californie, au New York Times .
Le système de raisonnement peut décomposer un problème en étapes individuelles ou le résoudre par essais et erreurs.
À son lancement, ChatGPT pouvait répondre instantanément aux questions en extrayant et en synthétisant les informations. En revanche, le système de raisonnement nécessitait quelques secondes (voire quelques minutes) supplémentaires pour résoudre le problème et fournir une réponse.
![]() |
Exemple du processus de raisonnement du modèle o1 dans un chatbot de service client. Photo : OpenAI . |
Dans certains cas, le système de raisonnement modifie son approche du problème, améliorant ainsi continuellement la solution. Il peut également essayer plusieurs solutions avant de retenir la solution optimale, ou encore tester la pertinence des réponses précédentes.
En général, le système de raisonnement prendra en compte toutes les réponses possibles à la question. C'est un peu comme si un élève de primaire notait plusieurs réponses possibles sur une feuille de papier avant de choisir la méthode la plus appropriée pour résoudre un problème de mathématiques.
D'après le New York Times , l'IA est désormais capable de raisonner sur n'importe quel sujet. Cependant, elle sera particulièrement performante pour les questions liées aux mathématiques, aux sciences et à la programmation informatique.
Comment le système théorique est-il entraîné ?
Dans un chatbot classique, les utilisateurs peuvent toujours demander une explication du processus ou vérifier l'exactitude d'une réponse. De fait, de nombreux jeux de données d'entraînement de ChatGPT intègrent déjà un processus de résolution de problèmes.
Un système de raisonnement va encore plus loin lorsqu'il peut exécuter une action sans que l'utilisateur n'ait à le lui demander. Le processus est alors plus complexe et d'une portée bien plus grande. Les entreprises utilisent le terme « raisonnement » car le système fonctionne de manière similaire à la pensée humaine.
De nombreuses entreprises, comme OpenAI, misent sur les systèmes de raisonnement pour améliorer les chatbots. Pendant des années, elles ont cru que les chatbots seraient plus performants s'ils étaient entraînés avec le maximum d'informations disponibles sur Internet.
D’ici 2024, les systèmes d’IA auront traité la quasi-totalité des textes disponibles sur Internet. Les entreprises devront donc trouver de nouvelles solutions pour moderniser leurs chatbots, notamment en intégrant des systèmes de raisonnement.
![]() |
La start-up DeepSeek avait fait sensation avec un modèle de raisonnement moins cher que celui d'OpenAI. Photo : Bloomberg . |
Depuis l'année dernière, des entreprises comme OpenAI se sont concentrées sur une technique appelée apprentissage par renforcement, un processus qui prend généralement plusieurs mois et dans lequel l'IA apprend un comportement par essais et erreurs.
Par exemple, en résolvant des milliers de problèmes, le système peut apprendre la méthode optimale pour trouver la bonne réponse. À partir de là, les chercheurs ont conçu des mécanismes de rétroaction complexes qui aident le système à distinguer les solutions correctes des solutions incorrectes.
« C’est comme dresser un chien. S’il se comporte bien, on le récompense. S’il se comporte mal, on lui dit : “Ce chien est méchant” », a déclaré Jerry Tworek, chercheur chez OpenAI.
L'IA est-elle l'avenir ?
Selon le New York Times , l'apprentissage par renforcement fonctionne bien avec les questions de mathématiques, de sciences et de programmation informatique, où les réponses justes ou fausses sont clairement définies.
En revanche, l'apprentissage par renforcement est moins efficace en écriture créative, en philosophie ou en éthique, domaines où il est difficile de distinguer le bien du mal. Cependant, les chercheurs affirment que cette technique peut tout de même améliorer les performances de l'IA, même sur des questions qui ne relèvent pas des mathématiques.
« Les systèmes apprendront les voies qui mènent à des résultats positifs et négatifs », a déclaré Jared Kaplan, directeur scientifique d'Anthropic.
![]() |
Site web d'Anthropic, la start-up propriétaire du modèle d'IA Claude. Photo : Bloomberg . |
Il est important de noter que l'apprentissage par renforcement et les systèmes de raisonnement sont deux concepts différents. Plus précisément, l'apprentissage par renforcement est une méthode de construction de systèmes de raisonnement. Il s'agit de la dernière étape d'entraînement permettant aux chatbots d'acquérir des capacités de raisonnement.
Étant donné leur relative nouveauté, les scientifiques ne peuvent affirmer avec certitude que les chatbots raisonneurs ou l'apprentissage par renforcement permettront à l'IA de penser comme les humains. Il est important de noter que de nombreuses tendances actuelles en matière d'entraînement de l'IA connaissent un développement très rapide à leurs débuts, avant de se stabiliser progressivement.
De plus, même les chatbots raisonneurs peuvent commettre des erreurs. En se basant sur les probabilités, le système choisira le processus le plus proche des données qu'il a apprises, qu'elles proviennent d'Internet ou de l'apprentissage par renforcement. Par conséquent, les chatbots peuvent toujours opter pour une solution erronée ou inadaptée.
Source : https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html













Comment (0)