Agent IA et la révolution de l'« Internet des drones »

Les agents IA sont considérés comme la prochaine avancée en matière d’IA, promettant de changer complètement la façon dont les gens interagissent avec Internet.

Ces derniers jours, l'agent IA chinois Manus a suscité l'intérêt de la communauté technologique mondiale . Selon son développeur, l'outil peut effectuer des tâches complexes telles que l'analyse des profils de candidats, la planification d'itinéraires de voyage et l'analyse boursière lorsque les utilisateurs donnent des instructions de base.

Avant le lancement d'AI Agent par Manus, OpenAI, géant américain de l'IA, avait présenté Operator aux utilisateurs de ChatGPT Pro aux États-Unis. Selon OpenAI, cet agent IA peut effectuer des tâches simples pour son propriétaire dans un navigateur, comme réserver des billets de concert ou passer des commandes en ligne.

Operator repose sur un nouveau modèle appelé Computer-Using Agent (CUA), basé sur le grand modèle de langage multimodal GPT-4o. Yash Kumar, chercheur chez OpenAI, admet qu'il en est encore à ses débuts et qu'il présente encore des lacunes.

Comme d'autres agents d'IA, Operator prend une capture d'écran de l'écran de l'ordinateur et analyse les pixels pour déterminer les actions à entreprendre. CUA, le modèle qui le sous-tend, est entraîné à interagir avec des interfaces graphiques telles que des boutons, des menus et des boîtes de dialogue textuelles, familiers aux humains.

Selon Reiichiro Nakano, un autre scientifique d'OpenAI, les modèles traditionnels utilisent des logiciels via des API (interfaces de programmation d'applications) spécialisées, ce qui entraîne de nombreuses limitations.

CUA décompose également les tâches en étapes plus petites et tente de les réaliser une par une, tout en revenant au début en cas de problème. Actuellement, Operator ne peut effectuer certaines opérations que dans son propre navigateur.

OpenAI prévoit d'étendre les capacités de CUA à l'avenir via une API (interface de programmation d'application) qui permet aux développeurs d'écrire leurs propres applications basées sur celle-ci.

OpenAI a également testé la sécurité de CUA, en utilisant une équipe rouge pour déterminer ce qui se passerait si un utilisateur demandait à l'agent IA d'effectuer des tâches inacceptables (comme la production d'armes biologiques).

Le journaliste du New York Times Kevin Roose a demandé à Operator de faire un certain nombre de choses pour lui, notamment commander des boules de glace via Amazon, acheter un nouveau nom de domaine et le reconfigurer, réserver un restaurant pour le 14 février et planifier une coupe de cheveux.

L'auteur a commenté que l'agent IA a fait la plupart du travail tout seul, mais qu'il a parfois dû le « sauver » après quelques tentatives infructueuses.

Roose décrit l'opérateur comme ressemblant à un ChatGPT classique, sauf que lorsqu'il reçoit une tâche, l'agent IA ouvre une mini fenêtre de navigateur, tape Amazon.com dans la barre d'adresse et commence à cliquer pour agir.

Au cours du processus, il posera quelques questions pour clarifier les intentions du propriétaire telles que le délai de livraison... Après s'être assuré que le bon choix est fait, il envoie une confirmation finale, met l'article dans le panier et procède à la passation de la commande.

Le point le plus important ici est que l’utilisateur n’a pas besoin de le surveiller car il fonctionne en arrière-plan.

Cependant, l'opérateur a également échoué à d'autres missions car il a été bloqué sur certains sites Web comme Reddit, YouTube ou a échoué au test CAPTCHA.

Actuellement, il n’existe pas de définition « standard » de l’agent IA, mais selon Rudina Seseri, fondatrice et directrice de la société de capital-risque Glasswing, l’agent IA est un système logiciel intelligent, conçu pour comprendre l’environnement opérationnel, raisonner, prendre des décisions et agir pour atteindre des objectifs automatiquement.

AI Agent utilise de nombreuses techniques d'IA/ML pour y parvenir, telles que le traitement du langage naturel, l'apprentissage automatique et la vision par ordinateur.

Aaron Levie, fondateur et PDG de Box, souligne qu'au fil du temps, à mesure que l'IA deviendra plus performante, les agents IA seront en mesure de faire plus de travail pour les humains.

Jared Spataro, directeur marketing de l'IA au travail chez Microsoft, considère les agents IA comme de « nouvelles applications dans un monde axé sur l'IA ». Ils ajoutent de nouvelles fonctionnalités pour répondre aux « principaux points faibles » de chaque individu sur le lieu de travail et générer des résultats concrets.

Les agents IA exploitent pleinement la puissance de l'IA générative en assistant non seulement les humains, mais aussi en travaillant avec eux ou en leur nom. Selon IBM, les agents IA agissent en fonction des informations qu'ils reçoivent.

Comme il ne dispose pas d'une base de connaissances complète pour gérer chaque tâche, il utilisera les outils disponibles, notamment des ensembles de données externes, des recherches Web, des API ou même d'autres agents d'IA.

Après avoir collecté les informations manquantes, l'agent actualisera ses connaissances. Cela signifie qu'à chaque étape, il réévaluera son plan d'action et l'ajustera.

Il est trop tôt pour dire si les agents d'IA représentent une menace pour les humains. Mais on imagine aisément un avenir proche où une grande partie du web sera peuplée de robots communiquant entre eux, effectuant des achats et écrivant des e-mails au nom de leurs propriétaires.

Un « Internet sans drones » devient peu à peu une réalité, alors « cliquez tant que vous le pouvez », conclut Roose, chroniqueur du New York Times.

Source : https://vietnamnet.vn/ai-agent-va-cuoc-cach-mang-internet-khong-nguoi-lai-2379590.html