En conséquence, même la configuration de modèle d'intelligence artificielle la plus performante qu'ils ont testée, le GPT-4-Turbo d'OpenAI, n'a atteint qu'un taux de réponse correcte de 79 % malgré la lecture de l'intégralité du profil et des « hallucinations » fréquentes de figures ou d'événements irréels.
« Un tel taux de performance est totalement inacceptable », a déclaré Anand Kannappan, cofondateur de Patronus AI. « Le taux de réponses correctes doit être bien plus élevé pour être automatisé et prêt pour la production. »
Les résultats mettent en évidence certains des défis auxquels sont confrontés les modèles d’IA alors que les grandes entreprises, en particulier dans les secteurs fortement réglementés comme la finance, cherchent à intégrer des technologies de pointe dans leurs opérations, que ce soit dans le service client ou la recherche.
« Illusion » des données financières
La capacité d’extraire rapidement des chiffres clés et d’effectuer des analyses d’états financiers est considérée comme l’une des applications les plus prometteuses pour les chatbots depuis la sortie de ChatGPT à la fin de l’année dernière.
Les documents déposés auprès de la SEC contiennent des données importantes, et si un bot peut résumer avec précision ou répondre rapidement aux questions sur leur contenu, cela pourrait donner aux utilisateurs un avantage dans le secteur financier concurrentiel.
Au cours de l’année écoulée, Bloomberg LP a développé son propre modèle d’IA pour les données financières, et les professeurs d’école de commerce ont étudié si ChatGPT pouvait analyser les gros titres financiers.
Parallèlement, JPMorgan développe également un outil d'investissement automatisé basé sur l'IA. Selon une récente prévision de McKinsey, l'IA générative pourrait dynamiser le secteur bancaire de plusieurs milliers de milliards de dollars par an.
Mais il reste encore beaucoup à faire. Lorsque Microsoft a lancé Bing Chat avec le GPT d'OpenAI, la société a utilisé le chatbot pour résumer rapidement les communiqués de presse sur les résultats. Les observateurs ont rapidement constaté que les chiffres fournis par l'IA étaient faussés, voire inventés.
Mêmes données, réponses différentes
L'intégration du LLM dans des produits concrets présente une difficulté particulière : les algorithmes sont non déterministes, ce qui signifie qu'ils ne garantissent pas des résultats identiques avec les mêmes données. Les entreprises doivent donc effectuer des tests plus rigoureux pour garantir le bon fonctionnement de l'IA, sa cohérence et la fiabilité de ses résultats.
Patronus AI a créé un ensemble de plus de 10 000 questions et réponses, appelé FinanceBench, tiré des documents déposés auprès de la SEC par de grandes sociétés cotées en bourse. Cet ensemble de données inclut les bonnes réponses ainsi que leur emplacement exact dans chaque fichier.
Toutes les réponses ne peuvent pas être tirées directement du texte et certaines questions nécessitent des calculs ou un raisonnement léger.
Le test de sous-ensemble de 150 questions impliquait quatre modèles LLM : GPT-4 et GPT-4-Turbo d'OpenAI, Claude 2 d'Anthropic et Llama 2 de Meta.
En conséquence, GPT-4-Turbo, lorsqu'il a eu accès aux documents SEC sous-jacents, n'a atteint qu'un taux de précision de 85 % (contre 88 % de réponses incorrectes lorsqu'il n'a pas eu accès aux données), malgré la présence d'un pointeur de souris humain sur le texte exact pour que l'IA trouve la réponse.
Llama 2, un modèle d’IA open source développé par Meta, a présenté le plus grand nombre d’« hallucinations », répondant incorrectement dans 70 % des cas et correctement dans seulement 19 % des cas lorsqu’il avait accès à une partie des documents sous-jacents.
Le logiciel Claude 2 d'Anthropic a obtenu de bons résultats dans un contexte détaillé, où la quasi-totalité du document pertinent déposé auprès de la SEC était jointe à la question. Il a pu répondre à 75 % des questions, avec des erreurs dans 21 % des cas et des refus de réponse dans 3 % des cas. GPT-4-Turbo a également obtenu de bons résultats dans un contexte détaillé, avec des réponses correctes dans 79 % des cas et des erreurs dans 17 % des cas.
(Selon CNBC)
La course des Big Tech pour investir dans les startups d'IA
La technologie de l'IA révolutionne les startups du commerce électronique
L'IA transforme avec succès, pour la première fois, les pensées humaines en images réalistes
Source
Comment (0)