Par conséquent, même la configuration de modèle d'intelligence artificielle la plus performante qu'ils ont testée, GPT-4-Turbo d'OpenAI, n'a atteint qu'un taux de réponses correctes de 79 %, malgré la lecture du profil complet et les fréquentes « hallucinations » de chiffres ou d'événements irréels.

« Ce niveau de performance est totalement inacceptable », a déclaré Anand Kannappan, cofondateur de Patronus AI. « Le taux de réponses correctes doit être bien plus élevé pour que le système soit automatisé et prêt pour la production. »

Ces résultats mettent en lumière certains des défis auxquels sont confrontés les modèles d'IA alors que les grandes entreprises, notamment dans les secteurs fortement réglementés comme la finance, cherchent à intégrer des technologies de pointe dans leurs opérations, que ce soit au niveau du service client ou de la recherche.

« Illusion » des données financières

La capacité à extraire rapidement des chiffres clés et à effectuer une analyse des états financiers est considérée comme l'une des applications les plus prometteuses des chatbots depuis la sortie de ChatGPT à la fin de l'année dernière.

Les documents déposés auprès de la SEC contiennent des données importantes, et si un robot peut les résumer avec précision ou répondre rapidement aux questions concernant leur contenu, cela pourrait donner aux utilisateurs un avantage concurrentiel dans le secteur financier.

llm image 100941414 large.jpg
L'IA rencontre des difficultés dès l'étape de la synthèse des données – la tâche où elle est censée être la plus utile aux humains.

Au cours de l'année écoulée, Bloomberg LP a développé son propre modèle d'IA pour les données financières, et des professeurs d'écoles de commerce ont étudié si ChatGPT pouvait analyser les gros titres financiers.

Parallèlement, JPMorgan développe également un outil d'investissement automatisé basé sur l'IA. Selon une étude récente de McKinsey, l'IA générative pourrait accroître le chiffre d'affaires du secteur bancaire de plusieurs milliers de milliards de dollars par an.

Mais le chemin est encore long. Lors du lancement de Bing Chat avec GPT d'OpenAI, Microsoft a utilisé le chatbot pour résumer rapidement les communiqués de presse sur les résultats financiers. Les observateurs ont rapidement constaté que les chiffres fournis par l'IA étaient faussés, voire falsifiés.

Mêmes données, réponses différentes

L'un des défis liés à l'intégration de l'apprentissage automatique dans les produits concrets réside dans le caractère non déterministe des algorithmes : leurs résultats ne sont pas garantis pour des données d'entrée identiques. Par conséquent, les entreprises doivent mener des tests plus rigoureux afin de s'assurer du bon fonctionnement de l'IA, de sa pertinence et de la fiabilité des résultats obtenus.

Patronus AI a créé FinanceBench, un ensemble de plus de 10 000 questions et réponses extraites des documents déposés auprès de la SEC par de grandes sociétés cotées en bourse. Cet ensemble de données comprend les réponses correctes ainsi que leur emplacement exact dans chaque fichier.

Toutes les réponses ne se trouvent pas directement dans le texte et certaines questions nécessitent des calculs ou un raisonnement simple.

Le test sur un sous-ensemble de 150 questions impliquait quatre modèles LLM : GPT-4 et GPT-4-Turbo d’OpenAI, Claude 2 d’Anthropic et Llama 2 de Meta.

En conséquence, GPT-4-Turbo, lorsqu'il a eu accès aux documents déposés auprès de la SEC, n'a atteint qu'un taux de précision de 85 % (contre 88 % de réponses incorrectes lorsqu'il n'avait pas accès aux données), malgré la présence d'un pointeur de souris humain pointant vers le texte exact pour que l'IA trouve la réponse.

Llama 2, un modèle d'IA open-source développé par Meta, a enregistré le plus grand nombre d'« hallucinations », répondant incorrectement dans 70 % des cas et correctement seulement dans 19 % des cas lorsqu'il avait accès à une partie des documents sous-jacents.

Claude 2 d'Anthropic a obtenu de bons résultats avec un contexte détaillé, incluant la quasi-totalité du document SEC pertinent avec la question. Il a pu répondre correctement à 75 % des questions posées, avec 21 % de réponses incorrectes et 3 % d'absence de réponse. GPT-4-Turbo a également obtenu de bons résultats avec un contexte détaillé, répondant correctement à 79 % des questions et 17 % de réponses incorrectes.

(Selon CNBC)

La course des géants de la tech pour investir dans les startups en IA

La course des géants de la tech pour investir dans les startups en IA

L’avènement de l’intelligence artificielle a bouleversé le monde de la technologie, mais une chose demeure inchangée : les géants de la tech détiennent toujours un pouvoir absolu.
L'intelligence artificielle révolutionne les startups du e-commerce

L'intelligence artificielle révolutionne les startups du e-commerce

Dans le secteur concurrentiel du commerce électronique, l'IA offre aux startups la possibilité de tirer parti de la technologie pour servir leurs clients et rationaliser leurs opérations.
Pour la première fois, l'IA parvient à transformer des pensées humaines en images réalistes.

Pour la première fois, l'IA parvient à transformer des pensées humaines en images réalistes.

Grâce à la technologie de l'intelligence artificielle (IA), les nouvelles découvertes dans la recherche sur la pensée humaine peuvent être comparées à l'ouverture d'un tout nouveau monde en nous.