(CLO) L'outil de conversion de la parole en texte Whisper d'OpenAI est présenté comme étant « robuste et précis au niveau humain », mais il présente un inconvénient majeur : il a tendance à fabriquer des extraits de texte ou même des phrases entières !
Certains des textes qu'il produit, connus dans l'industrie sous le nom d'hallucinogènes, peuvent inclure des commentaires racistes, de la violence et même des traitements médicaux imaginaires, disent les experts.
Les experts affirment que de telles fabrications sont graves car Whisper est utilisé dans un large éventail d’industries à travers le monde pour traduire et transcrire des interviews, générer du texte et sous-titrer des vidéos.
Plus inquiétant encore, les centres médicaux utilisent des outils basés sur Whisper pour enregistrer les consultations patients-médecins, malgré l'avertissement d'OpenAI selon lequel l'outil ne doit pas être utilisé dans les « zones à haut risque ».
Les phrases commençant par « #Vérité fondamentale » correspondent à ce qui a été réellement dit, tandis que celles commençant par « #texte » correspondent à ce que Whisper a retranscrit. Photo : AP
Les chercheurs et les ingénieurs affirment que Whisper provoque fréquemment des hallucinations lors de son utilisation. Par exemple, un chercheur de l'Université du Michigan a déclaré avoir constaté des hallucinations dans huit enregistrements sur dix qu'il a examinés.
Un premier ingénieur en apprentissage automatique a découvert cette manipulation dans environ la moitié des plus de 100 heures de transcriptions Whisper qu'il a analysées. Un troisième développeur a déclaré avoir détecté cette illusion dans presque chacune des 26 000 transcriptions créées avec Whisper.
L'illusion persiste même dans des échantillons audio courts et bien enregistrés. Une étude récente menée par des informaticiens a révélé 187 distorsions dans plus de 13 000 clips audio clairs examinés.
Cette tendance entraînerait des dizaines de milliers d’erreurs sur des millions d’enregistrements, ont déclaré les chercheurs.
De telles erreurs peuvent avoir des « conséquences très graves », en particulier dans un contexte hospitalier, a déclaré Alondra Nelson, professeur à l’École des sciences sociales de l’Institute for Advanced Study.
« Personne ne souhaite recevoir un mauvais diagnostic. Il faut une barrière plus stricte », a déclaré Nelson.
Les professeures Allison Koenecke et Mona Sloane de l'Université Cornell, de l'Université de Virginie, ont examiné des milliers de courts extraits extraits de TalkBank, une archive de recherche hébergée par l'Université Carnegie Mellon. Elles ont déterminé que près de 40 % des hallucinations étaient nocives ou perturbantes, car l'orateur pouvait être mal compris ou mal interprété.
Dans un enregistrement, un orateur a décrit « deux autres filles et une femme », mais Whisper a fabriqué un commentaire racial supplémentaire, ajoutant « deux autres filles et une femme, euh, noire ».
Dans une autre transcription, Whisper a inventé un médicament inexistant appelé « antibiotiques à activité accrue ».
Alors que la plupart des développeurs supposent que les outils de transcription peuvent faire des fautes d'orthographe ou d'autres erreurs, les ingénieurs et les chercheurs affirment qu'ils n'ont jamais vu un outil de transcription alimenté par l'IA aussi hallucinogène que Whisper.
L'outil est intégré à plusieurs versions du chatbot phare d'OpenAI, ChatGPT, et constitue un service intégré aux plateformes cloud d'Oracle et de Microsoft, au service de milliers d'entreprises dans le monde. Il permet également de transcrire et de traduire des textes dans de nombreuses langues.
Ngoc Anh (selon AP)
Source : https://www.congluan.vn/cong-cu-chuyen-giong-noi-thanh-van-ban-ai-cung-co-the-xuyen-tac-post319008.html
Comment (0)