Dans une démarche perçue comme une protection de la propriété intellectuelle de l'entreprise, OpenAI vient de mettre en place une exigence de vérification d'identité gouvernementale pour les développeurs souhaitant accéder à ses modèles d'intelligence artificielle (IA) les plus avancés.
OpenAI n'a pas répondu à notre demande de commentaires concernant les informations ci-dessus.
Toutefois, dans l'annonce, le « créateur » de l'application ChatGPT a expliqué que la raison de l'introduction du nouveau processus de vérification était que certains développeurs utilisaient intentionnellement les interfaces de programmation d'applications (API) d'OpenAI, violant ainsi la politique d'utilisation de l'entreprise.
Bien que l'entreprise ait officiellement déclaré que la raison était d'empêcher les abus, cette action semble découler d'une préoccupation plus profonde : que les données issues des modèles d'OpenAI soient collectées par des concurrents pour entraîner leurs propres systèmes d'IA.
C’est ce que démontre une nouvelle étude de Copyleaks, une entreprise spécialisée dans la détection de contenu par IA.
En utilisant un système de reconnaissance d'« empreintes digitales » similaire à celui des grands modèles d'IA, Copyleaks a découvert qu'environ 74 % des résultats du modèle concurrent DeepSeek-R1 (Chine) pouvaient être attribués à OpenAI. Ce chiffre indique non seulement une duplication, mais aussi une imitation.
Copyleaks a également examiné d'autres modèles d'IA, tels que phi-4 de Microsoft et Grok-1 de xAI. Les résultats ont montré une quasi-absence de similitudes avec OpenAI, avec des taux de « désaccord » respectifs de 99,3 % et 100 %. Le modèle Mixtral de Mistral présentait toutefois certaines similitudes.
Cette étude met en lumière un fait : même lorsque l'on demande aux modèles d'écrire avec des tons ou des formats différents, ils laissent tout de même des signatures stylistiques détectables, semblables à des empreintes digitales linguistiques.
Ces empreintes digitales persistent à travers différentes tâches, sujets et invites, et peuvent être retracées jusqu'à leur origine avec un certain degré de précision.
Par ailleurs, certains critiques soulignent qu'OpenAI a elle-même construit ses premiers modèles en collectant des données sur le web, notamment du contenu provenant d'éditeurs de presse, d'auteurs et de créateurs, souvent sans leur consentement.
Le PDG de Copyleaks, Alon Yamin, a souligné deux problèmes : l’entraînement de modèles humains sur du contenu protégé par le droit d’auteur sans autorisation et l’utilisation des résultats de systèmes d’IA propriétaires pour entraîner des modèles concurrents – ce qui revient essentiellement à faire de la rétro-ingénierie sur le produit d’un concurrent.
Yamin soutient que, bien que les deux méthodes soient controversées sur le plan éthique, l'entraînement sur les résultats d'OpenAI représente un risque concurrentiel, car il exploite essentiellement des innovations difficiles à réaliser sans le consentement ni la compensation du développeur d'origine.
Alors que les entreprises spécialisées en IA rivalisent pour construire des modèles toujours plus puissants, le débat sur la propriété des données et sur les données d'entraînement s'intensifie.
Des outils comme le système d'empreinte numérique de Copyleaks offrent une méthode potentielle pour suivre et vérifier les droits d'auteur sur les modèles.
Source : https://www.vietnamplus.vn/openai-siet-chat-kiem-soat-de-ngan-cac-doi-thu-sao-chep-mo-hinh-tri-tue-nhan-tao-post1033664.vnp






Comment (0)