Cette décision intervient alors que les entreprises d’intelligence artificielle sont accusées de voler du contenu aux éditeurs pour former l’IA ou de résumer des informations, y compris des articles protégés par le droit d’auteur, pour répondre aux utilisateurs sans payer ni même demander la permission.
Photo : Reuters
Reddit a annoncé qu'il mettrait à jour son protocole d'exclusion des robots, ou « robots.txt », une norme largement acceptée pour définir quelles parties d'un site Web peuvent être explorées.
La société a également déclaré qu'elle maintiendrait la limitation du débit, une technique utilisée pour contrôler le nombre de requêtes provenant d'une entité particulière, et qu'elle empêcherait les robots et les robots d'exploration inconnus de collecter des données sur son site.
Robots.txt est un outil important que les éditeurs, y compris les organismes de presse, utilisent pour empêcher les entreprises technologiques de récupérer illégalement leur contenu pour former l'IA ou créer des résumés pour répondre à certaines requêtes de recherche.
La semaine dernière, la startup de licences de contenu TollBit a révélé dans un rapport que certaines sociétés d'IA contournaient les règles pour récupérer du contenu sur les sites Web des éditeurs.
Cela fait suite à une enquête de Wired qui a révélé que la startup de recherche IA Perplexity pourrait avoir enfreint les règles pour bloquer les robots d'exploration Web via robots.txt.
Début juin, l'éditeur de médias Forbes a également accusé Perplexity d'avoir plagié ses articles d'investigation, pour les utiliser dans des systèmes d'IA générative sans attribution.
Reddit a déclaré mardi que les chercheurs et les organisations comme Internet Archive continueront d'avoir accès à son contenu à des fins non commerciales.
Hoang Hai (selon Reuters)
Source : https://www.congluan.vn/reddit-cap-nhat-giao-thuc-ngan-chan-ai-danh-cap-noi-dung-post300804.html
Comment (0)