Récemment, Baidu Baike – l’équivalent chinois de Wikipédia – a mis à jour son fichier robots.txt – le fichier qui indique aux moteurs de recherche les adresses web auxquelles ils peuvent accéder – et a complètement bloqué l’indexation du contenu de la plateforme par Googlebot et Bingbot.
Photo : Shutterstock
Cette initiative montre que Baidu tente de protéger ses actifs en ligne face à la demande croissante de données massives pour développer des modèles et des applications d'intelligence artificielle (IA).
Suite à la mise à jour du fichier robots.txt de Baidu Baike, une enquête du SCMP a révélé que de nombreux éléments de la plateforme apparaissaient encore dans les résultats de recherche Google et Bing, probablement en raison d'anciens contenus archivés.
Plus de deux ans après le lancement de ChatGPT par OpenAI, de nombreux développeurs d'IA parmi les plus importants au monde signent des accords avec des éditeurs de contenu pour accéder à du contenu de qualité pour leurs projets d'IA générale.
OpenAI a signé en juin un accord avec le magazine Time pour accéder à l'intégralité de ses archives, couvrant plus de 100 ans d'histoire.
Cao Phong (selon le SCMP)
Source : https://www.congluan.vn/baidu-chan-google-va-bing-thu-thap-noi-dung-truc-tuyen-post309081.html






Comment (0)