Dieser Schritt erfolgt, da Unternehmen im Bereich der künstlichen Intelligenz beschuldigt werden, Inhalte von Herausgebern zu stehlen, um KI zu trainieren, oder Informationen, einschließlich urheberrechtlich geschützter Artikel, zusammenzufassen, um den Benutzern zu antworten, ohne dafür zu bezahlen oder sie auch nur um Erlaubnis zu fragen.
Foto: Reuters
Reddit gab bekannt, dass es sein Robots Exclusion Protocol (oder „robots.txt“) aktualisieren wird, einen allgemein akzeptierten Standard zur Definition, welche Teile einer Website gecrawlt werden dürfen.
Das Unternehmen teilte außerdem mit, dass es die Ratenbegrenzung beibehalten werde, eine Technik zur Kontrolle der Anzahl von Anfragen einer bestimmten Entität, und dass es unbekannte Bots und Crawler daran hindern werde, Daten auf seiner Site zu sammeln.
Robots.txt ist ein wichtiges Tool, das Herausgeber, darunter auch Nachrichtenorganisationen, verwenden, um zu verhindern, dass Technologieunternehmen ihre Inhalte illegal scrapen, um KI zu trainieren oder Zusammenfassungen zur Beantwortung bestimmter Suchanfragen zu erstellen.
Letzte Woche enthüllte das Content-Lizenzierungs-Startup TollBit in einem Bericht, dass einige KI-Unternehmen Regeln umgehen, um Inhalte auf den Websites von Herausgebern zu scrapen.
Dies geschah, nachdem eine Untersuchung von Wired ergab, dass das KI-Such-Startup Perplexity möglicherweise gegen Regeln verstoßen hat, um Webcrawler über robots.txt zu blockieren.
Anfang Juni warf der Medienverlag Forbes Perplexity außerdem vor, seine investigativen Artikel zu plagiieren und ohne Quellenangabe in generativen KI-Systemen zu verwenden.
Reddit teilte am Dienstag mit, dass Forscher und Organisationen wie das Internet Archive weiterhin für nichtkommerzielle Zwecke Zugriff auf seine Inhalte haben werden.
Hoang Hai (laut Reuters)
[Anzeige_2]
Quelle: https://www.congluan.vn/reddit-cap-nhat-giao-thuc-ngan-chan-ai-danh-cap-noi-dung-post300804.html
Kommentar (0)