La medida llega en un momento en que las empresas de inteligencia artificial están siendo acusadas de robar contenido de los editores para entrenar a la IA o resumir información, incluidos artículos con derechos de autor, para responder a los usuarios sin pagar o incluso pedir permiso.
Foto: Reuters
Reddit dijo que actualizará su Protocolo de Exclusión de Robots, o "robots.txt", un estándar ampliamente aceptado para definir qué partes de un sitio web pueden ser rastreadas.
La compañía también dijo que mantendrá la limitación de velocidad, una técnica utilizada para controlar la cantidad de solicitudes de una entidad en particular, y bloqueará que bots y rastreadores desconocidos recopilen datos en su sitio.
Robots.txt es una herramienta importante que los editores, incluidas las organizaciones de noticias, utilizan para evitar que las empresas tecnológicas extraigan ilegalmente su contenido para entrenar a la IA o crear resúmenes para responder a determinadas consultas de búsqueda.
La semana pasada, la empresa emergente de licencias de contenido TollBit reveló en un informe que algunas empresas de inteligencia artificial están eludiendo las reglas para extraer contenido de los sitios web de los editores.
Esto viene después de que una investigación de Wired descubriera que la startup de búsqueda de inteligencia artificial Perplexity podría haber roto las reglas para bloquear los rastreadores web a través de robots.txt.
A principios de junio, la editorial de medios Forbes también acusó a Perplexity de plagiar sus artículos de investigación para usarlos en sistemas de inteligencia artificial generativa sin atribución.
Reddit dijo el martes que los investigadores y organizaciones como Internet Archive continuarán teniendo acceso a su contenido para fines no comerciales.
Hoang Hai (según Reuters)
[anuncio_2]
Fuente: https://www.congluan.vn/reddit-cap-nhat-giao-thuc-ngan-chan-ai-danh-cap-noi-dung-post300804.html
Kommentar (0)