Этот шаг был предпринят на фоне обвинений компаний, занимающихся искусственным интеллектом, в краже контента у издателей для обучения ИИ или обобщении информации, включая статьи, защищенные авторским правом, для ответа пользователям без оплаты или даже запроса разрешения.
Фото: Рейтер
Reddit сообщил, что обновит свой протокол исключения роботов, или «robots.txt», — общепринятый стандарт для определения того, какие части веб-сайта разрешено сканировать.
Компания также заявила, что сохранит ограничение скорости — метод, используемый для контроля количества запросов от конкретного объекта, — и будет блокировать сбор данных на своем сайте неизвестными ботами и сканерами.
Robots.txt — важный инструмент, который издатели, включая новостные организации, используют для предотвращения незаконного копирования их контента технологическими компаниями с целью обучения ИИ или создания сводок для ответов на определенные поисковые запросы.
На прошлой неделе стартап по лицензированию контента TollBit в своем отчете сообщил, что некоторые компании, занимающиеся ИИ, обходят правила, чтобы собирать контент с веб-сайтов издателей.
Это произошло после того, как расследование Wired показало, что стартап поиска на основе искусственного интеллекта Perplexity мог нарушить правила блокировки веб-сканеров через robots.txt.
Ранее в июне медиа-издатель Forbes также обвинил Perplexity в плагиате своих статей-расследований для использования в системах генеративного искусственного интеллекта без указания источника.
Во вторник Reddit заявил, что исследователи и организации, такие как Internet Archive, продолжат иметь доступ к его контенту в некоммерческих целях.
Хоанг Хай (по данным Reuters)
Источник: https://www.congluan.vn/reddit-cap-nhat-giao-thuc-ngan-chan-ai-danh-cap-noi-dung-post300804.html
Комментарий (0)