Этот шаг был предпринят на фоне обвинений компаний, разрабатывающих программы для искусственного интеллекта, в краже контента у издателей с целью обучения ИИ или обобщения информации, в том числе статей, защищенных авторским правом, для ответа пользователям без оплаты или даже запроса разрешения.
Фото: Рейтер
Reddit заявил, что обновит свой протокол исключения роботов (robots.txt) — общепринятый стандарт для определения того, какие части веб-сайта разрешено сканировать.
Компания также заявила, что сохранит ограничение скорости — технологию, используемую для контроля количества запросов от конкретного объекта, — и будет блокировать сбор данных на своем сайте неизвестными ботами и сканерами.
Robots.txt — важный инструмент, который издатели, включая новостные организации, используют для предотвращения незаконного сбора контента технологическими компаниями с целью обучения ИИ или создания сводок для ответов на определенные поисковые запросы.
На прошлой неделе стартап по лицензированию контента TollBit в своем отчете сообщил, что некоторые компании, занимающиеся ИИ, обходят правила, чтобы собирать контент с сайтов издателей.
Это произошло после того, как расследование Wired показало, что стартап по поиску с использованием ИИ Perplexity мог нарушить правила блокировки веб-сканеров с помощью robots.txt.
Ранее в июне медиаиздательство Forbes также обвинило Perplexity в плагиате своих статей-расследований для использования в системах генеративного искусственного интеллекта без указания источника.
Во вторник Reddit заявил, что исследователи и организации, такие как Internet Archive, по-прежнему будут иметь доступ к его контенту в некоммерческих целях.
Хоанг Хай (по данным Reuters)
Источник: https://www.congluan.vn/reddit-cap-nhat-giao-thuc-ngan-chan-ai-danh-cap-noi-dung-post300804.html
Комментарий (0)