Reddit обновляет протокол, чтобы предотвратить кражу контента с помощью ИИ

Этот шаг был предпринят на фоне обвинений компаний, разрабатывающих программы для искусственного интеллекта, в краже контента у издателей с целью обучения ИИ или обобщения информации, в том числе статей, защищенных авторским правом, для ответа пользователям без оплаты или даже запроса разрешения.

Обновление протокола Reddit, шорткод AI, изображение содержимого шапки 1 — Фото: Рейтер

Reddit заявил, что обновит свой протокол исключения роботов (robots.txt) — общепринятый стандарт для определения того, какие части веб-сайта разрешено сканировать.

Компания также заявила, что сохранит ограничение скорости — технологию, используемую для контроля количества запросов от конкретного объекта, — и будет блокировать сбор данных на своем сайте неизвестными ботами и сканерами.

Robots.txt — важный инструмент, который издатели, включая новостные организации, используют для предотвращения незаконного сбора контента технологическими компаниями с целью обучения ИИ или создания сводок для ответов на определенные поисковые запросы.

На прошлой неделе стартап по лицензированию контента TollBit в своем отчете сообщил, что некоторые компании, занимающиеся ИИ, обходят правила, чтобы собирать контент с сайтов издателей.

Это произошло после того, как расследование Wired показало, что стартап по поиску с использованием ИИ Perplexity мог нарушить правила блокировки веб-сканеров с помощью robots.txt.

Ранее в июне медиаиздательство Forbes также обвинило Perplexity в плагиате своих статей-расследований для использования в системах генеративного искусственного интеллекта без указания источника.

Во вторник Reddit заявил, что исследователи и организации, такие как Internet Archive, по-прежнему будут иметь доступ к его контенту в некоммерческих целях.

Хоанг Хай (по данным Reuters)

Источник: https://www.congluan.vn/reddit-cap-nhat-giao-thuc-ngan-chan-ai-danh-cap-noi-dung-post300804.html

Комментарий (0)