Reddit хочет взимать плату с Microsoft и Google за использование данных

Данные Reddit используются для обучения больших языковых моделей. (Фото: Softonic)

Reddit — один из крупнейших форумов в Интернете. Около 57 миллионов человек посещают сайт каждый день, чтобы обсудить широкий круг тем. В последние годы данные Reddit также стали бесплатным инструментом обучения ИИ для Google, OpenAI и Microsoft. Эти компании используют форумные обсуждения при разработке систем ИИ.

18 апреля Reddit объявил о планах начать взимать с компаний плату за доступ к своему API (интерфейсу прикладного программирования). Стив Хаффман, основатель и генеральный директор Reddit, утверждает, что «данные Reddit действительно ценны» и не могут быть переданы бесплатно самым богатым компаниям мира .

Основанный в 2005 году, Reddit зарабатывает в основном за счет рекламы и транзакций электронной коммерции на платформе. Форум все еще завершает согласование деталей сбора и объявит цены в ближайшие недели.

Обсуждения на Reddit и подобных площадках становятся ценным товаром, поскольку большие языковые модели (LLM) играют важную роль в создании новых технологий ИИ. LLM — это сложные алгоритмы, которые берут данные из Reddit, на основе которых они разработаны. Сервисы Google Bard и ChatGPT используют данные Reddit.

ChatGPT имеет много преимуществ для компании, которая за него стоит, но не для Reddit. Фактически, его можно использовать даже для создания конкурентов Reddit. Несколько других компаний также начали продавать данные разработчикам ИИ. Например, Shutterstock продала свои данные изображений компании OpenAI для разработки программы преобразования текста в изображение Dall-E.

На прошлой неделе Илон Маск заявил, что намерен ограничить использование Twitter своего API, который тысячи компаний и независимых разработчиков используют для отслеживания миллионов разговоров на платформе. Тарифы могут варьироваться от нескольких тысяч до нескольких сотен тысяч долларов.

Для постоянного совершенствования LLM компаниям необходимы две вещи: огромные вычислительные мощности и огромные объемы данных. Некоторые компании уже обладают большими вычислительными мощностями, но по-прежнему ищут внешние данные для улучшения своих алгоритмов. К ним относятся такие источники, как Википедия , электронные книги, научные статьи или Reddit.

Хаффман считает, что их данные ценны отчасти потому, что они постоянно обновляются. Свежесть и актуальность — вот что необходимо крупным языковым моделям для получения наилучших результатов. По его словам, API Reddit остается бесплатным для разработчиков, желающих писать приложения, которые будут служить сообществу Reddit, или для ученых, желающих изучать данные в академических или некоммерческих целях.

По словам Хаффмана, компании, которые собирают данные, создают ценность, но ничего не возвращают пользователям Reddit, представляют собой проблему. Так что сейчас самое время все подтянуть.

(По данным NYT)

Источник

Комментарий (0)