Reddit, Microsoft와 Google에 데이터 사용료 청구 제안

[광고_1]

Reddit 데이터는 대규모 언어 모델을 훈련하는 데 사용됩니다. (사진: 소프토닉)

Reddit은 인터넷에서 가장 큰 포럼 중 하나입니다. 매일 약 5,700만 명의 사람들이 이 웹사이트를 방문하여 다양한 주제에 대해 토론합니다. 최근 몇 년 동안 Reddit 데이터는 Google, OpenAI, Microsoft를 위한 무료 AI 훈련 도구가 되었습니다. 이러한 회사들은 AI 시스템 개발에 포럼 토론을 활용합니다.

4월 18일, Reddit은 자사 API(애플리케이션 프로그래밍 인터페이스)에 접근하는 기업에 요금을 부과할 계획이라고 발표했습니다. 레딧의 창립자이자 CEO인 스티브 허프먼은 "레딧 데이터는 정말 가치가 있다"고 주장하며, 세계에서 가장 부유한 기업에 무료로 제공할 수 없다고 말했습니다.

2005년에 설립된 Reddit은 주로 플랫폼에서의 광고와 전자상거래를 통해 수익을 창출합니다. 포럼에서는 아직 수수료 세부 사항을 마무리 중이며, 앞으로 몇 주 안에 가격을 발표할 예정입니다.

Reddit 등의 대화는 대규모 언어 모델(LLM)이 새로운 AI 기술을 만드는 데 필수적인 역할을 하므로 귀중한 상품이 됩니다. LLM은 Reddit의 데이터를 공급하여 개발된 정교한 알고리즘입니다. Google Bard와 ChatGPT 서비스는 모두 Reddit 데이터를 사용합니다.

ChatGPT는 해당 회사에 많은 이점을 제공하지만, Reddit에게는 전혀 이점이 없습니다. 사실, Reddit 경쟁자를 만드는 데에도 사용될 수 있습니다. 다른 여러 회사도 AI 개발자에게 데이터를 판매하기 시작했습니다. 예를 들어, Shutterstock은 Dall-E 텍스트-이미지 변환 프로그램을 개발하기 위해 자사의 이미지 데이터를 OpenAI에 판매했습니다.

지난주, 일론 머스크는 트위터가 자사 API를 사용하는 것을 단속하겠다고 밝혔습니다. 이 API는 수천 개의 회사와 독립 개발자가 플랫폼에서 수백만 건의 대화를 추적하는 데 사용합니다. 수수료는 수천 달러에서 수십만 달러까지 다양합니다.

LLM이 지속적으로 개선되려면 회사에는 엄청난 컴퓨팅 파워와 엄청난 데이터가 필요합니다. 일부 회사는 이미 대규모 컴퓨팅 능력을 보유하고 있지만 알고리즘을 개선하기 위해 여전히 외부 데이터를 찾고 있습니다. 여기에는 위키피디아 , 전자책, 학술 기사, Reddit 등의 출처가 포함됩니다.

허프먼은 데이터가 지속적으로 업데이트되기 때문에 가치가 있다고 생각합니다. 최상의 결과를 얻으려면 대규모 언어 모델에 최신성과 관련성이 필요합니다. 그는 Reddit 커뮤니티에 서비스를 제공하는 애플리케이션을 작성하고자 하는 개발자나 학문적 또는 비상업적 목적으로 데이터를 연구하고자 하는 학자들에게는 Reddit의 API가 계속해서 무료로 제공된다고 말했습니다.

허프먼에 따르면, 데이터를 수집하고 가치를 창출하면서도 Reddit 사용자에게 아무것도 돌려주지 않는 기업은 문제입니다. 그러니, 이제 좀 정리할 좋은 시기입니다.

(NYT에 따르면)

[광고_2]
원천