Reddit es uno de los foros más grandes de Internet. Alrededor de 57 millones de personas visitan el sitio web cada día para discutir una amplia gama de temas. En los últimos años, los datos de Reddit también se han convertido en una herramienta gratuita de entrenamiento de IA para Google, OpenAI y Microsoft. Estas empresas utilizan foros de discusión en el desarrollo de sistemas de IA.
El 18 de abril, Reddit anunció planes para comenzar a cobrar a las empresas por acceder a su API (interfaz de programación de aplicaciones). Steve Huffman, fundador y CEO de Reddit, afirma que “los datos de Reddit son realmente valiosos” y no se pueden regalar a las empresas más ricas del mundo .
Fundada en 2005, Reddit gana dinero principalmente a través de publicidad y transacciones de comercio electrónico en la plataforma. El foro aún está ultimando los detalles de la tarifa y anunciará los precios en las próximas semanas.
Las conversaciones en Reddit y similares se convierten en recursos valiosos a medida que los modelos de lenguaje grandes (LLM) desempeñan un papel esencial en la creación de nuevas tecnologías de IA. Los LLM son algoritmos sofisticados que alimentan datos de Reddit en el que se desarrollan. Los servicios Google Bard o ChatGPT utilizan datos de Reddit.
ChatGPT tiene muchos beneficios para la empresa que está detrás, pero ninguno para Reddit. De hecho, incluso podría utilizarse para crear competidores en Reddit. Varias otras empresas también han comenzado a vender datos a desarrolladores de IA. Por ejemplo, Shutterstock vendió sus datos de imágenes a OpenAI para desarrollar su programa de texto a imagen Dall-E.
La semana pasada, Elon Musk dijo que tomaría medidas enérgicas contra el uso que Twitter hace de su API, que miles de empresas y desarrolladores independientes utilizan para rastrear millones de conversaciones en la plataforma. Las tarifas pueden variar desde unos pocos miles a varios cientos de miles de dólares.
Para que un LLM mejore continuamente, las empresas necesitan dos cosas: gran potencia informática y gran cantidad de datos. Algunas empresas ya disponen de un gran poder de cálculo pero aún buscan datos externos para mejorar sus algoritmos. Estos incluyen fuentes como Wikipedia , libros electrónicos, artículos académicos o Reddit.
Huffman cree que sus datos son valiosos en parte porque se actualizan constantemente. La frescura y la relevancia son lo que los modelos lingüísticos de gran tamaño necesitan para producir los mejores resultados. La API de Reddit sigue siendo gratuita para los desarrolladores que quieran escribir aplicaciones que sirvan a la comunidad de Reddit o para los académicos que quieran estudiar los datos con fines académicos o no comerciales, afirmó.
Según Huffman, el problema es que las empresas recopilan datos, crean valor pero no ofrecen nada a cambio a los usuarios de Reddit. Así que este es un buen momento para ajustar las cosas.
(Según el NYT)
[anuncio_2]
Fuente
Kommentar (0)