Vietnam.vn - Nền tảng quảng bá Việt Nam

Reddit veut facturer Microsoft et Google pour l'utilisation des données

VietNamNetVietNamNet19/04/2023


Les données Reddit sont utilisées pour former de grands modèles linguistiques. (Photo : Softonic)

Reddit est l’un des plus grands forums sur Internet. Environ 57 millions de personnes visitent le site Web chaque jour pour discuter d’un large éventail de sujets. Ces dernières années, les données de Reddit sont également devenues un outil de formation d’IA gratuit pour Google, OpenAI et Microsoft. Ces entreprises utilisent des forums de discussion dans le développement de systèmes d’IA.

Le 18 avril, Reddit a annoncé son intention de commencer à facturer les entreprises pour accéder à son API (interface de programmation d'application). Steve Huffman, fondateur et PDG de Reddit, affirme que « les données de Reddit sont vraiment précieuses » et ne peuvent pas être données gratuitement aux entreprises les plus riches du monde .

Fondée en 2005, Reddit gagne de l'argent principalement grâce à la publicité et aux transactions de commerce électronique sur la plateforme. Le forum finalise encore les détails des frais et annoncera les prix dans les semaines à venir.

Les conversations sur Reddit et autres plateformes similaires deviennent des ressources précieuses, car les grands modèles de langage (LLM) jouent un rôle essentiel dans la création de nouvelles technologies d'IA. Les LLM sont des algorithmes sophistiqués qui alimentent les données de Reddit dans lesquelles ils sont développés. Les services Google Bard ou ChatGPT utilisent tous deux les données Reddit.

ChatGPT présente de nombreux avantages pour l'entreprise qui le sous-tend, mais aucun pour Reddit. En fait, il peut même être utilisé pour créer des concurrents sur Reddit. Plusieurs autres entreprises ont également commencé à vendre des données aux développeurs d’IA. Par exemple, Shutterstock a vendu ses données d’image à OpenAI pour développer son programme de conversion de texte en image Dall-E.

La semaine dernière, Elon Musk a déclaré qu'il allait mettre un terme à l'utilisation par Twitter de son API, que des milliers d'entreprises et de développeurs indépendants utilisent pour suivre des millions de conversations sur la plateforme. Les frais peuvent varier de quelques milliers à plusieurs centaines de milliers de dollars.

Pour que le LLM s’améliore continuellement, les entreprises ont besoin de deux choses : une puissance de calcul massive et des données massives. Certaines entreprises disposent déjà d’une grande puissance de calcul mais recherchent toujours des données externes pour améliorer leurs algorithmes. Il s’agit notamment de sources telles que Wikipédia , des livres électroniques, des articles universitaires ou Reddit.

Huffman estime que leurs données sont précieuses en partie parce qu’elles sont constamment mises à jour. La fraîcheur et la pertinence sont ce dont les grands modèles linguistiques ont besoin pour produire les meilleurs résultats. L'API de Reddit reste gratuite pour les développeurs qui souhaitent écrire des applications au service de la communauté Reddit ou pour les universitaires qui souhaitent étudier les données à des fins académiques ou non commerciales, a-t-il déclaré.

Selon Huffman, les entreprises qui collectent des données, créent de la valeur, mais ne donnent rien en retour aux utilisateurs de Reddit constituent un problème. C’est donc le bon moment pour resserrer les choses.

(Selon le NYT)



Source

Comment (0)

No data
No data

Même catégorie

Ha Giang - la beauté qui attire les pieds des gens
Plage pittoresque « à l'infini » au centre du Vietnam, populaire sur les réseaux sociaux
Suivez le soleil
Venez à Sapa pour vous immerger dans le monde des roses

Même auteur

Patrimoine

Chiffre

Entreprise

No videos available

Nouvelles

Système politique

Locale

Produit