Reddit will Microsoft und Google für die Datennutzung zur Kasse bitten

[Anzeige_1]

Reddit-Daten werden zum Trainieren großer Sprachmodelle verwendet. (Foto: Softonic)

Reddit ist eines der größten Foren im Internet. Täglich besuchen etwa 57 Millionen Menschen die Website, um über ein breites Themenspektrum zu diskutieren. In den letzten Jahren sind Reddit-Daten auch zu einem kostenlosen KI-Trainingstool für Google, OpenAI und Microsoft geworden. Diese Unternehmen nutzen Forendiskussionen bei der Entwicklung von KI-Systemen.

Am 18. April kündigte Reddit Pläne an, Unternehmen künftig Gebühren für den Zugriff auf seine API (Anwendungsprogrammierschnittstelle) zu berechnen. Steve Huffman, Gründer und CEO von Reddit, behauptet, dass „Reddit-Daten wirklich wertvoll“ seien und nicht kostenlos an die reichsten Unternehmen der Welt weitergegeben werden könnten.

Reddit wurde 2005 gegründet und verdient sein Geld hauptsächlich durch Werbung und E-Commerce-Transaktionen auf der Plattform. Das Forum arbeitet derzeit noch an den Einzelheiten der Gebühr und wird die Preise in den kommenden Wochen bekannt geben.

Gespräche auf Reddit und ähnlichen Plattformen werden zu wertvollen Gütern, da große Sprachmodelle (LLMs) eine wesentliche Rolle bei der Entwicklung neuer KI-Technologien spielen. LLMs sind hochentwickelte Algorithmen, die Daten von Reddit einspeisen, in das sie integriert werden. Die Dienste Google Bard oder ChatGPT verwenden beide Reddit-Daten.

ChatGPT bietet dem dahinter stehenden Unternehmen viele Vorteile, für Reddit jedoch keine. Tatsächlich kann es sogar verwendet werden, um Reddit-Konkurrenten zu schaffen. Mehrere andere Unternehmen haben ebenfalls damit begonnen, Daten an KI-Entwickler zu verkaufen. Beispielsweise verkaufte Shutterstock seine Bilddaten an OpenAI, um dessen Text-zu-Bild-Programm Dall-E zu entwickeln.

Letzte Woche sagte Elon Musk, er werde gegen die Nutzung der API durch Twitter vorgehen, die Tausende von Unternehmen und unabhängigen Entwicklern verwenden, um Millionen von Gesprächen auf der Plattform zu verfolgen. Die Gebühren können zwischen einigen Tausend und mehreren Hunderttausend Dollar liegen.

Damit sich LLM kontinuierlich verbessern kann, benötigen Unternehmen zwei Dinge: enorme Rechenleistung und enorme Datenmengen. Einige Unternehmen verfügen bereits über große Rechenleistung, suchen jedoch weiterhin nach externen Daten, um ihre Algorithmen zu verbessern. Hierzu zählen Quellen wie Wikipedia , E-Books, wissenschaftliche Artikel oder Reddit.

Huffman ist davon überzeugt, dass ihre Daten unter anderem deshalb wertvoll sind, weil sie ständig aktualisiert werden. Aktualität und Relevanz sind die Voraussetzungen für die Erzielung bester Ergebnisse bei großen Sprachmodellen. Die API von Reddit stehe Entwicklern weiterhin kostenlos zur Verfügung, die Anwendungen für die Reddit-Community schreiben möchten, oder Wissenschaftlern, die die Daten für akademische oder nicht-kommerzielle Zwecke untersuchen möchten, sagte er.

Laut Huffman ist es ein Problem, wenn Unternehmen Daten sammeln und Werte schaffen, den Reddit-Benutzern aber nichts zurückgeben. Dies ist also ein guter Zeitpunkt, die Dinge straffer zu gestalten.

(Laut NYT)

[Anzeige_2]
Quelle