Quelque chose qui est sur le point de devenir un souvenir sur Internet.

L'explosion des contenus issus de l'IA a créé un problème de confiance, car les données purement humaines se font de plus en plus rares.

ZNews•09/06/2025

Le contenu purement humain figure parmi les ressources rares à l'ère de l'IA. Photo : Advertising Week .

L'apparition de ChatGPT en 2022 a déclenché une explosion de contenus générés par l'IA sur Internet. Gartner prévoit que d'ici 2026, 90 % des contenus Internet seront générés par l'IA, y compris les textes, les images et les vidéos .

L'IA est entraînée à comprendre la pensée humaine. Cependant, en l'absence de données purement humaines, cette technologie utilisera ses propres informations obsolètes, à l'instar d'une photocopieuse se reproduisant elle-même.

De nombreux chercheurs comparent le contenu original, créé par l'humain, à une sorte d'acier « pur » des temps modernes, synonyme de rareté et de difficulté à trouver. Ils craignent que si personne ne conserve de copies des données avant 2022, Internet perde toute intégrité.

Une catastrophe historique se répète.

À l'ère post-nucléaire, les scientifiques ont découvert que tout l'acier produit après 1945 était contaminé. Les bombes atomiques avaient contaminé l'atmosphère par des radiations, qui s'étaient propagées aux métaux produits dans cet environnement.

De ce fait, une grande partie de l'acier était inutilisable pour les instruments de mesure de haute précision, tels que les compteurs Geiger et de nombreux autres capteurs sensibles. La solution a consisté à récupérer de l'acier provenant de navires de guerre coulés avant la guerre, gisant au fond de l'océan, à l'abri des retombées radioactives.

Pour les développeurs d'IA, la plupart des modèles sont entraînés à l'aide d'immenses ensembles de données humaines collectées sur Internet. Or, si les logiciels actuels apprennent à partir de textes qu'ils ont générés par le passé, les modèles risquent de dysfonctionner, ce qui dilue leur originalité et leur profondeur.

Le cuirassé Hindenburg, coulé pendant la Première Guerre mondiale, a été renfloué. Photo : Reuters Connect.

D'après Will Allen, vice-président de Cloudflare, qui exploite l'un des plus grands réseaux internet au monde , cela confère une valeur accrue aux contenus créés par l'humain, notamment ceux antérieurs à 2022. Il soutient que cela permet aux modèles d'IA, ainsi qu'à la société dans son ensemble, de rester ancrés dans une réalité partagée. Sans ce socle, la situation se compliquerait considérablement.

Les plateformes sont particulièrement importantes dans les domaines de pointe comme la médecine, le droit ou la fiscalité. Par exemple, un médecin devrait se fier à des contenus rédigés par des experts et à des recherches factuelles, et non à des sources générées par l'IA.

Cette menace est en train de devenir une réalité. Un an après le lancement de ChatGPT, l'investisseur Paul Graham racontait qu'il devait consulter d'anciens contenus pour une simple recherche afin d'éviter les « pièges SEO générés par l'IA ». Malte Ubl, directeur technique de la startup d'IA Vercel, a rétorqué que Graham filtrait en fait Internet pour trouver du contenu « avant qu'il ne soit contaminé par l'IA ».

Matt Rickard, ancien ingénieur chez Google, partage cet avis. Dans un article de blog publié en 2023, il expliquait que l'IA collecte des données sur Internet, mais qu'une part croissante du contenu en ligne est elle-même créée par l'IA. « Les données produites par les robots conversationnels sont très difficiles à détecter. Trouver des données d'entraînement non altérées par l'IA deviendra de plus en plus complexe », précisait-il.

La « recherche d'acier au fond des mers »

La solution à ce problème réside dans la préservation des données générées par l'homme avant l'essor de l'IA. John Graham-Cumming, membre du conseil d'administration et directeur technique de Cloudflare, est l'un des pionniers dans ce domaine.

Son projet, le site web LowBackgroundSteel.ai, répertorie des ensembles de données, des chemins d'accès et des médias qui existaient avant 2022. Un exemple cité est Arctic Code Vault de GitHub, une archive de logiciels libres enfouie dans une mine de charbon abandonnée en Norvège, contenant des données depuis février 2020.

Projet de préservation des données humaines de Graham-Cumming. Photo : Lowbackgroundsteel.ai.

Il a également cité comme source de données « wordfreq », un projet qui suit la fréquence d' utilisation des mots en ligne. La linguiste Robyn Speer l'a géré jusqu'en 2021.

« L’intelligence artificielle a pollué les données », a déclaré Speer. Elle a cité l’exemple de ChatGPT et de son obsession pour le mot « delve », ce qui explique sa fréquence d’utilisation accrue ces derniers temps. Cela fausse les données sur Internet, les rendant moins fiables pour refléter la façon dont les humains écrivent et pensent.

Les modèles d'IA partiellement entraînés sur du contenu synthétisé peuvent accélérer les flux de travail et éliminer la monotonie des tâches créatives. Toutefois, au-delà de la simple performance, les utilisateurs peuvent toujours avoir besoin de s'appuyer sur du contenu original produit par des humains pour des évaluations précises, un peu comme on utilise de l'acier de qualité inférieure pour des mesures précises.

Des scientifiques ont mis au point différentes méthodes de production d'acier à partir d'oxygène pur. Selon Business Insider , cela nous rappelle que préserver le passé est peut-être la seule façon de bâtir un avenir durable.

Source : https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html