À l'ère de l'IA, le contenu purement humain est rare. Photo : Advertising Week . |
L'émergence de ChatGPT en 2022 entraînera une explosion du contenu d'intelligence artificielle sur Internet. Selon les prévisions de Gartner, d'ici 2026, 90 % du contenu sur Internet sera généré par l'IA, notamment les textes, les images et les vidéos .
L'IA est entraînée à comprendre la pensée humaine. Mais sans données humaines pures, la technologie utilisera ses propres informations obsolètes, comme une photocopieuse se reproduisant elle-même.
De nombreux chercheurs comparent le contenu original créé par l'homme à un acier « propre » moderne, un équivalent rare et difficile à trouver. Ils craignent que si personne ne sauvegarde de copies de ces données avant 2022, Internet perde toute sa pureté.
Catastrophe historique reconstituée
À l'ère post-nucléaire, les scientifiques ont découvert que tout l'acier produit après 1945 était contaminé. Les bombes atomiques ont contaminé l'atmosphère par des radiations qui se sont propagées aux métaux produits dans cet environnement.
Une grande partie de l'acier est donc inutilisable pour les équipements de mesure de haute précision tels que les compteurs Geiger et autres capteurs sensibles. La solution consiste à récupérer l'acier usagé des navires de guerre coulés au fond des océans, où il est à l'abri des retombées radioactives.
Pour les développeurs d'IA, la plupart des modèles sont entraînés à partir d'énormes quantités de données humaines collectées sur Internet. Mais si les logiciels actuels apprennent à partir de textes générés par le passé, les modèles risquent de s'effondrer, ce qui dilue leur originalité et leur profondeur.
![]() |
Le cuirassé Hindenburg, coulé pendant la Première Guerre mondiale, a été récupéré. Photo : Reuters Connect. |
Cela confère au contenu généré par l'humain, surtout avant 2022, une plus grande valeur, explique Will Allen, vice-président de Cloudflare, qui exploite l'un des plus grands réseaux Internet au monde . Il affirme que cela contribue à ancrer les modèles d'IA, et la société dans son ensemble, dans une réalité commune. Sans ce fondement, les choses se compliquent.
Le bagage pédagogique est particulièrement important dans les domaines hautement techniques comme la médecine, le droit ou la fiscalité. Par exemple, un médecin doit s'appuyer sur du contenu rédigé par des experts humains et des recherches réelles, et non sur des sources générées par l'IA.
Ce danger devient également plus réel. Un an après le lancement de ChatGPT, le capital-risqueur Paul Graham a déclaré qu'il devait rechercher du contenu ancien pour une simple recherche afin d'éviter les « appâts SEO générés par l'IA ». Malte Ubl, directeur technique de la start-up spécialisée en IA Vercel, a rétorqué que Graham filtrait essentiellement le contenu d'Internet « avant qu'il ne soit contaminé par l'IA ».
Matt Rickard, ancien ingénieur chez Google, partage cet avis. Il a écrit dans un article de blog de 2023 que l'IA se nourrit d'Internet, mais qu'une part croissante du contenu qu'elle contient est générée par l'IA. « Le résultat des chatbots est difficile à détecter. Trouver des données d'entraînement non altérées par l'IA deviendra de plus en plus difficile », a expliqué Rickard.
La « recherche d'acier dans les fonds marins »
La solution à ce problème réside dans la préservation de la version humaine des données avant l'essor de l'IA. John Graham-Cumming, membre du conseil d'administration et directeur technique de Cloudflare, est l'un des pionniers de cette approche.
Son projet, le site Web LowBackgroundSteel.ai, répertorie les ensembles de données, les liens et les médias qui existaient avant 2022. Un exemple donné est Arctic Code Vault de GitHub, un référentiel de logiciels open source enterré dans une mine de charbon abandonnée en Norvège, conservé depuis février 2020.
Projet de préservation des données humaines de Graham-Cumming. Photo : Lowbackgroundsteel.ai. |
Il cite également « wordfreq », un projet qui suit la fréquence d'utilisation des mots en ligne. La linguiste Robyn Speer l'a géré jusqu'en 2021.
« L'IA générative a pollué les données », a déclaré Speer. Elle a cité en exemple l'obsession de ChatGPT pour le mot « delve », qui revient de plus en plus souvent ces derniers temps. Cela fausse les données sur Internet, les rendant moins fiables pour refléter la façon dont les humains écrivent et pensent.
Les modèles d'IA entraînés en partie sur du contenu synthétique peuvent accélérer les flux de travail et éliminer l'ennui dans le travail créatif. Mais au-delà des performances, les utilisateurs devront probablement s'appuyer sur du contenu généré par l'homme pour prendre des décisions précises, comme l'utilisation d'acier à faible teneur en carbone pour des mesures précises.
Des scientifiques ont développé différentes méthodes pour fabriquer de l'acier en utilisant de l'oxygène pur, rappelant que préserver le passé pourrait être le seul moyen de construire un avenir fiable, selon Business Insider .
Source : https://znews.vn/thu-sap-thanh-hoai-niem-tren-internet-post1559151.html
Comment (0)