Algo que está a punto de convertirse en un recuerdo en Internet.

La explosión de contenido generado por IA ha creado un problema de confiabilidad, ya que los datos puramente humanos son cada vez más escasos.

ZNews•09/06/2025

El contenido puramente humano figura en la lista de recursos escasos en la era de la IA. Foto: Advertising Week .

La aparición de ChatGPT en 2022 provocó una explosión de contenido impulsado por IA en internet. Gartner predice que para 2026, el 90 % del contenido de internet será generado por IA, incluyendo texto, imágenes y vídeos .

La IA está entrenada para comprender el pensamiento humano. Sin embargo, si ya no existen datos generados exclusivamente por humanos, esta tecnología utilizará su propia información antigua, como una fotocopiadora que se copia a sí misma.

Muchos investigadores comparan el contenido original, generado por humanos, con una especie de acero "limpio" en la actualidad, equivalente a su rareza y dificultad de encontrar. Temen que si nadie almacena copias de los datos antes de 2022, internet perderá por completo su integridad.

Una catástrofe histórica se repite.

En la era postnuclear, los científicos descubrieron que todo el acero producido después de 1945 estaba contaminado. Las bombas atómicas habían contaminado la atmósfera con radiación, que se propagó a los metales producidos en ese entorno.

Esto provocó que gran parte del acero resultara inservible para equipos de medición de alta precisión, como contadores Geiger y muchos otros sensores sensibles. La solución consistió en recuperar acero antiguo de buques de guerra hundidos antes de la guerra, que yacían en el fondo del océano, donde no se vería afectado por la lluvia radiactiva.

Para los desarrolladores de IA, la mayoría de los modelos se entrenan utilizando enormes conjuntos de datos humanos recopilados de internet. Pero si el software actual aprende de textos generados en el pasado, los modelos corren el riesgo de fallar, lo que diluye su originalidad y profundidad.

El acorazado Hindenburg, hundido durante la Primera Guerra Mundial, ha sido rescatado. Foto: Reuters Connect.

Esto hace que el contenido generado por humanos, especialmente el creado antes de 2022, sea más valioso, según Will Allen, vicepresidente de Cloudflare, una de las redes de internet más grandes del mundo . Argumenta que ayuda a los modelos de IA, así como a la sociedad en su conjunto, a mantenerse anclados en una realidad compartida. Sin esa base, las cosas se complicarían.

Las plataformas son especialmente importantes en campos de alta tecnología como la medicina, el derecho o la fiscalidad. Por ejemplo, un médico debería basarse en contenido escrito por expertos humanos e investigaciones objetivas, no en fuentes generadas por inteligencia artificial.

Esta amenaza también se está convirtiendo en realidad. Un año después del lanzamiento de ChatGPT, el inversor de capital riesgo Paul Graham contó que tuvo que buscar contenido antiguo para una simple consulta y así evitar el "cebo SEO generado por IA". Malte Ubl, director de tecnología de la startup de IA Vercel, respondió que Graham, en esencia, estaba filtrando internet en busca de contenido "antes de que fuera contaminado por la IA".

Matt Rickard, exingeniero de Google, coincide. En una entrada de blog de 2023, escribió que la IA recopila datos de internet, pero que cada vez más, gran parte del contenido en internet es creado por la propia IA. «Es muy difícil detectar la información generada por los chats. Encontrar datos de entrenamiento que no hayan sido manipulados por la IA será cada vez más difícil», explicó Rickard.

La "búsqueda de acero en el lecho marino"

La solución a este problema reside en preservar la versión de los datos generada por humanos anterior al auge de la IA. Uno de los pioneros en este campo es John Graham-Cumming, miembro del consejo de administración y director de tecnología de Cloudflare.

Su proyecto, el sitio web LowBackgroundSteel.ai, enumera conjuntos de datos, rutas y medios que existían antes de 2022. Un ejemplo que se menciona es Arctic Code Vault de GitHub, un archivo de software de código abierto enterrado en una mina de carbón abandonada en Noruega, que contiene datos desde febrero de 2020.

Proyecto de preservación de datos humanos de Graham-Cumming. Foto: Lowbackgroundsteel.ai.

Otra fuente de datos que citó fue “wordfreq”, un proyecto que rastrea la frecuencia de uso de las palabras en línea. La lingüista Robyn Speer lo mantuvo hasta 2021.

«La generación de IA ha contaminado los datos», afirmó Speer. Puso como ejemplo la excesiva obsesión de ChatGPT con la palabra «delve» (profundizar), lo que ha provocado su mayor aparición recientemente. Esto distorsiona los datos en internet, haciéndolos menos fiables a la hora de reflejar cómo escriben y piensan los humanos.

Los modelos de IA parcialmente entrenados con contenido sintetizado pueden agilizar los flujos de trabajo y eliminar la tediosa tarea en las actividades creativas. Sin embargo, más allá del rendimiento, es posible que los usuarios aún necesiten recurrir al contenido original generado por humanos para obtener evaluaciones precisas, al igual que se utiliza acero de baja calidad para mediciones exactas.

Los científicos han desarrollado diversos métodos para producir acero utilizando oxígeno puro. Según Business Insider , esto nos recuerda que preservar el pasado puede ser la única manera de construir un futuro fiable.

Fuente: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html