En la era de la IA, el contenido puramente humano escasea. Foto: Advertising Week . |
La aparición de ChatGPT en 2022 provocará una explosión de contenido de inteligencia artificial en internet. Según la predicción de Gartner, para 2026, el 90 % del contenido de internet será generado por IA, incluyendo texto, imágenes y vídeos .
La IA está entrenada para comprender el pensamiento humano. Pero sin datos generados exclusivamente por humanos, la tecnología usará su propia información obsoleta, como una fotocopiadora que se reproduce a sí misma.
Muchos investigadores comparan el contenido original generado por humanos con el acero "limpio" moderno, un equivalente raro y difícil de encontrar. Temen que si nadie guarda copias de los datos antes de 2022, internet perderá su pureza por completo.
Desastre histórico recreado
En la era posnuclear, los científicos han descubierto que todo el acero producido después de 1945 está contaminado. Las bombas atómicas contaminaron la atmósfera con radiación, que se propagó a los metales producidos en ese entorno.
Esto deja gran parte del acero inutilizable para equipos de medición de alta precisión, como contadores Geiger y otros sensores sensibles. La solución es rescatar el acero viejo de buques de guerra hundidos en las profundidades del océano, donde no se ve afectado por la lluvia radiactiva.
Para los desarrolladores de IA, la mayoría de los modelos se entrenan con grandes cantidades de datos humanos recopilados en internet. Pero si el software actual aprende del texto generado en el pasado, los modelos corren el riesgo de desmoronarse, lo que diluye su originalidad y profundidad.
![]() |
El acorazado Hindenburg, hundido durante la Primera Guerra Mundial, ha sido rescatado. Foto: Reuters Connect. |
Esto hace que el contenido generado por humanos, especialmente antes de 2022, sea más valioso, afirma Will Allen, vicepresidente de Cloudflare, que opera una de las redes de internet más grandes del mundo . Afirma que ayuda a anclar los modelos de IA, y a la sociedad en su conjunto, a una realidad común. Sin esa base, las cosas se complican.
La formación es especialmente importante en campos altamente técnicos como la medicina, el derecho o la fiscalidad. Por ejemplo, un médico debe basarse en contenido escrito por expertos humanos e investigaciones reales, no en fuentes generadas por IA.
Este peligro también se está volviendo más real. Un año después del lanzamiento de ChatGPT, el inversor de capital riesgo Paul Graham afirmó que tuvo que buscar contenido antiguo para una búsqueda simple y así evitar el cebo SEO generado por IA. Malte Ubl, director de tecnología de la startup de IA Vercel, respondió que Graham básicamente estaba filtrando contenido de internet "antes de que la IA lo contaminara".
Matt Rickard, exingeniero de Google, coincide. En una entrada de blog de 2023, escribió que la IA se nutre de internet, pero que cada vez más contenido en ella es generado por ella. «El resultado de los chatbots es difícil de detectar. Encontrar datos de entrenamiento que no hayan sido manipulados por la IA será cada vez más difícil», explicó Rickard.
La "búsqueda de acero en el fondo marino"
La solución a ese problema reside en preservar la versión de datos generada por humanos antes del auge de la IA. Uno de los pioneros es John Graham-Cumming, miembro de la junta directiva y director de tecnología de Cloudflare.
Su proyecto, el sitio web LowBackgroundSteel.ai, cataloga conjuntos de datos, enlaces y medios que existían antes de 2022. Un ejemplo es Arctic Code Vault de GitHub, un repositorio de software de código abierto enterrado en una mina de carbón abandonada en Noruega, que se mantiene desde febrero de 2020.
Proyecto de Preservación de Datos Humanos de Graham-Cumming. Foto: Lowbackgroundsteel.ai. |
Otra fuente de datos que menciona es «wordfreq», un proyecto que rastrea la frecuencia con la que se usan las palabras en línea. La lingüista Robyn Speer lo mantuvo actualizado hasta 2021.
“La IA generativa ha contaminado los datos”, afirmó Speer. Citó como ejemplo la obsesión de ChatGPT con la palabra "delve", que ha estado apareciendo cada vez con más frecuencia últimamente. Esto distorsiona los datos en internet, haciéndolos menos fiables como reflejo de cómo escribimos y pensamos los humanos.
Los modelos de IA entrenados parcialmente con contenido sintético pueden acelerar los flujos de trabajo y eliminar el aburrimiento en el trabajo creativo. Pero más allá del rendimiento, es probable que los usuarios tengan que recurrir al contenido generado por humanos para tomar decisiones precisas, como usar acero de baja calidad para obtener mediciones precisas.
Los científicos han desarrollado diferentes métodos para fabricar acero utilizando oxígeno puro, un recordatorio de que preservar el pasado puede ser la única forma de construir un futuro confiable, según Business Insider .
Fuente: https://znews.vn/thu-sap-thanh-hoai-niem-tren-internet-post1559151.html
Kommentar (0)