Algo que está prestes a se tornar uma lembrança na internet.

A explosão de conteúdo gerado por IA criou um problema de confiabilidade, já que dados puramente humanos estão se tornando cada vez mais escassos.

ZNews•09/06/2025

Conteúdo puramente humano está na lista de recursos escassos na era da IA. Foto: Advertising Week .

O surgimento do ChatGPT em 2022 desencadeou uma explosão de conteúdo com inteligência artificial na internet. A Gartner prevê que, até 2026, 90% do conteúdo da internet será gerado por IA, incluindo texto, imagens e vídeos .

A IA é treinada para entender o pensamento humano. No entanto, se não houver mais dados puramente gerados por humanos, essa tecnologia usará suas próprias informações antigas, como uma fotocopiadora copiando a si mesma.

Muitos pesquisadores comparam o conteúdo original, gerado por humanos, a uma espécie de aço "limpo" nos tempos modernos, equivalente à raridade e à dificuldade de encontrar. Eles temem que, se ninguém armazenar cópias de dados antes de 2022, a internet perderá completamente sua integridade.

Uma catástrofe histórica se repete.

Na era pós-nuclear, os cientistas descobriram que todo o aço produzido após 1945 estava contaminado. As bombas atômicas contaminaram a atmosfera com radiação, que se espalhou para os metais produzidos nesse ambiente.

Isso resultou na inutilização de grande parte do aço para equipamentos de medição de alta precisão, como contadores Geiger e muitos outros sensores sensíveis. A solução foi recuperar aço antigo de navios de guerra afundados antes da guerra, que jaziam no fundo do oceano, onde não seriam afetados pela precipitação radioativa.

Para os desenvolvedores de IA, a maioria dos modelos é treinada usando conjuntos de dados massivos de informações humanas coletadas da internet. Mas se o software atual aprende com textos que gerou no passado, os modelos correm o risco de falhar, diluindo sua originalidade e profundidade.

O encouraçado Hindenburg, que afundou durante a Primeira Guerra Mundial, foi recuperado. Foto: Reuters Connect.

Isso torna o conteúdo gerado por humanos, especialmente aquele criado antes de 2022, mais valioso, de acordo com Will Allen, vice-presidente da Cloudflare, que opera uma das maiores redes de internet do mundo . Ele argumenta que isso ajuda os modelos de IA, bem como a sociedade como um todo, a se manterem ancorados em uma realidade compartilhada. As coisas se complicariam sem essa base.

As plataformas são especialmente importantes em áreas de alta tecnologia, como medicina, direito ou tributação. Por exemplo, um médico deve se basear em conteúdo escrito por especialistas humanos e em pesquisas factuais, e não em fontes geradas por inteligência artificial.

Essa ameaça também está se tornando realidade. Um ano após o lançamento do ChatGPT, o investidor de capital de risco Paul Graham relatou que precisou pesquisar conteúdo mais antigo para uma busca simples, a fim de evitar "iscas de SEO geradas por IA". Malte Ubl, CTO da startup de IA Vercel, respondeu que Graham estava essencialmente filtrando a internet em busca de conteúdo "antes que fosse contaminado por IA".

Matt Rickard, ex-engenheiro do Google, concorda. Ele escreveu em uma postagem de blog de 2023 que a IA coleta dados da internet, mas, cada vez mais, grande parte do conteúdo da internet é criado pela própria IA. "A saída do Chatner é muito difícil de detectar. Encontrar dados de treinamento que não tenham sido adulterados pela IA se tornará cada vez mais difícil", explicou Rickard.

A "busca por aço no fundo do mar"

A resposta para esse problema reside em preservar a versão dos dados gerada por humanos, anterior ao boom da IA. Um dos pioneiros nessa área é John Graham-Cumming, membro do conselho e diretor de tecnologia da Cloudflare.

Seu projeto, o site LowBackgroundSteel.ai, lista conjuntos de dados, caminhos e mídias que existiam antes de 2022. Um exemplo citado é o Arctic Code Vault do GitHub, um arquivo de software de código aberto enterrado em uma mina de carvão abandonada na Noruega, que contém dados desde fevereiro de 2020.

Projeto de preservação de dados humanos de Graham-Cumming. Foto: Lowbackgroundsteel.ai.

Outra fonte de dados citada por ele foi o “wordfreq”, um projeto que monitora a frequência de uso de palavras online. A linguista Robyn Speer foi responsável pela manutenção do projeto até 2021.

"A geração de IA poluiu os dados", disse Speer. Ela deu o exemplo da obsessão excessiva do ChatGPT com a palavra "delve" (investigar), o que levou ao seu aumento recente. Isso distorce os dados na internet, tornando-os menos confiáveis para refletir como os humanos escrevem e pensam.

Modelos de IA parcialmente treinados com conteúdo sintetizado podem acelerar fluxos de trabalho e eliminar a monotonia em tarefas criativas. No entanto, além do desempenho, os usuários ainda podem precisar recorrer a conteúdo original gerado por humanos para avaliações precisas, assim como se utiliza "aço de baixa precisão" para medições exatas.

Cientistas desenvolveram diversos métodos para produzir aço usando oxigênio puro. Segundo o Business Insider , isso nos lembra que preservar o passado pode ser a única maneira de construir um futuro confiável.

Fonte: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html