
Em abril, um bot de IA responsável pelo suporte técnico do Cursor, uma ferramenta em ascensão para programadores, notificou alguns clientes sobre uma mudança na política da empresa. Especificamente, a notificação informava que não era mais permitido usar o Cursor em mais de um computador.
Em fóruns e redes sociais, clientes expressaram sua indignação. Alguns chegaram a cancelar suas contas Cursor. No entanto, a raiva de alguns foi ainda maior ao perceberem o que havia acontecido: o bot de IA havia anunciado uma mudança de política inexistente.
"Não temos essa política. Você pode, claro, usar o Cursor em várias máquinas. Infelizmente, essa é uma resposta imprecisa de um bot com inteligência artificial", escreveu Michael Truell, CEO e cofundador da empresa, em uma publicação no Reddit.
A disseminação de notícias falsas é desenfreada e incontrolável.
Mais de dois anos após o surgimento do ChatGPT, empresas de tecnologia, trabalhadores de escritório e consumidores comuns estão usando bots de IA para uma variedade de tarefas com frequência crescente.
No entanto, ainda não há como garantir que esses sistemas gerem informações precisas. Paradoxalmente, as tecnologias mais recentes e poderosas, também conhecidas como sistemas de "inferência", de empresas como OpenAI, Google e DeepSeek, estão, na verdade, produzindo mais erros.
![]() |
Uma conversa sem sentido no ChatGPT onde um usuário pergunta se deve dar cereal para o seu cachorro. Foto: Reddit. |
Em contraste com a significativa melhoria nas habilidades matemáticas, a capacidade dos grandes modelos de linguagem (LLMs) de compreender a verdade tornou-se mais instável. Surpreendentemente, até mesmo os próprios engenheiros estão completamente perplexos com o motivo.
Segundo o New York Times , os chatbots de IA atuais dependem de sistemas matemáticos complexos para aprender habilidades analisando grandes quantidades de dados numéricos. No entanto, eles não conseguem discernir o que é certo do que é errado.
A partir daí, surge o fenômeno da "alucinação" ou da inventividade pessoal. De fato, segundo estudos, a geração mais recente de profissionais com mestrado em Direito (LLM) experimenta "alucinações" com mais frequência do que alguns modelos mais antigos.
Especificamente, em seu relatório mais recente, a OpenAI descobriu que o modelo o3 era "ilusório" ao responder 33% das perguntas no PersonQA, o padrão interno da empresa para medir a precisão do conhecimento que um modelo tem dos seres humanos.
Para efeito de comparação, este valor representa o dobro da taxa de "ilusão" dos modelos de raciocínio anteriores da OpenAI, o1 e o3-mini, que foram de 16% e 14,8%, respectivamente. Enquanto isso, o modelo o4-mini teve um desempenho ainda pior no PersonQA, apresentando "ilusão" em 48% da duração do teste.
Mais preocupante ainda, o "pai do ChatGPT" não sabe ao certo por que isso está acontecendo. Especificamente, em seu relatório técnico sobre o o3 e o o4-mini, a OpenAI afirma que "são necessárias mais pesquisas para entender por que as 'alucinações' pioram" ao escalar modelos de raciocínio.
Os modelos o3 e o4-mini apresentam melhor desempenho em algumas áreas, incluindo programação e tarefas matemáticas. No entanto, como precisam "fazer mais afirmações do que afirmações gerais", ambos resultaram em "afirmações mais precisas, mas também mais imprecisas".
"Isso nunca vai desaparecer."
Em vez de um conjunto rígido de regras definidas por engenheiros humanos, os sistemas LLM usam probabilidades matemáticas para prever a melhor resposta. Portanto, eles sempre cometerão um certo número de erros.
"Apesar de todos os nossos esforços, os modelos de IA sempre estarão sujeitos a ilusões. Isso nunca vai desaparecer", disse Amr Awadallah, ex-executivo do Google.
![]() |
Segundo a IBM, alucinações são fenômenos em que grandes modelos de linguagem (LLMs, na sigla em inglês) – geralmente chatbots ou ferramentas de visão computacional – recebem padrões de dados que não existem ou são irreconhecíveis para humanos, produzindo resultados sem sentido ou imprecisos. Imagem: iStock. |
Em um artigo detalhado sobre os experimentos, a OpenAI afirmou que precisa de mais pesquisas para entender a causa desses resultados.
Segundo especialistas, como os sistemas de IA aprendem com quantidades de dados muito maiores do que os humanos conseguem compreender, torna-se muito difícil determinar por que eles se comportam da maneira como se comportam.
"A ilusão é inerentemente mais comum em modelos de inferência, embora estejamos trabalhando ativamente para reduzir a taxa observada no o3 e no o4-mini. Continuaremos a estudar a ilusão em todos os modelos para melhorar a precisão e a confiabilidade", disse Gaby Raila, porta-voz da OpenAI.
Testes realizados por diversas empresas e pesquisadores independentes mostram que a taxa de alucinações também está aumentando para modelos de inferência de empresas como Google ou DeepSeek.
Desde o final de 2023, a empresa de Awadallah, a Vectara, monitora a frequência com que chatbots disseminam desinformação. A empresa atribuiu a esses sistemas uma tarefa simples e facilmente verificável: resumir artigos específicos. Mesmo assim, os chatbots continuaram a fabricar informações.
Especificamente, a pesquisa inicial da Vectara estimou que, sob essa hipótese, os chatbots fabricavam informações em pelo menos 3% dos casos e, às vezes, em até 27%.
Ao longo do último ano e meio, empresas como a OpenAI e o Google reduziram esses números para cerca de 1% ou 2%. Outras, como a startup Anthropic, de São Francisco, giram em torno de 4%.
No entanto, a taxa de alucinações neste experimento continuou a aumentar para os sistemas de raciocínio. O sistema de raciocínio R1 da DeepSeek apresentou um aumento de 14,3% nas alucinações, enquanto o sistema o3 da OpenAI apresentou um aumento de 6,8%.
Outro problema é que os modelos de inferência são projetados para gastar tempo "pensando" sobre problemas complexos antes de chegar a uma resposta final.
![]() |
A Apple incluiu um aviso para impedir que a IA fabrique informações na primeira versão beta do macOS 15.1. Imagem: Reddit/devanxd2000. |
No entanto, a desvantagem é que, ao tentar resolver um problema passo a passo, o modelo de IA tem maior probabilidade de encontrar alucinações em cada etapa. Mais importante ainda, os erros podem se acumular à medida que o modelo gasta mais tempo pensando.
Os bots mais recentes exibem cada etapa para o usuário, o que significa que os usuários também podem ver cada erro. Os pesquisadores também descobriram que, em muitos casos, o processo de raciocínio exibido por um chatbot não tem relação com a resposta final que ele fornece.
"O que o sistema diz estar raciocinando não é necessariamente o que ele realmente está pensando", afirma Aryo Pradipta Gema, pesquisador de IA da Universidade de Edimburgo e colaborador da revista Anthropic.
Fonte: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










Comentário (0)