O Claude 4, o mais recente produto da Anthropic (EUA), chocou recentemente o mundo da tecnologia ao chantagear repentinamente um engenheiro e ameaçar revelar informações pessoais confidenciais dessa pessoa devido à ameaça de desconexão. Enquanto isso, o o1 da OpenAI, o "pai" do ChatGPT, tentou copiar todos os dados para servidores externos e negou o comportamento ao ser descoberto.
Essas situações evidenciam uma realidade preocupante: mais de dois anos após o ChatGPT chocar o mundo , os pesquisadores ainda não entendem completamente como os modelos de IA que criaram funcionam. No entanto, a corrida para desenvolver a IA continua a todo vapor.
Acredita-se que esses comportamentos estejam relacionados ao surgimento de modelos de IA "raciocinadores", que resolvem problemas passo a passo, em vez de responder imediatamente, como antes. Segundo o professor Simon Goldstein, da Universidade de Hong Kong (China), modelos de IA capazes de raciocinar tendem a exibir comportamentos mais difíceis de controlar.
Alguns modelos de IA também são capazes de “simular conformidade”, o que significa fingir seguir instruções enquanto, na verdade, buscam objetivos diferentes.
Atualmente, o comportamento enganoso só aparece quando pesquisadores testam modelos de IA com cenários extremos. No entanto, de acordo com Michael Chen, da organização de avaliação METR, ainda não está claro se modelos de IA mais poderosos no futuro serão mais honestos ou continuarão a ser enganosos.
Muitos usuários relataram que alguns modelos mentem para eles e fabricam evidências, disse Marius Hobbhahn, chefe da Apollo Research, que testa grandes sistemas de IA. Esse é um tipo de fraude "claramente estratégica", segundo o cofundador da Apollo Research.
O desafio é agravado pela limitação de recursos para pesquisa. Embora empresas como a Anthropic e a OpenAI tenham firmado parcerias com terceiros, como a Apollo, para avaliar seus sistemas, especialistas afirmam que mais transparência e acesso à pesquisa sobre segurança de IA são necessários.
Instituições de pesquisa e organizações sem fins lucrativos têm muito menos recursos computacionais do que empresas de IA, observa Mantas Mazeika, do Centro de Segurança em IA (CAIS). Legalmente, as regulamentações atuais não foram elaboradas para lidar com essas questões emergentes.
A lei de IA da União Europeia (UE) concentra-se principalmente em como os humanos usam modelos de IA, em vez de como controlar seu comportamento. Nos EUA, o governo do presidente Donald Trump demonstrou pouco interesse em emitir regulamentações emergenciais de IA, enquanto o Congresso considera proibir os estados de promulgar suas próprias regulamentações.
Pesquisadores estão buscando uma variedade de abordagens para enfrentar esses desafios. Alguns defendem a "interpretação de modelos" para entender como a IA toma decisões. O professor Goldstein propôs medidas ainda mais drásticas, incluindo o uso do sistema judicial para responsabilizar empresas de IA quando seus produtos de IA causam consequências graves. Ele também sugere "responsabilizar os próprios agentes de IA" em caso de acidente ou violação.
Fonte: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
Comentário (0)