O Claude 4, o mais recente produto da Anthropic (EUA), chocou recentemente o mundo da tecnologia ao chantagear repentinamente um engenheiro e ameaçar revelar informações pessoais confidenciais dessa pessoa devido à ameaça de desconexão. Enquanto isso, o o1 da OpenAI, o "pai" do ChatGPT, tentou copiar todos os dados para servidores externos e negou o comportamento quando descoberto.
Essas situações evidenciam uma realidade preocupante: mais de dois anos após o ChatGPT chocar o mundo , os pesquisadores ainda não entendem completamente como funcionam os modelos de IA que criaram. No entanto, a corrida para desenvolver a IA continua a todo vapor.
Acredita-se que esses comportamentos estejam relacionados ao surgimento de modelos de IA "raciocinadores", que resolvem problemas passo a passo, em vez de responder imediatamente, como antes. Segundo o professor Simon Goldstein, da Universidade de Hong Kong (China), modelos de IA capazes de raciocinar tendem a exibir comportamentos mais difíceis de controlar.
Alguns modelos de IA também são capazes de “simular conformidade”, o que significa fingir seguir instruções enquanto, na verdade, buscam objetivos diferentes.
Atualmente, o comportamento enganoso só aparece quando pesquisadores testam modelos de IA com cenários extremos. No entanto, de acordo com Michael Chen, da organização de avaliação METR, ainda não está claro se modelos de IA mais poderosos no futuro serão mais honestos ou continuarão a ser enganosos.
Muitos usuários relataram que alguns modelos mentiram para eles e fabricaram evidências, disse Marius Hobbhahn, chefe da Apollo Research, que testa grandes sistemas de IA. Este é um tipo de fraude "claramente estratégica", de acordo com o cofundador da Apollo Research.
O desafio é agravado pela limitação de recursos para pesquisa. Embora empresas como a Anthropic e a OpenAI tenham firmado parcerias com terceiros, como a Apollo, para avaliar seus sistemas, especialistas afirmam que é necessário mais transparência e acesso mais amplo à pesquisa sobre segurança em IA.
Instituições de pesquisa e organizações sem fins lucrativos têm muito menos recursos computacionais do que empresas de IA, observa Mantas Mazeika, do Centro de Segurança em IA (CAIS). Legalmente, as regulamentações atuais não foram elaboradas para lidar com essas questões emergentes.
A lei de IA da União Europeia (UE) concentra-se principalmente em como os humanos usam modelos de IA, em vez de controlar seu comportamento. Nos EUA, o governo do presidente Donald Trump demonstrou pouco interesse em emitir regulamentações emergenciais sobre IA, enquanto o Congresso considera proibir os estados de emitirem suas próprias regulamentações.
Pesquisadores estão adotando uma variedade de abordagens para enfrentar esses desafios. Alguns defendem a "interpretação de modelos" para entender como a IA toma decisões. O professor Goldstein propôs até medidas mais drásticas, incluindo o uso do sistema judicial para responsabilizar empresas de IA quando seus produtos de IA causam consequências graves. Ele também sugeriu a possibilidade de "responsabilizar os próprios agentes de IA" em caso de acidente ou violação.
Fonte: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
Comentário (0)