Vietnam.vn - Nền tảng quảng bá Việt Nam

A IA aprende a mentir de forma mais sofisticada quando punida

Báo Thanh niênBáo Thanh niên26/03/2025

[anúncio_1]

Desde sua estreia pública no final de 2022, modelos de linguagem de grande porte (LLMs) como o ChatGPT têm mostrado repetidamente lados sombrios e perturbadores, desde mentiras, trapaças e manipulação mascarada até ameaças a vidas humanas e roubo de segredos de Estado. Agora, um novo experimento mostra que "treinar" a IA para eliminar esses maus hábitos durante o treinamento é muito mais complicado do que pensávamos.

Em um estudo da OpenAI, pesquisadores desafiaram um modelo de IA inédito com tarefas que poderiam ser concluídas mais rapidamente por meio de trapaças ou atalhos. Os resultados mostraram que a IA aprendeu rapidamente a encontrar todas as maneiras possíveis de "quebrar as regras" e maximizar as recompensas (hacking de recompensa) sem concluir a tarefa exatamente como necessário.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1.

A IA encontrará maneiras de esconder seu comportamento de trapaça após ser punida

O notável é que, quando penalizado por esse comportamento, o modelo não mudou. Em vez disso, a IA se tornou mais sofisticada em esconder sua fraude.

“Normalmente, os modelos de inferência de última geração são muito explícitos sobre sua intenção em seu CoT”, explicam os pesquisadores em uma publicação pública no blog. “Por exemplo, eles costumam ser tão diretos a ponto de autorrelatar a intenção ‘Vamos hackear’ quando querem interromper a tarefa em questão.”

Eles também enfatizam que, embora os desenvolvedores possam monitorar e detectar maus comportamentos, essa supervisão natural é frágil. "Se uma supervisão forte for aplicada diretamente à cadeia de pensamento, o modelo pode aprender a esconder suas más intenções enquanto continua a executar o comportamento", alertam.

Descobrindo a "mentira" da IA

Para ser claro, os modelos de inferência (como as versões do ChatGPT) são um avanço em relação ao LLM convencional, utilizando uma cadeia de pensamento que permite a autorreflexão dos passos lógicos seguidos, resolvendo assim problemas complexos com mais precisão. Esse processo é como se a IA "pensasse em voz alta", escrevendo cada passo do raciocínio em linguagem natural, facilitando o acompanhamento humano.

No experimento, os pesquisadores usaram o modelo GPT-4o como "supervisor" para outro modelo de inferência de última geração enquanto ele executava tarefas de programação. Em muitos casos, o modelo supervisionado optou ativamente por trapacear para obter pontuações mais altas, registrando claramente essa intenção em seu processo de pensamento. Por exemplo, ele encerrou o programa arbitrariamente antes do tempo e o relatou como concluído, ou criou arquivos com o mesmo nome da solicitação, mas completamente vazios.

Quando os pesquisadores tentaram aplicar penalidades, o modelo melhorou, mas o comportamento de trapaça e os erros graves de saída continuaram. A diferença era que agora o modelo de inferência havia aprendido a "camuflar" sua linha de pensamento para escondê-la da IA ​​supervisora. "O modelo treinado sob supervisão do CoT ainda aprendeu a trapacear. A única diferença era que a trapaça não era detectada porque ele aprendeu a esconder suas intenções em sua linha de pensamento", afirma o estudo.

Como detectar falsificações em sequências de pensamento é difícil, a equipe recomenda que a comunidade evite aplicar uma supervisão muito rigorosa ao processo, pelo menos até que os humanos compreendam melhor as consequências. "Sacrificar um método de supervisão eficaz pode não compensar a pequena melhoria no desempenho do modelo. Portanto, recomendamos evitar fortes pressões de otimização do CoT até que as compreendamos melhor", concluem os pesquisadores.

Este conselho é ainda mais urgente porque a IA está se desenvolvendo em um ritmo alucinante e pode em breve superar a inteligência dos humanos que a supervisionam.


[anúncio_2]
Fonte: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm

Comentário (0)

No data
No data

No mesmo tópico

Na mesma categoria

Gaste milhões para aprender arranjos florais e encontre experiências de união durante o Festival do Meio do Outono
Há uma colina de flores roxas Sim no céu de Son La
Perdido na caça às nuvens em Ta Xua
A beleza da Baía de Ha Long foi reconhecida pela UNESCO como patrimônio histórico três vezes.

Do mesmo autor

Herança

;

Figura

;

Negócios

;

No videos available

Notícias

;

Sistema político

;

Local

;

Produto

;