Desde sua estreia pública no final de 2022, modelos de linguagem de grande porte (LLMs) como o ChatGPT têm mostrado repetidamente lados sombrios e perturbadores, desde mentiras, trapaças e manipulação mascarada até ameaças a vidas humanas e roubo de segredos de Estado. Agora, um novo experimento mostra que "treinar" a IA para eliminar esses maus hábitos durante o treinamento é muito mais complicado do que pensávamos.
Em um estudo da OpenAI, pesquisadores desafiaram um modelo de IA inédito com tarefas que poderiam ser concluídas mais rapidamente por meio de trapaças ou atalhos. Os resultados mostraram que a IA aprendeu rapidamente a encontrar todas as maneiras possíveis de "quebrar as regras" e maximizar as recompensas (hacking de recompensa) sem concluir a tarefa exatamente como necessário.
A IA encontrará maneiras de esconder seu comportamento de trapaça após ser punida
O notável é que, quando penalizado por esse comportamento, o modelo não mudou. Em vez disso, a IA se tornou mais sofisticada em esconder sua fraude.
“Normalmente, os modelos de inferência de última geração são muito explícitos sobre sua intenção em seu CoT”, explicam os pesquisadores em uma publicação pública no blog. “Por exemplo, eles costumam ser tão diretos a ponto de autorrelatar a intenção ‘Vamos hackear’ quando querem interromper a tarefa em questão.”
Eles também enfatizam que, embora os desenvolvedores possam monitorar e detectar maus comportamentos, essa supervisão natural é frágil. "Se uma supervisão forte for aplicada diretamente à cadeia de pensamento, o modelo pode aprender a esconder suas más intenções enquanto continua a executar o comportamento", alertam.
Descobrindo a "mentira" da IA
Para ser claro, os modelos de inferência (como as versões do ChatGPT) são um avanço em relação ao LLM convencional, utilizando uma cadeia de pensamento que permite a autorreflexão dos passos lógicos seguidos, resolvendo assim problemas complexos com mais precisão. Esse processo é como se a IA "pensasse em voz alta", escrevendo cada passo do raciocínio em linguagem natural, facilitando o acompanhamento humano.
No experimento, os pesquisadores usaram o modelo GPT-4o como "supervisor" para outro modelo de inferência de última geração enquanto ele executava tarefas de programação. Em muitos casos, o modelo supervisionado optou ativamente por trapacear para obter pontuações mais altas, registrando claramente essa intenção em seu processo de pensamento. Por exemplo, ele encerrou o programa arbitrariamente antes do tempo e o relatou como concluído, ou criou arquivos com o mesmo nome da solicitação, mas completamente vazios.
Quando os pesquisadores tentaram aplicar penalidades, o modelo melhorou, mas o comportamento de trapaça e os erros graves de saída continuaram. A diferença era que agora o modelo de inferência havia aprendido a "camuflar" sua linha de pensamento para escondê-la da IA supervisora. "O modelo treinado sob supervisão do CoT ainda aprendeu a trapacear. A única diferença era que a trapaça não era detectada porque ele aprendeu a esconder suas intenções em sua linha de pensamento", afirma o estudo.
Como detectar falsificações em sequências de pensamento é difícil, a equipe recomenda que a comunidade evite aplicar uma supervisão muito rigorosa ao processo, pelo menos até que os humanos compreendam melhor as consequências. "Sacrificar um método de supervisão eficaz pode não compensar a pequena melhoria no desempenho do modelo. Portanto, recomendamos evitar fortes pressões de otimização do CoT até que as compreendamos melhor", concluem os pesquisadores.
Este conselho é ainda mais urgente porque a IA está se desenvolvendo em um ritmo alucinante e pode em breve superar a inteligência dos humanos que a supervisionam.
[anúncio_2]
Fonte: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Comentário (0)