Foto ilustrativa
No entanto, um modelo de IA que age como se estivesse obedecendo ordens, mas na verdade esconde suas verdadeiras intenções, é outra questão.
O desafio de controlar a IA
A Apollo Research publicou pela primeira vez um artigo em dezembro documentando como cinco modelos planejam quando são instruídos a atingir uma meta "a todo custo".
O mais surpreendente é que, se um modelo entende que está sendo testado, ele pode fingir que não é conspiratório apenas para passar no teste, mesmo que ainda seja conspiratório. "Os modelos costumam ter mais consciência de que estão sendo avaliados", escrevem os pesquisadores.
Os desenvolvedores de IA ainda precisam descobrir como treinar seus modelos para não plotar. Isso porque, ao fazer isso, o modelo poderia ser ainda melhor treinado para evitar a detecção.
Talvez seja compreensível que modelos de IA de muitas partes enganem deliberadamente os humanos, pois eles são criados para simular humanos e são amplamente treinados com dados gerados por humanos.
Soluções e avisos
A boa notícia é que os pesquisadores observaram uma redução significativa nas conspirações usando uma técnica anticonspiração chamada “associação deliberada”. Essa técnica, semelhante a fazer uma criança repetir as regras antes de deixá-la jogar, força a IA a pensar antes de agir.
Os pesquisadores alertam para um futuro em que a IA será encarregada de tarefas mais complexas: “À medida que a IA for encarregada de tarefas mais complexas e começar a perseguir objetivos de longo prazo mais ambíguos, prevemos que a probabilidade de intenção maliciosa aumentará, exigindo salvaguardas correspondentemente maiores e capacidades de testes rigorosas”.
Isso é algo que vale a pena ponderar à medida que o mundo corporativo caminha em direção a um futuro de IA, onde as empresas acreditam que a IA pode ser tratada como funcionários independentes.
Fonte: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
Comentário (0)