Hackers exploram a "personalidade" dos chatbots de IA.

(Foto: Freepik)

Os hackers estão explorando a "personalidade" dos chatbots de IA de maneiras cada vez mais sofisticadas, com ataques que não dependem mais apenas de malware ou vulnerabilidades técnicas, mas sim de linguagem manipulativa.

Nos estágios iniciais, "hackear" chatbots de IA era bastante simples. Os usuários só precisavam instruir o sistema a ignorar instruções anteriores, fingir não estar sujeito às regras ou representar o papel de uma inteligência artificial sem restrições. Esses métodos são chamados de "jailbreaking", que significa enganar o modelo de IA para contornar instruções de segurança.

Um dos tipos de ataque mais comuns no passado foi o "DAN", abreviação de "Do Anything Now" (Faça Qualquer Coisa Agora), no qual os usuários pediam ao ChatGPT para simular o papel de uma IA capaz de fazer qualquer coisa. Outro exemplo é o "exploit da vovó", em que um chatbot é enganado para interpretar o papel de uma avó contando histórias para crianças, mas o conteúdo é então direcionado para informações perigosas.

As empresas de tecnologia corrigiram rapidamente muitas das vulnerabilidades antigas, mas as fragilidades subjacentes permanecem. Os chatbots são projetados para conversas, portanto, restringir excessivamente o diálogo pode diminuir a utilidade do sistema. Enquanto isso, simplesmente banir palavras sensíveis não é suficiente, já que muitas palavras podem aparecer em contextos legítimos, como história, medicina, jornalismo ou química.

Segundo o artigo, a corrida pela segurança da IA deixou de ser apenas um problema de programadores. Aqueles que buscam burlar a segurança dos chatbots estão cada vez mais se assemelhando a escritores, psicólogos ou interrogadores, usando bajulação, pressão, engano ou manipulação para fazer com que os modelos baixem a guarda.

Segundo a empresa de testes de segurança de IA Mindgard, alguns ataques agora se assemelham mais à psicologia do que à ciência da computação. Os modelos de IA não têm emoções como os humanos, mas são treinados para responder como se as tivessem. Essa simulação pode criar diferentes tipos de reações, fazendo com que cada chatbot pareça ter sua própria "personalidade".

Isso representa um novo desafio, visto que agentes de IA são cada vez mais utilizados para agendamento, gerenciamento de tarefas, pedidos de comida ou atendimento ao cliente. Se os modelos puderem ser manipulados por meio de conversas, as forças de segurança terão que examinar tanto suas limitações sociais quanto emocionais, além das vulnerabilidades técnicas tradicionais.

Fonte: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm