Gli hacker sfruttano la "personalità" dei chatbot basati sull'intelligenza artificiale.

(Foto: Freepik)

Gli hacker stanno sfruttando la "personalità" dei chatbot basati sull'intelligenza artificiale in modi sempre più sofisticati, con attacchi che non si affidano più esclusivamente a malware o vulnerabilità tecniche, ma si spostano su un linguaggio manipolativo.

Nelle fasi iniziali, "hackerare" i chatbot basati sull'IA era piuttosto semplice. Gli utenti dovevano semplicemente istruire il sistema a ignorare le istruzioni precedenti, fingere di non essere vincolato dalle regole o comportarsi come un'intelligenza artificiale senza limiti. Questi metodi sono chiamati "jailbreaking", ovvero ingannare il modello di IA per aggirare le istruzioni di sicurezza.

Uno dei tipi di attacco più diffusi in passato era "DAN", acronimo di "Do Anything Now" (Fai qualsiasi cosa ora), in cui gli utenti chiedevano a ChatGPT di impersonare un'IA capace di fare qualsiasi cosa. Un altro esempio è l'"exploit della nonna", in cui un chatbot viene ingannato e indotto a interpretare il ruolo di una nonna che racconta storie ai bambini, ma il contenuto viene poi indirizzato verso informazioni pericolose.

Le aziende tecnologiche hanno rapidamente corretto molte delle vulnerabilità più datate, ma le debolezze di fondo rimangono. I chatbot sono progettati per la conversazione, quindi limitare eccessivamente il dialogo può ridurne l'utilità. Allo stesso tempo, vietare semplicemente le parole sensibili non è sufficiente, poiché molte parole possono comparire in contesti legittimi come storia, medicina, giornalismo o chimica.

Secondo l'articolo, la corsa alla sicurezza dell'IA non è più solo un problema dei programmatori. Chi cerca di aggirare la sicurezza dei chatbot assomiglia sempre più a scrittori, psicologi o inquirenti, usando lusinghe, pressioni, inganni o manipolazioni per far abbassare la guardia ai modelli.

Secondo Mindgard, un'azienda specializzata in test di sicurezza per l'IA, alcuni attacchi oggi assomigliano più alla psicologia che all'informatica . I modelli di IA non provano emozioni come gli esseri umani, ma vengono addestrati a reagire come se le avessero. Questa simulazione può generare diversi tipi di reazioni, facendo sì che ogni chatbot sembri avere una propria "personalità".

Ciò rappresenta una nuova sfida, poiché gli agenti di intelligenza artificiale vengono sempre più utilizzati per la pianificazione, la gestione delle attività, l'ordinazione di cibo o il servizio clienti. Se i modelli possono essere manipolati attraverso la conversazione, le forze di sicurezza dovranno esaminare i loro limiti sia sociali che emotivi, oltre alle tradizionali vulnerabilità tecniche.

Fonte: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm