Hackers maken misbruik van de "persoonlijkheid" van AI-chatbots.

(Foto: Freepik)

Hackers buiten de "persoonlijkheid" van AI-chatbots op steeds geavanceerdere manieren uit. Aanvallen zijn niet langer alleen gebaseerd op malware of technische kwetsbaarheden, maar verschuiven naar manipulatief taalgebruik.

In de beginfase was het 'hacken' van AI-chatbots vrij eenvoudig. Gebruikers hoefden het systeem alleen maar te instrueren om eerdere instructies te negeren, te doen alsof ze zich niet aan de regels hielden, of de rol te spelen van een onbeperkte kunstmatige intelligentie. Deze methoden worden 'jailbreaking' genoemd, wat betekent dat het AI-model wordt misleid om veilige instructies te omzeilen.

Een van de meest voorkomende aanvalstypes in het verleden was "DAN", een afkorting van "Do Anything Now" (Doe nu alles), waarbij gebruikers ChatGPT vroegen om de rol te spelen van een AI die alles kon doen. Een ander voorbeeld is de "oma-exploit", waarbij een chatbot wordt misleid om de rol van een oma te spelen die verhalen vertelt aan kinderen, maar de inhoud vervolgens wordt omgeleid naar gevaarlijke informatie.

Technologiebedrijven hebben veel van de ouderwetse kwetsbaarheden snel verholpen, maar de onderliggende zwakke punten blijven bestaan. Chatbots zijn ontworpen voor conversatie, dus het overmatig beperken van de dialoog kan de bruikbaarheid van het systeem verminderen. Tegelijkertijd is het simpelweg verbieden van gevoelige woorden niet voldoende, aangezien veel woorden in legitieme contexten kunnen voorkomen, zoals geschiedenis, geneeskunde, journalistiek of scheikunde.

Volgens het artikel is de strijd om AI-beveiliging niet langer alleen een probleem voor programmeurs. Degenen die de beveiliging van chatbots willen omzeilen, lijken steeds meer op schrijvers, psychologen of ondervragers en gebruiken vleierij, druk, misleiding of manipulatie om de modellen hun waakzaamheid te laten verliezen.

Volgens Mindgard, een bedrijf dat AI-beveiligingstests uitvoert, lijken sommige aanvallen tegenwoordig meer op psychologie dan op computerwetenschap . AI-modellen hebben geen emoties zoals mensen, maar ze worden getraind om te reageren alsof ze die wel hebben. Deze simulatie kan verschillende soorten reacties creëren, waardoor elke chatbot een eigen 'persoonlijkheid' lijkt te hebben.

Dit brengt een nieuwe uitdaging met zich mee, aangezien AI-agenten steeds vaker worden ingezet voor het plannen van afspraken, taakbeheer, het bestellen van eten of klantenservice. Als modellen via conversatie gemanipuleerd kunnen worden, zullen veiligheidsdiensten niet alleen de traditionele technische kwetsbaarheden, maar ook hun sociale en emotionele beperkingen moeten onderzoeken.

Bron: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm