Hackerlar yapay zekâ destekli sohbet robotlarının "kişiliklerini" istismar ediyorlar.

(Fotoğraf: Freepik)

Siber saldırganlar, yapay zekâ destekli sohbet robotlarının "kişiliğini" giderek daha karmaşık yöntemlerle istismar ediyor; saldırılar artık yalnızca kötü amaçlı yazılımlara veya teknik güvenlik açıklarına dayanmakla kalmıyor, manipülatif dile de kayıyor.

İlk aşamalarda, yapay zekâ sohbet botlarını "hacklemek" oldukça basitti. Kullanıcıların tek yapması gereken, sisteme önceki talimatları görmezden gelmesini, kurallara bağlı değilmiş gibi davranmasını veya kısıtlanmamış bir yapay zekâ gibi rol yapmasını söylemekti. Bu yöntemlere "jailbreaking" denir; yani yapay zekâ modelini güvenli talimatları atlamaya ikna etmek anlamına gelir.

Geçmişte öne çıkan saldırı türlerinden biri, "Do Anything Now" (Hemen Her Şeyi Yap) kısaltması olan "DAN" saldırısıydı; bu saldırıda kullanıcılar ChatGPT'den her şeyi yapabilen bir yapay zeka rolü oynamasını isterdi. Bir diğer örnek ise "büyükanne istismarı"dır; burada bir chatbot, çocuklara hikaye anlatan bir büyükanne rolü oynamaya kandırılır, ancak içerik daha sonra tehlikeli bilgilere yönlendirilir.

Teknoloji şirketleri eski tip güvenlik açıklarının çoğunu hızla yamaladı, ancak altta yatan zayıf noktalar devam ediyor. Sohbet botları konuşma için tasarlanmıştır, bu nedenle diyaloğu aşırı derecede kısıtlamak sistemin kullanışlılığını azaltabilir. Öte yandan, hassas kelimeleri yasaklamak yeterli değildir, çünkü birçok kelime tarih, tıp, gazetecilik veya kimya gibi meşru bağlamlarda da kullanılabilir.

Makaleye göre, yapay zekâ güvenliği yarışı artık sadece programcıların sorunu değil. Sohbet robotlarının güvenliğini aşmaya çalışanlar giderek yazarlara, psikologlara veya sorgulayıcılara benzemeye başlıyor ve modellerin gardını düşürmeleri için dalkavukluk, baskı, aldatma veya manipülasyon kullanıyorlar.

Yapay zeka güvenlik test şirketi Mindgard'a göre, bazı saldırılar artık bilgisayar biliminden çok psikolojiye benziyor. Yapay zeka modelleri insanlar gibi duygulara sahip değil, ancak varmış gibi tepki vermeleri için eğitiliyorlar. Bu simülasyon, farklı tepki türleri yaratabiliyor ve her bir sohbet robotunun kendine özgü bir "kişiliğe" sahipmiş gibi görünmesine neden olabiliyor.

Bu durum, yapay zekâ ajanlarının planlama, görev yönetimi, yemek siparişi veya müşteri hizmetleri gibi alanlarda giderek daha fazla kullanılmasıyla yeni bir zorluk ortaya çıkarıyor. Modellerin konuşma yoluyla manipüle edilebilmesi durumunda, güvenlik güçlerinin geleneksel teknik güvenlik açıklarına ek olarak, bu modellerin sosyal ve duygusal sınırlamalarını da incelemesi gerekecektir.

Kaynak: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm