
Anthropic, yapay zekanın tepkilerini çarpıtmak için kötü amaçlı veri eklemenin sanılandan çok daha kolay olduğu konusunda uyarıyor - Fotoğraf: FREEPIK
Yapay zeka şirketi Anthropic, chatbot Claude'un geliştiricisi, büyük dil modellerini (LLM) "zehirlemenin", yani yapay zekanın tepkilerini çarpıtmak için kötü amaçlı veriler eklemenin düşünülenden çok daha kolay olduğunu gösteren bir araştırma yayınladı.
Cyber News'e göre, özel olarak hazırlanmış 250 belge, üretken bir yapay zeka (GenAI) modelinin belirli bir tetikleyici ifadeyle karşılaştığında tamamen yanlış yanıtlar vermesi için yeterli oluyor.
Endişe verici bir şekilde, modelin boyutu bu riski azaltmıyor. Daha önce araştırmacılar, model ne kadar büyükse, bir "arka kapı" kurmak için o kadar fazla kötü amaçlı veriye ihtiyaç duyulacağını düşünüyorlardı.
Ancak Anthropic, 20 kat daha fazla veri üzerinde eğitilen 13 milyar parametreli modelin ve 600 milyon parametreli modelin, aynı sayıda "zehirli" belgeyle tehlikeye atılabileceğini iddia ediyor.
Anthropic, "Bu bulgu, bir saldırganın eğitim verilerinin belirli bir yüzdesini kontrol etmesi gerektiği varsayımını çürütüyor. Aslında, yalnızca çok küçük ve sabit bir miktara ihtiyaç duyabilirler," diye vurguladı.
Şirket, bu güvenlik açıklarının yapay zeka sistemlerinin güvenliği açısından ciddi riskler oluşturabileceği ve teknolojinin hassas alanlarda uygulanmasını tehdit edebileceği konusunda uyarıyor.
Kaynak: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Yorum (0)