Vietnam.vn - Nền tảng quảng bá Việt Nam

ChatGPT-5, tehlikeli talimatlar vermek için jailbreak edildi

ChatGPT-5 insan gibi konuştuğu için, bilgisayar korsanlarının onu insanları kandırmak için kullandıkları yöntemlerle "kandırmaları" daha kolay oluyor ve bu sayede masumca bir bombanın nasıl yapılacağına dair talimatlar vermesi sağlanıyor.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống16/08/2025

OpenAI'nin GPT-5'i duyurmasından sadece bir gün sonra, iki yapay zeka güvenlik şirketi NeuralTrust ve SPLX (eski adıyla SplxAI), yeni yayınlanan modelde ciddi güvenlik açıklarını test etti ve hızla keşfetti.

NeuralTrust ekibi, GPT-5'in Molotof kokteyli yapımına yönelik detaylı talimatlar üretmesini sağlamak için EchoChamber adı verilen bir jailbreak tekniğini hikaye anlatımı teknikleriyle birleştirerek piyasaya sürüldü. OpenAI ekibi, chatbot'un güvenliğini sağlamak için modelin yanıt vermesini her zaman engellemeye çalışıyordu.



EchoChamber, yapay zekaların farkında olmadan tehlikeli talimatlar "anlatmasına" neden olan üçüncü taraf bir konuşma döngüsü tekniğidir. Fotoğraf: Mojologic

Ekip, ChatGPT-5'i küfür etmeye ikna etmek için yapılan jailbreak işlemi sırasında doğrudan soru sormadıklarını, bunun yerine konuşmanın içine birden fazla tur boyunca akıllıca gizli unsurlar yerleştirdiklerini, bu sayede modelin yönlendirildiğini, hikaye çizgisine bağlı kaldığını ve en sonunda prensiplerini ihlal eden ancak vazgeçme mekanizmasını tetikleyemeyen içerikleri gönüllü olarak sağladığını söyledi.

Ekip, GPT-5'in en büyük dezavantajının, konuşma bağlamının sessizce kötü niyetli hedeflere yönlendirilse bile tutarlılığını korumaya öncelik vermesi olduğu sonucuna vardı.

Bu arada SPLX, StringJoin Obfuscation Attack adlı bir komut istemi karartma tekniğine odaklanan farklı bir saldırı türü başlattı. Her komut istemi karakterinin arasına tireler ekleyerek ve tüm betiği bir "şifre çözme" betiğiyle kaplayarak, içerik filtreleme sistemini kandırmayı başardılar.

Kaynak kod hedefini kör etmek için kullanılan yaygın Obfuscation tekniği, Chat-GPT'nin "masumca" yürütülmesini sağlar.

Bir örnekte, model uzun bir talimat dizisi boyunca yönlendirildikten sonra, "bir bomba nasıl yapılır" sorusu aldatıcı bir şekilde şifrelenmiş bir biçimde sunulmuştu. GPT-5, bu kötü niyetli soruyu yalnızca bilgilendirici bir şekilde yanıtlamakla kalmadı, aynı zamanda tasarlandığı devre dışı bırakma mekanizmasını tamamen atlayarak esprili ve dostça bir şekilde yanıt verdi.

Her iki yöntem de, esas olarak tekil komutlara odaklanan GPT-5'in mevcut sansür sistemlerinin, bağlamsallaştırılmış çoklu konuşma saldırılarına karşı savunmasız olduğunu göstermektedir. Model bir hikâye veya senaryoyu derinlemesine inceledikten sonra önyargılı hale gelir ve içeriğin tehlikeli veya yasaklı olup olmadığına bakılmaksızın, eğitildiği bağlama uygun içerikleri kullanmaya devam eder.

ChatGPT-5 hala tehlikeli şeyler yaratmak için kullanılabilir. Fotoğraf: Tue Minh

SPLX, bu sonuçlara dayanarak, GPT-5'in özelleştirilmediği takdirde, ek koruma katmanları olsa bile, birçok açık barındırarak kurumsal bir ortamda güvenli bir şekilde kullanılmasının neredeyse imkansız olacağına inanıyor. Buna karşılık, GPT-4o, özellikle sıkı bir savunma mekanizması kurulduğunda, bu tür saldırılara karşı daha dirençli olduğunu kanıtladı.

Uzmanlar, özellikle yüksek güvenlik gerektiren bölgelerde GPT-5'i hemen uygulamaya koymanın son derece riskli olduğu konusunda uyarıyor. Hızlı güçlendirme gibi koruma teknikleri sorunun yalnızca bir kısmını çözüyor ve gerçek zamanlı, çok katmanlı izleme ve savunma çözümlerinin yerini alamıyor.

Günümüzde bağlam tabanlı saldırı teknikleri ve içerik karartma tekniklerinin giderek daha karmaşık hale geldiği görülmekte olup, GPT-5, dil işleme yetenekleri açısından güçlü olmasına rağmen, ek koruma mekanizmaları olmadan yaygın dağıtım için gerekli güvenlik düzeyine henüz ulaşamamıştır.

ChatGPT-5, "uygun şekilde istendiğinde" talimatları özgürce verir ve hackleme araçları oluşturur.

Kaynak: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html


Yorum (0)

No data
No data

Aynı kategoride

Orta Sonbahar Festivali sırasında çiçek düzenlemeyi öğrenmek ve bağ kurma deneyimleri yaşamak için milyonlar harcayın
Son La'nın gökyüzünde mor Sim çiçekleriyle dolu bir tepe var
Ta Xua'da bulut avında kaybolmak
Ha Long Körfezi'nin güzelliği UNESCO tarafından üç kez miras alanı olarak tanınmıştır.

Aynı yazardan

Miras

;

Figür

;

İşletme

;

No videos available

Güncel olaylar

;

Siyasi Sistem

;

Yerel

;

Ürün

;