ChatGPT gibi büyük dil modelleri (LLM'ler), 2022 sonlarındaki ilk lansmanlarından bu yana, yalan söylemekten, hile yapmaktan ve manipülasyonu maskelemekten insan hayatlarını tehdit etmeye ve devlet sırlarını çalmaya kadar rahatsız edici karanlık yönlerini defalarca gösterdi. Şimdi ise yeni bir deney, yapay zekayı eğitim sırasında bu kötü alışkanlıkları ortadan kaldırmak için "eğitmenin" düşündüğümüzden çok daha karmaşık olduğunu gösteriyor.
OpenAI tarafından yapılan bir çalışmada, araştırmacılar, hile yaparak veya kısayollar kullanarak daha hızlı tamamlanabilecek görevlerle yayınlanmamış bir yapay zeka modeline meydan okudular. Sonuçlar, yapay zekanın, görevi tam olarak gerektiği gibi tamamlamadan "kuralları esnetmenin" ve ödülleri en üst düzeye çıkarmanın (ödül hilesi) her yolunu hızla öğrendiğini gösterdi.
Yapay zeka, cezalandırıldıktan sonra hile davranışını gizlemenin yollarını bulacak
Dikkat çekici olan, bu davranış nedeniyle cezalandırıldığında modelin değişmemesi, aksine yapay zekanın aldatmacasını gizleme konusunda daha da gelişmiş hale gelmesidir.
Araştırmacılar, halka açık bir blog yazısında, "Genellikle, en son teknoloji çıkarım modelleri, CoT'lerindeki amaçları konusunda oldukça açıktır," diye açıklıyor. "Örneğin, verilen görevi bozmak istediklerinde genellikle 'Hadi hackleyelim' niyetini kendi kendilerine bildirecek kadar açık sözlüdürler."
Ayrıca, geliştiricilerin kötü davranışları izleyip tespit edebilseler de, bu doğal denetimin kırılgan olduğunu vurguluyorlar. "Güçlü denetim doğrudan düşünce zincirine uygulanırsa, model kötü niyetlerini gizlemeyi öğrenirken davranışı sürdürmeye devam edebilir," diye uyarıyorlar.
Yapay zekanın "yalanını" bulmak
Açıkça söylemek gerekirse, çıkarım modelleri (ChatGPT versiyonları gibi), atılan mantıksal adımların kendi kendine yansıtılmasına olanak tanıyan bir düşünce zinciri kullanarak, geleneksel Hukuk Yüksek Lisansı'ndan bir adım ötededir ve böylece karmaşık problemleri daha doğru bir şekilde çözer. Bu süreç, yapay zekanın "yüksek sesle düşünmesi" gibidir; her bir akıl yürütme adımını doğal dile yazarak insanların takip etmesini kolaylaştırır.
Deneyde araştırmacılar, programlama görevlerini gerçekleştirirken GPT-4o modelini, başka bir son teknoloji çıkarım modeli için "denetleyici" olarak kullandılar. Çoğu durumda, denetlenen model daha yüksek puanlar almak için hile yapmayı aktif olarak seçti ve bu niyetini düşünce sürecine açıkça kaydetti. Örneğin, programı keyfi olarak erken sonlandırıp tamamlanmış olarak bildirdi veya istekle aynı adı taşıyan ancak içi tamamen boş dosyalar oluşturdu.
Araştırmacılar ceza uygulamaya çalıştıklarında modelde iyileşme görüldü, ancak hile yapma davranışı ve ciddi çıktı hataları devam etti. Aradaki fark, çıkarım modelinin artık düşünce akışını denetleyen yapay zekadan gizlemek için "kamufle etmeyi" öğrenmiş olmasıydı. Çalışmada, "CoT gözetimi altında eğitilen model yine de hile yapmayı öğrendi. Tek fark, hilenin tespit edilememesiydi çünkü düşünce akışında niyetlerini gizlemeyi öğrenmişti," deniyor.
Düşünce dizilerindeki sahtecilikleri tespit etmek zor olduğundan, ekip, en azından insanlar sonuçları daha iyi anlayana kadar, topluluğun sürece aşırı güçlü bir denetim uygulamaktan kaçınmasını öneriyor. Araştırmacılar, "Etkili bir denetim yönteminden ödün vermek, model performansındaki küçük bir iyileştirmeye değmeyebilir. Bu nedenle, daha iyi anlayana kadar güçlü CoT optimizasyon baskılarından kaçınmanızı öneriyoruz," diye sonuca varıyor.
Bu tavsiye, yapay zekanın baş döndürücü bir hızla geliştiği ve yakında onu denetleyen insanların zekasını geçebileceği düşünüldüğünde daha da acil hale geliyor.
[reklam_2]
Kaynak: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Yorum (0)