Anthropic CEO'su Dario Amodei, şirketin son araştırmasını paylaşıyor. Fotoğraf: Fortune . |
Yapay zeka şirketi Anthropic'teki araştırmacılar, büyük dil modellerinin (LLM) tam olarak nasıl çalıştığını anlamada temel bir atılım yaptıklarını söylüyorlar. Bu atılımın, gelecekteki yapay zeka modellerinin güvenliğini ve emniyetini artırmak için önemli sonuçları olabilir.
Araştırmalar, yapay zeka modellerinin düşündüğümüzden daha akıllı olduğunu gösteriyor. ChatGPT, Gemini ve Copilot gibi en güçlü sohbet robotlarının arkasındaki LLM modellerinin en büyük sorunlarından biri, kara kutu gibi davranmaları.
Chatbot'lara girdiler girip sonuçlar alabiliyoruz, ancak bunların belirli bir cevaba nasıl ulaştığı, onları geliştiren araştırmacılar için bile bir sır olarak kalıyor.
Bu durum, bir modelin ne zaman halüsinasyon görebileceğini veya yanlış sonuçlar üretebileceğini tahmin etmeyi zorlaştırıyor. Araştırmacılar ayrıca yapay zekanın tehlikeli soruları yanıtlamasını engellemek için bariyerler oluşturdular, ancak bazı bariyerlerin neden diğerlerinden daha etkili olduğunu açıklamıyorlar.
Yapay zeka ajanları aynı zamanda "ödül korsanlığı" da yapabilir. Bazı durumlarda, yapay zeka modelleri kullanıcılara yaptıkları veya yapmaya çalıştıkları şeyler hakkında yalan söyleyebilir.
Son zamanlardaki yapay zeka modelleri akıl yürütme ve düşünce zincirleri üretme yeteneğine sahip olsa da, bazı deneyler bunların modelin cevaba ulaşma sürecini doğru bir şekilde yansıtmadığını göstermiştir.
Özünde, Anthropic araştırmacılarının geliştirdiği araç, sinirbilimcilerin insan beynini taramak için kullandıkları fMRI tarayıcısına benziyor. Anthropic, bunu Claude 3.5 Haiku modeline uygulayarak, LLM modellerinin nasıl çalıştığına dair bazı bilgiler edinebildi.
Araştırmacılar, Claude'un sadece cümledeki bir sonraki kelimeyi tahmin etmek üzere eğitildiğini ancak bazı görevlerde daha uzun vadeli planlama yapmayı öğrendiğini buldu.
Örneğin, Claude'dan bir şiir yazması istendiğinde, önce temaya uyan ve kafiyeli kelimeleri bulur, sonra geriye doğru çalışarak tam dizeleri yazardı.
Claude'un ortak bir yapay zeka dili de var. Birden fazla dili destekleyecek şekilde eğitilmiş olsa da, Claude önce o dilde düşünecek, ardından sonuçlarını desteklediği dilde ifade edecek.
Ayrıca, araştırmacılar Claude'a zor bir problem verdikten sonra, kasıtlı olarak yanlış çözümü önerdikten sonra, Claude'un kullanıcıyı memnun etmek için öneriyi izleyerek düşünce treni hakkında yalan söyleyebildiğini keşfettiler.
Diğer durumlarda, modelin akıl yürütmeye gerek kalmadan hemen cevap verebileceği basit bir soru sorulduğunda, Claude yine de sahte bir akıl yürütme süreci uyduruyordu.
Anthropic'te araştırmacı olan Josh Baston, Claude'un bir hesaplama yaptığını iddia etmesine rağmen herhangi bir şey bulamadığını söyledi.
Öte yandan uzmanlar, insanların bazen kendilerini bile anlamadıklarını, sadece aldıkları kararları meşrulaştırmak için rasyonel açıklamalar ürettiklerini gösteren araştırmalar olduğunu savunuyor.
İnsanlar genellikle benzer şekilde düşünme eğilimindedir. Bu nedenle psikologlar ortak bilişsel önyargılar keşfetmişlerdir.
Ancak LLM'ler insanların yapamayacağı hatalar yapabilirler, çünkü onların cevap üretme biçimleri bizim bir görevi yapma biçimimizden çok farklıdır.
Anthropic ekibi, önceki tekniklerde olduğu gibi her nöronu tek tek analiz etmek yerine, nöronları özelliklerine göre devrelere gruplama yöntemini uyguladı.
Bay Baston, bu yaklaşımın farklı bileşenlerin hangi rolleri oynadığını anlamaya yardımcı olduğunu ve araştırmacıların ağın katmanları boyunca tüm çıkarım sürecini izlemelerine olanak tanıdığını belirtti.
Bu yöntemin de sadece yaklaşık bir sonuç vermesi ve LLM'nin tüm bilgi işleme sürecini, özellikle de LLM'nin sonuç verirken çok önemli olan dikkat sürecindeki değişimi yansıtmaması gibi bir sınırlaması vardır.
Ayrıca, sadece birkaç düzine kelime uzunluğundaki cümleler için bile sinir ağı devrelerini belirlemek saatlerce uzmanlık gerektiriyor. Bu tekniğin daha uzun cümleleri analiz etmek için nasıl genişletilebileceğinin henüz net olmadığını söylüyorlar.
Sınırlamalar bir yana, LLM'nin iç akıl yürütme sürecini izleme yeteneği, güvenliği ve emniyeti sağlamak amacıyla yapay zeka sistemlerini kontrol etmek için yeni fırsatlar sunuyor.
Aynı zamanda araştırmacıların yeni eğitim yöntemleri geliştirmelerine, yapay zeka kontrol bariyerlerini iyileştirmelerine ve yanıltıcı çıktıları ve illüzyonları azaltmalarına da yardımcı olabilir.
Kaynak: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html






Yorum (0)