
Nisan ayında, programcılar için yeni bir araç olan Cursor'ın teknik desteğini sağlayan bir yapay zeka botu, bazı müşterilere şirket politikasında bir değişiklik olduğunu bildirdi ve Cursor'ı artık birden fazla bilgisayarda kullanmalarına izin verilmediğini belirtti.
Müşteriler öfkelerini forumlarda ve sosyal medyada dile getirdiler. Hatta bazıları Cursor hesaplarını iptal etti. Ancak bazıları, olan biteni fark ettiklerinde daha da öfkelendi: Yapay zeka botu, var olmayan bir politika değişikliğini bildirmişti.
Şirketin CEO'su ve kurucu ortağı Michael Truell, Reddit'te paylaştığı bir gönderide, "Böyle bir politikamız yok. Cursor'ı elbette birden fazla bilgisayarda kullanabilirsiniz. Maalesef bu, yapay zeka destekli bir bottan gelen yanlış bir yanıttı," diye yazdı.
Sahte bilgi kontrolden çıktı.
ChatGPT'nin piyasaya sürülmesinden iki yıldan fazla bir süre sonra, teknoloji şirketleri, ofis çalışanları ve günlük tüketiciler, yapay zeka botlarını giderek artan bir sıklıkta çeşitli görevler için kullanıyorlar.
Ancak bu sistemlerin doğru bilgi ürettiğinden emin olmanın bir yolu yok. Paradoksal olarak, OpenAI, Google ve DeepSeek gibi şirketlerin "çıkarım" sistemleri olarak bilinen en güçlü yeni teknolojiler daha fazla hata yapıyor.
![]() |
Kullanıcının köpeklerin tahıl yemesi gerekip gerekmediğini sorduğu saçma ChatGPT sohbeti. Fotoğraf: Reddit. |
Matematik becerileri önemli ölçüde gelişmiş olsa da, büyük dil modellerinin (LLM) gerçeği yakalama becerisi giderek zayıfladı. Şaşırtıcı bir şekilde, mühendislerin kendileri bile bunun nedenini tam olarak anlayamıyor.
New York Times'a göre, günümüzün yapay zeka sohbet robotları, büyük miktarda dijital veriyi analiz ederek beceri öğrenmek için karmaşık matematiksel sistemlere güveniyor. Ancak, neyin doğru neyin yanlış olduğuna karar veremiyor.
Buradan "halüsinasyon" veya kendi kendine bilgi üretme durumu ortaya çıkar. Hatta araştırmalara göre, son nesil hukuk fakültesi öğrencileri bazı eski nesillerden daha fazla "halüsinasyon" görüyor.
Özellikle OpenAI'nin son raporunda, o3 modelinin şirketin insanlar hakkındaki bilgisinin doğruluğunu ölçmek için kullandığı iç standart olan PersonQA'daki soruların %33'ünü yanıtladığında "halüsinasyon gördüğü" keşfedildi.
Karşılaştırma yapmak gerekirse, bu oran, OpenAI'nin önceki akıl yürütme modelleri olan o1 ve o3-mini'nin sırasıyla %16 ve %14,8 oranında "halüsinasyon" görme oranının iki katıdır. Bu arada, o4-mini modeli PersonQA'da daha da kötü performans göstererek %48 oranında "halüsinasyon" görmüştür.
Daha da endişe verici olanı, "ChatGPT'nin babası" bunun neden olduğunu tam olarak bilmiyor. Özellikle, o3 ve o4-mini hakkındaki teknik raporda OpenAI, akıl yürütme modelleri ölçeklendikçe "yanılsamanın" neden kötüleştiğini anlamak için daha fazla araştırmaya ihtiyaç olduğunu" yazıyor.
o3 ve o4-mini, programlama ve matematikle ilgili görevler de dahil olmak üzere bazı alanlarda daha iyi performans gösterdi. Ancak, "genellemeden daha fazla ifade üretmeleri" gerektiğinden, her iki model de "daha doğru ifadeler üretmekle birlikte, daha yanlış ifadeler de üretmekten" muzdaripti.
"Bu asla ortadan kalkmayacak"
İnsan mühendisler tarafından belirlenen katı kurallar dizisi yerine, LLM sistemleri en iyi yanıtı tahmin etmek için matematiksel olasılık kullanır. Bu nedenle her zaman bir miktar hata yaparlar.
Eski Google yöneticisi Amr Avadallah, "Tüm çabalarımıza rağmen, yapay zeka modelleri her zaman yanıltıcı olacak. Bu asla ortadan kalkmayacak," dedi.
![]() |
IBM'e göre halüsinasyonlar, büyük dil modellerinin (LLM'ler) (genellikle sohbet robotları veya bilgisayarlı görme araçları) var olmayan veya insanlar tarafından tanınamayan veri kalıpları alması ve bunun sonucunda anlamsız veya yanıltıcı sonuçlar üretmesi durumudur. Fotoğraf: iStock. |
OpenAI, deneyler hakkında detaylı bir makalede, bu sonuçların nedenlerini anlamak için daha fazla araştırmaya ihtiyaç duyduklarını söyledi.
Uzmanlar, yapay zeka sistemlerinin insanların anlayabileceğinden çok daha büyük miktardaki verilerden öğrendiği için, neden bu şekilde davrandıklarını belirlemenin zor olabileceğini söylüyor.
OpenAI sözcüsü Gaby Raila, "Çıkarım modellerinde yanılsamalar doğası gereği daha yaygındır, ancak o3 ve o4-mini'de görülen sıklığı azaltmak için aktif olarak çalışıyoruz. Doğruluk ve güvenilirliği artırmak için tüm modellerde yanılsamalar üzerinde çalışmaya devam edeceğiz," dedi.
Birçok bağımsız şirket ve araştırmacının yaptığı testler, Google veya DeepSeek gibi şirketlerin çıkarım modellerinde de halüsinasyon oranının arttığını gösteriyor.
Awadallah'ın şirketi Vectara, 2023'ün sonlarından bu yana sohbet robotlarının bilgileri ne sıklıkla yanlış aktardığını takip ediyor. Şirket, sistemlerden belirli haber makalelerini özetlemek gibi basit ve kolayca doğrulanabilir bir görev gerçekleştirmelerini istedi. Buna rağmen sohbet robotları bilgi üretmeye devam etti.
Vectara'nın ilk araştırması, bu senaryoda sohbet robotlarının en az %3 oranında, bazen de %27 oranında bilgi ürettiğini tahmin ediyordu.
Son bir buçuk yılda OpenAI ve Google gibi şirketler bu oranları %1-2 civarına düşürdü. San Francisco merkezli girişim Anthropic gibi diğerleri ise %4 civarında seyrediyor.
Ancak bu testteki halüsinasyon oranı, çıkarım sistemleri için artmaya devam etti. DeepSeek'in R1 çıkarım sisteminde halüsinasyon sıklığı %14,3 artarken, OpenAI'nin o3'ü %6,8 arttı.
Bir diğer sorun ise çıkarım modellerinin, nihai bir cevaba ulaşmadan önce karmaşık problemler hakkında "düşünmek" için zaman harcamak üzere tasarlanmış olmasıdır.
![]() |
Apple, macOS 15.1'in ilk test sürümüne yapay zekanın bilgi üretmesini engellemeye yönelik bir komut ekledi. Fotoğraf: Reddit/devanxd2000. |
Ancak olumsuz tarafı, yapay zeka modelinin sorunu adım adım çözmeye çalışması nedeniyle her adımda halüsinasyonlara daha yatkın hale gelmesidir. Daha da önemlisi, model düşünmeye daha fazla zaman harcadıkça hatalar birikebilir.
En yeni botlar, kullanıcılara her adımı gösteriyor; bu da kullanıcıların her hatayı da görebileceği anlamına geliyor. Araştırmacılar ayrıca, çoğu durumda bir sohbet robotunun gösterdiği düşünce sürecinin, verdiği nihai cevapla aslında alakasız olduğunu keşfetti.
Edinburgh Üniversitesi'nde yapay zeka araştırmacısı ve Anthropic'te yardımcı doçent olan Aryo Pradipta Gema, "Sistemin çıkarım yaptığını söylediği şey, aslında düşündüğü şey olmayabilir" diyor.
Kaynak: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html













Yorum (0)