
Nisan ayında, programcılar için hızla gelişen bir araç olan Cursor'ın teknik desteğini sağlayan bir yapay zeka botu, bazı müşterilere şirket politikasındaki bir değişikliği bildirdi. Bildirimde özellikle, Cursor'ı artık birden fazla bilgisayarda kullanamayacakları belirtildi.
Müşteriler forumlarda ve sosyal medyada öfkelerini dile getirmek için paylaşımlarda bulundular. Bazıları Cursor hesaplarını bile iptal etti. Ancak bazıları, olanların farkına vardıklarında daha da öfkelendiler: Yapay zeka botu, aslında var olmayan bir politika değişikliğini duyurmuştu.
Şirketin CEO'su ve kurucu ortağı Michael Truell, Reddit'te yaptığı bir paylaşımda, "Böyle bir politikamız yok. Elbette Cursor'ı birden fazla makinede kullanabilirsiniz. Ne yazık ki, bu yapay zeka destekli bir bottan gelen hatalı bir yanıt" diye yazdı.
Sahte haberlerin yayılması kontrolsüz ve yaygın bir hal almış durumda.
ChatGPT'nin ortaya çıkışından iki yıldan fazla bir süre sonra, teknoloji şirketleri, ofis çalışanları ve sıradan tüketiciler, çeşitli görevler için yapay zeka botlarını giderek artan bir sıklıkla kullanıyor.
Ancak, bu sistemlerin doğru bilgi ürettiğini garanti etmenin hala bir yolu yok. Paradoksal olarak, OpenAI, Google ve DeepSeek gibi şirketlerin "çıkarım" sistemleri olarak da bilinen en yeni ve en güçlü teknolojileri aslında daha fazla hata üretiyor.
![]() |
ChatGPT'de bir kullanıcının köpeğine tahıl maması verip vermemesi gerektiğini sorduğu anlamsız bir konuşma. Fotoğraf: Reddit. |
Matematiksel becerilerdeki önemli gelişmelerin aksine, büyük dil modellerinin (LLM'ler) gerçeği kavrama yeteneği daha da zayıflamıştır. Şaşırtıcı bir şekilde, mühendislerin kendileri bile bunun nedenini anlamakta tamamen güçlük çekiyorlar.
New York Times'a göre, günümüzün yapay zekâ destekli sohbet robotları, büyük miktarda sayısal veriyi analiz ederek beceriler öğrenmek için karmaşık matematiksel sistemlere dayanıyor. Ancak, neyin doğru neyin yanlış olduğuna karar veremiyorlar.
Buradan "halüsinasyon" veya kendini icat etme fenomeni ortaya çıkar. Aslında, araştırmalara göre, en yeni nesil LLM'ler bazı eski modellere göre daha sık "halüsinasyon" yaşıyor.
Özellikle, OpenAI son raporunda, şirketin insan hakkındaki bilgi doğruluğunu ölçmek için kullandığı dahili standart olan PersonQA'daki soruların %33'üne verilen yanıtlarda o3 modelinin "yanıltıcı" olduğunu keşfetti.
Karşılaştırma yapmak gerekirse, bu rakam OpenAI'nin önceki akıl yürütme modelleri olan o1 ve o3-mini'nin sırasıyla %16 ve %14,8 olan "yanılsama" oranının iki katıdır. Bu arada, o4-mini modeli PersonQA'da daha da kötü performans göstererek test süresinin %48'inde "yanılsama" yaşadı.
Daha da endişe verici olanı, "ChatGPT'nin babası" aslında bunun neden olduğunu bilmiyor. Özellikle, OpenAI, o3 ve o4-mini hakkındaki teknik raporunda, akıl yürütme modelleri ölçeklendirildiğinde "halüsinasyonların" neden kötüleştiğini anlamak için "daha fazla araştırmaya ihtiyaç duyulduğunu" belirtiyor.
o3 ve o4-mini, programlama ve matematiksel görevler de dahil olmak üzere bazı alanlarda daha iyi performans gösteriyor. Bununla birlikte, "genel ifadelerden daha fazla ifade oluşturmaları" gerektiğinden, her iki model de "daha doğru ifadeler, ancak aynı zamanda daha yanlış ifadeler" üretiyor.
"Bu asla ortadan kalkmayacak."
İnsan mühendisler tarafından tanımlanan katı kurallar dizisi yerine, LLM sistemleri en iyi yanıtı tahmin etmek için matematiksel olasılıkları kullanır. Bu nedenle, her zaman belirli sayıda hata yapacaklardır.
Eski Google yöneticisi Amr Awadallah, "Tüm çabalarımıza rağmen, yapay zeka modelleri her zaman yanılgılara maruz kalacaktır. Bu asla ortadan kalkmayacak," dedi.
![]() |
IBM'e göre halüsinasyonlar, büyük dil modellerinin (LLM'ler) -çoğunlukla sohbet robotları veya bilgisayar görüş araçları- var olmayan veya insanlar tarafından tanınamayan veri kalıpları alması ve bunun sonucunda anlamsız veya yanlış sonuçlar üretmesi fenomenidir. Görsel: iStock. |
OpenAI, deneylerle ilgili detaylı bir makalede, bu sonuçların nedenini anlamak için daha fazla araştırmaya ihtiyaç duyduğunu belirtti.
Uzmanlara göre, yapay zekâ sistemleri insanların kavrayabileceğinden çok daha büyük miktarda veriden öğrendiği için, davranışlarının nedenlerini belirlemek çok zorlaşıyor.
"Bu yanılgı, çıkarım modellerinde doğası gereği daha yaygındır, ancak o3 ve o4-mini'de görülen oranı azaltmak için aktif olarak çalışıyoruz. Doğruluk ve güvenilirliği artırmak için tüm modellerdeki yanılgıyı incelemeye devam edeceğiz," dedi OpenAI sözcüsü Gaby Raila.
Çeşitli bağımsız şirketler ve araştırmacılar tarafından yapılan testler, Google veya DeepSeek gibi şirketlerin çıkarım modellerinde de yanılsama oranının arttığını gösteriyor.
2023 yılının sonlarından itibaren Awadallah'ın şirketi Vectara, chatbot'ların yanlış bilgi yayma sıklığını izliyor. Şirket, bu sistemlere basit ve kolayca doğrulanabilir bir görev verdi: belirli makaleleri özetlemek. Buna rağmen, chatbot'lar sürekli olarak bilgi uydurmaya devam etti.
Özellikle Vectara'nın ilk araştırması, bu hipotez altında, sohbet botlarının en az %3 oranında, bazen ise %27'ye kadar bilgi uydurduğunu tahmin ediyordu.
Son bir buçuk yılda, OpenAI ve Google gibi şirketler bu rakamları %1 veya %2 civarına düşürdü. San Francisco merkezli Anthropic gibi diğer girişimler ise %4 civarında seyrediyor.
Ancak, bu deneyde halüsinasyon oranları akıl yürütme sistemlerinde artmaya devam etti. DeepSeek'in R1 akıl yürütme sisteminde halüsinasyon oranı %14,3 artarken, OpenAI'nin o3 sisteminde bu oran %6,8 arttı.
Bir diğer sorun ise çıkarım modellerinin, nihai bir cevaba ulaşmadan önce karmaşık sorunlar üzerinde "düşünmek" için zaman harcayacak şekilde tasarlanmış olmasıdır.
![]() |
Apple, macOS 15.1'in ilk beta sürümünde yapay zekanın bilgi uydurmasını önlemek için bir uyarı mesajı ekledi. Resim: Reddit/devanxd2000. |
Ancak, olumsuz yanı şu ki, bir problemi adım adım çözmeye çalışırken, yapay zeka modelinin her adımda yanılsamalarla karşılaşma olasılığı daha yüksektir. Daha da önemlisi, model düşünmeye daha fazla zaman harcadıkça hatalar birikebilir.
En yeni botlar, kullanıcıya her adımı gösteriyor; bu da kullanıcıların her hatayı da görebileceği anlamına geliyor. Araştırmacılar ayrıca, birçok durumda bir chatbot'un sergilediği düşünme sürecinin, verdiği nihai cevapla aslında ilgisiz olduğunu da keşfetti.
Edinburgh Üniversitesi'nde yapay zeka araştırmacısı ve Anthropic'e katkıda bulunan Aryo Pradipta Gema, "Sistemin mantık yürüttüğünü söylediği şey, aslında düşündüğü şey olmak zorunda değil" diyor.
Kaynak: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










Yorum (0)