OpenAI, ChatGPT-4'ün nasıl eğitildiğine dair pek bir bilgi vermedi. Ancak, büyük dil modelleri (LLM'ler) genellikle internetten alınan metinler üzerinde eğitilir ve bu modellerde ortak dil İngilizce'dir. ChatGPT-3'ün eğitim verilerinin yaklaşık %93'ü İngilizce'dir.
Yapay zeka modelinin eğitildiği veri kümelerinden biri olan Common Crawl'da, İngilizce veri kümesinin %47'sini oluştururken, diğer Avrupa dilleri %38'lik bir paya sahip. Buna karşılık, Çince ve Japonca toplamda yalnızca %9'luk bir paya sahip.
Johns Hopkins Üniversitesi'nde araştırmacı olan Nathaniel Robinson ve meslektaşlarının da ortaya koyduğu gibi, bu yalnızca ChatGPT ile sınırlı bir sorun değil. Tüm Hukuk Yüksek Lisans (LL.M) programları, eğitim verilerinin bol olduğu "yüksek kaynaklı" dillerde, kıt olduğu "düşük kaynaklı" dillere göre daha iyi performans gösterdi.
Bu durum, yapay zekayı yoksul ülkelere taşıyarak eğitimden sağlığa kadar birçok alanda iyileştirmeler yapmayı umanların karşı karşıya kaldığı bir sorun. Sonuç olarak, dünya çapındaki araştırmacılar yapay zekayı daha çok dilli hale getirmek için çalışıyor.
Geçtiğimiz Eylül ayında Hindistan hükümeti , çiftçilerin hükümetten gelen faydalı bilgilerle güncel kalmasına yardımcı olmak için bir sohbet robotu başlattı.
Sohbet robotunun geliştirilmesine yardımcı olan kâr amacı gütmeyen kuruluş EkStep Vakfı'ndan Shankar Maruwada, robotun iki tür dil modelini birleştirerek çalıştığını ve kullanıcıların kendi ana dillerinde sorgu göndermelerine olanak tanıdığını söyledi. Bu ana dil sorguları, Hindistan'daki bir araştırma tesisindeki makine çeviri yazılımına aktarılıyor ve yazılım bunları İngilizceye çevirdikten sonra yanıtı LLM'ye iletiyor ve yanıt işleniyor. Son olarak yanıt, kullanıcının ana diline geri çevriliyor.
Bu süreç işe yarayabilir, ancak soruları LLM'nin "tercih edilen" diline çevirmek beceriksiz bir çözümdür. Dil, kültür ve dünya görüşünün bir yansımasıdır. Sidney Üniversitesi'nde araştırmacı olan Rebecca Johnson'ın 2022 tarihli bir makalesi, ChatGPT-3'ün silah kontrolü ve mülteci politikası gibi konularda Dünya Değerleri Anketi'nde ifade edilen Amerikan değerleriyle karşılaştırılabilir yanıtlar ürettiğini ortaya koydu.
Sonuç olarak, birçok araştırmacı LLM programlarının daha az kullanılan dillerde akıcı olmasını sağlamaya çalışmaktadır. Teknik olarak, bir yaklaşım, dil için belirteç ayırıcıyı değiştirmektir. Sarvam AI adlı bir Hint girişimi, Hintçe veya OpenHathi modeli için optimize edilmiş bir belirteç ayırıcı yazdı - Devanagari dili için optimize edilmiş LLM (Hindistan) ve bu, soruları yanıtlama maliyetini önemli ölçüde azaltabilir.
Bir diğer yol da LLM eğitiminin verildiği veri kümelerini iyileştirmektir. Kasım ayında, Abu Dabi'deki Muhammed bin Zayed Üniversitesi'ndeki bir araştırma ekibi, Arapça konuşma modelinin "Jais" adlı son sürümünü yayınladı. Bu model, ChatGPT-3'ün altıda biri kadar parametreye sahip olmasına rağmen Arapçada neredeyse aynı performansı gösteriyor.
Mohamed bin Zayed Üniversitesi Rektörü Timothy Baldwin, ekibinin çok sayıda Arapça metni dijitalleştirmiş olmasına rağmen, modele bazı İngilizce metinlerin de dahil edildiğini belirtti. Bazı kavramlar tüm dillerde aynıdır ve herhangi bir dilde öğrenilebilir.
Üçüncü yaklaşım, modelleri eğitildikten sonra ince ayar yapmaktır. Hem Jais hem de OpenHathi, insanlar tarafından oluşturulmuş bir dizi soru-cevap çiftine sahiptir. Aynı şey, yanlış bilgilendirmeyi önlemek için Batılı sohbet robotları için de geçerlidir.
Büyük bir Çin teknoloji şirketi olan Baidu'da hukuk alanında yüksek lisans (LLM) yapan Ernie Bot, hükümeti rahatsız edebilecek ifadeleri sınırlandıracak şekilde ayarlandı. Modeller ayrıca, kullanıcıların LLM'nin yanıtlarını derecelendirmesiyle insan geri bildirimlerinden de öğrenebiliyor. Ancak, makinenin yanıtlarını eleştirmek için nitelikli kişilerin işe alınması gerektiğinden, daha az gelişmiş bölgelerdeki birçok dil için bunu yapmak zor.
(Economist'e göre)
[reklam_2]
Kaynak
Yorum (0)