Vietnam Dili ve Konuşma İşleme (VLSP) yarışması, Vietnam Bilişim Teknolojileri Derneği'nin bir kolu olan VLSP Kulübü tarafından düzenlenen yıllık Uluslararası Vietnam Dili ve Konuşma İşleme Konferansı'nın bir parçasıdır. VLSP 2023, önde gelen araştırmacıları, uzmanları ve teknoloji geliştirme birimlerini bir araya getirerek konuşma ve metin işleme alanında 10 yarışma düzenlemektedir.
Viettel AI'nın yarışmaya dördüncü kez katılmasına ve daha önce üç kez birincilik kazanmasına rağmen, Viettel mühendisleri yarışma kategori yapısındaki değişiklikler nedeniyle hala birçok zorlukla karşılaşıyor.
Özellikle, geçen yıla kıyasla bu yıl Konuşma Tanıma ve Duygu Tanıma kategorileri tek bir kategoride birleştirildi. Ekiplerin hem metnin hem de cümlenin duygusunun tanınmasını sağlamak için aynı anda iki soruyu çözmeleri gerekiyor, iş yükü ve zorluk iki katına çıktı.
Düşük veya yüksek kaliteli olsun, her veriyi değerlendirin
Bu yılki sınav, yalnızca kategorilerin yapısını değiştirmekle kalmıyor, aynı zamanda ham, etiketlenmemiş ve düşük kaliteli veriler de dahil olmak üzere sınırlı veri koşullarıyla sıfırdan modeller oluşturmaya da odaklanıyor. Sınav, farklı kalite ve biçimlerde 4 veri grubu sunuyor. Yalnızca etiketlenmemiş ses içeren veriler, yalnızca ses ve metin içeren veriler, duygu ve ses içeren yüksek kaliteli standart etiketler içeren veriler ve duygu ve ses içeren düşük kaliteli veriler bulunuyor. Her veri kümesi, her amaca ve sınav kategorisine hizmet edecek şekilde açıkça tanımlanmış ve tüm veri kümelerinde toplam 300 saatten fazla zaman harcanmış. Bu, genellikle 1.000-2.000 saat veya daha fazla gerektiren Konuşma Tanıma eğitimi için standart veri kümeleriyle karşılaştırıldığında oldukça mütevazı bir sayı.
Her ekibin çalışmalarını tamamlayıp teslim etmesi için 2 aydan az bir süresi vardı, ancak gerçekte kaynak yetersizliği nedeniyle çözümler üzerinde araştırma yapmak için harcanan süre çok daha azdı.
Viettel AI Sanal Asistan Platformu Yapay Zeka Mühendisi Bay Dang Dinh Son, "Viettel AI bu yıl yeni teknolojiler araştırmak ve ürün geliştirmek için çok sayıda bilgi işlem altyapısı kaynağı ayırdı. Konuşma tanıma ise çok büyük donanım kaynakları gerektiren bir teknolojidir." dedi.
Düşük hacimli ve kaliteli veri durumuyla karşı karşıya kalan araştırma ekibi, "düşük veya yüksek kaliteli olmasına bakılmaksızın tüm verileri kullanma" bakış açısını hemen benimsedi. Bunu yapmak için, birçok farklı problemi çözmek üzere birçok model yerine, tüm verileri ve tek bir modeli işleyen bir eğitim döngüsü oluşturmak gerekiyor.
Öncü teknoloji ustalığının sonuçları
Hem veri hem de kaynak eksikliği bağlamında, araştırma ekibi basit, devasa olmayan ama önemli olan en küçük ayrıntısına kadar ince ayarlı bir işlem süreci oluşturmaya karar verdi.
Viettel yapay zeka mühendisleri, bir yaklaşım bulmak için dünya çapındaki önde gelen konferans ve dergilerdeki en son araştırmaları dikkatlice inceledi. Araştırma ekibi, modeli eğitmek için etkili olan veri işleme yöntemlerini de ekleyerek, mevcut tüm verileri işleyecek bir eğitim döngüsü oluşturdu. Döngü 3 adımdan oluşuyor: etiketsiz ses özelliklerini tanımlamak için önceden eğitilmiş bir model oluşturma, önceden eğitilmiş modelden iki sorun için ince ayar yapma: konuşma tanıma ve duygu tanıma ve çıkarım.
Viettel AI Sanal Asistan Platform Mühendisi Bay Bui Tien Dat, "Önceki ürünlerin geliştirilmesi ve devreye alınması sırasında veri eksikliğiyle ilgili sorunları çözme deneyimimiz, ekibin kesin bir yöntem bulmasına önemli ölçüde katkıda bulundu. Öte yandan, testten elde edilen bilgi ve sonuçlar, Viettel AI ürünlerine anında uygulanma potansiyeline sahip, bu nedenle test sırasında çalışma süreci oldukça sorunsuz geçti," dedi.
Sonuç olarak Viettel AI, Konuşma Tanıma ve Konuşma Duygusu Tanıma kategorilerinde birincilik ödülünü kazanmakla kalmadı, aynı zamanda %89,18 gibi etkileyici bir puana da ulaştı (diğer takımlar sırasıyla %83,40 ve %78,45 puan aldı).
Bay Son, asıl etkenin Viettel AI'nın uzun zamandır geliştirdiği, Vietnamca'ya özel konuşma işleme modelinde yattığını söyledi.
Bay Son, "Viettel AI, mevcut araştırma sonuçlarından modeller ve talimatlar kullanmak yerine, Vietnamca konuşma işleme için kendi modelini oluşturup geliştirmeyi tercih etti. Bu model sürekli güncelleniyor, optimize ediliyor ve giderek daha etkili hale geliyor," dedi.
Viettel AI'nın bu çözümü, rekabetle sınırlı kalmayıp, sanal santral ürünlerini, yani Viettel sanal asistanını geliştirmenin öncüsü olacak ve müşterilerin konuşmalardaki duygularını daha doğru bir şekilde tespit ederek geri bildirimde bulunmalarına veya uygun kelime nüanslarını seçmelerine yardımcı olacak. Böylece, insanlar ve yapay zeka arasındaki konuşmalar daha doğal hale gelecek ve kullanıcı deneyimi iyileşecek. Müşteri şikayetlerini ve santrale gelen şikayetleri otomatik olarak tespit edip zamanında işleme almak veya bilgi edinmek için bir sistem oluşturmak gibi müşteri hizmetlerinde de birçok yeni uygulama alanı açılacak.
Birim temsilcisi, Viettel AI'nın teknoloji geliştirmeye devam edeceğini, doğruluğu artırmak, kullanıcı deneyimini ve ürün verimliliğini geliştirmek için ürünleri sürekli olarak güncelleyeceğini söyledi.
Quoc Tuan
[reklam_2]
Kaynak
Yorum (0)