الترجمة الآلية من أنجح تطبيقات الذكاء الاصطناعي في معالجة اللغات الطبيعية. تحتاج أنظمة الترجمة الآلية عالية الجودة، مثل جوجل ترانسليت أو مايكروسوفت بينج ترانسليت، إلى مجموعات بيانات ثنائية اللغة واسعة النطاق، تصل إلى ملايين الجمل، لتدريب النموذج.
ومع ذلك، تفتقر العديد من لغات العالم إلى الموارد الكافية. لذلك، يُعدّ بناء نموذج ترجمة آلية فعّال للغات ذات الموارد المحدودة، بما في ذلك لغات منطقة جنوب شرق آسيا، أمرًا مُلِحًّا وتحديًا بالغَين.
مؤخرًا، أجرى معهد تكنولوجيا المعلومات (الأكاديمية الفيتنامية للعلوم والتكنولوجيا) أبحاثًا وإتقانًا لأحدث تقنيات الترجمة الآلية في الوقت الحالي. كما نجح هذا القسم في بناء نظام ترجمة نصوص متعدد اللغات بين الفيتنامية واللغات الإقليمية، بما في ذلك اللاوية والخميرية والتايلاندية والماليزية والإندونيسية.
وفقًا للمطور، تُشكّل لغات مثل اللاوية والتايلاندية والخميرية تحدياتٍ هائلة عند بناء نماذج الترجمة الآلية. لا تنبع هذه الصعوبة من ندرة البيانات ثنائية اللغة فحسب، بل أيضًا من غنى هذه اللغات من الناحية الصرفية، وافتقارها إلى تقسيم الكلمات والجمل وتعدد المعاني.
لقد "تعلم" نموذج الذكاء الاصطناعي الذي طوره معهد تكنولوجيا المعلومات كيفية "التكيف" مع جميع الميزات الخاصة للغات المذكورة أعلاه. ومن هنا، يتيح البرنامج إضافة لغات أخرى بسرعة عند الحاجة، بجودة ترجمة تضاهي المنتجات الأجنبية المتقدمة.
الميزة المميزة هي أن برنامج الترجمة متعدد اللغات هذا يعمل بشكل منفصل، ويخزن البيانات محليًا، ولا يستخدم واجهات برمجة التطبيقات الخاصة بمقدمي خدمات آخرين. هذا يضمن الأمان والسلامة ومنع تسرب المعلومات.
من مشاكل أنظمة الترجمة، مثل جوجل ترانسليت أو بينج ترانسليت، قدرتها على التكيف مع مجالات محددة. أي أنها تترجم جيدًا لمجالات اللغات العامة الشائعة التي تخدم الجمهور، لكنها تترجم بجودة رديئة في مجالات لغوية متخصصة مثل الطب والقانون والأمن، إلخ.
وللتغلب على هذه العيوب، قام فريق البحث في معهد تكنولوجيا المعلومات بتطوير نظام ترجمة يركز على اللغة الفيتنامية، قادر على الترجمة في الاتجاهين إلى اللغات ذات الموارد المحدودة بجودة جيدة.
على وجه التحديد، يتميز هذا البرنامج بجودة ترجمة جوجل أو أعلى لنفس النص. بالإضافة إلى ذلك، لا يفرض البرنامج قيودًا على طول النص.
في الفترة 2022-2023، يركز النظام على نشر تقنيات نماذج اللغة الكبيرة (LLMs)، مع إعطاء الأولوية للأزواج اللغوية التالية: الفيتنامية - الخميرية، الفيتنامية - اللاوية، الفيتنامية - التايلاندية، الفيتنامية - الملايوية والفيتنامية - الإندونيسية.
بفضل اللغة الإنجليزية (وهي مصدر بيانات غني ونقطة قوة رئيسية لدى جوجل)، يضمن برنامج معهد تكنولوجيا المعلومات جودةً تُضاهي جودة ترجمة جوجل. ويتمتع النظام، على وجه الخصوص، بالقدرة على التكيف مع مجالات لغوية متخصصة، مثل الطب والقانون، وفقًا للمتطلبات المحددة للشركاء.
تم تطوير هذا النظام ذاتيًا من قبل فريق البحث، استنادًا إلى البنية التحتية التقنية التي تدعم تخزين بيانات اللغة الكبيرة وأقوى قدرة الحوسبة الفائقة للذكاء الاصطناعي/التعلم الآلي (AI/ML) في فيتنام.
يتمتع معهد تكنولوجيا المعلومات بإتقان تام للتقنيات ذات الصلة. لذلك، يُمكن لهذه الوحدة توسيع نطاق تطبيقها بسهولة لتشمل لغات مستهدفة جديدة، بما في ذلك لغات الأقليات العرقية في فيتنام (التي غالبًا ما تكون شحيحة البيانات) مثل المونغ والتايلاندية، وغيرها، واللغات الأجنبية الشائعة مثل الصينية والفرنسية والروسية، وغيرها، عند الحاجة.
ومن المتوقع أن يكون برنامج الترجمة متعدد اللغات هذا المصنوع في فيتنام بمثابة الحل لمشكلة الوصول إلى المعلومات بالنسبة للأقليات العرقية.
[إعلان 2]
مصدر
تعليق (0)