Машинный перевод — одно из самых успешных применений технологий искусственного интеллекта в обработке естественного языка. Высококачественным системам машинного перевода, таким как Google Translate или Microsoft Bing Translator, для обучения модели требуются большие двуязычные наборы данных, содержащие до миллионов пар предложений.
Однако многие языки мира испытывают нехватку ресурсов. Поэтому создание эффективной модели машинного перевода для языков с ограниченными ресурсами, в том числе языков Юго-Восточной Азии, является крайне актуальной и сложной задачей.
Недавно Институт информационных технологий Вьетнамской академии наук и технологий исследовал и освоил самую передовую на сегодняшний день технологию машинного перевода. Это подразделение также успешно создало многоязычную систему перевода текстов между вьетнамским и региональными языками, включая лаосский, кхмерский, тайский, малайзийский и индонезийский.
По словам разработчика, такие языки, как лаосский, тайский и кхмерский, представляют серьёзные трудности при построении моделей машинного перевода. Сложность обусловлена не только нехваткой двуязычных данных, но и тем, что эти языки морфологически богаты, в них отсутствует сегментация слов и предложений, а также полисемия.
Модель искусственного интеллекта, разработанная Институтом информационных технологий, «научилась» «адаптироваться» ко всем особенностям вышеперечисленных языков. Благодаря этому программное обеспечение позволяет быстро добавлять другие языки по мере необходимости, обеспечивая качество перевода, сопоставимое с передовыми зарубежными продуктами.
Особенность этого многоязычного программного обеспечения для перевода заключается в том, что оно работает отдельно, хранит данные локально и не использует API других поставщиков услуг. Это обеспечивает безопасность, сохранность и предотвращает утечку информации.
Одна из проблем систем перевода, таких как Google Translate или Bing Translator, заключается в их специфической адаптации к конкретной области. То есть, они могут хорошо переводить тексты на популярных языках, предназначенных для широкого круга пользователей, но плохо переводить тексты в специализированных областях, таких как медицина , юриспруденция, безопасность и т. д.
Чтобы преодолеть вышеуказанные недостатки, исследовательская группа Института информационных технологий разработала систему перевода, ориентированную на вьетнамский язык, способную осуществлять двусторонний перевод на языки с ограниченными ресурсами с хорошим качеством.
В частности, эта программа обеспечивает такое же или даже более высокое качество перевода, чем Google Translate, для того же текста. Кроме того, программа не ограничивает длину текста.
В период 2022–2023 гг. система будет уделять особое внимание внедрению методик больших языковых моделей (LLM), отдавая приоритет следующим языковым парам: вьетнамский — кхмерский, вьетнамский — лаосский, вьетнамский — тайский, вьетнамский — малайский и вьетнамский — индонезийский.
Благодаря поддержке английского языка (очень богатого информационного ресурса и приоритетного преимущества Google) программное обеспечение Института информационных технологий обеспечивает качество, практически сопоставимое с Google Translate. В частности, система обладает возможностью тонкой настройки для адаптации к специализированным языковым областям, таким как медицина, юриспруденция и т.д., в соответствии с конкретными требованиями партнёров.
Эта система была самостоятельно разработана исследовательской группой на основе технической инфраструктуры, которая поддерживает хранение больших объемов языковых данных и самые мощные суперкомпьютерные мощности искусственного интеллекта/машинного обучения (ИИ/МО) во Вьетнаме.
Институт информационных технологий в совершенстве владеет соответствующими технологиями. Поэтому данное подразделение может легко расширить сферу применения на новые целевые языки, включая языки этнических меньшинств Вьетнама (часто крайне бедные базами данных), такие как мыонг, тайский и т. д., а также на популярные иностранные языки, такие как китайский, французский, русский и т. д., при необходимости.
Ожидается, что это многоязычное программное обеспечение для перевода, созданное во Вьетнаме, станет решением проблемы доступа к информации для этнических меньшинств.
Источник
Комментарий (0)