Vietnam.vn - Nền tảng quảng bá Việt Nam

Молодой инженер использует ИИ, чтобы изменить способ печати на вьетнамском языке

Программное обеспечение для набора текста на вьетнамском языке с интегрированным искусственным интеллектом — один из продуктов, который успешно сочетает в себе креативность и профессиональные знания, стремясь принести практическую пользу обществу.

ZNewsZNews14/05/2025


Интерфейс v7, встроенная клавиатура с искусственным интеллектом. Фото: NVCC .

В интервью для журнала Znews Три Тхук (родился в 2003 году) Три Дык рассказал об идее применения искусственного интеллекта для изменения способа ввода вьетнамского языка. Его студенческий проект, инструмент для набора текста v7, превратился в исследовательскую работу и был представлен на престижной конференции по искусственному интеллекту IJCAI 2025.

Несмотря на десятилетия популярности, набор текста с помощью Telex или VNI по-прежнему имеет множество ограничений для пользователя. Поэтому версия 7 была разработана как лёгкий инструмент для предиктивного набора текста, помогающий сократить время набора вьетнамского текста благодаря интеграции с искусственным интеллектом.

Страсть к языкам и технологиям

Его любовь к языкам и технологиям привела его к получению специальности «Прикладной искусственный интеллект» в Технологическом университете Хошимина.

Во время учёбы он участвовал в таких проектах, как большая языковая модель (LLM) для вьетнамского языка, программное обеспечение для перевода языков этнических меньшинств и чат-бот для поддержки поступления. «Этот опыт помог мне накопить прочную базу знаний, развить страсть и желание применять ИИ для создания полезных продуктов для общества», — поделился он.

Интегрированная в искусственный интеллект фотография древесины 1

Три Дюк хочет извлечь пользу из применения искусственного интеллекта в жизни. Фото: NVCC.

Кроме того, владея мандаринским и кантонским диалектами, Дык распознал взаимосвязь пиньинь/цзютпин с вьетнамской орфографией. Этот факт также позволяет увидеть, что, в отличие от сложных иероглифов, для написания названия нашей страны китайскими иероглифами в китайской системе набора пиньинь достаточно нажать всего «yn». В то время как для набора слова «Vietnam» в Telex или VNI требуется 10 клавиш.

Благодаря своим наблюдениям Дюк обнаружил, что при быстром общении пользователи часто сокращают слова, оставляя первую согласную, например, «hs» в слове «student». «Если люди легко понимают этот стиль письма, то и искусственный интеллект, обученный на правильных данных, сможет полностью его понять», — сказал он, говоря об обстоятельствах, которые привели к этой идее.

Вместо того, чтобы писать полный символ и затем добавлять диакритические знаки, как это происходит при использовании традиционных инструментов набора текста, таких как Telex или VNI, которые используют механизм сложения, v7 использует искусственный интеллект, чтобы предложить вам нужное слово. Технология точно предскажет полное слово с минимальным количеством клавиш.

В системе вьетнамского правописания слово состоит из начального согласного, рифмы и тона. Например, слово «Nguyen» состоит из «ng», «uyen» и нисходящего тона. Основываясь на этом принципе, движок набора текста v7 предсказывает полные слова, состоящие только из начального согласного и тона, что позволяет значительно сократить количество нажатий клавиш, сохраняя при этом точность.

Проблема обучения вьетнамского языка с помощью искусственного интеллекта

По словам Дыка, самая сложная задача — научить ИИ «понимать» вьетнамский язык для работы с этим инструментом печати. ​​Он перепробовал множество моделей, прежде чем выбрал в качестве основы GPT-2 с архитектурой Transformers для хорошего понимания контекста и точного предугадывания слов.

Выбрав базовую архитектуру, Дык полностью заменил токенизатор (кодировщик словарного запаса) на созданный им самим вьетнамский словарь. Инженер отфильтровывал все корректные, правильно написанные вьетнамские слова, обеспечивая комплексную обработку и предугадывая любое слово, которое пользователь хотел написать.

Другая задача заключается в поиске баланса между эффективностью прогнозирования и скоростью отклика, чтобы модель могла работать в режиме реального времени как на компьютерах, так и на телефонах, оставаясь при этом достаточно мощной для наилучших прогнозов. После двух месяцев непрерывного тестирования текущая версия корректно выводит на первый план почти 70% слов, которые вводят пользователи, с задержкой всего 0,03 секунды.

Что касается метода ввода на клавиатуре, то, согласно многочисленным исследованиям, к которым Дык обращался за консультацией у лингвистов Цао Сюань Хао и Анри Масперо, вьетнамский язык имеет не 6, а 8 тонов. Чтобы реализовать эту особенность, в v7 используется система из 8 тонов вместо обычных 6 (включая ровный тон и 5 акцентированных тонов: диез, бемол, вопрос, нисходящий, тяжёлый). На этой клавиатуре при наборе «v7» модель предложит слово «Viet». Это также послужило основой для названия продукта.

Поделившись версией v7 в своей социальной сети, Дык сказал, что был очень рад и удивлён, когда модель получила внимание, поддержку и желание её опробовать. «Это дало мне чёткое представление о необходимости более умного и быстрого инструмента для набора текста на вьетнамском языке», — сказал он.

AI фото 2 интегрированная деревянная доска

Группа авторов научно -исследовательской статьи. Слева направо: Нят Кханг, Хьеу Нгиа и Чи Дык. Фото: NVCC.

В настоящее время клавиатура находится на стадии прототипа, её исходный код доступен на GitHub для тестирования и участия программистов и пользователей. Также разрабатывается полная версия приложения для Windows и macOS, которую обычные пользователи смогут легко установить и использовать.

В будущем главным приоритетом для версии 7 станет версия клавиатуры для iPhone, которая улучшит ввод вьетнамского текста на смартфонах. Кроме того, точность модели будет повышена за счёт обучения на данных ежедневных разговоров, что поможет ИИ лучше понимать распространённые контексты.

Путь Дюка дал ему возможность пробудить в себе творческий потенциал, следуя за технологическими трендами, учитывая значительные инвестиции Вьетнама в инфраструктуру искусственного интеллекта. Он гордится тем, что v7 впервые создала полноценное предложение. «Тогда даже небольшая модель, размером, вероятно, всего в 1/10 000 от сегодняшнего ChatGPT, всё ещё могла мыслить как человек», — сказал Дюк.

Источник: https://znews.vn/ky-su-tre-dung-ai-thay-doi-cach-go-tieng-viet-post1552246.html


Комментарий (0)

No data
No data

Та же тема

Та же категория

Потратьте миллионы на изучение флористики и обретите объединяющий опыт во время Фестиваля середины осени
В небе Сон Ла есть холм фиолетовых цветов Сим.
Заблудился в охоте за облаками в Та Сюа
Красота залива Халонг трижды признавалась объектом культурного наследия ЮНЕСКО.

Тот же автор

Наследство

;

Фигура

;

Бизнес

;

No videos available

Текущие события

;

Политическая система

;

Местный

;

Продукт

;