Интерфейс v7, встроенная клавиатура AI. Фото: NVCC . |
В беседе с Tri Thuc - Znews Три Дук (родился в 2003 году) рассказал об идее применения искусственного интеллекта для изменения способа ввода вьетнамского языка. Инструмент ввода v7, его студенческий проект, теперь превратился в исследовательскую работу и был принят на IJCAI 2025, престижной конференции по ИИ.
Несмотря на свою популярность на протяжении десятилетий, набор текста Telex или VNI по-прежнему имеет множество ограничений в пользовательском опыте. Поэтому v7 был создан, чтобы стать легким инструментом прогнозирования, помогающим сократить время набора вьетнамского текста благодаря интеграции ИИ.
Страсть к языкам и технологиям
Его любовь к языкам и технологиям привела его к получению специальности «Прикладной искусственный интеллект» в Технологическом университете Хошимина.
Во время учебы он занимался такими проектами, как большая языковая модель (LLM) для вьетнамского языка, программное обеспечение для перевода языков этнических меньшинств или чат-бот для поддержки поступления. «Этот опыт помог мне накопить прочную базу знаний, взрастить мою страсть и желание применять ИИ для создания полезных продуктов для общества», — поделился он.
Три Дук хочет привнести ценность в жизнь от применения ИИ. Фото: NVCC. |
Кроме того, имея опыт работы с мандаринским и кантонским диалектами, Дык понял взаимосвязь пиньинь/джютпин с вьетнамским правописанием. Этот фактор также позволяет увидеть, что в отличие от сложности иероглифов, китайской системе набора пиньинь достаточно ввести «yn», чтобы получить название нашей страны в иероглифах хань. В то время как Telex или VNI требуется 10 клавиш, чтобы получить слово «Вьетнам».
Благодаря своим наблюдениям Дюк понял, что при быстром общении пользователи часто сокращают слова, оставляя первую согласную, например, «hs» для слова «student». «Если люди могут легко понять этот стиль письма, ИИ может полностью понять его, если его обучить правильным данным», — сказал он об обстоятельствах, которые привели к возникновению этой идеи.
Вместо того, чтобы писать полный символ, а затем добавлять акценты при использовании традиционных инструментов набора текста, таких как Telex или VNI, которые следуют комплементарному механизму, v7 использует ИИ, чтобы предложить слово, которое вы хотите написать. Технология точно предскажет полное слово с наименьшим количеством возможных клавиш.
В структуре вьетнамского правописания слово состоит из начальной согласной, рифмы и тона. Например, слово «Nguyen» состоит из «ng», «uyen» и нисходящего тона. На основе этого принципа v7-машинный движок создан для предсказания полных слов, содержащих только начальную согласную и тон, что помогает значительно сократить количество нажатий клавиш, сохраняя точность.
Проблема обучения вьетнамского языка с помощью ИИ
По словам Дюка, самой большой проблемой было научить ИИ «понимать» вьетнамский язык, чтобы он мог обслуживать этот инструмент набора текста. Он перепробовал множество моделей, прежде чем выбрал в качестве основы GPT-2 с архитектурой Transformers для хорошего понимания контекста и точного предсказания слов.
Выбрав базовую архитектуру, Дюк полностью заменил Tokenizer (кодировщик словаря) на вьетнамский словарь, созданный им самим. Инженер отфильтровал все допустимые, правильно написанные вьетнамские слова, чтобы обеспечить комплексную обработку, предсказывая любое слово, которое пользователь захочет написать.
Другая проблема заключается в балансировке производительности прогнозирования и скорости отклика, гарантируя, что модель может работать в реальном времени как на компьютерах, так и на телефонах, но при этом быть достаточно мощной, чтобы делать наилучшие прогнозы. После двух месяцев непрерывного тестирования текущая версия правильно выводит наверх почти 70% слов, которые вводят пользователи, с задержкой всего 0,03 секунды.
Что касается метода ввода клавиатуры, то, согласно многочисленным исследованиям, которые Дюк консультировал у лингвистов Цао Сюань Хао или Анри Масперо, вьетнамский язык имеет не только 6, но и 8 тонов. Чтобы воспользоваться этой функцией, v7 использует 8-тональную систему вместо обычных 6 (включая плоский тон и 5 акцентированных тонов: резкий, плоский, вопросительный, падающий, тяжелый). На этой клавиатуре при наборе «v7» модель предложит слово «Viet». Это также идея для названия продукта.
Поделившись v7 в своей социальной сети, Дюк сказал, что он был очень счастлив и удивлен, когда модель получила внимание, поддержку и желание испытать ее. «Это дало мне четкое ощущение необходимости в более умном и быстром инструменте для набора текста на вьетнамском языке», — сказал он.
Группа авторов научно -исследовательской статьи. Слева направо: Нхат Кханг, Хиеу Нгиа и Три Дук. Фото: NVCC. |
В настоящее время клавиатура все еще находится на стадии прототипа, с открытым исходным кодом на GitHub для программистов или пользователей технологий, чтобы они могли тестировать и вносить свой вклад. Полная версия приложения для Windows и macOS также разрабатывается для простых пользователей, чтобы их можно было легко установить и использовать.
В будущем главным приоритетом для v7 станет версия клавиатуры на iPhone, чтобы улучшить способ ввода вьетнамского текста на смартфонах. Кроме того, точность модели будет повышена за счет обучения на данных ежедневных разговоров, что поможет ИИ лучше понимать общие контексты.
Путешествие Дюка способствовало глотку креативности, догоняя технологические тенденции в контексте Вьетнама, который вкладывает значительные средства в инфраструктуру ИИ. Один момент, которым он гордится, это когда v7 впервые создал полное предложение. «Это было, когда маленькая модель, вероятно, всего лишь 1/10 000 размера ChatGPT сегодня, все еще могла думать как человек», — сказал Дюк.
Источник: https://znews.vn/ky-su-tre-dung-ai-thay-doi-cach-go-tieng-viet-post1552246.html
Комментарий (0)