Войдя в вестибюль аэропорта, среди шума и суеты людей, возвращающихся из командировки, Хо Мин Дык на несколько секунд остановился, услышав знакомый, нежный женский голос, зачитывающий объявление в системе.
Сотрудники Vbee работают в штаб-квартире компании в Ханое . Фото: NVCC
Он улыбнулся, чувствуя облегчение и радость, словно встретил родственника. Этим «родственником» был один из двадцати голосов искусственного интеллекта, с которыми Дюк и команда Vbee «ели и спали» много дней и месяцев, вкладывая всю душу в каждую звуковую линию, уделяя внимание каждому нюансу голоса, чтобы сделать его более естественным и человечным.
Ударный старт
Я не знаю, сколько раз генеральный директор Хо Минь Дык и технический директор Нгуен Тхи Тху Транг — два основателя Vbee Data Solutions and Services Joint Stock Company — испытывали такое чувство радости и гордости.
Они встречали «особых знакомых» в самых разных ситуациях: четкие голоса из школьных громкоговорителей, теплые голоса в зданиях или профессиональные голоса из автоматических коммутаторов многих предприятий.
Детища Vbee уже не просто результаты работы алгоритмов и кодов, но и фактически входят в жизнь, внося тихий, но весомый вклад во многие области.
От вступлений к книгам и озвучивания фильмов до автоматических объявлений в колл-центрах — Vbee вдыхает новую жизнь в голосовые технологии.
Будучи «матерью» базовой технологии синтеза речи (TTS), доктор Нгуен Тхи Тху Транг всегда стремилась донести до реальных пользователей продукты вьетнамской технологии синтеза речи — технологии, которой она посвятила много усилий с момента защиты докторской диссертации в Университете Париж 11.
Первые дни Vbee были непростыми. Несмотря на то, что первые два года сервис был бесплатным, его инструмент преобразования текста в речь (TTS) привлёк лишь небольшую аудиторию. Но затем пандемия COVID-19 стала неожиданным поворотным моментом.
Столкнувшись со строгими правилами социального дистанцирования, таким компаниям, как FE Credit, Momo, Viet Credit, Sacombank ... пришлось искать способы охватить тысячи клиентов. Именно тогда Vbee представилась такая возможность: от напоминаний о долгах до автоматических ответов, их продукты быстро стали оптимальным решением. В то время виртуальные помощники и виртуальные колл-центры приносили Vbee до 80% выручки.
После окончания пандемии и спада мировой экономики Vbee столкнулся с новым вызовом. Волна генеративного искусственного интеллекта (GenAI) и трендов в области цифрового контента возродила инструмент синтеза речи (TTS). Сегодня, от TikTok до YouTube и Facebook, голоса искусственного интеллекта Vbee звучат повсюду.
«Сейчас мы предоставляем большую часть контента, преобразуемого в речь», — с гордостью заявил г-н Хо Мин Дык. В настоящее время число реальных пользователей Vbee превысило 2 миллиона, и это число продолжает стабильно расти на 20% каждый месяц.
Vbee обучил более 20 высококачественных корпоративных голосов, а если считать и пользовательские голоса, то они создали более 200 различных голосов ИИ.
Благодаря новой технологии транскрипции голоса, которая была недавно исследована и протестирована, для обучения нового голоса теперь требуется всего 3 минуты записанных данных вместо 4 или десятков часов записи, как два года назад.
Генеральный директор Хо Минь Дык и главный технический директор Нгуен Тхи Тху Транг — два основателя акционерной компании Vbee Data Solutions and Services. Фото: NVCC
«Мы лучше понимаем вьетнамский язык»
Генеральный директор Хо Мин Дык видит время, когда в гонке за технологиями синтеза речи усилия по внедрению технологических инноваций постепенно достигнут своего предела.
По его словам, Vbee не только разрабатывает базовую технологию для обработки вьетнамской речи, но и создает технологическую систему, способную глубоко понимать вьетнамский язык — со всеми тонкостями, тонами и уникальной культурой, которую могут полностью понять только настоящие вьетнамцы.
Будучи ведущей компанией на рынке синтеза речи во Вьетнаме, оба руководителя Vbee считают, что их инструмент стал стандартом для голосового озвучивания вьетнамского языка с помощью искусственного интеллекта. Пользователи не только ценят точность, но и чувствуют «эмоции» каждого голоса, разработанного Vbee.
Например, во вьетнамском языке одно только слово «alley» имеет множество разных названий в зависимости от региона, например, «hèm», «kiệt», «xếc» — каждое слово имеет свой нюанс, который ИИ должен понимать.
Чтобы добиться этого, Vbee вложил значительные средства в сбор выборочных наборов данных, а также в мощные серверные системы для обучения ИИ.
«Чтобы помочь ИИ правильно понимать и обрабатывать каждый региональный нюанс, нам пришлось создать бесчисленное количество наборов образцов, а стоимость сервера обработки также была очень высокой», — поделился генеральный директор Хо Минь Дык.
Доктор Нгуен Тхи Тху Транг посвятила более 15 лет исследованию базовой технологии синтеза речи (TTS) Vbee, чтобы расшифровать уникальные интонации и грамматику вьетнамского языка. Для неё родной язык — это тонкий мир, полный выразительных нюансов.
«Мой вьетнамский язык очень сложный и интересный, его тоны самые сложные и отличаются от многих других популярных языков мира. Чем лучше я понимаю язык, тем точнее будет моя модель», — пояснила она.
Vbee постепенно утверждает, что в технологическую эпоху они станут неотъемлемой частью инструментов и устройств со встроенным программным обеспечением для обработки вьетнамского языка.
В каждом слове, в каждом голосе команда Vbee не только исследует и разрабатывает технологии, но и стремится создать по-настоящему «вьетнамские эмоции» в голосах своего ИИ.
Название Vbee — это сокращение от фразы «Vietnamese BE your Eyes» («Вьетнамцы — ваши глаза»), которая возникла из моего изначального желания создать инструмент, который станет «глазами» для людей с нарушениями зрения. Но в нынешних тенденциях развития, когда многие хотят больше слышать, чем видеть, мы верим, что Vbee также станет «глазами» для всех.
Доктор Нгуен Тхи Тху Транг (преподаватель Школы информационных технологий Ханойского университета науки и технологий, основатель и технический директор компании Vbee)
Встреча любителей аудиокниг
Проект Vbee родился благодаря сотрудничеству доктора Нгуен Тхи Тху Транг и сообщества слепых. Со студенческих лет она участвовала в записи аудиокниг и разработке вьетнамской книги для чтения в поддержку слепых.
Этот опыт вдохновил её на разработку программного обеспечения для чтения на вьетнамском языке — предшественника Vbee. В 2018 году она и г-н Хо Минь Дык, однокурсник по Ханойскому университету науки и технологий, имеющий опыт работы над проектом Socbay.com и оцифровки аудиокниг, основали Vbee, пионера в области преобразования текста в речь во Вьетнаме.
Выдающиеся достижения Vbee
- Первая премия конкурса инноваций Qualcomm Vietnam Innovation Challenge 2024
- Специальный приз Tuoi Tre Start-up Award 2023
- Победа стартапа в программе акселерации Grab Venture Ignite 2020
- Первая премия конкурса «Таланты Вьетнама» 2018 года, вторая премия конкурса «Таланты Вьетнама» 2020 года
- Сертификат основных вьетнамских технологий в Национальной программе цифровой трансформации на 2025–2030 годы Министерства информации и коммуникаций
- Победный проект на Vietnam Digital Media Award 2018 и Vingroup Fund 2019.
Региональное видение
Укрепив свои позиции на вьетнамском рынке, Vbee намерена расширить свое присутствие в Юго-Восточной Азии и планирует к 2026 году внедрить свою технологию TTS в такие страны, как Лаос, Таиланд, Камбоджа и Филиппины.
По словам доктора Нгуен Тхи Тху Транг, стремительное развитие технологий сегодня, сопровождающееся появлением многоязычных моделей, облегчит разработку инструментов преобразования текста в речь для других языков.
В настоящее время она исследует речевые технологии для тайского, китайского и английского языков, открывая новые возможности для Vbee на международном рынке.
Источник: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
Комментарий (0)