출장길에 오른 사람들로 북적이는 공항 대기 구역에 들어선 호 민 득은 시스템에서 흘러나오는 부드럽고 친숙한 여성 목소리의 안내 방송을 듣고 잠시 걸음을 멈췄다.
Vbee 직원들이 하노이 에 있는 회사 본사에서 근무하고 있다. - 사진: 회사 제공.
그는 마치 사랑하는 사람과 재회한 것처럼 안도감과 행복감을 느끼며 미소를 지었다. 그 "사랑하는 사람"은 듀크와 Vbee 팀이 수많은 날과 달을 함께 보내며 모든 소리의 뉘앙스에 진심을 담아 세심하게 다듬어 점점 더 자연스럽고 인간적인 목소리를 만들어낸 20명의 AI 성우 중 한 명이었다.
스타트업의 험난한 여정
Vbee 데이터 서비스 및 솔루션 주식회사의 두 창립자인 호 민 득 CEO와 응우옌 티 투 짱 CTO는 이러한 기쁨과 자부심을 수없이 경험했습니다.
그들은 학교 확성기에서 들려오는 또렷한 목소리, 건물 안에서 들리는 따뜻한 음색, 또는 많은 기업의 자동 전화 시스템에서 흘러나오는 전문적인 목소리 등 다양한 상황에서 이러한 "특별한 지인"들을 다시 만나게 되었습니다.
Vbee의 창조물은 더 이상 단순히 알고리즘과 코드의 결과물에 그치지 않고, 실생활에 진정으로 녹아들어 다양한 분야에 조용하지만 강력한 기여를 하고 있습니다.
Vbee는 도서 리뷰와 영화 더빙부터 자동 콜센터 안내 방송에 이르기까지 음성 기술에 새로운 생명을 불어넣었습니다.
핵심 TTS 기술의 "어머니"라고 할 수 있는 응우옌 티 투 트랑 박사는 파리 11대학에서 박사 학위 논문을 쓴 이후 열정을 쏟아온 베트남어 음성 합성 기술에서 파생된 제품들을 실제 사용자들에게 제공하고자 항상 열망해 왔습니다.
Vbee의 초창기는 어려움으로 가득했습니다. 처음 2년 동안 무료로 제공되었음에도 불구하고, 텍스트 음성 변환(TTS) 도구는 소수의 사용자만을 끌어모았습니다. 하지만 예상치 못하게 코로나19 팬데믹이 전환점이 되었습니다.
엄격한 사회적 거리두기 규정에 직면한 FE Credit, Momo, Viet Credit, Sacombank 등의 기업들은 수많은 고객에게 접근할 방법을 찾아야 했습니다. 바로 이때 Vbee가 기회를 맞이했습니다. 채무 독촉부터 자동 응답까지, Vbee의 제품은 빠르게 최적의 솔루션으로 자리 잡았습니다. 당시 가상 비서와 가상 콜센터 상담원은 Vbee 매출의 최대 80%를 차지했습니다.
팬데믹이 진정되고 세계 경제가 침체되면서 Vbee는 새로운 도전에 직면했습니다. 생성형 AI(GenAI)의 물결과 디지털 콘텐츠 트렌드는 TTS(텍스트 음성 변환) 도구를 다시 활성화시켰습니다. 오늘날 TikTok부터 YouTube, Facebook에 이르기까지 Vbee의 AI 음성은 어디에서나 찾아볼 수 있습니다.
"현재 제공되는 TTS 콘텐츠의 대부분은 저희가 직접 제공하고 있습니다."라고 호 민 득 대표는 자랑스럽게 말했다. 현재 Vbee의 활성 사용자 수는 200만 명을 넘어섰으며, 이 숫자는 매달 20%씩 꾸준히 증가하고 있다.
Vbee는 20개 이상의 고품질 기업 음성을 학습시켰으며, 맞춤 주문 음성을 포함하면 200개 이상의 다양한 AI 음성을 개발했습니다.
최근 연구 개발 및 테스트에 들어간 새로운 음성 변환 기술 덕분에 이제 새로운 음성을 학습하는 데 필요한 데이터 녹음 시간은 3분으로, 2년 전 4~10시간이 아닌 훨씬 단축되었습니다.
Vbee 데이터 서비스 및 솔루션 주식회사의 두 창립자인 호 민 득 CEO와 응우옌 티 투 짱 CTO - 사진: 회사 제공.
"우리는 베트남어에 대한 이해도가 높다는 장점이 있습니다."
음성 합성 기술 경쟁 속에서 호 민 득 CEO는 기술 혁신 노력이 점차 한계에 도달할 시점이 올 것이라고 예상합니다.
그에 따르면, Vbee는 베트남어 핵심 음성 처리 기술을 개발할 뿐만 아니라, 베트남어의 미묘한 뉘앙스, 성조, 그리고 진정한 베트남인만이 온전히 이해할 수 있는 독특한 문화까지 깊이 있게 이해할 수 있는 기술 시스템을 구축하고 있다고 합니다.
베트남 TTS 시장의 선두 기업인 Vbee의 두 대표는 자사의 도구가 베트남어 AI 음성 해설의 기준이 되었다고 확신합니다. 사용자들은 정확성뿐만 아니라 Vbee가 개발한 각 음성에서 느껴지는 "감정"까지 높이 평가합니다.
예를 들어 베트남어에서는 "ngõ"(골목)라는 단어 하나조차도 지역에 따라 "hẻm", "kiệt", "xẹc" 등 여러 가지 다른 이름으로 불리는데, 각 단어는 인공지능이 이해해야 할 뚜렷한 뉘앙스를 담고 있습니다.
이를 위해 Vbee는 샘플 데이터셋 수집에 막대한 투자를 했을 뿐만 아니라 AI 학습을 위한 강력한 서버 시스템에도 투자했습니다.
"인공지능이 지역적 특색이 담긴 정보를 이해하고 정확하게 처리할 수 있도록 하려면 수많은 샘플 세트를 구축해야 했고, 처리 서버 비용 또한 매우 높았습니다."라고 호 민 득 CEO는 밝혔습니다.
응우옌 티 투 트랑 박사는 15년 이상 Vbee의 핵심 TTS 기술을 연구하여 베트남어 특유의 성조와 문법을 해독하는 데 헌신해 왔습니다. 그녀에게 모국어는 표현의 뉘앙스로 가득 찬 미묘한 세계입니다.
"베트남어는 매우 복잡하고 흥미로운 언어입니다. 특히 성조가 가장 어려운 부분이며, 세계의 다른 많은 공용어와도 다릅니다. 언어를 더 잘 이해할수록 제 모델이 더 정확해질 것입니다."라고 그녀는 설명했다.
Vbee는 기술 시대에 베트남어 언어 처리 소프트웨어를 통합하는 도구 및 장치의 필수적인 부분으로 점차 자리매김하고 있습니다.
Vbee 팀은 모든 단어와 목소리에 기술을 탐구하고 개발할 뿐만 아니라, 인공지능 음성에 진정한 "베트남의 정서"를 담아내기 위해 노력합니다.
Vbee라는 이름은 "Vietnamese BE your Eyes(당신의 눈이 되어주세요)"의 약자로, 시각 장애인을 위한 "눈" 역할을 하는 도구를 만들고 싶었던 저의 초기 바람에서 비롯되었습니다. 하지만 오늘날 청각을 시각보다 우선시하는 사람들이 많은 개발도상국에서, Vbee는 모든 사람을 위한 "눈"이 될 것이라고 믿습니다.
응우옌 티 투 짱 박사 (하노이 과학기술대학교 정보통신학부 선임 강사, Vbee 창립자 겸 최고기술책임자)
오디오북 애호가들의 모임
Vbee는 응우옌 티 투 트랑 박사가 시각 장애인 커뮤니티와 맺어온 깊은 유대감에서 탄생했습니다. 그녀는 학생 시절부터 시각 장애인을 지원하기 위해 오디오북 녹음과 베트남어 텍스트 음성 변환 시스템 개발에 참여해 왔습니다.
이러한 경험은 그녀에게 베트남어 텍스트 음성 변환 소프트웨어, 즉 Vbee의 전신을 개발하도록 영감을 주었습니다. 2018년, 그녀는 하노이 과학기술대학교 동창이자 Socbay.com 프로젝트와 오디오북 디지털화 경험을 가진 호 민 득과 함께 베트남 텍스트 음성 변환 분야의 선구자인 Vbee를 설립했습니다.
Vbee의 뛰어난 업적
- 2024년 퀄컴 베트남 혁신 챌린지 1등 수상자
- 2023년 청년 창업상 특별상 수상
- 스타트업이 Grab Venture Ignite 2020 액셀러레이션 프로그램에서 우승했습니다.
- 2018년 베트남 탤런트 어워드 최우수상, 2020년 베트남 탤런트 어워드 2위 수상.
- 정보통신부의 2025-2030 국가 디지털 전환 프로그램에서 베트남 핵심 기술로 인증받았습니다.
- 이 프로젝트는 2018년 베트남 디지털 미디어 어워드와 2019년 빈그룹 투자상을 수상했습니다.
지역 비전
베트남 시장에서 입지를 다진 Vbee는 2026년까지 라오스, 태국, 캄보디아, 필리핀 등 동남아시아 국가로 사업을 확장할 계획입니다.
응우옌 티 투 트랑 박사에 따르면, 오늘날 기술의 급속한 발전과 다국어 모델의 등장으로 다른 언어용 TTS 도구를 개발하는 것이 더욱 쉬워질 것이라고 합니다.
현재 그녀는 태국어, 중국어, 영어 음성 기술을 연구하고 있으며, 이를 통해 Vbee가 국제 시장에서 새로운 가능성을 열어가고 있습니다.
[광고_2]
출처: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm






댓글 (0)