베트남어 언어 및 음성 처리(VLSP) 대회는 베트남 정보기술협회(VISA) 산하 VLSP 클럽이 주최하는 베트남어 언어 및 음성 처리 국제 학술대회의 일환으로 개최됩니다. VLSP 2023은 음성 및 텍스트 처리 분야 10개 대회를 개최하여 주요 연구자, 전문가, 그리고 기술 개발 부서가 함께 참여합니다.

이번이 Viettel AI가 이 대회에 참여한 네 번째이자 이전에 세 번이나 우승했지만, Viettel 엔지니어들은 대회 부문 구조의 변화로 인해 여전히 많은 어려움에 직면했습니다.

구체적으로, 작년에 비해 올해는 음성 인식과 감정 인식 부문이 하나로 통합되었습니다. 팀들은 텍스트와 문장의 감정을 모두 인식하기 위해 두 가지 문제를 동시에 풀어야 하므로, 과제량과 난이도가 두 배로 증가했습니다.

낮은 품질이든 높은 품질이든 모든 데이터를 활용하세요

올해 시험은 범주 구조를 변경하는 것뿐만 아니라 원시 데이터, 레이블이 지정되지 않은 데이터, 저품질 데이터를 포함한 제한된 데이터 조건으로 처음부터 모델을 구축하는 데 중점을 둡니다.시험은 서로 다른 품질과 형식을 가진 4가지 데이터 그룹을 제공합니다.레이블이 지정되지 않은 오디오만 포함된 데이터, 오디오와 텍스트만 포함된 데이터, 감정과 오디오를 포함하는 고품질 데이터, 표준 레이블, 그리고 감정과 오디오를 포함하는 저품질 데이터 세트가 있습니다.각 데이터 세트는 각 목적과 시험 범주에 맞게 명확하게 정의되어 있으며, 모든 데이터 세트에 총 300시간 이상이 소요됩니다.이는 일반적으로 최대 1,000~2,000시간 이상이 필요한 음성 인식 훈련을 위한 표준 데이터 세트와 비교하면 상당히 적은 시간입니다.

각 팀은 작업하고 결과물을 제출할 때까지 2개월도 안 되는 시간이 주어졌지만, 실제로 해결책을 조사하는 데 소요된 시간은 리소스 부족으로 인해 훨씬 ​​짧았습니다.

Viettel AI의 가상 비서 플랫폼 부문 인공지능 엔지니어인 Dang Dinh Son 씨는 "올해 Viettel AI는 새로운 기술 연구와 제품 개발에 많은 컴퓨팅 인프라 리소스를 투자했습니다. 음성 인식은 많은 하드웨어 리소스가 필요한 기술입니다."라고 말했습니다.

그림 1.jpg
Viettel AI를 대표하여 음성 인식 및 음성 감정 인식 부문(VLSP 2023)에 참여하는 인공지능 엔지니어링 그룹, 가상 비서 플랫폼 블록

데이터 양과 품질이 낮은 상황에 직면한 연구팀은 "데이터 품질과 관계없이 모든 데이터를 활용해야 한다"는 관점을 즉시 정했습니다. 이를 위해서는 모든 데이터를 처리하는 학습 사이클을 구축하고, 여러 모델을 사용하는 대신 다양한 문제를 해결하는 단일 모델을 구축해야 했습니다.

선구적인 기술 습득의 결과

데이터와 자원이 부족한 상황에서 연구팀은 규모가 크지는 않지만 중요한 점은 가장 세부적인 부분까지 정교하게 처리한 간단한 프로세스를 구축하기로 결정했습니다.

Viettel AI 엔지니어들은 전 세계 주요 학회 및 학술지의 최신 연구 결과를 면밀히 검토하여 새로운 접근법을 모색했습니다. 연구팀은 효과적인 모델 학습을 위한 데이터 처리 기법과 결합하여, 사용 가능한 모든 데이터를 처리하는 학습 사이클을 구축했습니다. 이 사이클은 세 단계로 구성됩니다. 레이블 없이 음성 특징을 설명하는 사전 학습된 모델을 구축하고, 사전 학습된 모델을 음성 인식과 감정 인식이라는 두 가지 문제에 맞게 미세 조정하고, 마지막으로 추론합니다.

"이전 제품 개발 및 배포 과정에서 데이터 부족 문제를 해결했던 경험 또한 팀이 의사 결정 방식을 찾는 데 큰 도움이 되었습니다. 오히려 테스트를 통해 얻은 지식과 결과는 Viettel AI 제품에 즉시 적용할 수 있는 잠재력을 가지고 있어, 테스트 진행 과정이 매우 순조롭게 진행되었습니다."라고 Viettel AI의 가상 비서 플랫폼 엔지니어인 부이 티엔 닷 씨는 말했습니다.

그 결과, Viettel AI는 음성 인식 및 음성 감정 인식 부문에서 1등을 차지했을 뿐만 아니라, 89.18%라는 인상적인 점수를 달성했습니다(다음 팀은 각각 83.40%와 78.45%).

손 씨는 핵심 요인은 Viettel AI가 오랫동안 개발한 베트남어 전용 음성 처리 모델에 있다고 말했습니다.

"Viettel AI는 기존 연구 결과의 모델과 지침을 사용하는 대신, 자체적으로 베트남어 음성 처리 모델을 구축하고 개발하기로 했습니다. 이 모델은 지속적으로 업데이트되고 최적화되어 점점 더 효과적이 되고 있습니다."라고 손 씨는 말했습니다.

비엣텔 AI 솔루션은 경쟁에서 그치지 않고, 가상 교환기 제품인 비엣텔 가상 비서를 업그레이드하는 토대가 될 것입니다. 가상 비서는 대화에서 고객의 감정을 더욱 정확하게 파악하여 피드백을 제공하거나 적절한 뉘앙스를 선택하도록 지원합니다. 이를 통해 사람과 AI 간의 대화가 더욱 자연스러워지고 사용자 경험이 향상될 것입니다. 고객 불만을 자동으로 식별하고 교환기로 전송하여 적시에 처리하거나 정보를 활용하는 시스템 구축 등 고객 관리 분야에서 다양한 새로운 활용 사례가 창출될 것입니다.

그림 2.jpg
Viettel AI의 가상 비서 플랫폼 엔지니어인 Bui Tien Dat 씨가 팀을 대표하여 이 컨퍼런스에서 연구 결과를 발표했습니다.

해당 사업부 대표는 Viettel AI가 앞으로도 기술을 개발하고, 제품을 끊임없이 업그레이드하여 정확성을 높이고, 사용자 경험과 제품 효율성을 향상시킬 것이라고 밝혔습니다.

꾸옥 투안