이 방법은 엔터테인먼트 및 교육 분야를 위한 새로운 오디오 인터페이스 개발을 지원할 수 있습니다.

이미지001.png
사진: MIT CSAIL

목소리로 소리를 흉내 내는 것은 본 것을 표현하기 위해 빠르게 그림을 그리는 것과 같습니다. 연필로 그림을 그리는 대신, 목소리를 사용하여 소리를 표현하는 것이죠. 어려워 보일지 몰라도 누구나 자연스럽게 하는 행동입니다. 구급차 사이렌 소리, 까마귀 울음소리, 종소리 등을 흉내 내보면 이를 경험할 수 있을 겁니다.

인간의 의사소통 방식에 대한 인지 과학 에서 영감을 받아, MIT 컴퓨터 과학 및 인공지능 연구소(CSAIL)의 연구원들은 훈련이나 이전에 인간의 소리를 모방한 소리를 들어본 적이 없더라도 인간과 유사한 소리 시뮬레이션을 생성할 수 있는 인공지능 시스템을 개발했습니다.

이를 위해 연구팀은 인간의 음성을 모방하는 방식으로 소리를 생성하고 해석하는 시스템을 설계했습니다. 먼저 인간의 발성 기관 모델을 구축하여 후두에서 발생하는 진동이 목구멍, 혀, 입술에 의해 어떻게 변형되는지 시뮬레이션했습니다. 그런 다음 인지 기반 AI 알고리즘을 사용하여 이 모델을 조작하고, 각 상황에서의 특정한 음성 소통 방식을 고려하여 소리 시뮬레이션을 생성했습니다.

이 모델은 나뭇잎 바스락거리는 소리, 뱀이 쉿쉿거리는 소리, 구급차 사이렌 소리 등 다양한 환경음을 재현할 수 있습니다. 더 나아가, 일부 컴퓨터 비전 시스템이 스케치에서 고품질 이미지를 재현하는 방식처럼, 이 모델은 사람의 음성 시뮬레이션을 통해 실제 소리를 예측하는 역방향 작동도 가능합니다. 예를 들어, 사람이 흉내 낸 고양이 울음소리와 고양이 골골거리는 소리를 정확하게 구분할 수 있습니다.

미래에는 이 모델이 사운드 디자이너를 위한 더욱 직관적인 "시뮬레이션 기반" 인터페이스, 가상 현실에서 더욱 인간과 유사한 AI 캐릭터, 심지어 학생들이 외국어를 학습하는 데 도움을 주는 방법으로 이어질 수 있을 것입니다.

이번 연구의 주 저자인 대학원생 카르틱 찬드라(MIT CSAIL), 카리마 마, 그리고 연구생 매튜 캐런은 컴퓨터 그래픽 연구자들이 시각적 표현의 궁극적인 목표가 사실주의가 아니라는 점을 오랫동안 인지해 왔다고 지적합니다. 예를 들어, 추상화나 아이의 낙서도 사진만큼이나 표현력이 풍부할 수 있습니다.

3단계에 걸친 소리 모방 기술

연구팀은 인간의 발성 시뮬레이션과 비교하기 위해 점점 더 정교한 세 가지 버전의 모델을 개발했습니다. 첫 번째 모델은 실제 소리와 가장 유사한 소리를 생성하는 데만 초점을 맞춘 기본 모델이었지만, 이 모델은 인간의 행동과 일치하지 않았습니다.

다음으로, 연구팀은 "소통" 모델이라는 두 번째 모델을 설계했습니다. 캐런에 따르면, 이 모델은 청취자에게 있어 소리의 특징적인 요소들을 고려합니다. 예를 들어, 배의 엔진 소음을 모방함으로써 배 소리를 흉내낼 수 있는데, 이는 배 소리에서 가장 잘 인식되는 특징이지만 (물결치는 소리처럼 가장 중요한 요소는 아니지만) 말입니다. 이 모델은 첫 번째 버전에 비해 상당한 개선을 이루었습니다.

마지막으로 연구팀은 모델에 또 다른 차원의 추론을 추가했습니다. 찬드라는 "시뮬레이션된 소리는 투입하는 노력의 정도에 따라 달라질 수 있습니다. 정확한 소리를 만들어내려면 시간과 노력이 필요합니다."라고 설명했습니다. 연구팀의 완성된 모델은 너무 빠르거나, 너무 크거나, 지나치게 높거나 낮은 소리를 피함으로써 이러한 점을 고려했습니다. 이러한 요소들은 일반적인 의사소통에서는 나타날 가능성이 적기 때문입니다. 그 결과, 인간이 비슷한 소리를 모방할 때 내리는 여러 결정들을 반영하여 더욱 인간다운 소리 시뮬레이션을 만들어낼 수 있었습니다.

더욱 풍부한 표현력을 지닌 오디오 기술을 향하여.

이 모델은 예술가들이 컴퓨팅 시스템과 소리를 더욱 효과적으로 소통하는 데 도움을 줄 수 있으며, 영화 제작자와 콘텐츠 제작자들이 특정 맥락에 더욱 적합한 AI 사운드를 제작하는 데 기여할 수 있습니다. 또한, 음악가들이 글로 설명하기 어려운 소리를 시뮬레이션하여 사운드 데이터베이스를 빠르게 검색할 수 있도록 지원할 수도 있습니다.

한편, 연구팀은 이 모델을 언어 발달, 유아의 언어 학습 과정, 앵무새나 명금류와 같은 새들의 모방 행동 등 다른 분야에도 적용할 수 있는지 연구하고 있습니다.

하지만 현재 모델에는 여전히 몇 가지 한계가 있습니다. "z"와 같은 자음을 제대로 처리하지 못해 윙윙거리는 소리와 같은 소리를 정확하게 시뮬레이션하지 못합니다. 또한 인간이 말이나 음악을 흉내 내는 방식, 또는 심장 박동과 같이 다양한 언어에서 모방되는 여러 가지 소리를 재현하는 데에도 아직 어려움을 겪습니다.

스탠포드 대학교 언어학 교수 로버트 호킨스는 다음과 같이 논평했습니다. "실제 고양이 울음소리에서 '야옹'이라는 단어로의 전환은 언어 진화 과정에서 생리, 사회적 추론, 의사소통 간의 복잡한 상호작용을 보여줍니다. 이 모델은 이러한 과정에 대한 이론을 정형화하고 검증하는 데 있어 매우 중요한 진전입니다."

(출처: MIT 뉴스)