이러한 접근 방식은 엔터테인먼트 및 교육 분야를 위한 새로운 오디오 인터페이스 개발에 도움이 될 수 있습니다.

image001.png
사진: MIT CSAIL

목소리로 소리를 흉내 내는 것은 마치 눈에 보이는 것을 전달하기 위해 재빨리 그림을 그리는 것과 같습니다. 연필로 그림을 그리는 대신, 성도를 사용하여 소리를 표현하는 것입니다. 어려워 보일 수 있지만, 사람들은 본능적으로 이를 수행합니다. 구급차 사이렌 소리, 까마귀 울음소리, 또는 종소리를 흉내 내어 보세요.

MIT 컴퓨터 과학 및 인공지능 연구소(CSAIL)의 연구진은 의사소통 방식에 대한 인지 과학 에서 영감을 얻어, 아무런 훈련 없이도, 그리고 이전에 인간이 시뮬레이션한 소리를 "들어본" 적이 없어도 인간과 유사한 소리 시뮬레이션을 생성할 수 있는 AI 시스템을 개발했습니다.

이를 위해 연구팀은 사람과 같은 방식으로 소리를 생성하고 해석하는 시스템을 설계했습니다. 먼저 인간의 성도 모델을 구축하여 후두의 진동이 목, 혀, 입술에 의해 어떻게 형성되는지 시뮬레이션했습니다. 그런 다음 인지 기반 AI 알고리즘을 사용하여 모델을 구동하고, 각 맥락에서 소리를 전달하는 고유한 방식을 고려하여 소리 시뮬레이션을 생성했습니다.

이 모델은 나뭇잎 바스락거리는 소리, 뱀의 쉿거리는 소리, 구급차 사이렌 소리 등 다양한 환경음을 재현할 수 있습니다. 또한, 이 모델은 인간의 음성 시뮬레이션을 역으로 활용하여 실제 소리를 예측할 수 있는데, 이는 일부 컴퓨터 비전 시스템이 스케치에서 고화질 이미지를 재현하는 것과 유사합니다. 예를 들어, 이 모델은 사람이 고양이의 "야옹"과 "갸르릉" 소리를 흉내 낼 때 그 차이를 정확하게 구분할 수 있습니다.

미래에는 이 모델을 통해 사운드 디자이너를 위한 보다 직관적인 "시뮬레이션 기반" 인터페이스, 가상 현실에서 보다 인간과 유사한 AI 캐릭터, 심지어 학생들이 외국어를 배우는 데 도움이 되는 방법까지 개발될 수 있습니다.

이 연구의 주요 저자인 MIT CSAIL 대학원생 카르틱 찬드라와 카리마 마, 그리고 대학원생 매튜 캐런은 컴퓨터 그래픽 연구자들이 사실주의가 시각적 표현의 궁극적인 목표가 아니라는 점을 오래전부터 인지해 왔다고 지적합니다. 예를 들어, 추상화나 아이의 낙서는 사진만큼이나 표현력이 풍부할 수 있습니다.

3단계로 구성된 사운드 시뮬레이션의 예술

연구팀은 인간의 소리 시뮬레이션과 비교하기 위해 점점 더 정교해지는 세 가지 버전의 모델을 개발했습니다. 첫째, 실제 소리에 최대한 가까운 시뮬레이션을 생성하는 데 초점을 맞춘 기본 모델을 만들었지만, 이 모델은 인간의 행동과 일치하지 않았습니다.

그 후 팀은 "소통" 모델이라는 두 번째 모델을 설계했습니다. 캐런에 따르면, 이 모델은 듣는 사람에게 독특한 소리 요소를 고려합니다. 예를 들어, 배의 엔진 소리를 흉내 내는 것은 배의 엔진 소리를 흉내 내는 것입니다. 엔진 소리가 배의 소리에서 가장 잘 알려진 특징이기 때문입니다. 비록 가장 큰 소리는 아니지만(물결이 찰랑거리는 소리처럼), 이 모델은 첫 번째 버전에 비해 상당히 개선되었습니다.

마지막으로, 연구팀은 모델에 추론 계층을 추가했습니다. 찬드라는 "시뮬레이션된 소리는 얼마나 많은 노력을 기울이느냐에 따라 달라질 수 있습니다."라고 설명했습니다. "정확한 소리를 내는 데는 시간과 에너지가 필요합니다." 팀의 최종 모델은 이러한 점을 고려하여 너무 빠르거나, 너무 크거나, 너무 높거나 낮은 소리(일반적인 음성에서는 발생할 가능성이 낮은 요소)를 피합니다. 그 결과, 인간이 유사한 소리를 모방할 때 내리는 여러 판단을 반영하는 더욱 인간적인 시뮬레이션이 탄생했습니다.

더욱 표현력 있는 사운드 기술을 향해

이 모델은 아티스트가 컴퓨터 시스템과 사운드를 더 효과적으로 소통하도록 돕고, 영화 제작자와 콘텐츠 제작자가 맥락에 더욱 부합하는 AI 사운드를 제작할 수 있도록 지원합니다. 또한 음악가가 텍스트로 표현하기 어려운 노이즈를 시뮬레이션하여 사운드 데이터베이스를 빠르게 검색할 수 있도록 지원할 수 있습니다.

한편, 연구팀은 언어 발달, 아기가 말하는 법을 배우는 방식, 앵무새나 명금류 등 새의 모방 행동 등 다른 분야에도 이 모델을 적용할 수 있는 방법을 모색하고 있습니다.

하지만 현재 모델은 여전히 ​​몇 가지 한계를 가지고 있습니다. "z"와 같은 자음을 제대로 인식하지 못해 벌의 윙윙거리는 소리와 같은 소리를 정확하게 시뮬레이션하지 못합니다. 또한, 심장 박동처럼 언어마다 다르게 모방되는 말, 음악 , 소리를 인간이 어떻게 모방하는지 아직 재현하지 못합니다.

스탠퍼드 대학교 언어학 교수인 로버트 호킨스는 "진짜 고양이 소리에서 '야옹'이라는 단어로의 변화는 언어 진화에서 생리학, 사회적 추론, 그리고 의사소통 사이의 복잡한 상호작용을 보여줍니다."라고 말했습니다. "이 모델은 이러한 과정에 대한 이론을 정형화하고 검증하는 데 있어 매우 흥미로운 진전입니다."

(출처: MIT 뉴스)