Цей метод може сприяти розробці нових аудіоінтерфейсів для розважальної та освітньої галузей.

зображення001.png
Фото: MIT CSAIL

Імітація звуків голосом — це як швидкий начерк картини, щоб передати щось, що ви бачили. Замість того, щоб використовувати олівець для ілюстрації зображення, ви використовуєте вокалізації, щоб виразити звук. Хоча це може здатися складним, це те, що кожен робить природно. Спробуйте імітувати сирену швидкої допомоги, каркання ворони або дзвінок, щоб відчути це.

Натхненні когнітивною наукою про те, як ми спілкуємося, дослідники з Лабораторії комп'ютерних наук та штучного інтелекту (CSAIL) Массачусетського технологічного інституту розробили систему штучного інтелекту, здатну генерувати звукові симуляції, подібні до людських, без навчання та без будь-якого «чуття» будь-яких звуків, імітованих людиною, раніше.

Щоб досягти цього, дослідницька група розробила свою систему для відтворення та інтерпретації звуку таким чином, щоб імітувати людську мову. Вони почали зі створення моделі голосового тракту людини, імітуючи, як вібрації гортані формуються горлом, язиком та губами. Потім вони використали когнітивно натхненний алгоритм штучного інтелекту для маніпулювання цією моделлю, створюючи звукові симуляції, враховуючи специфічні способи голосового спілкування в кожному контексті.

Ця модель може відтворювати широкий спектр звуків навколишнього середовища, таких як шелест листя, шипіння змій або сирена швидкої допомоги. Крім того, модель може працювати у зворотному напрямку, щоб передбачати реальні звуки на основі симуляцій людського мовлення, подібно до того, як деякі системи комп'ютерного зору відтворюють високоякісні зображення з ескізів. Наприклад, модель може точно розрізняти звук нявкання кота та звук муркотіння кота, коли його імітує людина.

У майбутньому ця модель може призвести до більш інтуїтивних інтерфейсів, заснованих на симуляції, для звукорежисерів, більш схожих на людиноподібних персонажів зі штучним інтелектом у віртуальній реальності та навіть методів допомоги студентам у вивченні іноземних мов.

Провідні автори дослідження — аспіранти Картік Чандра (MIT CSAIL), Каріма Ма та аспірант Метью Карен — зазначають, що дослідники комп'ютерної графіки давно визнали, що реалізм не є кінцевою метою візуального вираження. Наприклад, абстрактна картина чи дитячий малюнок можуть бути такими ж виразними, як і фотографія.

Мистецтво звукової імітації через 3 етапи

Команда розробила три дедалі складніші версії моделі для порівняння з симуляціями людських звуків. Спочатку вони створили базову модель, яка зосереджувалася виключно на створенні симуляцій, що найбільше нагадували реальні звуки, але ця модель не відповідала людській поведінці.

Далі команда розробила другу модель під назвою «комунікаційна» модель. За словами Карен, ця модель враховує характерні для слухача елементи звуку. Наприклад, можна імітувати звук корабля, імітуючи рев його двигуна, оскільки це найбільш впізнавана характеристика звуку, хоча й не найважливіший елемент (як, наприклад, звук плескоту води). Ця модель була значним покращенням порівняно з першою версією.

Зрештою, дослідницька група додала до моделі ще один рівень міркування. Чандра пояснив: «Змодельовані звуки можуть відрізнятися залежно від того, скільки зусиль ви докладаєте. Створення точних звуків вимагає часу та енергії». Повна модель команди враховує це, уникаючи звуків, які є занадто швидкими, занадто гучними або надмірно високими/низькими – елементів, які рідше зустрічаються у звичайному спілкуванні. Результатом є симуляції звуків, більш схожі на людські, що відображають багато рішень, які люди приймають, імітуючи подібні звуки.

До більш виразних аудіотехнологій.

Ця модель може допомогти митцям ефективніше передавати звук комп'ютерним системам, допомагаючи кінематографістам та творцям контенту створювати звуки штучного інтелекту, які більш релевантні до певних контекстів. Вона також може дозволити музикантам швидко шукати в базах даних звуку, імітуючи звук, який важко описати письмово.

Тим часом дослідницька група вивчає застосування цієї моделі в інших сферах, включаючи розвиток мови, те, як немовлята навчаються говорити, та мімікричну поведінку птахів, таких як папуги чи співочі птахи.

Однак, поточна модель все ще має деякі обмеження: вона має проблеми з приголосними, такими як «z», що призводить до неточної імітації звуків, таких як дзижчання. Крім того, вона поки що не може відтворити, як люди імітують мову, музику або різні звуки, що імітуються різними мовами, такі як серцебиття.

Професор лінгвістики Роберт Гокінс зі Стенфордського університету прокоментував: «Перехід від звуку справжнього кота до слова «няв» демонструє складну взаємодію між фізіологією, соціальним мисленням та комунікацією в еволюції мови. Ця модель є захопливим кроком уперед у формалізації та перевірці теорій про ці процеси».

(Джерело: Новини MIT)