Вдохновленная механикой гортани, новая модель искусственного интеллекта (ИИ) способна генерировать и понимать имитацию повседневных звуков.
Этот метод может способствовать разработке новых аудиоинтерфейсов для развлекательного и образовательного секторов.

Имитация звуков голосом подобна быстрому наброску, чтобы передать увиденное. Вместо карандаша для иллюстрации изображения вы используете свои голосовые сигналы для выражения звука. Хотя это может показаться сложным, это то, что каждый делает естественно. Попробуйте имитировать сирену скорой помощи, карканье вороны или звон колокола, чтобы это понять.
Вдохновленные когнитивной наукой о том, как мы общаемся, исследователи из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) Массачусетского технологического института разработали систему искусственного интеллекта, способную генерировать звуковые симуляции, похожие на человеческие, без обучения и без предварительного «слышания» каких-либо звуков, имитирующих человеческий голос.
Для достижения этой цели исследовательская группа разработала систему, способную воспроизводить и интерпретировать звук таким образом, чтобы он имитировал человеческую речь. Они начали с создания модели человеческого голосового тракта, имитирующей то, как вибрации гортани формируются глоткой, языком и губами. Затем они использовали алгоритм искусственного интеллекта, основанный на когнитивных принципах, для управления этой моделью, генерируя звуковые симуляции с учетом специфических способов голосовой коммуникации в каждом контексте.
Эта модель способна воспроизводить самые разнообразные звуки окружающей среды, такие как шелест листьев, шипение змей или сирена скорой помощи. Более того, модель может работать в обратном направлении, предсказывая реальные звуки на основе имитации человеческой речи, подобно тому, как некоторые системы компьютерного зрения воспроизводят высококачественные изображения по эскизам. Например, модель может точно различать мяуканье кошки и мурлыканье кошки, имитируемые человеком.
В будущем эта модель может привести к созданию более интуитивно понятных «симуляционных» интерфейсов для звукорежиссеров, более человекоподобных персонажей искусственного интеллекта в виртуальной реальности и даже методов, помогающих студентам в изучении иностранных языков.
Ведущие авторы исследования — аспиранты Картик Чандра (MIT CSAIL), Карима Ма и студент-исследователь Мэтью Карен — отмечают, что исследователи в области компьютерной графики давно признали, что реализм не является конечной целью визуального выражения. Например, абстрактная картина или детский рисунок могут быть столь же выразительными, как и фотография.
Искусство имитации звука в 3 этапа
Команда разработала три все более сложные версии модели для сравнения с имитацией человеческих звуков. Сначала они создали базовую модель, которая была сосредоточена исключительно на создании имитаций, наиболее точно соответствующих реальным звукам, но эта модель не соответствовала поведению человека.
Затем команда разработала вторую модель, названную «коммуникационной». По словам Карен, эта модель учитывает характерные элементы звука для слушателя. Например, можно имитировать звук корабля, воспроизводя рев его двигателя, поскольку это наиболее узнаваемая характеристика звука, хотя и не самый значимый элемент (как, например, звук плеска воды). Эта модель стала значительным улучшением по сравнению с первой версией.
Наконец, исследовательская группа добавила еще один уровень логического обоснования к модели. Чандра объяснил: «Имитируемые звуки могут различаться в зависимости от того, сколько усилий вы вкладываете в их создание. Создание точных звуков требует времени и энергии». Полная модель команды учитывает это, избегая слишком быстрых, слишком громких или чрезмерно высоких/низких звуков — элементов, которые реже встречаются в обычном общении. В результате получаются более человекоподобные звуковые симуляции, отражающие многие решения, которые принимают люди при имитации подобных звуков.
На пути к более выразительным аудиотехнологиям.
Эта модель может помочь художникам более эффективно взаимодействовать со звуковыми системами, оказывая содействие кинематографистам и создателям контента в создании звуков с использованием ИИ, более соответствующих конкретным контекстам. Она также может позволить музыкантам быстро осуществлять поиск в базах данных звуков, имитируя звук, который трудно описать письменно.
Тем временем исследовательская группа изучает возможности применения этой модели в других областях, включая развитие языка, то, как младенцы учатся говорить, и мимикрию птиц, таких как попугаи или певчие птицы.
Однако у существующей модели всё ещё есть некоторые ограничения: она с трудом распознаёт согласные звуки, такие как «з», что приводит к неточным симуляциям звуков, например, жужжания. Кроме того, она пока не может воспроизвести то, как люди имитируют речь, музыку или различные звуки, имитируемые в разных языках, например, сердцебиение.
Профессор лингвистики Роберт Хокинс из Стэнфордского университета отметил: «Переход от звука настоящего кошачьего мяуканья к слову „мяу“ демонстрирует сложное взаимодействие между физиологией, социальным мышлением и коммуникацией в эволюции языка. Эта модель является важным шагом вперед в формализации и проверке теорий об этих процессах».
(Источник: MIT News)
Источник: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html






Комментарий (0)