Ensinar IA a expressar sons

Inspirado na mecânica da laringe, um novo modelo de inteligência artificial (IA) consegue gerar e compreender simulações de sons do dia a dia.

Este método pode apoiar o desenvolvimento de novas interfaces de áudio para os setores de entretenimento e educação .

Imitar sons com a voz é como fazer um esboço rápido para representar algo que você viu. Em vez de usar um lápis para ilustrar a imagem, você usa suas vocalizações para expressar o som. Embora isso possa parecer difícil, é algo que todos fazem naturalmente. Experimente imitar a sirene de uma ambulância, o grasnar de um corvo ou o som de um sino para vivenciar essa experiência.

Inspirados pela ciência cognitiva sobre como nos comunicamos, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT desenvolveram um sistema de IA capaz de gerar simulações sonoras semelhantes às humanas sem treinamento e sem nunca terem "ouvido" sons simulados por humanos antes.

Para alcançar esse objetivo, a equipe de pesquisa projetou seu sistema para produzir e interpretar sons de forma a imitar a fala humana. Eles começaram construindo um modelo do trato vocal humano, simulando como as vibrações da laringe são moldadas pela garganta, língua e lábios. Em seguida, utilizaram um algoritmo de IA inspirado na cognição para manipular esse modelo, gerando simulações sonoras e considerando as formas específicas de comunicação vocal em cada contexto.

Este modelo consegue reproduzir uma grande variedade de sons ambientais, como o farfalhar das folhas, o sibilar de cobras ou a sirene de uma ambulância. Além disso, o modelo pode funcionar de forma inversa para prever sons reais a partir de simulações da fala humana, de maneira semelhante a como alguns sistemas de visão computacional reproduzem imagens de alta qualidade a partir de esboços. Por exemplo, o modelo consegue distinguir com precisão entre o som de um gato miando e o som de um gato ronronando quando imitados por um humano.

No futuro, esse modelo poderá levar a interfaces "baseadas em simulação" mais intuitivas para designers de som, personagens de IA mais semelhantes a humanos em realidade virtual e até mesmo métodos para auxiliar estudantes na aprendizagem de línguas estrangeiras.

Os autores principais do estudo — os estudantes de pós-graduação Kartik Chandra (MIT CSAIL), Karima Ma e o estudante de pesquisa Matthew Caren — observam que os pesquisadores de computação gráfica reconhecem há muito tempo que o realismo não é o objetivo final da expressão visual. Por exemplo, uma pintura abstrata ou um rabisco infantil podem ser tão expressivos quanto uma fotografia.

A arte da imitação sonora em 3 etapas

A equipe desenvolveu três versões progressivamente mais sofisticadas do modelo para comparar com simulações de sons humanos. Primeiro, eles criaram um modelo básico que se concentrava exclusivamente em produzir simulações que se assemelhassem ao máximo aos sons reais, mas esse modelo não correspondia ao comportamento humano.

Em seguida, a equipe projetou um segundo modelo chamado modelo de “comunicação”. De acordo com Caren, esse modelo considera os elementos característicos do som para o ouvinte. Por exemplo, é possível imitar o som de um navio simulando o rugido do motor, já que essa é a característica mais reconhecível do som, embora não seja o elemento mais significativo (como o som da água batendo nas ondas, por exemplo). Esse modelo representou uma melhoria significativa em relação à primeira versão.

Por fim, a equipe de pesquisa adicionou mais uma camada de raciocínio ao modelo. Chandra explicou: “Os sons simulados podem variar dependendo do esforço investido. Criar sons precisos exige tempo e energia”. O modelo completo da equipe leva isso em consideração, evitando sons muito rápidos, muito altos ou excessivamente agudos/graves – elementos menos prováveis de aparecer na comunicação normal. O resultado são simulações sonoras mais semelhantes às humanas, refletindo muitas das decisões que os humanos tomam ao imitar sons similares.

Em direção a uma tecnologia de áudio mais expressiva.

Este modelo poderia ajudar artistas a comunicar sons com sistemas computacionais de forma mais eficaz, auxiliando cineastas e criadores de conteúdo na produção de sons de IA mais relevantes para contextos específicos. Também poderia permitir que músicos buscassem rapidamente em bancos de dados de sons, simulando um som difícil de descrever por escrito.

Entretanto, a equipe de pesquisa está explorando aplicações desse modelo em outras áreas, incluindo o desenvolvimento da linguagem, como os bebês aprendem a falar e o comportamento de imitação de pássaros como papagaios ou pássaros canoros.

No entanto, o modelo atual ainda apresenta algumas limitações: ele tem dificuldades com consoantes como "z", o que leva a simulações imprecisas de sons como zumbidos. Além disso, ele ainda não consegue replicar como os humanos imitam a fala, a música ou os diferentes sons imitados em vários idiomas, como batimentos cardíacos.

O professor de linguística Robert Hawkins, da Universidade Stanford, comentou: “A transição do som de um gato real para a palavra 'miau' demonstra a complexa interação entre fisiologia, raciocínio social e comunicação na evolução da linguagem. Este modelo representa um avanço empolgante na formalização e teste de teorias sobre esses processos.”

(Fonte: MIT News)

Fonte: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html