Inspirado en la mecánica de la laringe, un nuevo modelo de inteligencia artificial (IA) puede generar y comprender simulaciones de sonidos cotidianos.
Este método puede apoyar el desarrollo de nuevas interfaces de audio para los sectores del entretenimiento y la educación .

Imitar sonidos con la voz es como dibujar una imagen rápida para representar algo que has visto. En lugar de usar un lápiz para ilustrar la imagen, usas tus vocalizaciones para expresar el sonido. Aunque parezca difícil, es algo que todos hacemos de forma natural. Intenta imitar la sirena de una ambulancia, el graznido de un cuervo o una campana para experimentarlo.
Inspirados por la ciencia cognitiva sobre cómo nos comunicamos, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) han desarrollado un sistema de IA capaz de generar simulaciones de sonido similares a los humanos sin entrenamiento y sin haber "escuchado" nunca antes ningún sonido simulado por humanos.
Para lograrlo, el equipo de investigación diseñó su sistema para producir e interpretar sonidos de forma que imitaran el habla humana. Comenzaron construyendo un modelo del tracto vocal humano, simulando cómo las vibraciones de la laringe son moldeadas por la garganta, la lengua y los labios. Posteriormente, utilizaron un algoritmo de IA de inspiración cognitiva para manipular este modelo, generando simulaciones de sonido considerando las formas específicas de comunicación vocal en cada contexto.
Este modelo puede reproducir una amplia variedad de sonidos ambientales, como el crujido de las hojas, el silbido de las serpientes o la sirena de una ambulancia. Además, puede funcionar a la inversa para predecir sonidos reales a partir de simulaciones de voz humana, de forma similar a cómo algunos sistemas de visión artificial reproducen imágenes de alta calidad a partir de bocetos. Por ejemplo, el modelo puede distinguir con precisión entre el maullido de un gato y su ronroneo cuando es imitado por un humano.
En el futuro, este modelo podría conducir a interfaces “basadas en simulación” más intuitivas para diseñadores de sonido, personajes de IA más parecidos a los humanos en la realidad virtual e incluso métodos para ayudar a los estudiantes a aprender idiomas extranjeros.
Los autores principales del estudio —los estudiantes de posgrado Kartik Chandra (MIT CSAIL), Karima Ma y el estudiante de investigación Matthew Caren— señalan que los investigadores en gráficos por computadora reconocen desde hace tiempo que el realismo no es el objetivo final de la expresión visual. Por ejemplo, una pintura abstracta o un dibujo infantil pueden ser tan expresivos como una fotografía.
El arte de la imitación del sonido a través de 3 etapas
El equipo desarrolló tres versiones cada vez más sofisticadas del modelo para compararlas con simulaciones de sonido humano. Primero, crearon un modelo básico centrado exclusivamente en producir simulaciones que se asemejaran lo más posible a los sonidos reales, pero este modelo no se correspondía con el comportamiento humano.
A continuación, el equipo diseñó un segundo modelo denominado modelo de "comunicación". Según Caren, este modelo considera los elementos característicos del sonido para el oyente. Por ejemplo, se puede imitar el sonido de un barco simulando el rugido de su motor, ya que es la característica más reconocible del sonido, aunque no el elemento más significativo (como el chapoteo del agua, por ejemplo). Este modelo representó una mejora significativa con respecto a la primera versión.
Finalmente, el equipo de investigación añadió otra capa de razonamiento al modelo. Chandra explicó: «Los sonidos simulados pueden variar según el esfuerzo invertido. Crear sonidos precisos requiere tiempo y energía». El modelo completo del equipo tiene esto en cuenta al evitar sonidos demasiado rápidos, demasiado fuertes o excesivamente agudos o graves, elementos menos comunes en la comunicación normal. El resultado son simulaciones de sonido más parecidas a las humanas, que reflejan muchas de las decisiones que tomamos los humanos al imitar sonidos similares.
Hacia una tecnología de audio más expresiva.
Este modelo podría ayudar a los artistas a comunicar el sonido con los sistemas informáticos de forma más eficaz, ayudando a cineastas y creadores de contenido a producir sonidos de IA más relevantes para contextos específicos. También podría permitir a los músicos buscar rápidamente en bases de datos de sonido simulando un sonido difícil de describir por escrito.
Mientras tanto, el equipo de investigación está explorando aplicaciones de este modelo en otras áreas, incluido el desarrollo del lenguaje, cómo los bebés aprenden a hablar y el comportamiento mimético de aves como los loros o los pájaros cantores.
Sin embargo, el modelo actual aún presenta algunas limitaciones: presenta dificultades con consonantes como la "z", lo que resulta en simulaciones imprecisas de sonidos como el zumbido. Además, aún no puede replicar cómo los humanos imitan el habla, la música ni los diferentes sonidos que se imitan en varios idiomas, como los latidos del corazón.
El profesor de lingüística Robert Hawkins de la Universidad de Stanford comentó: «La transición del sonido de un gato real a la palabra 'miau' demuestra la compleja interacción entre la fisiología, el razonamiento social y la comunicación en la evolución del lenguaje. Este modelo supone un avance emocionante en la formalización y la comprobación de teorías sobre estos procesos».
(Fuente: MIT News)
[anuncio_2]
Fuente: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html






Kommentar (0)