Inspirado en la mecánica de la laringe, un nuevo modelo de inteligencia artificial (IA) puede generar y comprender simulaciones de sonidos cotidianos.
Este enfoque podría ayudar en el desarrollo de nuevas interfaces de audio para los sectores del entretenimiento y la educación .
Imitar sonidos con la voz es como dibujar rápidamente una imagen para representar algo que ves. En lugar de usar un lápiz para ilustrar la imagen, usas el tracto vocal para representar el sonido. Aunque parezca difícil, es algo que la gente hace de forma natural. Intenta imitar la sirena de una ambulancia, el graznido de un cuervo o una campana para experimentarlo.
Inspirados por la ciencia cognitiva sobre cómo nos comunicamos, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) han desarrollado un sistema de IA capaz de generar simulaciones de sonidos similares a los humanos sin ningún entrenamiento y sin haber "escuchado" nunca antes ningún sonido simulado por humanos.
Para lograrlo, el equipo diseñó su sistema para que produjera e interpretara sonidos de forma similar a como lo hacen los humanos. Comenzaron construyendo un modelo del tracto vocal humano, simulando cómo las vibraciones de la laringe son moldeadas por la garganta, la lengua y los labios. Posteriormente, utilizaron un algoritmo de IA de inspiración cognitiva para controlar el modelo, generando simulaciones de sonido teniendo en cuenta las formas únicas de comunicar los sonidos en cada contexto.
El modelo puede reproducir una amplia gama de sonidos ambientales, como el susurro de las hojas, el silbido de una serpiente o la sirena de una ambulancia. Además, puede funcionar a la inversa para predecir sonidos reales a partir de simulaciones del habla humana, de forma similar a cómo algunos sistemas de visión artificial pueden reproducir imágenes de alta calidad a partir de bocetos. Por ejemplo, el modelo puede distinguir con precisión entre el maullido y el ronroneo de un gato cuando es imitado por un humano.
En el futuro, este modelo podría conducir a interfaces “basadas en simulación” más intuitivas para diseñadores de sonido, personajes de IA más parecidos a los humanos en la realidad virtual e incluso métodos para ayudar a los estudiantes a aprender idiomas extranjeros.
Los autores principales del estudio —Kartik Chandra y Karima Ma, estudiantes de posgrado del MIT CSAIL, y Matthew Caren, estudiante de posgrado— señalan que los investigadores de gráficos por computadora reconocen desde hace tiempo que el realismo no es el objetivo final de la expresión visual. Por ejemplo, una pintura abstracta o un dibujo infantil pueden ser tan expresivos como una fotografía.
El arte de la simulación de sonido en 3 etapas
El equipo desarrolló tres versiones cada vez más sofisticadas del modelo para compararlas con simulaciones de sonido humano. Primero, crearon un modelo básico centrado únicamente en generar simulaciones lo más cercanas posible a los sonidos reales, pero este modelo no se correspondía con el comportamiento humano.
El equipo diseñó entonces un segundo modelo denominado modelo de "comunicación". Según Caren, este modelo tiene en cuenta los elementos del sonido que son distintivos para el oyente. Por ejemplo, se podría imitar el sonido de un barco simulando el rugido de su motor, ya que es la característica más reconocible del sonido, aunque no sea el elemento más fuerte (como el chapoteo del agua). Este modelo mejoró significativamente con respecto a la primera versión.
Finalmente, el equipo añadió una capa de razonamiento al modelo. «Los sonidos simulados pueden variar según el esfuerzo que se les dedique», explica Chandra. «Producir sonidos precisos requiere tiempo y energía». El modelo final del equipo tiene esto en cuenta al evitar sonidos demasiado rápidos, demasiado fuertes o demasiado agudos/graves, elementos que son menos probables en el habla normal. El resultado son simulaciones más parecidas a las humanas que reflejan muchas de las decisiones que tomamos los humanos al imitar sonidos similares.
Hacia una tecnología de sonido más expresiva
Este modelo podría ayudar a los artistas a comunicar mejor los sonidos con los sistemas computacionales, ayudando a cineastas y creadores de contenido a crear sonidos de IA más relevantes para el contexto. También podría permitir a los músicos buscar rápidamente en bases de datos de sonido simulando un ruido difícil de describir en texto.
Mientras tanto, el equipo está estudiando aplicaciones del modelo en otras áreas, incluido el desarrollo del lenguaje, cómo los bebés aprenden a hablar y el comportamiento mimético de aves como los loros y los pájaros cantores.
Sin embargo, el modelo actual aún presenta algunas limitaciones: presenta dificultades con consonantes como la "z", lo que resulta en simulaciones imprecisas de sonidos como el zumbido de una abeja. Además, aún no puede replicar cómo los humanos imitan el habla, la música o sonidos que se imitan de forma diferente en distintos idiomas, como el latido del corazón.
“La transición del sonido de un gato real a la palabra 'miau' muestra la compleja interacción entre la fisiología, el razonamiento social y la comunicación en la evolución del lenguaje”, afirmó Robert Hawkins, profesor de lingüística en la Universidad de Stanford. “Este modelo representa un avance emocionante en la formalización y la comprobación de teorías sobre estos procesos”.
(Fuente: MIT News)
[anuncio_2]
Fuente: https://vietnamnet.vn/day-ai-bieu-dat-am-thanh-2362906.html
Kommentar (0)