La periodista del WSJ Joanna Stern intentó usar inteligencia artificial para crear una versión falsa de sí misma que engañó tanto a su familia como al sistema bancario.
El uso de inteligencia artificial para insertar rostros o voces falsas en videos , comúnmente conocido como deepfakes, es cada vez más común y peligroso. Esto representa un verdadero peligro en internet.
Además de los videos sensibles, los deepfakes también pueden causar graves daños si se usan con fines políticos . El video de la transformación del rostro del expresidente estadounidense Barack Obama, que se hizo viral en 2018, demostró que las figuras políticas destacadas también pueden convertirse en víctimas.
La pornografía deepfake se está convirtiendo en un problema global. Foto: Wired. |
Para probar la eficacia de la IA, la reportera del WSJ, Joanna Stern, utilizó Synthesia, una herramienta de deepfake, para crear una versión simulada de sí misma. El resultado fue que el clon engañó tanto a su familia como al sistema bancario.
Copia perfecta
Al relatar su viaje para clonarse a sí misma, Stern dijo que pasó meses experimentando con Synthesia y entrenando a la IA a partir de sus videos y archivos de audio originales.
Usar esta herramienta también es muy sencillo ya que los usuarios solo necesitan ingresar cualquier texto y recibirán un nuevo video con su voz hablando sobre ese contenido.
“Debido a la naturaleza de mi trabajo, que requiere trabajar mucho con diálogos y en pantalla, pensé que la IA podría ayudarme a ser más eficiente y aliviar parte del trabajo duro”, dijo Stern.
Joanna Stern graba su voz para entrenar la IA de Synthesia. Foto: WSJ. |
Para entrenar la herramienta, una reportera del WSJ acudió a un estudio de grabación y dedicó unos 30 minutos a filmarse y dos horas a grabar su voz. En pocas semanas, la versión virtual de Stern, a la que llamó Joanna AI, estaba lista para realizar su trabajo.
Stern aprovechó sus vacaciones para poner a trabajar a Joanna AI. En su primer trabajo, el reportero del WSJ usó ChatGPT para escribir el guion de un video de TikTok sobre consejos para iOS.
Stern pegó el texto en Synthesia. Tras la inicialización, se escuchó su voz en el video. "Fue como verme reflejada en un espejo, aunque los gestos y las expresiones faciales eran ligeramente diferentes. Fue muy convincente", comentó la reportera.
Stern dijo que Joanna AI tiene impresionantes habilidades de imitación para oraciones cortas, pero sus debilidades se hacen evidentes a medida que las oraciones se hacen más largas.
Por eso también las plataformas de vídeo de corta duración son los entornos más adecuados para la IA, afirmó Stern. Según ella, los usuarios suelen prestar menos atención a los detalles en los vídeos de TikTok, lo que hace que las funciones similares a las de una computadora pasen fácilmente desapercibidas.
Para las llamadas telefónicas, Stern utiliza otra aplicación de IA llamada ElevenLabs en lugar de Synthesia. Este software de voz con IA ofrece la ventaja de que los usuarios simplemente suben sus archivos de audio a la herramienta sin necesidad de ir a un estudio de grabación.
Stern afirmó que Joanna AI posee una capacidad impresionante para imitar frases cortas. Foto: WSJ. |
La reportera del WSJ se sorprendió cuando ElevenLabs logró clonar su voz en tan solo dos minutos. Cabe destacar que la tarifa para usar esta aplicación es de tan solo unos 5 dólares al mes.
En comparación con Synthesia, Stern comentó que su voz clonada en ElevenLabs sonaba más humana, con buena entonación y pronunciación.
Para comprobar su credibilidad, el reportero intentó usar la voz para hablar con un familiar. La hermana de Stern dijo que la voz de la IA se parecía mucho a la suya, salvo que no se detenía ni un segundo.
Mientras tanto, cuando Stern usó la voz de IA para llamar a su padre y pedirle su número de seguro social, inmediatamente se dio cuenta de que algo andaba mal porque sonaba como un archivo de audio grabado.
Engañar al banco
Lo más notable es que la IA fue tan efectiva que engañó al sistema biométrico de voz de la tarjeta de crédito Chase de Stern.
El reportero del WSJ primero le dio a Joanna unas preguntas que Chase le haría. Luego, llamó a atención al cliente y dejó que la IA respondiera.
La IA fue tan efectiva que engañó al sistema biométrico de voz de la tarjeta de crédito Chase de Stern. Foto: WSJ. |
En el paso biométrico, cuando el sistema automatizado solicitó su nombre y dirección, Joanna AI respondió oficialmente. En cuanto escuchó la voz de la IA, el sistema de Chase la reconoció de inmediato como Stern y la conectó con un representante del banco.
Después de la prueba exitosa, Stern contactó directamente a Chase para decirle que no tenía tratos con el banco.
Un portavoz de Chase dijo más tarde que el banco utiliza biometría de voz, junto con otras herramientas, para verificar a las personas que llaman.
Chase agregó que la función está destinada a ayudar a los clientes a identificarse de forma rápida y segura, pero que los clientes deberán proporcionar información adicional para completar transacciones y otras solicitudes financieras.
Lo más preocupante, sin embargo, es que aplicaciones como ElevenLabs han logrado una copia excelente sin mayores problemas. Los usuarios simplemente aceptan una política de responsabilidad y pueden subir archivos de audio y crear sus propias copias.
Tras las pruebas del WSJ , ElevenLabs anunció que bloquearía las cuentas que aparentemente creen contenido fraudulento o ilegal. La startup también está trabajando en una herramienta de etiquetado con IA para los vídeos creados en su plataforma.
Synthesia, por su parte, requiere que los usuarios den su consentimiento verbal para los archivos de audio y vídeo, por lo que Stern tuvo que ir al estudio a filmar y grabar en vivo con la compañía.
Usar Synthesia es sencillo: al introducir cualquier texto, el usuario recibirá un nuevo vídeo con su voz hablando sobre ese contenido. Foto: WSJ. |
Según Siobhan Johnson, portavoz de la Oficina Federal de Investigaciones (FBI), en promedio, las familias en Estados Unidos han perdido alrededor de 11.000 dólares por cada llamada fraudulenta.
En 2022, los datos de la Comisión Federal de Comercio de Estados Unidos (FTC) mostraron que los estadounidenses perdieron un total de 2.600 millones de dólares debido a llamadas fraudulentas.
El desarrollo de programas de inteligencia artificial baratos y accesibles ha permitido a los estafadores clonar voces libremente y crear conversaciones que suenan exactamente como el original.
Esta amenaza no es solo hipotética. Estamos viendo cómo los estafadores utilizan estas herramientas como arma. Pueden crear un clon de voz relativamente bueno con menos de un minuto de audio. Para algunas personas, incluso unos pocos segundos son suficientes», afirmó Hany Farid, profesor de informática de la Universidad de California, Berkeley.
[anuncio_2]
Enlace de origen
Kommentar (0)