Abran paso a la democratización de los efectos especiales

Últimamente se está hablando mucho de los deepfakes como una alternativa para la animación en las películas.

Uno de los ejemplos más recientes es ‘Géminis’, una película en la que Will Smith se enfrenta a una copia digital de sí mismo 30 años más joven.

Se estima que la creación de este Will Smith más joven ha costado entre medio millón y un millón de dólares, más 100.000 dólares por cada escena, aunque el Financial Times estima que el costo total de este «doble virtual» ha sido de 25 millones de dólares.

Pees bien, con una GAN (red generativa antagónica) bien entrenada, el costo de este tipo de activos se reduciría drásticamente.

Ahora Investigadores del International Institute of Information Technology en Hyderabad, India, han desarrollado un sistema de inteligencia artificial capaz de crear videos deepfakes traducidos a diferentes idiomas.

No hablamos solo de «audio», es decir, de que el sujeto primero hable inglés y luego hable en español, sino que el software usa inteligencia artificial para emular el movimiento de los labios para arrojar un resultado más realista.

Para desarrollar su modelo, los investigadores crearon un sistema de traducción de voz a voz reuniendo diferentes módulos existentes de voz y lenguaje. Posteriormente, implementaron LipGAN para hacer la «traducción cara a cara».

LipGAN, como casi se puede intuir de su nombre, es un sistema para generar rostros realistas a partir del audio que «hablan» dicho audio con los labios sincronizados.

El sistema se divide en dos subsistemas: traducción de voz a voz y síntesis de labios.

El primero combina tecnologías como ASR (reconocimiento automático del habla, por sus siglas en inglés), NMT (traducción automática neuronal) y TTS (Text-to-Speech) para, primero, entender lo que dice el audio original; segundo, traducirlo a otro idioma y tercero, «hablarlo» en el idioma objetivo usando la voz del sujeto.

Para traducir el inglés se ha usado DeepSpeech (que es el motor de reconocimiento de voz de Mozilla) y para entrenar el sistema NMT en los idiomas indios se ha usado el código base de Facebook AI Research.

Básicamente, LipGAN es una red generativa antagónica.

El generador crea una imagen facial condicionada por el input de audio y el discriminador comprueba que los frames generados y el audio están sincronizados de la mejor forma posible.

Para conseguirlo, además de con imágenes sintetizadas, el modelo ha sido alimentado con otras muestras sincronizadas y no sincronizadas para aprender a detectar la mejor sincronización labial, además de la calidad de imagen óptima.

De acuerdo con los investigadores, y si bien el software TODAVÍA no es lo suficientemente rápido para hacer esta traducción en tiempo real, LipGAN tiene potencial para el doblaje de películas, de videos educativos y para entrevistas y noticias en la televisión.

655