Microsoft AI convierte a Mona Lisa en una sensación del rap y el video se vuelve viral

Microsoft AI convierte a Mona Lisa en una sensación del rap y el video se vuelve viral

Según el sitio web oficial de Microsoft, VASA significa Virtual Avatar Speech Animation, un marco revolucionario diseñado para generar caras parlantes realistas a partir de imágenes estáticas individuales y clips de audio.

VASA-1, su modelo insignia, tiene la capacidad de sincronizar perfectamente los movimientos de los labios con el audio mientras captura un espectro de matices faciales y movimientos naturales de la cabeza, otorgando autenticidad y vivacidad a los personajes virtuales.

Las innovaciones clave incluyen una dinámica facial holística y un modelo de generación de movimiento de la cabeza que opera en el espacio latente facial, así como el desarrollo de dicho espacio latente facial expresivo y desenredado mediante videos.

«A través de extensos experimentos, incluida la evaluación de un conjunto de nuevas métricas, demostramos que nuestro método supera significativamente a los métodos anteriores en varias dimensiones», dijo Microsoft.

“Nuestro método no solo ofrece alta calidad de video con dinámicas faciales y de cabeza realistas, sino que también admite la generación en línea de videos de 512 x 512 a hasta 40 FPS con una latencia de inicio insignificante. Allana el camino para interacciones en tiempo real con avatares realistas que imitan la conversación humana. comportamientos”, añade.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *