Según el sitio web oficial de Microsoft, VASA significa Virtual Avatar Speech Animation, un marco revolucionario diseñado para generar caras parlantes realistas a partir de imágenes estáticas individuales y clips de audio.
VASA-1, su modelo insignia, tiene la capacidad de sincronizar perfectamente los movimientos de los labios con el audio mientras captura un espectro de matices faciales y movimientos naturales de la cabeza, otorgando autenticidad y vivacidad a los personajes virtuales.
Las innovaciones clave incluyen una dinámica facial holística y un modelo de generación de movimiento de la cabeza que opera en el espacio latente facial, así como el desarrollo de dicho espacio latente facial expresivo y desenredado mediante videos.
«A través de extensos experimentos, incluida la evaluación de un conjunto de nuevas métricas, demostramos que nuestro método supera significativamente a los métodos anteriores en varias dimensiones», dijo Microsoft.
“Nuestro método no solo ofrece alta calidad de video con dinámicas faciales y de cabeza realistas, sino que también admite la generación en línea de videos de 512 x 512 a hasta 40 FPS con una latencia de inicio insignificante. Allana el camino para interacciones en tiempo real con avatares realistas que imitan la conversación humana. comportamientos”, añade.
«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord
-
Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»
-
Google implementa Gems e Imagen 3 en Gemini Advanced
-
Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas
-
El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch