Meta AI presenta Seamless: un sistema de inteligencia artificial disponible públicamente que desbloquea la comunicación multilingüe expresiva en tiempo real

https://ai.meta.com/research/publications/seamless-multilingual-expressed-and-streaming-speech-translation/

Las nuevas funciones y mejoras en la traducción automática de voz han permitido lograr mucho más, cubrir más idiomas y trabajar con más formatos de entrada. Sin embargo, las capacidades cruciales que hacen que la comunicación automatizada sea más natural que la conversación entre humanos actualmente faltan en los sistemas de traducción de voz automatizados a gran escala.

Un nuevo estudio de Meta AI presenta un conjunto de modelos capaces de ofrecer traducciones expresivas y multilingües de principio a fin. Los investigadores comenzaron presentando SeamlessM4T v2, una versión mejorada del modelo SeamlessM4T que es multimodal y admite casi todos los idiomas. Este modelo mejorado, que utiliza una versión más nueva del marco UnitY2, se entrenó con datos lingüísticos que requieren menos recursos. Con la expansión de SeamlessAlign, se alinean automáticamente un total de 76 lenguajes de datos (114.800 horas). Los dos modelos más nuevos, SeamlessExpression y SeamlessStreaming, se basan en SeamlessM4T v2. Con SeamlessExpression, los usuarios pueden traducir conservando todas las inflexiones y estilos vocales.

El estudio de Meta preserva el estilo de la voz al tiempo que aborda algunas características poco exploradas de la prosodia, como el ritmo y las pausas del habla, que se han pasado por alto en intentos anteriores de investigación del habla expresiva. En cuanto a SeamlessStreaming, el modelo propuesto no espera a que finalicen las expresiones de origen para producir traducciones de destino con baja latencia; en su lugar, utiliza la técnica EMMA (Efficient Monotonic Multihead Attention). Con SeamlessStreaming, el primero de su tipo, muchos idiomas de origen y de destino pueden realizar sus traducciones de voz a texto simultáneamente.

READ 5 Pokémon raros para capturar durante el Día de la Comunidad de Pokémon GO en diciembre de 2023

El equipo evaluó la prosodia, la latencia y la solidez de estos modelos basándose en una combinación de versiones nuevas y actualizadas de mediciones automáticas preexistentes. Para realizar evaluaciones humanas, modificaron protocolos preexistentes para medir las cualidades más importantes de retención de significado, autenticidad y expresividad. Llevaron a cabo una evaluación integral del sesgo de género, el primer esfuerzo conocido de equipo rojo para la traducción automática multimodal, el primer sistema conocido para detectar y mitigar la toxicidad adicional y un mecanismo de marca de agua localizada inaudible para mitigar el impacto de los deepfakes y garantizar que sus modelos puedan usarse. responsablemente y con seguridad.

Seamless es el primer sistema disponible públicamente que permite la comunicación multilingüe expresiva en tiempo real. Combina SeamlessExpression y SeamlessStreaming, que reúne componentes principales. En general, Seamless ofrece una visión crucial de las tecnologías subyacentes necesarias para convertir el traductor de voz universal de una idea de ciencia ficción a una realidad.

Los investigadores señalan que la precisión del modelo puede diferir según el género, la raza o el acento, aunque probamos exhaustivamente nuestros artefactos en varios ejes de equidad e incluimos salvaguardias cuando fue posible. Se deben continuar investigaciones adicionales dirigidas a mejorar la cobertura lingüística y reducir las disparidades de rendimiento entre los idiomas de bajos y altos recursos para hacer realidad el traductor de voz universal.

Controlar Papel Y Artículo de referencia. Todo el crédito por esta investigación va a los investigadores de este proyecto. Tampoco olvides registrarte. nuestro SubReddit 33k+ ML, Más de 41.000 comunidades de Facebook, Canal de discordia, Y Correo electrónicodonde compartimos las últimas noticias de investigación de IA, proyectos interesantes de IA y mucho más.

READ ASUS Zenfone 8 tendrá un conector de audio de 3,5 mm, sin cámara abatible

Si te gusta nuestro trabajo, te encantará nuestro boletín.

Dhanshree Shenwai es un ingeniero en informática con buena experiencia en empresas de tecnología financiera que abarcan finanzas, tarjetas y pagos y banca, con un gran interés en las aplicaciones de inteligencia artificial. Le entusiasma explorar nuevas tecnologías y avances en el cambiante mundo actual que hacen la vida de todos más fácil.

Curso en línea de Deeplearning.ai para principiantes: «IA generativa para todos»

Cristián Peno

«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».

Meta AI presenta Seamless: un sistema de inteligencia artificial disponible públicamente que desbloquea la comunicación multilingüe expresiva en tiempo real

Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord

Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»

Google implementa Gems e Imagen 3 en Gemini Advanced

Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas

El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch

Deja una respuesta Cancelar la respuesta

Recent

CONTACT

VISITE NUESTRA OFICINA

ComputerWorld Venezuela

También te puede interesar