Resumen: Los investigadores desarrollaron una interfaz portátil llamada EchoSpeech, que reconoce el habla silenciosa mediante el seguimiento de los movimientos de los labios y la boca mediante detección acústica e IA. El dispositivo requiere una formación mínima del usuario y reconoce hasta 31 comandos sin voz. El sistema podría usarse para dar voz a aquellos que no pueden vocalizar el sonido o comunicarse en silencio con los demás.
Fuente: Universidad de Cornell
Investigadores de la Universidad de Cornell han desarrollado una interfaz de reconocimiento de voz silenciosa que utiliza detección acústica e inteligencia artificial para reconocer continuamente hasta 31 comandos que no son de voz, basados en movimientos de labios y boca.
La interfaz portátil de bajo consumo, llamada EchoSpeech, solo requiere unos minutos de datos de capacitación del usuario antes de que reconozca los comandos y pueda ejecutarse en un teléfono inteligente.
Ruidong Zhang, candidato a doctorado en ciencias de la información, es el autor principal de «EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing», que se presentará en la Conferencia de la Asociación de Maquinaria Informática sobre factores humanos en sistemas informáticos. (CHI) este mes en Hamburgo, Alemania.
“Para las personas que no pueden vocalizar el sonido, esta tecnología de voz silenciosa podría ser una gran entrada para un sintetizador de voz. Podría devolver la voz a los pacientes”, dijo Zhang sobre el uso potencial de la tecnología con un mayor desarrollo.
En su forma actual, EchoSpeech podría usarse para comunicarse con otros a través de un teléfono inteligente en lugares donde el habla es incómoda o inapropiada, como un restaurante ruidoso o una biblioteca tranquila. La interfaz de voz silenciosa también se puede combinar con un lápiz óptico y usarse con software de diseño como CAD, lo que elimina la necesidad de un teclado y un mouse.
Equipadas con un par de micrófonos y parlantes más pequeños que gomas de borrar, las gafas EchoSpeech se convierten en un sistema de sonar portátil impulsado por IA, que envía y recibe ondas de sonido en la cara y detecta los movimientos de los bloqueados. Luego, un algoritmo de aprendizaje profundo analiza estos perfiles de eco en tiempo real, con una precisión de alrededor del 95 %.
«Movemos el sonar sobre el cuerpo», dijo Cheng Zhang, profesor asistente de ciencias de la información y director del Laboratorio de Interfaces de Computación Inteligente para Interacciones Futuras (SciFi) de Cornell.
«Estamos muy entusiasmados con este sistema», dijo, «porque realmente impulsa el campo en rendimiento y privacidad. Es pequeño, de bajo consumo y consciente de la privacidad, todas las cuales son características importantes para implementar nuevos dispositivos portátiles. tecnologías en el mundo real”.
La mayoría de las tecnologías silenciosas de reconocimiento de voz se limitan a un conjunto seleccionado de comandos predeterminados y requieren que el usuario mire o lleve una cámara, lo que no es práctico ni factible, dijo Cheng Zhang. También existen importantes problemas de privacidad con las cámaras portátiles, tanto para el usuario como para aquellos con los que el usuario interactúa, dijo.
La tecnología de detección acústica como EchoSpeech elimina la necesidad de cámaras de video portátiles. Y debido a que los datos de audio son mucho más pequeños que los datos de imagen o video, requieren menos ancho de banda para procesarse y pueden transmitirse a un teléfono inteligente a través de Bluetooth en tiempo real, dijo François Guimbretière, profesor de ciencias de la vida.
«Y debido a que los datos se procesan localmente en su teléfono inteligente en lugar de cargarse en la nube», dijo, «la información sensible a la privacidad nunca lo abandona».
Resumen escrito con la ayuda de la tecnología ChatGPT AI.
Acerca de esta noticia de investigación de IA
Autor: Becka Bowyer
Fuente: Universidad de Cornell
Contactar: Becka Bowyer – Universidad de Cornell
Imagen: La imagen es de dominio público
Investigacion original: Los hallazgos se presentarán en la Conferencia de la Asociación de Maquinaria de Computación sobre Factores Humanos en Sistemas de Computación (CHI)
«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord
-
Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»
-
Google implementa Gems e Imagen 3 en Gemini Advanced
-
Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas
-
El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch