Vínculo copiado
#ESNOTICIA
#ESNOTICIA
Huamán cree que las redes de Quinta Generación (5G) serán fundamentales para que Vision D funcione mejor al ofrecer una vía sin interferencias y menor latencia para procesar la voz y volverla texto
14:08 martes 4 febrero, 2020
Tecnología
El número de personas con problemas de audición en el mundo se ubicará en cerca de 900 millones para 2050, y enfrentarán varios problemas para comunicarse porque hay pocas personas que enseñan y entienden el lenguaje de señas, o los auxiliares auditivos son muy costosos. Para cambiar esta situación Leoncio Huamán, consultor del Área Cognitiva de Servicio de Negocios Globales de IBM Perú, desarrolló un dispositivo llamado Vision D. “Es un visor que muestra en texto lo que la otra persona está hablando, es como si tuvieras un subtítulo frente a ti, de las palabras que el interlocutor está diciendo”, explicó al platicar con Excélsior.
Detalló que Vision D no es un dispositivo que lea los labios de las personas, lo que en realidad hace es que recibe la señal de voz y la filtra, eliminando el ruido externo y dando preferencia a la voz con más volumen, para procesarla y convertirla en un texto que se muestra posteriormente en el visor.
Huamán agregó que Vision D puede colocarse en cualquier tipo de gafas, y la pantalla se ubica un centímetro o centímetro y medio alejado del vidrio, lo que permite que leer el texto sea sencillo. Agregó que todo esto es posible gracias a la plataforma IBM Watson, que permite justamente pasar de voz a texto y, si se desea, incluso agregar traducción de varios idiomas para hacer más fácil la comunicación de quienes tienen problemas auditivos. Vision D es funcional y ha sido probado con la ayuda de la Asociación de Jóvenes y Adolescentes Sordos del Perú, quienes para usarlo deben presionar un botón durante el tiempo que la otra persona está hablando para así capturar la voz a través del
micrófono del equipo, se procesa y luego se recibe el texto en el visor. EL PLAN PARA ESCALAR
“Es un prototipo 100% funcional y tenemos un plan de mejora para hacerlo a una escala de menor tamaño y más portátil”, agregó el desarrollador.
Para lograrlo está participando en eventos como Innovadores Menores de 35 años y buscando financiamiento que le permita adquirir la tecnología necesaria para reducir el tamaño, agregar nuevas funciones y poder comercializarlo. Por ejemplo, quiere que el proceso de voz a texto sea más rápido y en tiempo real, agregar la opción de reconocer voces y poner un indicador para que el usuario sepa quién habla, así como integrar sensores de vibración para identificar de dónde proviene el sonido. “Una vez teniendo los fondos, en ocho meses podría tener un producto cómodo, se dividiría en cinco meses de desarrollo y luego las pruebas para ver cómo reacciona el usuario”, dijo. Será hasta que tenga el producto final cuando pueda establecer un precio para el dispositivo, sin embargo tiene el plan de llevar las primeras unidades a la Asociación de Jóvenes y Adolescentes Sordos del Perú que le han ayudado. Más a futuro, Huamán cree que las redes de Quinta Generación (5G) serán fundamentales para que Vision D funcione mejor al ofrecer una vía sin interferencias y menor latencia para procesar la voz y volverla texto. ¿CÓMO FUNCIONA? Un micrófono recoge el audio para iniciar el proceso.
Éste va a un microprocesador Raspberry Pi y una conexión al servicio de traducción de discurso a texto mediante inteligencia artificial que ofrece IBM a través de la nube.
El procesamiento del texto se ejecuta gracias a una placa Arduino, que envía el resultado a una pantalla LED.
El texto es proyectado en un visor ubicado en las gafas del usuario.
Puede traducir a múltiples idiomas, si se programa. DE ACUERDO CON LA OMS 466 millones de personas en todo el mundo sufren de problemas de audición.
La cifra podría aumentar a 900 millones en 2050.
El código de programación de Vision D está a disposición de la comunidad de desarrolladores de código abierto, para que puedan mejorar ergonómicamente el modelo de la pantalla, recibir actualizaciones y propuestas que puedan potenciar las capacidades del dispositivo. --
Con información de Dinero en Imagen
Foto: *Vision D