Navegación por voz: tecnología y aplicaciones

No es nuevo ni reciente. Cada vez más la tecnología en internet está virando hacia lo que llamamos Mobile First. Las webs se adaptan para que su navegación en dispositivos mobile y tablet, el responsive, sea lo más intuitivo y usable posible.

El objetivo es conseguir sites más navegables en cualquier lugar y en cualquier momento. La evolución tecnológica avanza para integrar internet en cualquier tipo de dispositivos, transformando y mejorando de forma progresiva la navegación del usuario. De esta premisa nacen nuevas formas de accesibilidad e interacción como la navegación por voz. Protagonista del artículo de hoy.

Empecemos por lo que nos propone la navegación clásica en dispositivos móviles. Entramos en la página web de un teatro, por ejemplo. Navegamos un poco hasta que encontramos la obra que nos gustaría ver, seleccionamos el día y la hora de la representación y, finalmente, antes de pasar a la pasarela de pago, seleccionamos las butacas de un mapa de asientos. Así con otras muchas transacciones como reservar una noche de hotel, un billete de avión o las entradas para un concierto. Y nos surge la siguiente pregunta: ¿No podríamos realizar todo este proceso por voz? Sería todo más fácil, accesible y mejoraría mucho la experiencia de los usuarios a la hora de navegar por las webs. Si Siri y Cortana ya permiten que naveguemos por nuestros dispositivos, móviles o de sobre mesa, seguro que tecnológicamente es factible. La respuesta es Sí, todo ello es posible gracias a la navegación por voz.

Tecnología detrás de la navegación por voz

Mediante el lenguaje oral la navegación por voz permite utilizar una función o aplicación online. Son muchas las herramientas que han aparecido para integrar la tecnología de la navegación de voz en las web. Por ejemplo, desde el W3C, consorcio internacional que genera recomendaciones y estándares para asegurar el crecimiento de la World Wide Web a largo plazo, proponen VoiceXML. Para no entrar en temas demasiado técnicos, se trata de un formato XML estándar que permite diseñar diálogos de voz interactivos entre una persona y la computadora con la que está interactuando. Por ejemplo, mientras que las plantillas HTML son interpretadas por un navegador visual, los documentos de VoiceXML son interpretados por un navegador de voz. Esta herramienta junto a otros lenguajes conforman el Speech Interface Framwork, una plataforma centrada en la mejora de funcionalidades como la síntesis de voz o el reconocimiento de voz. Esto puede traducirse en la generación de diálogos orales entre seres humanos y computadoras o la interpretación de gramática y semántica.

Desde Emexs hemos optado por utilizar la API de Google (Google Cloud Speech API) a la hora de optimizar los procesos críticos de entrada de datos. Esta herramienta permite a los desarrolladores e ingenieros convertir audio en texto usando potentes modelos de redes neuronales. Con el uso de Google Cloud Speech API pretendemos mejorar la usabilidad para permitir finalizar los procedimientos en tiempos óptimos sin que implique un rebote excesivo. De esta manera y, sobretodo en pequeños dispositivos, podríamos llegar a tener un modelo de navegación “a la carta”. Otra de las ventajas de esta API es que posee más de 80 idiomas con traducción simultánea. Un añadido de lo más interesante teniendo en cuenta que hoy en día las webs son cada vez más multiidioma.

Posibles aplicaciones de la navegación por voz en internet

A parte de lo comentado anteriormente, este tipo de aplicaciones podría ayudar a mejorar la accesibilidad a internet de colectivos como el de los invidentes. Y no solo esto, para las personas con problemas de psicomotricidad que no pueden usar un teclado y un ratón sería un gran salto de calidad en su navegación. Todo hace indicar que las aplicaciones de la navegación por voz crecerán de forma paralela a la reducción de las proporciones de los dispositivos. Sobre todo todo de los teclados que cada vez se vuelven menos prácticos. Enumerar aplicaciones de la navegación por voz sería tan simple como dejar volar la imaginación. ¿Se te ocurre alguna?