Tecnologías de habla de Elhuyar al servicio de la inclusión
2019/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Las tecnologías del habla son aquellas que son desarrolladas y utilizadas por máquinas y ordenadores para crear y comprender el habla humana. Se dividen en dos tecnologías principales: la creación o síntesis del habla (que las máquinas sean capaces de hablar), llamada TTS o Text-To-Speech; y el conocimiento del habla (que las máquinas sean capaces de entender lo que se les dice), también expresado mediante las siglas ASR o Automatic Speech Recognition. En la Fundación Elhuyar llevamos un tiempo trabajando con ellos, especialmente para el euskera, y hemos desarrollado diversas herramientas para ayudar a que todas las personas tengan una plena inclusión en muchos ámbitos.
En cuanto a la síntesis del habla en euskera, el grupo de investigación de la Universidad del País Vasco/Euskal Herriko Unibertsitatea Aholkularitza es el referente principal. Llevan años trabajando en la creación lingüística del euskera, y su sistema CanalTTS es el que obtiene el mejor resultado en euskera. En Elhuyar hemos desarrollado diversas soluciones y herramientas para la accesibilidad, basadas en el sistema | TTS.
Herramientas de escucha en lugar de leer webs y documentos
Una de ellas permite escuchar las páginas web en lugar de leerlas. Hace cinco años os informamos de este producto en esta misma sección. En aquella época os contamos que la revista Elhuyar estaba instalada en las páginas web y Zientzia.eus, pero desde entonces la hemos puesto en otros sitios: en eitb.eus, en varios apartados de la web de la UPV/EHU, en la web Sara.com... Esta herramienta nos permite leer el contenido de estas webs, convirtiendo el texto de las mismas en un habla, por lo que es muy interesante para ciegos o discapacitados visuales, así como para cualquier persona, para hacer más accesible el contenido de las pantallas pequeñas de los móviles. Sin embargo, tiene otros usos que van más allá de la accesibilidad: caminando por la calle o conduciendo en coche, para escuchar el contenido con los auriculares sin tener que fijarse en la pantalla, ir en tren o autobús, apropiarse de los contenidos, sin molestias de la triki-traqua, etc. Esta herramienta, que aparece como reproductor de barras, permite seleccionar entre dos voces (hombre o mujer) y ajustar la velocidad de lectura.
La Fundación Wikimedia quiere hacer lo mismo en uno de sus proyectos más conocidos, Wikipedia: implantar la tecnología para que todas las personas puedan acceder a su contenido sin obstáculos. Para ello, puso en marcha hace un par de años el proyecto Wikispeech, que tiene como objetivo crear un reproductor de barras para leer artículos de Wikipedia a través de TTS. Este proyecto está bastante avanzado y se espera su puesta en marcha en breve. En un principio se desarrolló en unas pocas lenguas (inglés, árabe, sueco y noruego), pero en Elhuyar, por encargo de EWKE, la Asociación Cultural Vasca de Wikispeech, hemos realizado ya la síntesis en euskera (ya mencionada 2015-TTS) para su integración en Wikispeech. Por lo tanto, cuando Wikipedia implanta y presenta Wikispeech, el euskera estará entre las pocas lenguas iniciales.
El Lector Digital es otro de los instrumentos que hemos trabajado para la inclusión a través de la síntesis de habla, para el Berritzegune Nagusia del Departamento de Educación del Gobierno Vasco. La Escuela Inclusiva Local o PCPI necesitaba una solución para ayudar a los niños con dislexia en su proceso de aprendizaje y educación. La dislexia, de origen neurológico, es una alteración que afecta a las competencias lingüísticas relacionadas con la lectura y la escritura. Las herramientas basadas en la TTS son muy útiles para ayudar a las personas que tienen este problema, y muchas de ellas existían, pero no existían en euskera. Así, los niños que utilizaban estas herramientas tenían que escuchar textos en euskera con la TTS en castellano, lo que les causaba problemas: acentos y entonaciones erróneas, pronunciaciones inapropiadas de las consonantes g, z, x, tz, ts y tx...
La herramienta desarrollada es un aditivo que funciona en los navegadores web Lector Digital , Firefox y Chrome, que nos lee las páginas web que abrimos en el navegador, los documentos PDF o los documentos de texto (incluyendo los documentos de Google Docs, tan utilizados en el mundo educativo). También se puede elegir una de las dos voces y ajustar la velocidad, pero también marca la palabra que está leyendo y la lee literalmente, que también ayuda en los casos más agudos de dislexia.
Viajes: museos, edificios públicos e itinerarios turísticos y culturales al alcance de todos
Recientemente hemos diseñado y puesto en marcha el producto Bidaia. Con Bidaide, cualquier persona puede utilizar y disfrutar libremente de los recursos turísticos y culturales (museos, rutas turísticas y culturales...), así como de los edificios públicos. Tiene tres componentes principales: tecnologías lingüísticas y de habla para la creación y gestión de contenidos, asesoramiento en accesibilidad y una aplicación para teléfonos móviles.
En cuanto a la gestión de contenidos, como ya se ha indicado, se utilizan tecnologías lingüísticas y de habla para favorecer la accesibilidad. La accesibilidad tiene que ver, entre otras cosas, con las opciones lingüísticas, ya que si hay un recorrido, una web o cualquier otra cosa en una o pocas lenguas, no es accesible para los que no saben esas lenguas. Por ello, para poder realizar un recorrido o un edificio lo más accesible posible, las explicaciones o orientaciones y orientaciones de los centros de interés de los mismos deben estar en el mayor número posible de lenguas.
Bidaide pone a disposición del gestor una plataforma web para la gestión de los textos de las explicaciones y permite tener contenido en varios idiomas y utilizar la traducción automática. Sin embargo, si los contenidos y explicaciones están en formato texto, no son accesibles para personas ciegas o con deficiencia visual. Por ello, la plataforma web de gestión de contenidos gestiona audios en diferentes idiomas y, si lo desea, pueden crearse de forma automática, utilizando la síntesis del habla de Elhuyar.
En el ámbito de la consultoría de accesibilidad se requiere la colaboración de una empresa especializada en la misma. Por un lado, proponen o realizan las adaptaciones necesarias para que el recorrido o edificio sea accesible. Por otro lado, añade información adicional opcional de accesibilidad a las explicaciones de los puntos críticos de los puntos de interés y del recorrido, como barreras arquitectónicas, fuertes pendientes, descripciones de muestras, notas para el contacto con las esculturas, etc. Además, si lo desean, escriben textos expositivos siguiendo las directrices de la lectura fácil para personas con discapacidades cognitivas o dificultades de comprensión del lenguaje. Por último, cuando todo está listo, realizan pruebas de accesibilidad con usuarios con diferentes características y diversidad funcional.
En cuanto a la aplicación de teléfono móvil, una vez instalada en el teléfono, es la propia aplicación la que se encarga de informar a cada tipo de usuario en función de sus características: exposición de textos explicativos o reproducción de audios, información adicional de accesibilidad, etc. La propia aplicación es accesible, conjugada con las implantaciones de accesibilidad del usuario, con contrastes de colores y pictogramas… Y, por último, guia a las personas con deficiencia visual o ceguera a lo largo del recorrido, explicándolas en los lugares más importantes: girar a la izquierda, seguir otros 30 metros hacia delante... Para ello se utiliza la tecnología GPS en las rutas exteriores y en las rutas interiores se colocan unas balizas en los puntos clave que emiten la señal Bluetooth y que pueden detectar cuando los móviles están cerca.
El proyecto Bidaia, por tanto, es totalmente pionero, ya que pretende garantizar el acceso a todas las personas a la cultura, al turismo y a los servicios públicos, respetando y reconociendo la diversidad humana. Nuestra intención es abrirla al máximo para que se convierta en el mayor número posible de espacios accesibles e inclusivos. Recientemente hemos implantado la ruta Harria Hitz de Usurbil. El recorrido Harria Hitz tiene como objetivo dar a conocer el papel de Usurbil en la recuperación de la cultura vasca contemporánea a través de una serie de elementos que se pueden ver en el núcleo urbano. En este caso, los siete puntos del recorrido se han expuesto en seis idiomas; los de catalán y gallego han sido creados directamente por traducción automática; todos los audios han sido creados por TTS y las explicaciones están escritas siguiendo las directrices de una lectura sencilla.
El conocimiento del habla como vía de accesibilidad
Más allá de la creación del habla, está claro que el conocimiento del habla o el ASR puede aportar mucho a la inclusión de todas las personas. Por ejemplo, puede ayudar a personas con discapacidad física o motora a trabajar con ordenadores, comprendiendo y ejecutando órdenes de habla: “abre el navegador”, “guarda el archivo”... No hay que olvidar que cuando hay que escribir textos largos, el conocimiento del habla permite no utilizar el teclado sino un sistema de dictado. Por otro lado, en la actualidad, a través de los teléfonos móviles y los altavoces inteligentes se consigue la interacción mediante el habla, que cada vez son más los que utilizan por comodidad, pero para mucha gente con diversidad funcional es la única manera de utilizar estos dispositivos, que es imprescindible. También puede ser de gran utilidad para que personas sordas o con deficiencia auditiva tengan acceso al contenido audiovisual, ya que los subtítulos pueden crearse automáticamente a través del ASR. De este modo, puede facilitar el proceso de creación de subtítulos a los creadores de contenidos y, en los casos en los que el creador no los ofrezca, crear automáticamente el usuario directamente, que, sin ser perfectos, puede ser suficiente (y mejor que nada) para entender el contenido.
Ya existen herramientas y servicios de este tipo que todos conocemos: El sistema operativo Windows se puede controlar desde hace tiempo mediante el habla; en Youtube también se pueden activar subtítulos automáticos si no se entiende el idioma del vídeo... Pero desgraciadamente no funcionan en euskera. En Elhuyar trabajamos también en el conocimiento del euskera, con el fin de ofrecer las herramientas mencionadas en euskera a la mayor brevedad posible. Esperamos que en un artículo posterior podamos esperar un poco pronto y os informaremos de este tipo de soluciones.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia