Experto .eus, servizo de conversación en eúscaro

2020/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

No grupo de I+D das tecnoloxías lingüísticas e da fala da Fundación Elhuyar levamos anos desenvolvendo e socializando recursos, tecnoloxías e servizos relevantes paira o eúscaro: dicionarios, corpus, correctores, buscadores, extracción de opinións, tradutores, sínteses de fala... Nalgunhas delas, debido á dificultade da problemática, a tecnoloxía daba resultados experimentais, pero non aplicables a aplicacións reais, ou ben paira o eúscaro non tiñamos a tecnoloxía doutras linguas. Pero nos últimos anos, grazas á tecnoloxía de redes neuronais profundas, avanzamos moito. Así, en novembro publicamos Itzultzaile ea.eus, tradutor automático multilingüe baseado en redes neuronais (euskara, castelán, francés, catalán, galego e inglés), e en marzo, un recoñecemento de fala bilingüe baseado en redes neuronais: Expert.eus
Ed. Elhuyar

A fala é una das formas de comunicación máis antigas e diferenciadoras que temos os seres humanos entre nós (una das características que nos diferencia dos animais). Máis tarde veu a comunicación escrita que, ademais da comunicación, ten a capacidade de conservar o coñecemento. A linguaxe é o medio máis natural de comunicación entre a xente, pero o camiño que utilizamos as persoas paira comunicarse cos computadores é escrito: introducímoslle as ordes, a programación e os textos no teclado, que utiliza os textos da pantalla paira visualizar os resultados. Isto é así porque os computadores non eran capaces de comprender a linguaxe humana.

Nos últimos anos, a creación e mellora dos sistemas de recoñecemento da fala foi ampliando paulatinamente os sistemas de introdución da fala: axentes de diálogo, subtituladores automáticos, altofalantes intelixentes, sistemas de ditado... Pero o eúscaro non estivo neses sistemas.

Hai un ano explicamos na revista as solucións baseadas en tecnoloxías de fala paira a accesibilidade desenvolvidas en Elhuyar: ferramenta de lectura de páxinas web, Lector Dixital, Wikispeech, Viajde... Todos eles baséanse na síntese da fala, é dicir, na tecnoloxía que utilizan os computadores paira crear a fala mediante a entrega dun texto. Entón falabamos de como as tecnoloxías paira o recoñecemento da fala poden contribuír á accesibilidade e inclusión (control de computadores e outras máquinas mediante a fala, sistemas de ditadura, subtitulado automático...). Noutras linguas si, pero en eúscaro non existía ese sistema. Pois ben, en marzo lanzamos o servizo de recoñecemento da fala en eúscaro, adecuado paira a accesibilidade e outros usos: Expert.eus

Jakin.eus, o reconocedor da fala de Elhuyar

Experto é un reconocedor da fala baseado en redes neuronais profundas. O seu nome é moi apropiado. O verbo experto ten dous sentidos principais: escoitar o primeiro e comprender o segundo, e iso é o que Experto fai, escoitar e comprender o que lle dicimos (porque dá por escrito o prezo do escoitado). Por outra banda, a principal acepción do nome experto ou adxectivo é a sabedoría, a sabedoría, a apresa, que tamén é o sistema experto.

Ofrécese como servizo ou plataforma web en https://perit.eus Coñece o eúscaro e o castelán (hoxe necesario para que a sociedade vasca e as institucións e axentes poidan utilizalo). Tamén temos previsto introducir máis linguas no futuro.

A esta plataforma podemos subir un arquivo de audio ou vídeo, así como un enlace a un vídeo ou audio online (por exemplo, EITB, Youtube, Facebook, Instagram...), e Experto realiza a transcrición automática e instantánea do que alí se di. O resultado preséntase en diferentes formatos: texto da transcrición, ficheiro de subtítulos e transcrición cos tempos das palabras (por exemplo, paira saber en que segundo díxose una palabra exactamente no vídeo). A transcrición ou os subtítulos poden ser corrixidos ou modificados antes de descargarse, utilizando o interfaz de edición online de Aditu. Ademais, permite transcribir simultaneamente o que dicimos desde o micrófono do computador ou do teléfono móbil.

Ed. Elhuyar

Ademais de poder gozar do servizo vía web, ofrecemos solucións a medida paira empresas e institucións. O servizo pódese integrar no fluxo de traballo do cliente, na aplicación, no CMS, etc. utilizando o API. A transcrición simultánea tamén pode ser utilizada por API paira a súa integración nun asistente virtual, subtítulos directos en eventos, etc. Ou se o desexa tamén se pode instalar no de cliente.

Desde o punto de vista da accesibilidade, subtitulado, ditado ou ordenado ao computador, pasando pola incorporación automática de subtítulos de documentais e programas ás empresas audiovisuais, a televisión e as radios, pasando pola transcrición de gravacións de entrevistas aos xornalistas, o levantamento de actas de plenos ou outras reunións ou a colocación directa de subtítulos nas sesións públicas, a creación de subtítulos de conferencias ou cursos, a interactividade de persoas e máquinas, até a utilización de domótica, os centros de conversación virtuais, a asistencia a través de entrevistas, ferramentas de conversación, os centros de conversación, etc.

A calidade da transcrición ou a taxa de invención de Experto é, en xeral, boa, pero é certo que é moi variable en función da calidade da gravación de audio, a calidade dos micrófonos, o eco, se se ouve ruído ou música no alto, o rexistro, se se fala en lingua estándar ou nalgunha das súas variantes, o volume, a velocidade, etc. En condicións óptimas, a taxa de invención pode superar o 95%. Os seus mellores resultados son conferencias, plenos, informativos, documentais, reportaxes, etc. Pola contra, está peor en dialectos vascos, espontáneos e informais, películas... Ademais, os resultados son sempre algo peores no caso da transcrición simultánea. Con todo, na maioría dos casos é totalmente útil.

Moitas opcións de futuro

O ver a luz é un fito paira Elhuyar e paira o eúscaro, pero non é o fin ou o destino do camiño, senón o principio. Debemos seguir mellorando expertos paira mellorar o coñecemento da fala con entrevistas informais, mala calidade de audio, dialectos, películas... ou, por que non, con versos.

Ademais, se combinamos o coñecemento da fala con outras tecnoloxías lingüísticas e de fala que traballamos paira o eúscaro (tradución automática, chatbots, síntese ou creación de fala...), pensa no que se pode facer: altofalantes intelixentes, tradución simultánea da fala á fala (imitando as voces orixinais si deséxase)... Vemos o futuro con ilusión para que o eúscaro estea ao mesmo nivel que outras linguas nas tecnoloxías e servizos. En Elhuyar seguiremos traballando niso.