Falando coas máquinas

A comunicación verbal coas máquinas é hoxe unha realidade. Por exemplo, no Smartphone pódese facer unha procura en Internet ou enviar unha mensaxe sen necesidade de tocar ningún dos botóns, utilizando só a voz. Para o desenvolvemento das tecnoloxías lingüísticas, varios centros de investigación e institucións, entre eles a Fundación Elhuyar, puxeron en marcha o proxecto de investigación Berbatek. Unha das principais liñas de investigación foi a relativa ao procesamiento da voz: como utilizar a voz humana, as nosas palabras, para comunicarse coas máquinas. Hai poucos días déronse a coñecer os primeiros resultados do proxecto, para que vexamos.

IÑAKI LETURIA. Fundación Elhuyar: Inma, o traballo que facedes aquí é crear a tecnoloxía para que homes e máquinas comuníquense e enténdanse, non?

INMA HERNAEZ, laboratorio Aholab (UPV/EHU): Si, para charlar.

IÑAKI LETURIA. Fundación Elhuyar: E como se fai iso?

INMA HERNAEZ, laboratorio Aholab (UPV/EHU): Por unha banda, creamos a voz a partir dun texto, utilizando algoritmos e, doutra banda, collemos o coñecemento, a voz, analizámola e creamos o texto correspondente.

Mentres escoitades, hai unha máquina falando; non é unha gravación. O discurso créao un sintetizador de voz, unha tecnoloxía desenvolvida por Aholab. Aholab é un laboratorio da Universidade do País Vasco que desenvolve tecnoloxías da voz. Até agora, o ser humano e a máquina comunicáronse por escrito, con botóns; pero hoxe empezamos a falar con smartphones ou tablets, que responden e cumpren co que eles prometéronnos.

IÑAKI LETURIA. Fundación Elhuyar: Agora xogaremos un pouco coa tecnoloxía de voz que trae o sistema operativo Android. A ver si entendémonos.

Ir directamente a unha web, abrir un mapa concreto, programar o GPS... todo iso só pódese facer en inglés, castelán ou noutros idiomas grandes. Aholab está a traballar para que as máquinas tamén falen en eúscaro. Traballa especialmente a síntese de voz: TTS, Text To Speech. Estes son os pasos.

INMA HERNAEZ, laboratorio Aholab (UPV/EHU): Si, iso é o que tes, por unha banda, os módulos lingüísticos, e, por outro, os modelos acústicos; e, por outro, os algoritmos …

IÑAKI LETURIA. Fundación Elhuyar: Chamarémoslle Sofware para que a xente o entenda

INMA HERNAEZ, laboratorio Aholab (UPV/EHU): Si, asociar sons cun software e extraer a voz del o máis correctamente ou coa maior naturalidade posible.

IÑAKI LETURIA. Fundación Elhuyar: Naturalidade, seica ese é o reto?

INMA HERNAEZ, laboratorio Aholab (UPV/EHU): Ao principio, o reto era a inteligibilidad, hai moitos anos. Logo, os sistemas eran moi comprensibles e o reto era a naturalidade. E hoxe en día, máis que a naturalidade, pór emocións na voz sintética.

Os elementos básicos, unidades de sínteses ou fonemas que compoñen o discurso obtéñense a partir deste tipo de gravacións de audio ou vídeo. Aquí tamén se gravou a cara do orador, para recoller o xesto correspondente a cada emoción.

Este demo é unha das ramas do proxecto Berbatek para realizar a dobraxe automática. O investigador da Fundación Elhuyar Igor Leturia participou no desenvolvemento do proxecto.

IGOR LETURIA, Fundación Elhuyar: Esta é un demo que realizamos dentro do proxecto Berbatek, para mostrar como as tecnoloxías lingüísticas, neste caso, poden axudar ao sector da tradución a realizar duplicacións.

IGOR LETURIA, Fundación Elhuyar: Esta é a versión orixinal en castelán que recibimos. O punto de partida é un vídeo en castelán, o vídeo e a súa transcrición. De aí xorde automaticamente un arquivo de subtítulos, é dicir, cando comeza e termina unha frase. E logo, ese arquivo de subtítulos en castelán tradúcese automaticamente ao eúscaro e créase automaticamente o audio ou a voz en eúscaro.

IGOR LETURIA, Fundación Elhuyar: A tecnoloxía para extraer subtítulos da transcrición é de Vicomtech, a tradución automática de IXA e a creación ou síntese de voz de Aholab.

IGOR LETURIA, Fundación Elhuyar: Aquí temos seleccionados o audio en eúscaro e os subtítulos en eúscaro. O que agora estamos a escoitar e lendo é automaticamente eses subtítulos traducidos ao euskera e a voz é a que se creou automaticamente coa tecnoloxía de síntese de Aholab

IÑAKI LETURIA. Fundación Elhuyar: Dixen maxia, non sei si é así...

IGOR LETURIA, Fundación Elhuyar: Si, é un pouco máxico.

Non é máis que un exemplo ou un demo do que se pode facer con estas tecnoloxías, pero, imaxínache, pode ser un primeiro paso para escoitar en eúscaro unha película en ruso. O avance da síntese de voz vai a gran velocidade.

IÑAKI LETURIA. Fundación Elhuyar: Ola, Inma, converteremos a miña voz nunha voz de moza... ou a voz dunha avoa, por exemplo, Puxémoslle cousas difíciles.

A síntese de voz avanzada pode ter múltiples aplicacións, como pór voz a personaxes de debuxos animados. Unha persoa que perda a súa voz por unha operación ou enfermidade pode facer gravacións previas e logo utilizar ese audio para que o sintetizador de voz xere exactamente o mesmo que a voz que tiña antes. Tamén se están estudando os medios para facer a TV de forma económica: as noticias leríaas unha máquina, por exemplo, a predición meteorolóxica.

Nestoutra demo de Berbatek, ademais da síntese de voz, tamén entra en xogo o coñecemento. Aquí tratábase de demostrar o uso que as tecnoloxías da lingua e a voz poden ter no ensino.

O coñecemento da voz fai, máis ou menos, o camiño contrario á síntese. Dáselle ao principio a materia prima para converter a voz en texto, por exemplo, as unidades acústicas que compoñen 43, os fragmentos de son.

INMA HERNAEZ, Aholab, UPV/EHU: 43, corenta e tres. Entendeuno.

E logo indicarémoslle á máquina como pode recoller estes elementos de forma organizada, proporcionándolle modelos lingüísticos.

IÑAKI LETURIA. Fundación Elhuyar: Vós dicides de que falaremos máis ou menos, "só direiche os números", avisades á máquina

INMA HERNAEZ, laboratorio Aholab (UPV/EHU): Vostede fixa o léxico, si, delimita o campo. Logo pode facer algo máis complicado e introducir a gramática, por exemplo, pero tamén a gramática limitada, para que coñeza "onde naceu Newton"

Se falas utilizando un léxico ou un idioma que non teña cargado, o sistema non será capaz de entender.

IÑAKI LETURIA. Fundación Elhuyar: E si eu faláselle como a unha persoa, nunha linguaxe continua? -Que tal si fósemos cear? "Comprendería?"

INMA HERNAEZ, laboratorio Aholab (UPV/EHU): Si, entenderíao si tivese modelos de linguaxe. Os modelos de linguaxe son modelos lingüísticos, estadísticos para calcular as probabilidades das cadeas de palabras, e iso faise tomando moitos textos … calcúlanse as relacións estadísticas entre as palabras e as probabilidades das cadeas. E con toda esta información constrúense os modelos lingüísticos.

A cantidade de texto dispoñible en Internet para realizar este traballo condiciona, entre outros aspectos, o grao de desenvolvemento dun idioma neste campo. Aquí tamén é evidente a distancia entre as linguas grandes e as pequenas.

IGOR LETURIA, Fundación Elhuyar: Si un idioma non está preparado, haberá que seguir facendo esas cousas manualmente, e volveremos sobre a tecnoloxía. Por iso é tan importante desenvolver este tipo de cousas.

Só empezamos a utilizar as tecnoloxías de voz. Até onde podemos chegar? Por exemplo, como sabedes si o que puxo voz a esta reportaxe é o home ou a máquina?

Buletina

Bidali zure helbide elektronikoa eta jaso asteroko buletina zure sarrera-ontzian

Bidali