}

Superando límites por voz

2002/02/01 Anega, Iker | Jubete, Juan Jose | Lopez de Ipina, Karmele Iturria: Elhuyar aldizkaria

Nos últimos anos sufrimos una pequena invasión de novas tecnoloxías. As computadoras, Internet, o teléfono móbil... pódense atopar en calquera sitio; como moitos outros dispositivos tecnolóxicos, xa se converteron nunha ferramenta habitual da nosa vida cotiá. De feito, hoxe en día é cada vez máis fácil ter una computadora en casa.

Non cabe dúbida de que a tecnoloxía seguirá cambiando o noso modo de vida. Dalgunha maneira, a influencia da tecnoloxía no hábitat humano ao longo da historia foi enorme, na maioría dos casos, paira mellorar a calidade de vida, pero nalgúns casos, desgraciadamente, mesmo paira empeorar (no caso da industria armeira). Con todo, a actitude ante este feito non adoita ser morna.

Antigamente, a electricidade, o teléfono, a televisión, a radio e outros novos avances tecnolóxicos convertéronse en parte da nosa vida e supuxeron un cambio radical na vida cotiá. Aínda que nun principio a maioría da xente pensou que estes elementos tecnolóxicos ían ser utilizados por uns poucos privilexiados… está claro que estaban equivocados! O tempo demostrou que a sociedade necesita un proceso de adaptación paira aceptar calquera nova tecnoloxía, pero que finalmente se converte nunha ferramenta habitual.

Lamentablemente, moitas veces o proceso de aparición da tecnoloxía e o tempo de adaptación que necesita o usuario non coinciden, e o usuario adoita estar perdido e asustado. O proceso de aprendizaxe é moi complexo e laborioso.

Nos últimos tempos, co obxectivo de superar os límites que xeran as novas tecnoloxías, empezáronse a introducir algunhas interfaces de apoio. Estas interfaces buscan a naturalidade da comunicación entre máquinas e usuario e tratan de simular formas de comunicación humanas. Por tanto, ao ser a voz o medio máis natural co que as persoas se comunican, pode ser un instrumento idóneo paira comunicarse co computador. Sobre todo porque a voz suaviza dalgunha maneira as máquinas e o usuario sente máis cómodo.

A incapacidade dos seres humanos fronte ás novas tecnoloxías (por non ser capaces de controlalas) é o sentimento que moitas veces teñen as persoas con mobilidade reducida (discapacitados, anciáns) coas cousas habituais. Por exemplo, abrir a porta paira una persoa con boa condición física non supón moito esforzo. Pola contra, se a persoa ten algún problema físico que reduce a súa mobilidade, esta porta pode converterse nun límite insuperable.

No caso destas persoas, moitas veces a tecnoloxía foi moi útil paira facilitar a súa vida: cadeiras de rodas motorizadas, teclados adaptados, ascensores especiais, etc. E paira eles a voz tamén pode ser una ferramenta moi útil paira superar os límites diarios.

Así que... Por que non controlar a cadeira de rodas a través da voz? E… por que non controlar os elementos comúns da casa: televisión, portas, luces, xanelas, etc. utilizando as ordes de voz? Iso é ciencia ficción? Non, iso é una nova tecnoloxía chamada domótica. A domótica abarca o deseño, control e desenvolvemento de edificios intelixentes. Así que aplicemos a ciencia Domótica paira construír una casa controlada pola voz paira persoas con mobilidade reducida. Por último, por que non utilizar o eúscaro paira controlar a casiña dos nosos soños?

Paira achegar este soño á realidade desenvolveuse o sistema AHOTSDOMO. Mediante este sistema, os elementos de uso común dun fogar poden ser controlados por voz en eúscaro.

Descrición xeral do sistema AHOTSDOMO

A figura 1 mostra o esquema xeral do sistema AHOTSDOMO. Aquí pódese ver o funcionamento do sistema.

Cando o usuario dá una orde, o sistema de control por voz procesa. Se a orde dada non está dentro do conxunto de ordes do sistema, non fai caso. Pola contra, se se trata dunha orde, o sistema coñécea e asígnalle un código.

A orde codificada, a través do porto de comunicación, envíase ao interfaz de control e as interfaces ao sistema de descodificación. Isto o descodifica e activa os elementos necesarios paira executar a orde.

Nalgúns casos, cando a orde executouse, os sensores do sistema envían una resposta ao sistema de codificación. Isto codifica a resposta e envíaa ao sistema de control a través da interfaz. O sistema de control dá por executada a orde e queda listo paira recibir a seguinte orde.

Sistema de control por voz

Este compoñente do sistema controla as ordes de voz utilizando a linguaxe de control do sistema. Como en calquera linguaxe, a definición da linguaxe de control require de dous recursos: o vocabulario (as palabras da linguaxe) e a gramática (as regras da linguaxe).

No caso deste sistema, tanto paira o desenvolvemento do sistema de voz como paira a definición de vocabulario e gramática utilizouse a ferramenta software paira o desenvolvemento de aplicacións de recoñecemento de voz do Software Development Kit (SDK) do ViVoice da IBM. Esta ferramenta realiza o uso do motor de coñecemento de ViVoice paira controlar calquera linguaxe definida.

A continuación analízase a definición da linguaxe de control (vocabulario e gramática) utilizando o software SDK de ViVoice.

Creación de linguaxe de control

O vocabulario dun sistema de recoñecemento da fala está formado por palabras capaces de entender os sistemas (por exemplo, no sistema AHOTSDOMO: 'piztu', 'argia' ...). Por outra banda, a gramática do sistema define os conxuntos de frases que o sistema pode comprender (por exemplo: 'Acende a luz', 'Acende o lugar a partícula clara'...).

As definicións de gramática e vocabulario deben ser exhaustivas e deben deseñarse seguindo una serie de criterios da linguaxe que permitan un correcto funcionamento do sistema:

  • Uso cómodo. A gramática debe ser cómoda paira o usuario, sinxela de usar e lembrar a linguaxe habitual. Na medida do posible utilizaranse frases curtas e vocabulario común e reducido.
  • Flexibilidade. O conxunto de instrucións que pode utilizar o usuario debe ser amplo.
  • Diferenza significativa entre palabras do dicionario. O uso de palabras non moi parecidas na composición do dicionario é imprescindible para que a mestura do sistema sexa pouco probable.
Figura . Panel de control do sistema AHOTSDOMO.

No caso do sistema AHOTSDOMO utilizouse un dicionario de 18 palabras e deseñouse una gramática moi sinxela e sinxela paira controlar os elementos básicos da vivenda.

Paira expresar a gramática temos a forma Backus-Naur ou gramática BNF. Descríbese a sintaxe e notación da linguaxe a utilizar. Entre este tipo de gramáticas BNF atópase un tipo adaptado ao coñecemento da fala, a Linguaxe de Control paira o Coñecemento da Fala ( Speech Recognition Control Language SRCL). É dicir, paira definir a gramática do sistema AHOTSDOMO utilizouse a notación da gramática SRCL-BNF.

As regras de produción do sistema son as seguintes (elementos da gramática ", ", "" indicáronse entre os símbolos, " |" elementos que non poden utilizarse simultaneamente; e "?" co símbolo aparecen elementos opcionais) (Figura 2).

O conxunto de frases aceptadas é amplo e ofrece ao usuario flexibilidade e facilidade. Exemplos de frases aceptadas polo sistema son:

  • "Abrir xanela de cociña", "Abrir xanela".
  • "Acende a luz da cociña", "Acende a luz".
  • "Conecta o primeiro enchufe", "Conecta o enchufe".

Idoneidade do SDK de ViVoice de IBM paira o eúscaro

ViVoice

O software SDK de pode configurarse paira varios idiomas. Por desgraza, o eúscaro aínda non está entre eles. Con todo, ten una ferramenta útil paira introducir un novo dicionario: una ferramenta paira engadir vocabulario. Isto serve paira definir novas palabras paira utilizar os motores do Via-Voice de IBM. Neste instrumento a palabra non se define só ortográficamente, senón tamén fonéticamente. Trátase, por tanto, dunha oportunidade inmellorable paira definir palabras en eúscaro utilizando a fonética castelá. Na táboa 1 móstrase a relación de ordes que o sistema utiliza en eúscaro.

Como se pode observar na seguinte táboa, as palabras adaptáronse paira poder utilizar os motores do ViVoice. Paira iso, os sons en eúscaro

buscáronse equivalentes entre os sons do castelán (por exemplo: ts = ch , z = s , ge = gue ...). Esta é a 'clave' deste traballo, xa que deste xeito o custo de desenvolvemento deste tipo de aplicacións diminúe considerablemente.

Mediante esta metodoloxía son numerosas as aplicacións de control que se poden realizar en eúscaro. Por unha banda, porque as palabras en eúscaro e as palabras do dicionario de ViVoice en castelán son moi diferentes (e a mestura entre elas é moi pequena); por outro, porque nestas aplicacións a gramática está composta por palabras simples.

Sistema de control de ordes

Como se viu no esquema xeral, se codifica a orde coñecida e envíase aos elementos de control paira a súa execución. No sistema existen dous tipos de control de ordes:

  1. Elementos do código de control inmediato. Elementos simples: luces, televisión, etc. A execución do precepto non require acreditación: "acende a luz", "conecta o enchufe". O control destes elementos pódese realizar mediante dous sistemas: a) Protocolo X10. É o protocolo estándar utilizado na domótica. A principal vantaxe desta metodoloxía de codificación de ordes é que non require cableado especial, xa que utiliza a instalación eléctrica como autoestrada de comunicación paira enviar e recibir ordes. b) Microcontrolador 8051. O microcontrolador envía una sinal amplificada paira accionar sobre o elemento seleccionado.
  2. Elementos de verificación do código. Elementos complexos: persianas, portas, etc. Aqueles que, na execución da orde, requiran necesariamente un sensor paira responder o sistema. Este control de seguridade utilízase paira protexer os motores asociados aos elementos e evitar no posible a súa deterioración. Por tanto, no caso destes elementos, o sistema de recoñecemento de ordes de voz non procesará novas ordes ata que se reciba a resposta dos sensores. Neste caso existen varias vías de control: a) Autómata programable. Esta metodoloxía permite controlar adecuadamente os elementos complexos. b) Microcontrolador 8051. Neste caso envíase una sinal amplificada ao motor do elemento paira a súa activación ou desactivación.
Panel de control do sistema

A figura 3 mostra o panel de control do sistema. O panel de control utilízase paira o control do sistema. Permite realizar varias tarefas:

  • Simulación do sistema. No panel de control pódense ver os lugares e o estado dos elementos da casa que están a controlar.
  • Soporte ao usuario. Na parte superior, o sistema dispón dun menú desplegable paira poder consultar as ordes do sistema en calquera momento.
  • Control de volume. Na parte inferior esquerda atópase a ferramenta de control do volume de voz do usuario.
  • Configuración de comunicación. Na parte inferior dereita atópase a ferramenta de configuración do porto de comunicacións.
  • Xanela de ordes. Na parte inferior central aparece a orde que está a procesar o sistema.
Mirando ao futuro

O sistema AHOTSDOMO (Sistema Domótico controlado por Voz) naceu co obxectivo de facilitar a vida das persoas con mobilidade reducida. A pesar de que o sistema desenvolvido non é máis que un paso adiante, abre un camiño paira controlar en eúscaro os edificios intelixentes no mundo da Domótica. O futuro tamén é esperanzador neste ámbito tecnolóxico, tanto paira persoas con mobilidade reducida como paira o eúscaro. Abriuse a porta para que entremos nese mundo dos soños e empecemos a imaxinar un marabilloso futuro sen límites...

Figura . Esquema xeral do sistema AHOTSDOMO.
Figura . Regras de produción da gramática do sistema AHOTSDOMO.
Táboa . Definición do conxunto de ordes do sistema AHOTSDOMO paira o software SDK do ViVoice de IBM.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia