}

Superant límits per veu

2002/02/01 Anega, Iker | Jubete, Juan Jose | Lopez de Ipina, Karmele Iturria: Elhuyar aldizkaria

En els últims anys hem sofert una petita invasió de noves tecnologies. Les computadores, Internet, el telèfon mòbil... es poden trobar en qualsevol lloc; com molts altres dispositius tecnològics, ja s'han convertit en una eina habitual de la nostra vida quotidiana. De fet, avui dia és cada vegada més fàcil tenir una computadora a casa.

No hi ha dubte que la tecnologia continuarà canviant la nostra manera de vida. D'alguna manera, la influència de la tecnologia en l'hàbitat humà al llarg de la història ha estat enorme, en la majoria dels casos, per a millorar la qualitat de vida, però en alguns casos, desgraciadament, fins i tot per a empitjorar (en el cas de la indústria armera). No obstant això, l'actitud davant aquest fet no sol ser tèbia.

Antigament, l'electricitat, el telèfon, la televisió, la ràdio i altres nous avanços tecnològics es van convertir en part de la nostra vida i van suposar un canvi radical en la vida quotidiana. Si bé al principi la majoria de la gent va pensar que aquests elements tecnològics anaven a ser utilitzats per uns pocs privilegiats… és clar que estaven equivocats! El temps ha demostrat que la societat necessita un procés d'adaptació per a acceptar qualsevol nova tecnologia, però que finalment es converteix en una eina habitual.

Lamentablement, moltes vegades el procés d'aparició de la tecnologia i el temps d'adaptació que necessita l'usuari no coincideixen, i l'usuari sol estar perdut i espantat. El procés d'aprenentatge és molt complex i laboriós.

En els últims temps, amb l'objectiu de superar els límits que generen les noves tecnologies, s'han començat a introduir algunes interfícies de suport. Aquestes interfícies busquen la naturalitat de la comunicació entre màquines i usuari i tracten de simular formes de comunicació humanes. Per tant, a l'ésser la veu el mitjà més natural amb el qual les persones es comuniquen, pot ser un instrument idoni per a comunicar-se amb el computador. Sobretot perquè la veu suavitza d'alguna manera les màquines i l'usuari se sent més còmode.

La incapacitat dels éssers humans enfront de les noves tecnologies (per no ser capaces de controlar-les) és el sentiment que moltes vegades tenen les persones amb mobilitat reduïda (discapacitats, ancians) amb les coses habituals. Per exemple, obrir la porta per a una persona amb bona condició física no suposa molt esforç. Per contra, si la persona té algun problema físic que redueix la seva mobilitat, aquesta porta pot convertir-se en un límit insuperable.

En el cas d'aquestes persones, moltes vegades la tecnologia ha estat molt útil per a facilitar la seva vida: cadires de rodes motoritzades, teclats adaptats, ascensors especials, etc. I per a ells la veu també pot ser una eina molt útil per a superar els límits diaris.

Així que... Per què no controlar la cadira de rodes a través de la veu? I… per què no controlar els elements comuns de la casa: televisió, portes, llums, finestres, etc. utilitzant les ordres de veu? Això és ciència-ficció? No, això és una nova tecnologia anomenada domòtica. La domòtica abasta el disseny, control i desenvolupament d'edificis intel·ligents. Així que aplicemos la ciència Domòtica per a construir una casa controlada per la veu per a persones amb mobilitat reduïda. Finalment, per què no utilitzar el basc per a controlar la caseta dels nostres somnis?

Per a acostar aquest somni a la realitat s'ha desenvolupat el sistema AHOTSDOMO. Mitjançant aquest sistema, els elements d'ús comú d'una llar poden ser controlats per veu en basca.

Descripció general del sistema AHOTSDOMO

La figura 1 mostra l'esquema general del sistema AHOTSDOMO. Aquí es pot veure el funcionament del sistema.

Quan l'usuari dóna una ordre, el sistema de control per veu processa. Si l'ordre donada no està dins del conjunt d'ordres del sistema, no fa cas. Per contra, si es tracta d'una ordre, el sistema la coneix i li assigna un codi.

L'ordre codificada, a través del port de comunicació, s'envia a la interfície de control i les interfícies al sistema de descodificació. Això ho descodifica i activa els elements necessaris per a executar l'ordre.

En alguns casos, quan l'ordre s'ha executat, els sensors del sistema envien una resposta al sistema de codificació. Això codifica la resposta i l'envia al sistema de control a través de la interfície. El sistema de control dóna per executada l'ordre i queda llest per a rebre la següent ordre.

Sistema de control per veu

Aquest component del sistema controla les ordres de veu utilitzant el llenguatge de control del sistema. Com en qualsevol llenguatge, la definició del llenguatge de control requereix de dos recursos: el vocabulari (les paraules del llenguatge) i la gramàtica (les regles del llenguatge).

En el cas d'aquest sistema, tant per al desenvolupament del sistema de veu com per a la definició de vocabulari i gramàtica s'ha utilitzat l'eina programari per al desenvolupament d'aplicacions de reconeixement de veu del Programari Development Kit (SDK) del ViVoice de la IBM. Aquesta eina realitza l'ús del motor de coneixement de ViVoice per a controlar qualsevol llenguatge definit.

A continuació s'analitza la definició del llenguatge de control (vocabulari i gramàtica) utilitzant el programari SDK de ViVoice.

Creació de llenguatge de control

El vocabulari d'un sistema de reconeixement de la parla està format per paraules capaces d'entendre els sistemes (per exemple, en el sistema AHOTSDOMO: 'piztu', 'argia' ...). D'altra banda, la gramàtica del sistema defineix els conjunts de frases que el sistema pot comprendre (per exemple: 'Encén la llum', 'Encén el lloc la partícula clara'...).

Les definicions de gramàtica i vocabulari han de ser exhaustives i han de dissenyar-se seguint una sèrie de criteris del llenguatge que permetin un correcte funcionament del sistema:

 • Ús còmode. La gramàtica ha de ser còmoda per a l'usuari, senzilla d'usar i recordar el llenguatge habitual. En la mesura que sigui possible s'utilitzaran frases curtes i vocabulari comú i reduït.
 • Flexibilitat. El conjunt d'instruccions que pot utilitzar l'usuari ha de ser ampli.
 • Diferència significativa entre paraules del diccionari. L'ús de paraules no gaire semblants en la composició del diccionari és imprescindible perquè la mescla del sistema sigui poc probable.
Figura . Panell de control del sistema AHOTSDOMO.

En el cas del sistema AHOTSDOMO s'ha utilitzat un diccionari de 18 paraules i s'ha dissenyat una gramàtica molt senzilla i senzilla per a controlar els elements bàsics de l'habitatge.

Per a expressar la gramàtica tenim la forma Backus-Naur o gramàtica BNF. Es descriu la sintaxi i notació del llenguatge a utilitzar. Entre aquesta mena de gramàtiques BNF es troba un tipus adaptat al coneixement de la parla, el Llenguatge de Control per al Coneixement de la Parla ( Speech Recognition Control Language SRCL). És a dir, per a definir la gramàtica del sistema AHOTSDOMO s'ha utilitzat la notació de la gramàtica SRCL-BNF.

Les regles de producció del sistema són les següents (elements de la gramàtica ", ", "" s'han indicat entre els símbols, " |" elements que no poden utilitzar-se simultàniament; i "?" amb el símbol apareixen elements opcionals) (Figura 2).

El conjunt de frases acceptades és ampli i ofereix a l'usuari flexibilitat i facilitat. Exemples de frases acceptades pel sistema són:

 • "Obrir finestra de cuina", "Obrir finestra".
 • "Encén la llum de la cuina", "Encén la llum".
 • "Connecta el primer endoll", "Connecta l'endoll".

Idoneïtat del SDK de ViVoice d'IBM per al basc

ViVoice

El programari SDK de pot configurar-se per a diversos idiomes. Per desgràcia, el basc encara no està entre ells. No obstant això, té una eina útil per a introduir un nou diccionari: una eina per a afegir vocabulari. Això serveix per a definir noves paraules per a utilitzar els motors del Via-Voice d'IBM. En aquest instrument la paraula no es defineix només ortogràficament, sinó també fonèticament. Es tracta, per tant, d'una oportunitat immillorable per a definir paraules en basca utilitzant la fonètica castellana. En la taula 1 es mostra la relació d'ordres que el sistema utilitza en basc.

Com es pot observar en la següent taula, les paraules s'han adaptat per a poder utilitzar els motors del ViVoice. Per a això, els sons en basc

s'han buscat equivalents entre els sons del castellà (per exemple: ts = ch , z = s , ge = gue ...). Aquesta és la 'clau' d'aquest treball, ja que d'aquesta manera el cost de desenvolupament d'aquesta mena d'aplicacions disminueix considerablement.

Mitjançant aquesta metodologia són nombroses les aplicacions de control que es poden realitzar en basc. D'una banda, perquè les paraules en basca i les paraules del diccionari de ViVoice en castellà són molt diferents (i la mescla entre elles és molt petita); per un altre, perquè en aquestes aplicacions la gramàtica està composta per paraules simples.

Sistema de control d'ordres

Com s'ha vist en l'esquema general, es codifica l'ordre coneguda i s'envia als elements de control per a la seva execució. En el sistema existeixen dos tipus de control d'ordres:

 1. Elements del codi de control immediat. Elements simples: llums, televisió, etc. L'execució del precepte no requereix acreditació: "encén la llum", "connecta l'endoll". El control d'aquests elements es pot realitzar mitjançant dos sistemes: a) Protocol X10. És el protocol estàndard utilitzat en la domòtica. El principal avantatge d'aquesta metodologia de codificació d'ordres és que no requereix cablejat especial, ja que utilitza la instal·lació elèctrica com a autopista de comunicació per a enviar i rebre ordres. b) Microcontrolador 8051. El microcontrolador envia un senyal amplificat per a accionar sobre l'element seleccionat.
 2. Elements de verificació del codi. Elements complexos: persianes, portes, etc. Aquells que, en l'execució de l'ordre, requereixin necessàriament un sensor per a respondre al sistema. Aquest control de seguretat s'utilitza per a protegir els motors associats als elements i evitar en la mesura del possible la seva deterioració. Per tant, en el cas d'aquests elements, el sistema de reconeixement d'ordres de veu no processarà noves ordres fins que es rebi la resposta dels sensors. En aquest cas existeixen diverses vies de control: a) Autòmat programable. Aquesta metodologia permet controlar adequadament els elements complexos. b) Microcontrolador 8051. En aquest cas s'envia un senyal amplificat al motor de l'element per a la seva activació o desactivació.
Panell de control del sistema

La figura 3 mostra el panell de control del sistema. El panell de control s'utilitza per al control del sistema. Permet fer diverses tasques:

 • Simulació del sistema. En el panell de control es poden veure els llocs i l'estat dels elements de la casa que estan controlant.
 • Suport a l'usuari. En la part superior, el sistema disposa d'un menú desplegable per a poder consultar les ordres del sistema en qualsevol moment.
 • Control de volum. En la part inferior esquerra es troba l'eina de control del volum de veu de l'usuari.
 • Configuració de comunicació. En la part inferior dreta es troba l'eina de configuració del port de comunicacions.
 • Finestra d'ordres. En la part inferior central apareix l'ordre que està processant el sistema.
Mirant al futur

El sistema AHOTSDOMO (Sistema Domòtic controlat per Veu) va néixer amb l'objectiu de facilitar la vida de les persones amb mobilitat reduïda. A pesar que el sistema desenvolupat no és més que un pas endavant, obre un camí per a controlar en basc els edificis intel·ligents en el món de la Domòtica. El futur també és esperançador en aquest àmbit tecnològic, tant per a persones amb mobilitat reduïda com per al basc. S'ha obert la porta perquè entrem en aquest món dels somnis i comencem a imaginar un meravellós futur sense límits...

Figura . Esquema general del sistema AHOTSDOMO.
Figura . Regles de producció de la gramàtica del sistema AHOTSDOMO.
Taula . Definició del conjunt d'ordres del sistema AHOTSDOMO per al programari SDK del ViVoice d'IBM.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia