Parlant amb les màquines
La comunicació verbal amb les màquines és avui una realitat. Per exemple, en el Telèfon intel·ligent es pot fer una cerca en Internet o enviar un missatge sense necessitat de tocar cap dels botons, utilitzant només la veu. Per al desenvolupament de les tecnologies lingüístiques, diversos centres de recerca i institucions, entre ells la Fundació Elhuyar, han posat en marxa el projecte de recerca Berbatek. Una de les principals línies de recerca ha estat la relativa al processament de la veu: com utilitzar la veu humana, les nostres paraules, per a comunicar-se amb les màquines. Fa pocs dies es van donar a conèixer els primers resultats del projecte, perquè vegem.
IÑAKI LETURIA. Fundació Elhuyar: Inma, el treball que feu aquí és crear la tecnologia perquè homes i màquines es comuniquin i s'entenguin, no?
INMA HERNAEZ, laboratori Aholab (UPV/EHU): Sí, per a xerrar.
IÑAKI LETURIA. Fundació Elhuyar: I com es fa això?
INMA HERNAEZ, laboratori Aholab (UPV/EHU): D'una banda, creem la veu a partir d'un text, utilitzant algorismes i, d'altra banda, agafem el coneixement, la veu, l'analitzem i creem el text corresponent.
Mentre escolteu, hi ha una màquina parlant; no és una gravació. El discurs el crea un sintetitzador de veu, una tecnologia desenvolupada per Aholab. Aholab és un laboratori de la Universitat del País Basc que desenvolupa tecnologies de la veu. Fins ara, l'ésser humà i la màquina s'han comunicat per escrit, amb botons; però avui hem començat a parlar amb telèfons intel·ligents o tauletes, que responen i compleixen amb el que ells ens han promès.
IÑAKI LETURIA. Fundació Elhuyar: Ara jugarem una mica amb la tecnologia de veu que porta el sistema operatiu Android. A veure si ens entenem.
Anar directament a una web, obrir un mapa concret, programar el GPS... tot això només es pot fer en anglès, castellà o en altres idiomes grans. Aholab està treballant perquè les màquines també parlin en basca. Treballa especialment la síntesi de veu: TTS, Text To Speech. Aquests són els passos.
INMA HERNAEZ, laboratori Aholab (UPV/EHU): Sí, això és el que tens, d'una banda, els mòduls lingüístics, i, per un altre, els models acústics; i, per un altre, els algorismes …
IÑAKI LETURIA. Fundació Elhuyar: Li cridarem Sofware perquè la gent ho entengui
INMA HERNAEZ, laboratori Aholab (UPV/EHU): Sí, associar sons amb un programari i extreure la veu d'ell el més correctament o amb la major naturalitat possible.
IÑAKI LETURIA. Fundació Elhuyar: Naturalitat, potser aquest és el repte?
INMA HERNAEZ, laboratori Aholab (UPV/EHU): Al principi, el repte era la intel·ligibilitat, fa molts anys. Després, els sistemes eren molt comprensibles i el repte era la naturalitat. I avui dia, més que la naturalitat, posar emocions en la veu sintètica.
Els elements bàsics, unitats de síntesis o fonemes que componen el discurs s'obtenen a partir d'aquesta mena de gravacions d'àudio o vídeo. Aquí també es va gravar la cara de l'orador, per a recollir el gest corresponent a cada emoció.
Aquesta demo és una de les branques del projecte Berbatek per a realitzar el doblatge automàtic. L'investigador de la Fundació Elhuyar Igor Leturia ha participat en el desenvolupament del projecte.
IGOR LETURIA, Fundació Elhuyar: Aquesta és una demo que hem realitzat dins del projecte Berbatek, per a mostrar com les tecnologies lingüístiques, en aquest cas, poden ajudar el sector de la traducció a realitzar duplicacions.
IGOR LETURIA, Fundació Elhuyar: Aquesta és la versió original en castellà que hem rebut. El punt de partida és un vídeo en castellà, el vídeo i la seva transcripció. D'aquí sorgeix automàticament un arxiu de subtítols, és a dir, quan comença i acaba una frase. I després, aquest arxiu de subtítols en castellà es tradueix automàticament al basc i es crea automàticament l'àudio o la veu en basca.
IGOR LETURIA, Fundació Elhuyar: La tecnologia per a extreure subtítols de la transcripció és de Vicomtech, la traducció automàtica d'IXA i la creació o síntesi de veu d'Aholab.
IGOR LETURIA, Fundació Elhuyar: Aquí tenim seleccionats l'àudio en basc i els subtítols en basc. El que ara estem escoltant i llegint és automàticament aquests subtítols traduïts al basc i la veu és la que s'ha creat automàticament amb la tecnologia de síntesi d'Aholab
IÑAKI LETURIA. Fundació Elhuyar: He dit màgia, no sé si és així...
IGOR LETURIA, Fundació Elhuyar: Sí, és una mica màgic.
No és més que un exemple o una demo del que es pot fer amb aquestes tecnologies, però, imagina't, pot ser un primer pas per a escoltar en basc una pel·lícula en rus. L'avanç de la síntesi de veu va a gran velocitat.
IÑAKI LETURIA. Fundació Elhuyar: Hola, Inma, convertirem la meva veu en una veu de noia... o la veu d'una àvia, per exemple, Li hem posat coses difícils.
La síntesi de veu avançada pot tenir múltiples aplicacions, com posar veu a personatges de dibuixos animats. Una persona que perdi la seva veu per una operació o malaltia pot fer gravacions prèvies i després utilitzar aquest àudio perquè el sintetitzador de veu generi exactament el mateix que la veu que tenia abans. També s'estan estudiant els mitjans per a fer la TV de manera econòmica: les notícies les llegiria una màquina, per exemple, la predicció meteorològica.
En aquesta altra demo de Berbatek, a més de la síntesi de veu, també entra en joc el coneixement. Aquí es tractava de demostrar l'ús que les tecnologies de la llengua i la veu poden tenir en l'ensenyament.
El coneixement de la veu fa, més o menys, el camí contrari a la síntesi. Se li dona al principi la matèria primera per a convertir la veu en text, per exemple, les unitats acústiques que componen 43, els fragments de so.
INMA HERNAEZ, Aholab, UPV/EHU: 43, quaranta-tres. Ho ha entès.
I després li indicarem a la màquina com pot recollir aquests elements de forma organitzada, proporcionant-li models lingüístics.
IÑAKI LETURIA. Fundació Elhuyar: Vosaltres dieu de què parlarem més o menys, "només et diré els números", aviseu a la màquina
INMA HERNAEZ, laboratori Aholab (UPV/EHU): Vostè fixa el lèxic, sí, delimita el camp. Després pot fer una cosa més complicada i introduir la gramàtica, per exemple, però també la gramàtica limitada, perquè conegui "on va néixer Newton"
Si parles utilitzant un lèxic o un idioma que no tingui carregat, el sistema no serà capaç d'entendre.
IÑAKI LETURIA. Fundació Elhuyar: I si jo li parlés com a una persona, en un llenguatge continu? -Què tal si anéssim a sopar? "Comprendria?"
INMA HERNAEZ, laboratori Aholab (UPV/EHU): Sí, ho entendria si tingués models de llenguatge. Els models de llenguatge són models lingüístics, estadístics per a calcular les probabilitats de les cadenes de paraules, i això es fa prenent molts textos … es calculen les relacions estadístiques entre les paraules i les probabilitats de les cadenes. I amb tota aquesta informació es construeixen els models lingüístics.
La quantitat de text disponible en Internet per a fer aquest treball condiciona, entre altres aspectes, el grau de desenvolupament d'un idioma en aquest camp. Aquí també és evident la distància entre les llengües grans i les petites.
IGOR LETURIA, Fundació Elhuyar: Si un idioma no està preparat, caldrà continuar fent aquestes coses manualment, i tornarem sobre la tecnologia. Per això és tan important desenvolupar aquest tipus de coses.
Només hem començat a utilitzar les tecnologies de veu. Fins a on podem arribar? Per exemple, com sabeu si el que ha posat veu a aquest reportatge és l'home o la màquina?
Buletina
Bidali zure helbide elektronikoa eta jaso asteroko buletina zure sarrera-ontzian







