Què escoltar, escriure
2008/03/01 Kortabitarte Egiguren, Irati - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Aquests sistemes s'integren de moment principalment en serveis telefònics com a cita prèvia, sol·licitud de productes, sol·licitud de reserva per a espectacles, etc. Però hi ha uns altres com el dictat automàtic. En aquesta última s'està treballant, entre altres, en el departament d'Enginyeria de Sistemes i Automàtica de la UPV/EHU.
El tractament de la parla requereix molta i bona formació. És a dir, el sistema ha de rebre cert entrenament, la qual cosa es coneix com a aprenentatge màquina. Per a això es necessiten, d'una banda, fitxers, àudios i sons de televisió i ràdio, i per un altre, textos de referència del que s'ha dit en aquests mitjans de comunicació. Investigadors de la UPV, per exemple, utilitzen amb freqüència els programes Gaur Egun i Teleberri d'ETB per a formar el sistema. No és necessari saber què s'ha dit literalment, però sí que és capaç de recollir un resum del que s'ha dit. En definitiva, tracta de comprendre la relació entre sons i paraules.
Una vegada finalitzat el procés d'aprenentatge, el sistema hauria de ser capaç d'entendre el que s'ha dit en qualsevol Gaur Egun o Teleberri. Encara que l'aprenentatge és un procés lent, una vegada que el sistema té les normes o la informació interioritzada, és a dir, té el material de referència adequat, mostra el resultat amb certa rapidesa. En aquest cas, text escrit del parlat. En definitiva, l'objectiu és obtenir text d'un àudio o so.
Petit gran
És cert que la majoria d'aquesta mena d'aplicacions que es poden trobar en el mercat tenen com a objectiu els “grans” idiomes, sobretot l'anglès. No obstant això, investigadors de l'Escola Universitària Politècnica de Donostia-Sant Sebastià, en col·laboració amb els grups IXA, GTTS i Intel·ligència Computacional de la UPV/EHU, treballen amb el basc. La diferència evident entre aquestes llengües 'grans' i 'petites' radica en el nombre de dades de referència. Aquest tipus d'eines angleses tenen una gran quantitat de dades, mentre que el material de referència en basca és bastant menor. Per això, els investigadors estan buscant noves tècniques per a aprofitar millor i amb major precisió aquestes poques dades.
Aquests sistemes depenen totalment de la llengua i cada llengua té la seva pròpia eina. Però, per exemple, els investigadors de la UPV/EHU treballen no sols amb el basc, sinó també amb el castellà i el francès. El programa Teleberri o les sessions d'Infozazpi, per exemple, tenen dos objectius principals: d'una banda, volen comprendre el castellà i el francès --juntament amb el basc-, i per un altre, buscar en aquesta mena de sistemes les similituds existents entre el basc i les altres dues llengües per a poder millorar la capacitació de les eines en basca.
En aquest sentit, en l'actualitat s'estan realitzant una sèrie d'assajos que analitzen la possibilitat d'utilitzar diversos idiomes en una mateixa eina. Aquest és el repte de futur dels investigadors de la UPV: desenvolupar un sistema capaç d'entendre el basc, el castellà i el francès.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia