}

Parlant del llenguatge de les màquines. Soles d'experts

2009/11/01 Roa Zubia, Guillermo - Elhuyar Zientzia Iturria: Elhuyar aldizkaria

Hem reunit alguns experts per a parlar de les tendències en el processament de la llengua i de les peculiaritats del basc respecte a altres llengües. Hem estat amb els informàtics del grup IXA de la UPV Kepa Sarasola, I aki Alegria i Eneko Agirre. De fet, el grup IXA ha organitzat en Donostia el congrés SEPLN sobre el processament de la llengua d'enguany i ha reunit nombrosos experts en la matèria.
Parlant del llenguatge de les màquines. Soles d'experts
01/11/2009 | Rosegui Zubia, Guillermo | Elhuyar Zientzia Komunikazioa
(Foto: Pujar I no)
Quins són actualment els principals reptes del processament del llenguatge?

Eneko Agirre: Jo crec que són qüestions relacionades amb la comprensió. La recerca duta a terme en els últims anys ha suposat un gran salt qualitatiu, però això no significa que la màquina ens "entengui" ara. Jo crec que s'han fet petits passos i les màquines comprenen coses en cada vegada més zones. Què és un lloc, per exemple. Amb els cognoms sempre hi ha problema, Azpeitia és una persona o un lloc? O una empresa? Començar a comprendre aquestes coses és un pas endavant. I encara que a les persones els sembli molt senzill, sense context són difícils. Per tant, el repte és ensenyar a la màquina fragments d'aquesta mena de coneixements.

De fet, els mètodes matemàtics i estadístics basats en corpus estan tocant d'alguna manera, estan fent el que podien fer i tenen dificultats per a avançar. Els basats en les regles també van donar la seva i van quedar una mica embussats. Per tant, jo crec que ara el repte és aprendre les regles dels textos, i des dels corpus tractar de contrastar-les aprenent i contrastant-les d'alguna manera, i saber què ha après bé i quin mal.

Kepa Sarasola: Per a veure quins són els reptes als quals ens enfrontem en l'actualitat, poden existir dos nivells: un d'aplicacions i un altre de budells dins del llenguatge, eines bàsiques que després s'han d'utilitzar en les aplicacions. Es pot afirmar que les necessitats de lèxic en l'actualitat es troben gairebé al 100% cobertes. Fa 20 anys no hi havia diccionaris computacionals, tots eren de paper. Ara tens en Internet el significat de totes les paraules, com es diuen en altres llengües, etc. Morfològicament, per a llengües difícils (com el basc), el 95-98% està ple. En sintaxi fa un 90% bé per a anglès.

Llavors, a què ens anem? Doncs a la semàntica i a la pragmàtica. I per a això aquí hi ha un canvi tremend. Fa 20 anys, per a parlar de qualsevol tema, no parlem de què. Avui, per exemple, tenim Wikipedia, o Wordnet, Internet en si, etc. Ara tenim nous recursos per a entendre el significat dels textos. I això ens ha obert una porta, però encara no s'ha treballat molt.

Kepa Sarasola. Ed. : Pujar I no.
S'ha donat força en el congrés SEPLN 2009?

I Aki Alegria: Al Congrés van acudir ponents convidats que reflexionen sobre el tema. Per exemple, l'expert en sintaxi de la Universitat d'Uppsala, Joakim Nivre, va assenyalar que el problema de la sintaxi no es resol al 100%, però que està molt treballat. Seguint amb la semàntica, Eneko va presentar la situació a la qual s'ha referit. També es va presentar el projecte KYOTO, un sistema que permet definir els significats de paraules i termes a través d'una plataforma wiki. També es va parlar de l'extracció de coneixement de les dades. I en la seva intervenció, Horaci Rodríguez, de la Universitat Politècnica de Catalunya, va assenyalar que hem d'intentar reprendre alguns dels reptes de la intel·ligència artificial clàssica, però amb més dades i per noves vies. I jo també sóc una mica d'aquesta opinió.

En aquest camí, Google ha obtingut molt bons resultats utilitzant alguns mètodes bàsics d'intel·ligència artificial. Però si no utilitzen un coneixement més profund, a curt termini sortirà poca innovació.

Ha esmentat Google, fins a quin punt aquestes grans empreses estan investigant en el processament del llenguatge?

I. A. Jo crec que Google està inventant aprofitar el que està fet. Inverteix molt, saca bon partit, ha guanyat fama i ha fet una marca. Aquest coneixement o eines podrien integrar-se en aplicacions per a tots els públics i a nivell industrial. Però no aporten suficient informació i la demanda de les aplicacions és menor de l'esperat.

I Aki Alegria. Ed. : Pujar I no.

R. A. En la recerca no saps qui vindrà amb la bona idea. Encara que hi hagi un gran equip de recerca, potser les bones idees no surten d'aquí, no es pot predir. Per això, les grans empreses, com Google, a més de desenvolupar els seus projectes, fitxen investigadors d'èxit.

Molta gent ha anat a Google. Als Estats Units han esmentat que els millors investigadors han anat a Google. Entre els joves s'ha rebut molta gent i en les universitats s'ha notat això. La gent ha anat allí, després han dit que en Google no tot és tan bonic, però molt pocs han fet fama des d'allí.

I. A. En aquesta àrea es detallen les aplicacions que donen diners. Killer applications. Històricament s'han inclòs en aquest grup tres tipus d'aplicacions: traducció automàtica, proofing tools (és a dir, eines per a editors de text, principalment correctors) i cerca. Precisament, l'inici de Google va ser el món de la cerca. Ara s'està tractant la traducció automàtica i últimament també s'està treballant en sistemes operatius de telèfons i en proofing tools. D'alguna manera, el risc pot ser que Google monopolitzi totes aquestes recerques.

Aquest risc afectarà el vostre treball, no?

C. S: Nosaltres, d'una banda, estem contents perquè es veu clarament que les tècniques que treballem són útils. Es demostra una vegada i una altra. Però, d'altra banda, ens preocupa que Google tingui dades perquè ells són els únics. Ells saben el que la gent demana, la qual cosa cerca. I què tria la gent en els resultats de la cerca. Per a ells és molt important per a millorar el sistema. Demanant una paraula la majoria de la gent clica la quarta opció i poc després aquesta quarta serà la mateixa. Aquestes dades d'ús són molt importants, però són propietat de Google.

R. A. Google sap que la innovació és el camí per a avançar. Dirigeixen totes les energies a la innovació.

Eneko Agirre. Ed. : Pujar I no.

I. A. I donen prioritat als diners. Els diners, allí, ells. I això té algunes conseqüències. Per exemple, Google busca molt malament en basc. I se'ls ha dit. Però no els interessa. En un moment determinat es va decidir treballar amb un màxim de quaranta idiomes. En la resta fan una cerca literal. Això és un problema, però la marca té molta força. A més s'integra en moltes aplicacions, etc. Però avui dia l'aplicació Elebila cerca molt millor la versió en basca.

En quina situació es troba el basc en relació amb altres llengües per al tractament de la llengua?

I. A. L'anglès és la referència. Per exemple, va venir al congrés un investigador d'Etiòpia. Allí parlen en llengua materna. És un llenguatge semítico, han d'utilitzar un altre tipus de teclat, però al no existir aquest tipus de teclats en els telèfons mòbils, els missatges s'envien només en anglès.

És clar que el basc és petit. Des d'un punt de vista economicista, la demanda és baixa, per la qual cosa hi ha problemes. A nivell de recerca, nosaltres estem satisfets. En alguns àmbits, almenys, som una referència per a altres llengües minoritàries. Les aplicacions basades en corpus requereixen inversions per a aconseguir els propis corpus.

R. A. Com a llengua, el basc té una tipologia pròpia, però no és especialment difícil de computar si el comparem amb altres llengües. Encara que la morfologia és més difícil de tractar, en altres àmbits, com la fonètica, és molt fàcil. Cada llengua té les seves diferències difícils i senzilles, però en general, tenint en compte totes les característiques de la llengua, la dificultat de totes les llengües és similar.

I pujar Ib no

I per a comparar amb altres llengües, cal veure cada llengua en funció del nombre de parlants. Jo crec que el basc està bastant prop de les llengües que més es parlen. La diferència més significativa és la petita grandària dels corpus utilitzats, que jo crec que és la principal manca en basca. En anglès, per exemple, hi ha corpus de milers de milions de paraules. I les màquines aprenen de grans corpus. Però, depenent dels recursos, estem en la part superior de la llista.

C. S: Quant al nombre de parlants, vaig veure el basc en la llista 256, i en la recerca estem entre els 50 primers. Per què? Perquè hi ha hagut ajudes oficials, i crec que els que som aquí fem les coses ordenades. Hem fet les coses d'una manera ordenada i planificada. Les eines i recursos que generes en un moment determinat són valuosos en el futur. Treballem de manera incremental.

El grup IXA treballa en el processament del basc. No són els únics. Però un robot és investigador de referència en l'esforç per parlar en basc. Si les grans empreses, per exemple, volguessin desenvolupar aplicacions en basca, probablement haurien de dirigir-se a elles. Entre altres, han participat en el desenvolupament del projecte ANHITZ, creant un personatge virtual que respon a preguntes científiques. En definitiva, un robot que parla. És un bon exemple del processament del llenguatge; vist des de fora, ANHITZ no sembla una aplicació revolucionària, ja que no respon tan ràpid i fàcilment com un robot de ficció. Per contra, qui coneix el treball que hi ha darrere del projecte realitza una valoració molt positiva. Hi ha molt a fer en el processament del llenguatge, no hi ha dubte. Però el que està fet és un treball enorme, no hi ha dubte d'això.

Imma Hernaez: "Les veus dels sistemes de síntesis actuals són perfectament comprensibles"
Imma Hernaez treballa en el laboratori Aholkularitza de la UPV/EHU. Expert en sistemes de reconeixement i síntesi de veu per màquines. Entre altres coses, ha participat en el projecte ANHITZ, realitzant un personatge virtual que respon a preguntes científiques. En aquest projecte, Hernaez i el personal del laboratori Aholab van desenvolupar sistemes de reconeixement i veu dels personatges.
Quines són les principals dificultats per a conèixer i sintetitzar veu?
Les dificultats no són les mateixes en el coneixement o en la síntesi. Per a conèixer la veu, la pròpia varietat lingüística dificulta el treball, ja que existeixen dialectes, accents, registres, etc. A més, la veu és molt variable segons diversos factors. L'estat d'ànim de la persona, la salut, l'hora del dia i altres factors canvien la parla. A més, hi ha problemes de l'entorn com el soroll, la qualitat dels sistemes d'àudio, etc.
El difícil és dotar a la veu sintètica de naturalitat, espontaneïtat i humanitat, és a dir, dotar a la veu de la 'identitat' que volem.
Què creus que hi ha superat i què no?
(Foto: Imma Hernaez)
En el coneixement de la veu, quan el vocabulari a conèixer és reduït i es dóna veu al sistema, s'obtenen resultats molt satisfactoris, malgrat les condicions ambientals adverses. Els problemes comencen quan s'allunya d'aquestes condicions: per a una conversa instantània (és a dir, amb vocabulari sense restringir i que es talla de manera contínua), encara no s'aconsegueixen resultats molt satisfactoris. És obligatori l'ús d'un micròfon tipus “pilot” i el sistema s'adapta a la veu de l'orador, és a dir, es forma amb mostres de veu de l'orador.
Les veus dels sistemes de síntesis actuals són perfectament comprensibles. També s'aconsegueix la naturalitat de la veu quan les frases o els paràgrafs són breus i s'utilitza un estil neutre en la lectura de textos. A l'hora d'expressar l'emoció o expressivitat, no obstant això, els sistemes de síntesis fracassen de moment; els sistemes actuals pròxims a la naturalitat estan basats en corpus, és a dir, utilitzen bases de dades gegantesques, i la qualitat final depèn de la grandària d'aquestes bases de dades: com més gran sigui la base de dades, millor la qualitat.
A més, és sempre la veu d'una sola persona i si es vol canviar de veu s'han de crear noves bases de dades. Per tant, el millor mètode seria utilitzar bases de dades més petites, però per a crear diferents veus, modificar certs paràmetres en el model utilitzat per a crear veu, encara que de moment no sabem exactament quins paràmetres han de tenir, per a evitar pèrdues significatives en la qualitat del senyal.
Com està el basc comparat amb altres llengües? (No sé si és un llenguatge específic en si mateix des del punt de vista de la pronunciació).
Des del punt de vista de la recerca, el basc no està molt lluny d'altres llengües, sobretot si ens centrem en mètodes i tècniques. Des del punt de vista comercial (sobretot en l'àmbit del coneixement), la construcció de sistemes comercials requereix de bases de dades estàndard per part de les empreses desenvolupadores per a la formació i testatge de sistemes que permetin utilitzar el programari que utilitzen amb altres llengües. I tenim molt pocs. D'altra banda, els desenvolupaments realitzats fins al moment s'han limitat a l'euskara unificat en general, i la realitat del basc parlat no és la mateixa que la de les nostres llengües veïnes (per exemple, la llengua principal d'Europa). La distància entre el batua i els dialectes pot ser molt gran, i si els sistemes de coneixement no s'ajusten als dialectes, és possible que només una part limitada de la societat els utilitzi.
Puente Rosegui, Guillermo
Serveis
258
2009
Resultats
021
Robòtica
Article
Uns altres

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia