Tira el vers i nosaltres l'analitzarem
2013/09/01 Hulden, Mans - EHUko IXA taldeko ikertzailea | Agirrezabal Zabaleta, Manex - EHUko IXA taldeko ikertzailea | Arrieta Kortajarena, Bertol - EHUko IXA taldeko ikertzailea | Astigarraga Pagoaga, Aitzol - EHUko IXA taldeko ikertzailea Iturria: Elhuyar aldizkaria
Dins dels treballs que es realitzen en el grup IXA de la Facultat d'Informàtica de la UPV/EHU, combinant el llenguatge i la informàtica, en els últims anys també s'està treballant en el tema del bertsolarismo. Així, recentment hem presentat en col·laboració amb l'Associació Bertsozale la pissarra digital (amb cercadors de rimes i sinònims, verificadors de mesures, etc.) per a ajudar a la producció de bertsos (pròximament estarà disponible també per a mòbils). Així mateix, en l'àmbit de la creació lingüística s'està treballant en la creació automàtica de versos. Encara que hem fet els primers passos, abans de fer passos més decidits hem tractat d'analitzar els bertsos detalladament, ja que la seva anàlisi exhaustiva pot comportar una millor creació.
Per a la realització d'aquests estudis s'ha basat en el corpus recopilat i classificat pel Centre de Documentació Xenpelar. El corpus utilitzat per nosaltres abasta els bertsos dels principals tornejos celebrats entre 1986 i 2009. Aquest corpus està compost per 6.887 versos classificats en 2.600 versos. Tal com es pot observar en la figura 1, cada vegada són més els versos --i per tant els versos - guardats en la base de dades.
L'anàlisi s'ha realitzat a diferents nivells, tenint en compte les principals característiques del vers: rimes, mesures, melodies, paraules, categories morfosintàctiques i ús del basc unificat.
Rimes
Per a analitzar quines són les rimes i els peus més utilitzats, hem tingut en compte mesures que només rimes en línies pareixes, ja que amb aquesta mena de versos aconseguíem el 94% del corpus i que la necessitat d'aconseguir rimes de mesures més irregulars afegia una complexitat que no valia la pena per a aquest estudi.
Com es pot observar en la taula de la figura 2, el campionat no sempre és el mateix per a les rimes més utilitzades, encara que la tendència a utilitzar unes és major que unes altres (per exemple, la rima eBGD apareix en la primera posició).
Prenent el corpus íntegrament (tenint en compte tots els versos dels set tornejos), també hem estudiat quines són les rimes i els peus més utilitzats (dades que es poden veure en la figura 3; el número que apareix a l'esquerra dels peus indica la proporció en la qual s'ha utilitzat aquest peu en aquesta rima, per exemple, en el 13,27% dels casos en els quals s'ha utilitzat la rima “ela” el peu seleccionat ha estat "vespra"). Cal tenir en compte que en el corpus la majoria dels versos pertanyen als dos últims tornejos, per la qual cosa les dades d'aquests dos tornejos tindran major pes en aquestes mesures.
D'altra banda, els tres peus que més es repeteixen en tot el corpus i, per tant, els més utilitzats són les paraules "vespra", "sense" i "mirant".
Mesures
Quant a l'anàlisi de les mesures, hem analitzat quines són les més utilitzades en l'exercici de la presó, únic exercici puntuable que es canta lliurement.
Com es pot observar en la gràfica de la figura 4, la tendència a mesures llargues i especials és cada vegada major, com s'espera. Cal destacar, així mateix, que a partir del campionat de l'any 2001 (segons dades del corpus) no s'ha cantat en el zortziko major, i que en el de l'any 2009 a penes es va utilitzar la desena part (3%). Amb aquestes dades, sembla que en les presons del futur no tindran cabuda el zortziko major i el decimal.
Melodies
En aquest estudi sol s'han tingut en compte els versos que es canten en la melodia lliure, quedant fora les melodies utilitzades en les respostes de punts.
En la figura 5 es pot observar l'evolució en percentatge de l'ús de deu melodies freqüents. Cal destacar l'escàs ús de la coneguda melodia "Trista bizi naiz eta", i el notable auge de les melodies "Haizea dator ifarralde" i "Baserrian jaio naiz". (Nota: No hem tingut en compte el campionat de l'any 1989 perquè gairebé la quarta part dels bertsos que apareixen en el corpus no tenen la melodia documentada.)
Paraules més usades
Quant a les paraules utilitzades per al bertso, en la gràfica de la figura 6 es mostra la proporció en la qual es pot compondre el bertso utilitzant un nombre determinat de lemes. En ell es pot observar que els 500 lemes més utilitzats del corpus de versos són suficients per a formar el 70% d'un vers i els 1.000 lemes més utilitzats per a completar el 80% del vers. Dit d'una manera més clara, un alumne de basc entendria el 70% d'un bertso (sense tenir en compte les traves per l'oralitat ni els límits d'intel·ligibilitat de la sintaxi) en conèixer els 500 lemes més utilitzats en aquest bertso corpus.
D'altra banda, cal dir que aquest corpus de competicions compleix la llei del Zipf. Des del punt de vista del processament de la llengua, la llei de Zipf estableix que si, prenent qualsevol corpus de la llengua natural, la paraula més representada és X vegades, la següent paraula més freqüent apareixerà X /2 vegades i la següent X /4 vegades i la següent X /8 vegades...
Categories morfosintàctiques
També s'han analitzat les categories morfosintàctiques de les paraules per a saber quines són les més utilitzades i veure si s'han produït canvis significatius any rere any.
Com es pot observar en la figura 7, els noms i verbs (incloent els verbs principals, els auxiliars i els sintètics alhora) són els més utilitzats amb diferència. També ens sembla important l'evolució de l'ús dels adjectius, ja que ha baixat el campionat per campionat, encara que la diferència no és molt significativa.
Ús del basc unificat
Finalment, per a conèixer l'ús del basc unificat en el corpus de versos, hem analitzat el corpus amb el lematizador del grup IXA, atesa l'evolució de les paraules que coneix el lematizador.
Com es pot observar en el gràfic 8, el nombre de termes coneguts ha augmentat de campionat en campionat. En el campionat de 2005, amb un 89%, s'observa que encara que en 2009 aquesta proporció descendeix lleugerament, es manté similar. Les raons per les quals els lematizadores del grup IXA no coneixen les paraules poden ser molt diverses, mentre que les nostres estimacions apunten al fet que l'ús del basc batua és el que més ocorre (80%). La resta són noms propis desconeguts (13%), carnestoltes (6%) o errors de transcripció (1%). Segons aquestes dades, no podem assegurar que l'augment de les paraules conegudes es degui a un major ús del basc batua (i no per exemple a un menor ús del castellà), però la nostra intuïció i una mostra que hem analitzat a mà ens ha confirmat la sensació que aquesta és la tendència.
Les mesures dels últims tornejos, en la nostra opinió, suggereixen dos tipus de previsions, si bé les dades que tenim no són prou precisos i ens sembla que és massa aviat per a treure conclusions: aquesta tendència s'invertirà d'ara endavant i els bertsolaris tornaran a utilitzar més el llenguatge dels dialectes; o el límit superior (90%) en l'ús del basc unificat seguirà entorn d'aquest límit. En qualsevol cas, creiem que el més difícil és que l'ús del basc unificat pugi encara més en una activitat oral com el bertsolarismo.
Conclusions
L'anàlisi estadística dels bertsos dels últims set tornejos principals ens ha permès mostrar algunes tendències. Encara que valdrà la pena fer una anàlisi més pausada i exhaustiu d'aquestes dades, el primer també ens ha deixat algunes coses significatives. En l'elecció de la mesura i en l'ús del basc unificat, per exemple, ens ha servit per a confirmar que les intuïcions anteriors eren certes: cada vegada hi ha major propensió a les mesures especials i llargues, i fins i tot en l'ús del basc unificat sembla que l'increment ha estat pràcticament constant. Quant a les melodies, sembla que hi ha una tendència a un ús cada vegada més reduït de les melodies, però en aquestes dades se'ns ha revelat una característica que no ens atrevim a treure conclusions sobre aquest tema.
Es mantenen aquestes tendències en la competició d'enguany o s'inverteixen? I en els següents? Quines altres interpretacions interessants es poden fer a partir del corpus de versos? Quines conseqüències trauria d'analitzar els bertsos que no són de competició? I comparar els de competició amb els de competició?
Encara queda molt per fer en aquest camp, però creiem que la importància de continuar documentant correctament els bertsos per a realitzar una anàlisi exhaustiva de la producció de bertsos és innegable si es vol veure com evolucionen en els pròxims anys les tendències esmentades en aquest article i unes altres que mereixen ser examinades d'una manera més pausada.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia