}

Echa el verso y nosotros lo analizaremos

2013/09/01 Hulden, Mans - EHUko IXA taldeko ikertzailea | Agirrezabal Zabaleta, Manex - EHUko IXA taldeko ikertzailea | Arrieta Kortajarena, Bertol - EHUko IXA taldeko ikertzailea | Astigarraga Pagoaga, Aitzol - EHUko IXA taldeko ikertzailea Iturria: Elhuyar aldizkaria

¿Cuáles son las rimas y los pies más utilizados en los últimos campeonatos? ¿Cuál es la tendencia de los bertsolaris en el ejercicio de la cárcel y cómo ha evolucionado el campeonato? ¿Hay cambios significativos en el uso de las melodías? ¿Cuántas palabras vascas hay que entender para entender un bertso? ¿Ha aumentado el uso del euskera unificado en los últimos Campeonatos Generales de Bertsolaris? En este artículo hemos tratado de responder a preguntas como éstas, tomando como base el corpus de versos de los últimos siete campeonatos de la mano de la Asociación Bertsozale y, en especial, el Centro de Documentación Xenpelar, y tomando como excusa el próximo Campeonato General de Euskal Herria.
Ed. CC/www_wkberri_net

Dentro de los trabajos que se realizan en el grupo IXA de la Facultad de Informática de la UPV/EHU, combinando el lenguaje y la informática, en los últimos años también se está trabajando en el tema del bertsolarismo. Así, recientemente hemos presentado en colaboración con la Asociación Bertsozale la pizarra digital (con buscadores de rimas y sinónimos, verificadores de medidas, etc.) para ayudar a la producción de bertsos (próximamente estará disponible también para móviles). Asimismo, en el ámbito de la creación lingüística se está trabajando en la creación automática de versos. Aunque hemos dado los primeros pasos, antes de dar pasos más decididos hemos tratado de analizar los bertsos en detalle, ya que su análisis exhaustivo puede conllevar una mejor creación.

Para la realización de estos estudios se ha basado en el corpus recopilado y clasificado por el Centro de Documentación Xenpelar. El corpus utilizado por nosotros abarca los bertsos de los principales torneos celebrados entre 1986 y 2009. Este corpus está compuesto por 6.887 versos clasificados en 2.600 versos. Tal y como se puede observar en la figura 1, cada vez son más los versos --y por tanto los versos - guardados en la base de datos.

El análisis se ha realizado a diferentes niveles, teniendo en cuenta las principales características del verso: rimas, medidas, melodías, palabras, categorías morfosintácticas y uso del euskera unificado.

Figura . Versos y versos guardados en la base de datos utilizada para el estudio.

Rimas

Para analizar cuáles son las rimas y los pies más utilizados, hemos tomado en cuenta medidas que sólo rimas en líneas pares, ya que con este tipo de versos conseguíamos el 94% del corpus y que la necesidad de conseguir rimas de medidas más irregulares añadía una complejidad que no merecía la pena para este estudio.

Como se puede observar en la tabla de la figura 2, el campeonato no siempre es el mismo para las rimas más utilizadas, aunque la tendencia a utilizar unas es mayor que otras (por ejemplo, la rima eBGD aparece en la primera posición).

Figura . Rimas más utilizadas en cada competición. Nota: La rima eBDG incluye a la hermana/eda/ega/era, considerada como buena según la ley de bodegero, según la cual las palabras "hermana", "es mejor", "nórrido" y "estilo" riman. Ocurre lo mismo con rimas como el ePTK, el eNM.

Tomando el corpus en su totalidad (teniendo en cuenta todos los versos de los siete torneos), también hemos estudiado cuáles son las rimas y los pies más utilizados (datos que se pueden ver en la figura 3; el número que aparece a la izquierda de los pies indica la proporción en la que se ha utilizado ese pie en esa rima, por ejemplo, en el 13,27% de los casos en los que se ha utilizado la rima “ela” el pie seleccionado ha sido "víspera"). Hay que tener en cuenta que en el corpus la mayoría de los versos pertenecen a los dos últimos torneos, por lo que los datos de estos dos torneos tendrán mayor peso en estas medidas.

Por otra parte, los tres pies que más se repiten en todo el corpus y, por tanto, los más utilizados son las palabras "víspera", "sin" y "mirando".

Medidas

Figura . Rimas más utilizadas en todos los torneos.

En cuanto al análisis de las medidas, hemos analizado cuáles son las más utilizadas en el ejercicio de la cárcel, único ejercicio puntuable que se canta libremente.

Como se puede observar en la gráfica de la figura 4, la tendencia a medidas largas y especiales es cada vez mayor, como se espera. Cabe destacar, asimismo, que a partir del campeonato del año 2001 (según datos del corpus) no se ha cantado en el zortziko mayor, y que en el del año 2009 apenas se utilizó la décima parte (3%). Con estos datos, parece que en las cárceles del futuro no tendrán cabida el zortziko mayor y el decimal.

Melodías

Figura . Medidas utilizadas en el ejercicio de la cárcel.

En este estudio solo se han tenido en cuenta los versos que se cantan en la melodía libre, quedando fuera las melodías utilizadas en las respuestas de puntos.

En la figura 5 se puede observar la evolución en porcentaje del uso de diez melodías frecuentes. Cabe destacar el escaso uso de la conocida melodía "Triste bizi naiz eta", y el notable auge de las melodías "Haizea dator ifarralde" y "Baserrian jaio naiz". (Nota: No hemos tenido en cuenta el campeonato del año 1989 porque casi la cuarta parte de los bertsos que aparecen en el corpus no tienen la melodía documentada.)

Palabras más usadas

En cuanto a las palabras utilizadas para el bertso, en la gráfica de la figura 6 se muestra la proporción en la que se puede componer el bertso utilizando un número determinado de lemas. En él se puede observar que los 500 lemas más utilizados del corpus de versos son suficientes para formar el 70% de un verso y los 1.000 lemas más utilizados para completar el 80% del verso. Dicho de una manera más clara, un alumno de euskera entendería el 70% de un bertso (sin tener en cuenta las trabas por la oralidad ni los límites de inteligibilidad de la sintaxis) al conocer los 500 lemas más utilizados en este bertso corpus.

Figura . Evolución del uso de 10 melodías.

Por otro lado, hay que decir que este corpus de competiciones cumple la ley del Zipf. Desde el punto de vista del procesamiento de la lengua, la ley de Zipf establece que si, tomando cualquier corpus de la lengua natural, la palabra más representada es X veces, la siguiente palabra más frecuente aparecerá X /2 veces y la siguiente X /4 veces y la siguiente X /8 veces...

Categorías morfosintácticas

También se han analizado las categorías morfosintácticas de las palabras para saber cuáles son las más utilizadas y ver si se han producido cambios significativos año tras año.

Figura . Proporción de los lemas más utilizados en los versos.

Como se puede observar en la figura 7, los nombres y verbos (incluyendo los verbos principales, los auxiliares y los sintéticos a la vez) son los más utilizados con diferencia. También nos parece importante la evolución del uso de los adjetivos, ya que ha bajado el campeonato por campeonato, aunque la diferencia no es muy significativa.

Uso del euskera unificado

Por último, para conocer el uso del euskera unificado en el corpus de versos, hemos analizado el corpus con el lematizador del grupo IXA, atendiendo a la evolución de las palabras que conoce el lematizador.

Figura . Categorías morfosintácticas de las palabras usadas en los versos.

Como se puede observar en el gráfico 8, el número de términos conocidos ha aumentado de campeonato en campeonato. En el campeonato de 2005, con un 89%, se observa que aunque en 2009 esta proporción desciende ligeramente, se mantiene similar. Las razones por las que los lematizadores del grupo IXA no conocen las palabras pueden ser muy diversas, mientras que nuestras estimaciones apuntan a que el uso del euskera batua es el que más ocurre (80%). El resto son nombres propios desconocidos (13%), carnavales (6%) o errores de transcripción (1%). Según estos datos, no podemos asegurar que el aumento de las palabras conocidas se deba a un mayor uso del euskera batua (y no por ejemplo a un menor uso del castellano), pero nuestra intuición y una muestra que hemos analizado a mano nos ha confirmado la sensación de que esa es la tendencia.

Las medidas de los últimos torneos, en nuestra opinión, sugieren dos tipos de previsiones, si bien los datos que tenemos no son lo suficientemente precisos y nos parece que es demasiado pronto para sacar conclusiones: esa tendencia se invertirá en adelante y los bertsolaris volverán a utilizar más el lenguaje de los dialectos; o el límite superior (90%) en el uso del euskera unificado seguirá en torno a ese límite. En cualquier caso, creemos que lo más difícil es que el uso del euskera unificado suba aún más en una actividad oral como el bertsolarismo.

Conclusiones

Figura . Proporción de palabras conocidas por el lematizador del grupo IXA.

El análisis estadístico de los bertsos de los últimos siete torneos principales nos ha permitido mostrar algunas tendencias. Aunque merecerá la pena hacer un análisis más pausado y exhaustivo de estos datos, el primero también nos ha dejado algunas cosas significativas. En la elección de la medida y en el uso del euskera unificado, por ejemplo, nos ha servido para confirmar que las intuiciones anteriores eran ciertas: cada vez hay mayor propensión a las medidas especiales y largas, e incluso en el uso del euskera unificado parece que el incremento ha sido prácticamente constante. En cuanto a las melodías, parece que hay una tendencia a un uso cada vez más reducido de las melodías, pero en estos datos se nos ha revelado una característica que no nos atrevemos a sacar conclusiones al respecto.

¿Se mantienen estas tendencias en la competición de este año o se invierten? ¿Y en los siguientes? ¿Qué otras interpretaciones interesantes se pueden hacer a partir del corpus de versos? ¿Qué consecuencias sacaría de analizar los bertsos que no son de competición? ¿Y comparar los de competición con los de competición?

Todavía queda mucho por hacer en este campo, pero creemos que la importancia de seguir documentando correctamente los bertsos para realizar un análisis exhaustivo de la producción de bertsos es innegable si se quiere ver cómo evolucionan en los próximos años las tendencias mencionadas en este artículo y otras que merecen ser examinadas de una manera más pausada.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia