}

Lengua Vasca e Ingeniería Lingüística

2002/11/22 Sarasola, Kepa

En la Semana de la Ciencia y la Tecnología, el miércoles fue el día de las tecnologías de la información y la comunicación. Entonces el doctor Kepa Sarasola y profesor de la UPV habló sobre el euskera y las tecnologías de la información y la comunicación (TICS). Nos ha remitido un resumen de su intervención y queremos agradecérselo desde aquí.

Pasos para organizar la industria lingüística

A medio plazo la comunicación entre personas y máquinas se podrá realizar en nuestro idioma, no en el de máquinas. No cabe duda de que el lenguaje natural es la clave de nuestra vida cotidiana. No y cuando decimos que su tratamiento computacional se está haciendo cada vez más importante. Cada día las bases de datos documentales van creciendo, cambiando las formas de relacionarse con los ordenadores y digitalizando todos los sistemas multimedia. En consecuencia, se nos hace imprescindible explorar vías para trabajar informáticamente el lenguaje natural. Sin duda, las tecnologías lingüísticas son fundamentales en lo que denominamos sociedad de la información y la comunicación.

Estas herramientas serán limitadas y trabajarán siempre con un grado de error, pero sin embargo nos ayudarán mucho. Por un lado, serán económicamente rentables; es más barato corregir un borrador de traducción con errores que traducir todo el texto. Por otro lado, estas herramientas permitirán mejorar la comunicación entre los seres humanos (por ejemplo, hablar por teléfono con una persona que utiliza otro idioma, traduciendo las palabras una a una por un sistema).

En la actualidad existen varias aplicaciones lingüísticas disponibles: correctores ortográficos y estilísticos, consultas de vocabulario on-line, ayudas a la traducción, buscadores para Internet, sistemas que convierten el habla en texto, lectores de textos, sistemas de aprendizaje de segunda lengua, etc.

Sin embargo, la mayoría de este tipo de sistemas funcionan únicamente en inglés, no en otros idiomas. Las otras lenguas tienen que hacer un gran esfuerzo para no quedarse atrás, más aún el euskera y el resto de lenguas minoritarias.

Si nos fijamos en la página de Internet del servicio Natural Language Software Registry, recibiremos información sobre el programa 167 disponible en la actualidad para trabajar idiomas (ver figura 1). De ellas, el 75% están disponibles en inglés y sólo un 30% pueden utilizarse en cualquier idioma. La mayoría de las aplicaciones que se pueden encontrar en el mercado tienen como objetivo lenguas “grandes”, principalmente el inglés, pero también, aunque en segundo plano, el francés, el alemán y el español.

Figura .

Aplicación de la ingeniería lingüística

En casi 50 años de historia del PTP se han producido grandes altibajos. A los momentos eufóricos en los que se consideraba que estaban a punto de alcanzar objetivos fascinantes, se han seguido en varias ocasiones momentos pragmáticos para bajar los oídos y limitarlos a objetivos más bajos pero asequibles. El día que las computadoras comprenderán el idioma tal y como lo entendemos las personas sigue lejos, pero eso no significa que no se puedan hacer aplicaciones interesantes y muy útiles.

Sin embargo, para el desarrollo de estas aplicaciones es necesario partir de una base sólida. En general, podemos representar la estructura de las tecnologías lingüísticas con una especie de pirámide.

En la base de esta pirámide se encuentran los recursos básicos necesarios para trabajar en ingeniería lingüística. Estos recursos nos permitirán desarrollar herramientas que, una vez desarrolladas, nos permitan lanzar productos comerciales que trabajen en diferentes áreas de la ingeniería lingüística. Hay que tener en cuenta, sin embargo, que el camino inverso no es posible si no queremos construir la casa por el tejado.

¿Qué infraestructura es necesaria para desarrollar aplicaciones?

Las aplicaciones, por supuesto. Vivimos en una sociedad multilingüe y soñamos con herramientas que nos ayuden a ese plurilingüismo: traducción automática al euskera, conocimiento del
habla, correctores de estilo. Pero si llegamos a crearlos, primero necesitaremos una base sólida. Por ejemplo, para el desarrollo de una herramienta semi-automática que pueda ayudar a los traductores, debemos desarrollar en primer lugar una serie de recursos y herramientas.

En el caso del euskera, las principales herramientas y recursos básicos que hemos desarrollado hasta el momento son:

Herramientas

  • Una herramienta que nos convierte en texto escrito. En el País Vasco existen dos o tres grupos de investigación que trabajan en este tema -uno en la Escuela de Ingeniería de Bilbao, el Consejo, otro en la Facultad de Ciencias de Leioa.
  • Analizador morfológico. En todas las lenguas es necesario y imprescindible en el euskera, ya que es una lengua flexionada y pegatina. La función del analizador (y sintetizador) morfológico
    es conocer (y componer) los morfemas que forman la forma de palabra y proporcionar la información morfológico-lexical correspondiente a cada morfema. Esta herramienta se basa en aplicaciones como corrector ortográfico, reconocimiento de caracteres óptico (OCR) y aplicaciones más sofisticadas como la traducción automática. El analizador/sintetizador
    morfológico general para el euskera está realizado y Xuxen es la esencia del corrector ortográfico en euskera.
  • Lematizador/etiquetador. El lematizador/etiquetador deriva del analizador morfológico y proporciona el lema y la categoría de una forma de palabra para evitar o reducir la ambigüedad en el contexto.
    Aunque la tarea principal es la desambiguación, otra de las tareas que tiene un instrumento de este tipo es la identificación de unidades léxicas plurilingües (locuciones, uniones de palabras, nombres de personas, etc.). ). Las aplicaciones de los lematizadores son muy interesantes: indexación —en buscadores de Internet, p. ej.—, terminología y lexicografía, etc. El lematizador general de euskera ha sido denominado EusLem y ya está implantado en varios buscadores de internet.
  • Analizador sintáctico. La función de los analizadores sintácticos es conocer los componentes sintácticos de los textos: oraciones, sintagmas
    nominales, nombres y amigos, etc. El análisis se basará en el léxico y la gramática, que definirán las características de las palabras y las posibles composiciones de las estructuras sintácticas. También es una herramienta imprescindible en muchas aplicaciones lingüísticas, como la traducción automática. En el caso del euskera, hemos elaborado un analizador sintáctico general de superficie EusMG —, y los estudios que nos dará el árbol sintáctico completo están bastante avanzados.

Recursos y fundamentos lingüísticos

Necesitamos primero herramientas para desarrollar aplicaciones, pero su base son los recursos. Las principales son:

  • Base de datos lexical y descripción de la morfología. La base de datos lexical del euskera EDBL recoge en la actualidad cerca de 75.000 entradas.
  • Diccionarios electrónicos. Sobre la base de una base de datos lexical general de la lengua se pueden agrupar otras herramientas lexicales como diccionarios de definición, diccionarios terminológicos especializados, diccionarios bilingües, etc.
  • Gramáticas computacionales: descripciones de la sintaxis. En el caso del euskera, además, hay que tener en cuenta la estrecha relación entre morfología y sintaxis. Esto nos ha llevado a integrar el tratamiento morfosintáctico en el analizador morfológico, resultado de un analizador morfosintáctico general llamado Morfeus.
  • Taxonomías semánticas. Sin embargo, cuando se trata de comprender el lenguaje no es suficiente con la morfología y la sintaxis, ya que el programa también tiene que conocer la semántica. Estas relaciones léxico-semánticas se expresan explícitamente en una especie de red semántica. Entre las redes semánticas en inglés tenemos la conocida como WordNet y su adaptación al euskera se llama Euskal WordNet.
  • Corpus textuales. Los corpus textuales son grandes masas de texto, la principal fuente de información lingüística, y los probadores imprescindibles para las aplicaciones, herramientas y bases antes mencionadas

Como se ha mencionado anteriormente, sin estos recursos y herramientas básicas, no seremos capaces de desarrollar las aplicaciones que perseguimos.

En el caso del euskera tenemos herramientas y recursos, pero si queremos ver las tecnologías lingüísticas como el inglés, todavía tenemos un largo camino por recorrer.

Conclusiones

Hay productos que combinan el euskera y el software. En el Catálogo de Software del Euskera se han recogido 105. 26 de ellos están relacionados con la industria de la lengua. Eso no es nada, pero sí muy poco; tenemos que hacer un gran esfuerzo para que el euskera no se quede atrás en este mundo de la sociedad de la información.

Cada una de las bases lingüísticas que crearemos en nuestro camino, cada una de las herramientas y aplicaciones deberá estar bien diseñada para que sea útil en los siguientes productos.

Con el objetivo de trabajar en la investigación y desarrollo de la ingeniería lingüística y crear una industria sólida a nivel internacional, hemos diseñado una estrategia a medio plazo basada en 15 años de experiencia del Grupo IXA.

Equipos de investigación, industria y organismos oficiales deben coordinarse para lograr este objetivo.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia