}

Lingua Vasca e Enxeñaría Lingüística

2002/11/22 Sarasola, Kepa

Na Semana da Ciencia e a Tecnoloxía, o mércores foi o día das tecnoloxías da información e a comunicación. Entón o doutor Kepa Sarasola e profesor da UPV falou sobre o eúscaro e as tecnoloxías da información e a comunicación (TICS). Remitiunos un resumo da súa intervención e queremos agradecerllo desde aquí.

Pasos paira organizar a industria lingüística

A medio prazo a comunicación entre persoas e máquinas poderase realizar no noso idioma, non no de máquinas. Non cabe dúbida de que a linguaxe natural é a clave da nosa vida cotiá. Non e cando dicimos que o seu tratamento computacional está a facerse cada vez máis importante. Cada día as bases de datos documentais van crecendo, cambiando as formas de relacionarse cos computadores e dixitalizando todos os sistemas multimedia. En consecuencia, fáisenos imprescindible explorar vías paira traballar informáticamente a linguaxe natural. Sen dúbida, as tecnoloxías lingüísticas son fundamentais no que denominamos sociedade da información e a comunicación.

Estas ferramentas serán limitadas e traballarán sempre cun grao de erro, pero con todo axudarannos moito. Por unha banda, serán economicamente rendibles; é máis barato corrixir un borrador de tradución con erros que traducir todo o texto. Doutra banda, estas ferramentas permitirán mellorar a comunicación entre os seres humanos (por exemplo, falar por teléfono cunha persoa que utiliza outro idioma, traducindo as palabras una a unha por un sistema).

Na actualidade existen varias aplicacións lingüísticas dispoñibles: correctores ortográficos e estilísticos, consultas de vocabulario on-line, axudas á tradución, buscadores paira Internet, sistemas que converten a fala en texto, lectores de textos, sistemas de aprendizaxe de segunda lingua, etc.

Con todo, a maioría deste tipo de sistemas funcionan unicamente en inglés, non noutros idiomas. As outras linguas teñen que facer un gran esforzo paira non quedar atrás, máis aínda o eúscaro e o resto de linguas minoritarias.

Se nos fixamos na páxina de Internet do servizo Natural Language Software Registry, recibiremos información sobre o programa 167 dispoñible na actualidade paira traballar idiomas (ver figura 1). Delas, o 75% están dispoñibles en inglés e só un 30% poden utilizarse en calquera idioma. A maioría das aplicacións que se poden atopar no mercado teñen como obxectivo linguas “grandes”, principalmente o inglés, pero tamén, aínda que en segundo plano, o francés, o alemán e o español.

Figura .

Aplicación da enxeñaría lingüística

En case 50 anos de historia do PTP producíronse grandes altibaixos. Aos momentos eufóricos nos que se consideraba que estaban a piques de alcanzar obxectivos fascinantes, seguíronse en varias ocasiones momentos pragmáticos paira baixar os oídos e limitalos a obxectivos máis baixos pero alcanzables. O día que as computadoras comprenderán o idioma tal e como o entendemos as persoas segue lonxe, pero iso non significa que non se poidan facer aplicacións interesantes e moi útiles.

Con todo, paira o desenvolvemento destas aplicacións é necesario partir dunha base sólida. En xeral, podemos representar a estrutura das tecnoloxías lingüísticas cunha especie de pirámide.

Na base desta pirámide atópanse os recursos básicos necesarios paira traballar en enxeñaría lingüística. Estes recursos permitirannos desenvolver ferramentas que, una vez desenvolvidas, permítannos lanzar produtos comerciais que traballen en diferentes áreas da enxeñaría lingüística. Hai que ter en conta, con todo, que o camiño inverso non é posible si non queremos construír a casa polo tellado.

Que infraestrutura é necesaria paira desenvolver aplicacións?

As aplicacións, por suposto. Vivimos nunha sociedade multilingüe e soñamos con ferramentas que nos axuden a ese plurilingüismo: tradución automática ao eúscaro, coñecemento da
fala, correctores de estilo. Pero si chegamos a crealos, primeiro necesitaremos una base sólida. Por exemplo, paira o desenvolvemento dunha ferramenta semi-automática que poida axudar aos tradutores, debemos desenvolver en primeiro lugar una serie de recursos e ferramentas.

No caso do eúscaro, as principais ferramentas e recursos básicos que desenvolvemos até o momento son:

Ferramentas

  • Una ferramenta que nos converte en texto escrito. No País Vasco existen dous ou tres grupos de investigación que traballan neste tema -uno na Escola de Enxeñaría de Bilbao, o Consello, outro na Facultade de Ciencias de Leioa.
  • Analizador morfológico. En todas as linguas é necesario e imprescindible no eúscaro, xa que é una lingua flexionada e adhesivo. A función do analizador (e sintetizador) morfológico
    é coñecer (e compor) os morfemas que forman a forma de palabra e proporcionar a información morfológico-lexical correspondente a cada morfema. Esta ferramenta baséase en aplicacións como corrector ortográfico, recoñecemento de caracteres óptico (OCR) e aplicacións máis sofisticadas como a tradución automática. O analizador/sintetizador
    morfológico xeral paira o eúscaro está realizado e Xuxen é a esencia do corrector ortográfico en eúscaro.
  • Lematizador/etiquetador. O lematizador/etiquetador deriva do analizador morfológico e proporciona a lema e a categoría dunha forma de palabra paira evitar ou reducir a ambigüidade no contexto.
    Aínda que a tarefa principal é a desambiguación, outra das tarefas que ten un instrumento deste tipo é a identificación de unidades léxicas plurilingües (locuciones, unións de palabras, nomes de persoas, etc.). ). As aplicacións dos lematizadores son moi interesantes: indexación —en buscadores de Internet, p. ex.—, terminología e lexicografía, etc. O lematizador xeneral de eúscaro foi denominado EusLem e xa está implantado en varios buscadores de internet.
  • Analizador sintáctico. A función dos analizadores sintácticos é coñecer os compoñentes sintácticos dos textos: oracións, sintagmas
    nominais, nomes e amigos, etc. A análise basearase no léxico e a gramática, que definirán as características das palabras e as posibles composicións das estruturas sintácticas. Tamén é una ferramenta imprescindible en moitas aplicacións lingüísticas, como a tradución automática. No caso do eúscaro, elaboramos un analizador sintáctico xeneral de superficie EusMG —, e os estudos que nos dará a árbore sintáctico completo están bastante avanzados.

Recursos e fundamentos lingüísticos

Necesitamos primeiro ferramentas paira desenvolver aplicacións, pero a súa base son os recursos. As principais son:

  • Base de datos lexical e descrición da morfología. A base de datos lexical do eúscaro EDBL recolle na actualidade preto de 75.000 entradas.
  • Dicionarios electrónicos. Sobre a base dunha base de datos lexical xeneral da lingua pódense agrupar outras ferramentas lexicales como dicionarios de definición, dicionarios terminolóxicos especializados, dicionarios bilingües, etc.
  • Gramáticas computacionales: descricións da sintaxe. No caso do eúscaro, ademais, hai que ter en conta a estreita relación entre morfología e sintaxe. Isto levounos a integrar o tratamento morfosintáctico no analizador morfológico, resultado dun analizador morfosintáctico xeneral chamado Morfeus.
  • Taxonomías semánticas. Con todo , cando se trata de comprender a linguaxe non é suficiente coa morfología e a sintaxe, xa que o programa tamén ten que coñecer a semántica. Estas relacións léxico-semánticas exprésanse explicitamente nunha especie de rede semántica. Entre as redes semánticas en inglés temos a coñecida como WordNet e a súa adaptación ao eúscaro chámase Euskal WordNet.
  • Corpus textuais. Os corpus textuais son grandes masas de texto, a principal fonte de información lingüística, e os probadores imprescindibles paira as aplicacións, ferramentas e bases antes mencionadas

Como se mencionou anteriormente, sen estes recursos e ferramentas básicas, non seremos capaces de desenvolver as aplicacións que perseguimos.

No caso do eúscaro temos ferramentas e recursos, pero si queremos ver as tecnoloxías lingüísticas como o inglés, aínda temos un longo camiño por percorrer.

Conclusións

Hai produtos que combinan o eúscaro e o software. No Catálogo de Software do Eúscaro recolléronse 105. 26 deles están relacionados coa industria da lingua. Iso non é nada, pero si moi pouco; temos que facer un gran esforzo para que o eúscaro non quede atrás neste mundo da sociedade da información.

Cada una das bases lingüísticas que crearemos no noso camiño, cada una das ferramentas e aplicacións deberá estar ben deseñada para que sexa útil nos seguintes produtos.

Co obxectivo de traballar na investigación e desenvolvemento da enxeñaría lingüística e crear una industria sólida a nivel internacional, deseñamos una estratexia a medio prazo baseada en 15 anos de experiencia do Grupo IXA.

Equipos de investigación, industria e organismos oficiais deben coordinarse paira lograr este obxectivo.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia