Recursos lingüísticos en Internet
1998/12/01 Artola, Xabier Iturria: Elhuyar aldizkaria
Os programas que realizan o tratamento da linguaxe a través do computador son cada vez máis numerosos. A comunicación cos computadores a través das linguas naturais (en eúscaro no noso caso) será cada vez máis frecuente. Doutra banda, o computador convértese nunha persoa especial paira paliar os desprazamentos desta sociedade multilingüe entre as linguas.
Ademais, o enorme avance experimentado nas telecomunicacións (sobre todo os fenómenos de Internet) incrementou a necesidade dun tratamento automático da linguaxe. De feito, a través da rede pódese obter moita información, pero non é fácil atopar ese dato concreto que necesitamos. Neste traballo o tratamento lingüístico non é máis que auxiliar.
O campo de investigación sobre o tratamento automático da linguaxe denominámolo Procesamiento da Linguaxe Natural (LNP). Está a crearse toda una nova industria ao redor da lingua, cuxo obxectivo é tratar a linguaxe a través do computador. Xa se fala de tecnoloxía lingüística, enxeñaría lingüística. Os seus principais campos de aplicación son catro: i) Edición de textos ou xestión textual (correctores ortográficos e estilísticos, axudas á creación e uso de textos multilingües, consultas de dicionarios, ...); ii) Tratamento e xestión de grandes masas de texto (procura de conceptos, clasificación documental, extracción de información e creación automática de textos); iii) Tradución automática ou tradución asistida, e iv) Coñecemento e creación da lingua.
No grupo IXA traballamos durante dez anos nesta materia, sempre desde o punto de vista do eúscaro. Sumando os membros da Facultade de Informática de Donostia da UPV-EHU e os de UZEI somos un total de 21 persoas. A nosa estratexia nunca foi facer un sistema moi complexo, por exemplo, facer un sistema de tradución. Preferimos empezar por obxectivos sinxelos pero fundamentais, como a morfología, entendida como un problema demasiado simple paira outras linguas, e construír nese camiño unhas bases lingüísticas amplas e sólidas.
Máis tarde acometemos proxectos máis complexos como a lematización, a sintaxe ou o uso de dicionarios, pero traballar sobre unha base ampla construída con anterioridade afórranos tempo e dá consistencia a novos produtos. Dado que os nosos recursos lingüísticos poden ser tamén de utilidade paira outros colectivos, decidimos difundir a “exposición electrónica”, que é o obxectivo do proxecto que presentamos neste artigo. O proxecto foi aprobado na convocatoria de 1997 de proxectos de investigación Universidade-Empresa do Goberno Vasco (referencia UE97/8) e desenvolverase durante os anos 1998-99.
Os recursos que queremos situar en Internet a medio prazo son a base de datos lexical, o corrector ortográfico, o analizador morfológico, o lematizador e o analizador sintáctico. Pero neste primeiro paso só aparecerán as tres primeira.O proxecto está en marcha e xa se poden realizar probas con corrector ortográfico na dirección http://ixa.si.ehu.es/tresna (ver as pantallas de computador que aparecen en leste mesmo artigo ou velas directamente no teu computador).
Proba a introducir as túas palabras descoñecidas no teu vocabulario persoal e comproba que a partir de aí tamén coñecerá outras formas de declinación desas palabras.
Paira finalizar, explicaremos que é a Base de Datos Lexical do Eúscaro (EDBL) que se menciona en nome do proxecto. A base de datos lexical é un gran almacén de léxico. Trátase dunha especie de dicionario electrónico, concibido paira o tratamento automático da lingua e, por tanto, organizado tendo en conta as esixencias dese obxectivo de automatizar o tratamento da lingua. Isto esixe, por suposto, que a organización do léxico realícese tendo en conta o uso que se vai a facer posteriormente, e una sistematización da descrición léxica: utilización dun sistema de categorías de ingresos unificado e homoxéneo, a definición das características necesarias paira describir correctamente os elementos de cada categoría, etc.
No caso do eúscaro, a necesidade deste tipo de almacén de léxico xurdiu cando comezamos a preparación do corrector ortográfico Xuxen no grupo IXA. Como se comentou anteriormente, este corrector era máis básico por nós como subproducto do analizador morfológico, e tampouco quixemos organizar a base de datos lexical como un dicionario ou una simple lista de palabras paira ese corrector, senón como base lexical sólida paira calquera outra ferramenta ou aplicación no ámbito do tratamento automático do eúscaro no futuro. E así xurdiu o EDBL, a Base de Datos Lexical do Eúscaro, que desde entón foi a base lexical paira os nosos traballos, que se foi actualizando constantemente, e que hoxe ou mañá abrirá as súas portas a unha comunidade máis ampla, co fin de que as bases véxanse tamén aproveitadas por outros.
Á hora de deseñar a base de datos déuselle gran importancia, pois, a ser o suficientemente flexible paira aceptar posibles ampliacións futuras e, en particular, a describir da forma máis neutral posible a información lingüística contida na mesma, é dicir, da maneira máis independente posible dos formalismos ou teorías lingüísticas.
EDBL agrupa na actualidade preto de 70.000 entradas, clasificadas en tres grandes apartados: entradas de dicionario (nomes, adxectivos, verbos, etc.). ), verbos (formas verbais xogadas) e morfemas non independentes (sufijos, prefixos, etc. ).
Rexístranse as características ou atributos predefinidos de cada categoría de entrada, describindo en todos os casos, como xa se mencionou anteriormente, a morfología de entrada (información morfotáctica) mediante un formalismo a dous niveis amplamente utilizado na morfología computacional.
Actualmente o EDBL está baixo un sistema comercial de xestión de bases de datos que ofrece ao lingüista as facilidades habituais neste tipo de sistemas, xa que son os lingüistas os seus principais usuarios: una interfaz agradable paira o traballo, facilidades paira manter a información ao día e garantir a súa consistencia, posibilidades de filtrar adecuadamente a información paira as aplicacións necesarias, etc. A base de datos converteuse tamén nunha ferramenta imprescindible paira manter actualizados os últimos acontecementos acaecidos no proceso de unificación do eúscaro, especialmente as decisións de Euskaltzaindia, e una das tarefas importantes que pode desempeñar no futuro EDBL pode ser ser ser a ferramenta que dea conta das últimas decisións.
- Título do proxecto: Contorna de uso público da Base de Datos Lexical do Eúscaro (EDBL).
- Obxectivo do proxecto: Difusión en Internet do uso dalgúns produtos do grupo IXA paira a súa incorporación ao eúscaro.
- Director: Xabier Artola Zubillaga.
- Equipo de traballo: Grupo IXA E. Agirre, I. Aldezabal, I. Alegria, Ou. Ansa, X. Arregi, J.M. Arriola, X. Artola, A. Díaz de Ilraza, N. Ezeiza, K. Gojenola,J.M. Intxausti, M. Lersundi, A. Maritxal,M. Maritxalar, M. Oronoz, K. Sarasola, A. Soroa, R. Urizar e M. Bidueiro.
- Departamento: Linguaxes e Sistemas Informáticos
- Centro: Informática da UPV-EHU (Donostia)
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia