}

Recursos lèxic-semàntics per a la indústria lingüística

2000/08/01 Díaz de Ilarraza, Arantza | Arriola Jose Maria Iturria: Elhuyar aldizkaria

S'està creant una nova indústria entorn de la llengua, l'objectiu de la qual és tractar la llengua amb la computadora. Perquè aquest camp avanci, són necessaris recursos lexicals que aportin significat a les paraules. En els criteris del programa Language Engineering de la Unió Europea es destaca el paper fonamental dels recursos lexicals.

El projecte Hiztegia 2002, que compta també amb el suport de la Unió Europea (FEDER, 2FD97-2000-2001), està relacionat amb els següents projectes que han tingut com a objectiu la creació de recursos lexicals: Wordnet, EuroWortdnet i ITEM. Amb aquest projecte, el grup IXA pretén:

  • Versió estructurada del Diccionari Basc seguint les directrius de TEI (Text Encoding Initiative). S'utilitzarà el llenguatge estàndard SGML (Standard Generalized Markup Language).
  • Base de coneixement lexical del Diccionari Basc: composta de relacions semàntiques extretes d'aquest.
  • Euskal Wordnet: Adaptació d'EuroWordnet relacionant els conceptes d'anglès amb els de basc.

La creació d'aquests recursos té com a objectiu desenvolupar, entre altres, els següents productes comercials:

  • Versió electrònica estructurada del Diccionari Basc (integrada en CD-ROM, Internet i/o processadors de text)
  • Un tesaurus per al basc integrat en processadors de textos: per a poder consultar les relacions entre sinonímia, hiperonímia, hiponímia i altres conceptes.

Històricament, els recursos lexicals es feien a mà, però tenint en compte que la quantitat d'informació que s'havia de treballar requeria d'un gran esforç, en l'última dècada s'ha iniciat el camí de les ajudes automàtiques o semiautomàtiques. A partir de la informació continguda en els diccionaris i corpus s'han elaborat bases de coneixement lexicals (LAE). La LAE disposa de recursos lexicals estructurats amb informació sobre paraules i accepcions. Per exemple, en l'EBL Wordnet, que es distribueix gratuïtament, cada accepció en anglès s'expressa amb un conjunt de paraules sinònimes (el synset) i totes les accepcions estan jerarquitzades. EuroWordnet és un altre LBL del mateix disseny que s'ha estès a vuit llengües europees (alemany, espanyol, estonià, francès, anglès, italià, holandès i txec). Atès que la majoria dels EBL s'han creat per a l'anglès, la resta de llengües es troben en una situació de vulnerabilitat enfront de les noves tecnologies. Per a fer front a aquesta situació veiem dues solucions complementàries:

1. Creació d'EBL a partir de corpus i diccionaris disponibles per a cada llengua. En el nostre cas, com a font lexical. Hem utilitzat el Diccionari Basc. El primer treball ha consistit a estructurar el Diccionari Basc seguint els estàndards SGML-TEI. Així, el basc serà útil per a qualsevol persona que estigui estudiant o tingui una eina de treball. Analitzant les definicions d'aquesta versió estructurada, obtindrem una sèrie de relacions lèxic-semàntiques: sinonímia, hiperonímia (relació classe-sub-classe; per exemple: animal insecte), meronimia (relació osoa-part; per exemple: txori-moko), etc.

2. Utilitzar els BLRs elaborats en anglès per a crear BLRU per a altres llengües. En el nostre cas, partint d'EuroWordnet volem fer Wordnet per al basc, relacionant els conceptes d'anglès amb els de basc. Per a fer aquest Wordnet al basc utilitzarem mètodes semiautomàtics, però després pentinarem els resultats manualment.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia