}

Ressources lexico-sémantiques pour l'industrie linguistique

2000/08/01 Díaz de Ilarraza, Arantza | Arriola Jose Maria Iturria: Elhuyar aldizkaria

Une nouvelle industrie est créée autour de la langue, dont le but est de traiter la langue avec l'ordinateur. Pour faire avancer ce champ, il faut des ressources lexicales qui apportent une signification aux mots. Les critères du programme Language Engineering de l'Union européenne soulignent le rôle fondamental des ressources lexicales.

Le projet Hiztegia 2002, qui bénéficie également du soutien de l'Union européenne (FEDER, 2FD97-2000-2001), est lié aux projets suivants qui ont visé la création de ressources lexicales: Wordnet, EuroWortdnet et ITEM. Avec ce projet, le groupe IXA entend:

  • Version structurée du Dictionnaire Basque selon les directives de TEI (Text Encoding Initiative). Le langage standard SGML (Standard Generalized Markup Language) sera utilisé.
  • Base de connaissance lexicale du Dictionnaire Basque: composée de relations sémantiques tirées de celui-ci.
  • Euskal Wordnet: Adaptation d'EuroWordnet en reliant les concepts d'anglais à ceux d'euskera.

La création de ces ressources vise à développer, entre autres, les produits commerciaux suivants:

  • Version électronique structurée du Dictionnaire Basque (intégrée en CD-ROM, Internet et/ou processeurs de texte)
  • Un thésaurus pour l'euskera intégré dans les processeurs de textes: pour pouvoir consulter les relations entre synonymie, hyperonymie, hyponymie et autres concepts.

Historiquement, les ressources lexicales étaient faites à la main, mais étant donné que la quantité d'information à travailler nécessitait un grand effort, dans la dernière décennie a commencé le chemin des aides automatiques ou semi-automatiques. A partir des informations contenues dans les dictionnaires et corpus, des bases de connaissances lexicales ont été élaborées (LAE). La LAE dispose de ressources lexicales structurées avec des informations sur les mots et les acceptions. Par exemple, dans l'EBL Wordnet, qui est distribué gratuitement, chaque acception en anglais est exprimée avec un ensemble de mots synonymes (le synset) et toutes les acceptions sont hiérarchisées. EuroWordnet est un autre LBL du même design qui s'est étendu à huit langues européennes (allemand, espagnol, estonien, français, anglais, italien, néerlandais et tchèque). Comme la plupart des EBL ont été créés pour l'anglais, les autres langues sont dans une situation de vulnérabilité face aux nouvelles technologies. Pour faire face à cette situation, nous voyons deux solutions complémentaires:

1. Création d'EBL à partir de corpus et dictionnaires disponibles pour chaque langue. Dans notre cas, comme source lexicale. Nous avons utilisé le Dictionnaire Basque. Le premier travail a consisté à structurer le Dictionnaire Basque selon les normes SGML-TEI. Ainsi, l'euskera sera utile pour toute personne qui étudie ou a un outil de travail. En analysant les définitions de cette version structurée, nous obtiendrons une série de relations lexico-sémantiques: synonymie, hyperonymie (relation classe-sous-classe; par exemple: animal insecte), meronymie (relation osoa-partie; par exemple: txori-moko), etc.

2. Utiliser les BLR élaborés en anglais pour créer BLRU pour d'autres langues. Dans notre cas, en partant d'EuroWordnet nous voulons faire Wordnet pour l'euskera, en reliant les concepts d'anglais à ceux d'euskera. Pour faire ce Wordnet au basque, nous utiliserons des méthodes semi-automatiques, mais ensuite nous peignerons les résultats manuellement.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia