Primeira versión en Internet do Corpus de Ciencia e Tecnoloxía
2006/12/01 Gurrutxaga Hernaiz, Antton - Elhuyar Hizkuntza Zerbitzuak Iturria: Elhuyar aldizkaria
Paira alimentar o corpus tivéronse en conta as obras de ciencia e tecnoloxía publicadas entre 1990 e 2002. O corpus está clasificado por campo (área de coñecemento) e xénero.
O corpus está etiquetaxe, tanto en canto á estrutura e formato do texto como a nivel lingüístico. A etiquetaxe lingüística realizouse mediante tecnoloxía avanzada de procesamiento automático do eúscaro (etiquetador Eustagger do grupo IXA). A lema e a categoría/subcategoría de cada palabra do texto están etiquetaxes. Nesta versión do corpus hai 8 millóns de palabras, das que 1,6 millóns revisáronse, desambiguado e corrixido manualmente. O corpus está etiquetaxe en XML e seguiuse o estándar TEI.
Organizouse una potente interfaz de consulta do corpus, na que o usuario poderá realizar procuras sinxelas e complexas de todo tipo, utilizando paira iso un amplo conxunto de parámetros: lema, forma de texto, categoría, campo, xénero, sección de corpus (manual corrixido/corpus completo...). Os resultados poden ser de dous tipos. Por unha banda, os contextos curtos (KWIC) e os contextos estendidos do obxecto de estudo, e por outro, a información cuantitativa, expresada en táboas e gráficos (frecuencias, publicacións, distribución por ámbitos ou xéneros, etc.).
O corpus estará dispoñible en www.ztcorpusa.net. Ademais, a partir de 2007 estará dispoñible entre os recursos da OCDE paira a súa explotación comercial mediante licenza.
Os textos introducidos nesta primeira versión do corpus foron recollidos en formato dixital por diferentes provedores grazas aos acordos asinados con eles. A todos tamén noso máis sincero agradecemento.
O proxecto Corpus de Ciencia e Tecnoloxía comezou a desenvolverse dentro do proxecto de investigación estratéxica Hizking21. O proxecto Hizking21 recibiu as seguintes axudas: Programa Etortek do Departamento de Industria do Goberno Vasco (2002-2004) e Programa Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea da Deputación Foral de Gipuzkoa (2004). Doutra banda, o Corpus de Ciencia e Tecnoloxía contou coa colaboración do Departamento de Cultura do Goberno Vasco no programa Euskara e Novas Tecnoloxías 2005.