}

MultiMeteo tamén sabe eúscaro

2001/11/01 Díaz de Ilarraza, Arantza | Sarasola, Kepa | Mayor, Aingeru | Loinaz, Miel | Chevreau, Karine | Coch, José Iturria: Elhuyar aldizkaria

O tempo atmosférico inflúe moito no noso día a día. O home sempre estivo mirando cara ao ceo tentando descubrir si chove, tormenta, sol ou que demos trae. Os avances técnicos han permitido alcanzar una fiabilidade moi alta nas predicións paira 48 horas. En consecuencia, a nosa sociedade, en xeral, vive á espera e á sede destes prognósticos hoxe en día, ou ... non son os momentos da televisión e a radio os das previsións meteorolóxicas? Esta sede creou una situación idónea paira investigar e comercializar sistemas de escritura de anuncios, así como paira idear ferramentas automáticas paira a difusión deste tipo de textos a varios idiomas.

A calidade do traballo do tradutor humano será, sen dúbida, mellor e máis rica, pero hoxe en día é posible crear documentos nun campo concreto e técnico como é a meteorología, utilizando técnicas automáticas. Neste
artigo presentamos o sistema interactivo Multimeteo que utiliza a creación textual multilingüe no ámbito da meteorología, así como a adaptación que realizamos á creación en eúscaro. O sistema desenvolvido ofrece prognósticos meteorolóxicos diarios na seguinte dirección web: http://www.ingurumena.net/udala //www.inm.es/wwi/Multimeteo/Multimeteo.html

Antecedentes

Imaxe recibida polo satélite Meteosat.
meteosat

Aínda que non se utiliza a creación automática de textos, hai que mencionar aquí un sistema que traduce automaticamente as predicións meteorolóxicas. O sistema METEO creado polo grupo TAUM de Montreal foi o sistema de tradución máis exitoso de todos os tempos. Era difícil atopar tradutores paira traducións aburridas que se parecían a diario, e o servizo meteorolóxico oficial de Canadá comezou a investigar as vías automáticas. O sistema METEO obtido estivo traducindo boletíns meteorolóxicos do inglés ao francés desde 1977, e o 80% da súa tradución é totalmente directa. Con todo, o éxito da meteorología non se estendeu, xa que aínda que o sistema adaptouse a outras cuestións, non se obtiveron resultados de igual calidade. Parece que o ámbito das predicións meteorolóxicas ten una especial adecuación a este tipo de procesos automáticos.

A contorna de traballo Forecast Generator (FoG) tamén se puxo en marcha en Canadá en 1993. Neste sistema, o meteorólogo utiliza un editor gráfico paira adaptar o mapa que mostra os datos meteorolóxicos e posteriormente o sistema xera automaticamente a predición meteorolóxica en inglés e francés paira a rexión.

Historia do sistema multiMeteo

HGMTN tWWiWpWeWtToTopToeVvpVeVtTeDT eHDFFtHN
Barcelona
03.002200000001830110999906:0032122200000001730110999909:001222000000021201109912:001222000000020000000250109109915001100021000021000011090021000011090021000011090021000011090011000110002100015001100011000100110001100011000110001100011000110001100011000110001100011000110001100011000110001100011000110001100011000120000110001100011000110001100011000110001100011000110001100011000110001100011000110001100011000110001100011000110001100011000
Táboa . Matriz de datos de predición meteorolóxica.

En 1995 o Servizo Meteorolóxico Francés (Meteo France) impulsou o proxecto MultiMeteo paira a publicación das previsións meteorolóxicas en varios idiomas. Paira iso púxose en contacto co Instituto Nacional de Meteorología (INM) de España, o Royal Meteorological Institute (RMI) de Bélxica, o Zentralanstallt für Meteorologie und Geodynamik de Austria (ZAMG) e dúas empresas especializadas na creación lingüística: Lexiquest, con sede en París, e CL Servizos Lingüísticos de Madrid. O servizo de meteorología alemán (DWD) tamén se uniu inicialmente, pero foi abandonado posteriormente.

Estas asociacións presentaron o proxecto denominado “Multilingual Production of Weather Forecasts” e obtiveron financiamento comunitario. O sistema desenvolveuse en catro idiomas: francés, inglés, castelán e alemán. Os resultados da avaliación realizada en febreiro de 1999 foron moi positivos.

No ano 2000 INM e Lexiquest alcanzaron un acordo paira estender o sistema a catro linguas máis: o holandés, o catalán, o galego e o eúscaro. O Grupo Ixa e o Centro de Terminología UZEI da Facultade de Informática de San Sebastián encargámonos da difusión ao eúscaro, e neste momento estamos a piques de finalizar a fase de desenvolvemento do proxecto.

Procedemento habitual de creación de predicións meteorolóxicas

Paira a recollida de datos meteorolóxicos utilízanse dúas fontes: a recollida superficial de datos e a recollida espacial. Os datos superficiais tómanse nos observatorios meteorolóxicos, nos que se miden e recollen en todo momento as variables físicas que describen o estado da atmosfera. Outros datos que se obteñen do espazo son os satélites meteorolóxicos, os satélites geoestacionarios METEOSAT e os satélites polares de sériea TIROS-NOAA, que non paira de enviar información.

Todos os datos numéricos obtidos procésanse mediante complexos modelos matemáticos. Os procesos automáticos simulan a evolución das variables físicas nos próximos días, xerando matrices de datos paira predicións meteorolóxicas. O meteorólogo ten entón a oportunidade de retocar estas matrices de datos, é dicir, de completar e redondear a previsión coa súa experiencia. Como conclusión, tal e como se observa na Táboa 1, as matrices presentan datos de temperatura (Che), dirección do vento (DD) e forza (FF), nubes, choiva, etc. paira diferentes horas (períodos de 3 horas no caso do sistema da INM). Paira cada punto do mapa obtense una matriz deste tipo.

Con estes datos os meteorólogos crean as predicións meteorolóxicas manualmente. Este traballo resulta moi longo e custoso, sobre todo cando dunha soa predición hai que facer varias versións en diferentes idiomas ou estilos (predicións xerais, de praias, de mar, de montaña, por comunidade, por provincia...).

Aí está o interese de MultiMeteo. Non se trata de substituír a obra dos meteorólogos, senón de contribuír de maneira interactiva ás súas tarefas, de maneira que se poidan difundir as predicións en diferentes idiomas e estilos. Ademais, permite realizar predicións paira diferentes lugares do mapa.

Una ferramenta de apoio: creación multilingüe interactiva

Figura . Boletín creado en eúscaro por MultiMeteo.

Esta técnica, en primeiro lugar, mediante a creación automática, xera un borrador a partir de datos de entrada quizá incompletos. Aínda que ten a capacidade de crear texto en varios idiomas, ao meteorólogo, paira actuar como corrector, ofréceselle unicamente na súa lingua materna. Si o meteorólogo desexa realizar una corrección nun fragmento de texto, deberá facer clic na parte que desexe modificar. A continuación, o menú “pop-up” ofreceralle una serie de opcións e modificadores alternativos, elixindo un deles paira realizar a corrección de forma cómoda. Tendo en conta os cambios realizados, o sistema xerará textos predictivos en todos os idiomas.

As vantaxes desta técnica son a rapidez (paira producir cada texto en cada idioma necesítanse uns 2 segundos; un tradutor humano necesita uns 10 minutos); a viabilidade da creación, aínda que algún dato non se recolleu aínda, a alta calidade dos textos creados (ás veces con toques humanos); a facilidade de mantemento e adaptación; e por último, a aceptación por parte dos usuarios humanos (aos meteorólogos non lles quitará o posto de traballo, senón que lles axudará a escribir en linguas estrañas).

Creación automática de boletíns

Figura . Arquitectura do sistema.

MultiMeteo realiza a creación de dúas formas:

  • Paira a redacción do título de cada parágrafo utilízase un texto fixo co nome das provincias, e paira escribir o encabezado dos boletíns (ver figura 1) utilízase una persoal con varias variables internas, por exemplo:

Predición meteorolóxica *IS *CO. *MO *FD.
Hora Local: *FP.
Valor do anuncio: *TT.

onde:

  • O valor de IS pode ser "por provincias", "por illas" ou nada.
  • Valor do CO - nome das comunidades (por exemplo, paira a "Comunidade Autónoma de Galicia").
  • Mes MO ("Xuño")
  • Data da DF, expresada en cifras.
  • FP indica hora
  • Período de predición por TT (por exemplo, “hoxe de 06:00 a 12:00 da medianoite”).
  • Paira escribir o corpo dos parágrafos utilízase un método moito máis complexo. Nos seguintes puntos explícase a arquitectura e os módulos necesarios paira abordar a creación automática a este nivel.

Arquitectura xeral do sistema

O motor de xeración utilizado polo sistema desenvolveuse en 1994 en francés paira a xeración automática de cartas comerciais. En 1995 estendeuse ao inglés integrándose nun prototipo de tradución de manuais técnicos. E o mesmo ano tamén se integrou no proxecto “Multilingual Production of Weather Forecasts” paira incorporar novas linguaxes e funcionalidades na creación de boletíns meteorolóxicos (creación interactiva e xestión de coñecementos estilísticos).

A arquitectura do sistema pódese ver na figura 2. A primeira fase consiste na obtención e reformateo dunha base de datos meteorolóxicos que permita a utilización de módulos de xeración. Posteriormente, a tarefa do módulo de creación divídese en dous partes: planificar e executar.

Módulo de planificación

A planificación utiliza bases de coñecemento de conceptos e estilos (UE) e divídese en dúas fases:

  • Planificación xeral: o boletín organízase en varios parágrafos (cabeceira, parágrafo paira cada provincia, etc.)
  • Planificación meteorolóxica: a partir dos datos de entrada determínase o contido de cada parágrafo. Os eventos ( event ) que deben aparecer no parágrafo e as relacións entre eles recóllense nunha lista utilizando un interlingua, de forma que a descrición sexa independente dos idiomas. Os seguintes módulos realizaranse paira cada idioma.

O suceso é un obxecto conceptual asociado á situación meteorolóxica ou evolución da situación. Os fenómenos son de dous tipos: atómicos e moleculares.

O suceso atómico representa un parámetro meteorolóxico sen evolución, cun único valor asociado ( atributo Value). Por exemplo , o suceso atómico que representa o ceo cuberto é:

Event_CloudCovering4: Event{} Value=
Class
CloudCovering_code4; Time_Representation=
TimeRepresentationMod{};}

Class CloudCovering_code4 é un conxunto de conceptos simples: Overcast, NoSun e VeryCloudy-Overcast. Cada un destes conceptos está asociado a un termo en cada lingua.

O suceso molecular indica máis dun parámetro. Por exemplo, cando falamos de vento podemos ter forza, dirección e datos de evolución. Poden levar varios valores ( Value0 , Value1 , etc. atributos), así como un operador (atributo Operator) que especifica a forma de recoller estes valores. Por exemplo, o suceso molecular paira describir o ceo sen nubes a estar cuberto é:

GrowingCloudier_Min0: Event_mol{ Value0=
Event_CloudCovering0; Value1=
Event_CloudCovering4;
Operator= Class
GrowingCloudier_Min0; Time_Representation=
TimeRepresentationMod{};}

Este suceso molecular maniféstase mediante dous episodios atómicos e un operador. Serve paira situar os eventos estafe - representation no tempo (presente, pasado ou futuro) e indica o período (día, mañá, tarde, noite...).

Á saída do módulo de planificación selecciónase un concepto paira cada evento atómico e paira cada clase de atributo Operator dos eventos moleculares. Ademais, pódense engadir outros atributos (automaticamente ou en interacción co meteorólogo): índice de probabilidade, fase, período...

Módulo de execución

zeru1Sem
Concepto
simple
Termo en eúscaro
Definición do termo: Unidades semánticas ( Usem )
Representación
semántica ( Rsem )
estali1sem
Overcast
Ceo cuberto Cuberto
Usem = Zeru1Sem
UsemR1_INVERNO= Estali1Sem
Usem = Estali1Sem
Táboa . Conceptos simples, termos en eúscaro e a súa expresión semántica.

O módulo paira materializar lingüisticamente os conceptos obtidos en cada lingua está baseado na Teoría do Significado - Texto (Mel’cuk 1988, Polguère 1988). Nesta fase utilízase una base de coñecemento lingüística que se divide en cinco etapas: predenotación, semántica, sintaxe profunda, sintaxe superficial e morfología.

  1. Predenotación. Nesta etapa selecciónase paira cada concepto simple derivado da planificación un termo correspondente a ese idioma. Por exemplo, paira o concepto simple Overcast do grupo Class CloudCovering_code4 anteriormente mencionado seleccionarase un dos termos Ceo, Cuberto ou Cuberto. Estes termos divídense en unidades semánticas ( USem ), coas que se crea a expresión semántica ( RS ) (ver ).
  2. Semántica. Da expresión semántica Rsem fórmase o grafo da sintaxe profunda formada por nodos e relacións, paira o que se selecciona a unidade lexical correspondente a cada unidade semántica.
  3. Sintaxe profunda. Constrúese un grafo que ten todas as palabras da frase a crear nos nodos.
  4. Sintaxe cutánea. Ordénanse os nodos paira determinar o lugar que debe ocupar cada palabra na frase.
  5. Morfología. A forma de palabra que lle corresponde segundo a información morfosintáctica de cada nodo recóllese do dicionario. No dicionario almacénanse todas as formas declinadas paira evitar a creación morfológica.

Adaptación ao eúscaro

Concepto
Execución en eúscaro
Execución en francés
Execución en castelán
NebDim_inm
Redución de nubes
diminution da nebulosite
diminución da nebulosidade
Neb0_inm
ceo, óscarbia
sentenza
ceo despexado
Neb6 _inm
rango de nubes
passages nuageux
intervalos nubrados
Neb8_inm
nubes desenvolvidas ao longo do día
No caso dos vascos
nebulosidade de evolución
diúrna
DD1
vento do norte
vent nord
vento do Norte
FF4
vento, moi forte
confort
moi forte
FF5
vento, tempestuoso
perda
vento tempestuoso
TempeRel1
descenso significativo das temperaturas
xute importante deas temperatures

TempeRel2
diminución moderada das temperaturas
temperatura ambiente

TN2
choiva
pluviometría
choiva
RT3
chuvascos
aversación
chuvascos
Br1
cru
brume seche
calima
Br2
nubrado
bruma
bruma
Morning_Mid
á mañá
en milieu de matinées
a media mañá
Táboa . Execución dalgúns conceptos atómicos en eúscaro, francés e castelán.

O traballo computacional paira a difusión do sistema MultiMeteo ao eúscaro foi desenvolvido polo grupo IXA e o traballo terminolóxico foi realizado por UZEI. As adaptacións ao galego e catalán realizáronse a partir da versión castelá, e tiveron que traballar sobre todo o léxico, xa que non se requiría grandes cambios en sintaxes e morfología. Paira o euskara, aínda que partimos do castelán (e en ocasións do francés), a maioría das estruturas das frases foron modificadas e tivemos que traballar especialmente con marcas de declinación morfológica.

Comezamos o noso traballo en tres fases:

  • recollida e análise do corpus do tempo en eúscaro,
  • Coñecemento do sistema multiMeteo e a súa arquitectura, e
  • adaptación do sistema.

A adaptación realizámola en tres subfases: primeiro abordamos os sucesos atómicos (por exemplo, o “ceo, cuberto”), daquela os sucesos moleculares que eran fáciles (por exemplo, o “vento, débil, do norte”), e finalmente, os sucesos moleculares que presentaban especiais dificultades (por exemplo, o ceo, inicialmente cuberto, con choiva, posteriormente moi cuberto temporalmente).

En cada una das fases de adaptación realizouse unha análise lingüística previo, unha análise e deseño da información a incluír na base de coñecemento, una introdución e proba da información dun exemplo representativo paira cada evento e, finalmente, una introdución e proba de todas as posibilidades paira cada tipo de evento.

As principais características desta adaptación son:

  • Tendo en conta que as predicións xeradas polo sistema debían seguir o estilo telegráfico da INM, decidimos eliminar os verbos. Así mesmo, os modificadores do nome que é a área da frase irán separados por comas como sintagma de atributos. Por exemplo, en lugar de dar “Vento do Norte débil” ou “Vento do Norte e Débil”, o sistema xerará “Vento do Norte, débil”.
  • As evolucións meteorolóxicas expresadas en francés e castelán por xerundio realízanse doutra maneira en eúscaro. Por exemplo, "Ceo despexado en aumento a nubrado" crearémolo en eúscaro da seguinte maneira: “O ceo, ao principio oscarbio, despois nubrado”.
  • No dicionario escribimos todas as formas de palabras (ás veces unidades multi-palabra) que se poden utilizar nos boletíns. Nos boletíns utilízanse por momentos dous casos: absoluto e sociativo. A lema da palabra é tamén posible.

Se posteriormente quixésese ampliar o sistema con outros estilos, deberíanse utilizar máis casos de declinación, polo que habería que introducir estes casos no dicionario. Vexamos, por exemplo, a introdución do vocabulario da palabra choiva:

BA_Euri1 :
LexemeNomBA{
CatMorph = NOM; SsCatMorph = COMMUN; UMorph=
[ morpho{Cas= ABS;

Nome= SINGULIER;UMG= "euria"},
morpho}=

Phuns;
  • A zona da frase, por defecto, terá o caso da declinación absoluta, e o caso dos modificadores da zona determinarase na definición do concepto ou termo. Por exemplo, o concepto que crea "O ceo, cuberto, con choiva" debe precisar que o termo cubrir ocupará o absolutivo singular e a choiva sociativa singular. No absolutivo singular aparece o termo zeru porque é o espazo da oración.
  • En eúscaro, o caso de declinación do sintagma adhírese á última palabra de cada sintagma, e o sistema non daba a oportunidade de xestionalo de maneira elegante. Por iso, tivemos que engadir una serie de regras: por unha banda, a nivel conceptual, o sistema pega a marca de caso a todas as palabras de cada sintagma, e logo cando se ordenan as palabras na etapa de sintaxe superficial, quita o caso ás que non son a última palabra. Por exemplo, paira crear a frase “O ceo, cuberto, con choivas xerais e tormentas”, indícase nun concepto que todo o sintagma de choiva xeral e tormentas debe levar o caso do sociativo; paira iso hai que marcar todos os termos co caso choiva (soz)+xeral(soz)+ekaitz(soz) ; para que máis tarde os termos choiva, e xeneral desmárquense con «precedendo».

Na táboa 3 pódese observar como se materializaron varios conceptos atómicos en eúscaro (inclúese a realización en castelán e francés de referencia).

Na Táboa 4 pódese observar a execución de varios conceptos moleculares. As variables indican, cando se indican, os valores deste suceso: Variables N estado das nubes (oscarbia, baixo nube, cuberto...); Variables DD dirección do vento (norte, suroeste, etc.); As variables FF son a forza do vento (moderada, forte,...); Variables TS precipitacións (choiva, sirimiri...), Período PER (mañás...)...

Obras de futuro

Concepto
Execución en eúscaro
Execución en francés
Execución en castelán
OrageGrele
tormentas de trono con saraiba
orage compagné de grel

tormentas con saraiba
NebEvSpec
ceo, ao principio N1, despois N2
ciel N1devenorg N2
ceo Ampliando/
Reducindo a N2
NebEvSpecTSPer
ceo, PER N1 con TS1, despois N2
2.-
PER A N1
Crecente/ Diminución N2
NebEvSpecTSOrage
ceo, inicialmente con N1, TS1 e tormentas de trono, despois N2
2.-
ceo N1 con TS1 e
tormentas a N2
VentSecteur
vento, FF1, en xeral DD1
Vent FF1 de secteur DD1 dominant
DimForce
vento, DD1, ao principio FF1, despois FF2
2.-
FD1 F1 More/
FF2 Avancez
Pass_var_inm
vento, variable, FF1, DD2 temporal, FF2
Vent variable FF1 passagerement FF2 DD2
vento variable FF1
pasaxeiro FF2
Táboa . Conceptos moleculares realizados en eúscaro, francés e castelán.

O proxecto atópase actualmente nas últimas fases de desenvolvemento. O seguinte paso é una proba masiva paira analizar posibles erros no sistema. A continuación realizar os cambios necesarios e a avaliación final. Con todo, a adaptación realizada está xa integrada no sistema da INM e cada día ofrécense as previsións meteorolóxicas das comunidades do estado español na web http://www.inm.es/wwi/ MultiMeteo/Multimeteo.html.

Ademais da escritura telegráfica do obxectivo xeral, a realización de predicións de propósito especial (paira praias, montañeiros, esquiadores...) e a elaboración de escrituras máis ricas (por exemplo, a introdución de verbos con frases completas) serían pasos factibles a medio prazo. Este tipo de versións completas realizáronse en francés e utilízanse na actualidade. De momento bastaría con analizar a utilidade do sistema desenvolvido paira o eúscaro, e si posteriormente detectásese a necesidade, entón habería que abordar a organización das melloras mencionadas.