Metal. Sistema de traducción por ordenador de Siemens
1990/03/01 Sagarna, Andoni - Ingeniaria Iturria: Elhuyar aldizkaria
Historial de producto
Como es sabido, la empresa alemana Siemens es el gran fabricante de todo lo relacionado con la electricidad. También fabrica centrales telefónicas. Esta actividad impulsó, tras diez años de investigación, la decisión de desarrollar METAL, el sistema de traducción por ordenador más avanzado actualmente en el mercado. De hecho, las 100.000 páginas que componían la documentación de un sistema de telefonía no podían volver del alemán al inglés dentro de unos plazos y costes razonables. ¿Por qué no, entonces, responder desarrollando un producto? ¿Y por qué no partir de un desarrollo que ya había comenzado?
Así lo hicieron, adquirieron el METAL (Machine Edited Text Aspiring Legibility) que se estaba preparando en la Universidad de Texas. Diez años después, este sistema es capaz de volver del alemán al inglés.
Antes de su lanzamiento, han probado bien el funcionamiento de METAL, primero en la sede de Munich de Siemens desde 1986, después en las oficinas de traducción de Comex y Schönau und Damels de Zürich, después en Philips Kommunikations-Industre de Nuremberg, Universidad de Villingen, Mannesmann Kiense y Hille.
Aunque hasta la fecha METAL sólo ofrece la posibilidad de volver del alemán al inglés, las versiones de traducciones del alemán al español y del inglés al alemán se podrán empezar a probar esta primavera.
Procedimiento de trabajo
METAL es más que una herramienta de traducción. Se puede definir como un paquete integrado de traducciones técnicas repetitivas de gran masa de texto. Este software requiere dos ordenadores: Un ordenador SINIX del medio Siemens que trabaja con el sistema operativo Unix para trabajar el formato del texto y una máquina LISP con la gramática y el vocabulario necesario para realizar la traducción. Ambas máquinas se unen mediante una red Ethernet. El usuario trabaja en un PC conectado como terminal del ordenador SINIX.
Este terminal incluye el texto fuente, bien desde un disco, por lectura óptica y un OCR (programa de reconocimiento de caracteres). Desde el terminal se envía a SINIX el texto para su traducción. Una vez finalizada la formación se envía a la máquina LISP para su devolución y una vez finalizado este trabajo se pasa a SINIX para realizar la postedición. La ampliación del nuevo léxico y los ajustes gramaticales que se realizan en la traducción automática se realizan en la pantalla de la máquina LISP.
Es evidente que el objetivo de METAL no es sólo traducir, sino que también responde a problemas de introducción y formateo del documento. Por ello, gráficos, tablas, tipo de letra, etc. del documento original. respeta. Si esto se puede hacer de forma rígida, el problema sería sencillo, pero como cualquier traductor sabe, al volver cambian la longitud y el orden de las palabras.
Para superar esta objeción, METAL divide primero el formato y el texto. METAL soporta el texto elaborado en procesadores de textos como Word Star o Word Perfecto.
Una vez dividido el formato y el texto, el texto se divide en frases cortas y se envía a la máquina LISP para su traducción.
Esta máquina, en primer lugar, busca en el texto palabras desconocidas, que no tienen en el diccionario, y una vez listadas éstas, el usuario debe codificar las nuevas entradas léxicas según unos criterios lingüísticos, utilizando el sistema de ventanas auxiliar que le ofrece el programa.
El análisis preliminar muestra las apariciones de las nuevas palabras y sus contextos. De este modo, el usuario puede ver en breve el uso de estas palabras. Por cierto, también es una vía para detectar los escritos erróneos, ya que las palabras mal escritas normalmente tendrán una forma desconocida.
METAL utiliza tres diccionarios básicos. Cuenta con dos diccionarios monolingües, cada uno de 50.000 entradas, uno en alemán y otro en inglés, y un diccionario de equivalencias entre palabras de ambas lenguas. Estos diccionarios están jerarquizados: los morfemas gramaticales sobre ellos, el vocabulario común bajo ellos y el vocabulario técnico general más abajo. Además, existen diccionarios técnicos (informática, telecomunicaciones, medicina, etc.) organizado por módulos.
El análisis preliminar mencionado crea una serie de ficheros de glosarios que informan sobre la devolución de cada término a través de diferentes diccionarios técnicos especializados.
También existe un fichero de palabras compuestas que, tras analizar las palabras compuestas desconocidas, genera equivalentes provisionales a partir del significado de los componentes. Se puede decir que acierta en el 70% de los casos medios. Cuanto más técnico es el texto, más éxito tiene este sistema.
A la hora de traducir un término, el equivalente se busca primero en los diccionarios más especializados y, si no se encuentra en ellos, recurre a los más generales en la búsqueda. No obstante, el usuario podrá modificar este orden si lo desea.
Los diccionarios que tiene METAL no son exactamente iguales a los que vemos en forma de libro. Cada entrada incluye información morfológica y sintáctica, representada mediante reglas de reescritura. Propone reglas por defecto para las nuevas palabras.
La traducción la realiza la base de datos de las reglas lingüísticas que se encargan del análisis de las oraciones. Esto busca frases introducidas al nivel más profundo. Luego va poco a poco hacia la superficie, asignando reglas de componente estructural en cada nivel. Al llegar a los parches superficiales, crea una estructura arbórea para toda la oración.
Antes de seleccionar el último árbol, utiliza una estrategia de probabilidad en aquellos casos en los que existe la posibilidad de aplicar más de una regla. Esto requiere mucha memoria: Más de 120Mb.
Una vez obtenido el árbol, la máquina LISP coloca las oraciones en una forma de representación similar a la gramática de casos.
Partiendo de este nivel de análisis profundo, el sistema genera un árbol de salida en el idioma de destino. El usuario tiene la posibilidad de modificar los códigos de los parches de este, si es necesario.
El sistema analiza cada una de las oraciones y almacena la traducción obtenida en un fichero de salida para la postedición.
Coste y beneficio
METAL traduce cerca de 200 páginas en una jornada de 8 horas. Esta velocidad puede parecer alta o baja, pero si se tiene en cuenta la traducción completa (incluyendo el formateo) se puede decir que es bastante rápida, ya que el empleado del puesto de postedición no puede preparar más de 40 o 50 páginas. Por tanto, para dar formato definitivo al trabajo que realiza METAL una noche al día siguiente son necesarios cinco puestos de postedición. Aunque se agilice la traducción, si no se pusiera más personal y más máquinas en el proceso posterior no se agilizaría el trabajo. ¿Cuánto cuesta todo esto? Las cuentas son:
SINIX MX 300 con impresora láser y periféricos: 2.600.000 pts. y coste de mantenimiento de la máquina 22.000 pts. mensualmente.
Software para máquina SINIX: 208.000 ptas.
Máquina LISP: 6.500.000 pts.
Software de traducción METAL: 5.850.000 pts. y 60.000 pts. coste mensual de mantenimiento.Con una inversión total de 15.000.000 de pesetas y un coste de mantenimiento mensual de 82.000 pesetas.
Descubre si te conviene comprar.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia