Modernización tecnolóxica do vocabulario
2013/10/10 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Un do catro departamentos principais de Elhuyar é o de Lingua e Tecnoloxía. Dentro dela se subdividen en servizos de tradución, lexicografía e tecnoloxías lingüísticas. As tecnoloxías lingüísticas son moitas e son útiles en moitos ámbitos. E nós tamén investigamos, desenvolvemos e comercializamos aqueles que son útiles paira moitos campos, pero, como é normal, traballamos especialmente aqueles que son útiles paira outras áreas de Elhuyar. Por exemplo, nos servizos de tradución traballamos a tradución automática e as tecnoloxías de memorias de tradución que poden achegar una vantaxe competitiva, así como moitas tecnoloxías de interese paira o vocabulario.
Facilitando o proceso de traballo
Un dos traballos a realizar na elaboración de dicionarios é a selección de palabras. Desenvolvemos ferramentas de apoio a iso, mediante a aplicación de corpus textuais, combinando técnicas lingüísticas e estatísticas que extraen as palabras, termos ou localizacións máis significativas das mesmas.
Un deles é Erauzterm. Tras ofrecer un corpus especializado nunha determinada área do eúscaro, Erauzterm detecta os termos que aparecen nela. Non é perfecto na medida das ferramentas automáticas, pero ten una interfaz paira realizar un repaso manual.
ElexBI fai algo parecido pero en bilingüe. A partir dun corpus paralelo (recompilación de textos que son traducións entre si, aliñados a nivel de frase), extrae as súas equivalencias de termos, é dicir, párelos de termos de ambas as linguas. Esta ferramenta habilitouse como servizo web co nome de Itzulterm. E con esta ferramenta elaborouse o dicionario de Formación Profesional.
AzerHitz fai o mesmo que Elexbi, pero en lugar de tomar como materia prima corpus paralelos (xa que os corpus paralelos non están tanto como se queira ou non son tan grandes como se queira, sobre todo en áreas especializadas ou en determinados pares de idiomas) utiliza corpus comparables. Estas son coleccións de textos multilingües que tratan un mesmo tema sen ter que traducilos entre si. AzerHitz é capaz de extraer una terminología bilingüe deste tipo de corpus.
Outro dos instrumentos paira extraer información lexicográfica dos textos é o Konemat. Leste extrae dos textos en eúscaro as combinacións, encolaciones, fraseología, etc. De momento, saca as combinacións máis usuais de nomes, adxectivos e nomes.
Temos tamén a ferramenta PopLex, que crea novos dicionarios utilizando dous dicionarios e unha linguaxe ponte. Publicáronse cinco dicionarios en eúscaro online creados con el no portal de dicionarios construídos automaticamente, tal e como vos contamos en xullo.
Materia prima de traballo, corpus
Como vistes, moitas destas tecnoloxías necesitan de corpus, e por iso é una das áreas nas que traballamos moito o corpus dixital. Xunto con o Grupo IXA da UPV/EHU creamos o Corpus de Ciencia e Tecnoloxía; paira a Fundación Eroski formamos o corpus multilingüe da revista Consumer; e paira Euskaltzaindia, estamos a formar o Corpus do Observatorio do Léxico xunto co Grupo IXA e UZEI.
Con todo, dado que a elaboración de corpus é custosa, nos últimos anos estamos a crear ferramentas paira poder utilizar a web paira formar corpus. Paira poder consultar Internet como corpus, hai uns anos lanzamos o servizo CorpEus online. E desde a web temos tamén ferramentas paira crear automaticamente grandes corpus xerais, corpus especializados, corpus paralelos e corpus comparables. A través de un gran corpus xeral en eúscaro construído automaticamente desde a web, un gran corpus paralelo eúscaro-castelán e as combinacións extraídas do gran corpus xeral a través da ferramenta antes mencionada, pór a consulta no Portal de corpus Web, tal e como vos comentamos en febreiro.
Nova web de Elhuyar Hiztegiak
Ademais de facilitar o proceso de traballo de elaboración de dicionarios e fornecer corpus electrónicos paira materias primas, a tecnoloxía en xeral e as tecnoloxías lingüísticas en particular poden mellorar considerablemente a experiencia dos usuarios do dicionario. Desde que hai uns anos comezaron a colocar os dicionarios na web, na maioría dos casos ofreceuse a opción das caixas de procura paira poder realizar procuras rápidas en lugar de ir buscar nunha lista ordenada alfabeticamente (aínda que xa existen as que simplemente se limitan a pór online os PDFs dos dicionarios). Pero os resultados que se ofrecen tras a procura son similares aos que ofrecen os dicionarios en papel. Na nova web de Elhuyar Hiztegiak (http://hiztegiak.elhuyar.org/), que conta con dicionarios eúscaro-castelán, euskara-francés e euskara-inglés, quixemos ir máis aló e ofrecer opcións máis avanzadas.
Por exemplo, pódese escoitar como se pronuncia una palabra buscada a través de dúas opcións: A través de os audios gravados polos usuarios na web Forvo, ou mediante a tecnoloxía TTS (text-to-speech ou síntese de voz), é dicir, a través da voz sintética creada polo computador. O sistema TTS que utilizamos é o desenvolvido polo Grupo Consultab da UPV e que comercializamos.
Ademais, cando queremos buscar una palabra, a medida que imos tecleando a palabra, móstranos a lista de palabras que teñen ese inicio, evitando así ter que escribir todo e reducindo as posibilidades de escribir erroneamente.
Doutra banda, no que se refire aos exemplos de palabras, ademais dos habituais introducidos polos autores no dicionario, esta nova web permite visualizar os exemplos que se atopan no corpus paralelo eúscaro-castelán extraído da web anteriormente mencionada. Estes exemplos non son só da lingua de destino, senón de pares de frases que son traducións entre si.
Ademais, ademais da procura habitual de entradas da lingua de orixe, ofrécese a posibilidade de buscalas nas entradas da lingua de destino. E quérese ofrecer a posibilidade de buscar en futuros exemplos.
Tamén se ofrecen opcións paira personalizar o dicionario, como gardar as últimas procuras realizadas, gardar algunhas procuras nunha lista de favoritos persoais, etc.
A pesar de que polo momento publicamos estas novidades, no futuro está previsto introducir máis cousas aos poucos. Por exemplo, a posibilidade de ir directamente ao buscador de combinacións antes mencionado, mostrar tamén os resultados doutros dicionarios e corpus, propor una palabra correcta cando se escribiu mal, mostrar as declinaciones ou inflexións da palabra buscada…
E máis futuro!
Ademais, nos próximos anos queremos tecnologizar aínda máis nosa sección de vocabulario. Seguimos traballando na construción de corpus paira mellorar e crear novas ferramentas de construción automática de corpus, coas que cada vez se forman máis corpus, máis grandes e de novos pares de linguas. A nosa intención é que estes novos corpus colóquense tamén online no Portal de Corpus Web.
Pero a principal novidade virá do ámbito da automatización do vocabulario. A maioría deste tipo de tecnoloxías que traballamos até agora extraían dos corpus palabras e termos paira o dicionario e as súas contraprestacións, pero ademais un dicionario necesita definicións, sentidos e exemplos. Pois ben, agora tamén empezamos a traballar na forma de obtelos de forma automática, é dicir, na extracción automática de definicións, acepcións e exemplos adecuados de textos e/ou webs.
Seguindo coa explotación das tecnoloxías lingüísticas que xa tiñamos e desenvolvendo as que acabamos de pór en marcha, queremos que o dicionario de Elhuyar sexa punteiro para que nun mundo cada vez máis globalizado o eúscaro poida seguir en contacto con outras linguas.Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia