Duplicación automática, nova opción de Aditu.eus
Desde fai máis de 20 anos traballamos en Elhuyar en tecnoloxías da lingua e a fala para o eúscaro, e recentemente habemos socializado unha das mostras máis significativas deste traballo. De feito, aínda que nos últimos anos fomos ofrecendo, entre outras cousas, servizos baseados en tecnoloxías avanzadas propias de transcrición automática, tradución automática e síntese de voz, nesta ocasión integramos na plataforma Aditu.eus a posibilidade de duplicar audio ou vídeo de forma totalmente automática, mediante unha combinación de todas elas.
Hai cinco anos, xusto na véspera do confinamento pola pandemia da COVID-19, presentamos o servizo Aditu.eus, a primeira plataforma vasca de transcrición automática e subtitulado de audios e vídeos, que funcionaba en eúscaro ou castelán. Desde entón, fomos incorporando funcionalidades de forma continuada no servizo de Experto: pouco despois engadímoslle algunhas funcións de edición avanzadas; ao cumprir un ano, comezamos a ofrecer a posibilidade de transcribir contidos bilingües euskera-castelán e –utilizando a nosa plataforma de tradución automática Elia.eus– traducir subtítulos; máis tarde, puidemos transcribilos noutro catro idiomas (catalán, galego, inglés e francés)... Doutra banda, a principios de 2023 lanzamos o servizo TTS neuronal, un servizo de síntese de fala que ofrece varios idiomas e voces.
Pois ben, sumando esta tecnoloxía de síntese de fala e as tecnoloxías de transcrición e tradución automáticas que xa tiña, convertémola nunha plataforma de duplicación Aditu.eus. Subindo un audio ou vídeo, podemos pedirlle que cree subtítulos primeiro, traducir subtítulos cada vez e finalmente xerar audio deses subtítulos traducidos. Desta maneira, con só tres clics, obtense audio ou vídeo duplicado. Trátase da primeira plataforma de dobraxe automática de Euskal Herria, e está dispoñible en seis idiomas: eúscaro, castelán, francés, catalán, galego e inglés. Con Experto podemos duplicar un contido audiovisual a calquera deles.
Fixemos todo isto, como facemos en todas as nosas ferramentas, coa nosa propia tecnoloxía. De feito, no centro Orai NLP Teknologia creado por Elhuyar desenvolvemos as tecnoloxías de transcrición, tradución e creación da fala en Aditu.eus, coidando especialmente a calidade dos resultados que se obteñen cos contidos en eúscaro. Ala, bikoizketa-lanak askoz errazago egin daitezke orain, euskaraz ongi dabilen teknologiarekin eta gure konfidentzialtasun-bermearekin.
Selección de voces, edición...
Ao subtitular automaticamente un contido en Aditu.eus, identifícanse os conferenciantes presentes e, si queremos, podemos dar nome a cada un deles. A continuación, cando imos crear a dobraxe cos subtítulos traducidos, o sistema pregúntanos que voz queremos utilizar para cada un destes oradores. Dásenos a elixir entre varias voces masculinas e femininas, creadas por nós, as mesmas que se ofrecen no servizo de TTS neuronal.
Pero tamén nos permite imitar a voz orixinal do orador. A tecnoloxía para poder facelo —é dicir, unha pequena mostra de fala (que pode estar tamén noutro idioma) e a tecnoloxía que sintetiza a fala imitando a voz (aínda que o modelo nunca vexa esa voz no adestramento) dando un texto— foi creada especificamente para este propósito.
«Ten múltiples aplicacións: entrevistas formais, documentais, voces en off, vídeos corporativos ou de mercadotecnia, materiais didácticos para educación...»
Por outra banda, xa mencionamos que a duplicación de Aditu.eus pode xerarse de forma totalmente automática con só tres clics. Pero así como pode haber erros na transcrición e tradución automática e a plataforma permite corrixilos manualmente, tamén poden ocorrer o non desexados nesta última fase da xeración de audio da dobraxe, que podemos editar. Por exemplo, pode ocorrer que, pola razón que sexa, a tradución dunha frase sexa bastante máis longa que o orixinal. Para poder adaptar os audios traducidos no mesmo intervalo de tempo que o orixinal (porque se din outras cousas antes e despois), non hai máis remedio que acelerar esta fala e, ás veces, non queda ben. Por iso, na pantalla de edición da dobraxe pódese ver a cantos caracteres por segundo lese cada frase e tamén si houbo que acelerar a velocidade e canto. Si pásase polos estándar recomendados, ademais queda indicado en cor vermella. Nestes casos, podemos resumir o texto e volver crear o audio desa frase. Ou podemos distribuír e desprazar unha frase no tempo para adaptala aos espazos de silencio que hai dentro da frase e sincronizala co movemento dos beizos e logo volver duplicala.
Para moitas cousas, pero non para todo
A fala que se produce na dobraxe, como vostede saberá si algunha vez probou a plataforma de TTS neuronal, é de moi boa calidade. Cumpre coas normas fonéticas, a entonación, etc., do eúscaro (ou da lingua correspondente) e dáo moi natural (tanto que non proporciona unha fala sintética, e si óuvese a cegas moitas veces non saberiamos si é natural ou sintético). A imitación da voz orixinal tamén é de moi boa calidade. Pero prodúcese unha fala con entonación neutra, sen expresividade. Por tanto, non queda ben en certos tipos de contido: películas, contidos ficticios, podcasts informais e, en xeral, calquera contexto no que a fala non é neutra, seria ou formal.
A pesar destas limitacións, a posibilidade da dobraxe en Aditu.eus tamén ten múltiples aplicacións nas existentes: entrevistas formais, documentais, voces en off, vídeos corporativos ou de mercadotecnia, materiais didácticos para educación... Podemos dobrar a moitos idiomas moi facilmente e con moi bos resultados. Así, podemos ampliar o alcance do noso contido e amplialo ao mercado global, por exemplo, ou ben utilizalo nas escolas para traducir ao euskera material didáctico de interese, ou dobrar os vídeos xerados en eúscaro a outros idiomas, como solución provisional para os alumnos inmigrantes recentemente chegados e que non dominan o eúscaro, e así moitos máis.
Pero quero terminar mencionando un caso real de uso que nos alegra especialmente. Seguramente coñeceredes o programa de televisión Teknopolis, producido por Elhuyar, que inclúe edicións en eúscaro e castelán en ETB1 e ETB2. Pois ben, a maioría das gravacións son bilingües, pero, evidentemente, naqueles casos nos que os entrevistados non saben eúscaro, a entrevista débese facer exclusivamente en castelán. Logo, a transcrición, tradución e dobraxe era tarefa dos propios membros do equipo de traballo. Pois agora o fan aproveitando a dobraxe automática de Aditu.eus! Nestas partes indícase mediante un símbolo e un texto que se trata dunha voz sintética. Enorme, non?
Buletina
Bidali zure helbide elektronikoa eta jaso asteroko buletina zure sarrera-ontzian







