Aditu.eus, hizketa ezagutzeko euskarazko zerbitzua

2020/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

Elhuyar Fundazioko hizkuntza- eta hizketa-teknologien I+G taldean, urte asko daramatzagu euskararentzat garrantzitsuak diren baliabideak, teknologiak eta zerbitzuak garatzen eta gizarteratzen: hiztegiak, corpusak, zuzentzaileak, bilatzaileak, iritzi-erauzketa, itzultzaileak, hizketa-sintesia... Horietako batzuetan, problematikaren zailtasuna dela eta, teknologiak emaitza esperimentalak ematen zituen, baina ez aplikazio errealetan erabiltzeko modukoak; edo, bestela, euskararentzat ez genuen beste hizkuntzek zuten teknologiarik. Baina, azken urteotan, sare neuronal sakonen teknologiari esker, aurrerapauso handiak eman ditugu. Hala, azaroan, Itzultzailea.eus kaleratu genuen, sare neuronaletan oinarritutako itzultzaile automatiko eleaniztuna (euskara, gaztelania, frantsesa, katalana, galegoa eta ingelesa dakizkiena), eta, martxoan, sare neuronaletan oinarritutako hizketa-ezagutzako elebiduna: Aditu.eus.
Arg. Elhuyar

Hizketa da gizakiok gure artean komunikatzeko dugun bide zaharrenetako bat eta bereizgarriena (animalietatik bereizten gaituen ezaugarrietako bat baita). Geroago etorri zen idatzizko komunikazioa, zeinak, komunikatzeaz gain, ezagutza gordetzeko ahalmena ere baduen. Hizketa da jendea elkarrekin komunikatzeko bitarteko naturalena, baina pertsonok ordenagailuekin komunikatzeko erabili izan dugun bidea idatzizkoa da: aginduak, programazioa eta testuak teklatuan idatziz sartzen dizkiogu, eta hark pantailako testuak baliatzen ditu emaitzak ikusarazteko. Hori horrela izan da, jakina, ordenagailuak ez zirelako gai giza-hizketa ulertzeko.

Azken urteetan, hizketa-ezagutzako sistemak sortu eta hobetzen joan direnez, poliki-poliki hedatzen joan dira sarrera gisa hizketa hartzen duten sistemak: elkarrizketa-agenteak, azpititulatzaile automatikoak, bozgorailu adimendunak, diktaketa-sistemak... Baina euskara ez da sistema horietan egon.

Aldizkarian duela urtebete azaldu genuen irisgarritasunari begira hizketa-teknologietan oinarritutako zer soluzio geneuzkan garatuta Elhuyarren: webguneak irakurtzeko tresna, Irakurle Digitala, Wikispeech, Bidaide... Horiek guztiak hizketaren sintesian oinarrituta daude; hau da, testu bat emanda ordenagailuek hizketa sortzeko erabiltzen duten teknologian. Orduan aipatzen genuen zer lagungarri izan daitezkeen hizketa ezagutzeko teknologiak irisgarritasunean eta inklusioan (hizketa bidez ordenagailuak eta bestelako makinak kontrolatzea, diktaketa-sistemak, azpititulatze automatikoa...). Beste hizkuntza batzuetan bai, baina euskaraz ez zegoen horrelako sistemarik. Bada, martxoan atera genuen euskarazko hizketa-ezagutzako zerbitzua, irisgarritasunerako eta beste erabilera anitzetarako aproposa: Aditu.eus.

Aditu.eus, Elhuyarren hizketa-ezagutzailea

Sare neuronal sakonetan oinarritutako hizketa-ezagutzailea da Aditu. Izen guztiz aproposa du. Bi adiera nagusi ditu aditu aditzak; lehena entzun eta bigarrena ulertu, eta horixe egiten du Adituk, esaten dioguna entzun eta ulertu (idatziz ematen baitu entzundakoaren ordaina). Bestalde, aditu izen edo adjektiboaren adiera nagusia jakintsua, jakituna, ikasia da, eta hori ere bada Aditu, sistema aditua.

Web-zerbitzu edo -plataforma gisa eskaintzen da Aditu, https://aditu.eus helbidean. Euskara ezagutzen du, bai eta gaztelania ere (gaur egun beharrezkoa, euskal gizarteak eta erakunde eta eragileek balia dezaten). Etorkizunean hizkuntza gehiago sartzeko asmoa ere badugu.

Plataforma honetara, audio- edo bideo-fitxategi bat igo dezakegu, baita onlineko bideo edo audioren baten esteka bat ere (adibidez, EITB, Youtube, Facebook, Instagram...), eta Adituk automatikoki eta istantean egiten du hor esaten denaren transkripzioa. Emaitza hainbat formatutan ematen du: transkripzioaren testua, azpitituluen fitxategia, eta transkripzioa hitzen denborekin (bideoan hitz bat zehazki zer segundotan esan den jakiteko, adibidez). Transkripzioa edo azpitituluak zuzendu edo aldatu egin daitezke jaitsi aurretik, Adituren onlineko edizio-interfazea baliatuta. Horrez gain, aukera ematen du ordenagailuaren edo telefono mugikorraren mikrofonotik esaten duguna aldiberean transkribatzeko.

Arg. Elhuyar

Gainera, zerbitzua web bidez baliatu ahal izateaz gain, neurri-neurriko soluzioak eskaintzen ditugu enpresa eta erakundeentzat. Zerbitzua bezeroaren laneko fluxuan, aplikazioan, CMSan... integra daiteke, APIa baliatuta. Aldibereko transkripzioa ere API bidez erabil daiteke, laguntzaile birtual batean integratzeko, ekitaldietan zuzenean azpitituluak jartzeko eta abar. Edo nahi izanez gero, bezeroarenean ere instala daiteke.

Erabilera ugari izan ditzake sektore askotan: irisgarritasunari begira, azpititulatzeko, ordenagailuari diktatzeko edo aginduak emateko; ikus-entzunezkoen enpresek, telebistak eta irratiek dokumental eta saioen azpitituluak automatikoki jartzeko balia dezakete; kazetariek elkarrizketen grabazioen transkripzioak egiteko; administrazio publikoak udalbatzarren edo bestelako bileren aktak jasotzeko edo saio publikoetan azpitituluak zuzenean jartzeko; hitzaldi edo ikastaroen azpitituluak sortzeko; pertsonen eta makinen arteko elkarrekintzan ere erabilgarria da (4.0 industriako hizketaz gidatutako makinak, domotika, elkarrizketa-agenteak eta laguntzaile birtualak, dei-zentroak…).

Adituren transkripzioaren kalitatea edo asmatze-tasa ona da, oro har, baina egia da oso aldakorra dela hainbat faktoreren arabera: audio-grabazioaren kalitatea, mikrofonoen kalitatea, oihartzuna, atzean zarata edo musika ozen entzuten den, erregistroa, hizkuntza estandarrean edo aldaeraren batean hitz egiten den, bolumena, abiadura... Baldintza optimoetan, % 95etik gorakoa izan daiteke asmatze-tasa. Emaitza onenak hauekin ematen ditu: hitzaldiak, udalbatzarrak, albistegiak, dokumentalak, erreportajeak eta abar. Aldiz, okerrago dabil euskalkietan, elkarrizketa espontaneo eta informaletan, filmetan... Horrez gain, emaitzak beti okerxeagoak dira aldibereko transkripzioaren kasuan. Hala ere, kasu gehienetan guztiz erabilgarria da.

Etorkizunerako aukera ugari

Aditu.eus-ek argia ikustea mugarri bat da Elhuyarrentzat eta euskararentzat, baina ez da bidearen amaiera edo helmuga, hasiera besterik ez da. Aditu hobetzen jarraitu behar dugu, hizketaren ezagutza hobeto egin dezan elkarrizketa informalekin, audio-kalitate txarrarekin, euskalkiekin, filmekin... edo, zergatik ez, bertsoekin.

Gainera, hizketaren ezagutza konbinatzen badugu euskararentzat lantzen ditugun bestelako hizkuntza- eta hizketa-teknologiekin (itzulpen automatikoa, txatbot-ak, hizketaren sintesia edo sorkuntza...), pentsa zenbat gauza egin daitezkeen: bozgorailu adimendunak, hizketatik hizketarako aldibereko itzulpena (nahi izanez gero jatorrizko ahotsak imitatuz)... Etorkizuna ilusioz ikusten dugu, euskara beste hizkuntzen pare egon dadin teknologietan eta zerbitzuetan. Elhuyarren, behintzat, horretan saiatzen jarraituko dugu buru-belarri.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia