Ber2Tek: un pas de plus dans les technologies pour l'euskera

2015/05/27 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

Peu à peu, les ordinateurs dominent les langues de l'être humain et, inconsciemment, nous communiquons de plus en plus avec elles en utilisant le langage naturel et les machines nous aident toujours plus avec les problèmes linguistiques (traduire, corriger…). Mais aussi en basque ? Heureusement, grâce à des projets de recherche tels que Ber2Tek, les appareils numériques le font en basque.
Une démo 3D avatar nous enseignera l'euskera. Ed. Elhuyar R & D

Les technologies linguistiques et de parole permettent aux machines de comprendre, traduire ou créer un langage naturel. Les technologies linguistiques se réfèrent à la capacité d'interagir avec les textes (corriger, comprendre, traduire, gérer…) et les technologies de la parole à la capacité de gérer la parole (comprendre, créer…). Les technologies les plus avancées se trouvent naturellement dans les langues les plus répandues et donc avec plus de ressources (anglais, espagnol, chinois…). Cependant, dans le basque et dans d'autres langues minorifiées la situation n'est pas si bonne. Cependant, les Basques ne peuvent pas se plaindre : compte tenu de notre situation minorifiée et du nombre limité de locuteurs, l'euskera ne fonctionne pas si mal, au moins proportionnellement.

Projet Ber2Tek

En fait, beaucoup d'agents d'Euskal Herria ont depuis longtemps étudié les technologies linguistiques et parlant pour l'euskera. Par exemple, nous collaborons depuis de nombreuses années sur un projet stratégique à la Fondation Elhuyar, aux groupes de recherche IXA et Aholkularitza de l'Université du Pays Basque et aux centres technologiques Vicomtech-IK4 et Tecnalia. Cette collaboration s'est matérialisée auparavant dans trois projets subventionnés par le Gouvernement basque à travers le programme Etortek : Programmes Hizking XXI (2002-2004), AnHitz (2006-2008) et BerbaTek (2009-2011). Le fruit final de cette collaboration est le projet Ber2Tek, développé entre 2012 et 2014, coordonné par Elhuyar R & D.

Au cours de ces années, nous avons beaucoup travaillé sur la recherche des technologies citées, en poursuivant l'amélioration de certaines des technologies déjà développées et en générant beaucoup de nouvelles. Beaucoup de ressources générales ont été créées ou améliorées (corpus, ontologies, dictionnaires…); des techniques de création automatique de ces ressources ont été travaillées; les outils d'analyse de l'euskera ont été améliorés (labels morphologiques, syntaxiques et sémantiques, correcteurs, entités expertes…); on a avancé dans la traduction automatique; on a développé des technologies de gestion de contenu; on a développé des technologies d'enseignement; et on a avancé

Mais Ber2Tek et ses prédécesseurs ne cherchent pas seulement la recherche : nous voulons faire connaître ces technologies et convertir les résultats de la recherche en applications et les rendre accessibles au public. Comme colophon au projet, nous construisons une série de démos ou de démonstrateurs qui montrent la contribution de ces technologies à un certain champ. Dans ce cas, nous avons voulu montrer en quoi ces technologies peuvent contribuer au secteur de l'Industrie des Langues, c'est-à-dire au secteur formé par les domaines de traduction, contenu et enseignement. Les démos sont disponibles en http://www.ber2tek.eus/es/demoak .

Démos d'applications pratiques

Groupe de travail de projets de recherche Ber2Tek. Ed. Danel Solabarrieta/Elhuyar

Comme preuve de ce qui peut être fait dans le secteur du contenu, nous avons monté une démo qui nous montre ce qu'est la technologie d'extraction d'opinions ou d'analyse des sentiments. L'extraction des opinions consiste à extraire automatiquement, à partir d'un texte, si vous avez une opinion subjective et, si vous l'avez, quelle est sa polarité (positive ou négative). Cette technologie peut avoir plusieurs applications, par exemple, pour que les entreprises sachent facilement ce qui est dit sur le réseau sur eux ou leurs produits (dans de nombreux endroits et dans différentes langues). Dans la démographie que nous avons réalisée, nous avons pris l'hémérothèque de Critiques du site Armiarma.eus, qui recueille plus de 5.000 critiques littéraires en basque provenant de divers médias et publications, et chacun d'eux a été automatiquement attribué un score en appliquant la technologie d'extraction d'opinions en basque développée à Ber2Tek. En sélectionnant des auteurs, des œuvres, des années ou d'autres paramètres sur le site de la démo, vous pouvez visualiser les scores de forme graphique, voir la critique elle-même et analyser les mots positifs et négatifs. En fait, ces mots sont basés sur la technologie pour attribuer des scores.

Une autre démo montre ce qui peut être fait dans le domaine de la traduction via un moteur de recherche multimédia. Plusieurs vidéos ont été reçues en espagnol et en basque et ont été transcrites automatiquement en connaissance de voix. Lorsque vous obtenez le texte de ces vidéos, vous pouvez effectuer des recherches sur eux et, si vous le souhaitez, sauter instantanément à l'instant où le mot que vous recherchez est indiqué. Les transcriptions des vidéos sont automatiquement traduites en espagnol, en basque ou en anglais, où nous pouvons afficher des sous-titres. Une fois traduits, nous générons également de l'audio dans ces autres langues, en utilisant la technologie de la synthèse de la parole, tandis que dans le cas où il s'agit de présentations de certains orateurs, la voix de l'orateur produite dans l'autre langue se produit en imitant la technologie de la transformation de la voix.

Enfin, nous avons fait la démo d'un tuteur personnel d'enseignement des langues pour ce secteur. Il y a trois ans, à la fin du projet BerbaTek, nous avons fait quelque chose de semblable, mais cette fois il a plus d'intentions et de possibilités; d'autre part, c'était une application de bureau, et cette fois il est en ligne et peut être testé par n'importe qui. Le tuteur de la démo est un avatar 3D avec lequel nous communiquons en basque, oralement. Le tuteur nous guide dans des exercices verbaux, déclinatifs ou de compréhension créés automatiquement; il nous évalue notre prononciation; nous pouvons lui demander comment décliner certains verbes et comment écrire un certain nombre; nous pouvons lui dire de chercher un mot dans le dictionnaire; il nous montrera des résultats de plusieurs dictionnaires…

Ces démos que nous avons assemblés, comme leur nom l'indique, ne sont que des démos, mais ils servent à avoir une idée approximative de l'état actuel des technologies et de ce qu'ils peuvent faire, et nous espérons que nous le verrons bientôt appliqué à des outils réels, comme l'ont déjà créé des applications réelles depuis d'autres technologies.

Comme nous le verrons à travers ces démos, il est vrai que les technologies linguistiques et vocales pour le basque sont assez avancées. Cependant, il reste encore beaucoup de chemin à parcourir si nous voulons atteindre la situation d'autres langues et si nous voulons vraiment le faire en basque avec des appareils électroniques dans tous les domaines de la vie quotidienne. Au moins, les organisations qui ont mené le projet Ber2Tek n'ont pas terminé notre travail à la fin du projet et nous continuons à travailler pour le réaliser.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia