Auzolan numérique en faveur de l'euskera

2019/09/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

Dans nos vies sont de plus en plus intégrés des outils et des services qui utilisent des technologies linguistiques et de parole: assistants virtuels, haut-parleurs intelligents, traducteurs automatiques... Le développement de ces technologies nécessite des ressources, mais pas seulement économiques; en particulier, les ressources linguistiques pour former les systèmes sont absolument nécessaires: enregistrements audio, exemples d'entretiens, traductions... Ils sont plus rares en basque que dans d'autres langues plus répandues, donc, comme le démontrent certaines initiatives récentes, on fait récemment appel au crowdsourcing pour créer ces ressources. Derrière ce grandiose anglicisme, en fin de compte, il n'y a qu'un auzolan si enraciné parmi nous, dans ce cas l'auzolan numérique.
Ed. Common Voice

Qui n'a jamais utilisé un assistant virtuel ou un agent de dialogue ? Siri, Google Assistant, Cortana et d'autres sont installés par défaut sur nos téléphones mobiles et ordinateurs, et bien que, par exemple, je n'ai utilisé que pour faire le test, il est très courant que les jeunes générations les utilisent. Les systèmes de dialogue par texte, également appelés chatbots, sont de plus en plus courants sur les sites Web, les applications et les programmes de messagerie comme Whatsapp. Traduction automatique est devenu presque une ressource quotidienne pour comprendre un texte qui se trouve dans une langue que nous ne maîtrisons pas ou, au moins, quand nous devons créer un texte dans une autre langue pour avoir une première version pour le corriger. Il existe de nombreux services et sites Web pour cela, et les traducteurs automatiques sont intégrés dans les applications et les sites Web. Les audios et vidéos sont également automatiquement transcrits ou sous-titrés.

Quelles caractéristiques communes ont tous ces exemples ? Au moins deux choses: une, toutes basées sur des technologies linguistiques et de langue; l'autre, qui n'existe pas en basque ou qui, en général, fonctionnent plus mal que dans d'autres langues.

Une des causes de cette dernière est, logiquement, l'économique. Beaucoup plus de ressources humaines et économiques sont affectées à la recherche et au développement de ce type de technologies dans des langues de grande taille, en raison de la taille, le pouvoir et la diffusion des grandes langues, et encore moins au développement en basque. Mais il y a une autre raison : il y a une grande différence dans la disponibilité des enregistrements, des traductions, des exemples de dialogue, etc. Les langues hégémoniques ont beaucoup plus de ressources disponibles que l'euskera.

En fait, aujourd'hui, les méthodes les plus utilisées pour le développement des technologies linguistiques et de la parole et qui offrent de meilleurs résultats sont basées sur des exemples. En particulier, la technologie utilisée actuellement dans ces technologies est celle des réseaux neuronaux profonds (deep neural networks), avec lesquels il a été démontré que la meilleure qualité est obtenue. Et ces systèmes ont besoin de nombreux exemples pour apprendre et fonctionner en quelque sorte. Un système de traduction automatique à travers des réseaux neuronaux nécessite de nombreux exemples de traduction pour s'entraîner et se développer correctement; un système de dialogue, de nombreux exemples de conversations et un système de transcription, de nombreux exemples d'audios transcrits. C'est pourquoi les ressources linguistiques mentionnées sont si nécessaires, et c'est pourquoi les systèmes des langues avec moins de ressources de ce type fonctionnent pire.

Les Basques, par leur thématique, nous voulons être aussi dans notre langue les instruments et services d'autres langues, et pour cela il est nécessaire de créer des ressources linguistiques, de sorte que récemment ont été lancées diverses initiatives pour leur création à travers le crowdsourcing. Le crowdsourcing signifie profiter de la collaboration de nombreuses personnes pour obtenir quelque chose, en particulier avec le développement d'Internet, qui facilite la communication et la coordination des groupes de personnes. Mais derrière ce nom, après tout, il n'y a qu'un auzolan que nous utilisons depuis longtemps, dans ce cas l'auzolan digital (terme utilisé par l'association Librezale pour désigner l'initiative Common Voice que nous exposerons ci-dessous).

Initiative Common Voice en basque

Common Voice est l'un des derniers projets pour créer des ressources pour l'euskera. En fait, ce n'est pas une initiative créée au Pays basque, mais une initiative lancée par la Fondation Mozilla. La Fondation Mozilla, qui se trouve derrière le navigateur libre Firefox, vise à atteindre un site Web ouvert et gratuit qui facilite l'accès au grand public, y compris le navigateur Firefox lui-même et d'autres dispositifs et outils. Pour cela, il vise à créer une technologie sans connaissance de la parole pour le plus grand nombre de langues possibles. Grâce au projet Common Voice, les gens donnent des enregistrements vocaux pour développer des systèmes de reconnaissance de la parole. Ces enregistrements sont libres, de sorte que non seulement Mozilla, mais toute autre personne peut les utiliser pour développer la technologie de reconnaissance de la parole. De nombreuses personnes du monde entier font des enregistrements en plusieurs langues dans le projet Common Voice : Environ 2000 heures ont été enregistrées dans 28 langues et d'autres langues sont en cours.

Librezale vise à promouvoir l'euskera dans le monde des TIC et donne la priorité au logiciel libre. En février, il a lancé l'initiative de réaliser des enregistrements en basque au sein du projet Common Voice. Librezal a réalisé ses premiers travaux (traduction du web, compilation de phrases à enregistrer...) et, une fois mise en marche, il a travaillé à la promotion de l'initiative, à l'organisation de marathons, etc. avec la collaboration de différents agents: Les groupes Argia, iAmetza, IXA et Aholkularitza de l'UPV, Garabide, Elhuyar Fundazioa... Un grand travail a été accompli et porte ses fruits: quatre mois après la mise en œuvre du projet, grâce à 508 utilisateurs, 83 heures ont été enregistrées, dont 45 ont été validées. Rien de mal, étant donné qu'à la même époque et avant, en espagnol, par exemple, il y avait 32 heures réalisées; en italien, 35 heures; en néerlandais, 21 heures... Nous sommes loin de 1200 heures que vous voulez obtenir, mais il va certainement bien. Si vous voulez collaborer avec l'initiative, entrez dans https://voice.mozilla.org/eu et enregistrez des phrases ou validez celles qui existent.

Collecte des entretiens du Groupe IXA

Même dans le groupe IXA de l'Université du Pays Basque, ils ont pris la voie de l'auzolan numérique pour développer un chatbot ou un système de dialogue pour l'euskera. Plus précisément, il est prévu de développer un chatbot répondant aux demandes d'information de l'utilisateur à la recherche d'informations sur Internet, en gardant la conversation aussi naturellement que possible. L'initiative se déroulera dans le cadre d'un projet de recherche: Dirigé par les professeurs Eneko Agirre et Aitor Soroa, il a la participation des chercheurs Jon Ander Campos et Arantxa Otegi, ainsi que de l'élève de master Aitor Agirre. Il a également reçu l'un des prix de recherche décernés chaque année par Google (Google Faculty Research Awards). Le projet est basé sur des interviews en anglais, mais sera utilisé pour le développement dans d'autres langues.

Comme il a été dit, le développement d'un système de ces caractéristiques nécessite de nombreux exemples de conversations réelles qui ont voulu être complétées par la contribution des Basques volontaires. Pour cela, ils ont préparé un site sur lequel les utilisateurs ont été placés deux par deux, l'un interrogé sur un article de Wikipedia et l'autre lui a donné des réponses en sessions d'environ 10 minutes. Un exemple d'une telle conversation, basée sur l'article de la Korrika de Wikipedia, serait:

Ed. AAC

- Qu'est-ce que Korrika?

- Korrika est une marche qui court pour Euskal Herria en faveur de l'euskera.

- Quelle longueur avez-vous?

- Le parcours change mais s'étend toujours sur 2300 kilomètres.

- Combien de temps?

- Environ deux semaines.

- Non stop?

- Oui, la marche ne s'arrête jamais, ni la nuit, ni par les mauvaises conditions météorologiques.

La collecte d'exemples a eu lieu en juin, avec l'intention de recevoir 400 entretiens et 356 entretiens. Ce n'est pas peu ! Il vise à libérer les entrevues reçues afin que quiconque puisse les utiliser dans tout autre projet.

Il est clair que de telles initiatives sont très intéressantes et nécessaires pour l'avenir. Si les Basques réussissent à porter à bon port l'auzolan si propre dans le monde numérique, nous nous assurerons que les machines parleront en basque.