« Il est difficile de créer un modèle éthique universel pour les machines. »

Xabier Saralegi Urizar est chercheur en intelligence artificielle chez Orai NLP Technologies, une nouvelle initiative technologique promue par la Fondation Elhuyar. Il tente d'exploiter tout le potentiel de la numérisation en faveur de la langue basque. Son équipe étudie les traducteurs automatiques, la synthèse vocale et d'autres technologies. Elle vise également à lutter contre les comportements discriminatoires et racistes de ces technologies. Après tout, créer des machines plus éthiques et humaines.


Les machines sont très bonnes en arithmétique. Pas tant qu'il communique avec les humains. Mais ils font aussi ça de mieux en mieux. Les technologies de la parole ont-elles un grand potentiel ?

Oui, ils l'ont. Dans le domaine de l’intelligence artificielle, il existe deux disciplines qui, bien que très complexes, ont acquis une grande force : d’une part, la vision – reconnaissance et traitement d’images – et, d’autre part, le traitement du langage naturel. Il faut des algorithmes très complexes pour automatiser ce processus que le cerveau humain fait naturellement sur les machines. Par exemple: la traduction automatique, les systèmes de questions-réponses, les systèmes de synthèse de texte, les correcteurs grammaticaux, etc. Mais nous obtenons de meilleurs résultats chaque jour.

Votre but est-il de faciliter la communication entre les humains par les machines ?

Oui, mais ce n'est pas tout. Après tout, la plupart des informations générées dans le monde sont codées dans notre langue. Ce Big Data est présent dans le langage humain et sous forme numérique. Par conséquent, cette source est la plus productive pour accéder à toute information. Pour tirer parti des informations que nous avons numérisées et effectuer une variété d’analyses, le traitement du langage naturel est nécessaire. C'est ainsi que nous profiterons de cette information.

Mais vous avez toujours dit que les machines sont racistes et excluantes.

Oui, c'est ça. Pour que les machines apprennent le langage humain, elles s’entraînent avec des textes créés par l’homme : nouvelles, romans... Dans ces textes, on voit nos comportements; ils reflètent notre société raciste et excluante. Ainsi, les machines apprennent des comportements d'exclusion.

Dans la traduction automatique, par exemple, on le voit très clairement dans les professions: il considère souvent les ingénieurs directement comme des hommes et les infirmières comme des femmes. Il en va de même pour les minorités religieuses : un système qui extrayait des synonymes ou des relations sémantiques, par exemple, associait parfois l'islam au terrorisme. Google a également développé un service de détection d'objets photographiques qui, dans certains cas, classait les personnes noires comme des gorilles.

Comment peut-on enseigner l'éthique à une machine ?

En réalité, le biais ou les attitudes d’exclusion proviennent des textes d’entraînement que nous devons « nettoyer ». Le fait est qu'il y a beaucoup de minorités et beaucoup de conflits éthiques qui se croisent parfois. Il n'est pas possible de nettoyer des millions de textes et de créer un corpus éthique universel qui n'a pas de biais dans aucun problème social. C'est éthiquement difficile, pas seulement technologiquement.

Il est possible de créer des modèles éthiques en se concentrant sur un problème particulier, et c'est ce que nous faisons. Mais les algorithmes que nous créons pour que les machines apprennent peuvent aussi amplifier le biais inhérent aux textes. Les deux facteurs doivent être pris en compte.

ARG Jon Urbe/Photographie Press
Si les machines veulent communiquer et comprendre avec les humains, elles devront détecter et comprendre nos émotions. Est-ce possible ?

Les modèles linguistiques neuronaux sont maintenant principalement utilisés pour permettre aux machines d'apprendre le langage naturel, et dans ces modèles linguistiques neuronaux, on essaie de distinguer les différents niveaux d'abstraction du langage: morphologique, syntaxique, sémantique et pragmatique. Et ce dernier comprend les émotions. Une échelle de six catégories a été proposée pour détecter les émotions: colère, joie, tristesse... Ce qui se passe, c'est que dans la langue orale, il faut également prendre en compte les gestes et l'intonation pour détecter les émotions. Par conséquent, le traitement d'image est également nécessaire. Il faut une architecture neuronale qui combine trois disciplines: la reconnaissance d'images, la technologie de la parole et la compréhension du langage. C'est ce qu'ils étudient déjà.

L'ironie est plus difficile à détecter. Pour ce faire, le système devrait se concentrer sur l’ensemble et le contexte global, ce que nous appelons la « connaissance du monde ». Pour comprendre les blagues, la machine doit d'abord apprendre quelques références culturelles. Intégrer toute cette connaissance du monde dans les réseaux neuronaux est très complexe. Il n'y a pas de réseau neuronal qui produit de bonnes blagues, par exemple. Mais ça viendra aussi.

Vous parlez des réseaux neuronaux, mais à quoi ressemblent-ils ?

Par exemple, le traducteur automatique Elia que nous avons développé, quand nous voulons traduire une phrase, doit prendre une phrase et annoncer comment elle est dite dans une autre langue. Il a donc deux variables: celle de l'entrée et celle de la sortie. Il peut s'agir d'un mot d'introduction, et certains neurones doivent prédire comment le traduire. Ces neurones fonctionnent avec des bits: ils reçoivent un numéro à l'entrée et donnent un numéro à la sortie. En binaire, 0 ou 1.

Ce que vous appelez neurone, c'est vraiment une formule mathématique ?

Oui, une formule. Vous avez un certain nombre de valeurs dans l'entrée, et pour donner la valeur de sortie, les valeurs d'entrée sont combinées. Mais pour chaque mot entrant, il faut beaucoup de neurones connectés entre eux. Et parce que c'est un langage complexe, il faut des millions de neurones, des millions de formules mathématiques reliées entre elles. Comme les neurones biologiques. D'où le nom des réseaux neuronaux. Ces architectures neuronales peuvent être organisées par couches. D'une certaine manière, on apprend la morphologie dans la première couche, la syntaxe dans la seconde, la sémantique dans la troisième

Et pour obtenir de meilleurs résultats, nous devons ajuster ces formules. Mais comment ajuster un million de formules ? Il n'est pas possible de le faire manuellement. Nous utilisons des algorithmes d'optimisation jusqu'à ce que nous les analysons automatiquement et que nous trouvions les paramètres qui donnent les meilleurs résultats pendant l'entraînement.

Comment les machines apprenaient-elles avant d'inventer les réseaux neuronaux ?

Il a eu une longue évolution. Dans un premier temps, des méthodologies basées sur les règles de la langue étaient utilisées: “Si, dans une phrase, ce mot apparaît dans cette position et qu’il y a un pronom à côté...” Mais le langage est complexe et il y a trop de règles, donc les résultats n'étaient pas bons. Ils ont alors pensé que les modèles statistiques seraient les plus appropriés. Les résultats se sont légèrement améliorés. en 2010, Mikolov, un chercheur de Google, a proposé une technique pour mieux représenter les caractéristiques linguistiques des mots. Et ils ont commencé à utiliser des réseaux neuronaux profonds.

ARG Jon Urbe/©FotPress

Mais en 2017 et 2018, d'autres chercheurs de Google ont proposé des innovations pour mieux appréhender la complexité du langage. Ces innovations ont consolidé le paradigme d’aujourd’hui, où la connaissance d’une langue est concentrée dans un gigantesque modèle de langage neuronal qui peut être adapté pour effectuer des tâches précises de traitement du langage. Cela a conduit à un boom des technologies linguistiques.

Comme les machines n'ont pas la capacité d'abstraire, elles ont besoin de beaucoup d'exemples pour apprendre n'importe quoi. Est-ce que cela rend difficile la création de technologies pour les petites langues?

Oui, c'est une grande frontière. Nous travaillons sur un projet avec le Centre HiTZ et Vicomtech pour obtenir la plus grande base de données de l’histoire de la langue basque. nous avons obtenu un corpus de 400 millions de mots. En anglais, ils gèrent des milliards.

Aujourd’hui, la santé des langues est également mesurée dans le domaine numérique. Les politiques linguistiques devront donc tenir compte du développement de la technologie, n'est-ce pas ?

Il est clair que le plus important pour renforcer la vitalité numérique d'une langue est la création de contenu. Mais ensuite, pour créer une interaction dans cette langue, nous avons besoin d’outils numériques : traducteurs automatiques, sous-titrage automatique, recommandations d’actualités... Pour consommer du contenu, les technologies linguistiques sont nécessaires.

La communication a été complètement transformée par la numérisation. En ce moment, vous pouvez lire le tweet écrit par un journaliste russe dans votre langue. Mais pour cela, les langues ont besoin d'un soutien technologique. Sinon, ils seront mis hors jeu dans un court laps de temps. Par conséquent, oui, il est important que les politiques linguistiques aient une stratégie numérique claire. Le basque n'a cependant pas de stratégie très claire.

Dans l'interview, vous avez mentionné que les principaux progrès ont été réalisés par Google. Dans ce contexte, la souveraineté technologique est-elle importante ?

Je pense qu'il est essentiel d'être autonome sur les technologies qui sont essentielles à la survie de notre langue. Surtout pour pouvoir marquer des lignes stratégiques et ne pas dépendre de qui que ce soit. Google propose des services – traducteurs, moteurs de recherche, systèmes de transcription... – et j’entends souvent des gens qui ont peur : « Si Google ne sort pas les versions en basque, nous serons exclus ! » Mais peut-être le plus important n’est-il pas que Google le fasse, mais que nous acquérions nous-mêmes le savoir-faire pour le faire. Être cette science, en effet, c'est être autonome. Cela nous donnera la capacité de faire face à toute situation sans dépendre des grandes entreprises.

La plupart des innovations ont été faites par des chercheurs de Google, mais ils ont mis des algorithmes et d'autres ressources à la disposition de tous. Au Pays Basque, nous avons beaucoup profité de ces ressources. Il y a trois équipes Centre HiTZ, Vicomtech et Orai NLP Technologies. Nous avons donc les ingrédients pour atteindre la souveraineté technologique. Mais un financement public solide est nécessaire, car le marché ne sauvera jamais les faibles.

Buletina

Bidali zure helbide elektronikoa eta jaso asteroko buletina zure sarrera-ontzian

Bidali

Bizitza