Des données, des données chanceuses

« Donner et donner des données, devons-nous nourrir le monstre nous-mêmes ? » m’a demandé un jour un ami. Il m'a semblé qu'il ne s'agissait pas seulement d'une simple question, mais aussi d'une question indiscrète, à savoir qu'il voulait me dire "en quoi tu te mêles, sous prétexte d'alimenter l'intelligence artificielle en sous-estimant le travail des créateurs". Il était également important de considérer l'intelligence artificielle comme un monstre dans la question.

Et il m'a donné à réfléchir. Mon ami m’a clairement dessiné les deux côtés: l’un, les donneurs de données, l’autre, ceux qui sont engagés dans la recherche et le développement de l’intelligence artificielle créatrice (AAS), les consommateurs de données. Afin d'éviter tout décalage entre les deux parties, il convient de clarifier les rôles et les perspectives des uns et des autres.

L'auteur est le propriétaire de l'œuvre qu'il a créée, quel que soit le format, et les droits d'auteur ne peuvent pas être cédés. L'auteur décide s'il doit ou non le publier et, dans l'affirmative, comment le publier. En cas de décision de mise à la disposition d'une maison d'édition, les droits d'exploitation sont établis par contrat avec la maison d'édition, qui contient les conditions des autorisations de reproduction, de distribution et de vente de l'œuvre. Jusque-là, rien de nouveau.

Ces travaux, disons-nous, sont indispensables au développement de l'AAS. Les géants de la technologie ont commencé à collecter systématiquement des textes, des audios et des vidéos avant que nous ne nous en rendions compte, et cette collecte n'a pas cessé depuis. La façon dont la collecte de données a été massifiée est impressionnante. De partout, les données sont collectées à tout moment et en toute circonstance, lors d'une aspiration intensive.

Il y a une grande confusion quant à la légalité et à la légitimité de cette collecte. Tout d'abord, si elles sont publiées sous licence ouverte, disons sur le Web, elles sont disponibles et donc utilisables. Dans de tels cas, sauf indication contraire de la personne qui possède ces données, le développeur de modèles linguistiques peut utiliser et publier ces données. En revanche, en cas de publication sous des licences plus restrictives, la possibilité d'une republication par un tiers peut être refusée. Mais la question est : les modèles linguistiques peuvent-ils s'entremettre avec ces données ?

Il y a de bonnes raisons de dire oui. En effet, les modèles linguistiques ne reproduisent pas, ne distribuent pas et ne vendent pas les données en tant que telles. Ils utilisent les données. Ce n'est pas du plagiat ou de la copie. Il y a là une innovation radicale apportée par l'AAS. Jusqu'à présent, nous n'étions que des personnes qui utilisaient les données pour nous habiller, et c'est pourquoi on dit que dès que les données sont publiées, elles deviennent des connaissances collectives. Or, c'est ce que font les modèles de langues, pour compléter le modèle mathématique qu'ils ont en eux d'utiliser cette connaissance. Il ne semble donc pas y avoir d'objections juridiques manifestes à cette pratique. Cette approche est forte parmi les chercheurs et les développeurs dans le domaine de l'AAS.

Mais il y a une autre question qui mérite d'être soulignée : l'utilisation technologique de cette connaissance collective a une telle valeur économique, comment tout cela doit-il être géré ? Il y a bien sûr la question du partage des avantages, qui exige la reconnaissance du travail des auteurs et des fournisseurs de données. - Quoi ? C'est une question complexe, trop complexe pour être abordée dans ce petit laps de temps.

Ce qui est clair, c'est que la solution n'est pas de mettre des limites et des obstacles à la connaissance qui a été collectivisée, c'est-à-dire aux données publiées. Ce comportement va à l'encontre des données et des connaissances ouvertes et finit par nuire aux petites langues et aux ressources limitées.

Des langues comme le basque ont besoin de faciliter l’utilisation des données et d’emprunter la voie des licences ouvertes pour que ce que nous, bascophones, avons créé en basque soit également pris en compte dans les services et les produits technologiques. Ce dont nous avons vraiment besoin, c'est que ces produits le fassent aussi de manière correcte en basque, au niveau des langues puissantes.

Nous avons cité les auteurs, les éditeurs, les collecteurs et les développeurs, mais il y a aussi les utilisateurs, et à l'ère de l'AAS, les utilisateurs ne sont pas seulement des utilisateurs, ils sont aussi des donneurs de données. Lorsque nous effectuons des consultations, lorsque nous donnons notre consentement ou notre refus aux réponses, nous fournissons des informations. La première tâche est d'être conscient de cela et la seconde d'agir de manière responsable.

Mon ami me parlait de la peur de nourrir le monstre. La diligence et la reconnaissance des créateurs sont nécessaires, oui, mais les craintes paralysantes et le refus des données ne nous apporteront aucun bien.

Buletina

Bidali zure helbide elektronikoa eta jaso asteroko buletina zure sarrera-ontzian

Bidali