Avec l'ordinateur dans la correction de texte
1988/12/01 Artola, Xabier Iturria: Elhuyar aldizkaria
2. Soulever le téléphone et marquer le numéro marqué.
3. Sonnerie, haute et basse.
4º Pressez la touche CONNEXION/FIN. Apparaît sur l'écran "CONNEXION EFFECTUÉE".
5. Accrochez le téléphone.
Actuellement, de plus en plus, les textes sont calculés à l'aide d'un programme de traitement de texte qui offre une grande facilité et aide pour des tâches ultérieures de correction et de révision.
Dans la production de textes en basque, en plus des problèmes de toute langue (erreurs de frappe, etc. ), d'autres aspects apparaissent également du point de vue de la correction. Il y a, entre autres, des erreurs de toutes sortes qui découlent du fait que la personne qui maquille le texte ou le compose dans l'imprimerie soit une personne sans alphabétiser, ou en castillan, les problèmes qui affectent la situation particulière d'unité linguistique actuelle, qui ces dernières années l'euskera s'est étendu à une infinité de nouveaux champs, etc.
Pour tout cela, diverses "irrégularités" apparaissent encore dans les textes en basque. De moins en moins. Il semble que les erreurs dues à la méconnaissance des règles ou à la négligence sont de moins en moins nombreuses. Mais le besoin de correction est là et sera là.
Et en quoi l'ordinateur peut-il aider ? Il a déjà été noté que l'utilisation de l'ordinateur dans la production actuelle est de plus en plus fréquente en raison des facilités offertes par les programmes de traitement de texte. Parmi ces facilités se trouvent, entre autres, les aides pour adapter le format du texte, pour passer d'un texte à un autre, pour introduire de nouveaux textes sans devoir réécrire tout le texte, etc. En outre, des systèmes apparaissent qui permettent de vérifier automatiquement l'orthographe de ce que nous écrivons en plusieurs langues, surtout en anglais, bien sûr, mais aussi dans d'autres plus proches. Certains de ces systèmes veulent aller plus loin, offrant des aides dans la correction par points, syntaxe et style.
Par conséquent, nous aurons désormais la possibilité d'effectuer une correction orthographique dans les menus des programmes de traitement de texte, mais il est évident que le système qui donnera cette aide n'est pas pour toutes les langues, mais doit avoir une version différente pour chaque langue. Et pour le basque, je crois que si nous ne le faisons pas ici, au moins pour un temps. Nous aurons bientôt – ils existent déjà – des systèmes qui nous offriront cette aide, même si dans leurs originaux en espagnol le permettent.
Voyons quels problèmes présente cette correction automatisée. Pour l'instant, nous nous limiterons au domaine de l'orthographe.
Nous avons deux types de programmes ou de systèmes : d'une part, des orthographies vérificatrices, c'est-à-dire qui nous font connaître les mots qui apparaissent mal écrits dans ce texte et que nous devons ensuite corriger. D'autre part, nous disposons d'orthographies rectificatives ou qui nous permettent de réaliser une révision orthographique et d'effectuer une correction en interaction avec l'ordinateur, proposant pour cela des alternatives possibles au mot erroné ou considéré comme erroné.
Les premières recherches dans ce domaine datent de 1957. Le premier produit fini est le programme appelé SPELL (1971).
La seule tâche des premiers programmes était de fournir une liste des différents mots d'un texte (ordinairement souvent ordonnée apparition). Ensuite, quelqu'un analyserait cette liste avec patience et trouverait des mots mal écrits (notez que les erreurs apparaissaient à la fin de la liste en raison de leur faible fréquence). Les programmes suivants ont commencé à effectuer une certaine analyse des mots (basé principalement sur l'analyse des digrammes et trigrammes, c'est-à-dire en tenant compte des différentes fréquences qui ont les différents couples de lettres et triples de lettres dans chaque langue, on pourrait calculer un indice de singularité du mot), qui ne mentionnent que celles qui pourraient être mal écrites. Mais la particularité des programmes actuels est qu'ils sont des programmes qui utilisent le vocabulaire. C'est-à-dire, pour savoir si un mot est correctement écrit ou non, on fait appel au dictionnaire : si le mot est là, il est donné par bon et sinon.
La construction du dictionnaire est très importante dans ces systèmes. Et c’est que la mesure du dictionnaire passe par une décision fondamentale: Que comprendre et que ne pas ? Sans trop penser, il semble que le mieux est de tout mettre. Mais tout de suite nous réaliserons le danger de le faire : ce dictionnaire aura beaucoup de mots obsolètes, la plupart inutiles, et la possibilité de donner pour bon les mots communs mal écrits sera plus grande. Euskera, par exemple:
avec le mot 'aueta' dans le dictionnaire
aubaine aubaine aubaine
(bn-gar), augette (bn-sel) sérénade, peignée / aubade, sérénade (Col.)
''Â''
Vous devez accepter le mot 'auetako', même si c'est beaucoup plus sûr qu'au lieu d'écrire 'ces' est une erreur.
Les erreurs de vocabulaire rares sont également évidentes, avec le danger que les mots bien écrits (pour ne pas être dans le dictionnaire) soient considérés comme mauvais.
En outre, face à l'efficacité de ces systèmes, il est évident que l'une des tâches les plus critiques à effectuer est la recherche dans le dictionnaire, de sorte que la mesure et l'organisation du dictionnaire sont des facteurs très importants. La stratégie la plus utilisée pour gagner du temps dans la recherche consiste dans le traitement des mots de plus grande fréquence: à travers une analyse statistique on identifiera ces mots et la recherche dans le dictionnaire sera divisée en deux niveaux: d'abord on vérifiera si le mot du texte est parmi ceux de plus grande fréquence (cette recherche se réalisera avec ennui, car ils ne sont pas tant de mots), et s'il n'existe pas (et seulement alors) on recourra au dictionnaire général. Dans ce sous-dictionnaire de mots le plus souvent, on pourrait disposer d'un certain nombre de mots allant de 250 à 500, dont environ 50% des mots du texte devraient être compris.
Jusqu'à présent, nous nous sommes limités aux orthographies de vérification. Cependant, la plupart des programmes actuellement en vente offrent également une aide pour la correction interactive : nous avons des orthographies rectificatives. Sa particularité réside dans la façon de travailler. Pendant que le programme effectue la vérification orthographique, l'utilisateur se trouve devant l'écran. Au moment où le programme détecte une erreur, il fera remarquer le mot sur l'écran et demandera à l'utilisateur ce qu'il doit faire. Alors l'utilisateur a différentes options: vous pouvez corriger le mot ou demander au système de lui donner des alternatives possibles à ce mot, puis choisir entre eux, bien sûr correcte. Vous n'aurez pas non plus la possibilité de garder le mot. En outre, la plupart des systèmes gèrent un vocabulaire de l'utilisateur dans lequel l'utilisateur ne connaît pas le système et peut introduire certains mots qu'il utilise habituellement. Une fois réapparu, le système ne les considère pas comme erronés.
Tout d'abord, il y a des mois où un projet a commencé qui a comme premier objectif le correcteur orthographique pour le basque. Dans ce projet participent l'entreprise de services du secteur informatique APIKA, UZEI et l'équipe dédiée au traitement du langage naturel à la Faculté d'Informatique de San Sebastián. Comme il a été dit, la première intention de ce groupe est d'offrir une orthographe correctrice interactive à tous ceux qui écrivent en basque avec l'aide de l'ordinateur. Rappelez-vous que, pour le moment, nous nous référons à l'orthographe et donc à cette succession de caractères pour admettre un mot (succession de caractères entre espaces), sans prendre conscience de son contexte. Je pense que beaucoup des erreurs qui apparaissent dans les textes en basque ne peuvent pas être corrigées de cette façon, car ils sont souvent des erreurs de syntaxe ou d'autres.
Par exemple, l'enseignement, l'examen, ou l'écriture de l'enchevêtrement, sont considérés comme erronés, mais vous ne serez pas attraper dans quelque chose de vide, comme vous l'avez dit, dans des phrases comme aujourd'hui lundi, parce que les mots peuvent être approuvés individuellement. Pour pouvoir les détecter, en plus de la simple information orthographique de vocabulaire, il faut une autre grande quantité d'informations, comme celle fournie par l'analyse morphosyntaxique de la prière. Laissons cela pour plus tard, parce que ce n'est pas un travail lent, même si un jour il faudra l'aborder.
Il a été mentionné précédemment à l'équipe de la zone de traitement du langage naturel qui fait partie du projet. Les langages artificiels couramment utilisés dans le monde de l'informatique ont donné lieu à une curieuse dénomination de langage naturel pour parler du langage commun. L'importance de ce domaine, qui se concentre sur la compréhension de la langue et la création automatique de la langue, est de plus en plus importante. D'une part, l'importance de pouvoir communiquer avec les ordinateurs dans des langages naturels (dans notre cas, en basque), et d'autre part, la contribution que cette adaptation à la logique et aux systèmes des ordinateurs suppose à la connaissance théorique de la propre langue.
L'existence d'une série d'outils et de systèmes généraux pour ce domaine de travail du traitement du langage naturel fait que chaque langue exige sa propre infrastructure : les bases dans n'importe quelle langue sont des analyseurs morphologiques et syntaxiques automatiques. Ensuite viendront les problèmes les plus confus de la sémantique et de la pragmatique.
Une langue avec un degré élevé de flexion comme l'euskera présente des problèmes morphologiques spéciaux quand on veut faire face à son traitement automatique. Cependant, en résolvant ces problèmes, l'information obtenue de la même analyse morphologique est beaucoup plus riche que dans d'autres langues avec une morphologie plus simple. Cette information est d'une grande importance dans les niveaux après l'analyse, c'est-à-dire lorsqu'on prétend analyser la syntaxe et la sémantique du langage. Dans des langues comme la nôtre, l'analyse morphologique est le premier problème que tout système de traitement linguistique devra résoudre.
D'autre part, nous avons parlé de l'importance des mesures de vocabulaire nécessaires par le correcteur orthographique. Il est évident que dans des langues comme l'euskara, chaque mot parlé avec toutes ses pompes (et nous ne parlons que de flexion au niveau du déclin) augmentera énormément le vocabulaire, puisque le temps de recherche est trop long. Dans d'autres langues (pensez par exemple à la morphologie anglaise) ce problème a été sous-estimé et a parfois introduit toutes les formes de mots dans le dictionnaire. Dans les langues de morphologie plus complexe, cependant, ce problème doit être abordé correctement et dans le vocabulaire il y aura seulement des slogans, même si le traitement est plus compliqué.
Selon cela, vérifier la correction orthographique d'un mot n'est pas seulement de s'assurer que ce mot est dans le dictionnaire. Parce que le mot entier n'a rien à voir dans le dictionnaire. Quand la racine du mot est dans le dictionnaire des slogans, plus la succession de suffixes qui pourraient être associés à cette devise, ce sera par derrière ce qu'il faut vérifier, pour que le mot soit accepté. Par conséquent, une analyse morphologique (mais non exhaustive) du mot sera effectuée pour vérifier sa correction.
Comme on peut le voir, la relation entre l'analyseur morphologique et le correcteur orthographique est extrêmement étroite et peut être considérée comme sous-produit du baptême. Les deux voudraient donc être les premiers résultats de ce groupe, qui partait de la tâche de casser la route du traitement automatique de l'euskera.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia