Technologie de CorpEus et Elebilapour recherches web en basque

2007/11/26 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia

Récemment, et en très peu de temps, sont apparus sur Internet basque deux intéressants services web: CorpEus et Elebila . Compte tenu de ce qui a été lu sur différents sites Internet, il semble que lors de la présentation de ces services ne comprennent pas bien en quoi consiste cette technologie. Dans cet article, nous allons essayer d'expliquer plus clairement ce qui est sous CorpEus et Elebila.
Elebila, chercheur en basque

CorpEus est un outil pour consulter Internet comme corpus en basque et Elebila un chercheur en basque.

Bien que les résultats des deux outils soient différents et les utilisations qui peuvent être données, les deux font des recherches web en basque et les deux utilisent la même technologie développée dans le département R & D de la Fondation Elhuyar.

Problèmes de recherche en basque

Recherche de contenu en basque sur Internet à des chercheurs réguliers (Google, Yahoo!, Lorsque nous touchons Windows Live Search... nous avons deux problèmes principalement. La première est qu'aucune ne permet de rechercher uniquement sur les pages en basque. Ainsi, en recherchant des mots avec la même graphie dans d'autres langues, comme l'énergie, l'anorexie ou le logiciel, on nous présente à peine des résultats en basque. Il en va de même pour de nombreux noms propres comme l'Egypte, Newton ou le Guggenheim —. Et ainsi avec beaucoup de mots courts comme des ânes, des chats ou des laits, car il y a beaucoup de possibilités d'exister dans d'autres langues, même si c'est comme des sigles.

La seconde est que l'euskera est une langue déclinée, caractéristique que les chercheurs ne tiennent pas compte. Au moment de chercher un mot en basque, il convient de chercher aussi les déclinaisons du mot ; sinon, en recherchant le mot énergie, il n'apparaîtrait pas, par exemple, une page qui dit que la consommation d'énergie a augmenté.

Utilisation des APIs des moteurs de recherche

Étant donné que les navigateurs Internet habituels n'offrent pas de bons résultats pour l'euskera, il existe deux options : développer un moteur de recherche totalement propre ou utiliser les API offertes par d'autres moteurs de recherche. La première est très complexe. D'une part, les difficultés techniques, les principaux chercheurs qui sont encore en cours d'enquête et qui devront probablement continuer à rechercher constamment: classement, personnalisation, spam web... D'autre part, il y a tout le matériel et l'infrastructure que vous demandez: de nombreux ordinateurs faisant crawling, machines pour accueillir des indices géants, services de recherche...

CorpEus est un outil pour consulter internet comme corpus en basque

L'utilisation d'API (interfaces ou ensembles de fonctions proposés par les moteurs de recherche pour développer leur propre application) est beaucoup plus économique et simple. Cependant, il a quelques inconvénients: il y a dépendance des moteurs de recherche, il n'y a aucun contrôle sur l'ordre et d'autres paramètres... Cependant, CorpEus et Elebila ont été développés en utilisant des API qui semblent avoir plus d'avantages.

Seulement résultats en basque

Pour obtenir des chercheurs uniquement les résultats en basque, ils sont ajoutés au mot que l'utilisateur souhaite rechercher les mots qui apparaissent le plus souvent en basque. Les pages en d'autres langues ne compteront pas normalement avec ces mots de filtre et compteront sur la plupart des textes en basque.

Quatre mots de filtre sont ajoutés à la question qui est envoyée à l'API: et , est, non. Seulement avec le premier ne suffit pas, car le nom ETA apparaît plusieurs fois dans d'autres langues qui ne sont pas le basque. Ni avec deux, c'est un mot qui signifie oui dans plusieurs langues slaves. Avec aucun des trois, ni le mot, par leur brièveté, par leur signification dans d'autres langues ou par le sigle de quelque chose. Par conséquent, en ajoutant les quatre mots on obtient que la quasi-totalité des résultats soient en basque. De temps en temps, on traduit une page qui n'est pas en basque, mais pour son filtrage on utilise l'identifiant linguistique LangId développé par le Groupe IXA. Il s'applique à la partie de texte que le moteur de recherche envoie pour afficher et si vous voyez qu'il y a une page autre que l'euskera, les deux outils suppriment les résultats.

Recherche lematizada

L'euskera a une morphologie riche: une devise d'un mot (par exemple, l'équation) a de nombreuses formes (la même équation, les équations, les équations, les équations, ...). Lors de la recherche d'un mot sur Internet, il convient de trouver toute forme de ce mot. Par conséquent, un moteur de recherche développé spécifiquement pour le basque ne devrait pas indexer les formes exactes des mots, mais leurs slogans. Mais les navigateurs Internet ne le font pas, et ne cherchent que la forme exacte de mot introduit, de sorte que les pages avec toute autre forme du même mot sont perdus.

Pour obtenir des chercheurs uniquement les résultats en basque, ils sont ajoutés au mot que l'utilisateur souhaite rechercher les mots qui apparaissent le plus souvent en basque.

CorpEus et Elebila.utilisent l'élargissement de la question par création morphologique pour la résoudre. Des outils de création morphologique sont utilisés par le Groupe IXA pour obtenir les formes d'un slogan, demandant à l'API pages avec l'un de ces moyens par un opérateur OR. Ainsi nous avons réussi à réaliser une recherche lematizada.

La vérité est qu'il n'y a pas de recherche complète avec la devise, car les mots basques peuvent avoir beaucoup de déclinaisons (techniquement infinies déclinaisons) et les API des chercheurs ont des limites quant au nombre de mots qui peuvent leur être envoyés. Par conséquent, les déclinaisons sont ordonnées en fonction de la fréquence d'utilisation et sont envoyées autant que les API sont acceptées pour couvrir la plupart des cas et obtenir une recherche presque vraie lematizada.

Recherche de navigation vs. recherche d'information

Puisque pour obtenir uniquement les résultats en basque on utilise quatre mots de filtre, parfois les pages en basque sont hors des résultats, car une ou plusieurs d'entre elles ne contiennent pas. Et cela peut être un problème, en particulier dans les recherches de navigation.

Qu'est-ce que c'est ? Les théoriciens dans le domaine des moteurs de recherche Internet distinguent deux types de recherches: recherches de navigation (lorsque la recherche cherche l'adresse d'un site Web particulier, comme Euskaltube ou Box de travail) et recherches d'information (quand on veut chercher des informations sur quelque chose, comme le cancer ou l'énergie nucléaire). CorpEus et Elebila sont principalement conçus pour rechercher du contenu en basque, c'est-à-dire conçus pour la recherche d'informations, où les chercheurs habituels échouent. Et les textes avec de bonnes informations sont généralement assez longs pour avoir des mots de filtre et apparaissent dans ce type de recherche.

Membres du groupe de R & D de la Fondation Elhuyar: pour la gauche, Antton Gurrutxaga, Nerea Areta, Xabier Saralegi et Igor Leturia. (Photo: R. Carton)

Cependant, pour les recherches de navigation, parfois l'Elebila ne fonctionnera pas aussi bien, puisque les pages d'accès aux sites Web ou les pages principales, c'est-à-dire celles que nous souhaitons qu'elles apparaissent dans ce type de recherche, ont souvent un texte faible et court, et il se peut que dans ces textes courts, il n'y ait pas de mots de filtre. Mais il y a une solution. Quand Elie échoue une recherche de navigation, nous avons deux options: Accéder à la recherche avancée dans et traiter avec le filtre le plus faible (de cette façon, le nombre de mots de filtre sera réduit et la probabilité de voir apparaître la page recherchée sera augmentée), ou bien Indiquer la recherche dans n'importe quelle langue (dans ce cas, vous effectuerez la recherche que ferait un moteur de recherche conventionnel; et pour des recherches de navigation sur des pages en basque les chercheurs habituels d'Internet fonctionnent assez bien, puisque le classement basé sur le nombre de pages reliant.

CorpEus est principalement utilisé pour les recherches d'information. Cependant, dans certains cas, il se peut que les conditions de filtre présentent peu de résultats. Dans ce cas, nous avons l'option Essayer d'étendre la couverture pour pouvoir effectuer la recherche avec moins de mots de filtre. Cette option peut avoir de bons résultats si le mot recherché est uniquement en basque, mais si vous avez la même graphie qu'une autre langue plus grande, l'API traduira de nombreux résultats qui ne sont pas en basque, puis rien ne sera affiché, car l'identifiant linguistique LangId les éliminera.

API Windows Live Search

CorpEus et Elebila sont basés sur l'API du moteur de recherche Microsoft Windows Live Search. Pour effectuer cette option, les limitations établies par les principaux moteurs de recherche pour l'utilisation de leurs API ont été analysées: L'API Google ne prend en charge que 1000 appels par jour et n'accepte plus de nouvelles inscriptions car cette API est abandonnée par Google pour stimuler la nouvelle API AJAX Search (qui ne retourne que 8 résultats), l'API Yahoo! permet 10.000 appels par jour pour chaque IP et un appel MICROSOFT gratuit pour chaque IP, et un appel App.

Mais CorpEus et Elebila ne sont pas du tout mariés à Windows Live Searchs par hasard et pour toujours. Ils peuvent également utiliser d'autres API (Google, Google AJAX, Yahoo et Alexa). Nous avons décidé de fournir le service public avec Windows Live Searchs pour les conditions, mais si les conditions changent à tout moment, nous pouvons les placer presque immédiatement pour pouvoir utiliser un autre API.