Repérage de l’information et bases de données

Votre vote

Le repérage de l’information (information retrieval) s’est développé de manière parallèle au domaine des bases de données. Cette discipline tire principalement son origine de la recherche bibliographique en ligne. L’objectif du repérage de l’information est de repérer, parmi une collection de documents, ceux qui sont pertinents à un besoin en information d’un utilisateur. Aujourd’hui, plusieurs applications utilisent les techniques issues de cette discipline.

Repérage de l’information dans les SGBD

Repérage de l'information
format PDF 5.00$ 

On assiste de plus en plus à une convergence entre les domaines des bases de données et du repérage de l’information. Les SGBD tendent à incorporer de plus en plus de mécanismes permettant de réaliser les fonctions de repérage de l’information en combinaison avec les requêtes typiques aux bases de données traditionnelles. Le modèle classique de base du repérage de l’information suppose que l’information est constituée d’une collection de documents dj (D = {dj, j=1,…,m}). L’utilisateur formule une requête qi (Q = {qi, i=1,…,n}) qui représente un besoin en information et le système répond en extrayant un sous-ensemble E (E = {ek, k=1,…,r\tiny \subseteqD) des documents de la collection. Souvent, les documents extraits sont accompagnés d’une mesure de similarité qui peut servir à ordonner (rank) les documents selon un degré de pertinence à la requête. La pertinence est estimée par une mesure de similarité (notée sim(qi, dj)) ou de distance (distance(qi, dj)) entre la requête et chacun des documents. Cette capacité à traiter l’information d’une manière approximative plutôt qu’exacte n’a pas été considérée dans les SGBD traditionnels.

Bases de données traditionnelles et repérage de l’information

Par opposition aux bases de données traditionnelles, l’information n’a pas nécessairement une structure bien définie encodée dans un schéma stable. Contrairement aux requêtes exactes des bases de données, une requête en repérage de l’information produit un ensemble de documents possiblement ordonnés par un degré de pertinence. Un document peut être un simple fichier de texte dans une structure connue, ou encore un fichier image, son ou vidéo. Entre l’absence totale de structure et la structure forte des bases de données traditionnelles, on retrouve de plus en plus de documents qui comportent une combinaison d’informations structurées et non structurées (par exemple HTML, XML). Dans ce contexte, il devient attrayant de combiner dans un système intégré les mécanismes des bases de données traditionnelles avec ceux du repérage de l’information.

Table des matières – repérage de l’information

  • 21.1 Mesures d’évaluation (rappel et précision) 1119
  • 21.2 Indexation 1121
  • 21.3 Indexation automatique de documents textuels 1123
  • 21.4 Listes inversées 1124
  • 21.5 Recherche plein texte 1124
  • 21.6 Modèle booléen 1124
  • 21.7 Modèle vectoriel 1126
  • 21.8 Intégration du degré de pertinence au booléen 1127
  • 21.9 Intégration d’un mécanisme d’apprentissage par rétroaction (feedback) 1128
  • 21.10 Méthodes avancées 1129
  • 21.11 Intégration à un SGBD : le cas d’Oracle 1132
  • Notes bibliographiques 1136
  • Références 1136

l’Éditeur