La documentation/Performances d'un système documentaire
Généralités
[modifier | modifier le wikicode]Comme nous l'avons signalé, les performances des systèmes documentaires dépendent étroitement de la qualité de l'analyse et de l'indexation. Il est intéressant de les chiffrer, ne serait-ce que pour en tirer les renseignements nécessaires à l'amélioration du service.
Notion de cohérence
[modifier | modifier le wikicode]Si deux indexations d'un même document ont fourni deux ensembles A et B de descripteurs, le taux de cohérence s'écrit :
Le taux de cohérence peut être externe, A et B provenant de deux analystes différents, ou interne, les deux indexations étant l'œuvre du même analyste à des dates différentes. Une baisse du taux de cohérence est le signe d'une indexation de mauvaise qualité et qu'il convient de corriger.
Critères d'efficacité de la recherche
[modifier | modifier le wikicode]Une recherche documentaire idéale dans l'ensemble N comportant tous les documents d'une certaine collection conduirait à en extraire le sous-ensemble des documents pertinents et lui seul. En pratique une telle recherche aboutit en fait à extraire un autre sous-ensemble généralement distinct du précédent.
On peut ainsi répartir les N documents de la collection en quatre catégories :
- P : nombre de documents pertinents extraits, le résultat
- S : nombre de documents pertinents non extraits, ou silence,
- B : nombre de documents non pertinents extraits, ou bruit,
- R : nombre de documents non pertinents non extraits, ce qui reste.
- naturellement
On définit à partir de ces nombres divers critères :
- le taux de rappel :
- le taux de pertinence :
- le taux de bruit :
- le taux de chute :
- le facteur de généralité :
Amélioration des performances
[modifier | modifier le wikicode]Diverses techniques permettent d'affiner les résultats des recherches effectuées en combinant divers descripteurs.
- l'autopostage consiste à adopter simultanément des descripteurs situés à divers niveaux de généralité et/ou de spécificité. Par exemple, le terme « trempe » peut être trop général pour la recherche en cours, on adoptera alors les descripteurs qui permettront de le préciser, comme « traitement thermique » ou « trempe superficielle ».
- la pondération : on affectera chaque descripteur d'un « poids » différent, 1, 2 ou 3 par exemple.
- le lien permet d'éviter les fausses combinaisons. par exemple, une recherche simultanée sur un ensemble de descripteurs tel que (bateau, transport, bois, FRANCE) peut permettre de retrouver des documents sont les titres pourraient être :
- (1) Transport du bois français par bateau,
- (2) Transport des bateaux français en bois,
- (3) Bateaux en bois français pour le transport,
- (4) Transport du bois vers la France en bateau,
- (5) etc.
La combinaison (1) sera notée [transport (A) - bateau (A) - bois (B) - FRANCE (B)].
Antidictionnaire
[modifier | modifier le wikicode]« Du », « par », « des », « en », « pour », « faire », « je », ... sont des mots vides utiles pour construire des phrases mais dénués de toute référence à un véritable contenu informatif. On les consigne dans un antidictionnaire. Les mots vides sont grosso modo ceux que l'on supprimait en écrivant un télégramme, d'où l'expression « style télégraphique » ; ils ne doivent en aucun cas être utilisés comme descripteurs, d'où la nécessité d'en dresser la liste.