La documentation/Langages documentaires à structure combinatoire, thésaurus
Historique
[modifier | modifier le wikicode]L'apparition des thésaurus est plus récente que celle des classifications et correspond à deux constats : les classifications ont des possibilités limitées par leur structure même, et par ailleurs le développement de l'informatique rend désormais possible les manipulations automatisées et combinatoires du langage.
Bien que l'on puisse parfaitement utiliser les thésaurus de manière non automatisée, ceux-ci doivent aujourd'hui être conçus en vue de leur exploitation par un logiciel documentaire, de façon à permettre leur intégration dans les systèmes automatisés.
Définition
[modifier | modifier le wikicode]Selon l'Association Française de Normalisation (AFNOR), un thésaurus est « un langage documentaire fondé sur une structuration hiérarchisée d'un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d'une ou plusieurs langues naturelles et les relations entre les notions par des signes conventionnels. »
Nous verrons par la suite que certaines classifications, comme la Classification Décimale Universelle, peuvent être utilisées en tant que thésaurus.
Par sa fonction, un thésaurus transpose donc en langage documentaire standardisé le langage naturel utilisé dans les documents. Par sa structure, c'est un dictionnaire de termes dotés de relations sémantiques, génériques ou hiérarchiques relevant d'un domaine particulier de la connaissance (sémantique : relatif à la signification, au sens). Généralement, l'indexeur et l'interrogateur ne parlent pas le même langage. Le thésaurus fournit la liaison indispensable entre leurs vocabulaires, en traduisant chaque concept élémentaire par un mot ou une expression constituant un descripteur.
Il ne s'agit plus ici de ranger chaque notion à une place prédéterminée, « dans un tiroir », pourrait-on dire, comme cela se pratique dans les classifications. Il faut décomposer chaque notion, aussi loin qu'il est possible ou utile de le faire, en éléments signifiants qui serviront ultérieurement pour la recherche.
Principes de base
[modifier | modifier le wikicode]Le langage artificiel constituant le thésaurus doit avant tout éliminer toute ambiguïté. Il faut donc choisir de la façon la plus judicieuse possible LE descripteur qui sera accepté et dès lors systématiquement utilisé pour représenter une notion donnée. Une fois ce choix effectué, tous les termes qui n'auront pas été choisis deviendront de fait des non-descripteurs et devront figurer en tant que tels dans le thésaurus, afin que nul ne les propose lors d'une éventuelle extension ou mise à jour.
Éliminer la synonymie, la polysémie, et ne pas confondre...
[modifier | modifier le wikicode]- Un concept = un descripteur et un seul
Plusieurs mots ou expressions peuvent se rapporter à un même concept, par exemple chose = machin = truc = objet = bidule = engin = fourbi = zinzin...!). D'une manière générale les synonymes sont largement utilisés dans les textes plus ou moins littéraires pour améliorer le style, éviter des répétitions ou apporter des nuances. Les thésaurus sont évidemment peu compatibles avec la poésie...
- Un descripteur = un concept et un seul
Un mot est atteint de polysémie lorsqu'il peut être utilisés avec plusieurs sens. Par exemple « fraise » : outil rotatif - fruit - collerette plissée et empesée du 16e siècle - membrane qui enveloppe les intestins du veau ou de l'agneau - couleur rouge - angiome - chair rouge et plissée sous le bec du dindon - pieu protégeant les piles des ponts - élément de fortification - ... ou encore trombine de celui qui la ramène quand il ferait mieux de la boucler !
C'est justement la polysémie qui rend particulièrement difficile la traduction automatique des documents. Nous avons encore en mémoire le règlement d'un concours de photographies dont la version française prévoyait un grand prix pour « la meilleure glissière de vertical » et un autre pour « la meilleure glissière d'horizontal ». Facéties ordinaires d'un logiciel qui a traduit slide par glissière au lieu de diapositive, vertical et horizontal étant évidemment là pour portrait et paysage (landscape), référence évidente aux modes de travail des imprimantes.
La polysémie est une « maladie » fort répandue !
- Ne pas confondre...
La polysémie n'est pas l'homonymie, qui concerne par exemple des mots de même prononciation mais de sens différents comme ceint, sein, saint, sain, seing (homophonie) ou des mots écrits de la même manière mais qui se prononcent différemment (homographie, terme lui-même atteint de polysémie). On connaît le gag classique du sot qui, sur son cheval, transportait le sceau du roi dans un seau ; lorsque le cheval, effrayé, fit un saut, tous les ??? se retrouvèrent par terre ! Et chacun sait que les poules du couvent couvent, les mauvaises langues disant même que les religieuses se reproduisent en couvant.
- Entrées, ou unités lexicales
Les entrées d'un thésaurus comportent finalement :
- des descripteurs, seuls mots ou expressions autorisés pour décrire les concepts, indexer les documents et procéder à des requêtes,
- des mots-outils utilisés pour la création de descripteurs, mais qui n'ont pas de signification précise quand ils sont employés seuls (méthode, comparaison, produit, calcul...)
- des termes équivalents, ou synonymes, mentionnés en tant que non-descripteurs.
- Mots vides
Il s'agit de tous les mots utilisés dans le langage courant pour former des phrases mais qui, contrairement aux non-descripteurs, n'ont aucune signification propre : le, la, du, ou, un, une, par, etc. Ces mots peuvent faire partie d'un anti-dictionnaire ou dictionnaire de mots vides. Attention là encore à la synonymie et à la polysémie. La préposition vers peut être considérée comme un mot vide mais il n'en est pas de même des vers intestinaux ou des vers de Victor Hugo.
Concevoir un langage univoque et post-coordonné
[modifier | modifier le wikicode]Il ne suffit pas de décomposer toutes les notions en expressions simples pour permettre l'interrogation des corpus de données. Dans l'immense majorité des documents disponibles, les notions élémentaires sont associées de diverses manières et de différents points de vue, c'est pourquoi les aspects combinatoires prennent ici une importance considérable.
Ainsi, par exemple, un article de périodique concernant « les collections de cartes postales photographiques anciennes » conduira à utiliser des croisements de descripteurs tels que :
- CARTE POSTALE (l'objet de la collection)
- HISTOIRE DE LA PHOTOGRAPHIE (point de vue du temps pendant lequel l'objet a existé)
- COLLECTION D'OBJETS (activité particulière)
- et le cas échéant d'autres descripteurs permettant d'affiner la recherche, par exemple de la restreindre aux cartes françaises, aux photographies érotiques, etc. ; il faut bien entendu supposer, ce que nous faisons ici, que les descripteurs en question figurent bien dans le thésaurus utilisé pour l'indexation, faute de quoi on peut légitimement supposer que le corpus interrogé ne possède aucun document relatif au sujet recherché.
Cet aspect combinatoire correspond bien entendu aux opérateurs booléens classiques ET, OU, SAUF,... et il s'agit bien d'une post-coordination qui permet de relier les éléments d'une indexation préalable.
Définir des relations entre les termes utilisés
[modifier | modifier le wikicode]Il s'agit ici de faciliter l'utilisation du thésaurus en précisant des relations d'équivalence ou de synonymie grâce auxquelles le nombre de descripteurs pourra être très sensiblement diminué. Cet aspect des choses, caractérisé par des expressions comme employer ou employé pour, sera évoqué plus longuement par la suite.
Règles de choix des descripteurs
[modifier | modifier le wikicode]L'idéal serait de parvenir à une correspondance biunivoque entre descripteurs et concepts, c'est-à-dire un seul concept par descripteur et un seul descripteur par concept. Ce n'est pas si simple !
Les descripteurs sont choisis en observant des règles d'écriture précises :
- forme substantive : on utilise AGRICULTURE et non AGRICOLE,
- masculin quand les deux formes sont possibles : PHOTOCOPIEUR et non PHOTOCOPIEUSE,
- singulier, sauf quand seul le pluriel est utilisé, par exemple COORDONNÉES CARTÉSIENNES, ACIERS SPÉCIAUX, MATÉRIAUX COMPOSITES, ou quand le sens est différent au singulier et au pluriel : CISEAU et CISEAUX, OUÏE et OUÏES, RELIEF et RELIEFS,
- forme développée et non abréviations : INSTITUT UNIVERSITAIRE DE TECHNOLOGIE et non IUT, SOCIÉTÉ D'INVESTISSEMENT À CAPITAL VARIABLE et non SICAV, sauf pour les sigles passés dans le langage courant : RADAR = Radio Detection And Ranging, LASER = Light Amplifier by Stimulated Emission of Radiations (l'équivalent français serait Amplificateur de Lumière par Émission Stimulée de Radiations = ALESR, à peu près imprononçable) ; qui peut traduire : CEDEX, ZAC, SIGDU, MEN, SEU, PTFE ? L'acronyme IAO peut être traduit, selon les documents où on le rencontre, par Ingénierie Assistée par Ordinateur ou Intégration (des circuits) Assistée par Ordinateur ; d'aucuns prétendent même qu'il s'agit de l'Informatique Assistée par Ordinateur...
- graphie la plus courante : CLÉ et non CLEF, TÉLÉPHÉRIQUE et non TÉLÉFÉRIQUE, mais il faut tirer au sort entre GRANIT et GRANITE !
- mot le plus courant : ORDINATEUR et non CALCULATEUR(TRICE), TUNGSTÈNE et non WOLFRAM, BÉRYLLIUM et non GLUCINIUM. Attention aux divers sabirs professionnels : TERRE = MISE À LA TERRE, VOLTAGE ( anglicisme) = TENSION ÉLECTRIQUE, SOFTWARE (anglais) = LOGICIEL. Attention aussi aux déviations du langage : ne pas employer TECHNOLOGIE, étude des techniques, des machines, à la place de TECHNIQUE, procédé méthodique pour faire une chose, ni NON-VOYANT pour AVEUGLE. Méfiance aussi avec les mots tombés plus ou moins en désuétude : un PULL-OVER A COL ROULÉ est tout simplement un CHANDAIL, le BROUILLARD GIVRANT des FRIMAS, etc. Il arrive que les mots changent de sens et les sens, de mots, disait Eddie Constantine dans le film Alphaville de Jean-Luc GODARD (1965). Du coup, bien des spectateurs friands des aventures de Lemmy Caution se sont posé de graves questions existentielles !
- élimination de la polysémie en précisant le terme utilisé : RÉSISTANCE (guerre) et RÉSISTANCE (électricité), SINUS (trigonométrie) et SINUS (anatomie), JOINT d'étanchéité, JOINT de transmission, ANALYSE chimique, ANALYSE des contraintes...
- dédoublement et utilisation de mots- outils : DESSALEMENT ou DÉSALINISATION ou encore DÉSALINATION peuvent se voir préférer ÉLIMINATION + SEL (deux mots). Élimination, comme gestion, évaluation, traitement... sont des mots-outils trop généraux pour être employés seuls. On les utilise en association avec un ou plusieurs autres descripteurs, par exemple :
- GESTION + STOCK
- ÉVALUATION + NIVEAU
- TRAITEMENT + SURFACE
- ...
- choix entre les variantes et les contraires : ceci concerne essentiellement les propriétés ou les états des choses : FLUIDITÉ et VISCOSITÉ. FRAGILITÉ et RÉSILIENCE. STABlLITÉ et INSTABILITÉ. JOIE et TRISTESSE, sont des couples de mots qui se rapportent aux mêmes concepts. C'est le problème bien connu du choix entre le caramel demi-mou et le caramel demi-dur.
Relations entre les descripteurs
[modifier | modifier le wikicode]Dans un thésaurus, pour mieux préciser les concepts, on utilise des relations entre les descripteurs :
norme AFNOR | norme ISO | |
équivalence : | ||
EMPLOYER | EM | USE |
EMPLOYER POUR | EP | UF (use for) |
hiérarchie : | ||
TERME GÉNÉRIQUE | TG | BT (broader term) |
TERME SPÉCIFIQUE | TS | NT (narrower term) |
association : | ||
TERME ASSOCIÉ (= « voir aussi ») | TA | RT (related term) |
définition : | ||
NOTE D'APPLICATION | NA | SN (scope note) |
L'ordre des abréviations EM, EP, TG, TS, TA, NA est normalisé. Par exemple, dans un thésaurus présenté sous forme de dictionnaire, on aurait autour du terme ORDINATEUR :
..........
calculateur électronique :
- EM ORDINATEUR
computer :
- EM ORDINATEUR
micro-computer :
- EM MICRO-ORDINATEUR
microcomputer :
- EM MICRO-ORDINATEUR
micro ordinateur :
- EM MICRO-ORDINATEUR
MICRO-ORDINATEUR :
- EP micro-computer
- EP microcomputer
- EP micro ordinateur
- TG1 MINI- ORDINATEUR
- TG2 ORDINATEUR
- TG3 MATÉRIEL INFORMATIQUE
- TG4 INFORMATIQUE
- TG3 MATÉRIEL INFORMATIQUE
- TG2 ORDINATEUR
- TS1 MICRO-ORDINATEUR PORTABLE
ORDINATEUR :
- EP calculateur électronique
- EP computer
- TG1 MATÉRIEL INFORMATIQUE
- TG2 INFORMATIQUE
- TS1 MINI-ORDINATEUR
- TS2 MICRO-ORDINATEUR
- TS3 MICRO-ORDINATEUR PORTABLE
- TS2 MICRO-ORDINATEUR
- TA LOGICIEL
- TA RÉSEAU LOCAL
- TA IMAGERIE MÉDICALE
- TA PÉRIPHÉRIQUE INFORMATIQUE
- TA CONSTRUCTION D'ORDINATEURS
..........
Il est également possible de présenter les thésaurus sous forme de schémas fléchés, après un découpage du domaine en champs sémantiques, c'est-à-dire en groupes de 30 à 40 descripteurs hiérarchisés relatifs à un même thème. Le descripteur le plus général du groupe fournit le titre de la page, dont il occupe le centre. Ce schéma peut être réalisé en se servant d'un quadrillage dont les cases sont numérotées, à moins que l'on préfère les coordonnées polaires.
On appelle champ sémantique l'ensemble des descripteurs regroupés autour d'un concept principal. Un descripteur ne doit être rattaché qu'à un seul champ sémantique. Pour reprendre l'exemple qui vient d'être donné, le concept d'ordinateur définit un champ sémantique.
Les relations d'association ou de voisinage permettent de rapprocher des éléments proches du point de vue sémantique mais qui sont situés dans des champs sémantiques différents.
La mention NA (note d'application ou note d'usage) introduit une relation de définition qui permet de préciser le sens qu'il convient de donner à un descripteur.
Construction d'un thésaurus
[modifier | modifier le wikicode]Il s'agit là d'un travail très complexe et qui ne peut en aucun cas être mené à bien par un seul individu. Trois méthodes principales peuvent être utilisées pour collecter le vocabulaire :
- la méthode déductive consiste à extraire les divers concepts caractéristiques du domaine concerné en partant des documents du corpus et des questions des utilisateurs.
- la méthode inductive conduit à collecter les mots à partir de sources de référence (dictionnaires, nomenclatures, thésaurus voisins, etc.)
- la méthode mixte associe les deux méthodes précédentes, ce qui permet de couvrir plus facilement l'ensemble du domaine concerné, en évitant les lacunes provoquées par la méthode déductive, mais avec l'inconvénient d'introduire par la méthode inductive des termes qui ne correspondent à aucun document du corpus.
Les différents termes retenus sont ensuite ventilés à l'intérieur des différents champs sémantiques, puis hiérarchisés. Cette phase nécessite la collaboration étroite de spécialistes du domaine ou du champ sémantique concerné ; ces personnes doivent vérifier que tel ou tel terme est bien à sa place dans le champ sémantique auquel il a été rattaché et valider la définition de chaque mot.
À l'issue de cette première phase, on n'obtient en fait qu'une ébauche de thésaurus dont les imperfections se révèlent au cours du temps. L'édifice complet doit parvenir progressivement à un équilibre que l'usage ne remet plus en cause, tout en permettant bien entendu les mises à jour nécessaires pour que l'on puisse intégrer les notions nouvelles, le résultat des découvertes récentes, etc. Cette mise à jour n'est jamais une opération immédiate, elle nécessite toujours un certain recul et tout comme les classifications, les thésaurus ne peuvent pas refléter en temps réel l'état des connaissances.
La mise à jour se fait par introduction de nouveaux termes (les candidats descripteurs), par radiation de termes obsolètes ou par la retouche des descripteurs existants. Il faut tenir compte de l'utilisation qui montre que certains termes sont peu ou pas utilisés, tandis que d'autres sont au contraire trop utilisés parce que trop généraux ; ces derniers doivent être redéfinis, décomposés plus finement, etc.
Il ne faut jamais perdre de vue qu'un thésaurus n'est pas une construction théorique monumentale et définitive, mais un simple outil de travail qui doit être optimisé en fonction de l'importance des collections à indexer et adapté à ses utilisateurs. Le but ultime est bien entendu de faciliter l'accès aux documents.
Présentation des thésaurus
[modifier | modifier le wikicode]Elle est très différente des autres ouvrages usuels qui peuvent être consultés par les utilisateurs de différents niveaux. Un thésaurus se distingue donc :
- - des dictionnaires : collections de mots classés dans l'ordre alphabétique et suivis de leur définition,
- - des lexiques : dictionnaires spécialisés regroupant les termes utilisés dans un domaine particulier de la connaissance,
- - des glossaires : dictionnaires des mots anciens ou peu connus d'une langue et qui doivent être expliqués,
- - des index : tables alphabétiques accompagnées de références, tables des matières des livres ou encyclopédies, etc.
Un thésaurus comprend au moins trois entrées principales :
- la liste alphabétique des descripteurs, y compris les synonymes et les diverses notes d'application,
- la présentation des champs sémantiques avec l'arborescence des descripteurs correspondants ; la hiérarchie des divers descripteurs est représentée à l'aide de tabulations ou sous forme graphique,
- l'index alphabétique permuté des termes dont le but est de regrouper les termes des descripteurs composés, car ceux-ci se trouvent dispersés dans la liste alphabétique.
Une introduction présente le but du thésaurus, définit le ou les domaines couverts et précise les conventions adoptées et le mode d'utilisation. Des listes annexes facilitent les recherches, elles permettent d'inclure par exemple des listes alphabétiques de personnalités, d'entreprises, etc. Une liste des mots-outils est généralement considérée comme indispensable : ces mots trop généraux pour être utilisés seuls aussi bien pour l'indexation que pour l'interrogation peuvent en revanche être associés à tous les autres termes utilisés dans le thésaurus ; il est bon qu'ils ne soient pas trop nombreux car ils ont tendance à engendrer du bruit.
Thésaurus et macro thésaurus
[modifier | modifier le wikicode]Les thésaurus connaissent actuellement un important développement, lié à l'informatisation grandissante des systèmes documentaires. Les macro thésaurus, encore peu nombreux actuellement, sont destinés à servir de cadre commun à un ensemble de systèmes documentaires touchant à des domaines différents. Ils restent à un niveau de généralité assez élevé mais peuvent servir de structures d'accueil pour des thésaurus spécialisés.
Le thésaurus de l'Organisation de Coopération et de Développement Économique (OCDE), édité en 1972, recouvre 19 rubriques divisées en 24 sous-rubriques (culture, société, éducation, formation, agriculture, industrie, travail, démographie, population, etc.). Pas moins de 27 organisations ont collaboré à ce travail, qui a demandé trois ans.
Le macro thésaurus des Sciences et Techniques du Bureau National de l'Information Scientifique et Technique (BNIST) couvre par exemple les cinq secteurs suivants :
- mathématiques - physique. - terre - mer - espace - sciences de l'ingénieur - médecine - biologie - agriculture - chimie
Quelques thésaurus accessibles en ligne
[modifier | modifier le wikicode]Beaucoup de thésaurus sont souvent disponibles sous forme imprimée mais un nombre considérable d'entre eux est désormais disponible en ligne. Citons par exemple :
- AGROVOC est un vocabulaire multilingue structuré et conçu pour couvrir la terminologie de tous les domaines ayant trait à l’agriculture, à la pêche, à l’alimentation et aux domaines connexes (l’environnement, par exemple). Il appartient à la FAO, organisation des Nations Unies pour l'alimentation et l'agriculture : http://aims.fao.org/website/AGROVOC-Thesaurus/sub
- MOTBIS est un thésaurus pour l'éducation. C'est le langage de référence pour les centres de documentation et d'information (CDI) de lycées et de collèges français et pour tout le réseau de documentation pédagogique (CNDP, CRDP, CDDP, CLDP). Il couvre l'ensemble des domaines et est régulièrement mis à jour.
- UNESCO : le Thésaurus de l'UNESCO est une liste de termes contrôlés et structurés pour l'analyse thématique et la recherche de documents et publications dans les domaines de l'éducation, la culture, les sciences naturelles, les sciences sociales et humaines, la communication et l'information. Continuellement enrichie et mise à jour, sa terminologie reflète l'évolution des programmes et des activités de l'Organisation. Le Thésaurus de l'UNESCO contient 7 000 termes en anglais et en russe et 8 600 en français et en espagnol. Le Thésaurus est également disponible sur CD-ROM : http://databases.unesco.org/thesfr/
- Medical Subjects Headings (Mesh) : MeSH is the U.S. National Library of Medicine's controlled vocabulary used for indexing articles for MEDLINE/PubMed. MeSH terminology provides a consistent way to retrieve information that may use different terminology for the same concepts : http://www.ncbi.nlm.nih.gov/mesh
- PACTOLS : thésaurus pour l'archéologie, créé par le réseau Frantiq (Fédération et ressources sur l'Antiquité), groupement de service du CNRS. Il couvre l'archéologie, depuis la Préhistoire jusqu'à l'époque contemporaine, et les sciences de l'Antiquité sous tous leurs aspects. Il est multilingue et est mis à jour en continu
la Classification Décimale Universelle en tant que thésaurus
[modifier | modifier le wikicode]Chacun aura compris que l'établissement d'un thésaurus susceptible de couvrir l'ensemble des connaissances humaines est une tâche pratiquement insurmontable. C'est pourtant la situation qui se présente dans l'encyclopédie Wikipédia ou dans la collection de livres pédagogiques Wikibooks, tous les domaines possibles étant a priori susceptibles d'être traités.
C'est pourquoi, plutôt que d'essayer de réinventer l'eau tiède, il est sans doute plus sage de se référer à des travaux extérieurs pré-existants. Comme il n'existe pas à l'heure actuelle de thésaurus unique pouvant convenir, il est parfaitement possible d'utiliser une classification généraliste, comme par exemple la Classification Décimale Universelle, celle-ci contenant de par sa conception même une arborescence valide et l'ensemble du vocabulaire nécessaire à un travail efficace. La CDU constitue, en fait, un immense thésaurus potentiellement disponible.