Home

Réingénierie de thesaurus : une étude de cas

image

Contents

1. Catherine Cyrot Consultante Le 12 juin 2009 R ing nierie de thesaurus une tude de cas L objet de cet article est de faire partager l exp rience de r ing nierie du thesaurus de l Agence Fran aise de D veloppement AFD men e au cours de l ann e 2008 Il nous a sembl que les analyses faites en pr alable ce travail de r ing nierie et les conclusions qui en avaient t tir es pouvaient aider la r flexion de professionnels d autres secteurs plac s devant ces m mes probl matiques par exemple vV Quels crit res de choix entre la cr ation d un thesaurus et la r utilisation d un logiciel existant V Comment utiliser le thesaurus comme passerelle pour changer entre organismes partenaires du m me domaine d activit v Quelle utilisation au del de Pindexation des r f rences bibliographiques pour structurer des informations dans la perspective d une gestion de contenu V Comment situer le thesaurus dans la famille des r f rentiels et faire voluer son utilisation vers des outils du web s mantique Sur ces quelques questions et d autres il nous a sembl utile de faire partager nos analyses et les m thodologies utilis es Elles sont abord es la lecture de cet article mais les lecteurs pourront la compl ter en lisant sur le site www xxx xx une version plus compl te de Particle Enfin dans le cadre du partenariat tabli avec la Biblioth que Dag Ha
2. partir de cette analyse une 1 base de donn es de 7033 termes qui liste la totalit des enregistrements apr s avoir filtr les caract res parasites qui en bloquaient la lecture v Analyser les contenus pour ne garder au final que les champs utiles Un travail d analyse a t fait pour corr ler les attributs fournis par UNBIS avec la structure de thesaurus g r e pat CINDOC 23 attributs sur les 104 ont t retenus pour cr er une seconde base de donn es SQL en particulier les attributs correspondant des langues non pr vues au cahier des charges ou les attributs correspondant des informations dupliqu es et ventuellement concat n es n ont pas t retenus 12 UTF 8 UCS transformation format 8 bits est un format de codage de caract res d fini pour les caract res Unicode UCS L IETF Internet engineering Task Force requiert qu UTEF 8 soit pris en charge par les protocoles de communication d Internet changeant du texte http fr wikipedia org wiki UTE 8 R alisation d un th saurus pour la documentation de PAFD le 01 10 2009 page 9 V D finir l organisation des donn es les relations entre les champs et pour chaque champs son mode de fonctionnement On a ainsi d fini les modalit s de transformation de la structure r cup r e dans la base de donn es MySQL vers le fichier XML importer dans le thesaurus g r par CINDOC voir 2 3 ETAPE INFORMATIQUE 1 aaa POUT chaque te
3. Pour r aliser ces traitements on a en particulier utilis v Une plate forme PHP My Sql pour importer la base de donn es et g n rer les traitements Un diteur de texte pour les manipulations de fichiers entre ces interfaces Une version du logiciel Altova pour analyser et valider les formats XML K KO Une version du logiciel CINDOC pour analyser les fichiers bibliographiques fournis par PAFD en entr e et tester en sortie les traitements r alis s 2 2 Format du thesaurus source des Nations Unies 2 2 1 Au niveau du format des donn es Un fichier unique de 698 023 lignes a t fourni par la Biblioth que Dag Hammarskj ld des Nations Unies au format UTF 8 chaque enregistrement pouvant comporter un nombre variable de caract res jusqu 800 caract res Pour chaque enregistrement le libell de l attribut tait suivi de son contenu le nombre d attributs tant inconnu et variable Concernant la premi re tape du travail informatique qui consistait cr er une base de donn es refl tant le thesaurus UNBIS la principale difficult provenait de labsence documentation technique concernant la constitution du fichier fourni par les Nations Unies Le travail pr alable a consist v R cup rer la structure du thesaurus apr s lavoir analys e pour retrouver la liste des champs utilis s dans une premi re analyse jusqu 104 attributs ont pu tre relev s V G n rer
4. le 01 10 2009 page 4 Th me AFD Nombre de termes Administration i Agriculture levage p che Aide humanitaire 11 Collectivit s Outre mer _ Collctut s Oumemer 16 O commerce a Coop ration ntemaonale 25 Z 2 D mographie w ET como T Education Foma on 6e Entreprise Oo Finances Sant Travail R partition des descripteurs par micro thesaurus AFD Le vocabulaire utilis renvoyait bien aux caract ristiques d un macro thesaurus plut t qu un vocabulaire sp cialis Cette analyse plus fine des domaines a donc permis d carter les thesaurus tablis dans un domaine sp cifique pour retenir ceux de type macro thesaurus gt Multilinguisme la volont d avoir un vocabulaire multilingue tait une contrainte forte pour un organisme engag dans la coop ration internationale en lien troit avec le syst me des Nations Unies Sa demande portait principalement sur un vocabulaire pivot entre fran ais anglais espagnol Prendre en compte cette demande dans la cr ation d un thesaurus alourdissait de mani re notable le travail r aliser et sortait du rapport co t efficacit recherch Le choix d un thesaurus d j multilingue tait donc un avantage significatif Dans son principe ce multilinguisme fonctionne par relation d quivalence linguistique des termes dans les diff rentes langues avec le terme du langage source ici l anglais Chaque langue proposant des synony
5. t faite entre les 1653 descripteurs cart s par PAFD et les descripteurs UNBIS leurs synonymes ou quasi synonymes cart s par analyse des relations d quivalence d UNBIS L analyse intellectuelle de cette comparaison a abouti r int grer 133 termes dans la liste des descripteurs retenus soit comme descripteurs soit comme quivalences Le m me travail d analyse plus simple a t r alis pour les 260 descripteurs g ographiques 1 La norme NF 747 100 d finit les quasi synonymes comme des termes dont la signification est g n ralement diff rente dans l usage normal mais que l on peut consid rer comme synonymes pour les besoins particuliers de l indexation 2 4 L import dans le module thesaurus de CINDOC Ce travail a consist exporter les descripteurs et leurs relations de la base de donn es SQL au format XML Il faut noter que le format XML retenu par CINDOC n est pas compatible avec SKOS R utiliser le thesaurus hors du champ de l application documentaire comme souhaitaient le faire les commanditaires de l AFD n cessiterait de le faire voluer vers les technologies Web en utilisant la norme SKOS Ce qui manque pour l essentiel au thesaurus labor dans ce projet pour tre transcod en SKOS est de sp cifier pour chaque concept retenu et son descripteur une URI Uniform Resource Identifier Une tude pr alable de toutes les relations figurant dans le thesaurus UNBIS a t faite et une
6. ation fichier SQL pour mise jour Base documentaire AFD BDD base documentaire AFD Modification Base Documentaire 4 2 L utilisation du thesaurus Depuis utilisation du thesaurus en juillet 2008 soit sur 9 mois 954 r f rences nouvelles ont t cr es et 649 descripteurs soit environ 50 des descripteurs ont t utilis s L HEURE ACTUELLE Le thesaurus a t branch sur la base de donn es bibliographique il est utilis en saisie pour visualiser les descripteurs et leurs relations et en contr ler la saisie Il permet des recherches guid es dans la base de donn es bibliographique en visualisant les descripteurs et leurs relations avec la possibilit de naviguer dans les relations du thesaurus et de s lectionner les descripteurs retenus avec ventuellement une fonction d autopostage DANS UN AVENIR PROCHE L utilisation du thesaurus pourrait tre tendue l ensemble des produits documentaires r alis s par l AFD et permettre un acc s guid aux archives de ces produits documentaires v Le Kal idoscope qui propose tous les mois un package avec un ouvrage r cent 1 article un rapport Web pour une th matique retenue un pays un d bat sur laide au d veloppement une rubrique 4 ne pas manquer Produitdoc trimestriel accessible dans les publications de l AFD pour suivre les cours des mati res premi res V Les bibliographies r alis es la dema
7. de contenu CMS Wikipedia 14 On rappellera que la polyhi rarchie telle qu elle est d crite dans la norme NF 747 100 revient subordonner une notion plusieurs notions en m me temps LA STRUCTURE AVEC LES RELATIONS On a bien extrait travers les 23 attributs d finis pr alablement les relations classiques du thesaurus quivalence EM EP hi rarchie TG TS et association TA Il convient ici de rappeler que ce maillage des relations des descripteurs permet de les resituer dans leur contexte et donc d en pr ciser le sens e put 1 7 lt 15 gt Les relations hi rarchiques expriment les rapports de sup riorit et subordination entre notions Les termes g n riques sont g n ralement rep r s par le sigle TG Les termes sp cifiques sont g n ralement rep r s par le sigle TS gt Les relations associatives encore appel es relations de voisinage indiquent des analogies de signification entre les termes et sont utilis es pour recouvrir les relations entre les notions troitement li es mats videmment en excluant les relations hi rarchiques et les relations d quivalence Ces termes connexes rep r s g n ralement par le sigle TA relation d association causalit localisation relations de nature temporelle composition permettent au chercheur de modifier progressivement son interrogation ou de l largir sans faire appel aux termes g n riques g
8. de repr sentation et manipulation de connaissances ce dernier pr cise ainsi les limites du thesaurus li es la sous d termination des relations structurant des termes es relations hi rarchiques ne proposent pas une s mantique formelle contraignant de mani re stricte la relation hi rarchique la relation d association n est pas autrement sp cifi e et peut renvoyer toute sorte de relation s mantique entre les JETYTIES 2 Association Europ enne de recherche et de Formation en mati re de d veloppement http www eadi org 3 BALMISSE Gilles OUNI Ali G rer autrement les projets Documentaliste 2009 vol 46 n 1 p 44 46 4 BACHIMONT Bruno Ing nierie des connaissances et des contenus le num rique entre ontologies et documents Paris Herm s 2007 p 233 R alisation d un th saurus pour la documentation de PAFD le 01 10 2009 page 3 Il en conclut La r gle est donc simple m me si elle est souvent oubli e si l utilisateur des index est umain il vaut mieux prendre un thesaurus si l utilisateur doit tre une machine comme le supposent les travaux autour du web s mantique les ontologies s imposent Ce travail compl mentaire devrait permettre d ajouter plus de s mantique au thesaurus en augmentant et en pr cisant les rapports entre les concepts Il s agit ainsi de revoir les concepts ou classes qui d finissent un objet et pour chaque objet ses attributs le terme retenu
9. des thesaurus existant dans l environnement des Nations Unies nous a sembl un pr alable indispensable pour clairer ces choix On rejoint bien ici la d marche pr conis e notamment dans la norme NF 747 101 et dans la litt rature professionnelle sur la construction des thesaurus 1 3 1 Crit res retenir pour une analyse de l existant Pour clairer la question qui pr c de entre construction d un thesaurus et r utilisation d un thesaurus existant on a tent de d gager des crit res Ces derniers en phase avec la demande pr alablement d crite pourraient tre utilis s plus globalement en amont d un travail de r ing nierie gt Adaptation au domaine d activit Le domaine d activit de l AFD tait il un domaine particulier n cessitant de ce fait un vocabulaire sp cifique Pour r pondre cette question on a analys le nombre de termes utilis s pour chacun de ses domaines Cette lecture des th matiques retenues par les documentalistes montrait bien que globalement on y retrouvait les champs d intervention des Nations Unies Cette analyse tait confort e par le volume d informations directement issues des Nations Unies dans le r f rentiel bibliographique 5 gt Dans cet article on privil giera le terme chapitre par rapport au terme sous domaine pour d crire l organisation des micro thesaurus en sous parties R alisation d un th saurus pour la documentation de PAFD
10. particulier l Institut de D veloppement du Sussex et les partenaires de lEADT Le multilinguisme serait un atout important dans cette perspective Etre propos dans un format qui puisse tre int gr dans l application documentaire utilis e ici celle de la soci t CINDOC Ce logiciel ayant fait le choix du format XML comme format d import export le choix de ce standard peut permettre ult rieurement de travailler avec d autres plateformes Cet aspect sera d velopp ult rieurement propos de la m thodologie du projet voir 2 gt Etre r alis avec un bon rapport co t efficacit Cette r alisation implique une double comp tence documentaire et informatique Elle n cessitera des d veloppements informatiques troitement associ s l analyse des contenus du thesaurus Cette interaction entre tude documentaire et d veloppements informatiques se fera de mani re moins structur e et plus collaborative que par le pass en privil giant la souplesse et la r activit Elle suit en cela l volution de la gestion des projets suite l arriv e du Web 2 L analyse de ces exigences peut tre utilis e comme une grille de lecture pour un professionnel qui situ dans la m me perspective de r ing nierie de thesaurus serait confront aux m mes questions En effet ces l ments champs th matique conformit avec les normes internationales probl mes de format co t efficacit sont bi
11. remise niveau des fichiers bibliographiques Actonis a r cup r la base de donn es bibliographique en utilisant une proc dure d import export Le travail a consist relire le champ MOTCLES avec une requ te SQL sur la base de donn es et dans un premier temps le sauvegarder Les termes d indexation ont t compar s syst matiquement avec les descripteurs et revers s dans le champ MOTSCLES s ils taient identiques S ils taient identiques des termes cart s le descripteur point par la relation d quivalence tait revers dans le champ MOTSCLES Tous les termes non trouv s dans le thesaurus taient conserv s en CANDIDAT Au final on a donc un champ MOTSCLES avec les descripteurs qui appartiennent au thesaurus anciens termes d indexation ou descripteurs traduits partir de la relation d quivalence employer employ pour et un champ candidat avec les descripteurs qui n appartiennent pas au thesaurus Ce champ candidat continue tre utilis par les documentalistes comme outil pour faire voluer ult rieurement le thesaurus voir 3 3 Dans cette tape la g n ration du fichier permettant la mise jour de la base documentaire de PAFD ne pr sentant aucune difficult puisqu il s agissait d utiliser un langage standard savoir le langage SQL BDD chez ACTONIS Etape 5 Mise jour de la base documentaire chez F D Thesaurus UNBIS Cr
12. vers des r f rentiels utilisant le mod le RDF celui des ontologies OWL par exemple Wikipedia Traitements AFD Chacun de ces 1470 termes utilis s par PAFD ont t analys s et compar s avec les descripteurs ou les termes quivalents du th saurus UNBIS afin d tablir des concordances entre les termes AFD et les descripteurs UNBIS Les descripteurs UNBIS retenus ont t valid s avec les documentalistes de PAFD lors de r unions de travail p riodiques partir de l analyse pr alable r alis e par Actonis Les cas de figure moins consensuels ont t revus et les choix tranch s avec la responsable de la documentation de lAFD Ce travail en commun avec les documentalistes de PAFD a facilit ult rieurement l appropriation par AFD du th saurus propos par Actonis vV Equivalence exacte 537 451 86 termes soient 30 taient identiques entre les descripteurs AFD et UNBIS validant ainsi posteriori les analyses qui avaient pr c d le choix de ce thesaurus Ce travail de comparaison a t fait de mani re enti rement automatique V Equivalence partielle ou inexacte Pour 790 termes soit 53 on pouvait trouver un terme du thesaurus UNBIS auxquels les rattacher par une relation d quivalence Une premi re comparaison a t faite de mani re automatique pour les termes du thesaurus de PAFD correspondant strictement aux termes cart s du thesaurus UNBIS Dans un second temps une analyse des racin
13. BIS comportait des polyhi rarchies un m me descripteur pouvant appartenir plusieurs micro thesaurus et ou chapitre dans ce cas il est rattach un terme de t te dans le sous chapitre correspondant Toutefois cette possibilit tait de fait relativement peu utilis e Comme l indiquent les r flexions publi es sur les polyhi rarchies leur utilisation rend complexe la gestion des thesaurus Apr s lavoir test sur un mini thesaurus d une centaine de termes la d cision a t prise de les abandonner Elles ont t remises plat en privil giant une relation hi rarchique principale correspondant au choix pr f rentiel retenu selon les recommandations de la norme NF 747 100 Les rattachements hi rarchiques non retenus ont t transform s en relations associatives pour conserver toute la richesse des relations du thesaurus Exemple 03 03 00 ENVIRONNEMENT 16 03 00 SCIENCES DE LA TERRE Nombre de termes inclus dans le th me 45 Nombre de termes inclus dans le th me 52 ACCORDS SUR L ENVIRONNEMENT ACTIVITE SISMIQUE ASPECTS ECOLOGIQUES BIOGEOCHIMIE ATTEINTE L ENVIRONNEMENT CARTES GEOLOGIQUES BIOGEOCHIMIE CHIMIE DES SOLS CHIMIE DE L ENVIRONNEMENT CRISTALLOGRAPHIE 13 En informatique le terme taxinomie taxonomy en anglais d signe une m thode de classification des informations dans une architecture structur e de mani re volutive Le terme est couramment employ pour des syst mes de gestion
14. ION DE GENRE MIGRATION Z SEXE SOCIAL 2 GROUPES D AGE ENFANTS Z JEUNESSE IMMIGRATION ILLEGALE J E MARIAGE E POLYG MIE 3 L organisation du thesaurus 3 1 La structure du thesaurus r sultat La structure du th saurus utilis e par PAFD a t gard e le plus proche possible de celles fournie par UNBIS Le thesaurus comporte 1307 descripteurs Sur ces 1307 descripteurs 834 soit environ 2 3 sont des syntagmes et 473 soit environ 1 3 sont des unitermes On a donc plut t privil gi le choix de syntagmes ils permettent de localiser une information tr s pr cise regrouper des termes troitement associ s d crire des concepts complexes On a privil gi la j 22 p pr coordination de termes pour d finir des notions complexes correspondant des expressions fr quemment utilis es plut t que de laisser Putilisateur le soin de post coordonner les descripteurs en les combinant avec des op rateurs bool ens ce qui risque d augmenter le bruit dans sa recherche Ces choix traduisent une volution significative par rapport la norme dont les pr conisations sur ce point nous paraissent obsol tes Plus proches du langage naturel les syntagmes semblaient plus en phase avec l volution des langages et leur utilisation venir par des outils du web s mantique on rejoint l les analyses de Muriel Amar ORGANISATION EN MICROTHESAURUS Ces descripteurs sont r partis en 17 micro thesa
15. Web ont t utilis es pour explorer les possibles utilisations futures du thesaurus 26 Expansion automatique de la recherche aux relations du descripteurs prise en compte des relations hi rarchiques des relations associatives des relations d quivalence 5 En conclusion On r capitulera rapidement Les probl mes rencontr s ils provenaient pour l essentiel v De fichiers sources insuffisamment document s ou sp cifiques par rapport aux normes couramment utilis es la norme SKOS par exemple Y De proc dures informatiques insuffisamment ma tris es au niveau applicatif Les cl s de succ s v Une m thodologie rigoureuse pour traiter les relations du thesaurus dans le respect de normes reconnues vV Une bonne interaction entre travail documentaire et d veloppements informatiques au sein de l quipe Actonis et un test rigoureux des proc dures sur la plateforme Actonis toutes les tapes du traitement v Un travail d analyse et de suivi qui impliquait troitement toutes les tapes la participation des documentalistes de PAFD ce partenariat troit a facilit appropriation de ce nouvel outil de travail Bibliographie AMAR Muriel Les fondements th oriques de l indexation une approche linguistique Paris ADBS 1997 355 p BACHIMONT Bruno Ing nierie des connaissances et des contenus le num rique entre ontologies et documents Paris Herm s 2007 279 p MANIEZ Jacques A
16. ail de PAFD Enfin des concepts sp cifiques l environnement professionnel en France ne se retrouvaient pas dans le thesaurus source Il ne s agissait pas de traduire en fran ais le thesaurus UNBIS puisqu une des langues de travail de ce thesaurus tait le fran ais on tait plut t devant un travail de compatibilit entre le thesaurus UNBIS consid r ici comme langage source et le vocabulaire de PAFD consid r comme vocabulaire cible Il s agissait bien alors de faire un travail de mise en relations entre termes pour tablir des correspondances entre les termes utilis s par AFD et les descripteurs du thesaurus source par analyse de leurs quivalences v Ajout de nouveaux descripteurs V Descripteurs chang s en non descripteurs v Non descripteurs chang s en descripteurs Pour garantir la compatibilit ult rieure avec le thesaurus UNBIS les modifications portant sut les descripteurs par rapport au thesaurus UNBIS ont t communiqu s aux gestionnaires de ce thesaurus dans une logique de r troaction vers le vocabulaire source Par contre les nombreux ajouts de synonymes ou quasi synonymes introduits dans les relations d quivalence qui ne modifiaient pas la structure du thesaurus source ont t r alis s en local On a cherch r soudre les principaux probl mes pos s par la fusion de vocabulaires tels que les d crit Sylvie Dalbin Structure hi rarchique La restruc
17. ant comp tences documentaires et informatiques La soci t Actonis dont il sera fait mention ult rieurement a g r le projet pour cette quipe Au niveau informatique cinq tapes principales ont t identifi es 1 Construction d une base de donn es reflet du thesaurus UNBIS partir d un fichier unique reprenant toutes les informations du thesaurus des Nations Unies voir aussi 221 2 Construction d une base de donn es reflet de la base documentaire de PAFD voir aussi 2 3 3 Un ensemble de traitements informatiques d analyse de la base documentaire et de rapprochement des termes utilis s par l AFD avec ceux du thesaurus UNBIS voir aussi 2 3 R alisation d un th saurus pour la documentation de PAFD le 01 10 2009 page 8 4 Un ensemble de traitements informatiques pour g n rer le nouveau thesaurus dans l application CINDOC voir aussi 2 4 5 Une mise jour de l indexation du r f rentiel documentaire par des requ tes SQL fournies par ACTONIS voir aussi 4 1 La m thodologie a troitement associ les traitements documentaires et informatiques Tous les traitements ont t d port s sur les ressources techniques d ACTONIS ce qui a permis d avoir une tr s grande souplesse de d veloppement sans contrainte pour les utilisateurs de PAFD Les r sultats obtenus taient syst matiquement test s avant que leur r sultat soit fourni PAFD
18. atives qui a t privil gi dans la construction de ce thesaurus par rapport la profondeur hi rarchique Cette option est int ressante dans la mesure ou ces relations associatives pourraient tre retravaill es comme des ontologies si on les qualifie ult rieurement ce qui constituerait un outil pr cieux pour une application de type web s mantique La encore ces relations sont pr sentes dans les normes am ricaines et anglaises leur prise ne compte permettrait de passer d une structure de type thesaurus une structure de type base de connaissance RELATIONS D EQUIVALENCE L enrichissement du thesaurus initial a t pour l essentiel constitu de l apport des termes cart s r introduits dans une relation d quivalence de type EM EP employ employer pour Quand la relation d quivalence a t invers e le terme retenu par PAFD a pris la place du terme UNBIS dans la hi rarchie du thesaurus Au total 1713 non descripteurs renvoient aux 1307 descripteurs retenus Augmenter le nombre de non descripteurs revient multiplier les points d entr e dans le thesaurus Ce travail d enrichissement permettra dans un premier temps de faire voluer lindexation des bases de donn es bibliographiques il serait utile pour enrichir ult rieurement les dictionnaires utilis s par des logiciels de Web s mantique La encore cette volution vers la multiplication des points d entr e est une tendance a
19. ctualit des langages documentaires fondements th oriques de la recherche d information Paris ADBS 1994 395 p R f rentiels donn es d autorit th saurus ontologies taxonomies Pour en savoir plus Documentaliste 2008 vol 45 n 3 p 14 15 Langages documentaires et outils linguistiques principes usages perspectives Premi re partie La repr sentation des contenus Documentaliste 2007 vol 44 n 1 p 17 64 DALBIN Sylvie Descripteurs http www descripteurs net Thesaurus UNBIS http lib thesaurus un org
20. en ceux qui pr sident aux d cisions de r ing nierie d un thesaurus 1 2 L analyse de la demande La demande de PAFD partait bien du besoin d indexer les bases de donn es documentaires Mais le traitement de ces donn es documentaires ne repr sente qu une part des produits et services qu elle propose ses agents Par ailleurs PAFD a en projet un intranet pour la gestion de contenu de ses informations Fallait 1l s en tenir la commande initiale ou pr voir que ce thesaurus pourrait dans une tape ult rieure tre utilis pour ensemble des contenus g r s par l AFD C est la seconde proposition qui a t retenue On rejoint l une volution plus g n rale des r f rentiels labor s par les documentalistes ils peuvent tre utilis s bien au del de leur objectif premier indexer et rechercher des donn es bibliographiques RESITUER LE THESAURUS DANS LA FAMILLE DES REFERENTIELS L quipe projets a resitu le thesaurus dans la famille des r f rentiels classifications ontologies de sorte que le thesaurus en chantier puisse voluer vers une base de connaissance et servir de pont entre des outils compl mentaires On peut pr voir de le faire voluer vers une ontologie en sp cifiant les types de relations qu il met en uvre Comme le pr cise Bruno Bachimont l ontologie est bien 4 signature fonctionnelle et relationnelle munie de sa s mantique d un langage formel
21. en partie le fait que cette pr sentation ne donne qu une vision partielle de la hi rarchie entre les termes quand comme c est le cas ici un seul niveau de hi rarchie est indiqu COMVERCE EXTERIEUR E FOREIGN TRADE S COMERCIO EXTERIOR DO 07 COMMERCE INTERNATIONAL MT 07 01 00 COMMERCE INTERNATIONAL ET POLITIQUE COMMERCIALE IMV COMMERCE INTERNATIONAL TG COMMERCE INTERNATIONAL TS EXPORTATIONS TS IMPORTATIONS VA BALANCE COMMERCIALE VA COMMERCE INTERIEUR NE Du point de vue d un pays ou d une r gion du monde d termin e RELATIONS COMMERCIALES EM COMMERCE EXTERIEUR Exemple de liste alphab tique de descripteurs 4 La Document Type Definition DTD ou D finition de Type de Document est un document permettant de d crire un mod le de document SGML ou XML Wikipedia vV Liste hi rarchique elle reprend la pr sentation par domaine d int r t DO 01 QUESTIONS POLITIQUES ET JURIDIQUES MT 01 01 00 INSTITUTIONS ET MOUVEMENTS POLITIQUES ASPECTS POLITIQUES AUTONOMISATION COLLECTIVIT TERRITORIALE ADMINISTRATION LOCALE ADMINISTRATION MUNICIPALE COOPERATION DECENTRALISEE COMMUNES Exemple de liste hi rarchique de descripteurs vV Liste permut e le fait que le thesaurus comporte un grand nombre de descripteurs multi termes renforce l int r t de cette pr sentation en pr sentant dans un ordre alphab tique les mots significatifs qui composent les descripteurs La li
22. es ou variantes lexicales de descripteurs existants Laiss s comme candidats descripteurs quand leur usage ne justifie pas de les introduire dans le thesaurus Corrig s quand ce sont des erreurs fautes d orthographe UN MODE D EMPLOI POUR SA MAINTENANCE Un guide a t r alis et fourni l APD pour d finir les modalit s d volution du thesaurus en le gardant compatible avec le thesaurus UNBIS Ce travail de mise jour s appuie sur une valuation critique p riodique environ deux fois par an des descripteurs utilis s pour Pindexation Dans tous les cas la d cision du groupe de travail est pr par e par l administrateur du thesaurus partir des candidats descripteurs introduits par les documentalistes dans un champ autonome v Il fait une analyse s mantique du concept sous jacent sur les sites qui constituent des r f rents terminologiques pour le domaine et aupr s des sp cialistes de PAFD pour en pr ciser le sens Il lance la comparaison des candidats introduits avec le nouveau thesaurus de PAFD pour contr ler que ces derniers mexistent pas d j dans le th saurus comme descripteurs ou comme quivalents v Il recherche dans le thesaurus UNBIS si le descripteur m existe pas d j ou si le candidat peut tre introduit dans une relation d quivalence avec un descripteur existant dans ce cas il retient de pr f rence le terme UNBIS pour enrichir le thesaurus de PAFD Ce tra
23. es des termes de PAFD a t pr par e par un traitement automatique puis valid e Elle a permis de retrouver les variantes morphologiques des descripteurs par exemple ceux utilis s au pluriel dans le monde anglo saxon et au singulier dans le monde francophone Ce travail de comparaison a t compl t par une analyse intellectuelle sur les termes suffisamment proches pour g n rer des relations d quivalence Pour 66 termes des quivalences ont t trouv es mais pour des raisons culturelles ce sont les termes de PAFD qui ont t retenus couramment utilis s par le public francophone de pr f rence aux termes du thesaurus UNBIS qui en taient des traductions de Panglais Exemple prestation de service pour services de support On se trouvait bien l devant des glissements s mantiques pour lesquels une analyse sp cifique t r alis e vV Non Equivalence 30 descripteurs jug s indispensables pour indexer des documents francophones ont t cr s pour tre rattach s ult rieurement l arborescence UNBIS Ils correspondaient des concepts propres la Coop ration fran aise n existant pas dans le thesaurus UNBIS Exemple coop ration d centralis e Enfin 67 termes retenus dans un 1 temps n ont pas t pris en compte pour le thesaurus jug s in fine trop sp cifiques ils pourront tre r utilis s comme candidats descripteurs Une comparaison automatique a ensuite
24. est bien un attribut du concept les relations taxinomiques hi rarchisation des concepts ou s mantiques qui rapprochent deux objets Il nous semble que le fait d articuler plus troitement concepts et relations permettrait PAFD de mieux d crire le contenu de ses documents Cette volution est indissociable de celle d interfaces qui int grent les outils techniques du web s mantique V En extraire un plan de classement peut se r v ler particuli rement utile dans le cadre d un portail pour acc der aux ressources documentaires de PAFD Ces ponts entre thesaurus et taxinomie sont par exemple propos s par l outil Mondeca qui permet de cr er une taxinomie par extraction des niveaux du thesaurus En cela la structure du thesaurus UNBIS con ue partir de micro thesaurus divis s en chapitres ou sous domaines se r v le particuli rement pertinente L AFD souhaitait que ce thesaurus soit un des outils au service du d veloppement de partenariats Cette demande mettait en avant des probl mes de compatibilit avec les bases de donn es des partenaires de PAFD Et donc une recherche des thesaurus existants et utilis s dans le domaine de la coop ration internationale Fallait il alors Cr er un thesaurus sur mesure ce qui pouvait correspondre la demande initiale gt Retenir un thesaurus existant pour indexer les bases de donn es documentaires de PAFD 1 3 L analyse de l existant L tude
25. it dans une configuration classique de cr ation de bases de donn es partir d l ments clairement document s DD be documentaire AFO ETAPE INFORMATIQUES een Etape 3 rapprochement FD UNBIS Les traitements informatiques de la troisi me tape ont t cr s pour rapprocher efficacement les descripteurs UNBIS et les termes utilis s dans le thesaurus de PAFD et Thesaurus UNBIS Traitement donc dans la base documentaire comme mot cl Ils ont Rapprochement saurus demand la mise en place d un algorithme syntaxique afin Base documentaire de permettre un rapprochement probable entre des termes qui taient par exemple au pluriel dans un r f rentiel et au singulier dans l autre notamment pour les termes compos s Ce rapprochement syntaxique a permis d associer les termes utilis s par AFD ceux du thesaurus UNBIS dans plus de 60 des cas BDD base documentaire Interface validation Etat de contr le utilisateurs AFD Analyse et validation par TTT Traitements ACTONIS 16 http lb thesaurus un org 17 SKOS ou Simple Knowledge Organisation System Syst me simple d organisation des connaissances est une famille de langages formels permettant une repr sentation standard des th saurus construit sur la base du langage RDF par le W3C Il permet la publication d un thesaurus pour son utilisation dans le cadre du Web s mantique et une transition possible
26. k rapportatiterm cdomain gt 1d Quastions sociales lt domaine cdomain gt 0 D waloppamant onomiquecdomain smicroThesaurus 14 05 03 Developpement socialmicroThesaurugs emieroThesaurma 02 08 09 Societes trangnationaleslmicroThegaurus gt celledTermldenti cuturellerelatedTermz cacopellote Fratiques comptables et rapports financiers de goci teatlgcopeNotez fhesaurusEni lt thesaursEntn lt JObjeet gt lt JObjeet gt Traduction an anglais st an espagnol lt Object ih Entrylang e F i as Ha ce ststdenti onburel cite lt th saurusEntry lang 4F gt Hier FR SRE ES etann bpe cDE status oise Enfants abandonn s lt itarm gt lt domain14 Questions sociales fdomaine M AU RC lt mi reTh saurs1 4 06 03 D v loppament socialcimicroThsesaurug rlsteTemeAseul urationcirelat t me hesaurusEniry gt translation lang 4E gt abandoned children lt ftranslations Ob ect gt lt transiation lang 45 Hinos abandonadog lt ransiations lt hhesaunusEnt lt lObjact Exemple d analyse pr alable la g n ration du format XML Le choix XML comme format d import dans l applicatif CINDOC est particuli rement int ressant dans la mesure ou ce standard permet au thesaurus d tre r utilis par d autres applicatifs bas s sur le format XML Utiliser la norme SKOS pour le d crire am liorerait encore le standard XML retenu AU FINAL ETAPE INFORMATIQUE 4 Enfin dans la derni re tape la g n
27. langues du thesaurus Seules les relations d quivalence et les notes d application sont sp cifiques chacune des langues retenues 15 Norme NF 747 100 On peut en consulter la pr sentation sur la version en ligne du thesaurus UNBIS par exemple dans une recherche sur le d veloppement durable Le travail d analyse pr alable a consist comme indiqu pr c demment ne retenir que les versions en fran ais anglais et espagnol des descripteurs retenus 2 2 3 En conclusion Le travail pr alablement d crit pour r cup rer le thesaurus UNBIS aurait t grandement facilit s il avait t fourni transcod en SKOS Ce travail de migration du thesaurus UNBIS vers SKOS serait r aliser par l quipe qui maintient UNBIS comme cela a d j t fait par exemple pour le thesaurus AGROVOC 2 3 L analyse des micro thesaurus utilis s par l AFD ETAPE INFORMATIQUE 2 pren BND SUN BUS UNIES RUN LENS NEUNESENHSUNSUNTUE PPT IIT LAFD 1 fourni Actonis une fichier de 3123 mots cl s utilis s pour indexer ses bases de donn es j Cr ation BDD s 41 Fichier texte Enk ja bibliographiques SOI Basa documentaire AFC vV 1470 termes retenus vV 1653 termes priori cart s de la s lection Concernant la deuxi me tape du travail informatique la construction de la base de donn es reflet de la base documentaire de l AFD n a pas pos de difficult puisqu Actonis se retrouva
28. m types DEr gtatussal Bouinadlterm domains Agriculturecfdomain miera Thesaurus 0d 03 00 Cheptalcimicro Thesaurus shh asauru sEntry SOhjects Gestion du tarma g n rique lt Ohjects lt thesaurusEntry langse F y gt stem hypes DE statug 1 r Agrom teorologiesiterm gt cdomain 16 Sciences t technigusscidom ain miero Thesaum a1 07 00 M t orologie lt imicroThesgaurus gt lt topTermeMe t orologiedtonTerme lt broadarTarmoM t crologie rcaderT am lt hhasaursEntry gt lt lObject lt Ohjoet gt lt thesaurusEntry lang Fy D s ripteur stem typese DE statu s24 14 gt Abacaditerm gt retenu lt dornaine0d Agrieukturasidomnain gt emi roThesauru s 02 02 Cultures lt imicroThesaurus gt Employ pour lt usedForrChanvre de ManilleclugedFor lt thasaurusEntrys lt OEjec lt hjects lt th saurusEntry lang Fre skarm typa sNDre Chanvre d Manillasiktem gt lt domain 04 Agriculture lt idomainz lt microThesaurus 04 02 02 Cultures lt imicroThesaurus Employer lt uselnstead hhacacluselnstead gt lt JthesaurusEntry gt Object 20 L Uniform Resource Identifier URTI cha ne de caract res unique respectant la norme RFC 3990 du W3C E Insertion dune note d application estion des tarmes asgocibs PF lt Object lt Objects lt thesaurusEntry langsyF n gt lt th saurusEntry lan g yFo gt dterm kbypesu DE aktatussa 1 Aneulkuration therm tern bypesaDEs sktatus 414 gt Com ptabilt e
29. maquette r alis e pour pr senter leur transcription au format XML requis par l interface CINDOC Pour chacun de ces cas de figure une note pr cisant les r gles de fonctionnement a t r dig e avec sa traduction en XML Ceci vaut notamment pour vV La gestion du nom de domaine La gestion des micro thesaurus L entr e du descripteur avec son rattachement au domaine et au micro thesaurus La gestion des relations d quivalence avec plusieurs renvois sur le terme retenu La gestion des termes associ s La gestion des termes g n riques et sp cifiques L insertion des notes d application KSKSKSK SKK OS La gestion du multilinguisme en anglais et en espagnol La gestion des quivalents historiques Cette analyse est disponible l adresse http www catherine cyrot net afd Par exemple pour les descripteurs vV Le descripteur fran ais F Term est unique et obligatoire et compos ventuellement de plusieurs termes v Ilest rattach un micro thesaurus et un chapitre l int rieur du micro thesaurus v Il peut comporter les relations hi rarchiques associatives et les relations d quivalence ces relations tant r ciproques Toutes les relations r ciproques sont d clarer de mani re biunivoque dans le fichier XML Entr e du descripteur avec micro thesaurus et domaine Gestion des synonymes Employ employer pour lt Obiect gt lt thesaurusEntry langsyFn gt lt ter
30. mes cart s qui lui sont propres Maintenance du thesaurus ce sont pour une bonne part les probl mes de maintenance qui ont provoqu la demande de lAFD Le thesaurus initialement utilis tait celui d IBISCUS d j compatible avec le macro thesaurus des Nations Unies mais qui n avait pas t remis jour depuis 1998 Dans l intervalle les documentalistes l avaient enrichi avec des candidats descripteurs sans en contr ler la structure d ensemble Au vu de cette exp rience le choix d un thesaurus dont la maintenance soit efficace tait un crit re de choix important 6 Thesaurus couvrant un tr s large domaine et ne comprenant que des descripteurs d un niveau g n ral qui peuvent tre repris dans des descripteurs sp cialis s ct Norme NF 747 100 R alisation d un th saurus pour la documentation de PAFD le 01 10 2009 page 5 1 3 2 Un tableau comparatif des thesaurus disponibles dans l environnement des Nations Unies L quipe de projet a dress en pr alable ses choix un tableau comparatif rapide des thesaurus disponibles par recherche des thesaurus existant Les partenaires de PAFD se situent principalement dans la mouvance des Nations Unies ce qui restreignait la recherche Pour les principaux thesaurus analys s les crit res suivants ont permis de classer les solutions pr f rentielles Editeur domaine d activit multilinguisme maintenance nombre de descripteur
31. mmarskj ld des Nations Unies New York une version anglophone de cet article devrait prochainement tre publi e en ligne 1 Crit res de choix du thesaurus On reprendra ici la demande de Agence Fran aise de D veloppement AFD pour en d gager des perspectives plus g n rales Ce sera l occasion de mentionner les l ments qui pr sident aux d cisions de r ing nierie d un thesaurus 1 1 La demande de l agence fran aise de d veloppement La prestation demand e par PAFD a pour but de mettre en place un thesaurus pour indexer ses bases de donn es documentaires Ce thesaurus a vocation terme tre int gr dans les applications documentaires actuellement g r es par le logiciel CINDOC Ce thesaurus devait donc r pondre aux demandes suivantes gt Correspondre aux champs th matiques de la documentation de PAFD dans le domaine de la coop ration internationale et pour cela analyser les nomenclatures utilis es par les documentalistes 1 Pour mieux conna tre AFD on peut consulter son site Web l adresse http www afd fr DO rue ce la Nbnesse 92310 S vres Td 6838175 A 0146268187 Site Vb htip mwwcatherine cyrotnet Mail cathernne cyot free fr R alisation d un th saurus pour la documentation de PAFD le 01 10 2009 page 2 Proposer une structure de thesaurus compatible avec les normes internationales pour faciliter les changes de PAFD avec son r seau de partenaires en
32. nde pour les utilisateurs de PAFD DANS UN AVENIR PLUS LOINTAIN Le thesaurus pourrait tre utilis pour des recherches sur l ensemble des documents pos s sur le site intranet de AFD documents qui ne sont pas ce jour facilement accessibles sauf utiliser explorateur Windows et bien conna tre emplacement de ce que recherchent les agents de PAFD Cela supposerait que PAFD se dote d un logiciel de gestion de contenu et int gre le thesaurus dans une recherche s mantique LAFD pourrait partir du travail r alis sur la structure du thesaurus le faire voluer vers une base de connaissances comme cela a t mentionn plusieurs reprises dans cet article Cette volution suppose d une part qu chaque descripteur corresponde une URI stable D autre part cela suppose de qualifier de mani re plus pr cise le type de relations qu elles soient hi rarchiques ou associatives A partir du thesaurus lAFD pourrait extraite une taxinomie afin de disposer d un plan de classement pour faciliter la navigation dans un portail documentaire reconstruire dans le but de faciliter l acc s des agents aux documents d pos s sur leur Intranet Ces pistes d volution ont t voqu es avec les documentalistes lors d une journ e de formation pour les aider mieux utiliser le nouveau thesaurus et d finir ses modalit s de maintenance Plusieurs applications de ce type actuellement disponibles sur le
33. omme on peut le voir dans l analyse des niveaux de hi rarchie du thesaurus retenu a simplifi le travail de structuration du thesaurus Ce choix est coh rent avec celui d un vocabulaire riche en syntagmes plus difficiles int grer dans des structures en arbre Le thesaurus de PAFD suit en cela l volution g n rale des thesaurus vers des grappes hi rarchiques plus courtes Nombre de relations hi rarchiques 529 Hi rarchies de 1 niveau Hi rarchies de second niveau Hi rarchies de troisi me niveau Hi rarchies de quatri me niveau On a gard la notion de terme de t te top term prise en compte dans les normes am ricaines et anglaises mais non dans les normes plus anciennes de lAFNOR et de PISO Par contre suivant en cela la pratique du thesaurus UNBIS on n a pas sp cifi le type de hi rarchie hi rarchie d instance de type est un sp cimen ou est un exemple d une cat gorie o hi rarchie partitive de type out partie qui ont fait leur apparition dans les normes am ricaine et anglaise Mieux sp cifier ces relations permettrait de passer du thesaurus une base de connaissances s appuyant sur des ontologies Les 30 termes nouveaux ont t rattach s aux branches des hi rarchies UNBIS de la mani re la plus logique possible RELATIONS ASSOCIATIVES Par contre 1135 termes ont des relations associatives soit 87 des descripteurs C est bien l enrichissement des relations associ
34. r de l tude de la terminologie existante Elle a alors recherch le concept le plus proche dans les termes couramment utilis s par PAFD et analys les relations quivalence synonymie synonymie proche variantes lexicales renvoi au g n rique afin de rapprocher les cas de figure dans lesquels des glissements s mantiques pouvaient s op rer entre les termes UNBIS et ceux de PAFD Le fait de pouvoir g n rer des relations d quivalence diff rentes selon les langues dans la structure UNBIS a permis ces adaptations le plus souvent une note d application pr cise l utilisation du terme Exemples Terme UNBIS Terme retenu pour l AFD Accroissement de la population Croissance d mographique solement social Retrait de capitaux Fuite des capitaux Folklore Culture populaire Exemples d adaptation s mantique v Ladaptation de la forme quand les termes retenus taient au pluriel habitude courante dans les thesaurus anglo saxons ils ont t conserv s tels quels dans le thesaurus pour rester le plus proche possible du thesaurus source m me si cela carte de la norme fran aise NF Z47 100 qui recommande Putilisation du singulier quand cela ne cr e pas d ambiguit de sens La m thodologie utilis e pour compatibiliser ces deux vocabulaires est d taill e au 2 2 de cet article 2 1 La m thodologie informatique appliqu e par Actonis Le travail t r alis par une quipe associ
35. ration d un fichier XML pour cr er le nouveau thesaurus de PAFD a n cessit un travail particuli rement pointu dans la mesure o la validation du nouveau thesaurus par l applicatif CinDoc ne donnait pas d l ments exhaustifs en cas de rejet du fichier XML lors de la validation des relations hi rarchiques entre les termes Etape 4 Mise jour des r f rentiels ELELLELLELLELLELLELELLELELLELLELLLELLELLEELELELLLE E BDD chez ACTONIS Etape 4 Mise jour du th saurus AFD Thesaurus UNBIS Thesaurus format Cindoc Cr ation thesautuys XML pour Cindoc BDD base documentaire AFD Chargement thesaurus Le fichier xml du thesaurus une fois import dans le gestionnaire de thesaurus test en local sur les machines d Actonis a t fourni PAFD avec un diaporama d taillant la proc dure d import proc dure qui a t r alis e avec succ s On pr sentera ici un exemple d utilisation du gestionnaire CINDOC amp 08 POPULATION E 08 01 00 DYNAMIQUE DE LA POPULATION MIGRATION INTERNATIONALE J E DYNAMIQUE DE LA POPULATION J E CROISSANCE DEMOGRAPHIQUE Q Z ACCROISSEMENT DE L POPULATION l E ESPERANCE DE VIE ane pae a E S FXPAT RIES EE INMIGRACION Z ETRANGERS SR Termes associ s E NON RESSORTISSANTS 08 POPULATION Tr Se B POPULATION ETRANGEFE Micro Thesaurus N POLITIQUE D IMMIGRATION Z GENFE m ps a E DE LA B IDENTITE SESUELLE Terme de t te Z RELAT
36. rme du thesaurus UNBIS Etape 1 cr ation base reflet UNBIS un nombre variable de champ tait affect De plus le fichier fourni pr sentait les informations verticalement Chaque champ avait lui m me une longueur ind termin e Ceci a demand la mise en place d un E algorithme d analyse particulier par reflet qu approches successives avant de d terminer Thesaurus UNBIS et de programmer un algorithme fiable pour environ 99 9 des cas Pour moins d une dizaine de termes il a fallu intervenir manuellement sur la base de donn es LETE LE LL Fichier texte Th saurus LUNBIS Traitement Analyse Th saumns UNENS ss sss ss EEETITETTIEETE LEE EE E constitu e i Pour donner PAFD une vision plus concr te du thesaurus et expliquer ces AAAA RAA AAAA TARAA RAAR tapes pr alables un export d une centaine de r f rences test a t dit Ce thesaurus test a t comment lors d une r union avec les documentalistes ELLES ELE EEI S EET I TE LE CS EEL 2 2 2 Au niveau conceptuel Le thesaurus est construit en respectant les normes de construction des thesaurus monolingues NF Z47 100 et multilingues NF Z47 101 RECAPITULATIF DE LA STRUCTURE MULTILINGUE DU THESAURUS On a donc pour chaque descripteur gt Sa traduction dans les diff rentes langues Sa note application dans les diff rentes langues gt Son rattachement un chapitre e
37. s Nom diteur domaine multilinguisme maintenance Nombre de descript eurs UNBIS Biblioth que Dag Programmes Anglais R vision en 7033 Hammarskj ld des Nations Unies et activit s de arabe continu descript l Organisation chinois eurs des Nations espagnol Unies fran ais russe UNESCO UNESCO Education Anglais La derni re 7000 culture fran ais version date descript sciences espagnol de 2008 eurs sociales et russe humaines AGROVOC FAO Agriculture Anglais Derni re 30 000 p che fran ais mise jour descript alimentation espagnol 2008 eurs environnement arabe chinois Travail Anglais Derni re 4000 fran ais dition en descript espagnol 2008 eurs Thesaurus CNUCED OMC Commerce Anglais Edition 2004 du international espagnol commerce international Thesaurus Banque mondiale de la Thesaurus du BIT Economie Anglais R vision en internationale continu Banque Mondiale S lection de thesaurus des Nations unies source thesaurus UNBIS Il faut noter que le thesaurus UNBIS fait figure de macro thesaurus compatible avec les autres th saurus sp cialis s des agences des Nations Unies qui font autorit dans leur domaine d activit respectif C est ce titre que les choix de descripteurs dans ces domaines sp cialis s ont t privil gi s par UNBIS 7 Pour voir la liste des thesaurus disponibles dans le syst me des Nations Unies http lib thesaurus un o
38. ssez g n rale de l volution des thesaurus EN CONCLUSION On voit bien que si le thesaurus de l AFD int gre des volutions r centes qui permettraient une meilleure utilisation par les outils du web s mantique cette volution s arr te encore en chemin En faire un r f rentiel normatif adapt pour g rer des bases de connaissances supposerait un travail compl mentaire pour mieux en sp cifier les relations et int grer en sus z 2 P 2 d 24 des l ments demand s par les d finitions de type de document DTD du langage XML date de cr ation ou de mise jour source du terme noms des gestionnaires lien avec d autres langages 3 2 Une dition du thesaurus imprim au format PDF L dition r alis e propose en accord avec les normes existantes une pr sentation alphab tique des descripteurs avec toutes leurs relations une pr sentation hi rarchique et une liste d unitermes Cette dition constitue un outil de travail pour les documentalistes de PAFD sous ses 3 formes v Liste alphab tique des descripteurs avec toutes leurs relations Outre les relations d quivalence de hi rarchie et d association elle int gre le code de classification et le terme de t te MV ainsi que les notes d application et les traductions en anglais E et espagnol S reprenant en cela les pr conisations de la norme anglaise En outre int grer les termes de t te ou top terms contourne
39. ste permut e int gre les descripteurs et non descripteurs comme lindique la norme anglaise la norme am ricaine ne les inclut pas et la norme fran aise ne pr cise rien CONTRAT ADMINISTRATIF EM CONTRATS DROIT ADMINISTRATIF ETABLISSEMENT PUBLIC ADMINISTRATIF EM ETABLISSEMENTS PUBLICS SERVICES DE SUPPORT ADMINISTRATIF EM PRESTATIONS DE SERVICE ACTES ADMINISTRATIFS FRAIS ADMINISTRATIFS ADMINISTRATION ADMINISTRATION DECENTRALISEE EM DECENTRALISATION ADMINISTRATION DOUANIERE Exemple de liste permut e de descripteurs 3 3 La maintenance du thesaurus La maintenance du thesaurus a t pr vue d s sa conception LE SUIVI DE SON UTILISATION Il a t pr vu de r aliser apr s six mois de son utilisation une analyse des termes utilis s et des candidats descripteurs Dans le cadre d une formation l indexation pour les documentalistes elle a permis de pr ciser les r gles utilisation des descripteurs s lectivit des concepts et profondeur d indexation modalit s de cr ation de candidats descripteurs vV Pour pr parer le mode demploi apr s avoir analys les candidats descripteurs susceptibles d tre selon les cas Transform s en descripteurs quand ce sont des notions nouvelles ou des termes plus sp cifiques dont l utilisation devient courante dans Pactivit de PAFD Introduits comme relations d quivalences quand ce sont des synonymes quasi synonym
40. t Les notes application sp cifiques aux langues utilis es permettent de mieux d finir les concepts sous tendus par les descripteurs retenus On a vu en particulier qu elles ont t utilis es et parfois entichies pour g rer les glissements s mantiques entre descripteurs gt Les relations d quivalence ou de substitution renvoient des divers synonymes ou quasi synonymes d un concept vers le descripteur unique correspondant utilis dans le langage documentaire Cette relation permet souvent le renvoi de termes sp cifiques trop peu utilis s vers leurs termes g n riques Les termes quivalents sont g n ralement rep r s par le sigle EP comme abr viation de Employ Pour Le terme pr f rer au terme Employ Pour est indiqu par le symbole EM ou EMP comme abr viation de Employer Dans un thesaurus multilingue les synonymes et quasi synonymes peuvent tre sp cifiques aux langues utilis es Exemple DEVELOPPEMENT DURABLE 03 05 00 ENVIRONNEMENT Employ pour ECODEVELOPPEMENT Note d application D veloppement cologiquement viable Termes g n riques DEVELOPPEMENT ECONOMIQUE Termes sp cifiques ENERGIE DURABLE Termes associ s ECOTOURISME EVALUATION DE L IMPACT SUR L ENVIRONNEMENT PROTECTION DE L ENVIRONNEMENT LE MULTILINGUISME Il est g r partir de l anglais comme vocabulaire pivot chaque terme dans une langue correspond un quivalent dans les autres
41. t sous chapitre du micro thesaurus d clin s dans les diff rentes langues Son rattachement un terme g n rique dans les diff rentes langues et son rattachement au terme de t te top term y Ses termes sp cifiques dans les diff rentes langues y Ses termes associ s dans les diff rentes langues y Ses synonymes ou quasi synonymes dans les diff rentes langues LA HIERARCHIE Exemple Les descripteurs sont organis s en micro thesaurus 03 03 00 ENVIRONNEMENT correspondant un plan de classement de 18 micro Nombre de termes inclus dans le th me 45 thesaurus r partis en 143 chapitres Ces micro ACCORDS SUR L ENVIRONNEMENT thesaurus correspondent des ensembles de DEGRADATION DE L ENVIRONNEMENT descripteurs appartenant au m me domaine ces DEVELOPPEMENT DURABLE descripteurs sont ventil s Pint rieur du micro DROIT DE L ENVIRONNEMENT thesaurus en chapitres Ce type d organisation en micro thesaurus divis s en chapitres nous semblait particuli rement int ressant dans la mesure o il permettait d utiliser le thesaurus pour d finir une organisation ditoriale comme une taxinomie particuli rement bien adapt e pour donner acc s aux documents num riques travers un portail d information Il facilitait donc un usage du thesaurus pour g rer l ensemble des contenus num riques de PAFD comme cela avait t envisag lors de l analyse de la probl matique Le thesaurus UN
42. tg 8 La liste de ces thesaurus peut tre consult s sur le site UNBIS R alisation d un th saurus pour la documentation de PAFD le 01 10 2009 page 6 Notre proposition a donc t de r utiliser un de ces thesaurus existants en l adaptant aux besoins de PAFD Nous d taillerons ult rieurement les ajustements faits pour r pondre sa demande 1 4 En conclusion C est en croisant ces trois crit res adaptation au champ th matique multilinguisme et qualit de la maintenance que le choix de PAFD s est port sur le thesaurus UNBIS Elle a donc valid la d cision de retenir le thesaurus UNBIS comme le plus proche de ses domaines d intervention Le choix du multilinguisme s est port sur l anglais et l espagnol Le fait que le thesaurus UNBIS soit accessible en ligne et g r par une quipe de documentalistes avec des mises jour r guli res a t un l ment d terminant de choix 2 La m thodologie de fabrication du thesaurus Une fois le choix du thesaurus UNBIS adopt il restait travailler la compatibilit de ce vocabulaire avec la collection de termes utilis s par l APD Il ne nous semblait pas possible de contraindre les indexeurs utiliser tels quels les descripteurs du thesaurus UNBIS Une large part correspondait l usage de la communaut des usagers mais pas tous Certains descripteurs parfois traduits directement de langlais semblaient incongrus dans l environnement de trav
43. turation des hi rarchies a t vit e autant que possible et la notion de terme de t te top term a t conserv e V Adaptation de la s mantique la proximit et P habitude de travailler dans un environnement international limitait les glissements de sens entre thesaurus source et thesaurus cible Rappelons que selon la norme NF Z46 100 deux thesaurus A et B sont compatibles si dans un m me domaine les documents index s avec le thesaurus A peuvent tre retrouv s avec le thesaurus B et r ciproquement 10 DALBIN Sylvie Th saurus et informatique documentaire partenaires de toujours Documentaliste 2007 vol 44 n 1 p 42 55 11 Terme de t te top term c est dire le terme situ au plus haut de la hi rarchie ascendante du descripteur R alisation d un th saurus pour la documentation de PAFD le 01 10 2009 page 7 On a pu relever les cas de figure suivants Equivalence inexacte Equivalence partielle Equivalence d un terme plusieurs termes Sp cificit et usabilit du vocabulaire obtenu non satisfaisante Quand l quipe projet a rencontr ces cas de figure elle a travaill pour rep rer dans le thesaurus source UNBIS le concept cach derri re le terme utilis en remontant au langage pivot utilis ici anglais et en explorant son environnement s mantique En compl ment elle a mieux d fini son territoire en r digeant des notes d application parti
44. urus et 125 chapitres Chaque micro thesaurus est donc structur en 7 chapitres en moyenne L importance de cette structuration explique pour une part que les hi rarchies soient relativement courtes comme expliqu ci dessous Elle devrait permettre une double utilisation possible du thesaurus navigation dans la structure 21 Un syntagme est un ensemble de mots formant une seule unit cat gorielle et fonctionnelle mais dont chaque constitua arce que dissocia contrai au mot compos co a significatio a ax nstituant parce que dissociable contrairement mot compos conserve sa signification et sa syntaxe propres Un syntagme constitue donc une association occasionnelle libre alors que le mot compos est une associatio a orsqu u a il devi ien s r un compos d tach soit une locution ssociation permanente lorsqu un syntagme se fige il devient bien s r un compos d tach soit une locution Wikipedia 22 Principe suivant lequel l expression d une notion s effectue au cours de l laboration du thesaurus par la cr ation de termes compos s cf norme NF Z47 100 2 AMAR Muriel Les fondements th oriques de l indexation Une approche linguistique Paris ADBS 1997 355 p des relations du thesaurus et utilisation d un plan de classement par exemple pour l afficher sur le portail pour acc der tous les documents pos s sur l intranet RELATIONS HIERARCHIQUES Le fait que les hi rarchies soient courtes c
45. vail de mise jour s appuie sur les contr les automatiques des relations s mantiques du gestionnaire de thesaurus CINDOC il v rifie en particulier Punicit des termes la r ciprocit des relations d quivalence de hi rarchie et d association la pr sence de termes orphelins 2 Par exemple la base de donn es terminologique des Nations Unies http unterm un org 4 L interaction avec l application documentaire de l AFD 4 1 La remise niveau de l indexation de la base bibliographique En d cembre 2007 la base de donn es bibliographique comportait 12 531 r f rences 94 des r f rences ayant 2802 descripteurs et seulement 200 r f rences des candidats descripteurs cette possibilit tant donc au total peu utilis e Le nombre moyen de descripteurs par r f rence tait de 4 43 L indexation mati re tait introduite dans un champ MOTSCLES pour les termes de l ancien thesaurus mais on a vu pr c demment que les documentalistes s taient peu peu cart s des listes existantes pour d terminer de nouveaux descripteurs aucun contr le n tant fait en saisie sur ce champs Un champ CANDIDAT tait pr vu pour une indexation libre A partir du moment o les documentalistes utilisent un nouveau thesaurus se posait la question de la remise niveau des indexations existantes dans les fichiers bibliographiques Un module a donc t mis en place pour mettre niveau cette indexation Pour pr parer la

Download Pdf Manuals

image

Related Search

Related Contents

  SECTION 4_Canvass Procedures_V24  Bedienungsanleitung INFRALYT 50 Mehrkomponenten  AquaLab 800-755-2751  Fischer Panda Bedienungsanleitung Panda 45i PMS Super  Brinno BBC100  PiZu 40 Bedienungsanleitung (D)  TesT equipmenT CaTalog  ASRock B85 Pro4 Quick Start Manual    

Copyright © All rights reserved.
Failed to retrieve file