Home
these-mathieu-mangeo..
Contents
1. 128 C 13 article provenant du FeM apr s r cup ration 133 C 14 article provenant du DHO apr s r cup ration 133 C 15 r sultat de la fusion entre le FeM et le DHO 134 C 16 organisation logique d une base lexicale 135 C 17 exemple de eraphe UNE iure ear de de dite a ae du D AN De dame 139 C 18 r gime d ENSEIGNER sous forme d automate 140 C 19 types simples des sch mas XML 142 C 20 sch ma g n ral de l environnement et ses API 147 C 21 transformation et dition d un document XHTML 165 C 22 transformation et dition d un document rtf 167 D 1 vue globale de la base lexicale Papillon 173 D 2 macrostructure du dictionnaire Papillon 177 D 3 axies reli es par des liens de raffinement 178 D 4 page d accueil du serveur Papillon 182 D 5 organisation des sch mas XML dans le projet Papillon 188 D 6 architecture du serveur Papillon 197 D 7 tables de la base de donn es de Papillon 198 D 8 interface java permettant de cr er des liens entre lexies 200 D 9 d
2. 46 4 2 3 REVISIONES EN T ES aura ie nu ra Fest ee A 46 4 3 Construction sp cialis e pour des dictionnaires de traduction automatique 47 4 3 1 Introduction 6 2 544 28 paca passe sa ex patentes ee dues 47 4 3 2 Les manuels d indexage 222 4544 84 auf og done Lung eut eh 48 43 3 DISCUSSION 1 a de Hu RME NE NN RU NU INTER 49 4 4 Construction sp cialis e pour des dictionnaires d usage l outil DECID 49 44 1 Introduction 4 4444 dass be ee eee teen ere Ea G 49 4 4 2 L diteur sp cialis DECID 50 443 DISCUSSION a 4 5 ed somme drum A AA A a dors 50 4 5 Construction en ligne par des contributeurs le projet SAIKAM 51 45 L Introduction cara bd vd dame des ee date ut 51 4 5 2 Interface de r daction en ligne 51 4 5 3 Interface de consultation ees trepe r EER EFET ES 53 4 54 DISCUSSION 4 i404 84 Se ee hee ee RRR Ge A as E arte 53 4 6 CONCLUSION e 5 408 hd a do a ae a hy dd wk A a a aa 54 5 Standards li s 4 la repr sentation de dictionnaires 55 5 1 Pour les caract res Unicode et ses transcriptions 55 5 2 Pour la structure des documents le balisage 56 5 2 1 Le standard des diteurs SGML 56 5 2 2 Un standard plus r cent XML et ses d riv s 56 5
3. 31 2 2 3 Consultation de plusieurs dictionnaires le site dictionary com 32 2 2 4 Consultation d une base terminologique multilingue EURODICAUTOM 33 2 2 5 Conclusion one e aoe se ae Eds ins due dau aie de axe 35 3 Outils de manipulation de dictionnaires 37 3 1 Une m thode de r cup ration de dictionnaires R CUPDIC 37 dll Pr sentation ald Gs fae ee RL LAUSANNE NT Sheer dee 37 3 1 2 Exemple d article avant r cup ration 37 3 1 3 Grammaire de r cup ration 38 3 1 4 Exemple d article apr s r cup ration 39 3 2 Un outil de manipulation de dictionnaires PRODUCDIC 40 32 il Presentaci airada obus peser TE be e D 40 32 2 EXCMple ra ica e dale a dec or gh ar ue ct 41 FS CONCIUSION iia a a es a Sa dems 42 4 M thodes de construction de dictionnaires 43 4 1 Constructions directe et d mocratique exemple du FeM 44 4 11 Introduction lt 24 doe GS E a ga dE MR ee semis 44 4 1 2 M thode de construction d mocratique des articles 44 4 1 3 Bilan de la m thode 5 44 wd ns aus a ee bass bass 45 4 2 Cr ation classique avec un diteur structur SGML 45 4 2 1 Introduction ue due dau pute de n be DA de deu te 45 4 2 2 Pr paration des articles
4. ___ Acception fran aise lien om je A E demo Y UWT lenme ent tags sx f cat gorie La tags 4 Vocable prop morphosynt Acception UNL lemme indexeur universal word categorie g liste d lemme mot vedette prop morphosynt liste d uw tags indexeur indexeur liste d uwf liste d uwf unite lexicale unite lexicale FIG B 11 vision interne de la base lexicale Chaque instance de la classe Acception UNL est li e une ou plusieurs instances de la classe Acception fran aise Chaque Vocable est lui aussi li une ou plusieurs instances de cette classe Une instance de la classe Acception fran aise peut tre li e un nombre quelconque de Vocables et ou d Acceptions UNL 2 1 3 R daction des articles Nous avons repris la solution employ e pour la construction du dictionnaire FeM Cette technique a permis de corriger compl ter ou cr er 20 000 entr es contenant 50 000 acceptions en 9 mois Nous avons ensuite am lior la technique en s parant le travail en deux parties La base de donn es centrale est g r e par un lexicologue Il r cup re d abord plusieurs dictionnaires qu il fusionne Il cr e une description des entr es de la base sous forme de grammaire Gr ce cette des cription il pr pare le r sultat de cette fusion sous forme de fichiers Word qui sont envoy s aux indexeurs Dans un deuxi me temps il r cup re les fichiers
5. 74 1 2 1 Pr sentation 24 eee hee ces Le 4 da ad in ben Rad ain ent ue 74 12 2 Architecture de Dico Web rosou uct dia x BUS de aude DUR La ua ue 74 k23 Interface de DICOWED Par NE ue ND NS DO BME dh aed eg 75 1 2 4 Fonctionnalit s originales 76 12 SeDISCUSSIOMN a amp 4 4 4 a HA Ra R a sue Bu ds se das She 4 77 1 3 Regroupement de ressources locales et distantes DicoFeJ 78 1 3 1 Pr sentation 3 4 we Bk us Boas D DA Due D 6 ee he dun A 78 1 32 DISCUSSION e alucinar Hale MAUR ANS SAT e EN Sale 4 ee ee 79 1 4 Personnalisation du r sultat des requ tes le FeM 80 ld Presentation e ia nos it D ale ke ar de carter Dot atea ye 80 142 DISCUSSION 4 de 4 use Dash Dane dom S ES am whl we A ga E a 4 80 2 Am lioration des m thodes de construction 82 2 1 Am lioration de la m thode d mocratique du FeM pour UNL 82 711 Probl matique ia ln e rss salle A AAA Gee A 82 2 1 2 Structure interne de la base mie ae e aa a 83 2 1 3 R daction des articles us do a cs a GR a ee pars 84 21 4 DISCUSSION sosa s a EAN aa se su IR A ae ae Pe He A ee dune a 87 2 2 Construction en ligne de dictionnaires structures simples DicoSz t r et Nihongo 88 2 2 L Pr SentatiOM rd Dan die Gig elk de deg awe 4 a da 88 2 2 2 Structure des article
6. 3 architecture de DictList Name Eurowordnet Category multilingual Domain general Source English Date of creationinstallation of dictionary see version Responsible lg Comments A directory containing the Eurowordnet data Name German dictionary Category bilingual Domain general Source English Target German Date of creationinstallation of dictionary Feb 1997 Author Responsible mhc Comments no information about the Source of these files Name Hungarian_en hu Category bilingual Domain general Source English Target Hungarian Target Date of creationnstallation of dictionary 2 March 1995 Author Istvan Szabai Responsible Marie H l ne Corr ard Comments English Hungarian Dictionary FIG B 4 copie d cran du serveur DictList 73 des choix L utilisation de fichiers XML pour stocker les donn es ainsi que des feuilles de style XSLT a aussi t concluante Cependant la majorit des utilisateurs regrettent de n avoir que de la m ta information sur les res sources Ils souhaiteraient acc der aussi directement un extrait de ces ressources Nous avons donc con u un autre outil r pondant cette demande 74 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc 1 2 Consultation de plusieurs ressources h t rog nes DicoWeb 1 2 1 Pr sentation Les ressources lexicales disponibles sont stock es
7. 4 Int gration des outils de manipulation construction et consultation de dictionnaires 155 lt xsl value of select name gt lt xsl if test text gt lt xsl value of select text gt lt fyxeltat gt lt xsliif test gt lt ASILitext gt lt xslitext gt CIRIA lt xsl apply templates select gt lt xsliif test gt lt xsl apply templates select gt a fesliat gt lt xsl template gt lt mod le pour les attributs lispo gt lt xsl template match lispo gt lt xsl value of select gt lt x51 text gt lt xsl text gt lt xsl template gt 4 2 Interaction avec les serveurs partenaires La base lexicale peut interagir avec de nombreux fournisseurs diff rents Elle peut tablir des partenariats avec d autres bases ou d autres applications en changeant des donn es Ce partenariat est bas sur un principe de dualit La base peut utiliser des ressources lexicales distantes Ces ressources sont disponibles via des fournis seurs de ressources Il faut donc standardiser les changes entre la base et les fournisseurs de ressources D autre part la base lexicale fait aussi appel des services externes par exemple pour lemmatiser un mot avant une recherche dans la base ou pour conjuguer un verbe etc La base se connecte des fournisseurs de services Il faut donc aussi standardiser les changes entre la base et les fournisseurs de services 4 2 1 Principe de
8. 72 B 3 archiiecture de DIGtLISE 2 pico hors Near soda 73 B 4 copie d cran du serveur DictList 73 B 5 architecture g n rale de DicoWeb 74 B 6 Interface Web de DicoWeb 19 B 7 l article neige du serveur dicofej 79 B 8 interface du serveur du FeM param trable 81 BY exemple de graphe UNE 2 4 a eS rap aude BR Sade OS ee 83 B 10 Solution Mise en UVT 544 409 a ane ie dues re sh eee GS ado 83 B 11 vision interne de la base lexicale 84 B 12 fichier d dition du dictionnaire frangais anglais that 85 B 13 fen tre de la macro style suivant 86 B 14 fen tre de la macro liste valeurs 86 B 15 message d erreur suite la v rification d une cat gorie 87 B 16 article du dictionnaire Nihongo fran ais 89 B 17 interface d indexage en ligne du dictionnaire Nihongo 90 B 18 article fa du serveur DicoSz t r 92 B 19 utilisation de DicoSz t r par un quizz 92 B 20 article desert de la base lexicale UNL 94 B 21 l outil ThirdVoice d annotation de pages Web 95 B
9. Melby96 Allan Melby et al 1996 The Machine Readable Terminology Interchange Format MARTIF Putting Complexity in Perspective Termnet News vol 54 55 pp 11 21 Nedobejkine94 Nicolas Nedobejkine 1994 Dictionnaire naturel russe fran ais issu des fichiers cod s ARIANE Document interne GETA Grenoble 8 p Pearsall98 Judy Pearsall 1998 The New Oxford Dictionary of English Clarendon Press Oxford 2154 p Perennou92 Guy P rennou et al 1992 Le Projet BDLEX de base de donn es lexicales du fran ais crit et parl Rapport technique IRIT UMR CNRS 5505 Groupe IHM PT Universit Paul Sabatier de Toulouse 1992 21 p Perennou97 Guy P rennou et Martine de Calm s 1997 Lexique de formes fl chies repr sent es aux plans morpho syntaxique phonologique et orthographique Lisez moi Equipe IHMPT IRIT UMR 5505 Universit Paul Sabatier de Toulouse octobre 1997 15 p Pocock99 Randall J Pocock 1999 MRDs and LDBs School of Computer Studies University of Leeds Royaume Uni 8 p Polguere98 Alain Polgu re 1998 La th orie Sens Texte Dialangue Vol 8 9 Universit du Qu bec a Chicoutimi pp 9 30 Polguere00 Alain Polgu re 2000 Towards a theoretically motivated general public dictionary of se mantic derivations and collocations for French Proceedings of EURALEX 2000 Stuttgart pp 517 527 224 Bibliographie Proszeky97 G bor Prosz ky 1997 MoBiDic A New Language Technology Tool
10. 3 1 3 Outils utilis s pour construire le serveur Le paradigme de d veloppement de LINUX appliqu la base Papillon d une part et le budget limit pour le projet Papillon d autre part nous incitent choisir des outils gratuits ou avec une licence de logiciel libre Open Source Toutefois pour pouvoir utiliser les outils R CUPDIC et PRODUCDIC nous avons besoin d une licence commerciale de MCL Macintosh Common Lisp Les donn es lexicales les donn es n cessaires au fonctionnement du serveur ainsi que les donn es relatives aux utilisateurs et groupes sont toutes stock es sur le serveur Nous utiliserons donc un SGBD libre et compatible Unicode pour ce stockage Le serveur doit impl menter un serveur Web pour tre accessible via Internet par http Pour faire le lien entre la base de donn es et le serveur Web d une part et aussi pour manipuler les documents XML il faut un langage impl mentant une API DOM ainsi qu un pilote de base de donn es 3 2 Structures de donn es 3 2 1 Description des structures Toutes les donn es de la base lexicale sont d crites sous forme de documents XML Tout se passe come si chaque collection lexies axies poids utilisateurs contributions profils tait un grand fichier XML La structure de ces documents est d crite par le sch ma DML en annexe A On d finit ensuite la granularit de la repr sentation dans le SGBD choisi pour le stockage 3 Sp cifications externes 1
11. L attribut DML id port par un l ment est un identificateur unique dans toute la base lexicale Il permet d tablir des liens entre plusieurs l ments Son type reprend le type simple ID des sch mas XML Historique des modifications L historique des modifications d un l ment porte un identificateur unique L l ment r f rence son historique gr ce l attribut DML history qui donne la valeur de l identificateur unique de l historique Le type de cet attribut reprend le type simple ID des sch mas XML Le fait de r f rencer un historique par un identificateur unique nous permet de stocker dans des fichiers diff rents les l ments et leur historique Le fichier d historique est r f renc dans le fichier d l ments par Pattribut DML history ref qui indique l URL du fichier d historique Le type de cet attribut est celui d crit par la norme xlink et utilis pour les r f rences xlink href Notation des langues Pour noter les diff rentes langues nous utilisons la norme ISO 639 2 T T pour Terminologie ISO98 qui d finit un code 3 lettres pour chaque langue fran ais gt fra anglais gt eng malais gt msa etc Nous ajoutons aussi nos propres codes comme unl pour le langage UNL Cette liste de codes repr sente le type lang L attribut DML lang est du type DML lang 130 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires Encodages des docu
12. Les articles interlingues peuvent aussi relier des exemples des tournures des citations ou des proverbes avec leurs traductions ou correspondances dans les autres langues Les liens entre exemples sont appel s exies les liens entre tournures idiom axies les liens entre citations citation axies et les liens entre proverbes proverb axies 2 3 Ressources r cup rer et calendrier 2 3 1 Types de donn es r cup rer Afin de faciliter la construction de la base lexicale nous r cup rons des donn es pour construire des squelettes d articles qui seront ensuite compl t s par les contributeurs et revus par les lexicologues La base DiCo comportera terme 3 000 vocables fran ais encod s en Macintosh Western et stock s sous forme de champs textuels dans une base de donn es FileMaker Nous avons d j test la conver sion vers XML et UTF 8 d environ 400 lexies avec succ s La partie fran ais anglais du dictionnaire FeM Gut96 comporte environ 20 000 vocables fran ais correspondant 70 000 lexies fran aises et 30 000 lexies anglaises Ce dictionnaire encod en Macin tosh Western a t r cup r par Ha Doan Nguyen au format LISPO Nous l avons converti en XML et UTF 8 Le dictionnaire japonais gt anglais JMDict EDict de Jim Breen comporte environ 70 000 articles Il est encod en XML De plus un autre projet en cours pilot par Jean Marc Desperrier a pour but d y ajouter des tradu
13. cons Si S body 23 sense S gt gt exps exps expl expl sub j subj sense trim whites exps if expl trim whites expl if subj trim whites subj S 2 4 expl expl gt gt to cparen expl 2 5 expl expl gt S nil expl 68 subj subj gt gt to cbhrak subj 2 7 sub j subj gt nil subj 28 sense S gt sense S1 sense S 1 cons S1 S 1 S 9 sense S gt nil S start symbol babel entry symbole de d part de la grammaire lexical rules hwd gt _ 10 Headword prend 10 caract res xps gt to cparen gt gt to cbrak gt gt lexical order hwd exps expl subj working code sia defclass babel hwd body classe d finitions sia defclass sense exps expl subj defun trim whites string string trim Space Tab Newline string FIG A 32 grammaire H grammar de r cup ration de BABEL une cha ne de caract res se terminant par une parenth se fermante le symbole to cbrak correspond une chaine de caract res se terminant par un crochet fermant Expliquons maintenant les r gles d analyse syntaxique syntax rules sense est un simple non terminal Il ne s agit pas de sense suivi de l op rateur de Kleene De m me exp1 est un non terminal normal sense donne finalement une liste de sense et exp1 donne 0 ou 1 expl mais il s agi
14. define dictionary FeM owner GETA comment French English Malay dictionary Category multilingual creation date 21 01 97 installation date 21 01 97 format rtf hw number 192460 bytes 9106261 type unidirectional version 1 source languages French target languages English Malay contents general vocabulary in 3 languages domain general source ML YG PL Puteri Kiki CB MA Kim legal all rights belong to ass Champollion administrators Kim ML volumes FeM_fr_en_ms FIG C 5 description du dictionnaire FeM avec LEXARD tendu define volume FeM_fr_en_ms comment Unique volume du FeM source language French articles composant le volume FIG C 6 description du volume du FeM avec LEXARD tendu 2 1 2 Architecture linguistique du systeme D finition d un objet linguistique L utilisateur d finit ensuite avec LINGARD la microstructure des dictionnaires qu il veut cr er Pour chaque dictionnaire il d crit les structures informatiques des unit s de son lexique Pour cela il utilise les 2 D finition du noyau de l environnement avec SUBLIM 125 constructeurs de base du langage arbre graphe automate structure de traits liste ensemble num ration etc def linguistic class french_entry feature structure lexical_unit string Part of Speech one of n m n f v t v i v pr a adv loc prep exam
15. lt element name fra gt 144 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires lt complexType gt lt sequence gt lt element ref reflexie gt lt element ref external references gt lt sequence gt lt complexType gt lt element gt lt sequence gt lt attribute ref id gt lt complexType gt lt element gt lt element name refaxie gt lt complexType gt lt attribute ref href gt lt complexType gt lt element gt Nous pouvons laborer des contraintes sur ces dictionnaires exprim es par exemple avec le langage XSLT Les contraintes sont crites dans des feuilles de styles XSLT Celles ci sont ensuite lues et ex cut es sur des documents XML par un moteur XSLT Les exemples suivants ont t labor s en collaboration avec Marc Salvati tudiant en premi re ann e de magist re d informatique Le langage XSLT comporte quelques restrictions Tout d abord nous devons fusionner tous les articles des dictionnaires diff rents dans un seul document pour pouvoir v rifier des contraintes de coh rence Nous pouvons r aliser cette op ration gr ce une feuille de style XSLT lt xsl stylesheet version 1 0 gt lt xsl param name f_source gt lt xsl param name f_ref gt lt application du mod le sur le n ud racine gt lt xsl template match gt lt 1 l
16. lt element name name type string gt lt element name source language type lang gt lt element name word order type string gt lt element name cdm elements type string gt lt element name context type positivelnteger gt lt element name preprocessing type string gt lt element name regex type boolean gt lt element name input type string gt lt arguments gt lt result gt lt element name output gt lt complexType gt lt sequence gt lt element name article type articleType gt lt sequence gt lt complexType gt lt element gt lt result gt api Voici un exemple de consultation du dictionnaire FeM avec recherche du mot essais un contexte d un article pr d cent et suivant et un pr traitement de lemmatisation lt name gt FeM lt name gt lt source language gt fra lt source language gt lt context gt 1 lt context gt lt preprocessing gt Lemmatisation lt preprocessing gt lt regex gt no lt regex gt lt input gt essais lt input gt Voici un extrait du r sultat de la requ te Nous ne montrons que les mots vedettes des articles lt output gt lt article gt lt headword gt essuyer lt headword gt lt article gt lt article gt lt headword gt essai lt headword gt lt article gt lt article gt lt headword gt esssayer lt headword gt lt article gt lt output gt 4 3 3 Visualisation du r sultat Pour l instant le r
17. lt format input xml gt lt arguments gt lt element name article type string gt lt arguments gt a rosult lt element name output type string gt lt result gt api gt Voici un exemple d argument article lt administration gt lt indexer date 2001 05 31T16 34 29Z gt Mathieu Mangeot lt indexer gt lt lesson n 7 date 31 05 01 gt lt status gt r vis par AS lt status gt lt administration gt lt hun gt szem lt hun gt lt pos gt n lt pos gt lt fra gt eil lt fra gt lt pos gt n m lt pos gt lt article gt Et voici le r sultat lt output gt Article szem ins r Article il ins r lt output gt 4 3 Consultation de la base Divers clients acc dent la base pour y effectuer des t ches vari es La base dispose d interfaces de consultation et de modification en ligne Il est aussi possible au programmeur qui le souhaite de construire une application cliente de la base Il devra dans ce cas respecter les interfaces API d finies plus bas et correspondant aux services demand s la base 4 3 1 S lection des ressources Pour la s lection des ressources dans la base utilisateur a besoin de consulter la m ta information dis ponible sur ces ressources Il le fait via une API de m ta information Il peut ensuite gr ce aux informations fournies par cette API choisir les ressources qu il d sire consulter 160 C Sp cification d un environnement de g
18. r a http et d sont des raccourcis gt lt r RDF xmlns r http www w3 org 1999 02 22 rdf syntax nsj xmins a http www w3 org 2000 10 annotation ns xmins http http www w3 org 1999 xx http xmlns d http purl org dc elements 1 0 gt lt r Description gt lt r type resource http www w3 org 2000 10 annotation ns Annotation gt lt r type resource http www w3 org 2000 10 annotationType Comment gt lt a annotates r resource file home mangeot MM These partieB html gt cad Context xpointer start point string range html 1 body 1 p 85 58 1 lt a context gt lt d creator gt mangeot lt d creator gt lt a created gt 2001 01 31T17 57 41 lt a created gt lt d date gt 2001 01 31T17 59 26 lt d date gt lt a body r resource file home mangeot amaya annotations annot01 html gt lt r Description gt lt r RDF gt FIG B 22 description d annotations Amaya dans le format XML L l ment lt t ype gt note le type d annotation l l ment lt annotates gt note le document annot ici partieB html l l ment lt context gt note l aide d un pointeur Xpointer l endroit exact o se trouve l annotation dans le document Ensuite on trouve des informations d administration comme le cr ateur de annotation not par lt creator gt et la date de cr ation de l annotation not e par lt created gt 3 Nouvelles directions pour la consulta
19. usage machinal ce qui a pour cons quence que leur structure est parfaitement d finie et leur contenu jamais ambigu Il appara t aussi que souvent le contenu de ces dictionnaires peut aussi tre int ressant pour des usages humains La base M modata en est le meilleur exemple Comment faire Le format externe comme nous Pavons vu est lisible par des d veloppeurs mais inutilisable par des lecteurs humains Quant au format compil destin permettre les acc s rapides il est toujours illisible par l humain On voit donc encore une fois l int r t de d finir pour tout dictionnaire et pour toute ressource lexicale une structure interne pivot et de consid rer les autres formes comme des pr sentations y compris la forme source qui doit tre strictement quivalente Les autres formes compil es pour des applications ou filtr es pour des pr sentations peuvent par contre ne contenir qu une partie de l information 26 A Contexte actuel de la dictionnairique 2 Outils de consultation de dictionnaires Un aspect important des dictionnaires usage humain est videmment leur consultabilit d termin e par la puissance des outils de recherche par la clart et la souplesse de la pr sentation du contenu et enfin par la qualit de l interface utilisateur en g n ral 2 1 Applications de consultation sur ordinateur Les applications de consultation de dictionnaires sur ordinateurs sont pratiques
20. crites avec des kanji id ogrammes Ces kanji ont plusieurs prononciations possibles Pour les distinguer nous ajoutons une lecture de la lexie l aide des syllabaire japonais hiragana et katakana Cette lecture est stock e dans l l ment lt yomigana gt Les objets en japonais sont compt s de mani re diff rente selon leur forme leur taille etc Par exemple pour compter les fruits ronds ou les ballons on utilisera ko pour compter des machines comme des voitures des t l visions on utilisera dai etc Les quantificateurs appropri s sont not s comme valeurs des fonctions lexicales Sing et Mult Sing riz grain Mult chien meute La liste des valeurs possibles provient en majorit de celle d finie par Senko K Maynard pour le Japan Times de Tokyo en 1990 Elle est d finie dans le sch ma Papillon japonais donn en annexe B Les niveaux de langue sont repr sent s par l l ment lt language levels gt La politesse est d finie par quatre degr s majeurs neutre respect humilit et politesse simple l humilit est quivalente la d f rence Elle est repr sent e par l attribut grade de l l ment lt politeness grade neutral gt La r f rence note la situation dans laquelle se trouve le locuteur Par exemple s il parle de sa m re la r f rence est cotextuelle S il parle d une autre m re la r f rence est contextuelle Cet l ment est important car selon la situation le locuteu
21. http www x hive com Annexe A sch ma XML pour DML Annexe A sch ma XML pour DML 1 Organisation de DML Les l ments du sch ma DML permettent de d crire un environnement complet de base lexicale Voici l organisation de ces l ments Base Lexicale database gt Historique Dictionnaire lt dietionary gt Utilisateur Interface Interface client fournisseur kuser gt Volume lt api lt api type type lt volume gt client supplier arbre lien fonction l ments CDM tree href lt funetion gt id y graphe automate types de base 1829 lt graph gt lt automaton gt lt article gt lt headword gt lt pos gt lt lexie gt lt example gt FIG A 1 organisation des l ments de DML 234 Annexe A sch ma XML pour DML 2 Sch ma XML de DML La langue de travail commune aux membres du projet Papillon est l anglais Le sch ma DML est utilis dans le projet Papillon Les explications sont donc r dig es en anglais pour permettre une compr hension de la part de tous les membres du projet lt XML Schema for common elements of Dictionary Markup Language These elements are used to encode heterogeneous lexical databases Namespace http www clips imag fr geta services dml This schema is identified by the location http www clips imag fr geta services dml dml xsd SAuthor mangeot Mathieu MANGEOT LEREBOURS Mathieu Mangeot
22. lan96 ou d indiquer des fr quences d apparition dans des corpus Pour repr senter cet ensemble pond r les unit s de base des lexiques les lexies et les axies doivent pouvoir porter des poids Ces unit s de base forment alors les n uds d un graphe pond r Les liens entre ces n uds doivent aussi pouvoir porter des poids Ce sont les arcs du graphe Pour que les utilisateur puissent impl menter plusieurs th ories diff rentes pour pond rer les objets de la base les poids ne sont pas stock s sur les objets mais a part Les objets portent alors tous des identifi cateurs qui les relient a leur liste de poids Les pods sont stock s dans une matrice deux dimensions En abscisse sont indiqu s les identificateurs d objets portant des poids et en ordonn es les diff rents contextes d utilisation de ces poids 3 2 3 Manipulation des structures Les sp cialistes lexicologues forment un groupe qui g re la construction des dictionnaires Ils ont besoin de manipuler les unit s de base de ces dictionnaires les lexies et les axies Ils peuvent en cr er et en fusion ner Ils ont aussi besoin de cr er des ensembles virtuels de lexies ou d axies selon des crit res particuliers pour pouvoir v rifier le contenu de la base et contr ler sa qualit Si un lexicologue s aper oit entre autres qu un contributeur fait syst matiquement la m me faute sur les lexies qu il envoie au serveur par exemple qu il indique syst ma
23. n m action de tuer PAR L individu X DE L individu Y REGIME X 1 Yell 1deN 1 deN 2 A poss 2 A poss FONCTIONS LEXICALES o Qsyn assassinat homicide 2 crime o VO tuef FIG D 10 dition de la lexie MEURTRE avec Amaya Lorsque le lexicographe a fini de r diger un fichier il le renvoie la base Le fichier est ensuite reconverti 4 Analyse g n rale et impl mentation 203 du format XHTML vers le format original XML DML au moyen d une autre feuille de style XSLT en suivant la m thode d crite en partie C Puis un sp cialise lexicologue r vise les articles avant de les int grer dans la base Il enl ve ensuite les marques sur les articles int gr s Les lexicographes utilisent un diteur structur XHTML pour travailler Ils peuvent par exemple utili ser Amaya Amaya Cependant cet diteur comporte une restriction importante En effet m me s il est possible de travailler avec des documents encod s en UTF 8 les caract res n appartenant pas la norme ISO 8859 1 ne sont pas affich s Il n est donc pas encore possible d utiliser Amaya pour diter un article japonais par exemple L quipe de d veloppement du logiciel Amaya travaille actuellement sur cette limita tion 4 3 6 Interfaces pour les sp cialistes lexicologues Le groupe des sp cialistes lexicologues a acc s toutes les donn es de la base et en particulier aux axies qui sont cach es lors de la consultation Pour mener
24. pest Hongrie Linguistics Institute Hungarian Academy of Sciences pp 3 59 Atkins94 B T Sue Atkins amp Antonio Zampolli 1994 Computational Approaches to the Lexi con Oxford University Press 480 p Bauer94 Daniel Bauer Fr d rique Segond amp Annie Zaenen 1994 Enriching a SGML tagged bilin gual dictionary for machine aided comprehension Technical Report Xerox Research Center Europe 21 p Bachut84a Daniel Bachut 1984 ATLAS manuel d utilisation GETA rapport interne 37 p Bachut84b Daniel Bachut amp Nelson Verastegui 1984 Software tools for the environment of a computer aided translation system Proc COLING 84 Stanford GETA 4 p Blanc96 Etienne Blanc 1996 Une maquette de base lexicale multilingue pivot lexical PARAX Lexi comatique et Dictionnairique Actes du colloque LTT Lyon septembre 1995 ed AUPELF UREF Montr al Canada pp 43 58 218 Blanc99 Bibliographie Etienne Blanc 1999 PARAX UNL a Large Scale Hypertextual Multilingual Lexical Data base Proceedings 5th Natural Language Processing Pacific Rim Symposium 1999 Tsinghua University Press Beijing 1999 pp 507 510 Boguraev89 Brian Boguraev et al 1989 Computational lexicography for natural language processing Boitet82a Boitet88 Boitet90 Boitet93a Boitet93b Boitet93c Boitet95a Boitet95b Boitet97 Boitet98 Boitet82b Boitet82c Boitet86a Brian Boguraev
25. this group links all the external references of an axie If a new external reference is added a new group will be defined there gt lt group name external references gt lt sequence gt lt element ref d UNL graph minOccurs 0 maxOccurs unbounded gt lt element ref d UNL minOccurs 0 maxOccurs 1 gt lt element ref d WordNet minOccurs 0 maxOccurs 1 gt lt element ref d NTTsemcat minOccurs 0 maxOccurs 1 gt lt element ref d LexiGuideConcept minOccurs 0 maxOccurs 1 gt lt sequence gt lt group gt lt redefine gt XI definitions for the language links A lt I eng element gt lt links to english lexies corresponding to this axie gt lt element name eng type d refsType gt lt fra element gt lt links to french lexies corresponding to this axie gt lt element name fra type d refsType gt lt jpn element gt lt links to Japanese lexies corresponding to this axie gt lt element name 3Jpn type d refsType gt lt lao element gt lt links to lao lexies corresponding to this axie gt lt element name lao type d refsType gt lt tha element gt lt links to thai lexies corresponding to this axie gt lt element name tha type d refsType gt lt I vi lement gt lt l links to vietnamese lexies corresponding to this axie gt lt element name vie type d refsType gt xl
26. 1 type string gt lt element name spa maxOccurs 1 type string gt lt element name tha maxOccurs 1 type string gt lt sequence gt lt complexType gt lt element gt lt interests element gt lt Indicates the interests of a user contributor gt lt element name interests gt lt complexType gt lt sequence gt lt element name interest type string gt lt sequence gt lt complexType gt lt element gt lt activities element gt lt Indicates the activities of a user contributor gt lt element name activities gt lt complexType gt lt sequence gt lt element name activity type string gt lt sequence gt lt complexType gt lt element gt 2 Sch ma XML de DML 243 lt l credits element gt lt contributions credits of a contributors If a contributor sends a contribution to the database his her credits increase If s he extracts a customised dictionary from the database his her credits decrease gt lt element name credits type Integer gt lt contributions element gt lt groups the contributions of a contributors These contributions are stored in a virtual space before being reviewed and integrated into the database by a specialist in lexicology gt lt element name contributions gt lt complexType gt lt sequence gt lt element ref d contribution gt lt sequence gt lt complexT
27. Les lexicographes du monde entier peuvent se connecter la base lexicale centralis e et mettre jour son contenu en utilisant des navigateurs Web standard Les utilisateurs doivent s identifier au pr alable Ils peuvent ensuite se connecter au syst me en entrant leur login et leur mot de passe puis diter le contenu des 52 A Contexte actuel de la dictionnairique dictionnaires en suivant ces trois tapes chaque lexicographe est affect un panier de mots Le lexicographe doit donc premi rement remplir son panier avec les mots qu il souhaite r viser Il les r vise ensuite en ligne l aide d un formulaire HTML Une fois que ses entr es sont compl t es il les retire de son panier Elles pourront ensuite tre r vis es par d autres lexicographes La figure A 40 montre le formulaire HTML pour l dition d un article japonais gt L vel Etre E US CL Click on aes Level 1 Difficulty 110 Meanings 5 1 2 3 Y Delete this word Add a New Meaning Select Part of Speech Part of Speech N Pron z Describe the Meaning AIIM Cas ngs AIVIHAHIHAA came Ime asa lianas MAARA ron lan a a asus laa ut CATH UNAIIH 14B83 aa 1991011518 N1S am NAY sanns Remove Put back daum ia lan aun usaran Lana Test Add __Tes FIG A 40 interface d dition de SAIKAM Le tha utilise un alphabet sp cial dont la m thode de saisie est peu r pandue Elle ne se trouve
28. NA gt lt pound Currency gt ae lt enumeration value Y M gt lt franc Currency gt E lt enumeration value 7 7 gt lt kiro Measuring units used for both kilometers and kilograms gt lt enumeration value H gt lt gram Measuring units gt _ lt enumeration value 7 gt A gt lt centimeter Measuring units gt lt enumeration value k gt gt 4 Sch ma de Papillon japonais lt litter Measuring units gt lt enumeration value Y hw gt lt amp Hiki Animal world for insects cets and dogs gt lt enumeration value PL gt fish small animals such as lt gt t Animal world for large animals such as horses bears deer etc gt _ lt enumeration value BR gt lt f gt wa Animal world for birds gt lt enumeration value 3y gt lt PU9 gt kai Frequency times gt lt enumeration value 4 gt JA do Frequency times gt lt enumeration value E gt lt ban order times gt lt enumeration value gt lt HAS banmelorder th gt lt enumeration value E gt lt X t lorder gt lt enumeration value gt lt LA A gt jikan duration hour gt lt enumeration value MR gt lt L 327A gt s kan duration week gt lt enumeration value 3MR gt lt funkan duration minute gt lt enumeration value
29. U S Gazetteer contenant plus de 13 000 termes le Acronym Finder contenant 50 000 entr e le On line Medical Dictionary incluant 60 000 termes et 5 000 d finitions du glossaire financier InvestorWords Ils totalisent un ensemble de 600 000 entr es Interface L interface repr sent e par la figure A 26 est du type de celle du dictionnaire universel francophone L utilisateur rentre un mot dans un formulaire HTML et clique sur un bouton pour lancer la recherche Il n a aucune option de consultation comme la recherche avec les premi res lettres ou des expressions r guli res l utilisation d un lemmatiseur etc Look up EEN II Search 9 Dictionary Thesaurus Dictionary com FIG A 26 interface du serveur dictionary com R sultat La consultation de plusieurs ressources permet d obtenir des articles ayant le m me mot vedette mais appartenant a des dictionnaires diff rents Par exemple pour le mot vedette do on obtient 19 articles provenant de six dictionnaires diff rents La figure A 27 montre le r sultat d une requ te sur le mot anglais abbreviation 2 2 4 Consultation d une base terminologique multilingue EURODICAUTOM Introduction Eurodicautom Eurodicautom est la base de donn es terminologique multilingue du service de traduc tion de la Commission Europ enne D velopp e initialement pour assister les traducteurs internes elle est aujourd hui consult e par un nombre croissant de fonctionn
30. acquisition 1 F em emplett 1 F Coma vene la Gener temsnchon gt Malt b Magn gant b Magn gt Dom P AntiBon Fic A 39 fen tre de lexie de DECID g n raux utilis s par le lexicographe Comme le DEC est un travail de lexicologie la structure des entr es est en permanente volution Cela rend tr s difficile la maintenance d un outil ad hoc Or DECID a t construit en fonction d un tat pr cis du DEC a des fins d exp rimentation d interfaces pour lexicographes il faudrait donc le transformer en un diteur plus g n rique ou au moins param trable par les lexicologues 4 5 Construction en ligne par des contributeurs le projet SAIKAM 4 5 1 Introduction SAIKAM Ampornaramveth98 00 est un projet lanc en 1998 par l ATPIJ association des profes sionnels tha s au Japon avec l aide du NECTEC National Electronics and Computer Technology Cen ter en Tha lande et du NACSIS NII National Institute on Informatics au Japon Son but principal est le d veloppement d un environnement int gr en ligne pour la construction collaborative d un lexique japonais tha sur Internet La base lexicale est impl ment e en PostgreSQL Cette base de donn es est consult e par des CGIs install s sur un serveur HTTPd Apache Il existe principalement deux interfaces une pour les lexicographes et une pour les utilisateurs consultation et contribution 4 5 2 Interface de r daction en ligne
31. apprentissage de la langue avec la date et le num ro de la le on dans laquelle ce mot a t vu pour la premi re fois avec les l ments lt lesson date gt et lt lesson number gt Enfin nous notons des informations d administration pour nous permettre de contr ler la qualit des donn es Nous notons le nom du lexicographe avec l attribut indexer la date avec l attribut date et le statut de la lexie avec l attribut status 2 2 3 Interface de r daction chaque nouvelle le on les nouveaux mots sont ajout s au dictionnaire par un des participants la le on Chaque contributeur poss de son interface web personnalis e L interface de la figure B 17 est per sonnalis e pour Mathieu Cela permet de noter le nom et le niveau du contributeur l aide d un formulaire HTML voir figure B 17 il entre les donn es en ligne Ces donn es sont ensuite ins r es dans les diction naires et stock es au format XML sur le serveur Elles sont ensuite consultables gr ce un outil similaire DicoWeb Lorsque l utilisateur entre les donn es en ligne le serveur attribue automatiquement un num ro unique chaque lexie Dans le cas de la figure B 17 une lexie fran aise pour maison et une lexie japonaise pour uchi Si un autre utilisateur entre ensuite les m mes mots le serveur l avertira L utilisateur devra alors cocher le bouton forcer l insertion de l entr e s il estime que le nouveau mot entr est en fait une no
32. avant conversion apr s conversion lt headword gt meurtre lt headword gt lt span class headword gt meurtre lt span gt lt pronunciation gt meu rtr e lt pronunciation lt span class pronunciation gt meu rtr e lt span gt lt pos gt n m lt pos gt lt span class pos gt n m lt span gt lt example gt La m sentente pourrait tre le lt span class example gt La m sentente mobile du meurtre lt example gt pourrait tre le mobile du meurtre lt span gt TAB C 4 conversion de XML vers XHTML Certains l ments XML n cessitent un visualisateur particulier ou sont associ s a une action particuli re Une applet java impl mentant le visualisateur ou l action est alors associ e l l ment lors de la transfor mation XSLT Il est possible d associer par exemple un visualisateur d arbres hyperboliques d crit dans la partie B des traductions multiples d un mot Dans l exemple suivant un synth tiseur est associ la prononciation du mot vedette A l l ment XML lt prononciation gt sera alors associ l l ment XHTML lt applet gt Le contenu de l l ment sera pass en param tre de applet XML XHTML avant conversion apr s conversion lt pronunciation gt meu rtr e lt pronunciation gt lt applet code phonetiseur class archive phonetiseur zip gt lt param name element value pronunciation gt lt param name data value meu rtr e gt lt applet
33. complexType gt lt element gt lt group element gt lt describes a group of the database by listing its users gt lt 3 groups exist in every database by default administrators lexicologists and the universe of all users gt lt element name group gt lt complexType gt lt sequence minOccurs 1 maxOccurs unbounded gt lt element ref d user ref gt lt sequence gt lt attribute name name type string use optional gt lt complexType gt lt element gt 240 Annexe A sch ma XML pour DML mt user ref element gt lt This element is used to make a reference to a user of the database gt lt element name user ref gt lt complexType gt lt attribute name name type string use optional gt lt attribute ref xlink href use optional gt lt complexType gt lt element gt lt dictionaries element lt lists all the heterogeneous dictionaries available locally or through the network from the database 5 lt element name dictionaries gt lt complexType gt lt sequence minOccurs 0 maxOccurs unbounded gt lt element ref d dict ref gt lt sequence gt lt complexType gt lt element gt lt dict ref element gt lt links to a dictionary element that describes a dictionary gt lt element name dict ref gt lt complexType gt lt attribute name name type string
34. d finis nous pouvons maintenant fusionner des articles provenant de ressources h t rog nes s ils contiennent les m mes l ments CDM Dans les exemples suivants les l ments CDM sont pr fix s par dm1 Ils appartiennent l espace de noms DML La s mantique de ces l ments est donc fix e par les tableaux C 2 et C 3 Les figures C 13 et C 14 montrent un article du FeM et un article du DHO apr s r cup ration La fusion s op re autour des l ments communs Les l ments lt ent ry gt contiennent le m me l ment lt headword gt Ils sont donc fusionn s Les l ments lt synt act ic cat gt contiennent le m me l ment lt pos gt Ils sont donc fusionn s Cette fusion peut s op rer par exemple gr ce un programme XSLT La figure C 15 montre le r sultat de la fusion 132 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires article sense Eve sense level 2 TAB C 2 ensemble d l ments CDM Ams COM FM DHO N0 lt etymology gt ems ESTU mem a EIN mem fe indicas ages fae definition lt colloae gt __ nos em TAB C 3 quivalents des l ments CDM dans le FeM le DHO et le NODE 2 2 4 Passage effectif de SUBLIM a XML La transformation effective de SUBLIM XML est possible pour les structures d j d finies en SU BLIM Cette transformation peut s effectuer automatiquement l aide d
35. eG RHR RE AOA ae A 214 Probl mes complexes restant r soudre 215 Perspectives de recherch iia 5 oh w maman ue Bt RER 215 viii Table des mati res Bibliographie 217 Signets 227 Annexe A sch ma XML pour DML 233 1 Organisation de DML 233 2 Sch ma XML de DML 234 Annexe B sch mas XML pour Papillon 259 1 Sch ma g n ral de Papillon 259 2 Sch ma du volume Papillon axies 268 3 Sch ma de Papillon fran ais 272 4 Sch ma de Papillon japonais 275 Table des figures ix Table des figures A 1 exemples de macrostructures 9 A2 l article abr ger du FeM au format original LISP 12 A 3 Particle abr ger du FeM en format rtf source 12 A4 Particle abr ger du FeM avec indication des styles 13 AS l article abbreviate du NODE en format original SGML 14 A 6 pr sentation de l article abbreviate du NODE 15 A 7 Particle abr ger du DHO en format original SGML 15 A 8 pr sentation de l article abr ger du DHO 16 A 9 extraits du vocable averse du DEC en HTML 17 A 10 extraits de la lexie MEURTRE de la base DiCo 18 A 11 l article MEURTRE du LAF oo 24h eb ee eRe et ea t ue 19 A 12 Syntaxe du langage ATER io ucu 4 4 ba A os aan ee ia de 20 A 13
36. etc d utiliser des m canismes d aide la r daction comme I affichage de listes ferm es cat gories gram maticales tiquettes etc des v rificateurs de coh rence et de l aide contextuelle Contraintes sur les ressources Pour mener bien un projet avec de multiples contributions il ne faut int grer aux ressources en construction que les contributions qui sont valid es auparavant par un groupe d experts Les contribu tions qui n ont pas t encore valid es sont stock es dans l espace virtuel des contributeurs en attendant la r vision Pour chaque modification accept e dans la base il faut stocker le nom de la personne qui a fait cette modification et la date Il faut g rer l historique complet de toutes les modifications sur les ressources afin d assurer la s curit de la base m me le groupe central peut se tromper et aussi la reconnaissance pour les contributeurs Cela permettra par exemple de faire chaque mois un tableau de classement des contributeurs en fonction de leur m rite 120 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires Il faut aussi g rer le travail restant faire en proposant aux contributeurs une liste des articles les plus urgents r diger en leur donnant un ordre de priorit en fonction de leur fr quence d apparition dans un corpus par exemple Cette gestion est n cessaire d une part pour viter que deux contribu
37. fee aa mets de A AU dou nl 127 2 2 2 Types et attributs communs de DML 129 2 2 3 S mantique du sous ensemble CDM de DML 131 2 2 4 Passage effectif de SUBLIM XML 132 2 3 Red finition des langages de SUBLIM en XML 133 2 3 1 D finitions de macrostructure 133 2 3 2 D finitions de microstructure 138 2 3 3 V rificateurs de coh rence 143 3 Paradigme de construction coop rative 146 3 1 D finition du serveur et ses diff rents utilisateurs 146 3 1 1 Mise en place du serveur 146 3 1 2 Description des utilisateurs 147 3 2 Gestion des contributions 149 3 2 1 V rification d s donn es ss eb mans dune d re eg a wa es deb 149 3 2 2 Stockage des contributions 150 4 Int gration des outils de manipulation construction et consultation de dictionnaires 152 4 1 Manipulation des donn es 152 4 1 1 R cup ration des ressources existantes 152 4 1 2 Manipulations internes des donn es 153 4 1 3 Production de nouvelles ressources 154 4 2 Intera
38. genre l aspect la modalit l emphase etc Un attribut particulier ent ry indique l l ment cen tral de l nonc repr sent pour la partie scope consid r e Les UW d riv es du mot anglais book sont d crites comme suit book garde tout sens possible book icl gt publications sens limit par une UW hyperordonn e livre en tant que publication book accounts sens limit par une autre UW livre de comptes book ob j gt room restriction par une relation distinctive r server une chambre La figure B 9 montre un exemple d expression UNL Il fallait court terme indexer pr s de 200 000 entr es avec un co t maximal de 5 F par entr e Pour satis faire cette demande il a donc fallu travailler avec plusieurs indexeurs en m me temps travaillant chez eux et non reli s au r seau Il fallut ensuite regrouper les donn es en construisant une base lexicale pour diff rents outils et diff rents partenaires La base lexicale est maintenant utilis e par le serveur de d conversion des graphes UNL vers des nonc s francais 2 Am lioration des m thodes de construction 83 Monkeys eat bananas monkey icl gt animal p generic at icl action present entry a obj ha gt food generic FIG B 9 exemple de graphe UNL La solution mise en ceuvre est repr sent e par la figure B 10 Format UNL Import Export Dictionnaire BaLeM francais UNL dic
39. gt lt simpleType name formatType gt lt restriction base string gt lt enumeration value rtf gt lt enumeration value xml gt lt enumeration value html gt lt enumeration value sgml gt lt enumeration value txt gt lt restriction gt lt simpleType gt lt element contents gt lt It describes with a text the contents of a dictionary gt lt element name contents type string gt lt element domain gt lt It describes the domain of a dictionary e g general medicine computer science etc Maybe it could be a closed list lt element bytes gt 2 Sch ma XML de DML 247 lt l Size of all the files of a dictionary in bytes gt lt element name bytes type positivelnteger gt lt element source gt lt describes from where does the dictionary come from who gave it lt element name source type string gt lt I element legal gt lt describes the legal rights attached to the use of this dictionary e g research purpose only public open source etc gt lt element name legal type string gt lt l element comments gt lt general comments on a dictionary text gt lt element name comments type string gt lt element cdm elements a lt lists all the common dictionary markup CDM elements presents in a dictionary The CDM elements have a fixed semantics It
40. l entr e doit soit tre dispos e sur une seule ligne soit pouvoir tre extraite l aide d un outil simple comme sggrep grep pour SGML Il suffit alors de formuler l expression r guli re ad quate pour trouver l entr e du dictionnaire puis d associer une feuille de style au texte pour le rendu final La programmation d une premi re version fonctionnelle de DicoWeb a pris moins d un mois Nous avons par la suite ajout de nouvelles ressources tr s facilement avec tr s peu de d veloppement DicoWeb acc de aux fichiers texte des ressources via des index galement stock s dans des fichiers texte Aucune information n est stock e en m moire Malgr ce handicap le temps d acc s moyen pour un article est de moins d une seconde ce qui est parfaitement acceptable pour un utilisateur humain Les ressources sont acc d es directement 1 2 5 Discussion DicoWeb n est pour l instant accessible qu en interne par environ 110 personnes avec actuellement plus de 100 acc s par jour ce qui d montre son utilisabilit Dans cette application nous utilisons directement le format et la structure d origine des ressources lexi cales Pour l affichage nous transformons la vol e le format en HTML pour pouvoir utiliser un navigateur Si plusieurs articles correspondant au m me mot vedette sont trouv s ils sont affich s la suite Avantages L avantage majeur de cette technique tr s simple est qu ell
41. l origine de types simples pr d finis Nous en avons s lectionn et r utilis certains pour nos d finitions Ces types et ces attributs sont d clar s dans le sch ma XML DML voir le d but de l annexe A Dates et heures Les dates sont repr sent es par le type de sch ma XML dateType La repr sentation lexicale d une date est tir e du format tendu de la norme ISO 8601 aaaa mm jjThh mm ss o aaaa repr sente l ann e mm le mois et jj le jour La lettre T est le s parateur date heure et hh mm et ss repr sentent respectivement les heures les minutes et les secondes L attribut DML date est du type dateType Cette repr sentation peut tre imm diatement suivie d un Z pour indiquer le temps UTC Temps Uni versel Coordonn Pour indiquer le fuseau horaire il faut indiquer la diff rence entre l heure locale et l heure UTC repr sent e comme hh mm les minutes sont obligatoires pr c d e d un signe ou Par exemple pour indiquer 13h20 le 31 mai 1999 dans le Eastern Standard Time qui est d cal de 5 heures avant l UTC il faut crire 1999 05 31T13 20 00 05 00 D lai de r ponse D attribut DML delay port par un l ment indique le d lai de r ponse lorsqu une requ te a t faite sur cet l ment Ce d lai est une dur e exprim e avec le type simple durationType des sch mas XML Par exemple 5 secondes et 10 centi mes sera indiqu e 5 108 Identificateur unique
42. lectroniques La technique de construction de ce dictionnaire fran ais malais en s aidant de l anglais comme langue pivot a t reprise dans deux projets appel s Fe fran ais anglais tha et fran ais anglais vietnamien Ces dictionnaires sont en cours de construction Nous avons beaucoup utilis le FeM dans nos exp riences De plus sa microstructure est relativement simple Au d part l anglais tant une langue pivot mais il y avait des doublons dans les traductions En effet un vocable fran ais ayant deux lexies pouvait avoir une traduction anglaise distincte pour chaque lexie puis ces deux traductions anglaises se traduire de la m me fa on en malais Depuis 1995 le d coupage des sens se fait selon la langue source le fran ais La microstructure est donc en fourche les langues cibles tant les branches de la fourche Sa disponibilit et son originalit nous ont incit le pr senter ici 12 A Contexte actuel de la dictionnairique Format interne du dictionnaire La microstructure du dictionnaire est compos e d une suite de paires attributs valeur Les articles du dic tionnaires tant principalement manipul s par des applications programm es en LISP Steele90 le format interne du dictionnaire est une forme LISP tr s facile analyser Le dictionnaire est stock dans un ou deux fichiers par lettre La taille des fichiers varie de 25 500 kilooctets La taille totale est de 6 8 m gaoctets La figure A
43. ps st aom ip tome MM matt xx a b 250 FeM geta gal 70k FeM CB xan xxx b b 352 Pap G N gal 3 fra FIG D 7 tables de la base de donn es de Papillon La figure D 7 repr sente la structure des tables de la base de donn es de Papillon La base est organis e pour l instant en cinq tables les donn es lexicales les dictionnaires les utilisateurs les historiques et les poids La table des donn es lexicales est la table principale Chaque unit de lexique lexies axies articles est stock e sous forme de texte XML Les annotations et les contributions XSL sont aussi stock es dans cette table La cl de chaque entr e est l identificateur unique port par l l ment Ensuite pour chaque l ment on stocke les index de ses l ments communs de l ensemble CDM son lexique et son dictionnaire Si c est une annotation ou une contribution on stocke les utilisateurs et les groupes ayant l autorisation de la voir La table des dictionnaires permet de stocker les informations contenues dans l l ment DML lt dictionary gt La cl de chaque entr e est le nom du dictionnaire On trouve entre autres les langues le domaine le type le nombre de mots vedette les lexiques etc 4 Analyse g n rale et impl mentation 199 La table des utilisateurs permet de stocker les informations contenues dans l l ment DML lt user gt La cl de chaque entr e est le nom de l utilisateur On trouv
44. r Le conjugueur et le g n rateur d accusatif r sident sur le serveur public de XRCE D mos Ils proviennent des outils d analyse du hongrois Il y a donc un wrapper qui fait le lien entre notre serveur et les outils install s sur le serveur de XRCE 4 1 2 Utilisation d un conjugueur La figure B 25 montre un exemple d utilisation d un conjugueur L utilisateur recherche d abord un article en indiquant un mot vedette dans l interface de d part Le ou les articles correspondant au mot vedette s affichent alors dans la partie droite du navigateur Au bas des articles une nouvelle interface est affich e pour les noms et les verbes Un bouton permet de demander l accusatif ou le pluriel des noms Des listes sont affich es pour s lectionner le temps et le mode de conjugaison des verbes Lorsque l utilisateur veut conjuguer un verbe il indique le temps et le mode d sir s Le module de conjugaison install sur un serveur distant est alors consult automatiquement par l application Les r sultats s affichent ensuite dans la partie droite de la fen tre voir figure B 26 4 2 Consultation par une application de traduction automatique 4 2 1 Pr sentation Le serveur du dictionnaire UNL est impl ment en Common Lisp et tourne sur un Macintosh Il est essentiellement utilis par des machines En effet il sert principalement au serveur de d conversion qui transforme les graphes UNL en textes fran ais Pour que les appl
45. te contient plus de 430 000 formes fl chies g n r es partir de 50 000 entr es canoniques Cette version est distribu e par association ELRA European Language Resource As sociation ELRA 22 A Contexte actuel de la dictionnairique Les entr es lexicales de BDLex sont des lemmes A chaque entr e lexicale sont associ s plusieurs champs une repr sentation phonologique sous jacente dans les champs PHON_SYLL et FPH BDLEX fournit de plus les homophonies la repr sentation en classes phon tiques et le nombre de syllabes voir figure A 18 une repr sentation en phonogrammes champ PHONOGRAMMES Ceux ci jouent un r le important dans le cadre de la correction lexicale ou encore de la transcription graph mes phon mes des statistiques lexicales repr sent es par un ensemble d indices de fr quences d origine diverses fr quence de Catach fr quence l mentaire La figure A 16 repr sente un extrait de cette base Tous les champs ne sont pas repr sent s GRAPH_ACC PHON_SYLL FPH CS PHONOGRAMMES aigre doux E gr du s J ai E g g r r e d d ou u x s amygdale A mi dAl N a A m m y i g d d a A 1 1 e axe Aks N a A x ks e bahut bA y N b b a A h u y t chat huant _A y N ch _ a A t h u y an t dix huit di zAi t J d d 1 1 x z h ui Ai t t exact eg zA kt J e e x gz a A ct kt ice
46. un script Les informations dispo nibles en SUBLIM n taient pas pertinentes pour nos exp rimentations Nous n avons donc pas travaill sur cette conversion 2 D finition du noyau de l environnement avec SUBLIM 133 lt dnlsentry gt lt dml headword gt abr ger lt dml headword gt lt dml pronunciation encoding geta gt abre je lt dml pronunciation gt lt dml syntactic cat gt lt dml pos gt v tr lt dml pos gt lt dml lexie gt lt gloss lang fra gt un texte lt gloss gt lt dml translation lang eng gt to shorten lt dml translation gt lt dml translation lang eng gt to abridge lt dml translation gt lt dml translation lang msa gt memendekkan lt dml translation gt lt dml translation lang msa gt meringkaskan lt dml translation gt lt french_phrase gt je vous demande d abr ger votre lettre lt french_phrase gt lt english_phrase gt please shorten your letter lt english_phrase gt lt malay_phrase gt sila ringkaskan surat anda lt malay_phrase gt lt dml lexie gt lt dmlssyntactic cat gt lt dml entry gt FIG C 13 article provenant du FeM apr s r cup ration lt dml entry gt lt dml headword gt abr ger lt dml headword gt lt dml pronunciation gt lt ph gt abKeZe lt ph gt lt dml pronunciation gt lt dml syntactic sense gt lt dml part of speech gt v tr lt dml part of speech gt lt dml lexie gt lt ic gt rendre court lt ic gt to shorten lt co gt mot expressi
47. use optional gt lt attribute ref xlink href use optional gt lt complexType gt lt element gt lt DML definitions for a user gt Z user element gt lt The user element describes all information relative to each user 2 Sch ma XML de DML 241 of the database with his her settings preferences etc gt lt element name user gt lt complexType gt lt sequence gt lt element ref d login gt lt element ref d password gt lt element ref d email gt lt element ref d profiles gt lt element ref d credits gt lt element ref d annotations gt lt element ref d contributions gt lt element ref d requests gt lt element ref d xml stylesheet gt lt element ref d groups gt lt sequence gt lt attribute ref d history use optional gt lt attribute ref d history ref use optional gt lt attribute name creation date type d dateType use optional gt lt attribute name name type string use optional gt lt complexType gt lt element gt lt login element gt lt used by a user to log into the database gt lt element name login type string gt lt password element gt lt used by a user to log into the database Has to be encrypted gt lt element name password type string gt lt email element gt lt email address gt lt element name
48. utilisation Est il possible d utiliser la fois des ressources locales et distantes Faut il convertir toutes les ressources dans un format commun au risque de perdre de l information ou est il possible d utiliser directement des ressources de formats h t rog nes Quelles techniques peut on utiliser pour convertir des ressources et les manipuler Les utilisations des ressources lexicales peuvent tre tr s vari es Les outils de TALN ont besoin de dic tionnaires tr s pr cis o l information est cod e de mani re explicite Les humains utilisent des dictionnaires de mani res tr s diff rentes selon qu ils sont apprenants d une langue traducteurs linguistes ou simple cu rieux Est il possible d utiliser une m me ressource lexicale pour r pondre des besoins tr s diff rents Quelles sont alors les contraintes que les ressources doivent respecter Est il possible de consulter plusieurs ressources en m me temps et de param trer le r sultat des requ tes de consultation Comment enrichir et largir la consultation des ressources en combinant plusieurs outils La cr ation de nouvelles ressources lexicales par plusieurs contributeurs travaillant en collaboration travers Internet est tr s int ressante puisque ceux ci ont des niveaux de comp tences tr s vari s Un sp cialiste d une langue s occupera des informations relatives cette langue un traducteur mettra en rela tion les termes des langues qu il
49. 1 gt lt group ref d language specific minOccurs 0 maxOccurs 1 gt lt element ref d pronunciation minOccurs 0 maxOccurs 1 gt lt element ref d pos minOccurs 1 maxOccurs 1 gt lt element ref d language levels minOccurs 0 maxOccurs 1 gt lt element ref d semantic formula minOccurs 1 maxOccurs 1 gt lt element ref d government pattern minOccurs 1 maxOccurs 1 gt lt element ref d lexical functions minOccurs 0 maxOccurs 1 gt lt element ref d examples minOccurs 0 maxOccurs 1 gt lt element ref d full idioms minOccurs 0 maxOccurs 1 gt lt element ref d axies gt lt sequence gt lt The attribute id is an internal unique id It is hidden from the users If the lexie is deleted its id remains It can t be reused It is metalinguistic information It has to be discussed if it is necessary to write it in capital letters knowing that it does not exist in Japanese gt lt attribute ref d id use required gt lt The attribute basic indicates if this lexie is the basic lexical unit of the vocable It s boolean Its value is true or false Information taken from DiCo gt lt attribute name basic type boolean use optional gt a The frequency is noted in another part and referenced with the attribute id gt lt complexType gt lt element gt lt headword element g
50. 1 2 Manipulation des ressources Les ressources existantes ont toutes des formats physiques et des structures logiques diff rents Si l on veut les int grer la base lexicale il faut les convertir dans notre formalisme Cette structure logique et linguistique unifi e unique facilitera la comparaison des ressources Nous avons donc besoin d outils pour r cup rer les ressources existantes et les transformer dans notre formalisme et pour manipuler les ressources une fois converties de fa on produire de nouvelles ressources 1 Sp cifications externes de l environnement 113 Diff rents types de ressources Le serveur de la base permet d acc der diff rentes ressources des stades diff rents d int gration dans la base les dictionnaires externes sont vus dans leur format ventuellement ensembles dans une m me fen tre exemple de DicoWeb les dictionnaires r cup r s avec leur structure logique plus ou moins compl te exemple du FeM en XML les dictionnaires r cup r s et en cours de fusion et r vision par des contributeurs soupe lexicale les dictionnaires g n r s partir du contenu de la base R cup ration de ressources Pour la r cup ration de ressources nous avons choisi le syst me R CUPDIC Doan Nguyen96a Ce syst me d crit en partie A est sp cialis pour la r cup ration dictionnairique Il se compose de m thodes et d outils puissants et faciles utiliser Il permet de
51. 2 montre un article au format original fem entry ENTRY abr ger FRENCH_PRON abre je FRENCH_CAT v tr FRENCH_GLOSS un texte E E ENGLISH_EQU to shorten ENGLISH_EQU to abridge MALAY_EQU memendekkan MALAY_EQU meringkaskan NNN eee oo o o FIG A 2 l article abr ger du FeM au format original LISP Ce dictionnaire a t converti au format rtf pour tre dit l aide du logiciel Word La figure A 3 montre le m me article en format rtf en t te du fichier rtf rtfi mac deff8 deflang1033 fonttbl f0 froman fcharset77 fprq2 Tms Rmn d finition des polices f1 fnil fcharset2 fprq2 Symbol at igi E N S E eae 523 LO 54 fnil fcharset 77 fprq2 96 Tb 96 be 92V a9 81 821 stylesheet widctlpar f8 lang1036 snext0 Normal cs10 additive Default Paragraph Font d finition des styles s16 widctlpar b f8 fs28 ul lang1036 sbasedon15 snext15 french_entry SITs eSB sen s57 s58 s59 1i3960 sb60 widctlpar f8 cf2 lang1036 sbasedon52 snext59 malay_pron fin de l en t t t d but du fichier par pard plain sl6 widctlpar b f8 fs28 1ang1036 abr 8eger par pard plain s28 widctlpar caps f3 lang1036 abre je par pard plain si8 widctlpar f8 lang1036 v tr par pard plain s21 widctlpar i f9 lang1036 un texte par pard plain s34 widctlpar b f8 cf6 lang1036 to shorten
52. 26 28 juillet 1994 vol 1 1 pp 21 33 Serasset94c Gilles S rasset 1994c Interlingual Lexical Organisation for Multilingual Lexical Databases in NADIA COLING 94 Kyoto Japon 5 9 August 1994 M Nagao ed vol 1 2 pp 278 282 Serasset94d Gilles S rasset 1994d Recent Trends of Electronic Dictionary Research and Development in Europe Technical Memorandum TM 038 EDR Japon 1994 89 p Serasset94e Gilles S rasset 1994e SUBLIM un Syst me Universel de Bases Lexicales Multilingues et NADIA sa sp cialisation aux bases lexicales interlingues par acceptions Th se de nouveau doctorat Sp cialit Informatique Universit Joseph Fourier Grenoble 1 194 p Serasset96 Gilles S rasset 1996 Un Editeur pour le DEC du francais contemporain Proc S minaire Lexique Grenoble CLIPS IMAG pp 131 138 Serasset97a Gilles S rasset 1997a Le projet NADIA DEC vers un dictionnaire explicatif et combina toire informatis La m moire des mots Ve journ es scientifiques du r seau LTT AUPELF UREF Tunis pp 149 159 Serasset97b Gilles S rasset 1997b Informatisation du Dictionnaire Explicatif et Combinatoire Actes de la quatri me conf rence sur le Traitement Automatique du Language Naturel TALN97 Grenoble 12 13 juin pp 194 198 Serasset97c Gilles S rasset amp Alain Polgu re 1997 Outils pour lexicographes application la lexico logie explicative et combinatoire Proceedings de RIAO 97 Montr
53. 3 Pour la repr sentation du contenu 57 5 3 1 Proposition d une structure tr s riche le mod le GENELEX 57 Table des mati res 111 5 3 2 Essai de standardisation du contenu la TEVDEL 58 6 Exemples de projets r cents bas s sur XML 61 6 1 Plate forme de gestion d une base sur l hydrographie DHYDRO 61 6 1 1 Pr sentation ee 5444 ER ER se ce ea pa de bass 61 6 1 2 G n ricit et flexibilit de Dhydro 62 6 2 Int gration de lexiques et de bases terminologiques SALT 62 6 2 1 Pr sentation o o eco c 4 64 da sa das sde dada et du aura are ES 62 6 2 2 Exemple de document au format XLT 63 Conclusion 65 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc 69 Introduction 69 1 Exp riences sur la consultation en ligne 70 1 1 Consultation de m ta informations sur les ressources 70 1 1 1 Pr sentation de l outil 70 1 1 2 Protocole de nommage des fichiers 70 1 1 3 Structures internes utilis es ee 71 1 1 4 Architecture et interface de DictList 71 LAS DISCUSSION a e e 4 08 ep amp Bode GO sd ae Re AN RMI Re a da 72 1 2 Consultation de plusieurs ressources h t rog nes DicoWeb
54. A_ as sassinat homicidel crime Verge tuer ADJECTIF Meurtriera y Nom POUR X auteur de ART imeurtrien Nom POUR Y victime de ART TR S CHOQUANT atroce affreux bru tal horrible inqualifiable odieux Qui A ETE PREPARE avec pr m ditation pr m dit postpos assassinat TEL QU IL Y A DEUX TROIS QUATRE Y double triple quadruple art pos Les victimes de ce double meurire sont un pare de famille et san fis de 15 ans FAIRE UN M accomplir commettre perp trer ART tremper dans ART Wa refus de tremper dans os meurtre odieux CAUSER QUE X FASSE UN M POUSSOF N_ au RAISON D UN M mobile kie ART S OCCUPER D UN M enqu ter sur ART J lucider ART trouver l auteur pie ART J punir chatier ART Venger ART SERVICE DE POLICE QUI S OCCUPE DES M brigade criminelle PR PARER UN M pr m diter pr parer ART comploter ESSAYER DE FAIRE CROIRE QU UN M EST UN N maquiller ART en Nj Na maquil ce meurtre en accktent Suicide FAIT DE TENTER UN M tentative de CRI LANCE PAR QQN QUI ASSISTE _ RISQUE D TRE VICTIME D _UN M Au C est ici que le double meurtre a t commis Soup onn du meurtre de son pouse il a t arr t par les gendarmes mercredi i devrait compara tre aux assises dans trois semaines comme auteur pr sum du meurtre d un quinguag naire _appel au meurtre _crier au meurtre FIG A 11 l article MEURTRE du LAF Nous voyons que cet article es
55. Cela confirme l aspect g n rique de notre poste de travail L utilisation de Word permet une d mocratisation de la m thode Les lexicographes peuvent travailler aussi bien sur Macintosh que sur PC Ils n ont pas besoin non plus d utiliser des machines tr s puissantes Des postes d entr e de gamme suffisent Au premier abord les outils d aide l indexage semblent prometteurs Ils permettent manifestement de gagner du temps et d viter des erreurs De plus si l ensemble du dictionnaire n est pas exactement conforme une structure d finie ou si certaines parties sont d licates les lexicographes peuvent tout de m me travailler sur un sous ensemble de l information disponible 88 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc Inconv nients Il reste tout de m me des probl mes inh rents la m thode A nsi m me si nous fournissons au lexicographe des outils permettant de v rifier la structure des entr es des probl mes subsistent lors de la r cup ration En effet ces outils ne fonctionnent que lorsque le lexicographe les appelle L exp rience montre qu il ne le fait que rarement D autre part on a toujours besoin d un administrateur de la base pour v rifier le travail des indexeurs De plus cette technique est restreinte des dictionnaires structures relativement simples descriptibles par des grammaires LL 1 2 2 Construction en ligne
56. Elles sont g r es par un petit groupe de lexicologues sp cialistes qui doivent alors r viser le travail afin soit de l ajouter soit de le renvoyer pour des corrections Les contri butions ne sont donc pas incluses directement dans la base Elles sont au pr alables stock es dans l espace virtuel du contributeur en attendant leur r vision par un lexicologue voir figure C 1 De plus les lexicologues ont besoin d un outil permettant de d terminer les articles incomplets Il leur permet alors de construire un ensemble virtuel de choses faire et de les classer ventuellement par ordre de priorit Cet ensemble est ensuite distribu aux lexicographes et contributeurs selon leur niveau de comp tence Pr paration du travail Base R vision et int gration faire centrale dans la base ge Lexicologues Espace Perso ii tailings E gt 22 res Internet Stockage Contributeurs dans Articles l espace Contribs perso Contribution Annotations et Q sur des articles contributions sur les contributions FIG C 1 processus de gestion des contributions Il reste des probl mes r soudre Comment affecter les points par exemple comment r partir les points si une contribution a t annot e par plusieurs contributeurs comment calculer les profils d utilisateurs et comment automatiser le plus possible l affectation des points et l int gration de la base quand un certain niveau de confiance est
57. HIMEL SGML lt gt g A gt Moulinette page NODE SGML gt HTML HTML texte Bo ELRA FIG B 5 architecture g n rale de DicoWeb Les dictionnaires sont alors s lectionn s en fonction des langues cibles et les fichiers texte originaux sont parcourus par le script qui cherche l entr e d crite par une expression r guli re Perl Les lignes v rifiant l expression r guli re sont alors s lectionn es puis pass es travers une moulinette qui transforme le texte source en HTML Le tout est renvoy sous forme de page HTML l utilisateur 1 Exp riences sur la consultation en ligne 75 1 2 3 Interface de DicoWeb La figure B 6 montre l interface Web de DicoWeb L utilisateur s lectionne la langue source dans la quelle il va taper l entr e Il peut s lectionner ensuite des langues cibles et ou des ressources Par d faut toutes les langues cibles et toutes les ressources locales sont s lectionn es lt lt pr c dent suivant gt gt orthographe ortogat Resources IRELRA nf spelling MFeM faute d orthographe IM NODE ROHD IN OUPES HACHETTE Remote B Hachette 1 Ensemble des r gles r gissant l criture des mots d une IR Websters langue R forme de l orthographe Application effective de ces r gles Avoir une bonne orthographe 2 Mani re correcte d crire un mot L orthographe de rhododendron Spellcheck Analysis French Morphological Analysis except Malay Reg
58. Pr sentation du projet Papillon 175 d cidera de les fusionner Par exemple la lexie AFFECTION au sens m dical est synonyme de MALADIE C est le m me concept Il est donc possible de fusionner ces deux lexies Cela peut aussi arriver si un contri buteur tablit un lien de ces deux lexies avec la m me lexie dans une autre langue Par exemple AFFECTION mu au sens m dical et MALADIE se traduisent toutes deux en japonais par BYOUKI IPS FEL C est une autre raison pour fusionner les deux lexies fran aises 9 Une liaison est pr vue avec tous les projets de lexicographie multilingue pour autant que les contri buteurs apportent l information Toute axie aura pour chaque syst me WordNet EDR UNL ONTOS LexiGuide un champ contenant une liste de symboles de ces syst mes synset concept UW 176 D Application Papillon projet de base lexicale multilingue sur Internet 2 Cahier des charges 2 1 Aspects coop ratifs 2 1 1 Langues pr sentes au d part Au lancement du projet les langues vis es taient le fran ais et le japonais Pour faire le lien entre des dictionnaires existants nous avons rajout l anglais Cela permet de croiser des dictionnaires fran ais anglais et anglais japonais Le projet a t lanc en coop ration entre le GETA c t fran ais et le NII c t japonais Ensuite les coop rations entre le NII et des organismes tha comme le NECTEC et Kasetsart University Bangkok sur le projet SAI
59. TAB C 7 conversion de XML vers RTF A A o uses Edi LO 54 fnil fcharset77 fprq2 Y 961 7D 96 bel 92 a9 81 1821 stylesheet widctlpar f8 lang1036 snext0 Normal cs10 additive Default Paragraph Font d finition des styles siS widctlpar b f8 fs28 ul lang1036 headword s16 widctlpar caps f3 lang1036 sbasedon15 pronunciation si7 widctlpar i f9 lang1036 sbasedon15 pos s18 widctlpar b f8 cf4 lang1036 sbasedon15 example S19 s20 4 4 4 R daction avec des diteurs sp cialis s L exp rience men e par Gilles S rasset S rasset96 97a 97b sur DECID un diteur pour le DEC d Igor Mel tchuk montre qu un diteur sp cialis pour un dictionnaire est tr s utile Il simplifie grandement I dition d un tel dictionnaire 168 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires Cependant l laboration d un diteur sp cialis demande des efforts non n gligeables Sachant qu en suite ces diteurs sp cialis s sont difficilement adaptables de nouvelles structures il ne faut envisager cette laboration que lorsque la structure du dictionnnaire en construction est d j relativement stable De plus il est n cessaire de programmer cet diteur de fa on portable et il n existe pas encore de solution totalement satisfaisante m me avec java incompatibilit s entre les diff rentes versions de ja
60. TITLE gt bannerEnd lt TITLE gt resultListStart lt DICTIONARY START gt resultListEnd lt DICTIONARY END gt resultItemStart lt ENTRY START gt resultItemEnd lt ENTRY END gt ar lt search gt FIG B 27 fichier de plug in pour l application Sherlock Le mot cl action indique l URL du CGI DicoWeb Le mot cl input introduit un param tre d entr e du CGI Les mots cl s resultListStart et resultListEnd indiquent quelles sont les cha nes de ca ract res du r sultat qui marquent le d but et la fin de la liste des articles r pondant la requ te Les mots cl s resultItemStart et resultItemEnd indiquent quelles sont les cha nes de ca ract res du r sultat qui indiquent le d but et la fin de la liste des articles r pondant la requ te 4 3 3 Interface de l outil Sherlock L utilisateur entre le terme qu il recherche dans l interface de Sherlock Sherlock se connecte alors notre serveur gr ce aux informations fournies par le plug in et attend le r sultat qu il affiche ensuite l o il affiche tous les r sultats de recherche voir figure B 28 4 3 4 Discussion Sherlock permet l utilisateur de faire une recherche multisite et d afficher les r sultats selon un ordre de pertinence tabli par les serveurs consult s Si tous les serveurs de dictionnaires d veloppaient leur plug in nous pourrions faire une recherche multidictionnaire sans a
61. Une base de concepts multilingue la base M modata Cette base multilingue Dutoit92 est bas e sur le Dicologique Sa macrostructure est constitu e d un dictionnaire pivot o sont d crits les concepts et d un dictionnaire pour chaque langue allemand anglais espagnol italien et fran ais dans laquelle est traduit chaque concept La base M modata compte environ 47 000 concepts tous traduits dans chaque langue de la base Cette base est galement distribu e par l asso ciation loi 1901 ELRA ELRA Sa microstructure est tr s simple pour chaque concept on trouve une ligne avec le num ro de concept une lettre pour indiquer la langue A pour les concepts D pour l allemand E pour l espagnol S pour l espagnol F pour le fran ais et I pour l italien la traduction du concept et sa cat gorie grammati cale Le format utilis est un format texte simple Les traductions des concepts sont stock es par langue Chaque fichier a une taille d environ 1 2 m gaoctets La figure A 18 repr sente les concepts 91 et 92 et leurs traductions Chaque paragraphe ou groupe de lignes provient d un fichier diff rent 91 A bient t Av 92 A abr viation TL rendre plus simple plus l mentaire V 91 D demn chst adv 91 D in K rze adv 91 D nachstens adv 92 D abk rzen v_ trans 91 E soon adv 92 E abbreviate v_trans 92 E shorten v_trans 91 S dentro de poco adv 92 S abreviar v_trans 91 F avant peu adv 91 F da
62. XML serveurs lexicaux Centralised and Distributed Environments for Lexicographers amp Lexicologists in Multilingual Context Abstract The growing needs in lexical resources and the success of the cooperative development projects such as LINUX lead to the idea of accumulating large amounts of very rich multilingual lexical data by cooperative construction on the Web and mutualized use Contributions to data improvement would be standardized and made available thanks to an adapted environment While studying of the current context of the dictionaries domain we were led to identifying difficult problems such as heterogeneous data structuring and manipulation as well as large amount of multilingual lexical data and visualization or construction in cooperation by people with different skills Prototypes and experiments on consultation of heterogeneous resources enrichment and personalization of the result on line resource building and entries writing with a standard editor enabled us to solve these problems separately It allowed us to design a complete lexical databases environment addressing all these problems as a specific layer directly above the DBMS tools that integrates a server for cooperative building Its kernel includes a generic formalism for the definition of lexical structures derived from SUBLIM of G S rasset but extended and translated in XML This environment is currently applied to the Papillon project which aims at buildi
63. al Canada pp 701 708 Bibliographie 225 Serasset98 Gilles S rasset amp Mathieu Mangeot Lerebours 1998 L dition lexicographique dans un Shieber86 syst me g n rique de gestion de bases lexicales NLP IA 98 traitement automatique des langues et ses applications industrielles Moncton NB Canada vol 1 2 18 21 ao t 1998 pp 110 116 Stuart M Shieber 1986 An Introduction to Unification Based Approaches to Grammar CSLI Notes Center for the Study of Language and Information Menlo Park 105 p Silberztein93 Max Silberztein 1993 Dictionnaires lectroniques et analyse automatique de textes le Sitko97 Steele90 Tanaka94 systeme INTEX ed Masson Paris 234 p Jerzy Sitko 1997 Manuel destin aux lexicographes Manuel d indexage UNL GETA CLIPS IMAG novembre 1997 15 p G I Jr Steele 1990 COMMON LISP The language Digital Press 1030 p K Tanaka amp K Uemura 1994 Construction of a Bilingual Dictionary Intermediated by a Third Language 15th International Conference on Computational Linguistics COLING 94 Kyoto 1994 pp 297 303 Tomasino90 Igor Tomasino 1990 ODILE un Outil d Int gration Extensible de Dictionnaires et Lemma tiseurs M moire d ing neiur CNAM GETA CLIPS IMAG 150 p Tomokiyo00 Mutsuko Tomokiyo Mathieu Mangeot Lerebours amp Emmanuel Planas 2000 Papillon UNL96 UNL97 Veronis90 Vitali00 Vossen97 Wall91 Wilks9
64. allows one to merge two dictionaries following their CDM elements or to query thes lements gt lt element name cdm elements gt lt complexType gt lt choice minOccurs 0 maxOccurs unbounded gt lt all CDM elements gt lt element ref d headword maxOccurs 1 gt lt element ref d pronunciation maxOccurs 1 gt lt element ref d pos maxOccurs 1 gt lt element ref d translation gt lt element name corpus maxOccurs 1 type d cdmType gt lt choice gt lt complexType gt lt element gt lt type cdmType gt lt dml type for cdm elements gt lt complexType name cdmType gt lt attribute ref d delay gt lt attribute ref d lang gt lt complexType gt lt element volumes gt lt Lists all the volumes files of a dictionary with an xlink gt lt element name volumes gt lt complexType gt lt sequence minOccurs 0 maxOccurs unbounded gt lt element ref d volume ref gt lt sequence gt lt complexType gt lt element gt lt element volume ref gt 248 Annexe A sch ma XML pour DML gi references a volume file with an xlink gt lt element name volume ref gt lt complexType mixed true gt lt attribute name name type xlink label gt lt attribute ref xlink href gt lt complexType gt lt element gt lt element links gt lt indicate
65. amp Ted Briscoe ed Longman Londres amp New York 310 p Christian Boitet 1982 Le point sur ARIANE 78 d but 82 DSE 1 GETA CHAMPOLLION CAP SOGETI FRANCE 252 p Christian Boitet 1988 Hybrid Pivots using m structures for multilingual Transfer based sys tems Japanese Institute of Electronic Information and Communication Engineering NLC 88 3 pp 17 22 Christian Boitet 1990 Towards Personnal MT general design dialogue structure potential role of speech Proc Coling 90 Helsinki 20 25 August 1990 H Karlgren ed vol 3 3 pp 30 35 Christian Boitet 1993a Crucial open problems in Machine Translation 4 Interpretation Proc BKK 93 Bangkok Thailand 17 20 March 1993 vol 1 1 Christian Boitet 1993b La TAO comme technologie scientifique le cas de la traduction au tomatique fond e sur le dialogue In La traductique P Bouillon amp A Clas ed Les Presses de l Universit de Montr al PUdM AUPELF UREF pp 109 148 Christian Boitet 1993c TA et TAO Grenoble 32 ans d j TAL revue semestrielle de PATALA 33 1 2 Sp cial Trentenaire pp 45 84 Christian Boitet 1995a Factors for success and failure in Machine Translation some les sons of the first 50 years of R amp D 5th Machine Translation Summit Luxemburg 1995 18 p Christian Boitet 1995b Machine Aided Human Translation Sections 8 3 amp 8 4 Survey of the State of the Art in Human Language Technology A Cole amp a
66. annuelle sur Le traitement Automatique du Langage Natu ral TALN 12 13 juin 1997 Grenoble France vol 1 1 pp 162 168 Lamping95 John Lamping Ramana Rao amp Peter Pirolli 1995 A Focus Context Technique Based on Hy perbolic Geometry for Visualizing Large Hierarchies Proc CHI95 7 11 mai 1995 Denver Colorado tats Unis pp 401 408 Langlois97 Lucie Langlois David Megginson amp Roda p Roberts 1997 SGMLizing the Bilingual Cana dian Dictionary Proc Joint International Conference of the Association for Computers and the Humanities and the Association for Literary amp Linguistic Computing ACH ALLC 1997 Queen s University Kingston Ontario Canada 3 7 juin 1997 5 p LREC98 LREC 1998 Proceedings of the Ist International Conference on Language Resources amp Evaluation dit par A Rubio N Gallardo R Castro A Tejada Grenade Espagne 28 30 mai 1998 1380 p Mangeot97 Mathieu Mangeot Lerebours 1997 Outils pour lexicographes naifs en informatique DEA Informatique Syst mes et Communications GETA CLIPS IMAG Universit Joseph Fourier Grenoble 1 19 juin 1997 58 p Mangeot98 Mathieu Mangeot Lerebours 1998 Conception impl mentation et indexation de BaLeM une base lexicale multilingue Proc TALN 98 Traitement Automatique des Langues Natu relles Paris vol 1 1 10 12 juin 1998 pp 215 217 Bibliographie 223 Mangeot99a Mathieu Mangeot Lerebours 1999a Visualisation et Navigation dans
67. articles provenant d un dictionnaire au format ATEF 20 A 14 article du dictionnaire de traduction russe gt fran ais 21 A 15 trois articles du dictionnaire RUSFRA 21 A 16 extrait de la base BDLEX 54 54 54 ca as peus RA 22 A 17 extrait de BDLex avec les indices associ s 22 A 18 concepts 91 et 92 et leurs traductions dans la base M modata 23 A 19 l article abr ger du dictionnaire fran ais UNL au format original 24 A 20 l article raison du Collins on line 27 A 21 l article abr ger du Oxford Superlex 28 A 22 r sultats d une requ te sur MoBiDictionary 29 A 23 interface et r sultats de la consultation du DUE 31 A 24 interface et r sultats de WWWJDict 32 A 25 article de EDICT au format XML 32 A 26 interface du serveur dictionary com s 33 A 27 r ponses d une requ te sur dictionary com 34 A 28 interface Web de la base terminologique EuroDicAutom 35 A 29 terme voiture de la base Eurodicautom 35 A 30 article de BABEL avant r cup ration 37 A 31 squelette de r gle d analyse
68. atteint par un contributeur 1 3 Int gration des exp riences pr c dentes 1 3 1 Consultation des ressources La consultation et la navigation dans une base lexicale telle que nous la d finissons sont des t ches cl s de notre syst me En effet tous les utilisateurs de la base seront amen s la consulter De plus il faut des outils de navigation capables de permettre l utilisateur de naviguer dans une grande quantit d information sans tre noy 1 Sp cifications externes de l environnement 117 L utilisateur doit pouvoir effectuer des requ tes complexes visualiser de grandes quantit s de donn es et enfin d clencher des actions li es aux donn es visualis es Requ tes sur la m ta information De nombreuses ressources sont disponibles Il faut donc pouvoir les comparer et en s lectionner cer taines que l on veut consulter Il faut que l utilisateur puisse tablir des requ tes sur la m ta information relative chaque ressource pr sente dans la base Voici des exemples de requ tes possibles Quels sont les dictionnaires avec du japonais en langue cible Combien d entr es y a t il dans le OHD anglais fran ais Quelle est la microstructure compl te du NODE ou sa DTD Quels sont les dictionnaires plus r cents que 1980 Quels sont les droits d acc s et d utilisation du dictionnaire FeM Requ tes sur la macrostructure La s lection dans la macrostructure consiste ne s lection
69. avant de les int grer la base Pour cela ils se connectent au serveur Dans la partie r serv e aux lexicologues ils ont acc s un panneau des contributions non int gr es la base Ils s lectionnent des contributions les r visent et d cident de les int grer ou non la base Pour chaque contribution int gr e son auteur est gratifi de cr dits Ajout d une nouvelle langue Pour chaque nouvelle langue un sp cialiste lexicologue doit d crire dans un sch ma XML les parties sp cifiques de cette langue cat gories grammaticales liste de quantificateurs etc Il se connecte ensuite au serveur Papillon et envoie le sch ma XML Sur le serveur le document est analys Les informations sont utilis es pour cr er dans la base de donn es une nouvelle entr e pour la langue nouvellement d finie Int gration de donn es existantes Les donn es existantes sont int gr es par un sp cialiste lexicologue Il faut ajouter un nouveau diction naire pour chaque ressource r cup r e Si le dictionnaire contient d j des donn es le lexicologue les envoie au serveur sous forme de document XML en m me temps que le fichier de description du dictionnaire En suite il crit une grammaire de r cup ration des donn es existantes dans le formalisme H grammar Il envoie ensuite le fichier repr sentant la grammaire H grammar Le serveur r cup re automatiquement ces donn es existantes et les int gre la base Ensuite le
70. bien leur travail de v rification ils peuvent lancer des requ tes sur tout le contenu de la base et en extraire des statistiques sur les donn es langues de la base lexies axies contributeurs etc La figure D 11 montre une interface permettant d effectuer des statistiques sur les lexies fran aises Dans cet exemple le lexicologue a demand toutes les lexies ayant la cha ne nom contenue dans la cat gorie grammaticale J Informations Consultation dition Contacts Aide Find Lexies where Vocable contains Part of speech contains Any other part contains INN ABAT JOUR nom masc invar ABATTEMENT 1 nom masc ABATTEMENT 2 nom masc k ABEILLE nom f m ABOIEMENT nom masc surtout pl ASSASSINAT nom masc BARBE nom fem BONNE HUMEUR loc nom f m pas de pl seulement avec art def CH QUE nom masc COMPLIMENT nom masc CORPS CORPS loc nom masc Bl Pa i dE bu hl Bal pu 2 FIG D 11 requ te sur la base Papillon Les lexicologues ont aussi besoin de v rifier la coh rence et la compl tude de la base afin de d tecter des erreurs ventuelles ou de pr parer un tableau de choses faire Pour cela ils r digent des scripts de v rification de coh rence et les envoient au serveur Papillon qui les ex cute ensuite en t che de fond 204 D Application Papillon projet de base lexicale multilingue sur Internet 5 Evaluations pr liminaires et exemples 5 1 R cup ration du FeM
71. bool en L attri but history est un attribut DML C est un identificateur permettant de faire r f rence l historique des changements ayant eu lieu dans la lexie L origine des informations est aussi stock e dans l historique Si une modification a ensuite lieu un attribut history est automatiquement cr sur l l ment XML le plus proche contenant toute la modification Les lexies contiennent 10 l ments principaux le nom du vocable la prononciation les l ments sp cifiques aux langues la cat gorie grammaticale la formule s mantique le r gime les fonctions lexi cales les exemples les idiotismes et les liens vers les axies Le nom du vocable est une repr sentation graphique de la lexie trouv e dans les textes Pour repr senter ce nom nous utilisons l l ment DML lt headword gt Cela nous permet de donner une d finition s mantique pr cise cet l ment La prononciation est repr sent e par l l ment DML lt pronunciation gt Les encodages peuvent tre diff rents selon les langues alphabet phon tique international transcriptions phon tiques encodages maison etc Les informations sp cifiques chaque langue sont d crites par le groupe lt language specific gt dans le sch ma Papillon Ce groupe est ensuite red fini dans les sch mas XML sp cifiques aux langues La cat gorie grammaticale est repr sent e par l l ment DML lt pos gt Les valeurs possibles de cet l ment s
72. construction en coop ration par des personnes aux comp tences diverses Des prototypages et des exp rimentations portant sur la consultation de ressources h t rog nes l enrichissement et personnalisation du r sultat la construction de ressources en ligne et la r daction d articles avec un diteur standard nous ont permis de r soudre s par ment ces probl mes Cela nous a permis de concevoir un environnement complet de bases lexicales r pondant tous ces probl mes se pla ant au dessus des SGBD utilis s pour le stockage et int grant un serveur pour la construction coop rative Son noyau inclut un formalisme g n rique de d finition de structures lexicales inspir de SUBLIM de G S rasset mais compl t et r exprim en XML Cet environnement est actuellement appliqu au projet Papillon de d veloppement par des b n voles sur Internet d une base lexicale comprenant cinq langues L architecture de la base est constitu e d un dictionnaire monolingue pour chaque langue et d un dictionnaire pivot d acceptions interlingues reliant les articles monolingues lexies dont la structure provient de la lexicologie combinatoire Enfin l architecture du serveur assez g n rique devrait tre r utilis e dans d autres contextes m moires de traduction outils pour traducteurs communication et RI multilingue annotations multim dia Mots Cl s Lexicologie lexicographie dictionnairique bases lexicales multilingues sch mas
73. corpus delay 10s gt lt cdm elements gt lt administrators gt lt user ref name Mathieu Mangeot gt lt administrators gt lt volumes gt lt volume ref name English lang eng href papillon eng xml gt lt volume ref name French lang fra href papillon fra xml gt lt volume ref name Japanese lang jpn href papillon jpn xml gt lt volume ref name Lao lang lao href papillon lao xml gt lt volume ref name Thai lang tha href papillon tha xml gt lt volume ref name Axies lang axi href papillon axi xml gt lt volumes gt lt links gt lt link from Axies to English type bijective gt lt link from Axies to French type bijective gt lt link from Axies to Japanese type bijective gt lt link from Axies to Lao type bijective gt lt link from Axies to Thai type bijective gt aflinks lt dictionary gt Les volumes Chaque langue est repr sent e par un volume monolingue qui regroupe les articles de la langue Les articles monolingues sont des lexies Les vocables sont construits automatiquement la vol e partir des lexies Il y a en plus un volume pivot dont les articles sont les liens interlingues ou axies reliant les articles 192 D Application Papillon projet de base lexicale multilingue sur Internet des volumes monolingues L attribut history ref fait r f rence un fichier o sont stock s les histo
74. d un t raoctet de donn es stocker Une base de donn es ordinaire ne peut g rer cette taille Il faut alors imaginer un autre moyen pour stocker les poids comme par exemple instaurer un syst me d h ritage de poids entre les groupes et les stocker sous forme de listes ou de matrices creuses ou encore utiliser les techniques de compression de s quences d images Le probl me de calcul automatique de profils d utilisateurs est important pour savoir qui contribue quoi dans la base avec quelle fr quence et quelle qualit de contribution Les profils sont utiles pour tablir des statistiques optimiser la r partition du travail faire accorder un degr de confiance aux contributeurs etc Le probl me de gestion de charge importante sur un serveur est provoqu par des connexions simul tan es multiples des t l chargements tr s fr quents une activit continue connexions depuis le Japon ou le Canada etc et des op rations en t che de fond et une sauvegarde tous les jours Le probl me de la gestion des conflits et de la synchronisation sur les annotations et les contributions survient lorsqu un article est supprim de la base ou que deux articles sont fusionn s Que deviennent alors les annotations et les contributions associ es ces articles Lorsqu une contribution est accept e que de viennent les annotations et les autres contributions faites sur cette contribution Perspectives de recherche Nous n avo
75. dans des fichiers texte chacune selon son propre format Apr s les avoir ordonn es selon la m thode d finie pour le serveur DictList nous avons construit une maquette qui permet de consulter tous ces fichiers texte en m me temps la vol e et d afficher les diff rents articles dans une seule fen tre Nous avons appel cette maquette DicoWeb pour Dictionnaires sur le Web DicoWeb est un serveur de dictionnaires con u pour un usage humain Il sert pour des exp rimentations XRCE Pour des raisons l gales il n est pas accessible au public Nous pr senterons son interface son architecture et quelques points importants 1 2 2 Architecture de DicoWeb La m thode utilis e pour l outil DictList a t reprise et am lior e Un script cgi crit en Perl fait la liaison entre l utilisateur les analyseurs morphologiques et les dictionnaires Lorsque l utilisateur a choisi ses langues source et cibles puis tap son entr e le r sultat est envoy au script Si l analyse morphologique est s lectionn e ledit script envoie l entr e l analyseur morphologique correspondant la langue source La r ponse est ensuite d cod e La figure B 5 montre l architecture g n rale de DicoWeb Serveurs Web de Dictionnaires Websters de en es fr it A texte No SGML HD I E eo aide Requ te HTTP forme texte grep Perl een
76. de DML 237 amp l Lao 639 1 Lo lt enumeration value lat gt fie Malay 639214 ms lt enumeration value mul gt Thai 639 1 th gt lt enumeration value tig gt lt Vietnamese 639 1 vi gt lt enumeration value vol gt lt Chinese 639 1 ZA gt lt enumeration value znd gt Zande 5 lt enumeration value zul gt Zulu 639 1 z lt enumeration value zun gt lt t Zuni lt DML additions to the ISO 639 2 T for special purpose gt lt enumeration value axi gt lt enumeration value unl gt lt restriction gt lt simpleType gt a refType type gt lt I references to another object with an xlink The link can be tagged with a gloss lang is the language of the gloss gt lt complexType name refType mixed true gt lt attribute ref xlink href use required gt lt attribute ref d lang gt lt attribute name tag type string gt lt attribute name tag type type string gt lt complexType gt lt status attribute gt lt The status attribute is used to indicate the status of a linguistic element gt lt attribute name status gt lt simpleType gt lt restriction base string gt lt enumeration value auto gt lt enumeration value rough gt lt enumeration value revised gt lt restriction gt lt simpleType gt lt attribute gt lt weight att
77. de la base contri buent ils peuvent le faire grace a plusieurs m thodes expos es en partie B 4 4 1 R daction en ligne via le Web La r daction en ligne via le Web est possible gr ce des formulaires HTML Cette technique n est valable que si la structure du dictionnaire construire est simple Les formulaires HTML sont adapt s la 4 Int gration des outils de manipulation construction et consultation de dictionnaires 165 structure du dictionnaire Pour les faire voluer en m me temps que la structure il faut chaque fois les reprogrammer Cette technique est cependant envisageable pour des contributions localis es par exemple pour ajouter un l ment chaque article prononciation exemple d usage idiotisme etc 4 4 2 R daction avec des diteurs structur s La r daction des articles avec des diteurs structur s est tr s avantageuse L diteur s adapte facilement une structure volutive d un dictionnaire m me complexe Le logiciel Amaya Amaya est un diteur navigateur HTML Il permet donc la fois de visualiser des documents HTML et de les diter Il semble tr s prometteur plusieurs points de vue il est multiplate forme UNIX LINUX Windows il dispose d j d un m canisme d annotation le code source est disponible Nous pouvons donc modifier le logiciel pour l adapter nos besoins Par exemple nous pouvons restreindre les fonctionnalit s de l diteur
78. de seconde g n ration d velopp au sein du laboratoire GETA l aide de l environnement ARIANE 78 puis converti en ARIANE GS Pour les tapes d analyse et de g n ration morphologiques ainsi que le transfert lexical ARIANE GS utilise des dictionnaires Examinons leur structure Le langage ATEF utilise pour l analyse morphologique trois sortes de dictionnaires monolingues de bases d affixes et de tournures Chaque dictionnaire est une liste d articles dont voici la syntaxe simplifi e en figure A 12 lt article de D de bases gt lt morphe gt lt format M gt lt format S ou G gt lt UL gt lt article de D d affixes gt lt morphe gt lt format M gt lt format S ou G gt lt article de D de tournures gt lt tournure gt lt format M gt lt format S ou G gt lt UL gt lt morphe gt lt suite de symboles non blancs de 34 caracteres gt lt tournure gt lt suite de symboles sans sous suite de 2 blancs de 34 caracteres au plus gt lt format i gt lt identificateur gt Fic A 12 syntaxe du langage ATEF L exemple de la figure A 13 est tir du dictionnaire de bases Il contient quatre articles ACETATE N1 SUBST ACETATE ACETIC A VOID ACETIC Ya DUMP V1Z PN1 DUMP Ys DUMP N1Z LOC DUMP Jos FIG A 13 articles provenant d un dictionnaire au format ATEF La syntaxe est positionnelle le signe tant en colonnes
79. definitions for the external references gt lt resource attribute gt lt To locate the file where the external reference is stored gt lt attribute name resource type xlink href gt 270 Annexe B sch mas XML pour Papillon lt UNL graph element gt lt To encode a UNL graph representing an example gt lt eg La m sentente pourrait tre le mobile du meurtre lt UNL graph gt obj be icl gt state fentry mobile ftde aoj mobile def murder def agt be icl gt state entry misunderstanding def mod can conditional be entry lt UNL graph gt gt lt element name UNL graph type string gt lt UWs element gt lt List of UNL UWs corresponding to the axie gt lt element name UWs gt lt complexType gt lt sequence minOccurs 0 maxOccurs unbounded gt lt element ref d refuw gt lt sequence gt lt attribute ref d resource gt lt complexType gt lt element gt lt I refuw element gt lt Represents a UW corresponding to the axie gt lt eg lt refuw xlink href river icl gt not into sea gt gt lt element name refuw type d refType gt lt WordNet element gt lt List of WordNet synsets corresponding to the axie gt lt element name WordNet gt lt complexType gt lt sequence minOccurs 0 maxOccurs unbounded gt lt element ref d refsynset gt lt seq
80. deux fois le m me article puis de v rifier a posteriori ces erreurs Cela n tait pas possible avec une base de donn es De plus lors de la r daction des articles le fait de ne pas voir le contexte de l article en cours de r daction i e les articles voisins dans leur totalit ou non est handicapant Il n tait pas possible d avoir une vue globale du dictionnaire 4 1 2 M thode de construction d mocratique des articles C est alors que l id e est venue d utiliser finalement un outil du commerce comme un diteur pseudo syntaxique pour le travail d indexage Cette id e a t propos e et impl ment e pour la premi re fois en 1992 par Christian Boitet puis reprise par la suite Gaschler94a 94b Le choix s est port sur le logiciel de traitement de texte Word car il pr sentait de nombreux avantages il fonctionne sur Mac et sur PC les lexicographes savaient d j l utiliser il tait d j disponible sur les machines des partenaires contrairement de nombreux outils d indexage il permet de voir tout un ensemble d entr es de mani re compacte et d utiliser le copier coller Un article du dictionnaire de travail se pr sente alors en Word sous forme d une suite de paragraphes Chaque paragraphe contient un l ment d information Le style du paragraphe permet de savoir de quel l ment il s agit Les lexicographes travaillent sur des fichiers RTF Rich Text Format qui sont ensuit
81. email type d emailType gt lt simpleType name emailType gt lt restriction base string gt lt regular expression at least on char followed by a e followed by at least one char followed by a followed by at least one char gt lt pattern value J gt lt restriction gt lt simpleType gt lt profiles element gt 242 Annexe A sch ma XML pour DML lt User profiles gt lt element name profiles gt lt complexType gt lt sequence gt lt element ref d competences maxOccurs 1 gt lt element ref d interests maxOccurs 1 gt lt element ref d activities maxOccurs 1 gt lt sequence gt lt complexType gt lt element gt lt competences element gt lt Indicates the linguistic competences of a user contributor gt lt element name competences gt lt complexType gt sequence lt The declaration of these elements should be more structured and systematic ie 1 element for each language of the dml lang type gt lt element name cat maxOccurs 1 type string gt lt element name eng maxOccurs 1 type string gt lt element name fra maxOccurs 1 type string gt lt element name spa maxOccurs 1 type string gt lt element name hun maxOccurs 1 type string gt lt element name 3jpn maxOccurs 1 type string gt lt element name ita maxOccurs
82. en construisant une base lexicale multilingue avec une architecture pivot et en extrayant de cette base des dictionnaires bilingues personnalis s La construction d une base multilingue structure pivot limitera les efforts de r daction car les parties monolingues ne seront r dig es qu une seule fois Des efforts on d j t faits dans ce domaine avec l laboration de la maquette PARAX par Etienne Blanc Blanc96 99 ou le projet ULTRA dirig par Yorick Wilks Farwell92 Il faut maintenant passer une r alisation grande chelle pour permettre toute une communaut de construire ensemble une base lexicale multilingue Probl me de structuration des informations lexicales Les bases de donn es usuelles ne permettent pas de repr senter les informations lexicales avec une granularit tres fine Par exemple la base lexicale DiCo est stock e dans une base de donn es du type FileMaker M Chaque lexie est stock e dans 8 champs diff rents Les champs ne sont en fait pas analys s jusqu au bout Ce sont des objets textuels structur s par des marques typographiques et pas des balises s mantiques caract risant le contenu Par contre les bases de donn es sont id ales pour le stockage la pr paration et le tri des informations Elles seront donc utilis es au premier niveau comme support mais ne le seront pas pour l interaction directe avec les utilisateurs Les articles des dictionnaires seront stock s tels quels av
83. envoy s par la base lexicale lors de chaque connexion au fournisseur L l ment lt result gt d crit le r sultat de l API en suivant la syntaxe des sch mas XML Le r sultat est renvoy par le fournisseur en r ponse aux requ tes de la base lexicale 4 2 2 Fournisseur de services Nous distinguons deux types de services Les services de pr traitement sont utilis s en amont de la consultation de la base pour faciliter la recherche dans la base Ces services incluent des lemmatiseurs pour trouver le ou les lemmes correspondant au mot que l utilisateur recherche des correcteurs orthographiques ou des recherches plus sp cifiques avec les consonnes du mot class es par ordre alphab tique Zock01 etc Les services d actions associ es permettent d associer des actions des parties d informations se trou vant dans le r sultat des requ tes faites sur la base Par exemple il est possible d associer un conjugueur aux verbes et d inclure un phon tiseur permettant d entendre la prononciation de n importe quelle cha ne mot vedette exemples etc Voici en exemple une API de pr traitement utilisant les lemmatiseurs d velopp s par XRCE D mos Ces lemmatiseurs sont utilis s par les maquettes d crites en partie B DicoWeb DicoSz t r DicoFeJ Ni hongo FeM lt api type supplier category preprocessing name XRCE fra morphan gt lt info gt Lemmatiseur du francais de Xerox lt info gt lt url hr
84. est un dictionnaire monolingue fran ais Le m me type de DEC a t d abord d velopp pour le russe par Igor Mel tchuk en collaboration avec de nombreuses personnes en particulier avec le laboratoire du professeur Rosenweig Comme il s agit d un travail de recherche en lexicographie le DEC comporte peu de vocables mais chacun est tr s d taill Il y a actuellement quatre volumes regroupant 558 vocables en tout La microstructure du DEC est d finie par la lexicologie explicative et combinatoire Mel tchuk95 elle m me issue de la th orie sens texte Cette th orie fournit les informations n cessaires pour passer d une id e le sens sa r alisation dans une langue donn e le texte Cette microstructure est tr s complexe on trouve des tableaux de r gime des fonctions lexicales etc Pour repr senter ces structures vari es nous avons donc besoin d un langage de repr sentation de structures g n rique et riche Format et pr sentation Chaque article est stock dans un fichier part dans des formats divers ici en format HTML La taille du fichier de l article Averse de la figure A 9 est d environ 7 5 ko l origine les articles taient crits en format Word Le m me format est alors utilis la fois pour la structure interne le stockage et la pr sentation tant donn que des l ments de style comme le gras et l italique sont utilis s pour repr senter la structure interne cell
85. example gt La m sentente pourrait tre le pourrait tre le mobile du meurtre lt span gt mobile du meurtre lt example gt TAB C 6 conversion de XHTML vers XML Voici un extrait de la feuille de style permettant cette transformation lt mod le par d faut pour les l ments span gt lt xsl template match span priority 1 gt lt cr e un l ment avec la valeur de l attribut class gt lt xsl element name class gt lt xsl apply templates select text gt lt xsl apply templates select gt lt xsl element gt lt xsl template gt lt mod le pour les l ments utilisant une applet java gt lt xsl template match applet gt 1 cr e un l ment avec 1 attribut du parametr lement gt lt xsl element name param name element value gt lt recopie 1 attribut du param tre data gt lt xsl value of select param fname data value gt lt xsl element gt lt xsl template gt lt xsl stylesheet gt 4 4 3 R daction avec des pseudo diteurs structur s Suite nos exp riences avec le logiciel Word Mexpos es en partie B nous pouvons proposer aux lexi cographes d utiliser ce logiciel Il sera consid r comme un pseudo diteur structur car la structure du document n est pas directement visible par l utilisateur Celui ci doit donc lorsqu il dite faire attention ne pas ajouter des informations parasites dans le doc
86. faire Certaines personnes ont un acc s au r seau payant d autres un acc s lent Ces personnes ne peuvent pas travailler tout le temps en ligne Il faut aussi pouvoir travailler en local par exemple sur un ordinateur portable Il faut donc faire en sorte que la totalit du travail cr ation annotation etc puisse se faire aussi bien en ligne qu en local sans r seau Pour qu un grand nombre de personnes puisse contribuer la construction des ressources il faut que les outils de r daction puissent tourner sur des quipements de bas de gamme bon march et pas n cessairement puissants Sp cifications de la plate forme Une plate forme de lexicographe doit permettre de travailler sur la r daction d un article ou sur l laboration de liens entre articles Il faut donc conce voir deux types d interfaces selon le travail effectuer de travailler sur tout l article ou sur une partie seulement Par exemple un linguiste travaillera plus souvent sur la cat gorie grammaticale d un mot et un traducteur travaillera sur les traductions de ce mot dans les langues qu il conna t de voir toutes les ressources disponibles sur la base pour avoir le maximum d informations disposi tion de fa on faciliter les choix et aussi voir les contributions et annotations de certains groupes d acc der des outils vari s tels que des analyseurs morphologiques des outils de recherche dans des corpus
87. grammaticale vtr et de ses tra ductions anglaises Celles ci sont diff renci es par le contexte collocations On observe que les traductions ne sont pas marqu es Pour l humain cela ne pose pas de probl mes Par contre la machine ne peut utiliser ce dictionnaire pour rechercher des traductions Il faut dans ce cas r cup rer le dictionnaire pour marquer les traductions 16 A Contexte actuel de la dictionnairique Pr sentation du dictionnaire La figure A 8 est une pr sentation du m me article lisible par 1 humain abr ger abKeZe 15 vn 1 rendre court to shorten mot expression to summarize texte discours t l vision en t l to shorten television to TV donner une version abr g e de qch to give an abridged version of sth donner qch sous une forme abr g e to give sth in abbreviated form tene to give sth in summarized form texte rendre bref to cut short sth j ai d ma visite I had to cut short my visit une crise cardiaque a abr g sa carri re a heart attack cut short his career abr ge keep it short les souffrances de qn to put an end to sb s suffering disons pour qu ils se s parent to cut GB ou make US a long story short let s just say they are separating FIG A 8 pr sentation de l article abr ger du DHO 1 2 4 Un dictionnaire tr s complexe le DEC Introduction Le Dictionnaire Explicatif et Combinatoire du fran ais contemporain Mel tchuk92
88. gt TAB C 5 conversion de XML vers une Applet HTML La transformation du r sultat XML vers un document XHTML se fait par l interm diaire d une feuille de style XSLT Voici un extrait de la feuille de style permettant de transformer les exemples ci dessus lt mod le par d faut pour tous les l ments a lt xsl template match priority 1 gt lt fabrique un l ment span gt lt span gt lt avec un attribut class gt lt xsl attribute name class gt lt prenant comme valeur le nom de l l ment gt lt xsl value of select name gt lt xsl attribute gt lt xsl apply templates gt lt span gt lt xsl template gt lt mod le pour les l ments associ s a une applet java gt lt xsl template match pronunciation gt 164 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires lt cr e un l ment HTML applet gt lt applet code phonetiseur class archive phonetiseur zip gt lt avec un param tre contenant le nom de 1 l ment gt lt param name element gt lt xsl attribute name value gt lt xsl value of select name gt lt xsliattribute gt lt param gt lt et un param tre contenant le texte a phon tiser gt lt param name data gt lt xsl attribute name value gt lt xsl value of select text gt lt xsl attribute gt lt param gt lt applet g
89. gt lt RAMDA gt funkan duration during x minute gt lt enumeration value fil gt lt KD by duration second gt lt enumeration value gt lt I EXSIPA gt by kan duration during x second gt lt enumeration value fj gt lt RHAAFPA gt nenkan duration during x year gt lt enumeration value E gt lt t4 Y hitori People one person gt lt enumeration value A gt lt 72 gt futari People gt lt enumeration value _A gt lt Z nin People two persons gt lt enumeration value A gt lt restriction gt lt simpleType gt lt schema gt 279 Environnements centralis s et distribu s pour lexicographes et lexicologues en contexte multilingue R sum Les besoins croissants en ressources lexicales et le succ s des projets de d veloppement coop ratif comme LINUX convergent vers l id e d accumuler des donn es lexicales multilingues de grande taille et de grande richesse par construction coop rative sur la Toile et utilisation mutualis e Les contributeurs fourniraient eux m mes ces informations sous une forme standardis e gr ce un environnement adapt L tude du contexte actuel de la dictionnairique nous a conduit l identification de probl mes difficiles tels que la structuration et la manipulation de donn es h t rog nes la visualisation d une grande quantit de donn es lexicales multilingues et la
90. gt lt creation indexer Automatic date 01 11 00 gt fusion FeM JMDict lt creation gt 150 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires lt modification indexer MM date 01 12 00 gt ajout du OSyn assassinat lt modification gt lt modification indexer MM date 02 12 00 gt ajout du OSyn homicide lt modification gt lt modification indexer MM date 17 04 01 gt ajout de Example el lt modification gt lt revision indexer CB date 06 12 00 gt Tout OK RAS lt revision gt lt administration gt La description formelle des historiques est d finie dans le sch ma XML dml en annexe de ce document 3 2 2 Stockage des contributions Les contributeurs r digent leurs contributions l aide d une interface sp cialis e Ils ne r digent pas directement leurs contributions en XML En effet ce langage est difficile voire impossible comprendre pour un contributeur non informaticien Les contributions sont stock es avec leur date de cr ation sous forme de documents XML Ces contribu tions ne sont pas visibles du public tant qu elles ne sont pas v rifi es et int gr es dans la base Cependant le contributeur peut partager ses contributions avec d autres contributeurs au cas par cas ou avec les groupes dont il fait partie Les autres contributeurs peuvent alors annoter leur tour ses contributions avant qu elles ne soient int gr es la base Lors
91. href qui est du type Xlink En th orie une lexie n est reli e qu une seule axie Cependant nous laissons la possibilit aux contributeurs de la relier plusieurs axies Ces liens multiples seront ensuite d tect s par des programmes de v rification automatique et trait s part Voici un extrait de la lexie fran aise MEURTRE lt lexie id meurtre 1 history h01 basic true gt lt headword hn 1 gt meurtre lt headword gt lt pronunciation encoding GETA gt meu rtr e lt pronunciation gt lt language specific gt lt pos gt n m lt pos gt lt semantic formula gt action de tuer PAR L lt actor gt lt sem label gt individu lt sem label gt lt sem variable gt X lt sem variable gt lt actor gt DE L lt actor gt lt sem label gt individu lt sem label gt lt sem variable gt Y lt sem variable gt lt actor gt lt semantic formula gt lt government pattern gt lt mod nb 1 gt LacLor lt sem actant gt X lt sem actant gt 194 D Application Papillon projet de base lexicale multilingue sur Internet lt synt actant gt I lt synt actant gt lt surface group gt lt surface gt lt reflexie href de gt de lt reflexie gt N lt surface gt lt surface gt A poss lt surface gt lt surface group gt lt actor gt lt actor gt lt sem actant gt Y lt sem actant gt lt synt actant gt II lt synt actant gt lt surface group gt lt surface gt lt reflexie href de gt de lt r
92. imag fr Date 2001 09 15 09 37 10 SRevision 1 6 lt schema targetNamespace http www clips imag fr geta services dml gt lt annotation gt lt documentation xml lang en gt XML Schema for common elements of Dictionary Markup Language These elements are used to encode heterogeneous lexical databases Namespace http www clips imag fr geta services dml This schema is identified by the location http www clips imag fr geta services dml dml xsd lt documentation gt lt annotation gt lt importing other schemas gt lt importing parts of xlink recommendation for dml links gt lt import namespace http www w3 org 1999 xlink schemaLocation http www clips imag fr geta services dml xlink xsd gt K common DML attributes and types gt lt Note the attributes are sorted in alphabetical order gt lt I dateType type e lt Used for all the dates in DML Equals to dateTime from XML schema basic type The following definition is taken for REC xmlschema 2 A single lexical representation which is a subset of the lexical representations allowed by ISO 8601 is allowed for dateTime This lexical representation is the ISO 8601 extended format CCYY MM DDThh mm ss where CC represents the century YY the year MM the month and DD the day preceded by an optional leading sign to indicate a negative number If the s
93. les vendre 2 2 1 Consultation simple du dictionnaire universel francophone Introduction Le Dictionnaire Universel Francophone est issu des efforts combin s de 1 AUPELF UREF Agence francophone pour l enseignement sup rieur et la recherche et des ditions Hachette Le dictionnaire est consultable en ligne depuis novembre 1999 cette adresse DUF Interface L interface Web de ce dictionnaire est tr s sommaire L utilisateur entre un mot dans un formulaire HTML dans la partie gauche de son navigateur et clique sur le bouton chercher La requ te est alors envoy e au serveur Une liste des articles correspondant ce mot est renvoy e et affich e toujours sur la gauche du navigateur L utilisateur clique alors sur l article qu il souhaite lire et celui ci appara t dans la partie droite de son navigateur Tous les mots de l article sont en fait des liens hypertexte qui renvoient aux articles d finissant ces mots Cela permet une navigation au hasard dans le dictionnaire La figure A 23 repr sente l interface HTML du dictionnaire L utilisateur n a qu une seule option de consultation il peut chercher des mots commen ant par une suite de lettres qu il tape dans le formulaire De plus la consultation est ralentie car elle se passe en deux temps L utilisateur doit cliquer sur l article pr cis qu il d sire lire avant qu il ne s affiche Il serait par exemple int ressant de consulter le dictionnaire avec des expres
94. loria fr projets SALT SAIKAM Serveur de dictionnaire japonais thai http saikam nii ac jp SAX 2 0 Simple API for XML version 2 interface standard pour l analyse XML http www w3 org DOM Tamino SGBD XML http www softwareag com tamino Third Voice annoteur sur le web http www thirdvoice com XHTML 1 0 Recommandation du W3C http www w3 org TR xhtml1 XLink 1 0 Recommandation du W3C http www w3 org TR NOTE xlink req XMaster AlphaWorks Use XML Master XMas to design and generate custom JavaBeans for working with a particular XML document http www alphaworks ibm com tech xmas XML 1 0 eXtended Markup Language 1 0 Recommandation du W3C http www w3 org TR REC xml 230 Bibliographie XML DB XML DB D veloppement de sp cifications pour utiliser des bases de donn es XML http www xmldb org XML namespaces XML Namespaces XML Namespaces Recommandation du W3C http www w3 org TR REC xml names XML schemas XML Schemas XML Schemas Recommandation du W3C http www w3 org TR xmlschema 0 XPath XPath XPath Language Recommandation du W3C http www w3 org TR xpath XPointer XPointer XML Pointer Language Recommandation du W3C http www w3 org TR xptr XSL XSL 1 0 eXtended Stylesheet Language 1 0 Recommandation du W3C http www w3 org TR xsl XSLT XSLT 1 0 eXtended Stylesheet Language Transformation 1 0 Recommandation du W3C http www w3 org TR xslt X Hive X Hive SGBD XML
95. lt attribute name min type d durationType gt lt attribute name average type d durationType gt lt attribute name max type d durationType gt lt complexType gt lt element gt lt encodings element gt lt indicates the input and output encodings The type used is encodingType defined before gt lt element name encodings gt lt complexType gt lt attribute name input type encodingType gt lt attribute name output type encodingType gt lt complexType gt lt element gt lt formats element gt lt indicates the input and output formats The type used is formatType defined before gt lt element name formats gt lt complexType gt lt attribute name input type formatType gt lt attribute name output type formatType gt lt complexType gt lt element gt lt argumentsType type gt 252 Annexe A sch ma XML pour DML lt indicates the format of the arguments The XML schema syntax is used The type has to be redefined in another schema gt lt simpleType name argumentsType gt lt restriction base string gt lt simpleType gt lt resultType type gt lt indicates the format of the result The XML schema syntax is used The type has to be redefined in another schema gt lt simpleType name resultType gt lt restriction base string gt lt simpleType g
96. lt french_phrase gt je vous demande d abr ger votre lettre lt french_phrase gt lt english_phrase gt please shorten your letter lt english_phrase gt lt malay_phrase gt sila ringkaskan surat anda lt malay_phrase gt lt dml lexie gt lt dml lexie provenance 0HD gt lt ic gt rendre court lt ic gt to shorten lt co gt mot expression lt co gt to summarize lt co gt texte discours lt co gt lt sl gt t l vision en t l lt sl gt to shorten television to TV lt dml lexie gt lt dnlisyntactie cat gt lt dml entry gt FIG C 15 r sultat de la fusion entre le FeM et le DHO op rations Nous reprenons les fonctions du langage LEXARD en ajoutant des informations Organisation logique de la base La figure C 16 montre l organisation logique de la base lexicale Nous exprimons cette organisation en XML L l ment lt database gt d crit une base lexicale Dans cet l ment sont list s les dictionnaires ventuellement h t rog nes qui composent la base L l ment lt dictionary gt d crit un dictionnaire de mani re g n rale Il r f rencie tous les volumes du dictionnaire L l ment lt volume gt d crit une partie de dictionnaire Cet l ment est compos principalement des articles de dictionnaire Par exemple un dictionnaire bilingue bidirectionnel anglais fran ais sera d crit par un seul objet lt dictionary gt Les articles de dictionnaire seront ensuite r partis e
97. lt responsible gt Laurent Griot lt responsible gt lt info gt A directory containing the Eurowordnet data lt info gt lt general info gt lt Ttiles lList gt lt file gt lt name gt EuroWordNet1 6 txt lt name gt lt creation date gt 6 May 1999 lt creation date gt lt file gt lt fftiles list gt lt dictionary readme gt FIG B 1 description du dictionnaire EuroWordNet DICTIONARY README README INFO creation date 6 May 1999 author Laurent Griot GENERAL INFO name EuroWordNet category multilingual dictionary domain general source language English creation date see version responsible Laurent Griot info A directory containing the Eurowordnet data FILES LIST file name EuroWordNet1 6 txt creation date 6 May 1999 FIG B 2 description du dictionnaire EuroWordNet en format texte 1 1 5 Discussion Nous avons am lior l organisation des ressources lexicales gr ce notre m thodologie et l outil DictList La m ta information permet de mieux conna tre les ressources Elle est indispensable pour faire 1 Exp riences sur la consultation en ligne text a FIG B XRCE DictList Service Any comments email to Agnes Sondor xrce xerox com Last modified Tue Jul 27 11 42 05 MET DST 1999 texte XML I A B Requ te HTTP forme HTML texte Perl E OS A i Moulinette pape XML gt HTML HTML
98. machines sont ajout es dans la structure logique Ces dictionnaires peuvent donc tre utilis s directement par des machines Les dictionnaires compil s ne sont pas utilisables sans les informations n cessaires pour les d coder Dans la suite nous ne parlerons que de dictionnaires lectroniques Chaque dictionnaire lectronique est repr sent dans les fichiers de caract res par un certain format particulier Les formats sont diff rents selon les dictionnaires Le format le plus simple consiste disposer chaque entr e sur une ligne L entr e est suivie ventuellement d informations linguistiques s par es par un ou plusieurs caract res sp ciaux Beaucoup de dictionnaires utilisant une microstructure sous forme d arbre sont repr sent s dans un format utilisant des balises comme la norme SGML Standard Generalized Markup Language ISO86 et plus r cemment XML eXtended Markup Language W3C98a pour repr senter les donn es L information textuelle est contenue entre une balise ouvrante et une balise fermante L ensemble est appel un l ment Voici un exemple lt headword number 1 gt abr eacute ger lt headword gt L l ment se nomme lt headword gt Des attributs peuvent tre associ s l l ment Ici nous utilisons l attribut number num ro Pour assurer la portabilit et la compatibilit d un document encod en SGML ou en XML on utilise des entit s pour repr senter les caract res sp ci
99. mantique semestriel de AlethDic Discussion LexiQuest a am lior le mod le et compl t les dictionnaires Ce mod le est utilis dans sa base lexicale universelle multilingue appel e LexiDict qui contient plus de 100 000 entr es dans deux ou trois langues avec 150 000 lexies par langue reli es 100 000 concepts interlingues Le mod le GENELEX a servi de r f rence dans de nombreux projets par la suite comme EAGLES et PA ROLE II est tr s complet et bien d taill grace la conception en objets Cependant il faut des sp cialistes pour travailler sur un tel dictionnaire car les informations sont clat es dans de multiples fichiers et car les interfaces suivent cette organisation en ouvrant autant de fen tres que de niveaux d information mor phologique syntaxique s mantique conceptuel 5 3 2 Essai de standardisation du contenu la TEI DEI 1 Pr sentation La TEI Text Encoding Initiative Ide95b Johnson95 est un projet international 1994 2000 qui a eu pour but de d velopper des directives pour la pr paration et l change de textes lectroniques Cette action tait soutenue par de nombreuses associations ainsi que par le gouvernement am ricain et la commission europ enne La TEI P3 propose des DTD pour un grand nombre de textes proses vers drames dialogues etc ainsi que les dictionnaires Cependant les experts de la TEI travaillant sur la partie dictionnaire ont conclu qu il n tait pas
100. manuscrit est en grande partie fond sur ses travaux sur la lexicologie explicative et combinatoire Je voudrais aussi remercier Fr d ric Andr s sp cialiste des bases de donn es multim dia pour avoir accept de participer mon jury et m avoir invit Tokyo pour y passer les deux prochaines ann es dans son laboratoire et me permettre ainsi de continuer mes recherches dans le cadre du projet Papillon Je pense aussi mes autres coll gues du GETA et de l quipe MLTT et plus g n ralement des laboratoires CLIPS et XRCE pour tous les bons moments pass s en leur compagnie Enfin je suis reconnaissant envers ma famille et mes amis pour avoir subi et accept les mauvais c t s de la vie du th sard surtout le stress intense et l indisponibilit mentale et pour m avoir patiemment r confort obek E53b BUMBED CEWELE Jobb egy ment tlet mint t ment egylet Table des mati res Table des mati res Introduction Situation et motivations Int r t de notre travail Organisation de la th se Probl mes particuliers int ressants A Contexte actuel de la dictionnairique Introduction 1 Notions du domaine 1 1 D finition des termes utilis s dans la th se 1 1 1 Introduction 1 1 2 La macrostructure des dictionnaires 1 1 3 La microstructure des dictionnaires 1 1 4 Le format des
101. mocratique utilisant un diteur du commerce comme pseudo diteur syntaxique 44 A Contexte actuel de la dictionnairique classique utilisant des diteurs syntaxiques de type SGML sp cialis e utilisant un vrai diteur syntaxique ad hoc cr pour le dictionnaire en question en ligne par des contributeurs travaillant directement sur le Web Nous allons maintenant analyser ces diff rentes m thodes pour d terminer leurs avantages et leurs in conv nients 4 1 Constructions directe et d mocratique exemple du FeM 4 1 1 Introduction La construction du dictionnaire FeM pr sent dans la section 1 2 1 a t en partie r alis e par le GETA Du fait de la difficult de trouver suffisamment de lexicographes comp tents en fran ais et malais le travail a d but sur la base d un dictionnaire fran ais anglais Les entr es fran ais anglais malais taient ensuite r vis es par un lexicographe exp riment Au d part la m thode de construction tait directe Les interfaces de r daction r cup ration et de manipulation du dictionnaire ont t programm es avec 4D un syst me commercial de bases de donn es mais des probl mes sont rapidement apparus Les informations stock es dans la base de donn es sont ver rouill es Il n est pas possible d avoir d inconsistance dans la base Or il est parfois n cessaire de passer par un tat interm diaire incoh rent comme par exemple
102. ne jamais liminer d information et de garder dans la mesure du possible la structure logique d origine si elle existe Pour faciliter la gestion de la base lexicale il faut d autre part garder la m ta information disponible et donner un label de qualit ainsi que des degr s de certification pour chaque ressource que l on int gre la base Production partir de ressources existantes Le lexicologue qui veut produire une nouvelle ressource partir de ressources existantes a besoin d outils pour concevoir la macrostructure et la microstructure de son dictionnaire Ces outils doivent lui permettre de d crire en partie les interfaces de r daction de ce nouveau dictionnaire Nous avons choisi le syst me PRODUCDIC Doan Nguyen96a Ce syst me d crit en partie A permet d effectuer des op rations ensemblistes union intersection soustraction sur des ensembles de dictionnaires pour sp cifier et r aliser des processus de production de fa on g n rique et efficace Ainsi PRODUCDIC permet gr ce aux op rations de fusion de cr er un squelette de dictionnaire de fa on ne pas partir de z ro lors de la construction d une nouvelle ressource Le squelette est ensuite r vis article par article Il permet aussi d extraire de la base des nouvelles ressources avec des formats sp cifiques Ces res sources sont alors export es selon les besoins des utilisateurs 1 1 3 Construction de nouvelles ressources Les lexi
103. nom commun f minin pluriel noun feminine plural gt lt enumeration value n f pl gt lt nom propre masculin proper name masculine gt lt enumeration value Pr m gt lt nom propre f minin proper name feminine gt lt enumeration value Pr f gt lt nom propre masculin pluriel proper name masculine plural gt lt enumeration value Pr m pl gt lt nom propre f minin proper name feminine plural gt lt enumeration value Pr f pl gt lt abr viation masculin abbreviation masculine gt lt enumeration value abr m gt lt abr viation f minin abbreviation feminine gt lt enumeration value abr f gt lt l verbe transitif transitive verb gt lt enumeration value v tr gt lt verbe intransitif intransitive verb gt lt enumeration value v intr gt lt verbe pronominal pronominal verb gt lt enumeration value v pr gt lt adjectif adjective gt lt enumeration value a gt lt adverbe adverb gt lt enumeration value adv gt lt d terminant gt lt enumeration value det gt conjonction gt lt enumeration value conj gt pronom gt lt enumeration value pron gt 274 Annexe B sch mas XML pour Papillon lt interjection gt lt enumeration value intj gt lt pr position gt lt enumeration value prep gt e locution gt
104. par to abridge par pard plain s20 widctlpar b f8 cf4 lang1036 memendekkan par meringkaskan FIG A 3 l article abr ger du FeM en format rtf source Ces deux articles sont quivalents Ils contiennent exactement les m mes informations L application 1 Notions du domaine 13 de conversion d un format l autre est bijective et sans perte d information Ces exemples montrent que les formats internes peuvent tre tr s diff rents et pourtant contenir les m mes informations Il est donc pr f rable de choisir comme format interne un format lisible par l humain Pr sentation du dictionnaire La figure A 4 montre un exemple de pr sentation du m me article tel que l utilisateur le voit abr ger entry abre je french_pron v tr french_cat un texte french_gloss to shorten english_equ to abridge english_equ memendekkan malay equ meringkaskan malay equ FIG A4 l article abr ger du FeM avec indication des styles Cette pr sentation est utilis e par les lexicographes lorsqu ils r digent les articles La pr sentation uti lis e dans le dictionnaire imprim diff re Cet exemple montre qu il est possible d associer diff rentes pr sentations au m me format interne 1 2 2 Un dictionnaire d usage monolingue le NODE Introduction Le New Oxford Dictionary of English Pearsall98 est un dictionnaire monolingue anglais Il a t publi par les pre
105. permettant annotation de documents Enfin nous avons test la consultation de ressources lexicales par une autre application Le bilan de ces exp riences nous a enfin permis d laborer un cahier des charges d un environnement de manipulation de construction et consultation de dictionnaires plus avanc et tenant compte de nos observa tions 70 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc 1 Exp riences sur la consultation en ligne Les laboratoires GETA et XRCE disposent de nombreuses ressources lexicales pour leurs exp riences De plus ils sont quip s de serveurs web accessibles par tous leurs membres Ces ressources sont riches et tr s vari es Elles sont stock es dans des formats h t rog nes Malheureusement ces formats de stockage sont illisibles directement par des humains C est pourquoi les conditions taient r unies pour exp rimenter des serveurs Web de dictionnaires usage humain 1 1 Consultation de m ta informations sur les ressources 1 1 1 Pr sentation de l outil Pour y voir plus clair dans les ressources lexicales nous avons d abord organis et standardis leur rangement dans des r pertoires puis nous avons mis en place DictList un outil de consultation de la m ta information dont nous disposions sur ces ressources Cet outil devait permettre de r pondre aux questions du type avons nous un dictionnaire fran ais russe Quelle e
106. plusieurs groupes d utilisateurs Par la suite nous avons d couvert des outils quivalents impl mentant les annotations que nous avons test l outil Third Voice et l annoteur de l diteur HTML Amaya 3 Nouvelles directions pour la consultation 95 3 3 2 L outil Third Voice Pr sentation ThirdVoice ThirdVoice est un outil disponible sur plate forme Windows Il permet d annoter des documents install s sur le web et de partager les annotations en constituant des groupes d utilisateurs La figure B 21 montre un exemple d annotation r alis e avec ThirdVoice sur la page web de paperbag com Ele Edt View Go Favoites Help Address E http fwww paperbag com ThidWoice x gt D eo amp View Filter Post Login Hep Paper Please by John Doe john url com DIAS I ve noticed that mary stores stil use plastic bags for their customers Unfortunately mary MEE of these plastic bags use fancy colors and C Grea Hea paint that make them non recyclable Hello paper please C World Paper Bag Expo Field Trip CH C Paper Please survey showed the amount of recycled paper in the classic Kraft paper bag has gone up 30 percent since the 1970 s CAE That s more than just a boon for our Torests and rivers from decreased log ging and pulp production it s a significant FIG B 21 l outil ThirdVoice d annotation de pages Web Discussion Cet outil est tr s s
107. pour le premier article de la fusion gt lt xsl template match fusion position 1 gt lt recopier le d but dans le r sultat gt Sxslicoby lt xsl copy of select dml headword gt lt xsl copy of select dml pronunciation gt lt stocker le mot vedett gt lt xsl variable name hwl select dml headword text gt xI recopier le d but dans le r sultat gt lt xsl for each select dml syntactic cat gt sl 3copy gt lt xsl copy of select dml pos gt lt xsl element name dml lexie gt lt xsl attribute name provenance gt lt on induique la provenance de la lexie gt lt xsl value of select provenance gt lt esliattribute gt lt xsl copy of select dml lexie gt lt xsl element gt 154 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires lt xsl variable name pos1 select dml pos text gt lt pour tous les articles suivants gt lt xsl for each select position gt 1 gt lt s ils ont le m me mot vedett gt lt xsl if test dml headword text hw1 gt lt xsl for each select dml syntactic cat gt lt s ils ont la m me cat gorie grammaticale gt lt xsl if test dml pos text pos1 gt lt on recopie la lexie dans le r sultat gt lt xsl element name dml lexie gt lt xsl attribute name provenance gt lt en indiquant sa prov
108. r ciprocit La base lexicale est amen e changer des donn es avec d autres programmes partenaires Nous avons d couvert la possibilit d une dualit avec ces programmes partenaires qui peuvent tre la fois clients et fournisseurs d information Par exemple un partenaire lemmatiseur du fran ais est client de la base pour tous les mots inconnus et les nouveaux mots qu il ne sait pas traiter Lorsqu il essaye de lemmatiser un mot inconnu il peut se connecter la base pour trouver des informations sur ce mot Il peut aussi interroger p riodiquement la base en se connectant automatiquement pour collecter les nouveaux mots fran ais qui ont t int gr s Il actualisera ses propres dictionnaires automatiquement partir de ces informations Nous nous proposons vu son int r t de rendre cette dualit possible dans tous les cas m me dans ceux qui ne sont pas utiles a priori De son c t la base lexicale peut faire appel aux services du lemmatiseur lors du pr traitement d une requ te de consultation de la part d un utilisateur Les mots vedettes des articles sont en g n ral les lemmes des mots d une langue Par exemple mangeons est le verbe manger la premi re personne du pluriel Le mot vedette correspondant sera donc l infinitif du verbe manger Les utilisateurs voulant faire du d chiffrage de texte et ne ma trisant pas forc ment la langue ont besoin d un lemmatiseur pour trouver les lemmes 156 C Sp c
109. r cup ration objet LISP lexicaux Il est aussi tr s facile de transformer cet article en un autre format exprimant une structure explicite comme XML par exemple 3 2 Un outil de manipulation de dictionnaires PRODUCDIC 3 2 1 Pr sentation Lorsque les dictionnaires sont r cup r s de leur format d origine vers une structure plus profonde il faut maintenant un outil qui permet de composer de nouveaux dictionnaires partir du r sultat de la r cup ration PRODUCDIC permet d accomplir cette tape Cet outil ensembliste du type langage de pro grammation est construit partir de fonctions LISP qui permettent des manipulations sur les structures profondes r cup r es Il permet 7 types d op rations sur les dictionnaires 1 S lection La s lection d un sous ensemble B des l ments de l ensemble A qui satisfont un pr dicat P peut tre impl ment e comme suit B NIL for all a in A do if P a then add a B 2 Extraction L op ration g n rale de cr ation d un objet partir d une donn e a quelconque s crit create obj class from a assign list slot1 1 slot2 2 Cette op ration cr e un objet x de la classe class et affecte les valeurs f1 a f2 a etc aux slots slotl slot2 etc 3 Regroupement regroup by partition set partition by func unite into class assign list list Cette op ration partitionne set avec func et transforme chaque sous ensemble en un objet de cl
110. ref name Mutsuko Tomokiyo gt lt group gt lt group name administrators gt lt user ref name Mathieu Mangeot gt lt group gt lt groups gt lt dictionaries gt lt dict ref name FeM href FeM xml gt lt dict ref name Papillon href papillon xml1 gt lt dictionaries gt lt database gt Description d un dictionnaire Pour d crire un dictionnaire nous reprenons du langage LEXARD les fonctions define monolingual dictionary define bilingual dictionary et define interlingual dictionary avec l l ment lt dictionary gt La description formelle de cet l ment est contenue dans le sch ma XML dml en annexe de ce document Elle est r f renc e par l attribut xsi schemaLocat ion Les modifications de l l ment lt dictionary gt et de ses descendants sont stock es dans le document point par l attributhistory ref La m ta information sur la ressource est ajout e Les l ments lt category gt lt type gt et lt links gt d crivent la macrostructure du dictionnaire L l ment lt category gt indique le type du dictionnaire Nous distinguons quatre types de dictionnaires monolingue bilingue multilingue et interlingue L l ment lt t ype gt indique si les dictionnaires sont uni directionnels bidirectionnels ou pivot L l ment lt 1inks gt indique les liens entre les lexiques qui com posent le dictionnaire Par exemple si un dictionnaire est structure pivot avec trois l
111. ressources existantes Ce niveau correspond aux structures XML DML d finies plus haut niveau clients ce niveau est en charge de l interaction avec les clients Le client r dige ses requ tes et sp cifie ses pr f rences de pr sentation Cette pr sentation n est pas n cessairement proche de la structure interne utilis e Il est possible d avoir plusieurs vues diff rentes d un m me objet linguis tique Le fonctionnement de cette architecture est bas sur l aller retour entre les diff rents niveaux Une requ te sera formul e par un client puis traduite en une structure XML du niveau interne Cette struc ture sera elle m me traduite en une requ te de fournisseur Le r sultat sera transform en un ensemble de structures XML du niveau interne qui sera visualis selon les pr f rences du client Le niveau interne est une plate forme d change entre clients et fournisseurs Les clients et les four nisseurs communiquent avec la base lexicale par l interm diaire d APIs Toutes les API sont d finies sous forme de documents XML La description formelle des l ments XML est r alis e dans le sch ma XML dml en annexe A de ce document 3 Paradigme de construction coop rative 147 Ressource Ressource Ressource Action NS Se 7 API pr traitement API consultation API modification API action associ e S
112. riques des modifications de tous les articles contenus dans les volumes La description formelle de l l ment lt volume gt est r alis e par le sch ma Papillon en annexe B Voici la description en LEXARD du volume du fran ais define volume French comment Volume du francais source language French articles composant le volume Voici le document XML correspondant lt volume xsi schemaLocation http www clips imag fr geta services dml http www clips imag fr geta services dml papillon fra xsd history ref French his xml name French source language fra gt 4 1 3 Microstructure des dictionnaires Article monolingue une lexie Les articles monolingues sont repr sent s par les l ments lt 1exie gt Leur structure est une adaptation en XML des lexies dans la structure dictionnairique DiCo Polgu re00 d finie par Alain Polgu re La d finition formelle de la partie commune toutes les langues des lexies est repr sent e par le sch ma XML Papillon en annexe B Chaque lexie contient un identificateur unique dans la base port par l attribut id Cet attribut est du type DML ID Il est construit en concat nant le mot vedette de la lexie avec un num ro Si la lexie est d truite l identificateur n est pas r affect Il est interne la base et cach aux utilisateurs L attribut basic indique si la lexie est l unit lexicale de base du vocable Cet attribut est du type
113. s minaire Papillon a eu lieu au NII Tokyo Il a port sur des discussions autour de la structure et du contenu de la base lexicale et des d cisions sur les aspects techniques li s au d veloppement de la base Le s minaire Papillon 2001 a eu lieu en juillet Grenoble Les participants ont d cid d adapter l orga nisation du W3C au projet Papillon en lisant un comit directeur de 8 12 membres et en d finissant des t ches avec pour chacune un groupe de coordination un groupe de travail et un comit consultatif Un aspect novateur et essentiel du projet est que la construction du contenu se fera sur la base d informa tions libres de droits produites par des chercheurs FeM JMDict Saikam ou par des internautes b n voles 1 Pr sentation du projet Papillon 173 coop rant travers Internet Sur le serveur Papillon chaque contributeur pourra voir la base active et aura son espace de contribution priv Seul un petit groupe d experts aura les droits n cessaires pour int grer les contributions dans la base active apr s validation et correction Les donn es produites seront disponibles publiquement selon les termes d une licence de logiciel libre Open Source Cela signifie que les donn es ne peuvent tre r utilis es qu des fins non commerciales Les enjeux scientifiques de cette recherche sont d ordre conceptuel technique et ergonomique Il s agit d articuler des macrostructures structures
114. tag the semantic actant of a formula gt lt element name sem actant type string gt lt sem variabl lement a lt semantic variable comes from the meaning text theory Used to tag the semantic variable of a formula gt lt element name sem variable type string gt lt synt actant element gt lt syntactic actant comes from the meaning text theory Used to tag the syntactic actant of a formula gt lt element name synt actant type string gt lt actor element gt lt l comes from the meaning text theory Used to tag the actors of the semantic formula and the government pattern gt lt element name actor gt lt complexType mixed true gt lt choice minOccurs 0 maxOccurs unbounded gt lt element ref d sem label gt lt element ref d sem actant gt lt element ref d sem variable gt lt element ref d synt actant gt lt element ref d surface group gt lt choice gt lt complexType gt lt element gt lt l surface group element gt lt comes from the meaning text theory Used to tag the syntactic actant of a formula gt lt element name surface group gt lt complexType mixed true gt lt sequence minOccurs 1 maxOccurs unbounded gt lt element ref d surface gt lt sequence gt lt complexType gt lt element gt lt surface element gt lt comes from the meaning text theory Used to tag t
115. type DateS Date 2000 08 16 11 47 09 04 dat edited Version Please type Revision Revision 1 3 lt admin intro gt headword block gt headword gt fier bras lt headword gram catblock gt gram ind gt m lt gram ind lt gram cat block noun info block gt irreg plural gt plural gt pl fiers bras Gtia pura gt p fier bras EN RO2 PL24 GL74 GR Aien pural lt noun info block lt headword lock lt intro sense gt 1 usage block gt geographic gt CD lt geographic usage block senseindication gt forme costaud intimidant FIG A 35 r daction d un article du DCB avec WordPerfect exemples d usage De plus apr s chaque r vision le lexicographe responsable de l article modifie en fonc tion des changements propos s la version informatis e de l article Toutes les versions d un article sont sauvegard es dans une base de donn es lexicographiques ce qui permet un r viseur d examiner les chan gements d j apport s par les autres r viseurs 4 3 Construction sp cialis e pour des dictionnaires de traduction automa tique 4 3 1 Introduction Le logiciel ATLAS Bachut84a 84b con u par Daniel Bachut permet d introduire des mots nouveaux et les codes associ s dans un dictionnaire de TA Il g re des manuels d indexage pour linguistes Son code a t crit en Pascal et il a t compil sur un syst me VM ESA d IBM Le
116. ur1 gt contient l attribut x1ink href indiquant l URI Uniform Re source Identifier du fournisseur Cette URI doit tre conforme rfc request for comment 2396 de l IETF Internet Engineering Task Force RFC2396 Les URIs sont du type http ftp mailto telnet etc L l ment lt protocol gt d crit le protocole utilis pour la communication Les protocoles sont in diqu s avec l attribut type Ils peuvent tre du type post ou get pour les CGIs telnet DICT etc Les attributs login et password indiquent les login et mot de passe qu il faut utiliser pour se connecter au fournisseur L l ment lt delay gt renseigne sur le d lai de connexion au fournisseur L attribut min indique le d lai minimum max indique le d lai maximum et timeout indique le temps au dela duquel la connexion est interrompue automatiquement L l ment lt encoding gt indique les encodages utilis s L attribut input indique l encodage en entr e l attribut output indique l encodage en sortie Les valeurs des attributs sont du type DML encodingType L l ment lt format gt indique les formats utilis s L attribut input indique le format en entr e l attribut output indique le format en sortie Cela peut tre par exemple texte HTML XML rtf etc Pour la recherche l l ment lt argument s gt d crit les arguments de API fournir par la base lexicale en suivant la syntaxe des sch mas XML Les arguments doivent tre
117. use optional gt ame version type string use optional gt ionary lt choice minOccurs 0 maxOccurs unbounded gt lt element ref d source language gt lt element ref d target language gt lt choice gt lt complexType gt lt element gt lt element source language gt 2 Sch ma XML de DML 245 lt l source language present in a dictionary gt lt element name source language gt lt complexType gt lt attribute ref d lang gt lt complexType gt lt element gt lt element target language gt lt l target language present in a dictionary gt lt element name target language gt lt complexType gt lt attribute ref d lang gt lt complexType gt lt element gt lt lt type categoryType gt lt macrostructure of a dictionary gt lt simpleType name categoryType gt lt restriction base string gt lt enumeration value monolingual gt lt enumeration value bilingual gt lt enumeration value multilingual gt lt restriction gt lt simpleType gt lt type dictType gt lt macrostructure type of a multilingual dictionary gt lt simpleType name dictType gt lt restriction base string gt lt enumeration value monodirectional gt lt enumeration value bidirectional gt lt enumeration value pivot gt lt enumeration value mixed gt lt restriction gt lt simpleT
118. verb lt ps gt lt gg gt with lt sy gt obj lt sy gt lt gg gt lt fg gt usu lt f gt be abbreviated lt f gt lt fg gt lt df gt shorten a word phrase or text lt df gt lt ex gt the business of artists and repertoire commonly abbreviated to A amp amp R lt ex gt amp ex lt eg gt lt gg gt as lt sy gt adj lt sy gt lt gg gt lt fg gt lt f gt abbreviated lt f gt lt fg gt lt ex gt this book is an abbreviated version of the earlier work lt ex gt lt eg gt lt s1 gt lt etym gt lt d gt lt la gt late Middle English lt la gt lt d gt from lt la gt late Latin lt la gt lt ff gt abbreviat lt ff gt lt tr gt shortened lt tr gt from the verb lt ff gt abbreviare lt ff gt from lt la gt Latin lt la gt lt ff gt brevis lt ff gt lt tr gt short lt tr gt lt etym gt lt se gt FIG AS l article abbreviate du NODE en format original SGML 1 2 3 Un dictionnaire d usage bilingue le DHO Introduction Le dictionnaire Hachette Oxford Corr ard94 est un dictionnaire bilingue anglais fran ais usage hu main Il a t publi conjointement par Hachette et les presses universitaires d Oxford OUP en 1994 C est un dictionnaire bilingue bidirectionnel Sa macrostructure consiste en deux volumes Le volume fran ais gt anglais comporte environ 39 000 articles et le volume anglais gt fran ais environ 48 000 articles 1 Notions du domaine 15 abbreviate o bri viel verb w
119. xsi schemaLocation http clips imag fr geta services dml http clips imag fr geta services dml dml xsd history ref http clips imag fr geta services dml papillon his xml category multilingual creation date 21 1 97 00 00 00 encoding ISO 8859 1 format rtf hw number 192460 installation date 23 06 99 15 04 00 fullname dictionnaire fran ais anglais malais name FeM owner GETA type unidirectional version 1 gt lt languages gt lt source language lang fra gt lt target language lang eng gt lt target language lang msa gt lt languages gt lt contents gt general vocabulary in 3 languages lt contents gt lt domain gt general lt domain gt lt bytes gt 9106261 lt bytes gt lt source gt ML YG PL Puteri Kiki CB MA Kim lt source gt lt legal gt all rights belong to ass Champollion lt legal gt lt comments gt French English Malay dictionary lt comments gt lt cdm elements gt lt headword delay 1s gt lt pronunciation delay 5s gt 138 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires lt part of speech delay 5s gt lt translation lang eng delay 5s gt lt translation lang msa delay 5s gt lt corpus delay 10s gt lt cdm elements gt lt administrators gt lt user ref name Kim ML gt lt administrators gt lt volumes gt lt volume ref name FeM href fem_fr_en ms xm
120. 22 description d annotations Amaya dans le format XML 96 B 23 document XML repr sentant une annotation 97 B 24 exemple de document annot avec Amaya 98 B 25 utilisation d un conjugueur dans DicoSz t r 100 B 26 r sultat du congue 244 ke ne te a a UE D A Gr mu fa ge D dar 100 B 27 fichier de plug in pour l application Sherlock 102 B 28 article essai du FeM dans l application Sherlock 103 C 1 processus de gestion des contributions 116 C2 description de dictionnaires avec LEXARD 123 C 3 description d une base lexicale avec LEXARD 123 C4 description d une base lexicale avec LEXARD tendu 124 C 5 description du dictionnaire FEM avec LEXARD tendu 124 C 6 description du volume du FeM avec LEXARD tendu 124 C 7 description d une unit lexicale avec LINGARD 125 C 8 description d un r gime du DEC avec LINGARD 125 C 9 microstructure du dictionnaire French 126 Table des figures xi C 10 microstructure du dictionnairePivot 127 C 11 exemple de r gle de coh rence en SUBLIM 127 C 12 exemple d utilisation de l espace de noms DML
121. 35 et 36 la en colonne 45 la ou en colonne 54 et en colonnes 63 64 affixes ou 79 80 base ou tournures Suit ventuellement un commentaire Ainsi aucun d limiteur n est n cessaire On acc de aux dictionnaires par les morphes ou les tournures Le langage TRANSF permet d crire des dictionnaires bilingues pour la traduction Un article est ca ract ris par un nom d unit lexicale source not entre deux apostrophes un s parateur et une liste de 1 Notions du domaine 21 triplets contenant chacun une condition expression de condition propre ou appel une proc dure de conditions une arborescence image du n ud en cours une partie affectation comprenant pour chaque sommet de l arborescence image le nom du sommet le symbole le nom d unit lexicale cible affect ce sommet suivi ventuellement d une liste d affectations de valeurs de variables cibles qui peut comporter un nom de format pr fix ou des expressions d affectation La figure A 14 donne un exemple tir du dictionnaire de traduction russe frangais OBRATITOSYA PG E 5K ADRESSER VMB2 TRAITER UMB1 SACC SNRF TRANSFORMER VBF1 FIG A 14 article du dictionnaire de traduction russe gt fran ais Ce dictionnaire de traduction automatique a t simplifi semi automatiquement pour obtenir le dic tionnaire RUSFRA Boitet82c Nedobejkine94 du GETA Les acc
122. 5 1 1 Exemple d article apr s r cup ration Le dictionnaire FeM FeM a t r cup r du format original au format LISPO selon la m thode R CUPDIC par Hai Doan Nguyen durant sa th se Doan Nguyen98a Nous avons converti le r sultat du format LISPO vers XML avec le programme lisp donn en partie C Voici un extrait de l article abandonner apr s cette conversion lt HFEM gt lt FRE gt abandonner lt FRE gt lt PRNC gt aban done lt PRNC gt lt BODY lispo BODY1 gt lt SENSE lispo LIST gt lt SENSE gt lt CAT lispo LIST gt v tr lt CAT gt lt SENSE1 lispo LIST gt lt SENSE1 gt lt SENSE1 lispo LIST gt lt SENSE1 gt lt GLOSS gt renoncer a lt GLOSS gt lt TRANS lispo LIST gt lt TRANS gt lt ENG lispo LIST gt to give up lt ENG gt lt ENG lispo LIST gt to abandon lt ENG gt lt TRANS gt lt TRANS gt lt EXPL lispo LIST gt lt EXPL gt lt FRE gt il a abandonn son projet lt FRE gt lt ENG gt he had gave up his project lt ENG gt lt EXPL gt lt EXPL gt lt SENSE1 gt lt SENSE1 gt lt SENSE lispo LIST gt lt SENSE1 gt lt SENSE1 lispo LIST gt lt SENSE1 gt lt SENSE gt lt SENSE gt 5 valuations pr liminaires et exemples 205 lt BODY gt lt HFEM gt Cet article est r parti automatiquement en lexies et axies qui sont ensuite int gr es dans la base lexicale voir figure D 12 La
123. 6 Zajac97 a Project of Lexical Database for English French and Japanese using Interlingual Links Journ es des Sciences et Techniques de l ambassade de France au Japon Tokyo 12 novembre 2000 3 p UNL 1996 Universal Networking Language UNL center Institute of Advanced Studies The United Nations University 1996 74 p UNL 1997 DeConverter Specification UNL center Institute of Advanced Studies The Uni ted Nations University Tokyo Japan April 1 1997 UNL TR1997 010 Version 1 0 25 p Jean V ronis amp Nancy Ide 1990 Word Sense Disambiguation with Very Large Neural Net works extracted from Machine Readable Dictionaries In Proceedings of 13rd International Conference of Computational Linguistics ICCL COLING 90 Helsinki Finlande 19 25 ao t 1990 vol 2 pp 389 394 Fabio Vitali 2000 The XMLC Browser ERCIM News n 41 avril 2000 URL http www cs unibo it projects Piek Vossen 1997 EuroWordNet a Multilingual Database for Information Retrieval Proc DELOS Workshop on Cross Language Information Retrieval Zurich mars 1997 Larry Wall amp Randal L Schwartz 1991 Programming PERL O Reilly and Associates Yorick Wilks Brian M Slator amp Louise M Gutrie 1996 Electric Words Dictionaries Com puters and Meaning The MIT Press 290 p R mi Zajac M Casper amp N Sharples 1997 An Open Distributed Architecture for Reuse and Integration of Heterogeneous NLP Components Proc ANLP
124. 8 Annexe B sch mas XML pour Papillon lt 7PL9 gt kaijObjects for the stories of a building gt lt enumeration value f gt lt ko Used for a broad category of small and compact objects including round fruit balls boxes etc gt lt enumeration value al gt lt 9D gt satsu Objects for bound objects such a books notebooks Magazines etc gt lt enumeration value fi gt lt 1 2 5 soku Objects for pairs of shoes socks stockings etc gt lt enumeration value 2 gt lt gt dai Objects for vehicles machines and things such as bicycles and televion sets gt lt enumeration value gt lt 9 t Objects for letters and documents gt lt enumeration value 38 gt lt Uhlbo gt hailObjects for liquide in cups glasses bowls buckets etc gt lt enumeration value f gt lt lEA hon Objects for long cylindrical objects including trees sticks pens bananas fingers etc gt lt enumeration value gt lt gt mailObjects for flat thin objects including paper dishes stamps blakets boards etc gt lt enumeration value 4 gt lt R yen Currency gt lt enumeration value f gt lt cent Currency gt lt enumeration value Y gt lt German mark Currency gt lt enumeration value N4 YI M4 gt lt dollar Currency gt lt enumeration value
125. 85 Chaque cellule du SGBD du type balise contient un fragment du fichier total XML compris entre lt balise gt et lt balise gt En ce qui concerne les attributs li s lt balise gt ils sont stock s dans un autre champ de la m me table du SGBD Ce champ porte le nom de l attribut On peut ensuite recr er le fichier total XML a tout moment La microstructure des dictionnaires du projet est d crite par des sch mas XML sp cifiques Ces sch mas red finissent l l ment lt article gt du sch ma DML Ils utilisent les l ments et les types d finis dans le sch ma DML Par exemple on doit red finir la liste des cat gories morphosyntaxiques pour chaque langue le tha n a pas d adjectifs le lao a cette cat gorie le japonais en distingue plusieurs etc Le sch ma sp cifique au fran ais red finit pour cet exemple le type des cat gories posType lt redefine schemaLocation papillon xsd gt lt simpleType name posType gt lt restriction base dml posType gt lt enumeration value adj gt lt enumeration value adv gt lt enumeration value nom gt lt enumeration value verbe pron gt lt restriction gt lt simpleType gt lt redefine gt 3 2 2 Principe de poids sur les l ments La base lexicale compl te peut tre vue comme un seul ensemble pond r Cela permet d impl menter des syst mes de dictionnaires neuronaux utilisables pour la d sambiguisation lexicale en contexte Do
126. 97 7 p Zampolli91 Antonio Zampolli 1991 Linguistic Tools for Multifunctional Applications in Natural Lan Zock01 guage Processing International Symposium for Chinese Information Processing Application ISCIPA 91 Beijing 1991 pp 4 21 Michael Zock amp Jean Pierre Fournier 2001 Proposal for a customizable psycholinguistically motivated dictionary to enhance word access Proc 7th Symposium on Social Communica tion janvier 2001 Santiago de Cuba Cuba 4 p para tre Signets 227 Signets Alliance Web AllianceWeb dition coop rative sur le web Amaya http www inrialpes fr opera Alliance html Amaya diteur navigateur HTML http www w3 org Amaya ArbresHyperboliques Arbres hyperboliques CSS MLTT DHYDRO DicoWeb DicoPro DicoSzotar DicoFeJ DICT http www inxight com products_wb ht_server CSS 2 Cascading StyleSheet Language level 2 Recommandation du W3C http www w3 org TR REC CSS2 D mos linguistiques MLTT http www xrce xerox com research mltt toolhome DHYDRO Dictionnaire Hydrographique Multilingue Normalis Projet MLIS http www loria ft projets MLIS DH YDRO DicoWeb consultation de dictionnaires http www clips imag fr geta services dicoweb DicoPro Projet MLIS http issco www unige ch projects dicopro_public DicoSz t r dictionnaire pour apprenants du hongrois http www clips imag fr geta services dicoszotar DicoFe
127. 989 6 p Calzolari88 Nicoletta Calzolari amp Eugenio Picchi 1988 Acquisition of Semantic Information from an On line Dictionary Proc COLING 88 Budapest 22 27 August 1988 D V rgha ed pp 87 92 Calzolari94 Nicoletta Calzolari Eugenio Picchi 1994 A Lexical Workstation From Textual Data to Structured Database Computational Approaches to the Lexicon Atkins B T Sue amp Zam polli Antonio ed Oxford University Press 480 p Church94 K W Church 1994 Unix TM for Poets Proc ELSNET European Summer School Utrecht Pays Bas 53 p Connoly97 Dan Connolly 1997 XML Principles Tools and Techniques World Wide Web Journal Vo lume 2 Issue 4 Fall 1997 O REILLY amp Associates 250 p Correard94 Marie H l ne Corr ard amp Val rie Grundy 1994 Le dictionnaire Hachette Oxford Oxford University Press amp Hachette 1950 p Correard99 Marie H l ne Corr ard amp Mathieu Mangeot Lerebours 1999 XML A Solution For LDBs Eds and MRDs Proc COMPLEX 99 P cs Hongrie vol 1 1 6 p Coutaz88 Jo lle Coutaz 1988 Interface Homme ordinateur Conception et R alisation Th se d tat Universit Joseph Fourier 402 p 220 Bibliographie Cunningham96 H Cunningham R J Gaizauskas amp Yorick Wilks 1996 GATE A General Architecture for Text Engineering ILASH amp DCS University of Sheffield Royaume Uni d cembre 95 53 p Cunningham97 H Cunningham et al 1997 Interface Homm
128. A 46 exemple d article encod avec les balises de la TEI 3 Discussion La TEI a rencontr des difficult s dans le codage des dictionnaires car il semble tr s difficile d impo ser une norme Chaque dictionnaire a une structure propre et il n est pas possible de repr senter tous les dictionnaires avec la m me structure aussi complexe soit elle Cependant le travail de la TEI sur les dictionnaires est int ressant double titre D une part la TEI a t labor e avec de nombreux diteurs Cela a au moins permis d unifier la d nomination des l ments SGML D autre part m me si les structures des dictionnaires sont diff rentes il est possible de s entendre sur leur contenu au niveau s mantique Par exemple on peut d finir pr cis ment ce qu est un mot vedette une cat gorie grammaticale une traduction un exemple une tymologie etc L ensemble des balises d finies par la TEI sert alors de r f rence pour les d finitions s mantiques des objets qu ils repr sentent 6 Exemples de projets r cents bas s sur XML 61 6 Exemples de projets r cents bas s sur XML Pour illustrer ce qui pr c de nous pr sentons ici deux projets en lexicographie et terminologie qui utilisent XML pour repr senter les donn es Il s agit de projets tr s r cents Lorsque nous avons commenc notre travail de th se leurs conclusions n taient pas disponibles Ce qui fait que nous n avons pas pu les utiliser pour
129. Dans la fen tre de r sultat les traductions anglaises sont en bleu Elles n ont pas la m me couleur que le texte fran ais et se distinguent donc plus facilement 2 1 2 Une application plus riche Oxford Superlex Introduction L application Oxford Superlex permet de consulter les dictionnaires publi s par les presses universitaires d Oxford OUP Les dictionnaires disponibles sont des versions lectroniques des dictionnaires imprim s Le contenu n est pas modifi Aucune information n est rajout e L application apporte simplement une facilit de recherche des mots L application est ind pendante des dictionnaires L utilisateur peut ajouter un dictionnaire dans appli cation tout moment Dans notre exemple nous avons trois dictionnaires disponibles le Oxford Hachette anglais fran ais le Oxford Duden anglais allemand et un anglais espagnol Par contre les dictionnaires ne sont pas consultables en m me temps Il faut s lectionner un dictionnaire avant de faire des recherches Cette application est disponible sur PC et sur Macintosh Nous pouvons voir d ailleurs qu aucun travail n a t fait pour la version Macintosh En effet les caract res ne sont pas cod s de la m me mani re sur les deux plates formes Il faut donc recoder les accents des dictionnaires Dans l exemple les accents n ont pas t recod s ce qui g n re des probl mes l affichage Au lieu de lire on lit E etc Interfac
130. EXARD et LINGARD 2 1 1 Architecture lexicale du syst me Le langage LEXARD permet l utilisateur de d finir la macrostructure de sa base en sp cifiant l en semble des dictionnaires de la base et leur type monolingue bilingue interlingue Dans l exemple suivant nous d crivons une architecture lexicale inspir e du projet EDR EDR93 bas e la fois sur une approche bilingue et sur une approche interlingue La base lexicale voir figure C 3 comprend deux dictionnaires monolingues anglais et japonais reli s la fois par deux dictionnaires bilingues unidirectionnels et par un dictionnaire interlingue voir figure C 2 Description des dictionnaires On peut d finir en LEXARD des dictionnaires monolingues bilingues unidirectionnels bilingues bidi rectionnels ou interlingues La figure C 2 montre des exemples de d finition de dictionnaires Description de la base lexicale On peut d finir en LEXARD une base lexicale bas e sur une approche par transfert ou sur une approche par pivot avec ou sans le contr le d un administrateur de la base localement ou par des pigistes travaillant chez eux etc La figure C 3 montre un exemple de d finition d une base lexicale Critiques L aspect de la gestion de diff rents utilisateurs avec des droits sp cifiques pour chacun ainsi que la pos sibilit de cr er des groupes d utilisateurs n ont pas t abord s dans LEXARD II faut ajouter la possibilit 2 D finiti
131. Fen tre Q Y P ier Edition Affichage Ins lamour Y calais AMOU R FE Prononciation n m Sr Cat g orie cau AZ Equivalent anglais se AO Equivalents malais pour l amour de a Equivalent thai for the sake of A demi cinta 4 demi kesayangan 4 lt thai_phrase_equ gt 4 faire l amour avec qq un make love bercumbu cumbuan 4 berasmara 4 lt thai_phrase_equ gt 4 nf pl A de belles amours F fo08t Fl wonderful love 4 percintaan yg mengasyikkan lt thai_phrase_equ gt 4 y Page 1 Sec 1 1 2 AtSem Lit Colt 21 05 Enk Rev ext Rre gt FIG B 12 fichier d dition du dictionnaire fran ais anglais tha Les outils d aide a Pindexage Pendant l indexage le lexicographe peut consulter ses propres donn es dictionnaires papier autres dic tionnaires lectroniques et fichiers d dition d j compl t s Il est libre d utiliser d autres outils d analyse de corpus ou d tiquetage de sens qui peuvent l aider a indexer ses termes Lorsque le lexicographe a fini de remplir un champ il appelle la macro style suivant voir figure B 13 soit par un bouton dans la barre d outils soit par un menu soit encore par un quivalent clavier Il s lectionne dans la liste des styles suivants autoris s celui dont il a besoin et la macro change le style automatiquement Gr ce la macro liste valeurs voir figure B 14 le lexicographe o
132. GML Administrateur i Lexicologue TXT ae HTML i 1 i API m ta info API consultation API microstructure API pr sentation API modification Lecteur Contributeur Lexicographe Articles a E Articles FIG C 20 sch ma g n ral de l environnement et ses API Les API destin es aux clients sont disponibles sur le serveur de la base La personne qui souhaite d velopper une application cliente de la base doit respecter les API d finies Les API destin es aux fournis seurs sont aussi disponibles sur le serveur de la base Lorsque l administrateur de la base ajoute un nouveau fournisseur il renseigne tous les l ments de API correspondant au type de service propos par le fournis seur Lorsque la base lexicale a besoin d un service elle lit le fichier o est d crite 1 API du fournisseur et s y connecte ensuite automatiquement 3 1 2 Description des utilisateurs L l ment lt user gt regroupe les informations disponibles pour chaque utilisateur Cet l ment repr sente l espace virtuel de l utilisateur Nous d crivons pour chaque utilisateur un certain nombre d informations son nom avec l attribut name son login avec l l ment lt login gt son mot de passe avec l l ment lt password gt son adresse lectronique avec l l ment lt email gt ses diff rents profils avec l l ment lt profiles gt on distingue pour l
133. J dictionnaire fran ais anglais japonais http www clips imag fr geta services dicofej DICT Development Group http www dict org dictionary com Dictionary com dictionnaires en ligne DCB http www dictionary com Dictionnaire Canadien Bilingue Projet de lexicographie compar e du francais et de l anglais au Canada http balzac sti uottawa ca 228 DUF DOM DSSSL EDICT ELRA Enhydra Bibliographie Dictionnaire Universel Francophone d velopp par Hachette et 1 AUPELF UREF http www francophonie hachette livre fr DOM Document Object Model Recommandation du W3C http w3 org DOM DSSSL Document StyleSheet Specification Language Standard ISO IEC 10179 http www jclark com dsssl EDICT dictionnaire japonais anglais de Jim Breen http www csse monash edu au wb wwwjdicinf html ELRA European Language Ressource Association http www icp inpg fr ELRA Enhydra Serveur Web dynamique java http www enhydra org EURODICAUTOM EURODICAUTOM Multilingual terminological database of the European Commis FeM sion s Translation Service http eurodic ip lu FeM dictionnaire frangais anglais malais http www clips imag fr geta services fem GENETER GENETER modele GENErique pour la TERminologie Hachette HTML http www uhb fr Langues Craie balneo demo_geneter pl langue 1 Hachette dictionnaire Hachette francophone en ligne http www clips imag f
134. KAM de dictionnaire japonais tha d un c t et entre le GETA et d autres partenaires tha sur la construction d un dictionnaire fran ais tha de l autre ont amen le NECTEC et Kasetsart university coop rer au projet Papillon Nous avons donc rajout le tha aux langues de d part Enfin la proximit du tha et du lao d une part et les travaux de Vincent Berment du GETA sur le lao d autre part nous ont amen s rajouter le lao Pour l instant il y a six langues dans le projet Papillon l anglais le fran ais le japonais le lao le tha et le vietnamien Le malais devrait tre rajout br ve ch ance moyen terme le projet devrait s largir au cor en et au chinois Les partenaires ne parlant pas tous la m me langue la langue de travail sera l anglais Les documentations seront crites au moins en anglais pour tre compr hensibles du plus grand nombre C est pourquoi nos commentaires dans les sch mas XML en annexe sont r dig s en anglais 2 1 2 Utilisateurs vis s Au d but les utilisateurs vis s sont ceux susceptibles d enrichir rapidement et efficacement la base lexicale Les traducteurs fran ais japonais fran ais tha et tha japonais sont les premiers concern s Ceux ci ont d ailleurs souvent leurs propres lexiques personnels qu ils pourront mettre en commun et int grer dans la base lexicale Les contributeurs du projet SAIKAM et en particulier l ATPIJ Association of Th
135. LT lang en gt lt martifHeader gt lt fileDesc gt lt sourcebesc gt lt p gt from an Oracle corporation termBase lt p gt lt sourceDesc gt lt fileDesc gt lt encodingDesc gt lt p type DCSName gt DXLTdV04 lt p gt lt encodingDesc gt lt martifHeader gt lt text gt lt body gt lt termEntry id ID67 gt lt descrip type subjectField gt manufacturing lt descrip gt lt descrip type definition gt A value between 0 and 1 lt descrip gt lt langSet lang en gt lt tig gt lt term gt alpha smoothing factor lt term gt lt termNote type termType gt fullForm lt termNote gt lt tig gt lt langSet gt lt langSet lang hu gt lt tig gt lt term gt Alfa simitisi t nyez lt term gt lt ft19 gt lt langSet gt lt termEntry gt lt body gt lt text gt E Martit gt FIG A 47 document XLT Ce document est conforme la sp cification noyau de la structure XSLT appel e XLTcdV04 L l ment lt martifHeader gt repr sente la m ta information sur l entr e Par exemple cette entr e provient d une 64 A Contexte actuel de la dictionnairique base terminologique d Oracle Corporation L l ment lt termEntry gt repr sente une entr e de base terminologique L attribut ID sert d identifi cateur unique dans tout le document lt descrip type subjectField gt permet d indiquer le do maine du terme et lt descrip type definition gt une d finitio
136. Le traitement de l article du FeM a g n r automatiquement cinq lexies anglaises correspondant aux cing traductions anglaises se trouvant dans l article Voici par exemple la lexie anglaise to abandon 1 reli e la lexie fran aise pr c dente par l interm diaire de l axie a42 lt lexie id to abandon 1 basic yes gt lt headword gt to abandon lt headword gt lt fem data gt lt gloss gt renoncer a lt gloss gt lt fem data gt lt axies gt lt refaxie href a42 gt lt axies gt lt lexie gt 5 1 4 Axies provenant du m me article Le traitement de l article du FeM a g n r automatiquement cinq axies reliant chacune une lexie fran aise et une lexie anglaise Voici en exemple l axie a5 reliant les deux lexies pr d centes lt axie id a42 gt lt fra gt lt reflexie href abandonner 3 gt lt fra gt lt eng gt lt reflexie href to abandon 1 gt lt eng gt lt axie gt 5 2 R cup ration de JMDict Le dictionnaire JMDict est d j encod en XML Nous pouvons donc l utiliser directement pour l int gration dans la base lexicale La r partition en lexies et axies se fait selon le sch ma de la figure D 13 Article 1259660 Lexie mizuteru 1 Axie 44 Lexie to fail 1 J Lexie to abandon 2 Lexie to desert 2 FIG D 13 r partition d un article de JMDict en lexies et axies 5 2 1 Exemple d article Voici un exemple d article de c
137. Object System Ces objets refl tent la structure d crite par la grammaire H grammar Les donn es sont ensuite stock es dans des fichiers texte au format LISPO Ce format labor par Ha Doan Nguyen permet de stocker des objets CLOS dans des fichiers texte puis ensuite de lire les fichiers texte pour reconstruire les objets Le format interne de notre base lexicale est bas sur XML Il faut donc transformer le r sultat de la r cup ration du format LISPO vers le format XML Pour cela nous avons crit la fonction LISP suivante defun list2xml ma liste let string cond ma liste est une chaine renvoyer la chaine stringp ma liste ma liste ma liste est un symbole construire 1 l ment XML and symbolp ma liste neq list nil concatenate lt princ to string ma liste gt ma liste est une liste la parcourir neq cdr ma liste nil let element princ to string pop ma liste attribute value nil if not listp ma liste setf ma liste list ma liste if symbolp first ma liste setf value pop ma liste if neq value nil setf attribute concatenate lispo princ to string value 4 Int gration des outils de manipulation construction et consultation de dictionnaires 153 pour chaque objet construire 1 l ment XML if eq value LIST dolist item ma liste setf string concatenate string lt element attri
138. Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires Interface de consultation Voici une API de consultation du dictionnaire JMDict japonais anglais de Jim Breen EDict utilis dans notre maquette DicoFeJ d crite en partie B lt api type supplier category consultation name JMDict_en ja gt lt info gt Dictionnaire japonais anglais de Jim Breen lt info gt lt url href http www csse monash edu au cgi bin cgiwrap jwo wwwjdic gt lt protocol type get gt lt delay min 1s average 1s max 2s timeout 10s gt lt encoding input UTF 8 output EUC JP gt lt format input txt output html gt lt arguments gt lt element name source language gt lt complexType gt lt restriction base string gt lt enumeration value jpn gt lt enumeration value eng gt lt restriction gt lt complexType gt lt element gt lt element name headword type string gt lt element name regex type boolean gt lt arguments gt result lt element name output type string gt lt result gt lt api gt Voici un exemple d argument lt source language gt eng lt source language gt lt headword gt house lt headword gt lt regex gt no lt regex gt Voici le r sultat de la requ te entpues El bo 2 3 LS n attendance at the House Diet lt br gt 2 tH ASS n construction of a house divination term lt br gt AR CEE Ait n head hous
139. TEL Nous devons enfin trouver un langage de structuration des informations lexicales g n rique pour repr senter la grande vari t des th ories linguistiques et des structures existantes 66 A Contexte actuel de la dictionnairique B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc 69 Introduction Nous avons voulu exp rimenter nos id es au moyen de prototypes rapidement crits pour tester diff rentes id es concernant la repr sentation et le traitement distribu des dictionnaires Les projets de recherche men s au GETA et la grande vari t des outils et des ressources linguistiques au centre europ en de recherche de Xerox nous ont consid rablement aid dans nos exp riences Essayer de construire directement un environnement qui permette la fois la manipulation la consulta tion et la construction de dictionnaires nous a sembl pr matur C est pourquoi nous avons pr f r explorer plusieurs pistes s par ment avant de sp cifier les bases de notre environnement Ces exp rimentations nous ont permis de d terminer des solutions partielles possibles des probl mes pos s par la conception d un environnement de bases lexicales Nous avons commenc par le probl me de la consultation en ligne de ressources lexicales Notre but est de permettre de consulter la m ta i
140. TH ou XPOINTER Ces normes tendent les fonctionnalit s et la portabilit des documents XML multiplicit des outils Des API interfaces de programmation pour le protocole DOM Document Object Model DOM et SAX Simple Api for XML SAX sont disponibles pour pratiquement tous les langages de programmation h ritage de SGML Ce format est d riv de SGML Un document SGML bien form selon la re commandationC XML est un document XML Cela facilite la r cup ration et l utilisation de tous les dictionnaires d j cod s en SGML lisibilit par l humain XML est lisible directement ce qui est tr s utile pour les d veloppeurs Cependant XML n est qu un format Il nous faut ensuite sp cifier et d finir un syst me de manipulation des donn es bas sur les outils manipulant XML et les normes associ es 5 3 2 Utiliser un syst me g n rique de structuration de donn es lexicales Nous souhaitons manipuler dans notre base des informations lexicales ayant des structures h t rog nes correspondant diverses th ories linguistiques et divers types de ressources lexicales Nous voulons aussi r cup rer et utiliser des ressources existantes et produire des ressources dans des formats et structures sp cifiques Il faut donc trouver un moyen de repr senter des structures riches et h t rog nes pour toutes les informations lexicales que l on manipule Pr voir un formalisme souple et g n rique Ce sy
141. UNIVERSIT JOSEPH FOURIER GRENOBLE 1 _ UFR D INFORMATIQUE ET MATHEMATIQUES APPLIQUEES N attribu par la biblioth que PEE De PR THESE pour obtenir le grade de DOCTEUR DE L UNIVERSITE JOSEPH FOURIER Discipline INFORMATIQUE pr sent e et soutenue publiquement par M Mathieu MANGEOT LEREBOURS le 27 septembre 2001 ENVIRONNEMENTS CENTRALISES ET DISTRIBUES POUR LEXICOGRAPHES ET LEXICOLOGUES EN CONTEXTE MULTILINGUE JURY Pr sident Laurent TRILLING Rapporteurs Jacques CHAUCHE Laurent ROMARY Examinateurs Fr d ric ANDRES Jean Pierre CHANOD Alain POLGUERE Directeur de th se Christian BOITET Co directeur Gilles S RASSET Th se pr par e au sein des laboratoires GETA CLIPS IMAG CNRS amp UJF et XRCE Remerciements En premier lieu je remercie Christian Boitet mon directeur de th se qui m a toujours soutenu motiv et encourag sans faillir et ce depuis mon arriv e au GETA en septembre 1996 Les coups de gueule justifi s pouss s avec tact et psychologie m ont aid rebondir dans les moments difficiles Christian m a surtout donn go t la recherche et au monde des langues Je remercie aussi Gilles S rasset mon codirecteur avec lequel j ai beaucoup appris sur le plan technique et plus g n ralement sur une certaine philosophie de la recherche que je partage majoritairement Kalimero a tous comptes faits bien appr ci de partager le bureau de Grincheux Jean Pierre Chanod a su convaincre XERO
142. X de l int r t de mon travail Qu il soit donc remerci tant pour la bourse CIFRE qui en a r sult que pour son accueil et son soutien constant Je remercie aussi Marie H l ne Corr ard pour m avoir mis le pied l trier dans le monde des dictionnaires La collaboration entre un informaticien et une lexicographe fut tr s fructueuse Dommage qu elle ait d quitter XEROX au milieu de mon gu Je suis tr s honor que Laurent Romary sp cialiste reconnu de l utilisation de XML pour le traitement des langues naturelles comme en t moignent sa participation tr s active aux projets SILFIDE DHYDRO et SALT ait volontiers accept de rapporter sur ma th se Ses conseils et ses pointeurs ont d ailleurs t tr s profitables pour mon travail Je tiens remercier Jacques Chauch sp cialiste du TALN et tr s int ress par le probl me des ressources lexicales d avoir volontiers accept de rapporter sur ma th se et de ses remarques pertinentes J ai bien connu et appr ci Laurent Trilling en tant que professeur depuis mon ann e de licence et responsable des changes avec l tranger Il a consid rablement uvr l IRISA pour le TALN et maintenant au LSR pour I IA Je suis donc tr s heureux qu il ait accept de pr sider mon jury de th se Je suis galement tr s heureux qu Alain Polgu re linguiste renomm ait accept de participer mon jury comme examinateur Le projet Papillon sujet de la derni re partie de ce
143. accessibles en parcourant directement le texte XML des articles Les annotations et les contributions sont tri es puis appliqu es selon l ordre chronologique de leur date de cr ation Le m canisme de la table des donn es linguistiques permet chaque personne de voir la base lexicale avec la forme et les donn es qu il souhaite Chaque utilisateur peut voir les donn es auxquelles il a acc s selon ses droits Un contributeur peut visualiser en plus des donn es lexicales de la base toutes ses annotations et contributions ainsi que celles de ses groupes Lorsqu un utilisateur tablit une requ te le serveur s lectionne la liste des l ments qui correspondent la requ te Il applique ensuite par ordre chronologique de leur date de cr ation les feuilles de style repr sentant ses contributions ainsi que celles des membres de ses groupes Ensuite les annotations cor respondantes sont ajout es Enfin les feuilles de style d finissant les pr f rences de pr sentation sont ap pliqu es Le r sultat final est ensuite envoy l utilisateur Il peut arriver que certaines contributions ne soient plus valides car la base a t modifi e et les contri butions ont t accept es puis int gr es dans la base Dans ce cas le syst me envoie un message d avertis sement l utilisateur D autre part lorsque des l ments fusionnent les objets reli s aux identificateurs des deux l ments sont ensuite reli s l ident
144. actions et sorties 2 4 1 Types de sorties produire Les formats cibles sont en priorit ceux des dictionnaires qui auront t r cup r s puis int gr s dans la base lexicale Pour pouvoir reg n rer les dictionnaires int gr s il faut donc adopter un principe clair garder toutes les informations des ressources que l on r cup re Nous devons aussi g n rer des dictionnaires monolingues d usage comme le LAF fabricable partir du format DiCo Nous devons aussi produire des dictionnaires multilingues furco des du type du FeM avec une langue source et plusieurs langues cibles dont l anglais FeT FeJ JeT TeJ etc qui peut servir de point de r f rence pour beaucoup d utilisateurs Cependant il est peu utile de conserver l anglais dans un dictionnaire imprim Les formats du dictionnaire JMDict et du projet SAIKAM sont aussi produire Nous devons aussi proposer des outils pour produire d autres types de sorties comme des bases termi nologiques des dictionnaires d unit s de vocabulaire virtuel UW etc 2 4 2 Types de consultation de la base Au d part la base sera principalement consultable par des humains Les utilisateurs auront des profils tr s diff rents Le linguiste sp cialiste d une langue particuli re s int ressera aux donn es monolingues sur cette langue Le terminologue et le traducteur consulteront les liens interlingues L apprenant d une nouvelle langue cherchera des informations s
145. ag fr geta services dml http www clips imag fr geta services dml dml xsd name Mathieu MANGEOT creation date 22 10 2001 history ref mangeot his xml gt lt login gt Mathieu Mangeot lt login gt lt password gt toto lt password gt lt email gt Mathieu Mangeot imag fr lt email gt lt profiles gt lt competences gt lt cat level good gt translation lt cat gt lt eng level good gt translation lt eng gt lt fra level mother tongue gt phonetic collocations examples grammar lt fra gt lt hun level beginner gt lt jpn level beginner gt lt spa level good gt translation lt spa gt lt competences gt lt interests gt lt interest lang hun jpn gt lt interests gt activities lt activity dictionary DicoSz t r gt administration indexing lt activity gt lt activity dictionary FeM gt interface lt activity gt lt activity dictionary Nihongo gt administration indexing lt activity gt lt activity dictionary Papillon gt administration lt activity gt lt activities gt lt profiles gt lt credits gt 10 lt credits gt lt annotations href mangeot ann xml gt 3 Paradigme de construction coop rative 149 lt contributions gt lt contribution source French xml href mangeot cnt1 xsl gt lt contributions gt lt requests href mangeot req xml gt lt xml stylesheet type text css href mangeot sty css gt lt groups gt lt
146. ai Professionals in Japan seront aussi concern s par le projet Papillon Une fois que la base lexicale enrichie par les traducteurs offrira une couverture suffisante le grand public pourra consulter la base travers tout navigateur Web 2 1 3 laboration du serveur Le serveur permettant d acc der la base lexicale doit tre accessible par Internet Il doit principalement impl menter un serveur Web Http De plus pour pouvoir tre accessible au plus grand nombre il doit aussi impl menter des interfaces pour les protocoles telnet DICT DICT ftp mail Le serveur doit aussi pouvoir tre acc d par diff rents utilisateurs et groupes d utilisateurs ayant des droits d acc s variables et diff rents Il doit permettre chaque utilisateur de cr er un compte virtuel o se ront stock es ses donn es personnelles comme les pr f rences les contributions les annotations les cr dits etc 2 Cahier des charges 177 Pour faciliter la communication entre les diff rents utilisateurs et groupes de la base le serveur doit impl menter un syst me de listes de distribution de courrier lectronique avec possibilit d archivage et de consultation par le Web 2 2 Principes lexicologiques 2 2 1 Architecture pivot de la base Nous avons choisi de baser l architecture de notre base lexicale sur NADIA un syst me sp cialis de gestion de bases lexicales l interlingue par acceptions Le syst me NADIA a t d cr
147. aires de la Communaut Europ enne ainsi que par des professionnels de la langue gr ce au projet MLIS Multilingual Information Society pilot par la DGXIII Les donn es contenues sont disponibles en 12 langues et constamment mises jour Ces langues sont le danois le hollandais l anglais le fran ais l allemand le grec l italien le portugais et l espagnol La base terminologique EURODICAUTOM comprend 700 000 entr es couvrant en moyenne 5 ou 6 langues et un fichier d abr viations et d acronymes comprenant 150 000 entr es mis jour chaque mois avec environ 2 000 items La base couvre un large spectre de la connaissance humaine m me si le c ur est relatif aux th mes de la Commission Europ enne Interface L interface Web d EURODICAUTOM est repr sent e par la figure A 28 L utilisateur s lectionne les langues source et cibles puis ventuellement le ou les domaines terminologiques 34 A Contexte actuel de la dictionnairique Found 3 entries for abbreviation ab bre vi a tion 2 bra ya a shan n Abbr abbr abbrev 1 The act or product of shortening 2 Ashortened form of a word or phrase used chiefly in writing to represent the complete form such as Mass for Massachusetts or USMC for United States Marine Corps Music Any of various symbols used in notation to indicate that a series of notes is to be repeated Source The Awerncan Hentage Dictionary of the English Language Thin Edition C
148. airique trouve le contexte de l entr e que l on s lectionne c est dire les 5 mots pr c dents et les 5 mots suivants selon la nomenclature du dictionnaire La troisi me fen tre affiche tous les mots du dictionnaire s lectionn correspondant la requ te Enfin la derni re fen tre affiche l article complet Discussion Cette application apporte de nombreuses am liorations dans la consultation de dictionnaires une re cherche multidictionnaire une aide la consultation gr ce un lemmatiseur une vue du contexte de l article s lectionn la possibilit de configurer beaucoup d options et de rajouter ses propres dictionnaires Elle pourrait tre enrichie en proposant la personnalisation d un article complet au niveau des infor mations propos es et de leur style De plus la derni re fen tre n affiche qu un article la fois Il est donc impossible de comparer plusieurs articles 2 2 Consultation de dictionnaires sur Internet Les serveurs proposant une consultation de dictionnaires en ligne sur le Web sont de plus en plus nom breux tant donn la croissance de l Internet et le besoin en ressources linguistiques qu il provoque avec le multilinguisme Malheureusement les ressources propos es sont g n ralement de qualit moyenne car le service est gratuit On comprend facilement que les diteurs h sitent mettre leurs ressources disponibles sur le Web car dans ce cas ils ne pourraient plus
149. ais anglais du dictionnaire Oxford Hachette encod en sgml aura comme nom ohd_fr_en v2 ISO 8859 1 sgml Il sera rang dans le r pertoire de nom OHD_en fr qui contiendra aussi le fichier ohd_fr_en vi IS0 8859 1 sgml 1 Exp riences sur la consultation en ligne 71 1 1 3 Structures internes utilis es Un fichier encod en XML est plac dans le r pertoire de chaque ressource Il contient un certain nombre d informations Ce sont des m ta donn es sur ces ressources Nous trouvons le nom de la ressource la cat gorie monolingue bilingue multilingue les langues sources et cibles le domaine g n ral m decine etc les dates de cr ation de la ressource les auteurs le responsable des informations compl mentaires Pour chaque fichier nous trouvons le nom du fichier la date d installation la version l encodage ISO 8859 1 UTF 8 etc le nombre d articles le nombre de traductions pour des dictionnaires multilingues des informations compl mentaires Par exemple le fichier XML de la figure B 1 d crit le dictionnaire EuroWordNet Une feuille de style crite en XSLT XSLT 1 0 permet de produire un fichier README au format texte partir des fichiers XML voir figure B 2 Ces fichiers sont plac s dans les r pertoires des ressources Cela permet aux personnes parcourant directement l arborescence de pouvoir lire ces fichiers expliquant le contenu des r
150. an sedang diuji p riode d essai dim tempoh percubaan FIG B 8 interface du serveur du FeM param trable 81 82 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc 2 Am lioration des m thodes de construction 2 1 Am lioration de la m thode d mocratique du FeM pour UNL 2 1 1 Probl matique Le projet UNL a t pr sent dans la section 1 3 4 de la partie A Le langage UNL sert de repr sentation s mantico linguistique pivot pour diverses applications traduction automatique RI multilingue Il ne peut bien s r repr senter exactement toute l information exprim e dans n importe quelle langue il s agira tou jours d une approximation Les expressions UNL ne doivent pas seulement tre d finies rigoureusement mais tre aussi g n rales que possible pour tre comprises par toutes les personnes charg es du d veloppement des enconvertisseurs et des d convertisseurs Le vocabulaire UNL est form de UW Universal Word ou en fran ais Unit de Vocabulaire Virtuel qui repr sentent des acceptions ou ensembles d acceptions interlingues Par convention on a utilis des mots anglais pour tablir le vocabulaire UNL car cette langue est compr hensible par la majorit des acteurs du projet tiquettes de relations s mantiques tiquettes d attributs qui expriment un niveau interlingue l actualisation d termination nombre
151. ange des fichiers Word est assez rigide Enfin la cr ation d un dictionnaire est un processus assez long Aussi il est bon de compter sur un logiciel qui volue durant tout ce temps La contrepartie de cet avantage est que l on est d pendant d un format propri taire N anmoins le sous ensemble du format RTF utilis a toujours t compatible avec les versions de Word utilis es D inconv nient majeur de cette m thode est qu il n existait aucun outil permettant au lexicographe de v rifier le travail en cours On ne peut en effet constater la malformation d une entr e que lorsqu on l int gre la base Aussi ce processus d int gration ne peut se faire que sous le contr le d un adminis trateur lexicologue charg de corriger les erreurs des lexicographes mauvais choix de style abr viation inconnue etc Il est aussi possible de faire une partie du contr le la source en fournissant les outils n cessaires aux lexicographes sous forme de macros Wrod par exemple 4 2 Cr ation classique avec un diteur structur SGML 4 2 1 Introduction Cette m thode est tr s r pandue car elle est utilis e par tous les diteurs de dictionnaires imprim s qui ont pris l habitude d encoder leurs dictionnaires dans le format SGML C est aussi la premi re m thode informatis e qui a permis de construire des dictionnaires usage humain Cette m thode est utilis e pour construire le Dictionnaire Canadien Bilingu
152. angue gr ce l image L exemple de la figure B 18 montre un article contenant une image Cette technique d j utilis e depuis longtemps dans les encyclop dies atteint cependant rapidement ses limites On ne peut pas tout illustrer par des images De plus certaines diff rences sont subtiles et tr s difficiles repr senter Par exemple il n est pas vident de montrer la diff rence entre une vall e et une montagne ou un lac et un tang Nous avons aussi rajout dans certains articles un fichier son de la prononciation du mot vedette par un locuteur natif Nous pourrions aussi utiliser un synth tiseur par l interm diaire d un module externe Quant la vid o l Encyclopedia Universalis l a utilis depuis 1997 dans les c d roms de l ency clop die 3 1 2 Interface personnalis e pour apprenants le quizz Pour faciliter l apprentissage du hongrois nous avons construit une petite application qui utilise Di coSz t r L utilisateur s lectionne la langue source le nombre de mots la le on et les cat gories gramma ticales qu il veut r viser L application se connecte alors DicoSz t r pour choisir au hasard dans le dic tionnaire les mots correspondant la le on s lectionn e ainsi que leurs traductions Ces mots sont ensuite affich s L utilisateur doit donner au syst me une traduction pour chaque mot L application v rifie les traductions et affiche en rouge les corrections des traductions erro
153. angues l anglais le fran ais et le malais il contient quatre lexiques interlingue anglais fran ais et malais li s de la fa on suivante lt links gt lt link from anglais to interlingue gt lt link from fran ais to interlingue gt lt link from malais to interlingue gt links gt Les volumes du dictionnaire sont r f renc s par leur nom unique L l ment lt volumes gt regroupe toutes les r f rences aux fichiers repr sentant les volumes Ces r f rences sont not es avec l l ment lt volume Per Les langues sources et cibles sont indiqu es par l l ment lt 1anguages gt suivant la norme ISO 639 2 T ISO98 avec leur code de trois lettres L l ment lt contenu gt indique le contenu du dictionnaire L l ment lt domain gt indique le domaine couvert par le dictionnaire Un dictionnaire d usage couvre le domaine g n ral Certains dictionnaires sont sp cialis s dans des domaines pr cis comme la m decine l informatique etc Nous indiquons aussi la taille du dictionnaire en octets par lt bytes gt et le nombre de mots vedettes par lt hw number gt 2 D finition du noyau de l environnement avec SUBLIM 137 Pour la gestion des diff rentes versions nous indiquons le num ro de version lt version gt la date de cr ation du dictionnaire lt creation date gt et la date d int gration du dictionnaire dans la base lt installation date gt Pour les ress
154. antique de l axie les liens vers les lexies monolingues les liens vers d autres axies et enfin les r f rences externes Certains l ments de l axie sont susceptibles d tre modifi s au cours du projet avec l ajout de liens vers une nouvelle langue ou vers une nouvelle r f rence externe Les liens vers les lexies monolingues et les liens vers les r f rences externes sont donc d crits formellement par le sch ma Papillon axies donn en annexe B Ce sch ma red finit les deux l ments pr c dents du sch ma Papillon La cat gorie s mantique est repr sent e par l l ment lt semant ic cat gt Les axies reliant des lexies peuvent prendre quatre valeurs possibles entit entity processus process tat state et r sultat result Les axies peuvent aussi relier des phrases enti res La valeur de la cat gorie s mantique indique alors le type de phrase example pour un exemple idiom pour un idiotisme citation pour une citation et proverb pour un proverbe Les liens vers les lexies sont repr sent s en fonction des langues Le nom de l l ment regroupant les liens vers une langue donn e est construit avec le code trois lettres ISO 639 2 T repr sentant cette langue Par exemple les liens vers des lexies fran aises seront regroup s dans l l ment lt fra gt pour des lexies anglaises ce sera l l ment lt eng gt etc Chaque r f rence vers une lexie est ensuite repr sent e par l attribut href de t
155. arties Un dictionnaire peut avoir plusieurs pr sentations diff rentes mais il n aura toujours qu une seule microstructure De plus en plus de dictionnaires sont disponibles non seulement dans des version papier mais aussi sous forme d applications sur ordinateur par exemple le Collins ou le Hachette Oxford ou sur la Toile par exemple le FeM FeM ou le Websters dictionary com A chaque version est associ e une pr sentation diff rente mais toutes les versions sont labor es partir de la m me structure logique C est le cas du FeM voir 1 2 1 1 2 Exemples de dictionnaires usage humain 1 2 1 Un dictionnaire monodirectionnel trilingue le FeM Introduction Le dictionnaire fran ais malais Kamus Perancis Melayu Dewan Gut96 a t construiten coop ration entre le service Culturel de l Ambassade de France Kuala Lumpur le Dewan Bahasa dan Pustaka Unit Terjemahan Melalui Komputer Universiti Sains Malaysia Penang et le Groupe d tude pour la Traduction Automatique GETA Universit Joseph Fourier Grenoble amp CNRS sous la coordination de l association Champollion C est un dictionnaire trilingue monodirectionnel Sa macrostructure est donc constitu e d un seul vo lume C est un dictionnaire usage humain Il comporte environ 20 000 articles et 50 000 sens de mots ou lexies Dans sa version papier d finitive l anglais a t supprim alors qu il a t conserv dans les variantes
156. as un seul d entre eux n tait satisfaisant par exemple l Union Europ enne a besoin de plusieurs syst mes de codage pour couvrir toutes ses langues d usage ISO 8859 1 16 ISO99a M me pour une seule langue comme le fran ais aucun syst me de codage ne couvrait tous les caract res il manque entre autres le ce coll dans l ISO 8859 1 ou ISOLATIN 1 qui est un caract re mais pas une lettre les signes de ponctuation et les symboles techniques en usage courant UNICODE n est pas un encodage C est une table mettant en correspondance un caract re avec un num ro unique Il est possible de repr senter une suite de caract res de la table UNICODE avec plusieurs encodages diff rents Comme la table UNICODE poss de un nombre de caract res largement sup rieur 256 il n est pas possible de les repr senter sur un octet La majorit des machines actuelles utilise cependant un codage des caract res sur un octet On utilise alors soit le num ro du caract re par exemple U 00FC en hexad cimal pour repr senter soit un syst me d encodage variable sur plusieurs octets UTF 8 Unicode Transformation Format repr sente les caract res Unicode sur un nombre variable d octets Les caract res de la table ASCII Ame rican Standard Code for Information Interchange et plus pr cis ment les caract res de la table Unicode compris entre U 0000 et U 007F seront repr sent s l identique sur un octet le premier bit
157. asse class en utilisant list 3 Outils de manipulation de dictionnaires 41 4 Inversion L inversion se compose de deux tapes le regroupement et la division Pour diviser une donn e a on peut utiliser l op ration suivante split a by F assign list slot1 f1 slot2 f2 5 Encha nement Les fonctions d enchainement sont utilis es dans l exemple suivant pour produire un dictionnaire fran ais vietnamien avec un fran ais anglais et un anglais vietnamien 6 Combinaison parall le Pour combiner en parall le deux dictionnaires Dictl et Dict2 pour obtenir Dict3 on passe par deux tapes cr ation des articles de Dict3 partir de Dictl int gration des articles de Dict2 Dict3 7 Combinaison en toile Comme c est une g n ralisation de l encha nement et de la combinaison parall le la combinaison en toile peut tre impl ment e avec les op rations pr sent es pr c demment 3 2 2 Exemple Dans la production en ligne un ou plusieurs articles sont produits chaque demande Par exemple tant donn un mot fran ais on peut cr er dynamiquement un article fran ais vietnamien par enchainement en cherchant un article fran ais anglais et quelques articles anglais vietnamien dans les dictionnaires corres pondants Voici les structures des articles de d part fe entry fre string eng list of eng string ev entry eng string vie list of vie string V
158. athieu Mangeot gt lt user ref name Gilles Serasset gt lt group gt lt Groups gt lt dictionaries gt 190 D Application Papillon projet de base lexicale multilingue sur Internet lt dict ref name DiCo href DiCo xml gt lt dict ref name FeM href FeM xml gt lt dict ref name JMDict href JMDict xml gt lt dict ref name papillon href papillon xml1 gt lt dict ref name SAIKAM href SAIKAM xml gt lt dictionaries gt lt database gt Ce fichier est en volution constante tout comme le contenu de la base elle m me Le dictionnaire Papillon Le dictionnaire Papillon est d crit par l l ment DML lt dict ionary gt La description formelle de cet l ment est r alis e par le sch ma DML donn en annexe A Ce dictionnaire est ensuite r parti en plusieurs volumes r f renc s par l l ment lt volume gt On trouve un volume interlingue Axies et un volume pour chaque langue English pour l anglais French pour le fran ais Japanese pour le japonais Lao pour le lao et Thai pour le tha Les liens entre les volumes sont not s par l l ment lt 1inks gt Les articles des volumes de chaque langue sont reli s aux articles du volume interlingue Voici la description en LEXARD du dictionnaire Papillon define dictionary Papillon owner GETA comment Papillon Multilingual Dictionary Category multilingual creation date 16 05 2001 install
159. ation date 16 05 2001 encoding UTF 8 format XML hw number 381 type pivot version 1 source languages Axies target languages English French Japanese Lao Thai contents general vocabulary domain general legal all rights belong to GETA and NII cdm element headword pronunciation pos corpus volumes English French Japanese Lao Thai Axies links from Axies to English French Japanese Lao Thai Voici le document XML quivalent lt dictionary xsi schemaLocation http www clips imag fr geta services dml http www clips imag fr geta services dml dml xsd history ref papillon his xml category multilingual creation date 21 06 01 encoding UTF 8 format XML 4 Analyse g n rale et impl mentation 191 hw number 381 installation date 16 05 2001 fullname Papillon Multilingual Dictionary name Papillon owner GETA type pivot version 1 gt lt languages gt lt source language lang axi gt lt target language lang eng gt lt target language lang fra gt lt target language lang jpn gt lt target language lang lao gt lt target language lang tha gt lt languages gt lt contents gt general vocabulary lt contents gt lt domain gt general lt domain gt lt legal gt all rights belong to GETA and NII lt legal gt lt cdm elements gt lt headword delay 1s gt lt pronunciation delay 5s gt lt pos delay 5s gt lt
160. atisfaisant en termes de fonctionnalit s puisqu il permet I annotation de pages et le par tage des annotations par des groupes d utilisateurs Cependant les annotations sont stock es sur le serveur de ThirdVoice Il n est pas possible de les g rer soi m me ce qui peut poser des probl mes de confidentia lit Il n est pas non plus possible d annoter des documents stock s localement Ils doivent absolument tre install s sur un serveur Web public De plus cet outil n est disponible que sur Windows ce qui limite aussi son utilisation 3 3 3 L annoteur d Amaya Pr sentation Amaya Amaya le navigateur diteur du W3C World Wide Web Consortium impl mente depuis peu un syst me d annotation L utilisateur peut sp cifier le serveur d annotations ou encore stocker ses anno tations en local Il est donc possible de travailler en local sans se connecter au web Les annotations sont stock es sous forme de fichiers xhtml XHTML 1 0 et d crites par des fichiers XML utilisant les RDF et les XPointer RDF Resource Description Framework RDF est une structure pour les m tadonn es RDF permet une interop rabilit entre les applications qui changent des informations sur le Web RDF facilite le traitement automatique des ressources Web 96 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc XPointer XML Pointer Language XPointer est une recommandation XML C est u
161. aux Dans l exemple le est repr sent par Seacute Un l ment peut englober d autres l ments de fa on construire une structure d arbre Ici l l ment lt entry gt englobe les l ments lt headword gt et lt pos gt 1 Notions du domaine 11 entry gt lt headword gt abr eacute ger lt headword gt lt pos gt v t lt pos gt lt entry gt Le projet de la TEI Text Encoding Initiative Ide95b Johnson95 termin en mai 94 avait pour but d unifier la s mantique des balises SGML pour encoder les textes Le groupe de travail sur les dictionnaires a notamment publi une D finition de Type de Document DTD g n rale pour encoder les dictionnaires Certains dictionnaires enfin utilisent directement un format de pr sentation pour le stockage Ces formats ne refl tent pas directement la structure logique de ces dictionnaires Il faut alors leur appliquer un traitement pour obtenir une structure logique plus directement utilisable C est le cas des formats RTF Rich Text Format et HTML HyperText Markup Language HTML 4 0 De plus les traitement ne peuvent pas tre totalement automatiques et sont tr s co teux Doan Nguyen98a 98b 1 1 5 La pr sentation des informations La structure de pr sentation de l article polices couleurs tailles est appel e pr sentation du diction naire Cette structure est ind pendante de la structure logique m me si en g n ral elle en refl te certaines p
162. avec au moins 5 000 mots vedettes Le texte XML des exemples est rendu lisible pour le lecteur Les entit s XML repr sentant les caract res lt gt et amp sont donc converties lt category gt bilingual multilingual lt category gt lt source language gt eng lt source language gt lt creation date gt gt 19900101T00 00 00Z lt lt hw number gt gt 5000 lt hw number gt Voici un extrait du r sultat sur la base lexicale du laboratoire XRCE Pour simplifier nous ne pr sentons que les noms des ressources r pondant la requ te et non les informations compl tes lt name gt EuroWordNet lt name gt lt name gt German Dictionary lt name gt lt name gt Hungarian_en hu lt name gt lt name gt JMDict_en ja lt name gt lt name gt Multilingual medical dictionary lt name gt lt name gt Oxford Hachette French dictionary lt name gt lt name gt Oxford Spanish Dictionary lt name gt lt name gt Urdu English Dictionary lt name gt lt name gt DHydro Dictionary lt name gt 4 3 2 Elaboration des requ tes Une API de consultation de la base lexicale est disponible Les clients de la base l utilisent pour r diger leurs requ tes de consultation de ressources Ils peuvent consulter plusieurs ressources la fois utiliser des expressions r guli res etc Ils configurent ensuite le r sultat des requ tes grace aux API de microstructure et de pr sentation L utilisateur indique le nom des ressourc
163. berg Ajs bErg N i Aj c s e b b e E r r g g hautbois O bwA N h au O t b b oi wA s homme m N h 0 0 mm m e onze 6z J on 6 z z e skate skEjt N s s k k a EJ t t e tocsin tOk s N t t 0 0 c k s s lin E FIG A 16 extrait de la base BDLex La figure A 17 repr sente un autre exemple avec les indices associ s GRAPH_ACC HG CS FREQ F_Catach FREQ Elementaire alors 11 A C1 BO 111 22 avoir 21 V CO BO TR 11 2 chaussure 11 N BO 701 tre 21 V CO BO TR 4 de 11 p CO BO 2 3 la 11 d CO BO 1 7 rayonner 11 V BO FIG A 17 extrait de BDLex avec les indices associ s Chaque entr e lexicale est munie de marques de fronti re sp cifiant la nature du terme plac imm diatement apr s Lorsqu une partie du mot est une autre entr e lexicale celle ci n est pas d compos e Actuellement 68 pr fixes et 107 suffixes ont t introduits dans BDLEX Ceux ci peuvent tre utilis s pour proc der une 1 Notions du domaine 23 analyse morphologique d rivationnelle Les mat riaux lexicaux de BDLEX sont disponibles sous l environ nement ORACLE sur station de travail SUN L acc s aux informations peut s effectuer au gr ce aux outils dont dispose ORACLE Ce dictionnaire est typiquement usage informatique De plus les informations de ce dictionnaire sont cod es et difficilement utilisables par un humain 1 3 3
164. btient pour chaque champ la liste des valeurs possibles Dans notre exemple le champ de la cat gorie grammaticale ne peut comporter que certaines valeurs Si le lexicographe appelle la macro liste valeurs elle affiche automatiquement la liste des cat gories autoris es et ins re la cat gorie s lectionn e 86 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc C01101 rtf a IO E AA ASE Caabaq Style suivant Caaba 3 Caaba equ gt Kaaba Y Kaabaq Pr f 4 Caaba ici gt building ba nent pra provenance_f Kaaba Y cat_e commentaire_unl uw cab T FEM FIG B 13 fen tre de la macro style suivant C01101 rtf e Y E COREA EEE Caaba Caaba qg Caaba equ gt Kaaba Kaaba pr Kaaba Pr 4 Caaba icl gt building baiment Kaaba qg cab g FEM 4 FIG B 14 fen tre de la macro liste valeurs Gr ce la macro v rification le lexicographe peut v rifier si une valeur est bien permise pour le champ s lectionn Dans notre exemple la macro appliqu e au champ de cat gorie v rifie si la valeur s lectionn e appartient bien la liste des cat gories grammaticales d finie par le lexicologue Elle envoie un message d erreur voir figure B 15 si le champ n est pas correctement rempli La macro v rification g n rale permet au lexicographe de v rifier la coh rence d une entr e enti re Pour chaque style elle
165. bute gt setf string concatenate string list2xml item setf string concatenate string lt element gt progn setf string concatenate lt element attribute gt dolist item ma liste setf string concatenate string list2xml item setf string concatenate string lt element gt string neq first ma liste nil concatenate string lt princ to string first ma liste gt On voit qu il s agit d une op ration assez simple si on la programme ce niveau En C il faudrait beaucoup plus de code et l efficacit ne serait pas sup rieure 4 1 2 Manipulations internes des donn es La manipulation interne des donn es se fait gr ce aux outils XML quip s de parseurs Il existe essen tiellement l API SAX Simple Api for XML SAX 2 0 et l API DOM Document Object Model DOM Il est aussi possile d utiliser le langage XSLT en crivant une feuille de stype XSL pour chaque transforma tion Par exemple pour la fusion d crite dans la section 2 2 3 de cette partie nous utilisons une feuille de style XSL Cette feuille de style nous permet de fusionner deux articles qui ont le m me mot vedette lt headword gt S ils ont la m me cat gorie lt pos gt les lexies sont regroup es Elles portent ensuite at tribut provenance qui indique le nom de leur dictionnaire d origine Voici un extrait de cette feuille de style lt mod le
166. c dente et suivante Pour les dictionnaires class s par ordre alphab tique ici tous sauf la base de concepts ELRA il est possible de consulter les entr es pr c dant et suivant celles affich es Pour cela lorsque le script consulte un dictionnaire la recherche d une entr e il compte les lignes Lorsque l utilisateur demande l entr e pr c dente ou suivante le script utilise ce num ro de ligne pour faire sa recherche Elle s effectue donc plus rapidement que lorsque le script effectue une recherche l aide d une expression r guli re L utilisateur se retrouve partiellement dans le contexte de la lecture d un dictionnaire papier o le contexte de l entr e est directement sous ses yeux Pages fabriqu es la vol e Pour viter de convertir chaque fois le texte source en HTML nous aurions pu convertir en une seule fois tous les dictionnaires source Cependant m me si cette solution r duit le temps d attente lors de la recherche d une entr e elle pr sente deux inconv nients importants D abord la fabrication la vol e des pages HTML permet d une part de respecter le copyright en interdisant aux utilisateurs de r cup rer enti rement le dictionnaire en une seule fois ensuite on peut retoucher le rendu final directement en modi fiant le script Perl Ajout d une nouvelle ressource Les crit res que doivent satisfaire les nouvelles ressources pour tre ajout es au syst me sont simples
167. c der toute la ressource Il n est pas encore possible d afficher le contexte d un article c est dire d afficher par exemple les 5 articles pr c dents et suivants selon la nomenclature Nous ne pouvons obtenir qu un article la fois Dans les maquettes pr sent es jusqu ici le r sultat n est pas encore param trable par l utilisateur 1 3 Regroupement de ressources locales et distantes DicoFeJ 1 3 1 Pr sentation DicoFeJ est un serveur de dictionnaires fran ais anglais japonais con u selon l architecture de Dico Web L utilisateur consulte ce serveur partir d un terme fran ais anglais ou japonais Nous utilisons deux ressources un dictionnaire fran ais anglais provenant du FeM et le dictionnaire japonais anglais Edict EDICT de Jim Breen Pour repr senter du fran ais et du japonais dans la m me page nous devons utiliser Unicode Nous transformons donc la vol e l encodage des r sultats de l ISO LATIN 1 pour le fran ais et de l EUC JP pour le japonais vers l Unicode encod en UTF 8 Notre serveur r utilise le serveur distant du dictionnaire japonais anglais d velopp par Jim Breen de l universit Monash Melbourne en Australie EDict Nous avons programm un module interfacique wrapper qui consulte ce serveur ram ne le r sultat et le convertit en Unicode Ce r sultat converti est ensuite affich avec les autres r sultats obtenus localement Dans notre exemple figu
168. car les r ponses aux requ tes sont quasi instantan es De plus du point de vue des diteurs c est un moyen de vendre leurs dictionnaires sur c d roms ce qu ils ne peuvent pas faire avec des serveurs de consultation sur le Web On trouve donc principalement des versions lectroniques des grands dictionnaires imprim s du commerce tant donn que le service est payant les dictionnaires sont le plus souvent de meilleure qualit que ceux que l on trouve sur le Web La qualit est garantie gr ce l quivalence de ces dictionnaires avec leur version papier 2 1 1 Une application basique le Collins on line Introduction Le Collins On Line est un dictionnaire lectronique bilingue fran ais anglais de Harper Collins publi sher d velopp par AND software Son utilisation est relativement simple et convient tr s bien pour une recherche rapide d une traduction d un mot La rapidit permet l utilisateur de ne pas perdre le contexte de la phrase contenant le mot cherch Interface Dans une premi re fen tre il y a un cadre de saisie du mot recherch dans la langue source avec dans le deuxi me cadre au fur et mesure que l on rentre les lettres du mot les mots se rapprochant le plus des lettres saisies par ordre alphab tique Il faut s lectionner un mot du cadre du bas pour faire une recherche Ensuite il y a deux boutons au bas de la fen tre Retourner et Rechercher Si l on clique sur le bouton Rec
169. ch Key snow longest match found NE NID first snow of season A 2 HR H snow boat SE p Si snow country BE gt snow damage ME 22902 light snow fall small snow flakes ER Miz3oD snow festival WE OE SFA ice field ice floe snow field A Y snow gun MECH OE BHC ODS snow mingled with rain i A EY snow mobile Anua AA u ee ve AN A Nn aaaceecececlloouuu q Te SP Es Y FIG B 7 l article neige du serveur dicofej 1 3 2 Discussion La transformation la vol e des pages permet de contourner l impossibilit l gale de stocker toutes les ressources localement On acc de aux ressources pr sentes sur ces serveurs distants Hachette Websters et Edict gr ce des interfaces de connexion wrappers que nous avons programm es en Perl Pour nous permettre de visualiser du fran ais et du japonais en m me temps nous utilisons la norme Unicode et son codage UTF 8 Dans nos maquettes nous utilisons aussi des modules compl mentaires en amont et ou en aval de la consultation des ressources Les analyseurs morphologiques et les correcteurs orthographiques servent en amont pour obtenir un lemme partir d une forme de surface L interrogation du dictionnaire se fait ensuite avec le lemme 80 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc Avantages D utilisateur dispose de plusieurs ressources dans la m me interface Il peu
170. cologues qui supervisent la construction de nouvelles ressources et l int gration des contribu tions ont besoin d outils pour contr ler le flux des donn es et pour appliquer des m canismes de v rification des donn es En effet les ressources sont en constante volution 1 2 D veloppement partag de ressources libres Le d veloppement actuel d Internet et son esprit communautaire nous permettent d envisager le d veloppement partag de ressources libres de droits Nous souhaitons mettre en place un environnement qui permette 114 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires n importe quel utilisateur de notre serveur de contribuer la construction des ressources directement c est dire en ligne travers le Web Les contributions sont ensuite g r es par un petit groupe de sp cialistes lexicologues Ceux ci v rifient les contributions et d cident de les int grer ou non aux ressources existantes Comme on risque d arriver de nombreuses contributions il faut permettre des contributeurs de pr parer le travail des lexicographes g rant la base en annotant les contributions d autres contributeurs 1 2 1 Principe g n ral socio conomique du partage Nous souhaitons que les utilisateurs partagent les ressources personnelles qu ils ont construites Ils sont invit s envoyer la base leurs contributions qui seront ensuite partag es avec tout o
171. comprenant entre autres l anglais le fran ais le japonais le lao et le tai L acc s est gratuit pourvu que l usage ne soit pas commercial licence de logiciel libre Notre projet initi par quelques sp cialistes de linguistique informatique se veut utile et ouvert la collaboration de toutes les personnes ayant un int r t pour les langues japonaise fran aise lao ou thai 370YI5 ki SET ERIN ES DERD AL FEOS L CHET gt AEFPOERIFOR MZA NA TAREA ULA OY IP RICE HERD SULT 7 Y A RIC RY BHA DAR SILERACHCBMVOAEU EF gt 13P10H 3604 Local intranet zone Fic D 4 page d accueil du serveur Papillon Lorsque les lexicographes et contributeurs ont fini leur travail ils se reconnectent au serveur Papillon et envoient les articles modifi s et les nouveaux articles Ces donn es sont stock es dans leur espace virtuel en attente de r vision Extraction de donn es Chaque utilisateur peut extraire de la base Papillon de nouveaux dictionnaires au format qu il souhaite Pour cela il doit sp cifier la structure de son dictionnaire l aide d une interface sp cialis e Cette structure est ensuite convertie en une feuille de style XSLT qui est envoy e au serveur Papillon Le syst me g n re automatiquement son dictionnaire partir de la feuille de style 3 Sp cifications externes 183 Validation correction des contributions Les sp cialistes lexicologues ou lexicographes en chef r visent les contributions
172. conna t un locuteur fournira des exemples ou des idiomes dans sa langue etc De plus ces ressources peuvent rester en constante volution s enrichir continuellement et suivre les changements des langues Il faut donc pour cela concevoir des outils pour g rer les diff rents intervenants et leur niveau de comp tences vari s Nous devons aussi proposer des outils permettant de contribuer facilement et directe ment en ligne la construction de nouvelles ressources Pour garantir une portabilit et une compatibilit avec un maximum d outils existants et venir nous baserons nos d finitions sur le standard XML et ses d riv s Namespace XLINK XPointer XPath XSLT Schemas etc 4 Introduction Organisation de la these Dans la premi re partie de ce document intitul e Contexte actuel de la dictionnairique nous expose rons certaines notions du domaine de la lexicographie computationnelle puis nous examinerons en d tail plusieurs dictionnaires vari s Nous tudierons ensuite les applications de consultation de dictionnaires des outils de manipulation de ressources et des m thodes de construction de nouveaux dictionnaires Nous conti nuerons cette partie par une explication des standards relatifs aux dictionnaires qu nous ont paru int ressants pour la suite de nos travaux Enfin nous terminerons par l tude de projets sur les dictionnaires bas s sur ces standards Dans la seconde partie intitul e Exploration d
173. contributeurs et stock es dans leur espace virtuel Pour v rifier les donn es pr sentes sur la base les lexicologues laborent des contraintes de coh rence sur une interface sp cialis e La contrainte de coh rence sera ensuite traduite par exemple en feuille de style XSLT et appliqu e la base lexicale en t che de fond lorsque le serveur est inactif ou que le nombre de requ tes est limit Des pointeurs sur les donn es posant probl me sont alors g n r s par l application des feuilles XSLT Par exemple les lexicologues peuvent v rifier la validit des liens pr sents dans la base Ils r digeront alors des contraintes de coh rences traduites en une feuille de style du type de celle de la section 2 3 3 Les lexicologues pr parent ensuite avec ces pointeurs des ensembles de donn es v rifier Les contri buteurs se connectent alors la base pour piocher dans ces ensembles de donn es Ils v rifient aussi les diverses contributions stock es dans les espaces virtuels des contributeurs Lors qu ils d cident d int grer des nouveaux articles ou des contributions dans une ressource ils ajoutent des informations dans un fichier d historique des modifications La ressource modifi e comporte un lien vers cet historique gr ce un identificateur chaque modification il faut stocker le nom du modificateur et la date et ventuellement des commentaires Voici un exemple d historique lt administration id h00001
174. ct text gt lt ajout d un nouvel exempl lt example id e1 gt Soup onn du meurtre de son pouse il a t arr t par les gendarmes mercredi lt example gt lt xsl apply templates gt lt xsl copy gt lt xsl template gt lt xsl stylesheet gt Le r sultat de l application de cette feuille de style la lexie meurt re 1 est la m me lexie contenant un exemple de plus 152 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires 4 Int gration des outils de manipulation construction et consultation de dictionnaires 4 1 Manipulation des donn es Pour manipuler les donn es lexicales nous utilisons plusieurs outils Pour la r cup ration de donn es existantes et la production de nouvelles donn es il s agit des outils d finis par Hai Doan Nguyen dans sa th se Pour les manipulations internes de donn es ce sont des outils de manipulation XML 4 1 1 R cup ration des ressources existantes La r cup ration de ressources existantes se fait en suivant la m thodologie R CUPDIC Les informa tions sont d abord nettoy es puis marqu es l aide d un outil poss dant un langage d expressions r guli res Word BBEdit scripts Perl etc Ensuite la structure que l on veut obtenir est d crite selon une grammaire H grammar L outil H grammar r cup re ensuite la ressource et la transforme en objets structur s CLOS Common Lisp
175. ction avec les serveurs partenaires 155 4 2 1 Principe de r ciprocit o ses sea 4 crm pan ee da pan 155 4 2 2 Fournisseur de services 156 4 2 3 Fournisseur de ressources 157 4 3 Consultation de la base 159 4 3 1 S lection des ressources 159 vi Table des mati res 4 3 2 laboration des requ tes 161 4 3 3 Visualisation du r sultat 162 4 3 4 Personnalisation du r sultat 164 4 4 R daction des articles et contributions 164 4 4 1 R daction en ligne viale Web 164 4 4 2 R daction avec des diteurs structur s 165 4 4 3 R daction avec des pseudo diteurs structur s 166 4 4 4 R daction avec des diteurs sp cialis s 167 D Application Papillon projet de base lexicale multilingue sur Internet 171 Introduction 171 1 Pr sentation du projet Papillon 172 1 1 Historique et buts du projet ee 172 1 2 Architecture g n rale du projet 173 1 3 Points forts di projet e a o eae da dus 4 REE Ma OMA a ew aw we A wes 174 2 Cahier des charges 176 2 1 Aspects cooperat
176. ctions fran aises A l heure actuelle 10 000 articles sont d j traduits Le projet SAIKAM SAIKAM comporte environ 4 000 articles japonais tha encod s en XML Les ressources sont d abord r cup rer pour les transformer au format XML DML dans les structures d finies pour le projet Il faudra ensuite calculer des liens entre diff rentes langues automatiquement puis les faire r viser 2 3 2 tapes de la r cup ration Nous avons d fini une m thodologie de construction de la base partir des ressources existantes Nous distinguons trois tapes successives chacune constitu e de t ches pouvant tre r alis es en parall le tape 1 r cup ration primaire de toutes les ressources disponibles compl tes ou non avec transfor mation du format source vers XML DML et de l encodage d origine vers UTF 8 tape 2 fusion et int gration des donn es dans les dictionnaires monolingues de Papillon Le diction naire fran ais contiendra les donn es de la base DiCo et de la partie fran aise du FeM Le dictionnaire anglais contiendra les parties anglaises du FeM de JMDict et de SAIKAM Le dictionnaire japonais contiendra les parties japonaises de JMDict et de SAIKAM LE dictionnaire tha contiendra la partie tha landaise de SAIKAM tape 3 volution par travail coop ratif sur le Web 180 D Application Papillon projet de base lexicale multilingue sur Internet 2 4 Description des inter
177. cts Il semble que l on n aie pas encore trouv la solution id ale Peut tre faudrait il envisager de pouvoir utiliser toutes ces m thodes en parall le selon les besoins travailler en ligne pour de petites contributions sp cialis es et avec un diteur sp cialis pour la r daction et la v rification d articles entiers 5 Standards li s la repr sentation de dictionnaires 55 5 Standards li s la repr sentation de dictionnaires Dans cette partie nous pr senterons les standards que nous avons estim s les plus importants pour la repr sentation des dictionnaires En effet pour garantir le plus de portabilit de compatibilit et de r utilisabilit possible nos dictionnaires il faut utiliser au maximum les standards existants tous les stades de l laboration des dictionnaires et surtout lors de la d finition de leur structure 5 1 Pour les caracteres Unicode et ses transcriptions Le standard ISO UNICODE ISO93 a t cr en 1993 Les versions du standard sont compl tement compatibles et synchronis es avec les versions correspondantes du standard international ISO IEC 10646 Il r sout les probl mes d encodage des caract res dans diff rentes langues en sp cifiant un num ro unique pour chaque caract re quelle que soit la plate forme quel que soit le logiciel quelle que soit la langue Avant l invention d Unicode des centaines de syst mes de codage de caract res ont t cr s P
178. d gt lt attribute name history ref type xlink hrefType gt href attribute gt this attribute is used for all the links between DML elements lt complexType name hrefType gt lt attribute ref xlink href use required gt finition of xlink gt lt complexType gt lt lang attribute gt lt the DML lang attribute is based on ISO 639 2 T standard which uses 3 letters code instead of two letters code to indicate the name of the languages lt simpleType name lang gt lt restriction base string gt lt lt gies lt g gi gi lt tes tee lt lt enumeration value aar gt Afar 639 1 aa gt lt enumeration value abk gt Abkhazian 639 1 ab gt lt enumeration value ace gt Achinese gt lt enumeration value ach gt German 639 1 de gt lt enumeration value dgr gt English 639 1 en gt lt enumeration value enm gt French 639 1 Lr lt enumeration value frm gt Hungarian 639 1 hu gt lt enumeration value hup gt Indonesian 639 1 id in gt lt enumeration value ine gt Italian 639 1 It lt enumeration value jaw gt Japanese 639 1 ja gt lt enumeration value jpr gt Korean 639 1 ko gt lt enumeration value kos gt We add also our proper codes lt attribute name lang type d lang gt for special purpose gt 2 Sch ma XML
179. dans chaque langue de la base l inverse dans une base d acceptions celles ci sont au d part des liens de traduction entre deux ou plusieurs langues Elles peuvent devenir des concepts lorsque la base a t suffisament compl t e quilibr e et raffin e 1 1 3 La microstructure des dictionnaires La structure logique de l article forme la microstructure du dictionnaire La microstructure varie beau coup selon les dictionnaires Elle peut tre vue comme une structure compos e d objets linguistiques Parmi ces objets nous pouvons trouver le mot vedette sa prononciation les cat gories grammaticales que peut avoir ce mot vedette nom pronom verbe adjectif adverbe etc des d finitions des traductions des exemples des collocations une tymologie des sens des gloses des tiquettes figur commerce phar macie a ronautique botanique etc des r gimes lexicaux des fonctions lexicales etc Un mot d crit dans un dictionnaire est appel vocable Les mots prennent tr s souvent plusieurs sens diff rents Par exemple le verbe blanchir a trois sens principaux blanchir des l gumes blanchir de l argent sale blanchiment et blanchir un v tement blanchissage Un sens de mot est aussi appel lexie Au vocable blanchir correspond donc trois lexies Le contexte d un article est constitu des articles qui pr c dent et suivent cet article selon la nomenclature du dictionnaire Il est souvent tr s utile lor
180. de d crire que deux niveaux dans une base lexicale le niveau de la base lexicale regroupant tous les dictionnaires et le niveau du dictionnaire Dans le cas d un dictionnaire bilingue bidi rectionnel il faut donc une description avec LEXARD pour chaque partie de dictionnaire Pourtant ces deux descriptions partagent beaucoup d informations en commun comme la date de cr ation l auteur de la ressource le domaine etc Extension de LEXARD Pour prendre en compte la m ta information sur les ressources ainsi que les informations sur les utilisa teurs nous tendons LEXARD de fa on triviale par ajout de champs Pour affiner la description d une base lexicale nous compl tons LEXARD en rajoutant un niveau dans la description avec le niveau base lexicale qui liste les dictionnaires de la base le niveau dictionnaire qui d crit un dictionnaire et le niveau volume qui d crit chaque volume de dictionnaire Les figures C4 C 5 et C 6 montrent un exemple d utilisation des fonctions LEXARD tendues 124 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires define lexical database GETA database owner GETA comment base lexicale h t rog ne du GETA creation date 22 10 99 users root MM GS CB groups universe administrators lexicologists partner servers XRCE analysers dictionaries FeM UNL fr Homerica FIG C 4 description d une base lexicale avec LEXARD tendu
181. de dictionnaires structures simples DicoSz t r et Nihongo 2 2 1 Pr sentation Int ress par les langues nous suivons r guli rement des cours de langues trang res Nous avons donc profit de ce terrain d exp rimentation pour d une part aider notre apprentissage avec des outils et d autre part pour tester des directions de recherche pour la conception d un environnement Nous avons ainsi con u des serveurs utilis s la fois pour la consultation et pour la r daction de nou veaux articles DicoSz t r est un serveur de dictionnaire pour apprenants du hongrois et Nihongo pour ap prenants du japonais Les buts principaux de ces exp riences sont la consultation et la construction en ligne des dictionnaires Les dictionnaires sont construits au fur et mesure de l apprentissage des mots par les participants aux le ons Ils sont aussi utilis s pour apprendre le vocabulaire et r viser les le ons pr c dentes Les parties consultation des serveurs DicoSz t r et Nihongo sont con ues selon l architecture DicoWeb Les parties r daction sont con ues de mani re analogue Les utilisateurs entrent les donn es en ligne l aide d un formulaire HTML Le serveur r cup re les donn es et les inclut dans les fichiers o sont stock s les dictionnaires Pour DicoSz t r deux dictionnaires bilingues sont en cours de construction un dictionnaire fran ais hongrois et un dictionnaire hongrois fran ais Chaque dicti
182. de l octet est 0 Les caract res compris entre U 0080 et U 07FF seront encod s avec deux octets le premier bit du premier octet est 1 cela indique qu il faut lire le deuxi me octet pour reconstituer le caract re etc Il devient alors possible de n utiliser qu une seule table de codage pour repr senter un dictionnaire mul tilingue comprenant par exemple du fran ais du japonais et de l arabe L utilisation d Unicode se r pand de plus en plus bien que la majorit des plates formes ne l utilisent pas encore en natif c est dire qu il faut toujours effectuer une transformation pour obtenir le caract re 56 A Contexte actuel de la dictionnairique 5 2 Pour la structure des documents le balisage 5 2 1 Le standard des diteurs SGML SGML ISO86 est un standard international pour la d finition de m thodes de repr sentation de docu ments sous forme lectronique C est un langage de balisage de l information l aide d tiquettes devenu une norme ISO en 1986 Ce standard a t principalement utilis dans le monde de l dition C est pourquoi on trouve principa lement des dictionnaires d usage encod s en SGML comme le NODE ou le OHD d crits plus haut C est un m talangage c est dire un moyen de d finir formellement un langage permettant la repr sentation d un document lectronique Il permet donc de d finir des ensemble d tiquettes autoris es et requises et
183. de la base DiCo 2 2 3 Articles interlingues les axies Les articles du dictionnaire interlingue relient les lexies monolingues des diff rentes langues ayant le m me sens Ce sont des acceptions interlingues ou axies Les axies ont une cat gorie s mantique pouvant prendre quatre valeurs diff rentes entit processus r sultat et tat DiCo anglais Dictionnaire interlingue DiCo fran ais Lexie river Lexie fleuve Lexie rivi re into sea x not into sea Axie 34 river icl gt into sea river icl gt not into sea FIG D 3 axies reli es par des liens de raffinement Les axies sont reli es entre elles par des liens de raffinement et de quasi synonymie h rit s des fonction lexicales de la lexicologie explicative et combinatoire Les liens de raffinement sont ventuellement d cor s par une glose en anglais expliquant ce lien Dans l exemple de la figure D 3 l axie 33 li e la lexie anglaise RIVER est reli e par des liens de raffinement aux axies 34 et 35 li es aux lexies fran aises RIVI RE et FLEUVE Le lien de raffinement de l axie 33 vers l axie 34 est d cor par une glose not into sea pas 2 Cahier des charges 179 dans la mer et l autre lien de raffinement de l axie 33 vers l axie 35 est d cor par la glose into sea dans la mer Ces gloses sont traduites puis utilis es pour g n rer la partie contrastive des dictionnaires bilingues
184. de la r vision le sp cialiste lexicographe pourra visualiser toutes les contributions sur un article ainsi que les annotations sur l article lui m me ainsi que sur les contributions Trois types de contribution sont possibles l import de lexiques ayant leur propre format l ajout de nouveaux articles et enfin les contributions sur une partie d article Import de lexiques Certains traducteurs d veloppent leurs propres lexiques priv s Ils peuvent contribuer en envoyant leurs lexiques la base Les soci t s ou laboratoires poss dant des ressources lexicales peuvent contribuer de la m me mani re Ces ressources ont un format propre Elles doivent tre r cup r s puis int gr s dans la base par un sp cialiste lexicographe Dans un premier temps les ressources sont r cup r es avec leur structure logique plus ou moins compl te puis certaines peuvent tre ajout es la soupe lexicale en cours de r vision Ajout de nouveaux articles Les lexicographes r digent de nouveaux articles directement au format de la base de donn es Ces ar ticles sont envoy s la base et stock s dans l espace priv du lexicographe sous forme de document XML Ils sont ensuite r vis s par un sp cialiste lexicologue puis int gr s dans la base Contributions sur des parties d articles Les contributions sur des parties d articles sont stock es avec leur date de cr ation dans l espace virtuel du contributeur sous forme de feuill
185. dictionnaires diff rents g n r s partir de la base ou externes Les consulteurs peuvent consulter gratuitement une partie de la base S ils veulent consulter toute la base personnaliser le r sultat de leurs requ tes ou extraire de nouvelles ressources de la base ils doivent payer avec les points qu ils ont gagn s au pr alable avec leurs contributions On d sire en fait que le serveur soit fait de telle sorte que les consulteurs soient incit s devenir contri buteurs et que cela soit tr s facile Il faudra donc viter de faire remplir un grand formulaire quelqu un qui d sire contribuer Une meilleure strat gie consiste demander chaque consulteur de s inscrire son premier acc s exactement comme le font les serveurs de courriel puis lui permettre de passer en mode contributeur n importe quand Les serveurs partenaires Ces serveurs changent des donn es avec la base pour enrichir leurs ressources Ils se rendent des ser vices mutuels selon les outils dont ils disposent Par exemple un analyseur morphologique est int ress par 116 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires les nouveaux mots qui sont int gr s dans la base et sur lesquels il n a pas d information En change il peut lemmatiser les mots des requ tes faites sur la base avant la consultation 1 2 3 Gestion des contributions Les contributions sont envoy es la base
186. donc que sur peu de machines Pour am liorer l accessibilit de l interface un clavier virtuel tha a t programm en java Il permet aux contributeurs travaillant sur une machine qui n est pas quip e de la m thode de saisie du tha de pouvoir quand m me r diger les articles en ligne Lors de la consultation un choix est propos l utilisateur pour le tha S il a des polices tha install es sur son ordinateur le serveur enverra le texte encod en TIS 160 encodage sp cifique au tha Si par contre son ordinateur n en est pas quip le 4 M thodes de construction de dictionnaires 53 serveur enverra alors des images au format gif repr sentant le texte tha la place La base lexicale a t initialis e avec des listes de mots japonais anglais et tha anglais Les liens initiaux ont t g n r s en calculant un score mesurant la similarit entre leurs d finitions anglaises La plupart du temps les lexicographes suppriment des liens existants incorrects C est un travail plus facile que d entrer de nouveaux liens Pour l instant 88 contributeurs se sont enregistr s sur le serveur La couverture actuelle est d environ 1 700 termes r vis s en ligne et de 2 000 termes r vis s hors connexion qui seront int gr s la base 4 5 3 Interface de consultation La figure A 41 montre un article de SAIKAM vu travers l interface de consultation 2 4 lt N Meaning Thai sruumuz
187. donn es 1 1 5 La pr sentation des informations 1 2 Exemples de dictionnaires usage humain 1 2 1 Un dictionnaire monodirectionnel trilingue le FEM 1 2 2 Un dictionnaire d usage monolingue le NODE 1 2 3 Un dictionnaire d usage bilingue le DHO 1 2 4 Un dictionnaire tr s complexe le DEC 1 2 5 Une simplification du DEC la base DiCo 1 2 6 Conclusion 1 3 Exemples de dictionnaires usage machinal 1 3 1 Un dictionnaire provenant de la traduction automatique le RUSFRA 1 3 2 Une base de donn es lexicales pour la phonologie BDLex 1 3 3 Une base de concepts multilingue la base M modata 1 3 4 Des bases lexicales utilisables en traduction automatique les bases UNL 1 3 5 Conclusion 2 Outils de consultation de dictionnaires 2 1 Applications de consultation sur ordinateur 2 1 1 Une application basique le Collins 2 1 2 Une application plus riche Oxford 2 1 3 Une application volu e MoBiDic 2 2 Consultation de dictionnaires sur Internet OMEliNE 0 ca Sen de bee due SUDET Des ee tee UE ae ii Table des mati res 2 2 1 Consultation simple du dictionnaire universel francophone 30 2 2 2 Consultation plus volu e d un dictionnaire EDict
188. dword anglais suivi ventuellement d une liste de restrictions illustrant un sens pr cis du mot vedette Un seul mot vedette regroupe donc plusieurs sens avec des restrictions diff rentes Chaque sens peut avoir des traductions dans chaque langue du projet Pour visualiser un mot vedette UNL ses diff rentes acceptions et leurs diff rentes traductions nous avons utilis un visualisateur d arbres hyperboliques d velopp par la soci t InXight Ce visualisateur permet de naviguer dans l arbre en cliquant sur les n uds et de relier des n uds des pages html gr ce des liens hypertexte C est une applet programm e en java qui lit un fichier texte repr sentant un arbre en entr e et l affiche l cran comme un arbre hyperbolique Il est possible de sp cifier les couleurs de chaque n ud et de chaque arc 3 2 2 Exemple d arbre hyperbolique L utilisateur demande un mot vedette Notre maquette consulte alors les dictionnaires UNL disponibles pour chaque langue et extrait toutes les acceptions correspondant au mot vedette demand ainsi que leurs traductions Un fichier texte repr sentant l arbre est ensuite construit la vol e puis affich l aide de l applet d arbre hyperbolique sur l cran de l utilisateur On peut ensuite naviguer dans arbre avec la souris Dans l exemple de la figure B 20 le mot vedette demand est le mot anglais desert Il est plac au centre de la figure et colori en
189. e L utilisateur choisit d abord le dictionnaire qu il veut consulter dans la liste en haut Ici nous avons s lectionn le Oxford Hachette anglais fran ais Il choisit ensuite le volume anglais gt fran ais ou fran ais 28 A Contexte actuel de la dictionnairique gt anglais Il peut enfin consulter le dictionnaire en tapant le d but du mot qu il cherche dans la case de recherche Oxford SuperLex pour Macintosh OHD OSD TE Le Dictionnaire Hachette Oxford Dictionnaire fran ais anglais abr g Ef abr ger abr gement M abr ger abreuver abreuvoir abr viation abri abribus abricot abricot abricotier abrit abriter abrogation abroger abrupt abr ger ab 1eZe fi verb table assiEger verbe transitif rendre court to shorten mot expr ession to summarize texte discours abrEger tElEvision en t l to shorten television to TV donner une version abr g e de qch to give an abridged version of sth donner qch sous une forme abrEgEe to give sth in abbreviated form terme to give sth in summarized form texte rendre bref to cut short sth j ai d abrEger ma visite I had to cut short my visit une crise cardiaque a abrEgE sa carriEre a heart attack cut short his career abrEgel keep it short abrEger les souffrances de qn to put an end to sb s suffering disons pour abrEger qu ils se sEparent to cut GB ou make Us a long story short let s jus
190. e DCB DCB Les objectifs du projet du DCB sont les suivants la r alisation d un dictionnaire bilingue canadien anglais francais fran ais anglais a l intention 46 A Contexte actuel de la dictionnairique d utilisateurs ayant de bonnes connaissances linguistiques dans les deux langues date de publica tion 2004 la constitution d une base de donn es de textes canadiens g n raux et sp cialis s en anglais et en francais la constitution d une base de donn es dictionnairique usages multiples le d veloppement de la recherche en lexicographie bilingue au Canada Trois universit s canadiennes sont impliqu es dans ce projet l universit d Ottawa l universit de Montr al et l universit Laval Les ateliers de r daction du dictionnaire sont situ s l universit de Montr al et l universit d Ottawa Les r dacteurs sont pour la plupart des tudiants en linguistique et traduction de ces deux universit s Ce projet a donn lieu de nombreuses publications Nous en avons utilis principale ment deux comme sources d information Langlois97 et Roberts99 4 2 2 Pr paration des articles Les donn es s lectionn es par les lexicographes pour un mot vedette sont compil es dans un article de format pr d termin Ce format qui correspond une DTD SGML est assez complexe car il est con u pour tenir compte de tous les renseignements qui peuvent figurer dans n impo
191. e analys s et int gr s dans la base Les outils construits pour cela analyse du RTF ont t tr s simples cr er du fait de l utilisation d un paragraphe par l ment d information Il a m me t possible dans un premier temps d utiliser les outils de Recherche Remplacement int gr s Word qui ont permis de cr er sans aucun effort des fichiers texte balis s utilisables directement par la base centrale La m thodologie employ e est sch matis e dans la figure A 34 4 M thodes de construction de dictionnaires 45 Cr ation des fichiers Word partir de donn es pr existantes Retour des fichiers corriger V rifications diverses FIG A 34 m thodologie de cr ation du FeM 4 1 3 Bilan de la m thode L utilisation d un traitement de texte simple a permis la construction de ce dictionnaire de 20 000 entr es dont 50 000 acceptions 10 000 exemples et 8 000 tournures partir d un brouillon initial par composition d un dictionnaire fran ais anglais et d un anglais malais Le principal avantage de cette m thode est sa simplicit Les principaux d veloppements informatiques ont port sur l exploitation de la base et non sur sa cr ation Le seul d veloppement n cessaire pour la cr ation de la base a t l analyse des fichiers Word RTF La distribution du travail entre les diff rents lexicographes est elle aussi tr s simple mais ce mode de distribution bas sur l ch
192. e family birthplace originator lt br gt Pe e fr house fr maison P lt br gt Fei 42 lower house of Parliament etc lt br gt Ed 95 n house one s own P lt br gt A HS A Lage Fr La the Blue House South Korea s presidential palace lt br gt FE PA 2 ro Speaker of the House US lt br gt 2x Fe BY MAEL n house and lot lt output gt 4 Int gration des outils de manipulation construction et consultation de dictionnaires 159 Interface de modification Les contributions regues par la base lexicale ne sont pas tout de suite int gr es dans les ressources Elles sont d abord stock es dans l espace virtuel du contributeur puis ventuellement annot es et remodifi es par d autres contributeurs puis finalement r vis es par un groupe de sp cialistes lexicologues Lorsqu elles sont accept es elles sont int gr es dans les ressources Comme ces ressources peuvent tre distantes Il faut une API pour pouvoir se connecter aux serveurs qui les g rent et leur envoyer les modifications accept es Voici une API de modification du dictionnaire hongrois fran ais DicoSz t r d crit en partie B lt api type supplier category modification name DicoSz t r gt lt info gt Dictionnaire hongrois francais lt intfo gt lt url href http www clips imag fr geta services dicoszotar gt lt protocol type post login getabase password toto gt lt encoding input ISO 8859 1 gt
193. e A 39 pr sente une lexie et permet de l diter L dition des fonctions lexicales est une t che difficile lorsque les lexicographes travaillent sur un traitement de texte Il faut faire attention bien mettre les majuscules au bon endroit passer en exposant ou en indice les parties qui doivent l tre etc Bref au lieu de travailler sur la signification d une fonction lexicale le lexicographe travaille sur sa forme Avec DECID le lexicographe peut diter la fonction Perm IncepReal3 usual simple ment en tapant la s quence permlincepreal3 usual La mise en forme est totalement prise en charge par le logiciel 4 4 3 Discussion Cet diteur d j utilisable utilis et utile n est qu une premi re tape vers un outil plus ambitieux Il faudrait le doter d un syst me de v rification de contraintes de coh rence et l int grer des outils plus 4 M thodes de construction de dictionnaires 51 Oo HA ACHAT nom masc la E m Achat par X de Y Z pour W S d Ofld acheter 1 C tait justement l achat d un troussau que retardait un peu son arrivee F Mauriac La reine le prie de Iui avancer l argent pour achat de catte parure dont elle r ve Le gouvernement autorise l achat de nouvelles machines agricoles pour soixante millions de francs L achat d une voiture repr sente pour lu un gros sacrifice d argent L achat d quipement la semaine derni re s est leve 2 000 000 kg sym
194. e C 18 est repr sent en XML de la fa on suivante lt automaton xmlns xl http www w3 org 1999 xlink xl type extended gt lt nodes gt lt node xl type locator xl title starting node xl label 1 gt lt node xl type locator xl label 2 gt lt node xl type locator xl label 3 gt lt node xl type locator xl label 4 gt lt node xl type locator xl label 5 gt lt node xl type locator xl title ending node xl label 6 gt lt nodes gt lt arcs gt lt arc xl type arc type oriented xl from 1 xl to 2 gt N lt arc gt lt arc xl type arc type oriented xl from 2 2 D finition du noyau de l environnement avec SUBLIM 141 x1 to 3 gt N lt arc gt are xl type arc type oriented xlifrem 2 aito 4 se Via E faro Rare xlitype arc type oriented xl from 2 xl to 5 gt epsilon lt arc gt are xlitype arc type oriented xigirem 3 xl to 6 gt 4 N lt arc gt arc x1 type arc type oriented xl from gt 3 xl to 6 gt epsilon lt arc gt are Elitype arc Eype oriented li from 4 xl to 6 gt 4 N lt arc gt xarc xl type arc type oriented xl from 5 xlzto 6 gt N rare lt fares gt lt arcs gt lt automaton gt Fonctions L exemple suivant repr sente la fonction lexicale lambda x1 CausOper x0x1 d finie par Igor Mel tchuk Mel tchuk95 Cette fonction signifie pour un mot cl qui est un nom de sentiment faire en sorte qu
195. e ci n est pas explicitement compr hensible et elle peut tre ambigu 1 Notions du domaine 17 A Voeabl AVERSE nom f m a N de lexie litt Averse de X Chute abondante et soudaine d un liquide X qu tombe en gouttes dispers es comme si c tait une averse IIA Magn X Figur X X larmes T Formule Regime s mantique TF d crivant la lexie i dN BER h bia syn xique S pem agents logiques C une averse de larmes 1 Averse de est obligatoirement Fonctions lexicales suivi d un nom NB Les expressions r pandre lt une averse de larmes gt sont en fait des FL de LARME et seront d crites dans l article de dictionnaire de ce dernier lexeme Fonction lexicale Syn pluie II 1 appliqu e sur Voc verser N X w Averse R sultat de andre aie P nc la fonction CausFunc d clencher une chez N Pluie synonyme Exemples de Averse chaque peine d amour elle r pand une averse de larmes La nouvelle d clencha chez elle une averse de larmes FIG A 9 extraits du vocable averse du DEC en HTML 1 2 5 Une simplification du DEC la base DiCo Introduction Les r cents travaux d Alain Polgu re Polgu re00 sur la construction de bases lexicales pour des lingui ciels et la r daction de dictionnaires publics g n raux sont une application directe de la lexicologie explica tive et combinatoire Mel tchuk95 Le projet DiCo vise construire une base lexicale du fran ais de
196. e de style XSL Pour visualiser la contribution la feuille de style est appliqu e sur l article portant la contribution Il est aussi possible de visualiser plusieurs contributions En effet il suffit d appliquer les feuilles de style suivant l ordre chronologique des dates de cr ation Dans l exemple suivant le contributeur souhaite ajouter un exemple d usage cette lexie dont la struc ture correspond celle d crite dans la section 2 3 3 Voici la lexie d origine lt lexie id meurtre 1 gt 3 Paradigme de construction coop rative 151 lt headword gt meurtre lt headword gt lt government pattern gt lt lexical functions gt lt axies gt lt refaxie href a001 gt lt axies gt lt examples gt lt lexie gt L exemple est le suivant Soupgonn du meurtre de son pouse il a t arr t par les gendarmes mer credi Il sera ajout l l ment lt exemples gt de la lexie meurtre 1 Voici la feuille de style XSLT permettant d ajouter cet exemple la lexie meurtre 1 lt xsl stylesheet gt lt xsl output method xml gt lt xsl template match priority 1 gt lt mod le par d faut recopie 1 l ment et son contenu gt lt xslscopy gt lt xsl apply templates select text gt lt xsl copy gt lt xsl template gt I mod le de la contribution gt lt xsl template match lexie id meurtre 1 examples gt lt xsl copy gt lt xsl apply templates sele
197. e dictionnaire L l ment lt ent__seq gt est un identificateur unique de l article L l ment lt k_ele gt regroupe les informations concernant l criture en kanji du mot vedette L l ment lt r_ele gt regroupe les l ment concernant l criture en kana du mot vedette entry gt 5 Evaluations pr liminaires et exemples lt ent_seq gt 1259660 lt ent_seq gt lt k_ele gt ckeb gt FUT lt keb gt lt ke_pri gt ichil lt ke_pri gt lt ke_pri gt jddl lt ke_pri gt lt k_ele gt lt r_ele gt lt reb gt ao 5 lt reb gt lt re_pri gt ichil lt re_pri gt lt re_pri gt jddl lt re_pri gt lt r_ele gt lt sense gt lt gloss gt to abandon lt gloss gt lt gloss gt to fail lt gloss gt lt gloss gt to desert lt gloss gt lt sense gt lt entry gt 5 2 2 Lexie japonaise provenant de l article Cet article est r parti en une lexie japonaise lt lexie id mizuteru 1 basic yes gt lt headword gt ART 4 lt headword gt lt kun yomi gt RIT 2 lt kun yomi gt lt jmdict data gt lt ent_seq gt 1259660 lt ent_seq gt lt ke_pri gt ichil lt ke_pri gt lt ke_pri gt jddl lt ke_pri gt lt re_pri gt ichil lt re_pri gt lt re_pri gt jddl lt re_pri gt lt 3jmdict data gt lt axies gt lt refaxie href a44 gt lt axies gt lt lexie gt Cette lexie est reli e l axie a44 5 2 3 Lexies anglaises provenant de l article 207 L article g n re trois
198. e du c t des utilisateurs de dictionnaires en tudiant plusieurs outils de consul tation Certains dictionnaires comme le Collins on line ou le Oxford Hachette Corr ard94 sont consultables par des applications install es localement sur des postes de travail D autres sont accessibles via des serveurs Web sur Internet comme le site dictionary com Ces outils ont des limitations Nous verrons les am liorations ventuelles que l on pourrait effectuer Nous continuons cette partie en nous pla ant du c t des lexicographes et lexicologues qui construisent les dictionnaires Nous tudions les m thodes de manipulation de dictionnaires d crites dans la th se de Ha Doan Nguyen Doan Nguyen98a Elles permettent d une part de r cup rer des dictionnaires c est dire de les transformer de leur format d origine vers un format plus facile manipuler et d autre part d effectuer des op rations ensemblistes sur plusieurs dictionnaires Nous tudions ensuite plusieurs techniques de construction de dictionnaires Certaines fonctionnent di rectement via le Web le projet SAIKAM de dictionnaire japonais thai SAIKAM D autres utilisent des diteurs de texte classiques comme Word technique du dictionnaire fran ais anglais malais Gut96 des diteurs de documents structur s SGML technique du dictionnaire bilingue canadien Roberts99 ou encore des diteurs sp cialis s con us de fa on ad hoc DECID pour le DEC Ensui
199. e du serveur Papillon Les listes de distribution de courrier lectronique sont archiv es et stock es dans la base de donn es du serveur Papillon Les archives sont ensuite consultables directement via le Web Pour g rer l archivage des courriers nous utilisons MHonArc MHonArc Il a fallu modifier le code source pour pouvoir convertir tous les courriers en Unicode UTF 8 avant de les stocker dans la base 198 D Application Papillon projet de base lexicale multilingue sur Internet Enfin le serveur Papillon est accessible par le Web Le serveur est une combinaison des serveurs Apache pour les objets statiques et Enhydra pour les objets dynamiques Enhydra Enhydra est un serveur Web dynamique java disponible selon les termes d une licence de logiciel libre OpenSource 4 2 2 Organisation de la base de donn es Le choix d une base de donn es relationnelle traditionnelle a t fait en attendant que se g n ralisent les bases de donn es XML int grant des outils de manipulation comme DOM XLink XPointer et Xpath Des projets sont en cours comme XML DB XML DB X Hive X Hive ou encore Tamino Tamino Poids Historiques aaa aaa Arau 1 5002 250 3000 Voir 1 3220 352 155 Base lexicale users Dicos Volumes l ments Articles CDM Contributions Annotations FeM FeM Meurtre EDict Arau Dico fra Sentaku Pap fra Verbe Pap jpn Nom Pap eng Adj Pap tha Pap lao Users Dictionnaires onf
200. e entre autres le login le mot de passe l adresse lectronique les cr dits et les groupes auxquels appartient l utilisateur et ses pr f rences stock es sous forme de feuilles de style XSL et CSS La table des historiques permet de stocker les historiques de tous les l ments DML ayant un attribut history La cl de chaque entr e est l identificateur de l historique Pour l instant les poids sont stock s dans une table part Cette table reprend les principes du poids sur les l ments expos s en partie C Cette m thode a cependant ses limites En effet il ne sera pas possible de stocker chaque poids si la base compte par exemple 300 000 l ments et 3 000 utilisateurs diff rents qui personnalisent ces poids On arrive alors un volume de donn es d passant le t raoctet Il faudra alors trouver un autre moyen de stockage comme des listes de poids pour chaque l ment ou des matrices creuses 4 2 3 Utilisation de la base lexicale Les donn es linguistiques sont stock es dans la base de donn es sous forme de texte XML Ces donn es sont accessibles selon plusieurs cl s Ces cl s correspondent aux l ments communs de l ensemble CDM qui se trouvent dans les donn es La liste des l ments de cet ensemble est d finie en partie C Un article sera par exemple directement accessible selon le mot vedette la prononciation la cat gorie grammaticale les traductions les idiotismes Sinon les autres informations sont
201. e filtrer corriger valider et int grer les contributions de tous en fonction bien s r des comp tences de chacun 6 La base est aliment e au d part par la r utilisation de ressources lexicales informatis es libres de droits Il est ainsi pr vu de r cup rer en 2001 2002 les ressources informatis es existantes suivantes le JMDict de Jim Breen compos de 70 000 articles japonais gt anglais le FeM compos de 20 000 articles et 50 000 lexies fran ais gt anglais le dictionnaire du projet SAIKAM d environ 4 000 articles japonais lt gt tha Ensuite les foncionnalit s de contribution lexicale g n ralis e seront mises en route quand un noyau suffisant aura t r alis 7 La base fonctionne en source ouverte Les utilisateurs sont encourag s contribuer Chaque contri bution effective valid e augmente un capital de points initial Chaque extraction d un dictionnaire sous forme de fichier diminue ce capital de points La consultation reste gratuite Les utilisateurs peuvent de cette fa on contribuer en mettant disposition de tous leurs propres lexiques personnels sous forme de contributions 8 Les liens sont construit de fa on pragmatique Une axie n est pas un concept mais a vocation le devenir Les axies liens interlingues refl tent au d part des relations de traduction Si un contributeur s aper oit qu il s agit de synonymes quasi parfaits donc qu ils correspondent au m me concept on 1
202. e in MULTI LEX Centre for Computational Linguistics UMIST novembre 1991 30 p Fellbaum98 Christiane Fellbaum 1998 WordNet an Electronic Lexical Database MIT press Cambridge MA 500 p Fischer98 Laurent Fischer amp Georges Fafiotte 1998 BLAK un assistant de d couverte des caract res chinois fonctionnant par acc s dynamique des ressources lexicales Proc NLP IA 98 Moncton N B Canada 18 21 ao t 1998 vol 1 2 pp 13 17 Gaschler94a Jean Gaschler amp Mathieu Lafourcade 1994a Manipulating Human Oriented Dictionaries with Very Simple Tools Proc COLING 94 Kyoto Japon vol 1 2 pp 283 286 Gaschler94b Jean Gaschler amp Mathieu Lafourcade 1994b A Case of Building and Manipulating a Dic tionary with Very Simple Tools the FEM Dictionary Proc Proc ICLA Penang Malaysia 26 28 July 1994 vol 1 1 pp 34 37 GENELEX93 GENELEX 1993 Projet Eureka Genelex mod le s mantique Rapport Technique Projet Eureka Genelex mars 1994 185 p Gsi93 GSI ERLI 1993 Le dictionnaire AlethDic Version 1 5 62 p Gut96 Y van Gut Puteri Rashida Megat Ramli Zaharin Yusoff Chuah Choy Kim Salina A Samat Christian Boitet Nicolas N dobejkine Mathieu Lafourcade et al 1996 Kamus Perancis Melayu Dewan dictionnaire francais malais Dewan Bahasa Dan Pustaka Kuala Lumpur 667 p Heid92 Ulrich Heid M Hein amp O Christ 1992 Extracting linguistic information from machine readable versions of t
203. e interm diaire pointant sur chaque lexie fusionn e figure D 16 Par contre si ses connaissances lui permettent de d cider que deux axies peuvent tre reli es par des liens de raffinement il modifie les axies en ajoutant ces liens entre les axies existantes voir figure D 17 210 D Application Papillon projet de base lexicale multilingue sur Internet Axie 45 Axie 46 to give up 1 to desert 1 to abandon 1 FIG D 16 ajout d axies interm diaires abandonner 3 abandonner 2 Axie 41 Axie 42 to give up 1 to fail 1 to desert 1 to abandon 1 FIG D 17 ajout de liens de raffinement entre axies Conclusion Conclusion 213 Nous avons pr sent dans cette th se un environnement centralis et distribu de r cup ration manipu lation construction et consultation de ressources lexicales h t rog nes et multilingues Cet environnement r pond aux probl mes complexes de structuration et manipulation de donn es h t rog nes de visualisa tion d une grande quantit de donn es et de construction en collecticiel par des personnes aux comp tences diverses contr l e par un groupe central de lexicologues Nous avons d abord r solu s par ment ces probl mes gr ce des exp rimentations vari es sur la consul tation de ressources h t rog nes l enrichissement et personnalisation du r sultat ainsi que la construction de ressources Notre e
204. e notation XML puis son architecture g n rale en montrant quels outils il est possible d utiliser Enfin nous d taillons les interactions des diff rents utilisateurs avec notre environ nement pour consulter et construire des dictionnaires Dans la derni re partie intitul e Application de notre environnement Papillon projet de de base lexi cale multilingue sur Internet nous appliquons nos outils sur un cas concret de construction d une base lexicale multilingue pour le projet Papillon Nous pr sentons d abord l historique les buts et l architecture g n rale du projet Papillon Nous d finissons ensuite les principes lexicologiques puis nous pr sentons les sp cifications externes ainsi que l analyse g n rale et l impl mentation du projet Nous terminons par des valuations pr liminaires au projet Probl mes particuliers int ressants Dans cette th se nous identifierons certains probl mes durs tels que la structuration et la manipulation de donn es h t rog nes la visualisation d une grande quantit de donn es et la construction en coop ration par des personnes aux comp tences diverses Nous r soudrons s par ment ces probl mes gr ce des exp rimentations vari es sur la consultation de ressources h t rog nes l enrichissement et personnalisation du r sultat ainsi que la construction de res sources en Coop ration Nous serons ensuite en mesure de concevoir un environnement r pondant t
205. e nouvelles directions bilan et cahier des charges d un environnement avanc nous explorons plusieurs directions de recherche sur la consultation et la construc tion de dictionnaires Nous exposons d abord nos travaux sur la consultation en ligne de ressources lexicales h t rog nes locales ou distantes Ensuite nous d taillerons deux m thodes de construction de dictionnaires l une d mocratique et l autre en ligne pour des dictionnaires avec des structures simples Nous relatons Pexploration de plusieurs outils d aide la consultation comme des correcteurs orthographiques des anno teurs de documents des conjugueurs des plug ins etc Enfin nous tablissons le cahier des charges d un environnement plus g n rique en tirant le bilan de nos exp riences Dans la troisi me partie intitul e Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires nous sp cifions et de d finissons un environnement complet de manipulation cr ation et consultation de dictionnaires Nous dressons d abord la liste des sp cifications de notre envi ronnement provenant de nos diverses exp riences Nous d taillons ensuite le syst me de bases lexicales SUBLIM qui r pond en grande partie nos sp cifications du point de vue de l architecture interne de notre environnement tout en soulignant ses manques pour nos objectifs Nous d crivons ensuite l architecture in terne qui reprend SUBLIM avec un
206. e ordinateur Conception et R alisation DCS University of Sheffield Royaume Uni 10 f vrier 1997 9 p Curbow95 D Curbow amp E Dykstra Erickson 1995 The OpenDoc User Experience MacTech Volume 22 juin 1995 pp 83 97 Descotte00a Sylvianne Descotte Jean Luc Husson Laurent Romary Marc Van Campenhoudt amp Nadia Viscogliosi 2000 Dhydro a generic environment developed to edit and access multilingual terminological data on the Internet 2e Ccnf rence internationale sur la terminologie maritime Turku Finlande mai 2000 11 p Descotte00b Sylvianne Descotte Jean Luc Husson Laurent Romary Marc Van Campenhoudt amp Nadia Viscogliosi 2000 From specialised lexicography to conceptual databases which format for a multilingual maritime dictionary 2e conf rence internationale sur la terminologie maritime Turku Finlande mai 2000 17 p Doan Nguyen96a Hai Doan Nguyen 1996a Transformations in Dictionary Resources Accumulation Towards a Generic Approach Papers in Computational Lexicography COMPLEX 96 Lin guistics Institute Hungarian Academy of Sciences Budapest Hongrie 1996 pp 29 38 Doan Nguyen96b Hat Doan Nguyen 1996b Towards a Generic Approach to the Problem of Dictionary Resources Accumulation Informatique et Langue Naturelle ILN 96 Nantes 1996 pp 209 218 Doan Nguyen98a Hai Doan Nguyen 1998a Techniques g n riques d accumulation d ensembles lexicaux structur s partir de r
207. e permet de visualiser le contenu de plusieurs ressources la fois De plus du fait de l utilisation directe du format d origine nous n avons pas besoin de 78 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc r cup rer les ressources pour les transformer dans un autre format La fid lit par rapport l original est aussi garantie Enfin il n y a pas de perte d information La transformation la vol e des pages permet de faire rapidement des modifications dans la pr sentation du r sultat Nous avons la possibilit d acc der aux articles pr c dant et suivant l article visualis selon la nomenclature du dictionnaire Inconv nients Cette technique ne permet pas d utiliser n importe quelle structure Il faut qu elle soit simple et lisible par l humain pour que l on puisse la transformer ais ment Ces structures doivent tre du genre SGML HTML ou des structures textuelles aussi simples Il est impossible de manipuler les ressources car elles ont des formats diff rents Par exemple la fusion d articles correspondant au m me mot vedette mais provenant de ressources diff rentes est impossible Nous devons utiliser les ressources telles quelles Nous demandons un article la fois et nous le transformons S il fallait transformer toute la ressource avant de l utiliser nous ne pourrions pas utiliser ce type de serveur car il ne permet jamais d ac
208. e quelqu un prouve Les r sultats de son application la lexie D SESPOIR sont les suivants pousser r duire quelqu un au d sespoir jeter quelqu un dans le d sespoir frapper quelqu un de d sespoir La fonction est not e en XML de la fa on suivante lt function name CausOper gt lt arguments gt lt first value desespoir gt lt arguments gt lt valgroup gt lt value gt pousser lt value gt lt value gt r duire qqun au d sespoir lt value gt lt value gt jeter qqun dans le d sespoir lt value gt lt value gt frapper qqun de d sespoir lt value gt lt valgroup gt lt function gt Structures de traits Les structures de traits sont not s en XML par des l ments Si les traits sont typ s le type est not par un attribut si le trait a plusieurs valeurs l l ment est dupliqu lt traitl type typel gt valeurl lt traitl gt lt traitl type type2 gt valeur2 lt traitl gt Ensembles Les ensembles sont d finis au niveau de la d finition des documents Dans un sch ma XML les en sembles sont not s de la facon suivante lt complexType mixed yes name jours feri s gt lt choice minOccurs 0 maxOccurs unbounded gt 142 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires lt element name samedi type string gt lt element name dimanche type string gt lt choice gt lt complexType gt Cet exemple d finit
209. e ref d history use optional gt lt attribute ref d history ref use optional gt lt complexType gt lt element gt lt partner servers element gt lt Lists all the users or groups that have the rights to exchange some data with the database The partners are other programs 2 Sch ma XML de DML 239 databases lemmatizers etc not humans gt lt element name partner servers gt lt complexType gt lt choice minOccurs 0 maxOccurs unbounded gt lt element ref d group ref gt lt element ref d user ref gt lt choice gt lt complexType gt lt element gt as users element gt lt Lists all the various users of the database gt lt element name users gt lt complexType gt lt sequence minOccurs 0 maxOccurs unbounded gt lt element ref d user ref gt lt sequence gt lt complexType gt lt element gt lt group ref element gt lt This element is used to make a reference to a group of the database gt lt element name group ref gt lt complexType gt lt attribute name name type string use optional gt lt complexType gt lt element gt lt groups element gt lt l Lists all the various groups of the database gt lt element name groups gt lt complexType gt lt sequence minOccurs 0 maxOccurs unbounded gt lt element ref d group gt lt sequence gt lt
210. e sont jamais disponibles Le r sultat des requ tes n est pas personnalisable par Putilisateur Tous ces inconv nients sont compr hensibles dans le cas de serveurs Web car les propri taires des dictionnaires ne veulent pas que l on puisse pirater enti rement leurs ressources 3 Outils de manipulation de dictionnaires 37 3 Outils de manipulation de dictionnaires Nous nous int ressons maintenant aux outils qui permettent de manipuler des dictionnaires d j exis tants Le plus souvent on d sire r utiliser des dictionnaires existants en les transformant et en les combinant suivant plusieurs op rations comme la fusion ou l intersection Il existe des progr s r cents dans la r cup ration et la fusion comme R CUPDIC et PRODUCDIC Doan Nguyen98a 98b Ces m thodologies ont t d crites par Hai Doan Nguyen dans le cadre de sa th se 3 1 Une m thode de r cup ration de dictionnaires R CUPDIC 3 1 1 Pr sentation Cette m thodologie permet de r cup rer un dictionnaire dans son format d origine et de le transformer en une structure plus profonde o toute l information est explicite Elle inclut deux tapes principales la transduction utilise des outils du type des macros Word base de rechercher remplacer pour nettoyer le dictionnaire marquer le plus d information possible et produire un fichier en format texte pur ASCII Ainsi pourra tre remplac par Symbol_S ou toute autre notation
211. e unl fran ais DIC charge en m moire un diction naire QUIT ferme la connexion TRAN parametres UNL graphe unl UNL traduction d un graphe UNL UWLS uw recherche les traductions en fran ais d une UW UWTR uw recherche une traduction en frangais d une UW Le processus fils traite la requ te et renvoie la r ponse au client 4 2 3 Exemples de sessions Lorsque le serveur de d conversion des graphes UNL en nonc s fran ais re oit un graphe UNL il analyse le graphe et en extrait les UW qu il contient Il se connecte ensuite au serveur du dictionnaire UNL fran ais en ouvrant une session Telnet Dict avec la commande telnet silfide imag fr 2628 Il s identifie avec la commande AUTH envoie la liste des UW traduire en fran ais avec la commande UWLS Lorsqu il regoit le r sultat il ferme la session avec la commande QUIT Lorsque l administrateur du serveur de dictionnaires souhaite mettre jour le dictionnaire il peut aussi le faire distance Pour cela il se connecte au serveur du dictionnaire UNL fran ais en ouvrant aussi une session Telnet Dict Il s identifie avec la commande AUTH il envoie le nouveau dictionnaire avec la com mande LOAD et ferme la session avec la commande QUIT 4 3 Consultation par un outil de recherche Sherlock 4 3 1 Pr sentation L application Sherlock sur Macintosh consulte automatiquement de nombreux CGIs distants Elle per met d eff
212. e xlink XLink 1 0 Nous ajoutons aussi nos propres attributs l attribut type bidirectionnal ou type oriented indique si le lien est bidirectionnel ou non l attribut id est du type des sch mas XML ID Il permet d attribuer un identificateur unique chaque lien Cet indentificateur sera utilis par la suite pour impl menter des syst mes de r seaux pond r s le texte de l l ment permet d tiqueter les liens 140 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires Voici un exemple de lien lt link type oriented id 1001 href example xml xpointer node x1 label n002 gt La r f rence l l ment externe se fait avec l attribut href La r f rence est not e sous forme d URI Si l objet n a pas d identificateur unique id le lien est d crit en suivant la norme XPointer XPointer Sinon il est point de cette fa on lt link type oriented id 1001 href example xml n002 gt Automates La d finition d un automate suit celle d un graphe Le n ud de d part est not avec l attribut xl title starting node Les n uds d arriv e sont not s avec l attribut xl title ending node L exemple de la figure C 18 repr sente le r gime de la lexie ENSEIGNER X enseigne Y Z Mel tchuk95 f I Y I Z N rare FIG C 18 r gime d ENSEIGNER sous forme d automate L automate de la figur
213. ec une granularit relativement grossi re Ils seront ensuite analys s pour trouver les informations n cessaires 5 3 Contraintes d impl mentation Nous voulons laborer un environnement qui soit le plus portable possible Sa conception doit s appuyer sur un maximum de standards De plus nous souhaitons manipuler des structures h t rog nes avec les m mes outils Nous avons donc besoin d un syst me g n rique de structuration des donn es lexicales 5 3 1 Utiliser la technologie XML pour manipuler les donn es Le format standard l heure actuelle pour la structuration des donn es est XML XML 1 0 Son im portance croissante dans le domaine de l informatique nous incite fortement l utiliser pour manipuler les donn es Il nous semble int ressant pour plusieurs raisons compatibilit et portabilit XML est une recommandation du consortium W3C Les outils compa tibles avec cette recommandation peuvent donc lire tous les documents XML valides utilisation d UNICODE Nous pouvons utiliser le standard UNICODE avec le codage UTF 8 par exemple directement dans les fichiers XML Nous pourrons donc facilement repr senter des diction naires multilingues 5 Conclusion cahier des charges d un environnement unifi 107 multiplicit des normes et recommandations autour de XML XML a donn naissance d autres normes et recommandations qui l utilisent directement comme XML Namespace XSL XPA
214. echnologies de l infor mation des mod les de donn es terminologiques ISO 12620 Cat gories de donn es ISO 12200 MARTIF Melby94 ISO99b le format d encodage XML XML 1 0 et des techniques de transfor mation de documents structur s par des feuilles de style XSL XSLT 1 0 la param trisation sous la forme de documents XML de la totalit des donn es manipul es la mise en uvre d un sc nario ditorial aussi coh rent et robuste que possible et la r partition claire des responsabilit s de chaque type d acteur consultant r dacteur administrateur implication continue et soutenue des utilisateurs finals dans les phases de tests de ces outils gr ce la mise en place d un espace interactif de discussion entre utilisateurs experts et cr ateurs de termi nologie hydrographique 6 2 Int gration de lexiques et de bases terminologiques SALT 6 2 1 Pr sentation SALT Standards based Access to multilingual Lexicons and Terminologies SALT est un projet com mun de la NSF et du cinqui me PCRD de la communaut europ enne Commenc en 1999 il se terminera en 2001 Les membres principaux du projet c t europ en sont l Institut f r bersetzer und Dolmetscheraus bildung de l universit de Vienne l Institut f r Informationsmanagement Fachhochschule de K ln l Acca demia Europea di Bolzano University of Surrey le LORIA l Institut der Gesellschaft zur F rderung der Ange
215. ectuer des recherches sur plusieurs moteurs de recherche en parall le ce qui est un gain de temps consid rable Sherlock utilise des plug ins pour se connecter aux diff rents CGIs impl mentant des moteurs de recherche dans des domaines tr s vari s Notre application DicoWeb peut tre consid r e comme un moteur de recherche dans un dictionnaire Comme cette application est disponible sur le Web et fonctionne via un CGI nous avons pu d velopper un plug in pour Sherlock qui peut consulter notre serveur DicoWeb automatiquement Cela permet de tester Putilisabilit de DicoWeb par une autre application cliente 102 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc 4 3 2 Le plug in Sherlock Un plug in est un fichier texte balis en pseudo XML et rang dans un dossier sp cial utilis par l ap plication Sherlock Dans ce fichier nous devons indiquer les param tres que Sherlock doit utiliser pour consulter l application DicoWeb Notre plug in est pr sent dans la figure B 27 lt pseudo XML d APPLE pour Sherlock gt search name DicoWeb FeM action http clips imag fr cgi bin geta dicoweb dicoweb pl method get gt lt input name SOURCE value fr gt lt input name RESEARCH value dict gt lt input name FORMNAME value sherlock internal gt lt input name FEM value on gt lt input name ENTRY user gt lt interpret bannerStart lt
216. ed both hours and minutes must be present For example to indicate 1 20 pm on May the 31st 1999 for Eastern Standard Time which is 5 hours behind Coordinated Universal Time UIC one would write 1999 05 31T13 20 00 05 00 gt lt simpleType name date gt lt restriction base dateType gt lt simpleType gt lt delay attribute gt lt indicates the delay when querying the element wearing this attribute eg 5 seconds Maybe the type could be a time type gt lt attribute name delay type d durationType gt lt durationType type gt lt indicates a duration eg 5 seconds and 10 cents 5 10S I took the duration type of sxml schema PB if gt to 24H it takes days It must be revised gt lt simpleType name durationType gt lt restriction base duration gt lt simpleType gt lt id attribute gt ll the elements with the ID attribute have a unique ID for all the lexical database gt lt attribute name id type ID gt lt history attribute gt lt The history attribute is used to link an element with its history log file where all the changes are stored gt lt attribute name history type ID gt lt history ref attribute gt 236 lt lt lt it is the simple del Annexe A sch ma XML pour DML The history ref attribute is used to reference the file where all the changes are store
217. ef http www xrce xerox com research mltt demos french cgi gt 4 Int gration des outils de manipulation construction et consultation de dictionnaires 157 lt protocol type get login toto password foo gt lt delay min 1s average 1s max 2s timeout 10s gt lt encoding input ISO 8859 1 output IS0 8859 1 gt lt format input txt output txt gt lt arguments gt lt element name input type string gt lt arguments gt lt result gt lt element name output gt lt complexType gt lt sequence maxOccurs unbound gt lt element name lemma type string gt lt sequence gt lt complexType gt lt element gt lt result gt lt api gt Voici un exemple d argument lt input gt cochons lt input gt Voici le r sultat obtenu lt output gt lt item gt lt lemma gt cocher lt lemma gt lt analysis gt Imp PL P1 Verb lt analysis gt lt item gt lt item gt lt lemma gt cocher lt lemma gt lt analysis gt IndP PL P1 Verb lt analysis gt lt item gt lt item gt lt lemma gt cochon lt lemma gt lt analysis gt Masc PL Adj lt analysis gt lt item gt lt item gt lt lemma gt cochon lt lemma gt lt analysis gt Masc PL Noun lt analysis gt lt item gt lt output gt 4 2 3 Fournisseur de ressources Les ressources distantes peuvent tre consultables par la base mais aussi modifiables Nous avons donc pr vu un type d API pour chaque t che 158 C
218. eflexie gt N lt surface gt lt surface gt A poss lt surface gt lt surface group gt lt actor gt lt mod gt lt government pattern gt lt lexical functions gt lt function name V0 gt lt valgroup gt lt reflexie href ftuer 1 gt tuer lt reflexie gt lt valgroup gt lt jEunection gt lt lexical functions gt lt examples gt lt example id el gt C est ici que le double meurtre a t commis lt example gt lt examples gt lt full idioms gt lt idiom id 11 href papillon axi xml i04 gt appel au meurtre_ lt idiom gt lt full idioms gt lt axies gt lt refaxie href papillon axi xml a01 gt lt axies gt lt lexie gt Cette lexie n a pas encore t modifi e Elle ne porte donc pas d autres attributs history que celui de l l ment lt lexie gt indiquant sa provenance Aucun poids n a encore t calcul La lexie ne porte donc pas non plus d attributs id sur tous les l ments susceptibles de porter un poids Lorsque nous voudrons int grer des informations plus fines provenant d autres dictionnaires en parti culier des informations qui ne sont pas dans les sch mas de Papillon nous ajouterons pour chaque diction naire un l ment suppl mentaire portant son nom regroupant ces informations directement dans l l ment lt lexie gt Ces informations pourront tre r utilis es afin de reg n rer les dictionnaires d origine 4 Analyse g n rale et im
219. ellement de cr er pour leurs propres besoins des dictionnaires usage humain Les serveurs Web proposant la consultation en ligne de dictionnaires se d veloppent sur Internet pour r pondre cette demande mais l aussi leur grand nombre et la quasi impossibilit de configurer le r sultat des requ tes lanc es sur ces serveurs ou de modifier les donn es de ces serveurs freinent les utilisateurs La consultation de dictionnaires non plus imprim s mais accessibles sur ordinateur peut tre consid ra blement enrichie gr ce des outils disponibles sur l ordinateur Il n est maintenant plus n cessaire de se limiter la recherche d un article correspondant un mot pr cis Il est possible de faire des recherches multicrit res avec pr traitement de la requ te et d obtenir plusieurs articles ordonn s selon un certain crit re La d mocratisation d Internet la baisse des prix des ordinateurs familiaux et le succ s des discussions en ligne rendent maintenant possible le travail collaboratif des internautes depuis leur domicile De plus il est aussi envisageable gr ce l esprit communautaire et libre d Internet de trouver des contributeurs travaillant b n volement pour le d veloppement de ressources libres de droits Int r t de notre travail Le regroupement des ressources lexicales aux formats h t rog nes stock es localement ou distance est une premi re tape indispensable leur manipulation et leur r
220. enance gt lt xsl value of select provenance gt lt xsl attribute gt lt xsl copy of select dml lexie gt lt xsl element gt ixelsit gt lt xsl for each gt Cial E gt lt xsl for each gt PESTO lt xsl for each gt rixsl copr lt xsl template gt 4 1 3 Production de nouvelles ressources Pour produire de nouvelles ressources partir des ressources stock es dans la base lexicale il est pos sible d utiliser l outil PRODUCDIC d fini impl ment et exp riment par Hai Doan Nguyen dans sa th se Cet outil permet d effectuer des op rations ensemblistes sur les ressources s lection fusion intersection extraction combinaisons etc Le format d entr e de cet outil est aussi le format LISPO Nous avons donc mis au point une feuille de style XSL qui permet de transformer nos ressources du format XML vers le format LISPO Cela permet ensuite d utiliser PRODUCDIC Voici un extrait de la feuille de style transformant des documents au format XML vers le format LISPO lt mod le pour les commentaires gt lt xsl template match comment gt lt xsl value of select gt lt xsl text gt lt xsl text gt lt xsl template gt lt xsl template match gt lt xsl apply templates gt lt xsl template gt lt mod le pour les l ments lt xsl template match gt lt xsl apply templates select comment gt lt recopie du nom de 1 l ment gt
221. ent op rationnelle L utilisation d un formulaire HTML limite aussi cette technique En effet la structure du dictionnaire construire doit rester tr s simple De plus elle demande aux utilisateurs d tre connect s en permanence lors de la r daction de l article En particulier on peut int grer de l information multim dia et aussi enrichir consid rablement les foncitonnalit s de consultation 3 Nouvelles directions pour la consultation 91 3 Nouvelles directions pour la consultation L utilisation de machines pour stocker et consulter les dictionnaires permet d enrichir le concept de dictionnaire qui tait bas jusqu r cemment sur les dictionnaires imprim s usage humain 3 1 Elargissement du concept de dictionnaire DicoSz t r DicoSz t r est un dictionnaire pour apprenants du hongrois Il est compos d une partie fran ais gt hongrois et d une partie hongrois gt francais Ce dictionnaire est en cours de construction Il nous a permis de tester plusieurs nouveaux concepts 3 1 1 Utilisation de donn es multim dia Nous avons d abord test l utilisation de donn es multim dia en ajoutant dans certains articles une image pour illustrer le sens port par le mot vedette Cette technique permet de construire un dictionnaire monolingue ici en hongrois mais consultable par tous les utilisateurs qui peuvent visualiser l image Ceux ci comprendront la signification du mot vedette dans leur l
222. ent r diger des contraintes de coh rence sur une base lexicale d finie avec DML Comme toute l information contenue dans la base est d crite sous forme de documents XML il est possible d crire des modules de v rification avec un langage de programmation impl mentant une API DOM DOM Nous montrons dans cet exemple une solution simple utilisant le langage XSLT XSLT 1 0 pour expri mer ces contraintes Pour faciliter la compr hension nous avons repris les exemples du chapitre pr c dent exprim s avec SUBLIM Nous avons donc une base lexicale compos e du dictionnaire French et du diction naire Pivot Voici une partie de la structure d un article du dictionnaire French lt element name lexie gt lt complexType gt lt sequence gt lt element name headword type string gt lt element ref government pattern gt lt element ref lexical functions gt lt element ref examples gt lt element name axies gt lt complexType gt lt sequence gt lt element ref refaxie gt lt sequence gt lt complexType gt lt element gt lt sequence gt lt attribute ref id gt lt complexType gt lt element gt lt element name refaxie gt lt complexType gt lt attribute ref href gt lt complexType gt lt element gt Voici une partie de la structure du dictionnaire Pivot lt element name axie gt lt complexType gt lt sequence gt lt element name semantic cat type string gt
223. ents toniques du russe y ont t ajout s afin d obtenir un dictionnaire plus utile Il comporte environ 10 000 unit s lexicales pour chaque langue correspondant environ 26 000 lemmes pour le fran ais et 30 000 lemmes pour le russe Les articles de la figure A 15 sont des articles de ce dictionnaire naturel Ils sont divis s en 2 parties La premi re est compos e de l unit lexicale russe suivie du lemme correspondant et d une variable utilis e par le syst me La deuxi me est compos e de l unit lexicale fran aise correspondant la traduction de l entr e russe suivie d un num ro unique d un code morphosyntaxique et enfin du lemme fran ais correspondant obratitq obrathaptq vi 2 adresser v adresser obratitq obrathapytqsya vi r 8 traiter v traiter obratitq obrathaptq vi 4 transformer v transformer FIG A 15 trois articles du dictionnaire RUSFRA 1 3 2 Une base de donn es lexicales pour la phonologie BDLex BDLex P rennou92 est un projet d velopp dans le cadre du GDRPRC CHM par le groupe IHMPT de VIRIT Universit Paul Sabatier de Toulouse Son objectif tait de rendre disponibles diff rents mat riaux lexicaux utilis s dans les interfaces en langage naturel crit ou oral et dans les syst mes d aide linguistique Un lexique de formes fl chies repr sent es aux plans morpho syntaxique phonologique et orthographique a t produit La version la plus compl
224. er et cochon Les analyseurs morphologiques sont des d mons UNIX qui tournent en permanence Ils r pondent des requ tes de diff rentes applications et taient d j utilis s avant que nous ne programmions cette in terface Le but ici n est pas de fournir une v ritable recherche aid e par le contexte mais de proposer une petite aide suppl mentaire En effet il existe des outils sp cialis s dans la recherche l aide du contexte Ces outils vitent par exemple que lorsque l utilisateur tape cochons il obtienne l entr e cocher nom commun qui n a rien voir avec sa premi re demande Notre syst me n est pas con u pour r soudre ce genre de probl me Cependant l analyse morphologique de l entr e peut s av rer utile lorsqu on ne ma trise pas la langue source La liste des nouvelles entr es est ensuite utilis e par le script pour consulter les dictionnaires L utilisateur peut profiter directement du langage d expressions r guli res En effet s il tape une entr e 1 Exp riences sur la consultation en ligne 77 sous forme d expression r guli re celle ci sera interpr t e telle quelle par le script Par exemple si l utilisa teur tape b 11 ici le point correspond n importe quel caract re et s lectionne l anglais comme langue source il obtiendra les entr es ball bell bill et bull Des petits exemples lui sont donn s en ligne ainsi que quelques explications Entr e pr
225. er n Nom pour X 7 Exemples La m sentente pourrait tre le mobile du meurtre 8 Idiomes _appel au meurtre_ _crier au meurtre_ FIG A 10 extraits de la lexie MEURTRE de la base DiCo Nous pouvons voir dans cette figure que le d coupage structurel pourrait tre plus fin que ces huit champs En effet le texte de certains champs est en fait un contenu structur Par exemple dans la formule s mantique ou le r gime X et Y r f rent des actants dans la fonction lexicale S1 la double barre a une s mantique particuli re elle distingue les r sultats de la fonction n englobant pas le nom de l unit lexicale auteur de ceux qui l englobent meurtrier Cependant une telle structure serait tr s complexe repr senter dans une base de donn es C est pourquoi on limite le d coupage d une entr e en huit champs seulement Les utilisateurs savent ensuite interpr ter la structure interne restant dans le texte des diff rents champs Pr sentation du dictionnaire Le LAF est directement g n r partir de la base DiCo Il tente de rapprocher la lexicographie th orique et la lexicographie commerciale en utilisant la lexicologie explicative et combinatoire La figure A 11 1 Notions du domaine 19 repr sente l article du LAF g n r partir de l entr e de DiCo d crite plus haut MEURTRE nom mase ACTION DE TUER Meurtre par l individu X de N A__ de l individu Y de N
226. era lui m me automatiquement le stockage dans la base 3 4 Consultation La consultation sur le site de Papillon suit les principes de la partie C Les utilisateurs consultent la base avec n importe quel navigateur Web Pour ne pas p naliser les utilisateurs la transformation des documents XML avec des feuilles de style XSL se fait sur le serveur Le r sultat final est enti rement au format HTML Il est ensuite envoy l utilisateur Les utilisateurs peuvent d finir leurs pr f rences de pr sentation l aide d une interface sp cialis e Ces pr f rences sont ensuite envoy es au serveur puis stock es sous forme de feuilles de style XSL XSLT et XSL FO et CSS dans l espace virtuel des utilisateurs Elles sont ensuite appliqu es au r sultat de chaque requ te de ces utilisateurs Il est aussi possible de partager des pr f rences entre groupes d utilisateurs 188 D Application Papillon projet de base lexicale multilingue sur Internet 4 Analyse g n rale et impl mentation 4 1 D finition des structures avec DML 4 1 1 Organisation des sch mas XML La d finition formelle de toutes les structures utilis es dans le projet Papillon est faite par des sch mas XML Le langage des sch mas XML permet d importer ou de red finir des parties de sch mas avec les clauses lt import gt et lt redefine gt Nous avons donc organis nos sch mas XML en red finissant des parties d autres sch mas La figure D 5 mont
227. es consulter avec l ment lt name gt l ordre de tri du r sultat avec l l ment lt word order gt les l ments CDM qu il veut consulter avec lt cdm elements gt le nombre d articles suivant et pr c dant les articles r sultats avec l l ment lt context gt le nom du module utilis pour le pr traitement de l input avec l l ment lt preprocessing gt s il utilise une expression r guli re ou non avec l l ment lt regex gt et la cha ne de caract res qu il recherche ou une expression r guli re avec l l ment lt input gt Le r sultat est une liste d articles correspondant aux crit res de la recherche Il est stock dans l l ment lt output gt Voici l API de consultation de la base lexicale du GETA lt api type client category consultation name getabase gt lt info gt API de consultation de la base lexicale du GETA lt info gt lt url href http www clips imag fr cgi bin geta dicoweb ftp www clips imag fr geta services dicoweb mailto dicoweb imag fr telnet www clips imag fr 2628 gt lt protocol type post get ftp mailto DICT login anonymous gt lt delay min 1s average 1s max 2s timeout 10s gt lt encoding input ASCIT ISO 8859 1 UTF 8 output UTF 8 gt lt format input txt xml output xml html txt gt lt arguments gt 162 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires
228. es V 1 Sp cifications externes de l environnement 112 1 1 Sp cification du noyau 4 e wie pue nn ee e ME BU UE DE Race pie mg 112 1 1 1 Choix du formalisme de repr sentation 112 1 1 2 Manipulation des ressources 112 1 1 3 Construction de nouvelles ressources 113 1 2 D veloppement partag de ressources libres 113 1 2 1 Principe g n ral socio conomique du partage 114 1 2 2 D finition d un serveur et des diff rents acteurs 114 1 2 3 Gestion des contributions 116 1 3 Int gration des exp riences pr c dentes 116 1 3 1 Consultation des ressources 116 1 3 2 R daction des articles 119 1 3 3 Utilisation de modules externes 120 2 D finition du noyau de l environnement avec SUBLIM 122 2 1 tude critique de SUBLIM 122 2 1 1 Architecture lexicale du syst me 122 2 1 2 Architecture linguistique du syst me 124 2 1 3 Architecture logicielle du syst me 126 2 2 Passag de SUBLIM XML eg ak ee ca e a a a mal Ae 127 2 2 1 L espace de noms DML amp 24
229. es lexicales Pour cela nous devons d finir un serveur et ses diff rents utilisateurs La construc tion des ressources se fait en coop ration par une communaut de contributeurs b n voles Toutes les contributions sont r vis es par un groupe de sp cialistes lexicographes avant d tre int gr es la base lexicale La base fonctionne sur un syst me de points toute contribution accept e augmente le nombre de points du contributeur et l inverse exportation de la base diminue le nombre de points La consultation demeure gratuite pour tous les utilisateurs 3 1 D finition du serveur et ses diff rents utilisateurs 3 1 1 Mise en place du serveur L architecture logicielle de notre serveur est tir e de celle de SUBLIM qui distingue fortement les probl mes de stockage de manipulation et de visualisation de donn es voir figure C 20 Elle est bas e sur trois niveaux niveau fournisseurs ce niveau rassemble les fournisseurs de ressources Elles peuvent tre stock es et acc d es en local Il est possible d utiliser diverses formes de stockage comme le stockage dans des fichiers avec acc s par index dans des bases de donn es ou tout en m moire Elles peuvent aussi tre stock es dans un endroit distant accessible par le r seau Ce niveau est invisible pour l utilisateur niveau interne ce niveau est en charge des diff rentes manipulations sur les articles de dictionnaires ainsi que la r cup ration de
230. es lexicales apport es par chaque utilisateur de la base Ce principe est sp cifi en partie C avec le syst me de cr dit de points accord pour chaque contribution la base Ce principe est r alis dans le projet Papillon d s le d part avec la 214 Conclusion r cup ration de ressources provenant d horizons divers le dictionnaire JMDict de Jim Breen la base DiCo d Alain Polgu re le FEM du GETA et les donn es du projet SAIKAM 4 Le principe de consultation gratuite consiste toujours laisser la possibilit au public de consulter la base gratuitement Ce principe a t observ avec le premier serveur du FeM wAlex construit par Mathieu Lafourcade et ensuite exp riment avec les maquettes DicoWeb DicoSz t r DicoFeJ Nihongo et le FeM Il est sp cifi en partie C et r alis dans le projet Papillon 5 Le principe de personnalisation g n ral consiste laisser chaque utilisateur de la base lexicale la possibilit de personnaliser les requ tes les r sultats les propositions de travail de la base etc Le r sultat des requ tes est personnalis principalement par Putilisation de feuilles de style Ce principe a t exp riment en premier lieu avec la nouvelle maquette du serveur du FeM qui permet de configurer le r sultat la vol e En partie C nous avons propos d impl menter ce principe en cr ant un espace vir tuel pour chaque utilisateur o il peut stocker ses feuilles de style et en laissant la
231. essources dictionnairiques informatis es multilingues h t rog nes Th se de nouveau doctorat Sp cialit Informatique Institut National Polytech nique de Grenoble 168 p Doan Nguyen98b Hat Doan Nguyen 1998b Accumulation of Lexical Sets Acquisition of Dictionary Re sources and Production of New Lexical Sets 17th International Conference on Computational Linguistics and 36th Annual Meeting of the Association for Computational Linguistics Proc COLING ACL 98 vol 1 1 Montr al Canada 10 14 ao t 1998 pp 330 335 Dolan96 William B Dolan amp Stephen D Richardson 1996 Interactive Lexical Priming for Disambi guation Proc MIDDIM 96 Post COLING seminar on Interactive Disambiguation C Boitet ed Le Col de Porte Is re France 12 14 aotit 1996 vol 1 1 pp 54 56 Dutoit92 Dominique Dutoit 1992 A Set Theoretic Approach to Lexical Semantics Proc COLING 92 C Boitet ed Nantes France 18 21 juillet 1992 pp 982 987 EDR93 EDR 1993 EDR Electronic Dictionary Technical Guide Project Report n 042 Japan Elec tronic Dictionary Research Institute Ltd 16 ao t 1993 144 p Farwell92 David Farwell Louise Guthrie amp Yorick Wilks 1992 The Automatic Creation of Lexical En tries for a Multilingual MT System Proc COLING 92 C Boitet ed vol 2 4 Nantes France 18 21 juillet 1992 pp 532 538 Bibliographie 221 Fedder91 L Fedder J McNaught amp S Smith 1991 Typed Feature Logic and its rol
232. est un dictionnaire tr s complexe L utilisation de 50 A Contexte actuel de la dictionnairique Word comme interface pour lexicographe n est donc pas possible m me s il a t possible par ailleurs de r cup rer et de reg n rer les fichiers originaux 4 4 2 L diteur sp cialis DECID Dans la m thodologie adopt e l dition se fait directement au niveau de la base lexicale Lors de la construction de DECID lPaccent a t mis sur le confort du lexicographe L interface a t directement inspir e de la version papier du DEC O ACHETER verbe ACHETEUR nom mase f8 APPRENDRE verbe irr 1b pas de sg Achats par X de Y aZ Activit commerciale ensemble de tous les achats la de X de Yaz APPRENTI nom mase fem Mult acha 1a APPRENTISSAGE nom m AUTORISER verbe pas de AVERSE nom f m A PIED loc adverbiale A TOUTE VITESSE loc ad Fic A 38 fen tre principale de DECID D s que l on cr e un dictionnaire la fen tre principale du dictionnaire appara t voir figure A 38 Dans la premi re partie il y a la liste des vocables Si l on clique sur l un d eux les lexies correspondantes apparaissent dans la liste de droite On passe en mode dition en appuyant sur la touche Entr e du pav num rique En double cliquant sur un r sum on ouvre la fen tre de la lexie correspondante La seconde fen tre voir figur
233. estion et consultation de bases lexicales et dictionnaires Les l ments pr sent s en arguments sont consultables avec des expressions r guli res et les op rateurs de comparaison suivants gt gt lt lt Il est possible de faire des recherches sur le nom lt name gt le type monodirectionnel bidirectionnel pivot lt type gt le domaine lt domain gt la cat gorie monolingue bilingue multilingue lt category gt le contenu lt content s gt les langues sources et cibles lt source language gt et lt target language gt les dates de cr ation et d installation dans la base lt creation date gt et lt installation date gt l encodage lt encoding gt le format lt format gt le propri taire des ressources lt owner gt la version lt version gt le nombre de mots vedettes lt hw numbe r gt le nombre d octets du fichier source lt bytes gt et les aspects l gaux lt legal gt Voici l API de m ta information de la base lexicale du GETA lt api type client category meta info name GETA public database gt lt info gt API utilis e pour consulter 1 information disponible sur les ressources de la base lt info gt lt url href http www clips imag fr cgi bin geta dictlist ftp www clips imag fr geta services dictlist mailto dictlist imag fr telnet www clips imag fr 2628 gt lt protocol type post get ftp mailto DICT login anonymous gt lt delay min 1
234. et en ajouter d autres L diteur Amaya travaille avec des documents au format XHTML XHTML 1 0 Nous pouvons ais ment tablir une bijection entre le document XML de la base et le document XHTML que le contributeur ou le lexicographe dite avec Amaya Il suffit pour cela de transformer le document XML dans le format XHTML et de lui associer une feuille de style la sortie de la base et inversement une fois les modifications ef fectu es Base Lexicale Serveur A feuilles de style XSLT F Internet v diteur HTML Client Document XHTML CSS FIG C 21 transformation et dition d un document XHTML La transformation d un document XML vers un document XHTML se fait avec la feuille de style XSLT d crite dans la section pr c dente concernant la visualisation du r sultat La transformation inverse se fait de la m me mani re Le tableau C 6 montre des exemples de r troconversion d l ments XHTML vers les l ments XML de d part 166 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires XHTML XML avant conversion apr s conversion lt span class headword gt meurtre lt span gt lt headword gt meurtre lt headword gt lt span class pronunciation gt meu rtr e lt pronunciation gt meu rtr e lt pronunciation lt span gt lt span class pos gt n m lt span gt lt pos gt n m lt pos gt lt span class example gt La m sentente lt
235. et les lexicologues sp cialistes lexicologists charg s du contre des donn es Les informations relatives chaque utilisateur sont stock es dans un ficher part r f renc par l l ment lt user ref gt Tous les dictionnaires sont r f renc s par des pointeurs sur les documents XML les d crivant Les pointeurs sont les attributs href des l ments lt dict ref gt Ces l ments sont regroup s dans l l ment lt dictionaries gt L exemple suivant est la version XML de la figure C 4 montrant une base lexicale lt database xsi schemaLocation http www clips imag fr geta services dml http clips imag fr geta services dml dml xsd name GETA Lexical Database creation date 22 10 99 history ref http clips imag fr geta services dml database his xml owner GETA gt lt partner servers gt lt user ref name XRCE Analyser href xrce xml gt lt partner servers gt lt users gt lt user ref name Mathieu Mangeot href mangeot xml gt lt user ref name Mutsuko Tomokiyo href tomokiyo xml gt lt user ref name John Doe href doe xml gt lt users gt lt groups gt lt group name universe gt lt user ref name Mathieu Mangeot gt lt user ref name Mutsuko Tomokiyo gt 136 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires lt user ref name John Doe gt lt group gt lt group name lexicologists gt lt user
236. exType gt lt sequence gt lt element ref d node minOccurs 1 maxOccurs unbounded gt lt sequence gt lt complexType gt lt element gt 254 Annexe A sch ma XML pour DML lt DML element to represent a node gt lt element name node gt lt complexType mixed true gt lt attribute ref xlink type fixed locator gt lt attribute ref xlink label gt lt attribute name xlink title gt lt simpleType gt lt restriction base xlink titleType gt lt to note the starting node of an automaton gt lt enumeration value starting node gt lt to note an ending node of an automaton gt lt enumeration value ending node gt lt restriction gt lt simpleType gt lt attribute gt lt complexType gt lt element gt lt DML element to represent a list of arcs gt lt element name arcs gt lt complexType gt lt sequence gt lt element ref d arcType minOccurs 0 maxOccurs unbounded gt lt sequence gt lt complexType gt lt element gt lt DML element to represent an arc gt lt element name arc type d arcType gt lt DML type to represent an arc gt lt complexType name arcType mixed true gt lt attribute ref xlink type fixed arc gt lt attribute ref xlink from gt lt attribute ref xlink to gt lt an oriented arc has the attribute oriented true lt attribute name oriented type boolean gt l
237. exicographe a deux options d affichage il peut voir les balises comme dans l exemple ou ne voir que le texte Cette deuxi me option correspond la vue de l article que les lecteurs du dictionnaire auront par la suite Les articles pr par s en format SGML sont ensuite stock s dans une base de donn es lexicographiques Il est aussi possible d imprimer chaque article de fa on ce qu il ressemble un vrai article de dictionnaire 4 2 3 R vision des entr es C est sur l article imprim que se penchent les r viseurs en effet ces derniers pr f rent travailler sur Particle complet ce qui n est pas toujours possible lorsqu ils r visent l article l cran La possibilit d taler c te c te l article et les documents consult s et imprim s par les lexicographes lors de la r daction facilite la r vision cette tape l informatique joue plut t un r le d arri re plan Il arrive par exemple que les r viseurs aient besoin de consulter eux m mes les corpus pour clarifier certains points ou pour trouver d autres 4 M thodes de construction de dictionnaires 47 WordPerfect 9 H DICOSGML f e f fier a bras nm sgm Read Only Et EME File Name FIER A BRAS NM lt f lemame Mexicographer gt Lexicographers Initials EEE Language Direction EEE Centre OTTAWA lt fenter Mate created gt Date Created YYYY MM DD 2000 07 18 lt da created Matecedted gt Date Edited please
238. exies sont materialis s par un trait L utilisateur peut cr er ou supprimer des liens direc tement l aide de la souris Lorsque l utilisateur cr e un lien en tra ant un trait bleu entre deux lexies une 4 Analyse g n rale et impl mentation 201 axie est g n r e automatiquement au milieu Cet outil est encore l tat de maquette Il sera am lior et mis disposition des contributeurs sur le serveur de Papillon lorsque l tape de r vision des liens sera atteinte Le visualisateur d arbres hyperboliques tudi en partie B n a pu tre utilis ici car il ne permet pas d diter Cette interface est encore l tat de maquette Il faudrait encore l am liorer pour la rendre plus fonc tionnelle en ajoutant par exemple la possibilit de visualiser et manipuler un contexte plus global que deux lexies plusieurs vocables et plusieurs langues 4 3 4 Pseudo diteur structur Les lexicographes r digeant des articles monolingues peuvent souhaiter travailler chez eux en local sans connexion au r seau Pour cela nous g n rons des squelettes d articles au format RTF depuis la base en suivant la m thode d crite en partie C Si ces squelettes proviennent d articles de la base compl ter ces articles sont marqu s pour viter la duplication des efforts de r daction Les fichiers RTF sont ensuite envoy s avec un mod le de document contenant des macros d aide la r daction aux lexicographes qui t
239. fType gt lt 1 definitions for the axie dictionary a lt Note lements whose content can vary e g xternal references have to be redefined in the schema specific to the axie volume gt a axie element gt lt l An axie is an interlingual link between lexies of different languages It consists also in links to other set of semantic symbols following other theories like WordNet UNL etc lt element name axie gt lt complexType gt lt sequence minOccurs 0 gt lt element ref d semantic cat minOccurs 0 maxOccurs 1 gt lt group ref d language links minOccurs 0 maxOccurs 1 gt lt element ref d refinements minOccurs 0 maxOccurs 1 gt lt element ref d generalizations minOccurs 0 maxOccurs 1 gt lt element ref d synonyms minOccurs 0 maxOccurs 1 gt lt element ref d external references minOccurs 0 maxOccurs 1 gt 266 Annexe B sch mas XML pour Papillon lt sequence gt lt attribute ref d id use required gt lt attribute ref d history use optional gt lt attribute ref d status use optional gt lt complexType gt lt element gt lt semantic cat element gt lt semantic category of an axie gt lt element name semantic cat gt lt simpleType gt lt restriction base string gt lt enumeration value entity gt lt enumeration value process gt lt enumeration value result gt
240. for Translators Kinga Klaudy J nos Kohn eds Transferre necesse est Scholastica Budapest 1997 pp 558 568 Quint87 Vincent Quint 1987 Une approche de l dition structur e des documents Th se d tat Sp cialit Math matiques Universit Joseph Fourier Grenoble 1 281 p Roberts99 Roda p Roberts amp Lucie Langlois 1999 L apport de l informatique la recherche lexicogra hique Proc de l Association canadienne fran aise pour l avancement des sciences ACFAS Universit d Ottawa Ottawa Canada 10 14 mai 1999 Selva00 Thierry Selva 2000 Ressources et activit s p dagogiques dans un environnement informa tique d aide l apprentissage lexical du francais langue seconde Nouvelle th se Sp cialit Automatique et Informatique Universit de Franche Comt 210 p Serasset93 Gilles S rasset amp tienne Blanc 1993 Une approche par acceptions pour les bases lexicales multilingues Proc T TA TAO 93 Montr al 30 septembre 2 octobre 1993 A Clas ed vol 1 1 pp 65 84 Serasset94a Gilles S rasset 1994a Approche cum nique au probl me du codage des structures linguis tiques Proc TALN 94 Le traitement automatique du langage naturel en France aujourd hui Marseille 7 8 avril 1994 Ph Blache ed vol 1 1 pp 109 118 Serasset94b Gilles S rasset 1994b An Interlingual Lexical Organisation Based on Acceptions From the PARAX Mock up to the NADIA System Proc ICLA 94 Penang
241. fran aise de ce mot Pour la recherche dans la base ELRA le script cherche d abord les num ros de concept dans le diction naire correspondant la langue source puis cherche dans les dictionnaires correspondant aux langues cibles les traductions correspondant aux num ros de concept Pr traitement de l entr e Le pr traitement de l entr e consiste utiliser tous les modules permettant soit de corriger les ventuelles erreurs de l utilisateur soit de trouver partir d une forme de surface le ou les mots vedettes correspon dants Nous proposons donc selon la disponibilit des modules dans chaque langue d utiliser d abord un correcteur orthographique et de fautes de frappe Pour l outil DicoWeb fonctionnant XRCE nous avons utilis le correcteur orthographique bas sur des r gles de phon tique utilis dans la nouvelle version du c d rom du dictionnaire Hachette Multim dia Si l utilisateur tape ortograf nous obtiendrons apr s correction orthographe voir figure B 6 Une fois l entr e corrig e pour obtenir une liste des lemmes correspondant une forme de surface nous utilisons un analyseur morphologique L entr e est d abord envoy e par le script l analyseur morpholo gique correspondant la langue source Le r sultat est ensuite d cod de fa on fournir une liste d entr es plausibles Ainsi si l utilisateur tape l entr e cochons la liste des nouvelles entr es sera coch
242. ge format Negotiated interchange ISO TC 37 SC 3 WG I Gen ve 118 p ISO99c ISO 1999c ISO DIS 12620 Terminology Computer Applications Data Categories ISO TC 37 SC 3 WG L Gen ve 71 p Johnson95 E Johnson 1995 The Text Encoding Initiative TEXT Technology vol 5 n 3 Autumn 1995 pp 174 175 Keene89 Sonia Keene 1989 Object Oriented Programming in Common LISP A Programmer s Guide to CLOS Addison Wesley 1989 266 p Larcheveque96 Jean Marie Larchev que 1996 Requirement analysis and solution proposals for the ma nagement of bilingual dictionaries Rapport interne XRCE 18 juin 1996 Lafourcade94 Mathieu Lafourcade 1994 G nie logiciel pour le g nie linguiciel Th se de nouveau Doc torat IMAG UJF Grenoble 1 d cembre 1994 318 p Lafourcade96a Mathieu Lafourcade 1996 Serveurs de dictionnaires Etude de cas avec l outil ALEX et le projet de dictionnaire francais anglais malais Proc S minaire LEXIQUE Grenoble 13 14 novembre 1996 CLIPS IMAG P les langage naturel et parole du GDR PRC CHM vol 1 1 pp 185 192 Lafourcade96b Mathieu Lafourcade 1996 Structured Lexical data how to make them widely available useful and reasonably protected a practical example with a trilingual dictionary Proc COLING 96 Copenhagen Denmark Vol 2 2 pp 1106 1110 Lafourcade97 Mathieu Lafourcade 1997 Construction et services dictionnaires n lingues exemple des projets Fe Quatri me conf rence
243. grand nombre de structures de dictionnaires sans imposer leur conversion en une seule structure particuli re Cela autorise l utilisation de donn es provenant de th ories linguistiques diff rentes Nous avons exp riment ce principe avec DicoWeb o nous utilisons des donn es ayant des structures tr s diff rentes En partie C DML est bas sur ce principe puisqu il reprend le syst me SUBLIM de la th se de Gilles S rasset Ce principe est observ dans le projet Papillon avec d une part l utilisation d une structure complexe celle de DiCo et d autre part la possibilit de r f rencer des donn es externes au projet comme les UW du projet UNL les cat gories s mantiques du dictionnaire de NTT les synonymes du projet WordNet etc 2 Le principe d abstraction du niveau donn es consiste diff rencier le niveau de stockage des infor mations du niveau de manipulation Nous avons exp riment ce principe avec la maquette DicoWeb dans laquelle nous utilisons des ressources stock es directement sous forme de fichiers texte et d autres provenant de serveurs Web distants en partie C nous sp cifions ce principe avec API de fournisseur de ressources Ensuite dans le projet Papillon nous r alisons ce principe avec l utilisation d un SGBD pour le stockage et de programmes en DOM pour la manipulation Principes li s l aspect collaboratif 3 Le principe de mutualisation consiste mettre en commun les ressourc
244. grande taille et g n rer partir de cette base un dictionnaire d usage public le Lexique Actif du Fran ais LAF Cette recherche est men e conjointement par Igor Mel tchuk et Alain Polgu re avec l aide des tudiants de l Observatoire de Linguistique Sens Texte de l universit de Montr al au Canada La base DiCo est en cours de r daction Il est pr vu terme d obtenir environ 3 000 vocables ayant chacun plusieurs lexies en moyenne trois lexies 18 A Contexte actuel de la dictionnairique Format du dictionnaire Cette base lexicale est g r e par l outil FileMaker Chaque entr e de la base correspond une lexie Un vocable peut avoir une ou plusieurs lexies selon qu il est monos mique ou polys mique Les lexies d un m me vocable auront g n ralement le m me nom et les m mes propri t s grammaticales chaque lexie est compos e de huit champs diff rents Nous donnons dans l exemple de la figure A 10 repr sentant l unique lexie du vocable monos mique MEURTRE le nom de tous les champs suivis de leur valeur 1 Nom de l unit lexicale MEURTRE 2 Propri t s grammaticales nom masc 3 Formule s mantique action de tuer _ PAR L individu X DE L individu Y 4 R gime X I de N A poss Y II de N A poss 5 Quasi synonymes QSyn assassinat homicide l crime 6 Fonctions lexicales VO tuer A0 meurtrier adj S1 auteur de ART _ meurtri
245. group ref name universe gt lt group ref name administrators gt lt groups gt lt user gt 3 2 Gestion des contributions Lors de la premi re connexion au serveur les utilisateurs doivent se cr er un compte Ils peuvent ensuite contribuer n importe quel moment L utilisateur peut contribuer spontan ment sur un article s il a par exemple constat une erreur en consultant la base ou consult sur le serveur une liste de choses faire Cette liste est propos e par les sp cialistes lexicologues de la base en fonction du profil des utilisateurs si possible avec une aide automatique d tection de sch mas d incompl tude d erreur etc Pour viter que la base ne soit pollu e par des contributions non v rifi es celles ci sont tout d abord stock es sous forme de documents XML dans l espace virtuel du contributeur Elles sont ensuite v rifi es par les sp cialistes lexicographes qui d cident ou non de les int grer la base 3 2 1 V rification des donn es Le groupe des sp cialistes lexicologues a plusieurs t ches effectuer Il doit constamment v rifier les donn es pr sentes dans la base puisque celle ci n est jamais fig e dans un tat stable La v rification des donn es permet de pr parer le travail faire Les articles v rifier seront propos s aux contributeurs en fonction de leur profil de comp tences Il doit enfin v rifier et int grer les contributions propos es par les
246. guider notre travail Cependant nous arrivons des conclusions convergentes 6 1 Plate forme de gestion d une base sur l hydrographie DHYDRO 6 1 1 Pr sentation Le projet DHYDRO DHYDRO Descotte00a 00b Dictionnaire Hydrographique Multilingue Norma lis est un projet MLIS de la communaut europ enne Ce projet a dur 18 mois entre 1998 et 2000 Le consortium a t organis autour de l organisme international OHTI Les autres partenaires sont l quipe langue et dialogue du LORIA en Lorraine le bureau hydrographique international BHI Monaco le service hydrographique et oc anographique de la marine fran aise SHOM Paris VIDS Institut f r Deutsche Sprache Mannheim le centre de recherche TERMISTI a Bruxelles Le projet DHYDRO avait pour objet de cr er sur Internet un espace terminologique multilingue sp cialis dans le domaine de l hydrographie Cet espace est con u autour du Dictionnaire Hydrographique Interna tional DHD publi par le BHI sous la forme de trois volumes ind pendants en anglais en fran ais et en espagnol d crivant environ 7 000 concepts communs La plate forme DHYDRO int gr e au site Internet de l OHI rassemble sur un site web interactif des services utiles aux terminologues aux traducteurs et aux sp cialistes de l hydrographie notamment les outils suivants un outil d dition coll giale et distance d une base terminologique mu
247. he content of the group article for validation lt group name article gt lt all gt lt group gt gt lt group name article gt lt sequence gt lt element ref d lexie minOccurs 1 maxOccurs 1 gt lt sequence gt lt group gt lt 1 DML definitions for APIs gt lt API element gt lt This element encodes the APIs used by clients and suppliers of the database to exchange data with it API Application Programming 250 Annexe A sch ma XML pour DML Interface gt lt element name api gt lt complexType gt lt sequence maxOccurs unbounded gt lt provides general information on the API gt lt element name info type string gt lt l indicates the URLs used for connection ref d url gt lt indicates the protocols used for connection ref d protocol gt lt indicates the connection delays gt ref d delay gt lt indicates the input and output encodings gt lt element ne lt element lt element lt element ref d encodings gt lt indicates the input and output formats gt ref d formats gt lt element name arguments type d argumentsType gt format of the lt gt lt element name result type d resultType gt lt element lt format of the arguments q result lt sequence gt lt attribute name creation date type d dateType use o
248. he syntactic actant of a formula gt lt element name surface gt lt complexType mixed true gt 264 Annexe B sch mas XML pour Papillon lt choice minOccurs 0 maxOccurs unbounded gt lt element ref d pos gt lt element ref d reflexie gt lt choice gt lt complexType gt lt element gt lt reflexie element gt 1 reference to another lexie with an xlink gt lt element name reflexie type d refType gt lt lexical functions element gt lt comes from the meaning text theory Lists all the lexical functions of the lexie gt lt element name lexical functions gt lt complexType gt lt sequence maxOccurs unbounded gt lt element ref d function gt lt sequence gt lt complexType gt lt element gt lt function element gt lt is a common DML element already declared in the DML schema gt lt comment element gt lt comment in a lexical function gt lt element name comment type string gt I fct example element A lt example in a lexical function gt lt element name fct example type string gt lt l examples element gt lt l lists some usage examples of a lexie gt lt element name examples gt lt complexType gt lt sequence maxOccurs unbounded gt lt element ref d example gt lt sequence gt lt complexType gt lt element gt
249. hercher une deuxi me fen tre appara t comportant la traduction du mot pr alablement s lectionn Elle contient pour chaque cat gorie grammaticale n vt vi etc la traduction du mot avec une pr cision de sens dans la langue source entre parenth ses s il y a plusieurs traductions possibles et la traduction de locutions contenant le mot avec une pr cision de sens si n cessaire la fin de la liste sont indiqu es les sous entr es du dictionnaire Les deux fen tres sont repr sent es dans la figure A 20 2 Outils de consultation de dictionnaires 27 Francais Anglais O Fran ais Anglais raison Rechercher a reason locution avoir raison to be right locution donner raison a qn sens personne to agree with sb sens fait to prove sb right y locution avoir raison de qn qchE to get the better off Retourner Rechercher sb sth FIG A 20 l article raison du Collins on line raison raisonnable raisonnablement raisonn e raisonnement raisonner Discussion Le Collins est b ti sur des structures de donn e relativement simples et fig es Il est con u pour une utilisation commerciale Une fois que la pr sentation des articles est d finie il n y a pas de possibilit s d volution Cette interface a cependant deux propri t s int ressantes Le contexte du mot recherch est syst matiquement affich ce qui permet de consulter des articles voisins de celui que l on cherche
250. ic formula gt lt complexType mixed true gt lt choice minOccurs 0 maxOccurs unbounded gt lt element ref d sem label gt lt element ref d sem actant gt lt element ref d actor gt lt choice gt lt complexType gt lt element gt lt government pattern element gt lt comes from the meaning text theory gt lt element name government pattern gt lt complexType gt lt sequence minOccurs 1 maxOccurs unbounded gt lt element ref d mod gt lt sequence gt lt complexType gt lt element gt lt mod element gt lt l There might be more than one government pattern we call them modifications for the same lexical unit We need a way to encode that gt lt element name mod gt lt complexType gt lt sequence minOccurs 1 maxOccurs unbounded gt lt element ref d actor gt lt sequence gt lt number of the modification in the government pattern gt lt attribute name nb type positivelnteger gt lt complexType gt 1 Sch ma g n ral de Papillon 263 lt element gt lt I sem label element gt lt semantic label comes from the meaning text theory Used to tag the semantic formula We should define a closed list of possible values gt lt element name sem label type string gt lt l sem actant element gt lt l semantic actant comes from the meaning text theory Used to
251. ications clientes du serveur du dictionnaire UNL fran ais puissent communiquer avec le serveur nous avons mis en place un protocole d interrogation 100 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc lt lt previous next gt gt megy verbe Infinitif Temps Indicatif Pr sent Type Ind fini conjuguer FIG B 25 utilisation d un conjugueur dans DicoSz t r R ponse du conjugueur Pluriel g me personne FIG B 26 r sultat du conjugueur de dictionnaires fonctionnant par Telnet Le Dictionary Server Protocol DICT est une transaction TCP bas e sur un protocole de requ te r ponse qui permet un client d acc der des entr es de dictionnaires Ce protocole est d crit dans la RFC 2229 Dict 4 Coop ration entre applications 101 4 2 2 Commandes disponibles Le serveur coute sur le port 2628 qui est r serv au protocole Telnet DICT Lorsqu il regoit une de mande de communication de la part d un client il cr e un processus fils qui s occupera de traiter la requ te Chaque nom de commande est compos de quatre lettres Pour l instant seules les commandes suivantes sont impl ment es AUTH username password authentification CLUW uw UW la plus proche pr sente dans le dictionnaire HEAD headword UWs ayant le m me mot t te HELP affichage de ce texte LOAD DIC dictionnair
252. ick on Another Search O English Japanese Choose dictionary O Examine the kanji in a selected compound Also click on the compound you wish to examine O Repeat this search choose another Dictionary above Search for a Kanji Press to set the buttons to their default settings FIG A 24 interface et r sultats de WWWJDict La figure A 25 montre l article obtenu de la figure A 24 au format original XML Se ry gt lt ent_seq gt 1491240 lt ent_seq gt lt k_ele gt lt keb gt TER lt keb gt lt k_ele gt ee elepeweks vas A lt reb gt lt r_ele gt lt sense gt lt gloss gt constancy lt gloss gt lt gloss gt immutable lt gloss gt lt sense gt lt entry gt FIG A 25 article de EDICT au format XML 2 2 3 Consultation de plusieurs dictionnaires le site dictionary com Introduction Le site Web dictionary com Dictionary com est maintenu par la soci t Lexico bas e en Californie Il permet de consulter des ressources en ligne depuis 1998 Ce serveur consulte plusieurs dictionnaires en 2 Outils de consultation de dictionnaires 33 m me temps et affiche tous les articles dans une m me fen tre Tous les dictionnaires disponibles sont monolingues anglais On trouve le American Heritage Dic tionary of the English Language le Webster s Revised Unabridged Dictionary le WordNet version 1 6 des informations provenant du CIA World Factbook le Free On line Dictionary of Computing de 1
253. ieurs poids provenant de th ories ou de ressources diff rentes L exemple suivant est une base constitu e de 7 objets l article fran ais rivi re avec l identifica teur fra01 l article fran ais fleuve avec l identificateur ra02 l article fran ais cours d eau avec l identificateur fra03 l article anglais river avec l identificateur eng01 un lien 1k01 reliant l article fran ais rivi re et l article anglais river un lien 1k02 reliant l article fran ais fleuve et l article anglais river et un lien 1k03 entre l article fran ais cours d eau et l article anglais river Pour tous ces objets nous pouvons calculer des poids diff rents Ici nous avons not la fr quence de consultation de ces objets par des utilisateurs de la base la fr quence d apparition de ces termes dans le corpus align anglais fran ais Hansard et les r sultats de recherche de ces termes sur le moteur de recherche Google Voici par exemple dans le tableau C 1 plusieurs syst mes de poids pour les m mes objets Ga objet consultation tr q Hansard Google CO iie 6 y 314000 fra eue 5 555 151000 rads cos Peau RS 28000 Tor rene 3050 39500 k02 fleuve lt sriver O 93801 CIKO3 cours d eme gt mer BO 30040 TAB C 1 diff rents syst mes de poids sur les m mes objets 2 D finition du noyau de l environnement avec SUBLIM 131 2 2 3 S mantique du sous ensemble CDM de DML D finition d
254. ificateur du nouvel l ment r sultant de la fusion 4 3 Impl mentation des interfaces 4 3 1 Consultation de la base La consultation de la base peut s effectuer directement avec un navigateur Web en suivant les principes d crits en partie C L interface est du type de celle de l exp rience DicoWeb d crite en partie B Les utilisateurs ont la possibilit de sp cifier leurs pr f rences de visualisation gr ce une interface sp cialis e Ces pr f rences sont ensuite envoy es au serveur et stock es sous forme de feuilles de style XSL et CSS Les utilisateurs peuvent aussi partager des feuilles de style entre groupes d utilisateurs 200 D Application Papillon projet de base lexicale multilingue sur Internet 4 3 2 Contribution sur les articles monolingues Les contributions sur les articles peuvent se faire de deux mani res Pour des contributions localis es et syst matiques une interface avec un formulaire HTML peut tre cr e Par exemple un linguiste travaillant sur la prononciation aura besoin d une interface pour pouvoir entrer la prononciation de chaque mot vedette Pour les autres contributions l utilisateur modifie l article et le renvoie au serveur Le syst me calcule les l ments modifi s par rapport l article initial Il g n re ensuite automatiquement une feuille de style XSL en indiquant les endroits modifi s sur l article par des pointeurs XPointer voir partie C section 3 2 2 e
255. ification d un environnement de gestion et consultation de bases lexicales et dictionnaires correspondant aux mots qu ils recherchent dans la base La base lexicale se connectera alors au lemmatiseur avant de rechercher les articles correspondant la requ te de l utilisateur Le principe de points peut s appliquer aussi aux partenaires En effet chaque service rendu par un partenaire fait augmenter son nombre de points l inverse chaque information demand e la base fait baisser le nombre de points Cependant des difficult s surgissent il peut tre difficile de quantifier un service en nombre de points ou d arr ter le service si un programme partenaire est d biteur etc Pour communiquer avec tous les fournisseurs nous devons standardiser les changes Nous proposons de les standardiser gr ce des API La plupart du temps il sera cependant n cessaire d crire un adaptateur wrapper pour interfacer un fournisseur avec notre environnement afin qu il respecte API d finie Les API fournisseur contiennent de la m ta information sur le fournisseur des informations de connexion et enfin la structure des l ments utilis s en entr e et en sortie Ces API sont d crites par l l ment lt api gt Pour la m ta information l attribut name indique le nom du fournisseur l l ment lt information gt contient un texte explicatif sur le service propos par le fournisseur Pour la connexion l l ment lt
256. ight comp ambiguous eg 1 type 1 ambiguous gt A1Z V light PRES type 1 non ambig gt Al V soft 34 type 2 ambig gt A2Z V saf e Ai x type 2 non ambig gt A2 V unsaf e AD3 Q there are 3 bases to be indexed 1 normal gt AD4 2 comparative gt ADS 3 superlative gt A V best driest NOUN Q is the noun both regular and variable example of irregular noun mouse T 3 yes gt NREG 2 3 no gt NIRG FIG A 36 exemple de manuel d indexage source pour l outil ATLAS D s que la compilation est termin e le linguiste peut utiliser des fonctions pour rajouter des cartes dans son manuel ou en supprimer interactivement Il peut aussi visualiser et imprimer tout ou partie de son manuel Le manuel peut tre aussi visualis sous forme arborescente L interpr teur de menus permet 4 M thodes de construction de dictionnaires 49 NREG ER NON m I_ gt VER AZ V ADI Am AIZ V ROOT L A1 V gt ADJ AD2 AZV L A2 V AD4 AD3 ADS AV __INVAR FIG A 37 forme arborescente pour le manuel papier correspondant d indexer interactivement un mot dans un dictionnaire en suivant le format du manuel d indexage compil au pr alable 4 3 3 Discussion ATLAS propose un menu relativement complet de fonctions de manip
257. ign is omitted is assumed The letter T is the date time separator and hh mm 2 Sch ma XML de DML 235 ss represent hour minute and second respectively Additional digits can be used to increase the precision of fractional seconds if desired i e the format ss ss with any number of digits after the decimal point is supported The fractional seconds part is optional other parts of the lexical form are not optional To accommodate year values greater than 9999 additional digits can be added to the left of this representation Leading zeros are required if the year value would otherwise have fewer than four digits otherwise they are forbidden The year 0000 is prohibited The CCYY field must have at least four digits the MM DD SS hh mm and ss fields exactly two digits each not counting fractional seconds leading zeroes must be used if the field would otherwise have too few digits This representation may be immediately followed by a Z to indicate Coordinated Universal Time UTC or to indicate the time zone i e the difference between the local time and Coordinated Universal Time immediately followed by a sign or followed by the difference from UTC represented as hh mm note the minutes part is required See ISO 8601 Date and Time Formats chapter D for details about legal values in the various fields If the time zone is includ
258. il et le r int grer La m thode classique permet de r agir tr s facilement un changement de structure des dictionnaires Il est aussi plus facile d laborer des outils de v rification des articles Par contre elle ne permet pas non plus de travailler directement en ligne De plus il faut quiper tous les r dacteurs d un diteur ad quat La m thode sp cialis e est tr s pratique pour la r daction des articles On peut proposer des outils d aide la r daction et de v rification De plus il est possible d diter des dictionnaires tr s complexes comme le DEC Par contre ces diteurs ne s adaptent pas bien aux changements de structure Il faut alors les reprogrammer Enfin ils ne permettent pas non plus de travailler en ligne en collecticiel La m thode en ligne est tr s int ressante car elle permet aux contributeurs de travailler simultan ment en collecticiel Ils n ont besoin que d un simple navigateur Web Elle ne semble par contre valable que pour des dictionnaires structure simple ou pour des modifications d articles tr s localis es Il faut aussi enrichir cette solution gr ce des outils d aide la r daction De plus la gestion des contributions doit tre rigoureuse et supervis e par un petit groupe de sp cialistes pour viter la pollution volontaire ou non du dictionnaire par des contributions incorrectes Ces m thodes pr sentent toutes des avantages et des inconv nients bien distin
259. in m C R FIG A 45 exemple d article de dictionnaire anglais francais La figure A 46 montre le m me exemple encod avec les balises de la TEI 60 A Contexte actuel de la dictionnairique lt entry n 1 gt lt form gt lt orth gt dresser lt orth gt lt form gt lt gramGrp gt lt pos gt n lt pos gt lt gramGrp gt lt sense n a gt lt sense gt lt usg type dom gt Theat lt usg gt lt trans gt lt tr gt habilleur lt tr gt lt gen gt m lt gen gt lt trans gt lt trans gt lt tr gt euse lt tr gt lt gen gt f lt gen gt lt trans gt lt sense gt lt sense gt lt usg type dom gt Comm lt usg gt lt form type compound gt lt orth gt window lt oRef gt lt orth gt lt form gt lt trans gt lt tr gt talagiste lt tr gt lt gen gt mf lt gen gt lt trans gt lt sense gt lt eg gt lt q gt she s a stylish lt oRef gt lt q gt lt trans gt lt tr gt elle s habille avec chie lt tr gt lt trans gt lt eg gt lt xr type see gt V lt ref target hair gt hair lt ref gt lt xr gt lt sense gt lt sense n b gt lt usg type category gt tool lt usg gt lt sense gt lt usg type hint gt for wood lt usg gt lt trans gt lt tr gt raboteuse lt tr gt lt gen gt f lt gen gt lt trans gt lt sense gt lt sense gt lt usg type hint gt for stone lt usg gt lt trans gt lt tr gt rabotin lt tr gt lt gen gt m lt gen gt lt trans gt lt sense gt lt sense gt lt entry gt FIG
260. inal le symbole nul une action ou une condition bil bi2 cil ci2 etc sont respectivement les expressions d entr e de B C etc bol bo2 col co2 etc sont respectivement les variables de sortie de B C etc Les variables de sortie de la r gle ao1 ao2 doivent se trouver parmi les variables de sortie de la partie droite bol bo2 col co2 etc Les expressions d entr e suivent la syntaxe d expressions de LISP et peuvent contenir des variables d entr e ail ai2 et des variables de sortie des unit s pr c dentes de la partie droite par exemple cil peut contenir bol bo2 Le nombre de variables et expressions pour chaque unit peut varier partir de z ro La figure A 32 montre une grammaire H grammar permettant la r cup ration des articles de BABEL Dans les r gles syntaxiques le caract re correspond au symbole nul le caract re gt devant un nom de symbole comme gt hwd indique que ce symbole est terminal Dans les r gles d analyse lexicale la notation _ 10 signifie que le symbole est compos de 10 caract res le symbole to cparen correspond 3 Outils de manipulation de dictionnaires 39 grammar babel glossary Acquisition du glossaire BABEL de I Kind era syntax rules 1 babel entry entry gt gt hwd hwd body body babel trim whites hwd body entry 2 2 body body gt sense S1 sense S
261. instant trois types diff rents comp tences int r t et activit un pointeur sur ses annotations sur le contenu de la base avec l l ment lt annotations gt 148 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires les contributions qu il envoie la base avec l l ment avec l l ment lt contributions gt les points qu il a accumul s en contribuant la base avec l l ment avec l l ment lt credits gt un pointeur sur l historique de ses requ tes avec l l ment lt requests gt des pointeurs sur ses pr f rences Dans l exemple suivant nous avons stock une feuille de style CSS avec l l ment lt xsl stylesheet gt pour les pr f rences de pr sentation de l utilisateur Mathieu Mangeot les groupes auxquels l utilisateur appartient avec l l ment lt groups gt La description formelle de l l ment lt user gt est contenue dans le sch ma XML dml en annexe de ce document Elle est r f renc e par l attribut xsi schemaLocation Les informations sont toutes repr sent es sous forme de documents XML Lorsque le syst me a besoin d une information il lit le docu ment XML correspondant et l analyse pour trouver l information Les modifications de l l ment lt user gt et de ses descendants sont stock es dans le document point par l attributhistory ref LAUSET xsi schemaLocation http www clips im
262. ion cr ation et consultation coop ratives et distribu es de dictionnaires du point de vue de l architecture interne de l architecture lexicale et des interactions avec les diff rents utilisateurs Dans une premi re section nous donnons les sp cifications externes du noyau du serveur de construc tion collaborative et des fonctionnalit s en nous basant sur les exp riences pr c dentes Dans la deuxi me partie nous d finissons plus pr cis ment le noyau en utilisant le formalisme SUBLIM de Gilles S rasset que nous tendons et traduisons en XML Nous donnons ensuite les sp cifications internes du serveur de construction collaborative et d utilisation mutualis e d une base lexicale multilingue riche Enfin nous pr cisons les fonctionnalit s de manipulation et d change avec d autres programmes puis de consultation et de contribution humaines 112 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires 1 Sp cifications externes de l environnement Dans ce chapitre nous d crivons les sp cifications externes d un environnement permettant de r cup rer des ressources existantes d en construire de fa on collaborative aspect collecticiel gr ce aux contribu tions et d en produire de nouvelles pour l export partir des donn es existantes Nous sp cifions d abord le noyau de notre environnement puis le principe de d veloppement en com munaut de re
263. ion gt xi Redefining elements of other schemas gt lt including dml schema for common DML elements used in the dictionary gt lt redefine schemaLocation http www clips imag fr geta services dml dml xsd gt lt valueType type gt lt redefinition of the value of a function gt lt complexType name valueType mixed true gt lt complexContent gt lt extension base d valueType gt lt choice gt lt element ref d reflexie minOccurs 0 gt lt choice gt lt extension gt lt complexContent gt lt complexType gt lt redefine gt 260 Annexe B sch mas XML pour Papillon lt I common definitions for monolingual dictionaries lt Note the elements specific to a dictionary language have to be redefined in a specific schema gt ci lexie element gt lt A lexie is an entry of a Papillon monolingual dictionary The structure of the articles that is microstructure of the monolingual dictionaries is based on the structure used for the formal lexical database DiCo of the OLST laboratory at Universite de Montreal The encoding methodology is directly borrowed from the explanatory and combinatorial lexicology which is part of the meaning text theory elaborated by Igor Melc uk and his colleagues gt lt element name lexie gt lt complexType gt lt sequence gt lt element ref d headword minOccurs 1 maxOccurs
264. ionnaires La d claration d un espace de noms sur un l ment XML se fait avec l attribut xm1ns On peut lui associer localement un raccourci qui sera ensuite utilis comme pr fixe par les l ments de niveau inf rieur d pendants pour les qualifier Ce raccourci est s par de l attribut xmlns par Dans l exemple de la figure C 12 il est not par dm1 lt MyElement xmlns dml http www clips imag fr geta services dml gt lt dml MyDescendant gt lt myElement gt FIG C 12 exemple d utilisation de l espace de noms DML Les espaces de noms servent viter les collisions entre deux l ments portant le m me nom mais n ayant pas la m me s mantique c est dire faisant partie de deux espaces de noms distincts On peut par exemple trouver dans un document deux l ments pr fix s de mani re diff rente lt dml table gt et lt html table gt Ces l ments ne seront pas interpr t s de la m me mani re Pour noter les liens entre nos documents XML comme des liens intradictionnaires de synonymie ou des liens interdictionnaires de traduction nous utilisons la recommandation XLink XLink 1 0 L espace de noms xlink est d clar avec l URI suivante http www w3 org 1999 xlink Pour d crire un document XML nous pouvons utiliser soit une DTD D finition de Type de Document soit un sch ma XML XML Schemas Les DTD sont celles de SGML un peu simplifi es Elles sont plus concises que les sch ma
265. ions de la ressource de fa on pouvoir reg n rer cette ressource partir de la forme r cup r e Nous sp cifions ce principe en partie C et l appliquons la r cup ration des Conclusion 215 dictionnaires FeM JMDict et DiCo dans le projet Papillon de fa on pouvoir reg n rer des dictionnaires partir de la base dans ces formats 10 Le principe de r ciprocit consiste consid rer que la base devrait changer des informations avec des programmes partenaires Ce principe a t exp riment dans les maquettes DicoWeb avec les lemma tiseurs et DicoSz t r avec les conjugueurs Nous avons sp cifi ce principe en partie C avec les API de fournisseurs de services et de ressources Le projet Papillon impl mente ces API Problemes complexes restant a r soudre L analyse et la mise au point d un environnement de cr ation manipulation et consultation de ressources lexicales a fait surgir des probl mes complexes restant r soudre Ces probl mes appartiennent des do maines vari s de l informatique Le stockage et le calcul des poids ne posent pas de probl mes lorsqu on a peu de donn es et peu d uti lisateurs Par contre nous pensons arriver au bout de peu de temps plus de 100 000 articles dans la base Envisageons que ces articles soient reli s par environ 300 000 liens et que la base comporte plus de 3 000 uti lisateurs Si un poids diff rent est associ chaque l ment cela repr sente plus
266. ire de s adapter aux volutions du domaine Sa conception doit tre pens e pour une utilisation long terme L absence de contraintes de rendement nous permet de rester un niveau g n rique et de ne pas nous restreindre une t che particuli re Nous ferons d abord un bilan des exp riences pr c dentes puis exposerons les probl mes encore non r solus et enfin terminerons par les contraintes d impl mentation 5 1 Bilan des exp riences pr c dentes 5 1 1 Sur la consultation en ligne Pour la consultation de dictionnaires nous sommes arriv pr senter la m ta information sur les ressources importante pour pouvoir les s lectionner et les valuer et le r sultat est totalement satisfaisant pr senter des dictionnaires h t rog nes de fa on unifi e avec un r sultat tr s satisfaisant bien que l on bute sur une impossibilit de principe on ne peut pas traiter les informations renvoy es par les diff rents serveurs et on ne peut donc pas les fusionner ou les filtrer un niveau fin donner des moyens Putilisateur de personnaliser ses requ tes Le r sultat est satisfaisant mais on voudrait faire bien plus 5 1 2 Sur la construction de dictionnaires Pour la construction de dictionnaires nous avons fait progresser deux m thodes d ja employ es avec succ s pour des r alisations importantes FeM SAIKAM La m thode d mocratique permet de faire des allers retours entre le lexic
267. iste aai deu ae a a AA dupe 176 2 1 1 Langues pr sentes au d part 176 2 152 Utilisateurs VIS S dia ee muet aber etes Pate meer 176 2 1 3 laboration du serveur 176 2 2 Principes lexicologiques 177 2 2 1 Architecture pivot de la base 177 2 2 2 Articles monolingues les lexies de la base DICO 178 2 2 3 Articles interlingues les axies 178 2 3 Ressources r cup rer et calendrier 179 2 3 1 Types de donn es r cup rer pe eR ge de die entend 179 2 3 2 tapes de la r cup ration 179 2 4 Description des interactions et sorties 180 2 4 1 Types de sorties produire 180 2 4 2 Types de consultation de la base 180 2 4 3 Ouvertures possibles d autres modules 180 3 Sp cifications externes 181 3 1 Serveur Papillon 2 amp 44 5 visser eae Ge OR ae Se SAN sue dede 181 SALT SC NATIOS TYPE cet 24 eh dw ew dite ane Se ek ee a nes hate 181 3 1 2 Utilisateurs et groupes 183 3 1 3 Outils utilis s pour construire le serveur 184 3 2 Structures de donn es o s ewe a SG s
268. it en SUBLIM dans la th se de Gilles S rasset S rasset94e et exp riment par Etienne Blanc dans PARAX Blanc96 Chaque langue du projet sera d crite dans un dictionnaire monolingue Ces dictionnaires seront reli s entre eux par un dictionnaire pivot de liens interlingues appel s acceptions interlingues axi Ces acceptions seront aussi reli es entre elles par des liens de raffinement DiCo fran ais DiCo japonais Vocable carte n f UNL FIG D 2 macrostructure du dictionnaire Papillon Les mots sont repr sent s dans les dictionnaires monolingues par des vocables chaque vocable cor respond un ou plusieurs sens de mots appel s lexies Chaque lexie est li e une acception du dictionnaire pivot Dans l exemple de la figure D 2 le vocable fran ais CARTE a deux sens ou lexies CARTE JOUER et CARTE G OGRAPHIQUE La lexie CARTE JOUER est reli e l acception interlingue 343 et l autre lexie CARTE G OGRAPHIQUE est reli e l acception interlingue 345 L acception 343 est son tour li e plusieurs lexies de diff rents dictionnaires monolingues la lexie KAADO du dictionnaire japonais la lexie CARD I playing card du dictionnaire anglais la lexie CARTE JOUER du dictionnaire fran ais etc Pour trouver la traduction en japonais de la lexie fran aise CARTE JOUER il faut donc passer par l acception interlingue 343 reli e cette lexie Cette acception est reli e la lexie japonai
269. italique pour les cat gories grammaticales Le serveur doit donc proposer un syst me de pr f rences pour chaque utilisateur Les pr f rences doivent tre stock es sur le serveur pour pouvoir tre utilis es lors d une prochaine session Il faut aussi pouvoir les changer dynamiquement en cours de consultation Plus g n ralement les profils des utilisateurs seront stock s dans leur espace virtuel Ces profils sont divers pr f rences comp tences int r ts et peuvent varier selon les ressources Une personne peut par exemple contribuer la prononciation d un dictionnaire fran ais et consulter un dictionnaire bilingue anglais japonais Les profils se r partissent dans plusieurs dimensions et le syst me doit les affiner automatiquement en fonction des actions des utilisateurs 1 Sp cifications externes de l environnement 119 1 3 2 R daction des articles La r daction des articles et des liens entre les articles impose plusieurs formes de contraintes En effet plusieurs cat gories de personnes sont amen es contribuer la construction d un dictionnaire Les types de contribution peuvent tre tr s diff rents Les plates formes pour lexicographes seront donc n cessairement diff rentes pour r pondre aux besoins de tous les contributeurs Accessibilit La plate forme doit tre accessible et utilisable par le plus grand nombre de personnes possibles Chaque personne souhaitant contribuer doit pouvoir le
270. itet94 Christian Boitet amp Marc Seligman 1994 The Whiteboard Architecture A Way to Integrate Heterogeneous Components of NLP Systems Proc COLING 94 Kyoto Japan 5 9 August 1994 M Nagao ed vol 1 2 pp 426 430 Boufaida98 Mahmoud Boufaida amp Zizette Boufriche Boufaida 1998 On extending a Semantic Data Model with Some Aspects of Rules and Objects Proceedings of the 5th KRDB Workshop Seattle WA 7 p Bonhomme98 St phane Bonhomme 1998 Transformation de documents structur s une combinaison des approches explicites et automatique Th se de nouveau doctorat Sp cialit Informatique Universit Joseph Fourier Grenoble 1 212 p Briscoe93 Ted Briscoe Valeria De Paiva Anne Coperstake 1993 Inheritance Defaults and the Lexi con Cambridge University Press Cambridge 298 p Buseman96 A Buseman et al 1996 The Linguist s Shoebox Summer Institute of Linguistics 111 p Byrd87 R J Byrd et al 1987 Tools and Methods for Computational Lexicology Journal of Compu tational Linguistics 13 3 4 pp 219 240 Calzolari90 Nicoletta Calzolari 1990 Acquisition of Lexical Information from a Large Textual Italian Corpus Proc COLING 90 Helsinki H Karlgren ed vol 3 3 pp 54 59 Calzolari89b Nicoletta Calzolari amp R Bindi 1989 Lexical Databases and Textual Corpora Perspec tives of Integration for a Lexical Knowledge Base Technical Report Universita di Pisa Di partimento di linguistica 1
271. ith obj usu be abbreviated shorten a word phrase or text the business of artists and repertoire commonly abbreviated to A amp R as adj abbreviated this book is an abbreviated version of the earlier work ORIGIN late Middle Enelish from late Latin abbreviat shortened from the verb abbreviare from Latin brevis short FIG A 6 pr sentation de l article abbreviate du NODE Format du dictionnaire Ce dictionnaire est aussi publi par OUP Le format interne est donc SGML Le dictionnaire est stock dans deux fichiers un pour le volume anglais fran ais et un pour le volume fran ais anglais Leur taille est d environ 15 m gaoctets chacun La prononciation est not e avec API Le tableau A 2 d crit les l ments SGML de l exemple de la figure A 7 TAB A 2 l ments SGML du DHO lt se gt lt hw gt abr amp ea ger lt hw gt lt pr gt lt ph gt abKeZe lt ph gt lt pr gt lt hg gt lt ps gt vtr lt ps gt lt hg gt lt s2 num 1 gt lt ic gt rendre court lt ic gt to shorten lt co gt mot expression lt co gt to summarize lt co gt texte discours lt co gt lt sl gt amp hw amp o0q t amp ea l amp ea vision cq en amp oqg t amp ea l amp ea amp cq lt sl gt to shorten amp 0q television cq to amp 0q TV amp cq lt se gt FIG A 7 l article abr ger du DHO en format original SGML Le mot vedette abr ger est suivi de sa prononciation de sa cat gorie
272. ition de la lexie MEURTRE avec Word 201 D 10 dition de la lexie MEURTRE avec Amaya 202 D 11 requ te sur la base Papillon 203 D 12 r partition d un article du FeM en lexies et axies 205 D 13 r partition d un article de JMDict en lexies et axies 206 D 14 fusion manuelle de certaines lexies anglaises 208 D 15 axies apr s fusion manuelle de certaines lexies anglaises 209 D 16 ajout d axies interm diaires so s coso aoe ee 210 D 17 ajout de liens de raffinement entre axies 210 A l organisation des l ments de DML 233 xil Table des figures Introduction Introduction 3 Situation et motivations Partout dans le monde les centres de recherche publics et priv s en traitement automatique des langues naturelles TALN accumulent de plus en plus de ressources lexicales de formats h t rog nes pour les be soins de leurs diverses applications Ces ressources sont difficiles maintenir et manipuler Il faut souvent reconstruire de z ro un dictionnaire ad hoc pour chaque nouvelle application L utilisation d Internet favorise la communication entre individus Ceux ci ont de ce fait besoin de communiquer travers des langues diff rentes et donc d utiliser et aussi ventu
273. l ensemble jours feri s comme tant le samedi et le dimanche Disjonction La disjonction est aussi d finie au niveau de la d finition des documents Dans un sch ma XML la disjonction est not e avec l l ment lt xsd choice gt de la fa on suivante lt complexType name section gt lt sequence gt lt choice gt lt element name paragraphe type string gt lt element name illustration type string gt lt choice gt lt sequence gt lt complexType gt Cet exemple d finit une section comme tant une succession de paragraphes et d illustrations Types de base Le type de base d un document XML est la chaine de caract res Grace aux sch mas XML nous pouvons utiliser un certain nombre d autres types de base repr sent s par la figure C 19 enr inde orc fy an cepa as RS ED a ring boolean ENTITY ID IDREF OName binary decim FIG C 19 types simples des sch mas XML 2 D finition du noyau de l environnement avec SUBLIM 143 H ritage Le m canisme d h ritage de LINGARD est r alis en XML par un programme impl mentant une API DOM DOM l heure actuelle les principaux langages de programmation r pandus comme C C java Perl impl mentent le DOM 2 3 3 V rificateurs de coh rence Nous avons vu dans le chapitre pr c dent comment r diger une contrainte de coh rence gr ce au lan gage de v rification de coh rence inclus dans SUBLIM Nous allons voir maintenant comm
274. l gt lt volumes gt lt dictionary gt Description d un volume L l ment lt volume gt regroupe des articles de dictionnaires ayant la m me langue source La des cription formelle de cet l ment est contenue dans le sch ma DML en annexe de ce document Elle est r f renc e par l attribut xsi schemaLocat ion Les modifications de l l ment lt volume gt et de ses descendants sont stock es dans le document point par l attributhistory ref L exemple suivant est la version XML de la figure C 6 d crivant le volume du dictionnaire FeM lt volume xsi schemaLocation http clips imag fr geta services dml http clips imag fr geta services dml dml xsd history ref http clips imag fr geta services dml fem his xml name FeM_fr_en ms source language fra gt lt article gt articles lt volume gt 2 3 2 D finitions de microstructure Pour repr senter les microstructures des dictionnaires nous proposons d une part de reprendre les struc tures d finies avec LINGARD en XML et d autre part de d finir quelques structures de traits de base Nous reprenons ici la sp cification de LINGARD point par point Arbres Pour repr senter un arbre de d pendances associ la phrase Le chat mange une souris par exemple on peut utiliser un l ment n ud d cor lt nd gt avec des attributs correspondant aux variables grammati cales lt nd ul manger time present aspect imperfec
275. l eds 1995 pp 288 294 Christian Boitet 1997 GETA s methodology and its current development towards personal networking communication and speech translation in the context of the UNL and C STAR projects Proc PACLING Ohme Tokyo Japon PACLING vol 1 1 pp 23 57 Christian Boitet Etienne Blanc Mathieu Mangeot Lerebours Pierre Guillaume Nicolas N deau Mutsuko Tomokiyo amp Jerzy Sitko 1998 Processing of French in the UNL Project Year 1 Final Report The United Nations University and Universit Joseph Fourier Gre noble mars 1998 216 p Christian Boitet Pierre Guillaume amp Maurice Quezel Ambrunaz 1982 ARIANE 78 an inte grated environment for automatic translation and human revision Proc COLING 82 Prague July 1982 pp 19 27 Christian Boitet amp Nicolas Nedobejkine 1982 Base lexicale organisation g n rale et in dexage Rapport final projet ESOPE ADI partie D GETA Grenoble 1982 30 p Christian Boitet amp Nicolas Nedobejkine 1986a Toward Integrated Dictionary for M A T Motivations and Linguistic Organisation Proc COLING 86 Bonn 25 29 ao t 1986 vol 1 1 pp 423 428 Bibliographie 219 Boitet86b Christian Boitet amp Nicolas Nedobejkine 1986b Vers une base lexicale int gr e pour la T a O motivations et organisation linguistique Proc Journ es francophones de l informa tique bases de donn es et bases de connaissances Grenoble janvier 1986 vol 1 1 pp 151 169 Bo
276. la base peuvent avoir besoin d annoter les parties de ressources qu ils consultent Les lexicographes et les contributeurs ont besoin de partager des remarques sur des parties d articles en cours de r daction Les lecteurs peuvent ajouter leurs remarques personnelles et se construire leur propre dictionnaire personnel Il faut aussi pouvoir annoter des liens interlingues Les annotations doivent donc pouvoir tre partag es par plusieurs utilisateurs ou groupes d utilisateurs Ces groupes peuvent tre des lexicographes travaillant sur la m me ressource des contributeurs qui ont en commun les m mes langues etc Du c t des clients il faut une interface permettant d annoter n importe quelle partie d information disponible sur la base Du c t du serveur il faut d une part stocker les informations de gestion pour les utilisateurs et les groupes mais aussi stocker pour chaque utilisateur un dictionnaire personnel d annotations change entre bases lexicales Les bases lexicales sont en constante volution Certaines peuvent tre r parties sur le r seau Pour qu elles puissent se synchroniser il faut leur permettre d changer des donn es Par exemple un nouvel article r dig sur une base sera r percut sur les autres bases Ces changes de donn es entre bases lexicales partenaires doivent pouvoir se faire automatiquement Il faut donc laborer un protocole d change entre bases lexicales et clients fournisseur
277. laisser abandonner E nCCE sert src gt army d serter desert desert obj place A abandonner aesertiobj human placelra A ert obj human desertiirioatate desert aoj gt ground desert icl gt punishment e sent PT aeCEAGCE ina inxight Je FIG B 20 article desert de la base lexicale UNL 3 3 Annotation d un article de dictionnaire Lors de la consultation d un dictionnaire les utilisateurs souhaitent souvent ajouter des remarques sur des articles d j crits Lors de la r daction les r dacteurs souhaitent faire des commentaires sur des in formations qu ils veulent ajouter mais ne savent pas comment ajouter Ces annotations doivent pouvoir tre partag es entre groupes d utilisateurs et de r dacteurs 3 3 1 Notre outil Partant de ce constat nous avons impl ment une maquette permettant d annoter les dictionnaires consultables sur nos serveurs comme DicoWeb FeM etc Les annotations sont stock es sur un serveur Chaque utilisateur g re son propre dictionnaire d annotations Il peut partager ses annotations avec plusieurs groupes d utilisateurs Lorsqu un utilisateur recherche une entr e notre outil consulte le serveur d annotations et affiche les annotations appartenant aux groupes dont fait partie l utilisateur Ensuite l utilisateur peut modifier ses annotations ou en cr er de nouvelles partager ventuellement entre
278. le si l uti lisateur ne s lectionne que l anglais comme langue source et cible le script consultera le dictionnaire NODE monolingue anglais et la base ELRA S il choisit le fran ais comme langue source et l anglais comme langue cible le script consultera le dictionnaire FeM le OHD fran ais anglais et la base ELRA S il choisit l espa gnol comme langue source le script ne consultera que la base ELRA La base ELRA et le dictionnaire FeM sont multilingues Si l utilisateur n a s lectionn que certaines langues cibles par exemple l anglais le malais du FeM et les autres langues de la base ELRA ne sont pas affich es Cela permet de personnaliser l affichage en fonction des demandes de l utilisateur Les diction naires ne subissent aucune modification ils sont consult s directement dans leur format d origine Perl dispose d un puissant langage d expressions r guli res chaque dictionnaire correspond une ex pression r guli re Pour chercher une entr e du OHD par exemple on utilisera le patron lt hc w gt Sentry lt o Sentry repr sente l entr e demand e Le dictionnaire FeM est unidirectionnel du fran ais vers l anglais et le malais Cependant gr ce aux expressions r guli res nous pouvons chercher la traduction d un mot malais en fran ais ou plus exactement chercher dans quelles entr es fran aises appara t ce mot malais L utilisateur pourra alors se faire une id e de la traduction
279. lectronique Les lexico logues g rent les contributions Ils les r visent et les int grent aux ressources existantes Ils proposent aussi des listes de choses faire par les contributeurs 184 D Application Papillon projet de base lexicale multilingue sur Internet Les utilisateurs peuvent se constituer en groupes pour partager des annotations et des contributions cr er une liste de distribution par courrier lectronique etc Ils doivent tre au minimum deux pour constituer un groupe Ils envoient leur demande un aministrateur qui cr e le groupe Liste des commandes Pour g rer les diff rents utilisateurs et groupes le serveur interpr te les commandes suivantes cr ation d un nouvel utilisateur modification des donn es d un utilisateur suppression d un utilisateur existant cr ation d un nouveau groupe ajout d un utilisateur dans un groupe suppression d un utilisateur dans un groupe suppression d un groupe Le serveur Web de Papillon doit proposer des interfaces sous forme de formulaires HTML permettant d acc der ces commandes Par exemple pour l ajout d un nouvel utilisateur dans la base celui ci devra renseigner cinq champs du formulaire HTML nom pr nom login mot de passe et adresse lectronique Le formulaire HTML envoie ensuite les donn es au serveur qui ex cute la commande cr ation d un nouvel utilisateur avec ces donn es comme param tres
280. les bases de donn es dictionnairiques Journ e ANRT Les CIFRE dans le domaine de l audiovisuel Institut Na tional de l Audiovisuel 23 septembre 99 Paris 4 p Mangeot99b Mathieu Mangeot Lerebours 1999b Acc s unique des dictionnaires h t rog nes Proc LTT 99 VIe Journ es scientifiques du R seau th matique de l AUF Lexicologie Terminolo gie Traduction diteurs A Clas H Awaiss et J Hardane Beyrouth Liban 11 13 novembre 1999 pp 311 316 Mangeot00 Mathieu Mangeot Lerebours 2000 Papillon Lexical Database Project Monolingual Dictio naries amp Interlingual Links WAINS 7 7th Workshop on Advanced Information Network and System 7 8 d cembre 2000 Kasetsart University Bangkok Tha lande para tre Meijs92 Willem Meijs 1992 Computers and Written Texts Chapitre 6 Butler C editor Oxford Basil Blackwell Ltd pp 141 165 McCord89 Michael C McCord 1989 Design of LMT A Prolog based machine translation system Computational Linguistics 1989 Vol 15 1 pp 33 52 Melcuk92 Igor Mel tchuk 1984 1988 1992 DEC Dictionnaire Explicatif et Combinatoire du francais contemporain recherches lexico s mantiques I II et III Presses de l Universit de Montr al Montr al Qu bec Canada 172 p 332 p et 323 p Melcuk95 Igor Mel tchuk Andr Clas amp Alain Polgu re 1995 Introduction la lexicologie explicative et combinatoire Louvain la neuve ed Duculot 256 p
281. leur signification Un tel ensemble constitue la DTD Document Type Definition qui est une sorte de grammaire hors contexte SGML permet de d finir des hi rarchies multiples et permet aussi de ne pas fermer ou ouvrir des balises Pour l analyse il faut alors imp rativement se servir de la DTD Dans l exemple suivant toutes les balises ne sont pas ferm es lt semaine gt lt jours feries gt lt jour num 6 gt samedi lt jour num 7 gt dimanche lt semaine gt 5 2 2 Un standard plus r cent XML et ses d riv s XML Connolly97 est apparu en 1997 C est un sous ensemble simplifi de SGML Les recherches sur XML ont donn naissance une recommandation du W3C XML 1 0 respectant la norme UNICODE 15093 XML rend possible la repr sentation d une grande vari t d information Toutes ces caract ristiques garantissent la lisibilit par de humains ainsi que la p rennit et la compatibilit avec un nombre croissant d outils De plus comme XML est un sous ensemble de SGML la conversion de dictionnaires bien form s au niveau XML n est pas n cessaire Comme XML est un format textuel il sera toujours possible de lire les fichiers originaux encod s en XML Un document XML a une structure en forme d arbre comme SGML mais avec un seul l ment racine Tous les l ments ont une balise ouvrante et une balise fermante Les balises facultatives de SGML ne sont plus autoris es ce qui rend beaucoup plus facile regard en a
282. lexType gt lt element gt lt l politeness element gt lt language level gt lt element name politeness gt lt complexType gt lt attribute name grade type d politenessType gt lt complexType gt lt element gt lt l politeness grade type gt lt has to be redefined into the language specific schemata gt lt simpleType name politenessType gt lt restriction base string gt lt simpleType gt lt usage element gt lt language level gt lt element name usage gt lt complexType gt lt attribute name grade type d usageType gt lt complexType gt lt element gt lt usage grade type gt lt has to be redefined into the language specific schemata gt 262 Annexe B sch mas XML pour Papillon lt simpleType name usageType gt lt restriction base string gt lt simpleType gt lt I reference element gt lt language level gt lt element name reference gt lt complexType gt lt attribute name grade type d referenceType gt lt complexType gt lt element gt lt I reference grade type lt has to be redefined into the language specific schemata gt lt simpleType name referenceType gt lt restriction base string gt lt simpleType gt lt l semantic formula element gt lt comes from the meaning text theory gt lt element name semant
283. lexicologue peut souhaiter int grer ce dictionnaire r cup r au dictionnaire Papillon pour constituer un squelette Pour cela il d crit l algorithme de manipulation du dictionnaire en partie avec le langage PRODUCDIC et en partie avec des commandes du syst me Papillon Il envoie ensuite cet algo rithme au syst me Ce dernier manipule alors automatiquement le dictionnaire r cup r pour compl ter le dictionnaire Papillon Si le dictionnaire r cup r est envoy par un contributeur celui ci obtient des points de cr dit pour sa contribution 3 1 2 Utilisateurs et groupes Utilisateurs Lors de leur premi re connexion les utilisateurs sont invit s s enregistrer dans la base Ils doivent fournir leur nom pr nom un login et un mot de passe ainsi qu une adresse courriel Ils peuvent aussi indiquer leurs int r ts leurs comp tences et ventuellement leur d sir d apporter la base le contenu de fichiers dont ils disposent Un espace virtuel leur est ensuite allou avec un capital de points de d part pour les contributions Ils peuvent ensuite stocker leurs pr f rences annotations contributions etc Groupes Au d part trois groupes pr d finis sont enregistr s sur le serveur l univers ensemble de tous les uti lisateurs les administrateurs et les lexicologues Les administrateurs cr ent des comptes utilisateurs et des groupes administrent les serveurs Web ftp et les listes de discussion par courrier
284. lexies anglaises dont le mot vedette est une traduction anglaise contenue dans Particle L identificateur de la lexie suivante porte le num ro 2 car une pr c dente lexie a d j t cr e avec ce mot vedette lors de la r cup ration du FeM lt lexie id to abandon 2 basic no gt lt headword gt to abandon lt headword gt lt axies gt lt refaxie href a44 gt lt axies gt 208 D Application Papillon projet de base lexicale multilingue sur Internet lexie gt Cette lexie est aussi reli e l axie a44 5 2 4 Axies provenant de l article L article g n re une axie reliant la lexie japonaise et les lexies anglaises Voici l axie a44 reliant les deux lexies pr d centes lt axie id a44 gt lt eng gt lt reflexie href to fail 1 gt lt reflexie href to abandon 2 gt lt reflexie href to desert 2 gt lt eng gt lt jpn gt lt reflexie href mizuteru 1 gt lt jpn gt lt axie gt 5 3 Fusion ventuelle de lexies anglaises Le travail automatique est termin Le contenu de la base est maintenant r vis par des sp cialistes lexicologues qui d cident de fusionner ou de s parer des lexies ou des axies Dans la suite nous imaginons qu un linguiste sp cialiste de l anglais d cide de fusionner les deux lexies anglaises to desert 1 etto desert 2 d une part puis les deux lexies anglaises to abandon 1 et to abandon 2 d autre part figure D 14 abandonner 3 aba
285. linguistiques et microstructures structures lexicales pour repr senter les donn es des outils permettant la manipulation des ressources lexicales un environnement de construction de dictionnaires en coop ration et de navigation consultation dans une base lexicale 1 2 Architecture g n rale du projet La base lexicale devra r sider sur un serveur reli Internet Le d veloppement des ressources se fera distance par les contributeurs Le sc nario est le suivant ceux ci envoient leurs contributions Elles sont stock es dans leur espace virtuel avant d tre r vis es par les lexicologues Une fois r vis es les contri butions sont int gr es la base lexicale La base est ensuite consult e via Internet par les utilisateurs qui peuvent configurer le r sultat de leurs requ tes Utilisateur Utilisateur Lexicologue Contributeur Articles Articles Articles Articles Base Lexicale Papillon y y Int gration des lt Contributions contributions Int gration des ressources d origine FeM JMDict ins DiCo er FIG D 1 vue globale de la base lexicale Papillon La m thode retenue est de construire une base lexicale multilingue pivot et d en extraire des diction naires bilingues ou multicibles la vol e ou hors ligne avec ou sans filtrage et dans des formats vari s pour usages humains et machinaux Pour chaque lang
286. lobale suivante l l ment axie indiqu comme cible sur un lien du dictionnaire French existe bien dans le dictionnaire Pivot Cette contrainte porte sur tous les liens du dictionnaire French L expression bool enne de la figure C 11 v rifie l existence de l axie cible dans le dictionnaire Pivot 2 D finition du noyau de l environnement avec SUBLIM 127 def linguistic class axie feature structure id integer semantic cat string fra set of reflexie external references set of reference def linguistic class reflexie link source Pivot axie target French lexie FIG C 10 microstructure du dictionnaire Pivot define coherence rule verification target link applies on French refaxie target axie verifies exist Pivot axie rror message L axie cible du lien n existe pas level critical FIG C 11 exemple de r gle de coh rence en SUBLIM Critique Le niveau bases de donn es limite le stockage une base de donn es locale Or le stockage des ressources ne se fait pas forc ment en local Il faut aussi pouvoir interagir avec des ressources distantes r pondant un protocole de communication sp cifique L interaction avec les clients et les fournisseurs n a pas t abord dans la d finition de SUBLIM Il faut sp cifier des interfaces pour que le niveau interne communique avec le niveau fournisseurs de stockage des donn es et le niveau d interaction a
287. lt example element gt lt l a usage example of a lexie gt lt element name example gt lt complexType mixed true gt lt attribute ref d id use optional gt lt attribute ref d lang gt lt attribute ref xlink href use optional gt lt complexType gt lt element gt lt examples element gt lt lists some full idioms containing the lexie gt lt element name full idioms gt 1 Sch ma g n ral de Papillon 265 lt complexType gt lt sequence maxOccurs unbounded gt lt element ref d idiom gt lt sequence gt lt complexType gt lt element gt lt idiom element gt lt a full idioms containing the lexie gt lt element name idiom gt lt complexType mixed true gt lt attribute ref d id use optional gt lt attribute ref xlink href use optional gt lt complexType gt lt element gt lt axies element lt lists all the references to axies Normally a lexie should be linked to only one axie Non conforming cases should be signalled to the lexicologists gt lt element name axies gt lt complexType gt lt sequence maxOccurs unbounded gt lt element ref d refaxie gt lt sequence gt lt complexType gt lt element gt lt refaxie element a lt I references to an axie with an xlink The link can be tagged with a gloss gt lt element name refaxie type d re
288. lt element ref d reflx gt lt sequence gt lt attribute ref d resource gt lt complexType gt lt element gt i reflx element gt lt Represents a LexiGuide concept corresponding to the axie gt lt element name reflx type d refType gt lt schema gt 272 Annexe B sch mas XML pour Papillon 3 Sch ma de Papillon francais lt XML Schema for Papillon French lexies volume for the Papillon lexical database In this schema are define all the language specific elements like parts of speech etc Namespace http www clips imag fr geta services dml This schema is identified by the location http www clips imag fr geta services dml papillon fra xsd SAuthor mangeot Mathieu MANGEOT LEREBOURS Mathieu Mangeot imag fr Date 2001 09 15 09 37 10 SRevision 1 14 gt lt schema targetNamespace http www clips imag fr geta services dml gt lt annotation gt lt documentation xml lang en gt XML Schema for Papillon French lexies volume for the Papillon lexical database In this schema are define all the language specific elements like parts of speech etc Namespace http www clips imag fr geta services dml This schema is identified by the location http www clips imag fr geta services dml papillon fra xsd lt documentation gt lt annotation gt lt Redefining elements of Papillon common schema lt redefine schemaLocation http www cli
289. lt enumeration value loc gt lt locution adjectivale gt lt enumeration value loc adj gt lt locution pr positionnelle gt lt enumeration value loc prep gt lt locution adverbiale gt lt enumeration value loc adv gt lt locution nominale gt lt enumeration value loc nom gt lt frestriction gt lt simpleType gt lt redefine gt lt schema gt 4 Sch ma de Papillon japonais 275 4 Sch ma de Papillon japonais lt XML Schema for Papillon Japanese lexies volume for the Papillon lexical database In this schema are define all the language specific elements like parts of speech numeric specifiers etc Namespace http www clips imag fr geta services dml This schema is identified by the location http www clips imag fr geta services dml papillon jpn xsd SAuthor mangeot Mathieu MANGEOT LEREBOURS Mathieu Mangeot imag fr Date 2001 09 15 09 37 10 SRevision 1 14 gt lt schema targetNamespace http www clips imag fr geta services dml gt lt annotation gt lt documentation xml lang en gt XML Schema for Papillon Japanese lexies volume for the Papillon lexical database In this schema are define all the language specific elements like parts of speech numeric specifiers etc Namespace http www clips imag fr geta services dml This schema is identified by the location http www clips imag fr geta services dml pa
290. lt enumeration value state gt lt enumeration value gloss gt lt enumeration value idiom gt lt enumeration value citation gt lt enumeration value proverb gt lt restriction gt lt simpleType gt lt element gt lt language links group gt lt This group contains the links from the axie to the monolingual lexies All the links to lexies of one language are grouped into a language element It has to be redefined in the schema specific to the axies volume gt lt group name languages links gt lt all gt lt group gt ZI refinements element lt l lists all the axies that refines this axie gt lt element name refinements type d refaxiesType gt lt generalizations element gt lt lists all the axies that generalize this axie gt lt element name generalizations type d refaxiesType gt lt synonyms element gt lt l lists all the axies synonyms of this axie gt lt element name synonyms type d refaxiesType gt lt refs type gt lt lists all the axies synonyms of this axie gt lt complexType name refsType gt lt sequence gt lt element ref d reflexie minOccurs 0 maxOccurs unbounded gt lt element ref d refexample minOccurs 0 maxOccurs unbounded gt lt element ref d refidiom minOccurs 0 maxOccurs unbounded gt lt sequence gt 1 Sch ma g n ral de Papill
291. ltilingue cr ation ou re cherche puis import de fiches multilingues gestion locale des informations conceptuelles lexicales et s mantiques selon les droits du r dacteur sur les langues concern es export puis validation de la fiche modifi e un outil d exploration de publications multilingues de r f rence align es par paires de langues un espace interactif de communication permettant aux r dacteurs d interagir efficacement 62 A Contexte actuel de la dictionnairique des solutions pour d river de cette base divers produits tels que des glossaires bilingues ou trilingues et des dictionnaires monolingues un outil de r troconversion des 3 dictionnaires monolingues initiaux en une unique base terminolo gique approche conceptuelle multilingue de larges possibilit s d extension du syst me ajout de nouvelles langues et de responsables DHY DRO comporte galement une interface web offrant ainsi au plus grand nombre un acc s direct aux donn es hydrographiques recherche sur le contenu dans les diverses langues et pr sentation des r sultats selon divers formats 6 1 2 G n ricit et flexibilit de Dhydro Les outils sont adapt s mais totalement ind pendants d une part de tout domaine terminologique et d autre part de toute plate forme mat rielle Les efforts ont principalement port sur l utilisation intensive de normes et de standards existant dans les champs des t
292. lumes un volume tri selon les mots vedettes d une langue et donnant les traductions de ces mots vedettes dans une autre langue et un autre volume sym trique Ce sont des dictionnaires bilingues bidirectionnels Ces dictionnaires bilingues sont rarement bijectifs chaque mot vedette d une langue ne correspond pas une traduction et une seule dans l autre langue sauf certains lexiques terminologiques simplifi s Par exemple un dictionnaire bilingue bidirectionnel anglais fran ais est compos de deux volumes un volume anglais gt fran ais et un volume fran ais gt anglais 1 Notions du domaine 9 nglish a English English LA Monolingue En toile Fra Eng Eng Era Fran Fra Eng Eng Eng Fra May Bilingue Multilingue Bidirectionnel Monodirectionnel FIG A 1 exemples de macrostructures Une macrostructure plus labor e destin e aux bases lexicales multilingues consiste organiser en toile autour d un dictionnaire central de concepts ou d acceptions des dictionnaires monolingues contenant dans chaque langue de la base les traductions des concepts ou acceptions du dictionnaire central Le dictionnaire central joue le r le de pivot de la base Ce sont des bases de concepts ou d acceptions comme la base PARAX Blanc95 97 d velopp e au GETA ou le projet ULTRA dirig par Yorick Wilks Farwell92 Dans une base de concepts ceux ci sont d finis en premier On cherche ensuite comment ils sont traduits
293. ment racine du r sultat est fusion gt lt fusion gt lt xsl variable name source select document f_source gt lt xsl variable name ref select document f_ref gt lt copie du fichier f_source dans le r sultat gt lt xsl copy of select source gt lt copie du fichier f_ref dans le r sultat gt lt xsl copy of select Sref gt lt fusion gt lt xsl template gt lt xsl stylesheet gt Nous voulons v rifier la contrainte de coh rence globale suivante l l ment axie indiqu comme cible sur un lien du dictionnaire French existe bien dans le dictionnaire Pivot Cette contrainte porte sur tous les liens du dictionnaire French elle v rifie l existence de l axie cible dans le dictionnaire Pivot lt xsl stylesheet version 1 0 gt lt application du mod le sur le n ud fusion gt lt xsl template match fusion gt lt application du mod le identification pour chaque refaxi gt lt xsl for each select dictionary lexie axies refaxie gt 2 D finition du noyau de l environnement avec SUBLIM 145 lt xsl call template name identification gt lt xsl for each gt lt xsl template gt lt model identification gt lt xsl template name identification gt lt xsl variable name axicour select string attribute href gt lt xsl value of select Saxicour gt lt pour chaque axie gt lt xsl for each select fusion dic
294. ments Pour noter l encodage des diff rents documents de la base nous d finissons dans le sch ma DML le type encodingType Les valeurs de ce type sont celles d crites par IANA Internet Assigned Number Authority pour les encodages Ce sont aussi les valeurs utilis es pour les types MIME Multipurpose In ternet Mail Extension Parmi les plus utilis es nous trouvons ASCII sur 7 bits ISO 8859 1 sur un octet 8 bits pour les langues latines Shift JIS sur un ou deux octets pour le japonais UTF 8 sur un octet pour les caract res Unicode etc Statut d un l ment D attribut DML status d un l ment est utilis pour indiquer son statut Il peut prendre entre autres les valeurs auto si l l ment a t fabriqu automatiquement rough si l l ment n a pas encore t r vis revised s il a t r vis etc Poids d un l ment Nous pr voyons d utiliser des syst mes de poids sur les l ments de notre base Cela devrait permettre de personnaliser des pr f rences ou de noter des fr quences en ne m morisant que les poids et de transformer toute la base en une sorte de r seau neuronal V ronis90 susceptible d apprentissage Cependant si nous voulons impl menter plusieurs syst mes de poids nous devons s parer les l ments et les liens entre l ments de leur poids Les l ments et les liens doivent porter des identificateurs uniques Cela permettra de les r f rencer et de leur associer plus
295. n L l ment lt langSet gt contient une section de langue Ici il y a une section pour l anglais et une section pour le hongrois L l ment lt t ig gt term information group repr sente une section terminologique compos e d un terme et de l information associ e L l ment lt termNote type termType gt est la cat gorie ISO 12620 du terme Conclusion 65 Conclusion Cette partie nous a permis d identifier les limites des outils actuels et d imaginer des voies de recherche possibles pour nos futures exp rimentations Pour la consultation de dictionnaires il serait tr s int ressant de pouvoir acc der la m ta information sur les ressources afin de distinguer leur qualit et leur couverture Les utilisateurs aimeraient aussi pou voir consulter plusieurs dictionnaires avec la m me interface m me si ces dictionnaires ont des formats h t rog nes Ils pourraient de ce fait comparer plus facilement les articles des diff rents dictionnaires Il nous semble aussi n cessaire de proposer des outils d aide en amont ou en aval de la consultation comme des correcteurs orthographiques et des lemmatiseurs pour la recherche ou des conjugueurs pour l utili sation Enfin il est indispensable que l utilisateur puisse personnaliser le r sultat de ses requ tes au ni veau de la structure informations cacher etc et de la pr sentation style couleurs polices etc afin de s lectionner uniquement les info
296. n es voir figure B 19 Un score final est donn l utilisateur en fonction du nombre d erreurs qu il a faites Cette interface est tr s pratique pour l apprentissage du vocabulaire Cependant sa mise en place n est possible que si les informations sont pr sentes dans tous les articles du dictionnaire et elle d pend de la 92 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc lt lt previous next gt FIG B 18 article fa du serveur DicoSz t r Quizz Dico Web hongrois XRCE fermer fermer exemple exemple debout i tre assis Entr es 5 Le ons toutes 1 Votre note est de 4 5 FIG B 19 utilisation de DicoSz t r par un quizz 3 Nouvelles directions pour la consultation 93 structure du dictionnaire L application est relativement sommaire Elle a principalement pour but d illus trer l utilisation d un dictionnaire par une autre application Pour des renseignements plus complets sur les environnements d apprentissage il est possible de se r f rer la th se de Thierry Selva Selva00 3 2 Visualisation au moyen d arbres hyperboliques 3 2 1 Introduction Le projet UNL utilise l heure actuelle environ 16 langues Les bases lexicales UNL de chaque langue sont compos es d un dictionnaire bilingue reliant les unit s lexicales UNL aux lemmes de la langue Une unit lexicale UW est compos e d un mot vedette hea
297. n profil de comp tences Probl me de gestion des contributions Tous les utilisateurs qui poss dent un compte virtuel sur le serveur peuvent envoyer leurs contributions au serveur Si ces contributions sont int gr es sans contr le la base lexicale risque de se trouver pollu e par des contributions ou des corrections erron es Il faut donc mettre en place un m canisme de gestion des contributions par un groupe restreint d experts qui permette de n int grer les contributions que si elles ont t valid es Les contributions ne seront donc pas int gr es directement dans la base mais elles seront stock es dans l espace virtuel du contributeur jusqu ce qu elles soient r vis es valid es et int gr es 106 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc 5 2 2 Gestion d une base multilingue Lors de nos exp riences pr c dentes nous avons utilis plusieurs dictionnaires bilingues mais nous n avons pas encore manipul de v ritable base lexicale multilingue D autre part nous avons r utilis les ressources lexicales dans leur format d origine et nous n avons donc pas non plus r solu le probl me de la structuration des informations lexicales Evolution des dictionnaires bilingues vers une base lexicale multilingue Nous ma trisons la fabrication de dictionnaires bilingues en utilisant diverses m thodes Nous souhaitons maintenant monter d un degr
298. n langage utilis comme base pour r f rencer une portion de document XML XPointer est bas sur XPath XPath Il permet l examen d une structure hi rarchique de document et le choix de ses parties internes bas sur diverses propri t s comme le type des l ments les valeurs d attributs les caract res et leur position relative Exemple d annotation Tout d abord l utilisateur configure son logiciel pour utiliser les annotations Il doit indiquer son nom d utilisateur et le serveur sur lequel seront stock es les annotations Pour notre exemple nous avons stock les annotations en local pour pouvoir les analyser Les annotations sont index es par document annot Lorsque l utilisateur annote un document un fichier d index est cr ou modifi Ce fichier d index contient une liste d associations entre un document annot et un index d annotations Pour l exemple nous avons annot le titre de cette section l annoteur Amaya Le fichier d index est compos des informations suivantes file home mmangeot MM These partieB html file home mmangeot amaya annotations index01 Il indique donc que le fichier partieB html a t annot et que les annotations sont index es dans le fichier index01 Ce fichier est au format XML Il utilise la norme RDF pour noter les annotations sur un document La figure B 22 repr sente un extrait de ce fichier lt d claration des espaces de noms gt lt
299. n programme ne peut d duire automatiquement cette structure Si l on veut utiliser ces dictionnaires avec des machines il faut donc trouver un moyen de r cup rer ces informations Une seconde observation est que ces dictionnaires ont des structures tr s vari es Si l on veut repr senter un maximum de dictionnaires avec le m me langage il faut donc que ce langage soit g n rique et qu il puisse repr senter un grand nombre de structures linguistiques comme des arbres des tableaux de r gimes des fonctions lexicales etc Un troisi me point est que tous ces dictionnaires ont des formats diff rents Si l on veut les utiliser en m me temps il faut donc trouver un moyen d unifier les formats soit avec un format commun soit avec des 20 A Contexte actuel de la dictionnairique outils de transformation dynamiques Enfin la s mantique des marques ou balises contenues dans les dictionnaires n est pas non plus unifi e Pour repr senter le mot vedette on utilise parfois l l ment lt hw gt parfois l l ment entry parfois l l ment lt h1 gt etc Il faut donc l aussi trouver un moyen de s accorder pour pouvoir manipuler diff rents dictionnaires l aide des op rations de fusion d union d intersection etc 1 3 Exemples de dictionnaires usage machinal 1 3 1 Un dictionnaire provenant de la traduction automatique le RUSFRA Le syst me RUS FRA Boitet82a 82b est un syst me de traduction
300. nbounded gt lt sequence gt lt complexType gt lt element gt lt DML element for value of a function gt lt It has to be redefined in schemas specific to the dictionaries eet lt element name value type d valueType gt lt complexType name valueType gt lt schema gt 256 Annexe A sch ma XML pour DML Annexe B sch mas XML pour Papillon Annexe B sch mas XML pour Papillon 259 1 Sch ma g n ral de Papillon lt XML Schema for common elements of Papillon dictionary These elements are used to encode Papillon monolingual dictionaries and Papillon axies dictionary Namespace http www clips imag fr geta services dml This schema is identified by the location http www clips imag fr geta services dml papillon xsd SAuthor mangeot Mathieu MANGEOT LEREBOURS Mathieu Mangeot imag fr Date 2001 09 15 09 37 10 SRevision 1 14 gt lt schema targetNamespace http www clips imag fr geta services dml gt lt annotation gt lt documentation xml lang en gt XML Schema for common elements of Papillon dictionary These elements are used to encode Papillon monolingual dictionaries and Papillon axies dictionary Namespace http www clips imag fr geta services dml This schema is identified by the location http www clips imag fr geta services dml papillon xsd lt documentation gt lt annotat
301. ndonner 2 Axie 41 Axie 42 Axie 44 a to abandon 1 Ea N XN lt FIG D 14 fusion manuelle de certaines lexies anglaises 5 valuations pr liminaires et exemples 209 5 3 1 Lexies apr s fusion Dans l exemple suivant le linguiste a d cid de fusionner les deux lexies anglaises to abandon 1 et to abandon 2 ayant le m me mot vedette to abandon La lexie to abandon 2 est supprim e mais son id ne sera jamais r affect lt lexie id to abandon 1 basic yes gt lt headword gt to abandon lt headword gt lt fem data gt lt gloss gt renoncer a lt gloss gt lt fem data gt lt axies gt lt refaxie href a42 gt lt axies gt lt lexie gt 5 3 2 Axies apr s fusion Maintenant le linguiste doit g rer les anciennes axies qui taient reli es aux lexies qu il vient de fu sionner Il se trouve alors dans la situation de la figure D 15 Pour obtenir une configuration normale il faut r soudre les conflits g n r s par la fusion des lexies anglaises savoir qu une lexie ne peut pointer vers deux axies diff rentes Dans la figure D 15 to desert 1 pointe sur les axies a41 et a42 etto abandon 1 pointe sur les axies a42 et a44 abandonner 3 abandonner 2 to give up 1 to abandon 1 FIG D 15 axies apr s fusion manuelle de certaines lexies anglaises S il n a aucune information sur les autres langues le lexicologue ajoutera une axi
302. ner parmi tous les articles des dictionnaires s lectionn s pr c demment que ceux qui int ressent l utilisateur Cela revient en fait red finir une nomen clature personnalis e selon les propres crit res de l utilisateur Voici des exemples de s lection dans la macrostructure seulement les verbes intransitifs du premier groupe les articles class s selon l origine des mots vedettes e g latin esquimo grec puis selon l ordre alphab tique les m mes articles que le Lexis mais r ordonn s selon la phonologie selon les deux derni res syl labes comme un dictionnaire de rimes tous les mots polonais de huit lettres finissant par icz ou conformes une expression r guli re donn e class s par ordre alphab tique mais sans aucune information simple liste de mots tous les mots d origine latine du domaine juridique class s selon leur date d apparition tous les homophones du fran ais class s par famille d homophones et par ordre alphab tique motl homophone 11 homophone In mot m homophone m1 homophone mn recherches par champs s mantiques d rivations s mantiques etc Requ tes sur la microstructure Lorsque la liste des articles est d finie il faut s lectionner les informations dans la microstructure si Pon ne veut pas voir toutes les informations contenues dans les articles Voici des exemples de s lection dans la microstructure les d finitions en fran ai
303. nformation sur les ressources disponibles de consulter plusieurs ressources h t rog nes la fois partir d un navigateur et aussi de regrouper des ressources locales et distantes avec un r sultat transparent pour l utilisateur Nous avons r alis pour cela DictList et DicoWeb Le second est en usage exp rimental continu depuis trois ans sur le site interne de XRCE Une version publique est cependant disponible l adresse suivante DicoWeb Nous nous sommes attaqu au probl me de la construction de dictionnaires sous deux angles D une part les besoins du projet UNL nous ont amen am liorer la m thode d mocratique de la construction du dictionnaire fran ais anglais malais FeM Word utilis en pseudo diteur syntaxique expos e en premi re partie D autre part nous avons exp riment une autre m thode de construction en ligne de dic tionnaires structures simples pour apprenants de langues trang res prototypes DicoSz t r DicoSz t r pour le hongrois et Nihongo Nihongo pour le japonais Nous avons r alis et exp riment plusieurs outils am liorant la consultation gr ce l ajout de modules d aide en amont et en aval de la consultation comme des lemmatiseurs des correcteurs orthographiques des conjugueurs de svisualisateurs d objets complexes comme des arbres etc Nous avons ensuite cherch a am liorer la coop ration entre utilisateurs et contributeurs en tudiant des outils
304. ng exemple string FIG C 8 description d un r gime du DEC avec LINGARD Cette structure s exprime sous forme d une structure de traits le premier comporte un automate automate regime le second donne l ordre dans lequel les arguments apparaissent dans le r gime argument order et le troisi me donne l ensemble des exemples exemples regime Le langage LINGARD est tr s puissant puisqu il permet de repr senter un grand nombre de structures informatiques et linguistiques L utilisateur n est pas limit une th orie linguistique en particulier Ce langage est g n rique 126 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires Critique Il est possible de repr senter un grand nombre de structures de dictionnaires h t rog nes mais il n est cependant pas possible de faire le lien entre ces structures Lorsqu on utilise plusieurs ressources la fois il semble pourtant int ressant de pouvoir les fusionner dans la mesure du possible Nous proposons donc d ajouter un m canisme de fusion de structures linguistiques bas sur des objets linguistiques communs 2 1 3 Architecture logicielle du syst me Pr sentation L architecture logicielle de SUBLIM pr voit trois niveaux BD pour le stockage physique des donn es Structure pour les diff rentes manipulations sur les entr es de dictionnaires C est lui qui manipule les str
305. ng developing of a five language lexical database by voluntary contributors on the Internet The architecture of the database is made up of a monolingual dictionary for each language and a pivot dictionary of interlingual acceptions axies linking the monolingual entries lexies which structure comes from the domain of explanatory and combinatory lexicology Extra languages are planned to be added soon The architecture of the server is quite generic and could be reused rapidly in other contexts translation memories and tools for translators communication and multilingual IR multimedia annotations Keywords Lexicology Computational Lexicography Dictionaries Multilingual Lexical Databases XML Schemata Lexical Servers
306. nibles 101 4 2 3 Exemples de sessions ca 101 4 3 Consultation par un outil de recherche Sherlock 101 4 3 1 Pr sentation a fw a OR e a de ne dus BE A den de rie dt re ES 101 4 3 2 Le plug in Sherlock cies rra a added ee A 102 4 3 3 Interface de l outil Sherlock 102 4 34 DISCUSSION eur a we RN wR ee ee ee ee 102 5 Conclusion cahier des charges d un environnement unifi 104 5 1 Bilan des exp riences pr c dentes 104 5 1 1 Sur la consultation en ligne 104 5 1 2 Sur la construction de dictionnaires 104 5 1 3 Sur l utilisation d outils annexes 105 5 2 Probl mes restants non r solus 105 5 2 1 Construction en communaut travers le Web 105 5 2 2 Gestion d une base multilingue 106 5 3 Contraintes d impl mentation 106 5 3 1 Utiliser la technologie XML pour manipuler les donn es 106 5 3 2 Utiliser un syst me g n rique de structuration de donn es lexicales 107 C Sp cification d un environnement de gestion et consultation de bases lexicales et dic tionnaires 111 Introduction 111 Table des mati r
307. non ambigu la traduction par analyse utilise un formalisme nomm H grammar L utilisateur d crit la grammaire du dictionnaire r cup rer en H grammar Il ajoute ensuite les actions de construction d objets et de d tection d erreurs La d tection d erreurs permet de corriger automatiquement les erreurs les plus fr quentes Si un d tail est faux dans un article il n est pas rejet en bloc Un compilateur utilise ensuite la description pour construire l ensemble d objets constituant une repr sentation structur e du dictionnaire 3 1 2 Exemple d article avant r cup ration La figure A 30 repr sente un article du dictionnaire BABEL au format d origine avant la r cup ration Il s agit d un dictionnaire d abr viations COM Command file name extension Commercial Business Domain Name Internet FIG A 30 article de BABEL avant r cup ration Il arrive fr quemment qu un article ne v rifie pas la syntaxe indiqu e par ses auteurs Dans BABEL par exemple on peut trouver des parenth ses en trop on a des oubli s etc Il faut alors normaliser L article de la figure A 29 donn en exemple est correct Cet article a une structure implicite c est sa pr sentation qui refl te sa structure Les diff rentes infor mations sont distingu es par leur mise en forme et des caract res sp ciaux les parenth ses le les 38 A Contexte actuel de la dictionnairique crochet
308. ns lesquelles nous notons des informations de gestion pour chaque ajout d information dans ces dictionnaires Nous avons ensuite g n ralis et sp cifi ce principe en l appliquant toutes les informations de la base lexicale en partie C Pour cela nous utilisons les attributs DML history ref et history ainsi que des fichiers d historique Nous appliquons ce principe au projet Papillon en cr ant une table dans la base de donn es r serv e aux historiques des modifications 8 Le principe de protection des donn es communes consiste n int grer dans la base commune que des donn es r vis es par des sp cialistes Ce principe vient d une constatation r alis e sur des projets comme SAIKAM En effet lorsque beaucoup de contributeurs apportent des donn es nouvelles directement dans la base celle ci se retrouve m me sans mauvaise intention pollu e par des contributions erron es Il est tr s difficile ensuite de les corriger De ce fait la base n est jamais dans un tat stable En partie C nous avons donc sp cifi que les contributions sont d abord stock es dans l espace virtuel du contributeur puis sont r vis es par des sp cialistes avant d tre int gr es la base En partie D nous observons ce principe dans le projet Papillon Principes de mise en uvre 9 Le principe de r cup ration totale intervient lors de la r cup ration d une ressource lexicale Il consiste r cup rer toutes les informat
309. ns pas encore pu tester notre environnement pour la construction de nouvelles ressources dans des conditions r elles d utilisation permettant de mettre au point et de v rifier l utilisabilit de nos outils Le projet Papillon lanc en collaboration entre le GETA CLIPS le National Institute of Informatics de Tokyo au Japon et de nombreux autres partenaires nous permettra de tester notre environnement pour la construction de dictionnaires multilingues avec entre autres le fran ais le japonais le tha le lao et le vietnamien Nous pr voyons d ajouter court terme le malais puis le cor en et le chinois Un financement post doctoral de la JSPS Japanese Society for the Promotion of Science nous a t accord pour travailler deux ans sur le projet Papillon au NII Tokyo Nous mettrons en place un serveur qui impl mente notre environnement de cr ation de nouvelles ressources et r aliserons ensuite les t ches d administration n cessit es par un tel serveur Nous pr voyons de mettre en place les diff rentes interfaces pour la consultation et la personnalisation du r sultat des donn es et aussi des interfaces pour pr parer le travail des lexicologues sur la v rification 216 Conclusion et le contr le des donn es Nous testerons nos diff rentes m thodes de construction de dictionnaires aupr s des contributeurs b n voles Enfin le cadre de ce projet nous permettra de nous attaquer aux probl mes restant r soudre
310. ns peu adv 91 F sous peu adv 92 F abr ger v_trans 91 1 fra poco adv 91 1 fra poco tempo adv 91 I tra poco adv 92 I abbreviare v_trans FIG A 18 concepts 91 et 92 et leurs traductions dans la base M modata Un concept peut tre traduit dans une langue donn e par une ou plusieurs traductions Le concept n 91 est ici traduit par 3 traductions dans toutes les langues sauf en anglais et en espagnol o il n y a qu une traduction 24 A Contexte actuel de la dictionnairique 1 3 4 Des bases lexicales utilisables en traduction automatique les bases UNL Fond a l IAS Institute of Advanced Studies de UNU Universit des Nations Unies Tokyo en avril 1996 le projet UNL UNL96 97 rassemble maintenant des partenaires du monde entier avec plus de 14 langues couvertes Le but de ce projet est la d finition d un format d change le langage UNL codant la s mantique d un document de mani re suffisamment pr cise pour permettre sa d conversion dans la langue maternelle du lecteur Le mod le d velopp dans le projet UNL est fond sur une repr sentation interlingue sous forme de graphes s mantiques partir de laquelle on peut g n rer des textes dans la langue de notre choix Depuis le 1 janvier 2000 les sp cifications du langage UNL sont ouvertes tous sur le serveur de PIAS Les enjeux scientifiques de cette recherche sont d ordre conceptuel linguistique et informa
311. ntre deux l ments lt volume gt Les articles frangais gt anglais seront mis dans un l ment et les articles fran ais gt anglais dans un autre l ment Description d une base lexicale Pour d crire une base lexicale nous reprenons la fonction define lexical database du lan gage LEXARD avec l l ment lt database gt La description formelle de cet l ment est contenue dans le sch ma XML dml en annexe de ce document Elle est r f renc e par l attribut xsi schemaLocation 2 D finition du noyau de l environnement avec SUBLIM 135 Base lexicale lt database gt LY A Groupes Utilisateurs Dictionnaires Serveurs lt dai gt er gt lt dictionaries gt partenaires we l a lt partner servers Admin Lexicologues EN administrators lexicologists rofiles gt Liens Volumes Univers Prefs Contribs lt jinks lt volume gt universe Articles lt article gt FIG C 16 organisation logique d une base lexicale Les modifications de l l ment lt database gt et de ses descendants sont stock es dans le document point par l attributhistory ref Nous ajoutons LEXARD la possibilit de d finir diff rents utilisateurs et groupes de la base Les diff rents r les de ces utilisateurs sont d crits dans la premi re partie de ce chapitre Au d part trois groupes sont pr d finis l univers universe contenant tous les utilisateurs de la base les administrateurs de la base administrators
312. numeration value A An gt lt keishikimeishi formal noun gt lt enumeration value e Gal n s lt daimeishi pronoun gt lt enumeration value A al Per lt l rentaishi demonstrative gt lt enumeration value 488 12 qa db lt fukushi adverb gt a lt enumeration value al pa np lt setsuzokushi conjunction gt lt enumeration value R AE pol Ni lt kand shi interjection gt lt enumeration value HEURES r lt jid shi intransitive verb gt lt enumeration value ie ny lt tad shi transitive verb gt lt enumeration value HE Et da gt lt keiy shi adjective gt or FF Sa lt enumeration value HE Aa mie lt keiy d shi adjectival verb gt ETS lt enumeration value Bal ne lt jod shi auxiliary gt lt enumeration value EH h qa ny lt l kakujoshi case postposition gt lt enumeration value 48 an i gt 4 Sch ma de Papillon japonais 277 lt setsuzokujoshi conjonctive postposition gt lt enumeration value foe BY Gal a lt fukujoshi adverbial postposition gt Ea lt enumeration value al BN El E lt kakarijoshi topic postposition gt lt enumeration value FETE E gt lt s joshi sentence final postposition gt Z EE lt enumeration value Aa Bit AA gt lt kant joshi emotional postposition gt Ht 2 lt enumeration val
313. nvironnement r pond l ensemble de ces probl mes en ajoutant un niveau d abstraction qui domine les bases de donn es utilis es pour le stockage et en int grant un serveur pour la construction coop rative Son noyau inclut un formalisme g n rique de d finition des structures Il permet de conce voir une v ritable plate forme lexicale g n rique et extensible Nous avons appliqu cet environnement au projet Papillon de d veloppement par des b n voles sur Internet d une base lexicale multilingue dont l architecture est constitu e d un dictionnaire monolingue de sens lexies pour chaque langue et d un dictionnaire pivot d acceptions interlingues axie reliant les articles monolingues Les exp riences pr liminaires ont t concluantes Principes d gag s devant ce travail Au cours de notre travail plusieurs principes se sont d gag s et ont t tant t affin s tant t g n ralis s mais toujours exp riment s et valid s Nous proposons ci dessous une liste des dix commandements de la construction d une base de donn es lexicales id ale Principes de structuration logique 1 Le principe d exhaustivit reprend le principe d cecum nisme provient de la th se de Gilles S rasset Il s agit de la volont d accueillir dans une base lexicale toutes les th ories linguistiques et en particulier celles relatives au niveau lexical gr ce un formalisme g n rique permettant de repr senter un
314. ocation http www clips imag fr geta services dml papillon axi xsd lt documentation gt lt annotation gt al Redefining elements of Papillon common schema p lt including schema for common papillon elements used in the dictionary and redefining some groups The content of these groups Can evolve gt lt redefine schemaLocation http www clips imag fr geta services dml papillon xsd gt Aim article group lt An article of the Papillon interlingual pivot dictionary is an axie gt lt group name article gt lt sequence gt lt element ref d axie minOccurs 1 maxOccurs 1 gt lt sequence gt lt group gt lt languages links group gt lt this group contains the links from the axie to the monolingual lexies All the links to lexies of one language are grouped into a language element If a new language is added to the Papillon dictionary a new group will be added here gt 2 Sch ma du volume Papillon axies lt group name languages links gt lt sequence gt lt element ref d eng minOccurs 0 maxOccurs 1 gt lt element ref d fra minOccurs 0 maxOccurs 1 gt lt element ref d jpn minOccurs 0 maxOccurs 1 gt lt element ref d lao minOccurs 0 maxOccurs 1 gt lt element ref d tha minOccurs 0 maxOccurs 1 gt lt sequence gt lt group gt lt l
315. oici la structure de l article cr er fv entry fre string vie list of vie string Voici l algorithme de cr ation dynamique de ces articles create FV from French French FE dict EV dict def FE entry find entry French FE dict V set NIL for all eng in eng FE entry do EV entry find entry eng EV dict V set union V set vie EV entry FV entry create FV entry fre FE entry V set 42 A Contexte actuel de la dictionnairique return FV entry La production en ligne ne permet pas de v rifier la qualit linguistique des articles produits Elle sert plut t produire des squelettes ou brouillons de dictionnaires dont la qualit linguistique sera r vis e par des sp cialistes Donn e FE dict Donn e EV dict R sultat FV dict love y u thu ng like th ch aimer y u thu ng th ch TAB A 3 r sultat de l application de l algorithme au mot vedette aimer 3 3 Conclusion Ces techniques ont t prouv es puisque R CUPDIC a permis de r cup rer plus de 1 650 000 articles et que 543 000 articles ont t produits avec PRODUCDIC Cet environnement est tr s puissant mais il n est pas adapt pour un linguiste lexicographe lexicologue En effet il faut savoir programmer en Macintosh Common Lisp MCL pour pouvoir l utiliser Ces outils sont sp cialis s Il faudrait ajouter une interface utilisable par un linguiste mais l outil re
316. ojet LexiGuide de la soci t LexiQuest not s avec l l ment lt LexiGuideConcept gt Voici par exemple l axie reliant la lexie fran aise MEURTRE lt axie id a01 gt lt semantic cat gt entity lt semantic cat gt ira lt reflexie href meurtre 1 gt lt ira gt 4 Analyse g n rale et impl mentation 197 lt eng gt lt reflexie href murder 1 gt lt eng gt lt external reter nces gt lt UNL resource UNL fr unl gt lt refuw href murder icl gt action agt gt human obj gt human gt lt UNL gt lt WordNet resource Wordnet txt gt lt refsynset href 00143589 gt lt WordNet gt lt external references gt lt axie gt Les axies d idiome ou de d finition pourront aussi contenir comme r f rence externe leur repr sentation comme graphe UNL Celui ci sera not avec l l ment lt UNL graph gt 4 2 Impl mentation du serveur 4 2 1 Architecture g n rale du serveur La figure D 6 montre l architecture g n rale du serveur Papillon Le c ur du serveur est constitu d un SGBD en logiciel libre Nous avions d abord choisi MySQL MySQL car c est un outil tr s r pandu Nous avons cependant renonc l utiliser cause d incompatibilit avec la repr sentation des documents Unicode Nous avons donc finalement choisi PostgreSQL PostgreSQL Administrateur Serveur Dynamique Enhydra Mail Web FIG D 6 architectur
317. ologue et les lexicographes ces derniers travaillant sur Word un logiciel de traitement de texte du commerce tr s r pandu Nous proposons en plus des outils d aide l indexation sous forme de macros 5 Conclusion cahier des charges d un environnement unifi 105 L autre m thode permet la construction en ligne de dictionnaires ayant des structures simples Ces deux m thodes sont compl mentaires Il faut les am liorer et m me les unifier pour pouvoir construire des dic tionnaires plus complexes en ligne et localement 5 1 3 Sur l utilisation d outils annexes Nos outils utilisent des modules annexes pour l annotation de documents et pour l aide la consulta tion comme les analyseurs morphologiques et les conjugueurs Le r sultat est tr s satisfaisant en terme de fonctionnalit s comme en temps de r ponse gr ce l augmentation des d bits sur le r seau le fait qu un module soit distant ne provoque pas d attente suppl mentaire perceptible Par contre ce que nous avons fait a t ad hoc et il faut absolument standardiser les interfaces de ces modules et pr voir des API Application Programming Interface pour pouvoir les changer et les adapter facilement voir l outil ODILE d Isabelle Tomasino Tomasino90 5 2 Probl mes restants non r solus 5 2 1 Construction en communaut travers le Web Lors de nos exp riences pr c dentes nous avons con u une technique permettant de r dige
318. on 267 lt complexType gt lt element name refexample type d refType gt lt element name refidiom type d refType gt lt refaxies type gt lt type that refers to another axie with an xlink gt lt complexType name refaxiesType gt lt sequence minOccurs 0 maxOccurs unbounded gt lt element ref d refaxie gt lt sequence gt lt complexType gt lt external references group gt lt lists the external references of an axie It has to be redefined in the schema specific to the axies volume gt lt group name external references gt lt all gt oreup gt lt schema gt 268 Annexe B sch mas XML pour Papillon 2 Sch ma du volume Papillon axies lt XML Schema for Papillon axies volume used as pivot dictionary for the Papillon lexical database Namespace http www clips imag fr geta services dml This schema is identified by the location http www clips imag fr geta services dml papillon axi xsd SAuthor mangeot Mathieu MANGEOT LEREBOURS Mathieu Mangeot imag fr Date 2001 09 15 09 37 10 SRevision 1 14 gt lt schema targetNamespace http www clips imag fr geta services dml gt lt annotation gt lt documentation xml lang en gt XML Schema for Papillon axies volume used as pivot dictionary for the Papillon lexical database Namespace http www clips imag fr geta services dml This schema is identified by the l
319. on du noyau de l environnement avec SUBLIM 123 d finition des dictionnaires monolingues define monolingual dictionary english language English Owner EDR d finition du dictionnaire interlingue define interlingual dictionary concept dictionary links english Japanese Owner EDR d finition des dictionnaires bilingues define bilingual dictionary Japanese english type unidirectional source japanese target english owner EDR FIG C 2 description de dictionnaires avec LEXARD define lexical database EDR owner EDR comment Une base lexicale fond e sur une approche mixte dictionaries english japanese english Japanese Japanese english concept dictionary FIG C 3 description d une base lexicale avec LEXARD de d finir un compte pour chaque utilisateur et des groupes d utilisateurs Pour chaque base lexicale il faut pr voir des groupes de base administrateurs lexicologues lexicographes contributeurs et lecteurs Nos exp rimentations men es sur des bases lexicales h t rog nes montrent l importance de la m ta information sur les dictionnaires Cette information permet aux utilisateurs d avoir une meilleure id e de la qualit d une ressource et de pouvoir s lectionner celle qui correspond le mieux leurs besoins Il faut donc ajouter des attributs d crivant la m ta information sur chaque dictionnaire LEXARD ne permet
320. on lt co gt to summarize lt co gt texte discours lt co gt lt sl gt t l vision en t l lt sl gt to shorten television to TV lt dml lexie gt lt dml syntactic sense gt lt dml entry gt FIG C 14 article provenant du DHO apr s r cup ration 2 3 Red finition des langages de SUBLIM en XML Dans cette section nous red finissons les langages LEXARD et LINGARD en XML en reprenant les mots cl s de ces langages Cela nous permet de d crire enti rement la base sous forme de documents XML 2 3 1 D finitions de macrostructure Pour d crire la macrostructure de nos dictionnaires ainsi que de notre base lexicale nous utilisons des documents XML Le syst me analyse ces documents pour trouver les informations dont il a besoin pour ses 134 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires lt dnlsentry gt lt dml headword gt abr ger lt dml headword gt lt dml pronunciation encoding geta gt abre je lt dml pronunciation gt lt dml syntactic cat gt lt dml pos gt v tr lt dml pos gt lt dml lexie provenance FeM gt lt gloss lang fra gt un texte lt gloss gt lt dml translation lang eng gt to shorten lt dml translation gt lt dml translation lang eng gt to abridge lt dml translation gt lt dml translation lang msa gt memendekkan lt dml translation gt lt dml translation lang msa gt meringkaskan lt dml translation gt
321. oncise Dictionary de 65 000 articles deux dictionnaires fran ais hongrois deux dictionnaires italien hongrois et d autres dictionnaires sp cialis s multilingues Le syst me permet de consulter tous ces dictionnaires avec la m me interface Il utilise des lemmatiseurs pour aider la consultation Les utilisateurs ont aussi la possibilit de cr er leurs propres dictionnaires et de les ajouter au syst me Interface L utilisateur peut d abord param trer de nombreuses options le nombre de dictionnaires qu il consulte la langue d interface la taille des fen tres etc L interface est compos e d une fen tre de consultation et de r glages d options puis de 4 fen tres de r sultat La figure A 22 repr sente l interface et toutes les fen tres de r sultat yy S Fordit st mogat s a MorphoLogict l MORPHOLOGIC Keresend Mir l naz magyar BER EE h 4 El haz Alap EE Alap Es house EX house n haz _ H z Alap housing EX haz Sz kincst r MN place E szinonim k haz Sz kincst r szinonim k havi v rz s havibaj havonk nti h z haza FIG A 22 r sultats d une requ te sur MoBiDictionary Lorsqu on interroge le syst me la premi re fen tre affiche pour chaque dictionnaire dans lequel le syst me a trouv une r ponse une ligne avec le mot et le nom du dictionnaire Dans la deuxi me fen tre se 30 A Contexte actuel de la dictionn
322. onn e au moment de la validation et de l int gration dans la base 1 2 2 D finition d un serveur et des diff rents acteurs La base lexicale est utilis e par de nombreux utilisateurs Il faut donc l installer sur un serveur Ce serveur doit tre accessible par le Web par FTP et par Telnet Pour la communication entre utilisateurs il faut aussi envisager un serveur de courriel et de listes de distribution Le serveur r pond de multiples requ tes venant de diff rentes applications Il doit tourner en d mon pour pouvoir r pondre automatiquement et 24h 24 Sur le serveur il faut mettre en place un syst me de gestion des utilisateurs et groupes avec des droits d acc s diff rents Nous distinguons plusieurs types d utilisateurs 1 Sp cifications externes de l environnement 115 L administrateur Il d finit des t ches administratives Il g re les droits d acc s des utilisateurs Il ajoute les nouveaux profils d utilisateurs ou de groupes d utilisateurs dans la base Le lexicologue lexicographe en chef Il s occupe de la r cup ration de la manipulation et de la construction des dictionnaires Il r cup re et convertit la structure logique des ressources existantes int grer dans la base partir de ces ressources r cup r es il construit ensuite un squelette de dictionnaire qui sera ensuite compl t Il g re un projet collaboratif de construction de nouvelles ressources Il d finit la macrostr
323. onnaire est actuellement compos d environ 600 articles Pour Nihongo nous avons not les traductions avec des liens interlingues Deux dictionnaires mono lingues sont en cours de construction un dictionnaire fran ais de 210 articles et un dictionnaire japonais de 350 articles Les articles de ces 2 dictionnaires sont reli s entre eux par des liens de traduction Lors de la consultation le serveur consulte d abord le dictionnaire de la langue source stocke temporairement les articles qui r pondent la requ te puis consulte le dictionnaire de la langue cible et s lectionne les ar ticles cibles reli s aux articles sources pr c demment stock s Il recompose ensuite la vol e des articles de dictionnaires bilingues d usage avec les informations contenues dans tous les articles 2 2 2 Structure des articles Lors de la r daction l utilisateur entre des informations sur un mot fran ais et sur sa traduction dans l autre langue partir de ces informations le serveur construit un article pour le mot fran ais et un article pour le mot de l autre langue Chaque article sera ensuite ins r dans le dictionnaire correspondant sa langue Les articles sont encod s au format XML Lors de la cr ation des articles ou de la modification d une partie de ces articles des informations d administration sont ajout es pour permettre la r vision des infor mations Nous stockons aussi des informations relatives aux le ons po
324. ont red finies dans les sch mas XML sp cifiques aux langues 4 Analyse g n rale et impl mentation 193 La formule s mantique est repr sent e par l l ment lt semantic formula gt C est un substitut de la d finition lexicographique de la lexie Elle est form e d une tiquette s mantique suivie d une structure d crivant les actants de l unit lexicale La formule s mantique de l exemple suivant dit que le sens principal de MEURTRE est l action de tuer et qu elle comprend deux actants celui qui tue X et celui qui est tu Y Le r gime de la lexie est repr sent par l l ment lt government pattern gt Le r gime indique les valences actives de l unit lexicale Cette information est pr sent e au moyen d une table pr sent e dans le DEC Mel tchuk84 88 92 Le r gime ci dessous indique que le tueur et la victime d un meurtre peuvent tre exprim s par un compl ment pr positionnel pr c d de de ou par des adjectifs possessifs Les fonctions lexicales sont regroup es dans l l ment lt lexical functions gt Elles sont or donn es selon la m thodologie standard utilis e dans le DEC Mel tchuk84 88 92 les fonctions paradig matiques qui correspondent aux d rivations s mantiques sont suivies des fonctions syntagmatiques qui en codent les collocations Enfin viennent les fonctions lexicales non standard Les fonctions lexicales de base sont au nombre de 52 Ce sont les m mes pou
325. opyright 1996 1992 by Houghton Miia Company Published by Houghton Milin Company All nights reserved abbreviation Ab bre vi a tion n LL abbreyiatio cf F abbr e Jviation 1 The act of shortening or reducing 2 The result of abbreviating an abridgment Tylor 3 The form to which a word or phrase is reduced by contraction and omissich a letter or letters standing for a word or phrase of which they are a part as Gen for Genesis U S A for United States of America 4 Mus One dash or more through the stem of a note dividing it respectively into quavers semiquavers or demi semiquavers Moore Source Websters Revised Unabridged Dictionary 1996 1998 MICRA Inc abbreviation n 1 a shortened form of a word or phrase 2 shortening something by omitting parts of it Source Woriet 1 6 1997 Princeton University FIG A 27 r ponses d une requ te sur dictionary com R sultat Les outils de bases de donn es conviennent tr s bien pour stocker et utiliser des bases terminologiques du type Eurodicautom La structure des entr es de ces bases est constitu e en g n ral au premier niveau d un mot ou d une structure attribut valeur Dans l exemple de la figure A 29 chaque valeur est stock e dans un champ de la base de donn es Le champ porte le nom de l attribut Collection ID Number Date Reliability Subject Term Reference Par contre pour une structure d article pl
326. or various comments gt lt complexType name annotationType mixed true gt lt attribute name indexer type string gt lt attribute name date type d dateType gt lt complexType gt lt l element creation gt lt describes the creation of an element gt lt element name creation type d annotationType gt lt element modification gt lt describes the modification of an element gt lt element name modification type d annotationType gt lt element revision gt lt describes the revision of an element gt lt element name revision type d annotationType gt lt DML definitions for common elements and structures gt lt Tree structure gt lt DML element to represent a tree gt lt element name nd gt lt complexType mixed true gt lt sequence gt lt element ref d nd gt lt sequence gt lt complexType gt lt element gt lt Graph structure gt lt DML element to represent a graph gt lt element name graph gt lt complexType gt lt sequence gt lt element ref d nodes minOccurs 1 maxOccurs 1 gt lt element ref d arcs minOccurs 1 maxOccurs 1 gt lt sequence gt lt attribute ref xlink type fixed extended gt lt complexType gt lt element gt lt DML element to represent a list of nodes gt lt element name nodes gt lt compl
327. ormat LAF Lexique Actif du Fran ais au format FeM ou machinal pour la traduction au tomatique les outils d aide aux traducteurs de correction de paraprasage ou pour l indexation la synth se de parole etc 3 La consultation des donn es se fait de mani re interactive par le Web avec possibilit s de contr ler la pr sentation et de filtrer les informations comme dans l exp rience r alis e avec le serveur du FeM en partie B 4 La structure des dictionnaires utilise un fondement linguistique en pointe Elle reprend en effet la structure du DiCo labor e par Igor Mel tchuk et Alain Polgu re et est bas e sur la lexicologie explicative et combinatoire branche de la th orie sens texte 5 La construction des ressources est coop rative et se fait sur le Web Le serveur Papillon rend la base accessible par tous en lecture Tout client voulant consulter la base est un contributeur potentiel Il s inscrit lors de sa premi re connexion et re oit un compte avec mot de passe et zone de travail dans laquelle seront mis ses profils d int r t et de comp tence l historique de ses consultations et surtout ses contributions fragments d entr es corrections annotations remarques g n rales Il est possible de construire des groupes et d finir les r gles d acc s associ es Un groupe pr d fini groupe central de sp cialistes lexicologues sera seul habilit modifier la base Le r le de ses membres sera d
328. orsque la microstructure d un article est repr sent e par des l ments sp cifiques c est une structure explicite Elle peut tre interpr t e par une machine et elle n est pas ambigu Lorsqu au contraire la micro structure n est repr sent e que par des l ments de pr sentation de l article c est une structure implicite Elle ne peut tre interpr t e que par des humains elle est souvent ambigu 1 1 4 Le format des donn es Un dictionnaire peut rev tir plusieurs formes Imprim c est un dictionnaire papier Repr sent par des fichiers de caract res c est un dictionnaire lectronique Inclus dans un fichier binaire et utilis par une application sp cifique c est un dictionnaire compil Historiquement les premiers dictionnaires taient exclusivement en format papier Par la suite pour simplifier la manipulation des donn es celles ci ont t stock es sous forme lectronique Dans un premier temps seules les indications de typographie de la pr sentation taient incluses dans ces donn es Puis petit petit une s paration s est faite entre la structure logique du dictionnaire et sa pr sentation Les dictionnaires construits plus r cemment sont stock s uniquement avec leur structure logique et les informations typographiques ont disparu De plus les dictionnaire ne sont plus labor s seulement pour des humains Des informations non pertinentes pour les humains mais cruciales pour des
329. our visualiser des objets complexes comme des arbres des graphes du son ou de la vid o il faudra pouvoir utiliser des visualisateurs sp cialis s Ces visualisateurs seront utilis s comme des plug ins par les interfaces de consultation navigation Il faut pour cela que leur interface API soit compatible avec ces interfaces Une liste de ces plug ins devra tre mise jour et disponible sur le serveur de la base lexicale Toutes les requ tes effectu es par un utilisateur devront tre not es dans un historique L utilisateur pourra alors comparer des r sultats ou relancer des requ tes d j effectu es sans probl mes Personnalisation des requ tes et des r sultats La grande quantit d informations et leur h t rog n it n cessitent s lection et organisation de la part des utilisateurs qui consultent la base Ceux ci doivent pouvoir personnaliser le r sultat de leurs requ tes Les personnalisations portent sur la structure L utilisateur peut choisir les informations qu il veut visualiser et celles qui ne l int ressent pas S il consulte plusieurs ressources il peut choisir l ordre d apparition des ressources Par exemple si l utilisateur ne conna t pas le malais il peut le masquer la pr sentation L utilisateur peut s lectionner un style particulier pour chaque l ment d information Par exemple il peut s lectionner la couleur bleue pour toutes les informations concernant le fran ais ou l
330. ources qui ne sont pas r cup r es vers notre format DML et install es localement nous de vons indiquer le format lt format gt etl encodage lt encoding gt Les valeurs de l l ment lt encoding gt sont du type DML encodingType Nous indiquons aussi des informations sur le dictionnaire comme le fournisseur de la ressource lt source gt le propri taire lt owner gt le responsable au niveau de la base lt responsible gt les droits sur le dic tionnaire lt legal gt et des commentaires lt comments gt La liste d l ments de l ensemble CDM consultables avec pour chacun le d lai de r ponse maximal est indiqu e avec l l ment lt cdm elements gt L l ment lt corpus gt est sp cial il permet d indi quer que l on recherche un mot contenu dans n importe quel l ment du dictionnaire L emplacement du dictionnaire est not avec une URI suivant la norme xlink XLink 1 0 Nous indiquons ensuite les droits des diff rents utilisateurs en suivant ces r les Les administrateurs lt administrators gt peuvent modifier le fichier de description du dictionnaire et son emplacement Les lexicologues lt lexicologists gt peuvent effectuer des transformations sur tout le dictionnaire et lancer des v rificateurs de coh rence Les lecteurs lt readers gt peuvent consulter le dictionnaire L exemple suivant est la version XML de la figure C 5 d crivant le dictionnaire FeM lt dictionary
331. ous ces probl mes se pla ant au dessus des bases de donn es utilis es pour le stockage et int grant un serveur pour la construction coop rative Son noyau inclura un formalisme g n rique de d finition des structures Nous appliquerons enfin cet environnement au projet Papillon de d veloppement par des b n voles sur Internet d une base lexicale multilingue dont architecture est constitu e d un dictionnaire monolingue pour chaque langue et d un dictionnaire pivot d acceptions interlingues reliant les articles monolingues A Contexte actuel de la dictionnairique A Contexte actuel de la dictionnairique 7 Introduction Avant de commencer il est utile de d crire le contexte actuel de la dictionnairique branche relati vement jeune du TALN Ce terme est un peu plus g n ral que lexicographie computationnelle qui fait r f rence aux outils et techniques de construction de dictionnaires Nous commen ons bien s r par fixer notre technologie de base nous illustrons la vari t des contenus et des structures des dictionnaires en tudiant en d tail le format la structure et la pr sentation de plusieurs dictionnaires Nous d crivons des dictionnaires monolingues multilingues usage humain ou machinal des dictionnaires structures internes simples et d autres beaucoup plus complexes comme le Dictionnaire Explicatif et Contemporain DEC d Igor Mel tchuk Mel tchuk84 88 92 Nous nous pla ons ensuit
332. pertoires 1 1 4 Architecture et interface de DictList Un petit script CGI programm en Perl permet alors de consulter travers le web les informations disponibles sur les ressources install es localement La figure B 3 repr sente l architecture de cet outil Pour se servir de l outil l utilisateur a besoin d un navigateur web L interface est un formulaire HTML ins r dans la partie gauche d une page web L utilisateur peut effectuer une recherche multicrit res en choisissant parmi la cat gorie les langues sources et cibles le domaine et le format Lorsqu il appuie sur le bouton search la requ te HTTP est envoy e au CGI crit en Perl Le CGI consulte et s lectionne les fichiers README encod s en XML en fonction des crit res transforme le XML en HTML et renvoie le r sultat dans la partie droite de la fen tre La figure B 4 repr sente interface et le r sultat d une requ te sur DictList 72 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc lt dictionary readme gt lt readme info gt lt creation date gt 6 May 1999 lt creation date gt lt author gt Laurent Griot lt author gt lt readme info gt lt general info gt lt name gt EuroWordNet lt name gt lt category gt multilingual dictionary lt category gt lt domain gt general lt domain gt lt source language gt English lt source language gt lt creation date see version lt creation date gt
333. pillon dans leur espace virtuel La consultation de la base Papillon se fait avec un navigateur Web classique L utilisateur compose sa requ te et visualise le r sultat dans son navigateur Annotation Les utilisateurs peuvent annoter toutes les donn es de la base Papillon Il est possible d annoter les articles lors de la consultation ou directement le travail d autres contributeurs lors de la correction d articles existants Les annotations sont stock es sur le serveur dans l espace virtuel des utilisateurs Elles peuvent tre partag es entre des groupes d utilisateurs Contribution directe Les personnes souhaitant contribuer doivent imp rativement s enregistrer la premi re fois sur le serveur Papillon Par la suite il se connectent et s identifient Dans la partie dition du serveur un classement r compense les contributeurs du mois Ensuite les contributeurs ont acc s un panneau d articles et de liens r viser Ils t l chargent les articles sur lesquels il souhaitent travailler et les ditent ensuite localement sur leur machine Il est aussi possible de contribuer et d annoter des contributions d autres contributeurs 182 D Application Papillon projet de base lexicale multilingue sur Internet EE Papillon go pillon informations Consultation dition Contacts Aide Le projet Papillon Kear The Papillon project Ce projet a pour bulle cr er une base lexicale multilingue
334. pillon jpn xsd lt documentation gt lt annotation gt lt Redefining elements of Papillon common schema lt redefine schemaLocation http www clips imag fr geta services dml papillon xsd gt article group gt lt An article of the Papillon Japanese volume is an lexie gt lt group name article gt lt sequence minOccurs 1 maxOccurs 1 gt lt element ref d lexie gt lt sequence gt lt group gt lt language specific group gt lt Here we define the elements specific to the Japanese language lt group name language specific gt lt sequence gt lt element ref d kun yomi maxOccurs unbounded gt lt element ref d on yomi maxOccurs unbounded gt 276 Annexe B sch mas XML pour Papillon lt Maybe this should be put in the general lexie structure gt lt element ref d language levels minOccurs 0 maxOccurs 1 gt lt sequence gt lt group gt lt posType type gt lt Here are defined the parts of speech of the Japanese language a lt simpleType name posType gt lt restriction base d posType gt sett go pretix gt TE lt enumeration value t HE ARH gt lt setsubigo suffix gt lt enumeration value te Fea j gt lt josh shi numeral gt lt enumeration value Edu Ea np lt z goseibun productive a A A lt enumeration value ERA Aug Fe lt meishi noun gt lt e
335. pl mentation 195 Sp cificit s du francais Les sp cificit s du fran ais sont d crites formellement par le sch ma Papillon fran ais donn en annexe B de ce document Ce sch ma red finit le groupe sp cifique aux langues de la lexie ainsi que la liste des cat gories grammaticales Pour le fran ais il n y a pas d informations sp cifiques ajouter Le groupe lt language specific gt est donc vide Les cat gories grammaticales utilis es pour le fran ais sont pour l instant au nombre de 29 La liste pro vient du travail lexicographique r alis au GETA sur les dictionnaires FeM et UNL fran ais Nous n avons pas utilis la liste des cat gories grammaticales de DiCo car elle est moins pr cise Les cat gories sont d crites dans le sch ma Papillon fran ais donn en annexe B Sp cificit s du japonais Les sp cificit s du japonais sont d crites formellement par le sch ma Papillon japonais donn en annexe B de ce document Les cat gories grammaticales utilis es pour le japonais sont tir es principalement de la liste des 29 cat gories du dictionnaire Gakken Kokugo Daijiten dit en 1985 par Gakush kenky sya Tokyo Elles sont d crites dans le sch ma Papillon japonais donn en annexe B Nous avons ajout s plusieurs informations sp cifiques au japonais la transcription des kanji les quanti ficateurs et les niveaux de langue politesse et d f rence Tout d abord les lexies japonaises sont souvent
336. ple set of string indexer string quality one of manual auto reviewed properties set of property uws set of string FIG C 7 description d une unit lexicale avec LINGARD Dans la figure C 7 l objet linguistique french ent ry est une structure de traits feature structure Les traits ont des types diff rents cha nes de caract res string ensembles set of ou num ration one of de cha nes de caract res Cet objet linguistique est relativement simple LINGARD permet aussi de repr senter des structures plus complexes comme celle du DEC Mel t chuk84 88 92 Chaque article du DEC tant tr s complet nous ne repr senterons ici qu une partie d article Les lexies du DEC sont d crites par un r gime repr sentant les r alisations syntaxiques des arguments du pr dicat Ce r gime est le reflet imprimable d une structure complexe o l on retrouve l ensemble des combinaisons possibles des r alisations d arguments On peut repr senter cette structure de mani re abstraite par un automate dont chaque chemin forme un combinaison valide voir figure C 8 def linguistic class r gime feature structure automate automate r gime argument order list of string exemples exemples regime def linguistic class automate r gime automaton arcs r alisation argument def linguistic class exemples r gim set of feature structure r alisations list of stri
337. plexType mixed true gt lt attribute ref d lang gt lt attribute ref d delay gt lt complexType gt lt element gt lt 1 DML definitions for a volume file Fe lt volume element gt lt This element describes a volume It is a list of articles sorted following the nomenclature of the dictionary gt lt element name volume gt lt complexType gt lt sequence gt lt group ref d article minOccurs 0 maxOccurs unbounded gt lt sequence gt lt attribute ref d history use optional gt lt attribute ref d history ref use optional gt lt attribute name creation date type d dateType use optional gt lt attribute name encoding type d encodingType use optional gt lt attribute name format type d formatType use optional gt lt attribute name hw number type positivelnteger use optional gt lt attribute name installation date type d dateType use optional gt lt attribute name name type string use optional gt lt attribute name source language type d lang use optional gt lt attribute name version type string use optional gt lt complexType gt lt element gt article group gt lt l Its content is an article of a dictionary It has to be redefined in other schemas for specific volumes gt lt due to a bug in XSV redefinition is not implemented I change t
338. possibilit d annoter les informations de la base Ce principe a t r alis dans le projet Papillon avec l utilisation de profils d utili sateurs ainsi que des pr f rences personnalis es modifiables strictement via des interfaces appropri es et si possible voluant automatiquement par suivi et apprentissage du syst me Principes li s aux donn es 6 Le principe d h ritage s applique de fa on vari e En ce qui concerne les groupes d utilisateurs il consiste utiliser une hi rarchie de groupes d utilisateurs qui h ritent de plusieurs propri t s comme les feuilles de style les droits d acc s les poids Ces propri t s sont d finies une seule fois pour l univers des utilisateurs Par d faut chaque groupe et chaque utilisateur h rite de ces propri t s Chacun peut ensuite d finir au niveau d un groupe ou d un utilisateur d autres propri t s qui seront leur tour h rit es Ce principe est sp cifi en partie C et r alis dans le projet Papillon diff rents endroits l aussi par les groupes d utilisateurs les poids les d finitions des sch mas etc 7 Le principe de tra abilit consiste noter tous les changements effectu s sur les informations lexi cales et tre capable de tracer tous les changements successifs subis par ces informations depuis leur cr ation ou leur importation dans la base Ce principe a t exp riment en partie B dans les maquettes DicoSz t r et Nihongo da
339. possible de proposer une DTD simple pour coder tous les dictionnaires Les probl mes rencontr s 5 Standards li s la repr sentation de dictionnaires 59 sont la contradiction entre la g n ralit de la description qui doit tre applicable un grand nombre de dictionnaires et le pouvoir descriptif c est dire la possibilit de d crire avec pr cision la structure de n importe quel dictionnaire le besoin de permettre diff rents usages et vues du dictionnaire encod comme par exemple une version imprim e et une version base de donn es la dualit dans les dictionnaires entre la structure de surface li e la pr sentation et la structure profonde li e l organisation logique et linguistique dite aussi microstructure Malgr ces probl mes le chapitre 12 de la TEI P3 propose un certain nombre d l ments d information qu il est int ressant de noter comme les informations sur la forme du mot orthographe prononciation accentuation etc les informations grammaticales cat gories sous cat gories etc les d finitions ou traductions l tymologie les renvois les entr es apparent es les informations d usage les exemples 2 Un exemple La figure A 45 montre un exemple d article de dictionnaire dresser a Theat habilleur m euse f Comm window talagiste mf she s a stylish elle s habille avec chic V hair b tool for wood raboteuse for stone rabot
340. pour les sp cialistes lexicologues 203 5 valuations pr liminaires et exemples 204 5 1 R cup ration du FeM se 44 o tr an mous RES YG aw ee dre hausse 204 5 1 1 Exemple d article apr s r cup ration 204 5 1 2 Lexies fran aises provenant de cet article 205 5 1 3 Lexies anglaises provenant du m me article 206 5 1 4 Axies provenant du m me article 206 5 2 R cup ration de JMDIEt eiii lo ea ba Pet due e re ae Gt th da 206 9 2 1 Exemple d article s sus sie 2 amp are aie da a Nm Ames als ds 206 5 2 2 Lexie japonaise provenant de l article 207 5 2 3 Lexies anglaises provenant de l article 207 5 2 4 Axies provenant de l article 208 5 3 Fusion ventuelle de lexies anglaises 208 3 31 LEXIS apres IUSION 2 2 io e eG we Re rie us RO ar tat ant de 209 5 3 2 AXies apr s TUSION s o 44 mu do ad 4 a a ee ee 209 Conclusion 213 Principes d gag s devant ce travail s s 213 Principes de structuration logique 213 Principes li s l aspect collaboratif 213 Principes li s aux donn es 214 Principes de mise en uvre s amp 4
341. produites par des contributeurs La base lexicale ne sera jamais dans un tat fig Il faut donc pr voir des proc dures de validation des donn es pour surveiller en permanence l tat des informations contenues dans la base Cela n cessite des outils permettant de mettre en place des contraintes sur les ressources et des v rificateurs de coh rence Gr ce ces outils on pourra guider les contributeurs en leur proposant des informations compl ter et aider les r viseurs en rep rant certaines erreurs ou inconsistances Ces outils permettront de v rifier d enrichir des articles et de faire de multiples recherches Il devront tre associ s un langage de requ tes puissant Lorsqu un article de dictionnaire sera mal form il faudra pouvoir le trouver Les v rificateurs pourront tre lanc s par exemple en t che de fond sur la base lexicale Par exemple le lexicologue responsable d une ressource peut avoir besoin d extraire de la base en construction tous les articles qui n ont pas de traduction Il les enverra ensuite aux lexicographes qui les compl teront C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires 111 Introduction partir du cahier des charges pr c dent nous pouvons maintenant passer la sp cification d un en vironnement complet de manipulat
342. ps imag fr geta services dml papillon xsd gt lt l article group gt lt An article of the Papillon French volume is an lexie gt lt group name article gt lt sequence gt lt element ref d lexie minOccurs 1 maxOccurs 1 gt lt sequence gt lt group gt lt language specific group gt lt Here are defined the elements specific to the French language lt group name language specific gt lt sequence gt lt group gt lt posType type gt 3 Sch ma de Papillon fran ais 273 lt I Here are defined the parts of speech of the French language gt lt simpleType name posType gt lt restriction base d posType gt lt nom commun masculin noun masculine gt lt enumeration value n m gt lt nom commun masculin invariable noun masculine invariable gt lt enumeration value n m inv gt lt nom commun masculin pluriel noun masculine plural gt lt enumeration value n m pl gt lt nom commun masculin et ou f minin noun masculine and or feminine lt enumeration value n m f gt lt nom commun masculin et ou f minin noun masculine and or feminine 777 gt lt enumeration value n m gt lt nom commun f minin noun feminine gt lt enumeration value n f gt lt
343. ptional gt lt attribute name name type string use optional gt lt attribute name type gt lt simpleType gt lt restriction base string gt lt enumeration value supplier gt lt enumeration value client gt lt restriction gt lt simpleType gt lt attribute gt lt indicates the input and output formats gt lt attribute name category gt lt simpleType gt lt restriction base string gt lt enumeration lt enumeration lt enumeration lt enumeration value preprocessing gt value meta info gt value consultation gt value modil fication gt lt restriction gt lt simpleType gt lt attribute gt lt complexType gt lt element gt lt url element gt 2 Sch ma XML de DML 251 lt indicates the URLs used for connection gt lt element name url gt lt complexType gt lt attribute ref xlink href gt lt complexType gt lt element gt lt protocol element gt lt indicates the protocol used for connection gt lt element name protocol gt lt complexType gt lt attribute name type type string gt lt attribute name login type string gt lt attribute name password type string gt lt complexType gt lt element gt lt Q delay element gt lt indicates the connection delays for the API gt lt element name delay gt lt complexType gt
344. que la base regroupant toutes les UW sont maintenues par l quipe responsable du projet Les dictionnaires bilingues sont maintenus par les quipes partenaires Chaque partenaire est responsable du dictionnaire associant sa langue et l UNL Le GETA s occupe donc du dictionnaire fran ais UNL La microstructure du dictionnaire d crit pour chaque article une correspondance entre un mot fran ais suivi de variables utilis es dans le syst me de traduction automatique ARIANE puis d une UW L UW est compos e d un mot vedette en anglais suivi de restrictions s mantiques Dans l exemple de la figure A 19 le mot fran ais abr ger est suvi des variables ARIANE suivantes AUX AVOIR CAT CATV VAL1 GN et de UW Shorten obj gt word Cette UW est une d notation d ensembles d acceptions interlingues Elle est compos e du mot vedette anglais shorten suivi de la restriction s mantique ob j gt word Ici cette restriction de sens signifie que shorten s applique seulement aux mots obj gt word abr ger AUX AVOIR CAT CATV VAL1 GN shorten obj gt word FIG A 19 Particle abr ger du dictionnaire fran ais UNL au format original Ce dictionnaire est en constant d veloppement afin d ajouter de nouveaux mots ou de distinguer plu sieurs sens diff rents Il contient actuellement environ 40 000 articles 1 Notions du domaine 25 1 3 5 Conclusion Les dictionnaires que nous venons de pr senter sont
345. ques venant surtout de la masse et de la vari t des informations construire La construction d un dictionnaire est un travail men en collaboration par diff rents lexicographes qui doivent respecter une coh rence non seulement en ce qui concerne la forme sp cifi e par le lexicologue abr viations balises mais aussi sur le fond m me crit re de s lection des sens m mes crit res de d composition en entr es et sous entr es dans le cas d homo graphes Enfin les choix faits par certains lexicographes peuvent influer sur les d cisions que devront prendre d autres lexicographes liens syntaxiques ou s mantiques entre entr es Les outils informatiques construits doivent donc tenir compte de aspect distribu du travail de lexicographie Lors du travail de lexicographie il peut arriver que le lexicologue souhaite modifier la structure du dictionnaire afin de mieux prendre en compte certains ph nom nes qui ont t mal valu s ou sous estim s Cela peut se traduire par un changement des interfaces d dition et par une modification des ventuels outils de v rification automatique de coh rence Un outil pour lexicographes doit donc tre suffisamment param trable et volutif pour autoriser de tels changements Il existe diff rentes m thodologies pour cr er et maintenir des dictionnaires complexes Nous parlerons de construction directe utilisant l interface d une base de donn es d
346. r partition se fait selon le script d crit dans la section 3 3 de cette partie bears a v tr Lexie abandonner 1 Lexie to leave 1 E Lexie abandonner 2 d serter Mil Lexie to desert Lexie abandonner 3 renoncer Lexie to give up 1 Lexie to abandon 1 Lexie ee c der a 43 Lexie to give in to 1 FIG D 12 r partition d un article du FeM en lexies et axies 5 1 2 Lexies francaises provenant de cet article L article pr c dent a g n r automatiquement six lexies fran aises correspondant tous les sous sens de l article Les identificateurs de ces lexies sont num rot s de abandonner 1 abandonnerS4 Les informations sp cifiques au FeM sont stock es dans l l ment lt fem gt Elles serviront par exemple reg n rer ensuite l article original Voici en exemple la lexie abandonner 3 lt lexie id abandonner 3 basic no gt lt headword gt abandonner lt headword gt lt pronunciation encoding GETA gt aban done lt pronunciation gt lt pos gt v tr lt pos gt lt fem gt lt gloss gt renoncer a lt gloss gt lt fem gt lt axies gt lt refaxie href a42 gt lt axies gt lt lexie gt Cette lexie est reli e l axie dont l identificateur est a42 206 D Application Papillon projet de base lexicale multilingue sur Internet 5 1 3 Lexies anglaises provenant du m me article
347. r vis s et compl t s pour les int grer dans la base apr s filtrage Il peut renvoyer plusieurs fois les fichiers aux indexeurs si le r sultat n est pas satisfaisant Les indexeurs travaillent domicile sur leur ordinateur personnel Ils n ont besoin que du logiciel Word sur Mac ou PC Pour faciliter le travail des lexicographes nous avons ajout des outils d aide l indexation sous forme de macros Word Les postes des lexicographes Le lexicographe dispose d une vue globale de l extrait de dictionnaire avec lequel il travaille Il peut corriger tr s rapidement les erreurs qu il d tecte et peut s inspirer des articles pr c dents ou suivants qu il voit en totalit sans avoir ouvrir de fen tres suppl mentaires Chaque unit d information est donn e sous forme de paragraphe dans un style particulier Gaschler94a 94b l aide des macros le lexicographe peut s lectionner la cat gorie dans une liste ce qui vite les erreurs dans les abr viations v rifier la validit d une entr e ou calculer l ensemble des styles pouvant suivre le style courant afin d ins rer un nouvel l ment d information Mangeot97 La figure B 12 montre un exemple de fichier d dition d un dictionnaire 2 Am lioration des m thodes de construction 85 Boutons de macros Style suivant Prononciation z Cat gorie Style Menu sp cial V rification pour lexicographe 2 Fic Format Outils Lef
348. r chaque langue Certaines sont rarement utilis es dans cer taines langues mais toutes sont th oriquement possibles Ces fonctions lexicales de base peuvent tre com bin es Dans l exemple suivant la fonction lexicale VO repr sente le verbe associ au nom MEURTRE TUER Chaque fonction lexicale est repr sent e par l l ment DML lt unction gt Chaque valeur de fonction est repr sent e par un l ment lt value gt Les valeur ayant une distance s mantique proche sont regroup s dans un l ment lt valgroup gt Lorsque la valeur d une fonction lexicale est une autre lexie sa r f rence est indiqu e avec un lien Cela permet de construire un v ritable r seau entre les lexies monolingues Les exemples d usage de la lexie sont repr sent s par l l ment lt examples gt Chaque exemple porte aussi un identificateur unique dans la base Cet identificateur est repr sent par l attribut id du type DML ID Il nous permet de relier aussi les traductions des exemples via le dictionnaire interlingue Les idiotismes contenant la lexie sont repr sent s par l l ment lt fu11 1dioms gt Chaque idiotisme porte aussi un identificateur unique qui nous permet de relier ses traductions via le dictionnaire interlingue Enfin les liens interlingues vers les axies sont regroup s dans l l ment lt axies gt Chaque lien est ensuite repr sent par l l ment lt refaxie gt La r f rence est not e avec l attribut
349. r des articles de dictionnaires en ligne Mais m me si nous prenons en compte des informations permettant la r vision des donn es la technique n est valable que pour un tout petit groupe d utilisateurs et elle ne permet pas encore la r vision des donn es Il reste donc mettre en place un vrai collecticiel qui permette la construction collaborative de dic tionnaires via le Web comme dans le projet Alliance Web AllianceWeb Les membres de la communaut virtuelle concern s par cette construction ont des r les diff rents Les informations envoy es par les contri buteurs doivent tre r vis es par un petit groupe d experts Cette organisation pose des probl mes de droits d acc s diff rents et de gestion des contributions qui ne peuvent tre int gr es qu apr s r vision Probl me de droits d acc s Si deux utilisateurs crivent ou modifient la m me donn e en m me temps des probl mes de conflits surgissent De plus certaines donn es doivent tre prot g es du grand public Pour r soudre ces probl mes il faut organiser un serveur g rant diff rents utilisateurs et groupes Une solution satisfaisante est que chaque utilisateur ait avoir un compte virtuel sur le serveur avec des droits d acc s particuliers Les utilisateurs pourront librement constituer des groupes partageant les m mes droits d acc s Il sera aussi utile voire n cessaire d associer chaque utilisateur un profil d int r t et u
350. r geta services dicofej HTML 4 0 HyperText Markup Language 4 0 Specification Recommandation du W3C http www w3 org TR REC html40 INTERLEX INTERLEX Diffusion de dictionnaires lectroniques via Internet ou c d roms projet MLIS MHonArc MySQL Nihongo OLIF http interlex uax es MHonArc convertisseur mel vers HTML http www mhonarc org MySQL SGBD http www mysql com Nihongo dictionnaire pour apprenants du japonais http www clips imag fr geta services nihongo OLIF Open Lexicon Interchange Format http www olif net Signets MobiDic Papillon 229 MobiDic dictionnaires hongrois anglais allemand http www mobidictionary com Papillon base lexicale frangais japonais that http vulab ias unu edu papillon PostgreSQL PostgreSQL SGBD RDF RFC2396 SILFIDE SALT SAIKAM SAX Tamino Third Voice XHTML XLINK XMaster XML http www postgresql org RDF Resource Description Framework Recommandation du W3C http w3 org RDF RFC 2396 Request For Comments for Uniform Resource Identifiers URI Generic Syntax Reg te de IETF http www ietf org rfc rfc2396 txt SILFIDE Serveur Interactif pour la Langue Francaise son Identit sa Diffusion et son Etude http www loria fr projets Silfide et http silfide imag fr SALT Standards based Access to Lexicons and Terminologie http www ttt org salt et http www
351. r japonais n emploiera pas le m me mot Elle est repr sent e par l attribut grade de l l ment lt reference grade cotextuel gt Voici un extrait de la lexie japonaise ARAU correspondant au verbe fran ais LAVER 7 lt lexie ia gt 5 1 basic true gt lt headword hn 1 gt PAS lt headword gt Pr a Lo 4 lt kun yomi gt lt pos gt HH BA AA lt pos gt lt language levels gt lt politeness grade neutral gt lt usage grade NA gt lt reference grade NA gt lt language levels gt lt lexie gt 196 D Application Papillon projet de base lexicale multilingue sur Internet Articles interlingues Les articles interlingues sont des acceptions ou liens interlingues Ce sont des axies repr sent es par l l ment lt axie gt Les axies ne sont que des liens entre les lexies monolingues Elles ne contiennent pas de d finition La description formelle de cet l ment est not e par le sch ma Papillon donn en annexe B Chaque axie contient un identificateur unique dans la base port par l attribut id Cet attribut est du type DML ID Si l axie est d truite l identificateur n est pas r affect Il est interne la base et cach des utilisateurs L attribut history est un attribut DML C est un identificateur permettant de faire r f rence l historique des changements ayant eu lieu dans l axie L axie est compos e de quatre l ments principaux la cat gorie s m
352. raditional dictionaries a metalexicographic method and some tools Proc COMPLEX 92 Conference on Computational Lexicography an Text Research Budapest Hongrie Linguistics Institute Hungarian Academy of Sciences pp 161 174 Ide95a Nancy Ide Jacques Le Maitre amp Jean V ronis 1995 Outline of a Model for Lexical Data bases Current Issues in Computational Linguistics In Honour of Don Walker Linguistica Computazionale IX X Pisa 1995 pp 283 320 Ide95b Nancy Ide amp Jean Veronis 1995 Text Encoding Initiative background and context Kluwer Academic Publishers 242 p ISO86 ISO 1986 ISO 8879 SGML Information processing Text and office systems Standard Generalized Markup Language Gen ve 155 p 15093 ISO 1993 ISO IEC 10646 UNICODE Information technology Universal Multiple Octet Coded Character Set UCS Gen ve 754 p ISO96 ISO 1996 ISO IEC 10179 DSSSL Information technology Processing languages Do cument Style Semantics and Specification Language Gen ve 292 p ISO98 ISO 1998 ISO 639 1 amp 2 Code for the representation of names of languages Part 1 amp 2 Alpha 3 code Gen ve Partie 1 17 p Partie 2 90 p ISO99a ISO 1999a ISO IEC 8859 1 15 8 bit single byte coded graphic character sets Latin alphabet Gen ve 222 Bibliographie ISO99b ISO 1999b ISO DIS 12200 MARTIF Computer applications in terminology Machine readable terminology interchan
353. ravaillent chez eux avec l diteur Word voir figure D 9 K CN HTML Markup Times T24 E 6 Ps L Se gt meurtre meu rtr e nm action de tuer PAR L individu X DE L individu Y REGIME X I Y I 1 de N 1 de N 2 A poss 2 A poss FONCTIONS LEXICALES Qsyn assassinat homicide 2 crime VO tuer AD meurtier adj FIG D 9 dition de la lexie MEURTRE avec Word 202 D Application Papillon projet de base lexicale multilingue sur Internet Lorsque le lexicographe a fini de r diger un fichier il le renvoie la base L le fichier est reconverti du format RTF vers le format original XML DML puis un sp cialise lexicologue r vise les articles avant de les int grer dans la base Il enl ve ensuite les marques sur les articles int gr s 4 3 5 diteur structur Nous proposons aussi aux lexicographes r digeant des articles monolingues de travailler directement avec un diteur structur XHTML Pour cela nous transformons les squelettes d articles du format XML vers le format XHTML au moyen d un feuille de style XSLT XSLT 1 0 en suivant la m thode d crite dans la partie C Si ces squelettes proviennent d articles de la base compl ter ces articles sont marqu s pour viter la duplication des efforts de r daction Les fichiers XHTML sont ensuite envoy s aux lexicographes qui travaillent chez eux voir figure D 10 meurtre meu rtr e
354. re B 7 l entr e du FeM a t obtenue localement tandis que l article du EDICT provient du serveur distant de Jim Breen Lorsque l utilisateur entre un mot fran ais DicoFeJ r cup re les traductions anglaises correspondant aux mots vedettes trouv s Il consulte ensuite le dictionnaire japonais anglais avec ces traductions Nous affi chons ensuite les entr es fran aises du FeM et les entr es japonaises de EDICT la suite Nous construisons ainsi la vol e un brouillon de dictionnaire fran ais japonais D autres ressources distantes sont disponibles Ainsi l utilisateur peut compl ter les informations sur un terme en consultant le dictionnaire universel francophone DUF s il s agit d un terme fran ais ou le dictionnaire Websters si le terme est anglais Il lui suffit de cocher les boutons correspondants dictionnaires optionnels 1 Exp riences sur la consultation en ligne 79 File Edit View Go Communicator as nw DicoFeJ Dictionnaires optionnels HA WE Analyse morphologique sauf japonais Expression r guli re sauf japonais rien Entr e heiges consulter Si vous avez des probl mes avec les accents vous pouvez les copier ict Result of the morphological analysis neiges neige Fem PL Noun lt lt previous next gt neige me j nf snow un bonhomme de neige lt lt des ufs battus en neige lt lt faire boule de neige fig lt lt Sear
355. re Papillon Voici la description en LEXARD de la base lexicale Papillon define lexical database GETA database Owner GETA comment Papillon Lexical Database creation date 25 06 01 users root VB FL MM AP GS MT administrators MM GS lexicologists FL MT partner servers XRCE analyser dictionaries DiCo FeM JMDict Papillon SAIKAM Voici le document XML quivalent lt database xsi schemaLocation http www clips imag fr geta services dml http www clips imag fr geta services dml dml xsd history ref database his xml name Papillon Lexical Database creation date 25 06 01 owner GETA gt lt partner servers gt lt user ref name XRCE Analyser href xrce xml gt lt partner servers gt lt users gt lt user ref name Vincent Berment href berment xml gt lt user ref name Francois Lareau href lareau xml gt lt user ref name Mathieu Mangeot href mangeot xml gt lt user ref name Alain Polguere href polguere xml gt lt user ref name Gilles S rasset href serasset xml gt lt user ref name Mutsuko Tomokiyo href tomokiyo xml gt lt users gt lt groups gt lt group name lexicologists gt lt user ref name Francis Bond gt lt user ref name Mutsuko Tomokiyo gt lt user ref name Francois Lareau gt lt user ref name Alain Polgu re gt lt group gt lt group name administrators gt lt user ref name M
356. re l organisation des sch mas XML utilis s dans le projet Papillon Sch ma XML DML lt import gt Sch ma XML Papillon lt redefine gt lt redefine gt Sch ma XML Sch ma XML Sch ma XML Papillon fran ais Papillon axies Papillon japonais Sch ma XML Sch ma XML Sch ma XML Papillon tha Papillon anglais Papillon Lao FIG D 5 organisation des sch mas XML dans le projet Papillon Au d part nous utilisons le sch ma DML dans lequel sont d finis les l ments communs DML les bases lexicales les dictionnaires et les lexiques Ensuite le sch ma Papillon importe le sch ma DML et d finit les l ments communs au projet comme les lexies et les axies Enfin les sch mas sp cifiques aux langues ou aux lexiques comme papillon fra pour le fran ais papillon jpn pour le japonais et papillon axi pour les liens interlingues red finissent les l ments sp cifiques du sch ma g n ral papillon 4 Analyse g n rale et impl mentation 189 4 1 2 Macrostructure des dictionnaires La base lexicale La base lexicale Papillon est d crite par l l ment DML lt database gt La description formelle de cet l ment est r alis e par le sch ma DML donn en annexe A Pour l instant la base contient quatre dictionnaires r f renc s par l l ment lt dictionaries gt Le FeM le JMDict et le DiCo sont utilis s pour construire des squelettes d articles du dictionnai
357. ribute gt 238 Annexe A sch ma XML pour DML lt Indicates the weight of a linguistic element It can be a frequency score etc This weight can be used to choose between various elements of the same type eg between two translations The possible values are between 0 0 and 1 0 It is better to use the IDs and to store the different weights in a table It allows to store various weights frequency in corpora neuronal weigth frequency in search engines etc a lt attribute name weight type d weightType gt lt simpleType name weightType gt lt restriction base float gt maxExclusive value 1 0 gt minExclusive value 0 0 gt lt restriction gt lt simpleType gt lt I DML definitions for a database gt lt databas lement lt The database element is the top element of the database It describes the whole database with the dictionaries the various groups and pointers to the users file gt lt element name database gt lt complexType gt lt sequence gt lt element ref d users gt lt element ref d groups gt lt element ref d partner servers gt lt element ref d dictionaries gt lt sequence gt lt attribute name creation date type d dateType use optional gt lt attribute name name type string use optional gt lt attribute name owner type string use optional gt lt attribut
358. rmations dont il a besoin dans une grande quantit d information Pour la manipulation de dictionnaires nous avons besoin de r cup rer des ressources existantes de produire partir d elles de nouvelles ressources et de faire des conversion entre formats Les outils R cupdic et Producdic sont satisfaisants en terme de fonctionnalit s Il reste toutefois un probl me d interface et de portabilit Pour la construction de dictionnaires il est possible de distinguer deux types d apport la r daction d articles entiers et les contributions localis es sur des parties d articles Pour la r daction il faut proposer des outils d aide la r daction et aussi un m canisme d aller retour entre les r dacteurs et la base pour pouvoir r viser le travail accompli Pour les contributions il faut des outils simples fonctionnant directement en ligne et permettant de partager les contributions entre plusieurs utilisateurs L utilisation d un tampon est n cessaire pour donner un statut provisoire aux nouvelles donn es Ensuite il faut mettre au point une proc dure de validation correction int gration des donn es Pour la structure interne des dictionnaires nous souhaitons nous appuyer sur des standards existants pour garantir la portabilit et la compatibilit avec un maximum d outils existants et venir C est pourquoi nous pensons utiliser les standards UNICODE et XML ainsi que le r sultat des recherches men es par la
359. ropres ENAMDICT qui contient plus de 200 000 noms et une base d informations sur les kanji KANJIDIC qui d taille les 6 353 kanji inclus dans le standard JIS X 0208 le d veloppement de logiciels et de serveurs pour consulter ces ressources Depuis le projet JMDict Japanese Multilingual Dictionary a pris la suite en 1999 Les buts sont de convertir les ressources au format XML XML 1 0 et encod en Unicode 18093 UTF 8 et aussi d ajou ter d autres langues cibles Il y a actuellement environ 10 000 articles japonais fran ais et 18 000 articles japonais allemand Toutes les ressources sont consultables en ligne EDICT De plus les sources sont t l chargeables gratuitement par FTP Interface Avec la m me interface il est possible de chercher un mot anglais un mot japonais en choisissant son dictionnaire dans une liste d examiner un kanji dans un mot compos de plusieurs kanji ou de consulter la 32 A Contexte actuel de la dictionnairique base des kanji La figure A 24 montre l interface et les r sultats de la recherche dans le dictionnaire EDICT Jim Breen s WWWJDIC PES Server Dictionary Search screen Current Dictionary is edict Documentation Dictionary Codes k Search Key AH longest match found Click on G for a Google search SARA HABIDA eternity perpetuity G OARRFS UANI eternity perpetuity G QARH AAX constancy immutable G Select an action from the following and cl
360. rtant d outils utilisant XML nous ont convaincu de l utiliser pour nos travaux 5 3 Pour la repr sentation du contenu 5 3 1 Proposition d une structure tr s riche le mod le GENELEX Pr sentation Le projet EUREKA GENELEX GENELEX93 GENEric LEXicon s est tendu principalement sur 3 ans 1990 1993 Le but principal tait la construction d un dictionnaire g n rique pour diff rentes langues europ ennes le fran ais l italien et l espagnol L effort humain fut d environ 250 hommes ann es GE NELEX a produit un dictionnaire public d environ 3 000 termes mais aussi des dictionnaires priv s avec des parties provenant de dictionnaires propri taires reformat s par chacun des membres du projet ERLI IBM et Larousse pour le fran ais Trois comp tences distinctes ont t requises celle du linguiste celle du formalisateur et celle du lexicographe Le projet fonctionna de la fa on suivante D abord le mod le GENELEX a t d crit l aide d une DTD SGML impl mentant les contraintes impos es par le mod le en particulier des listes ferm es de cat gories grammaticales et de traits morphologiques Ce mod le propose une structuration de donn es lexicales en 3 couches morphologie syntaxe et s mantique L unit lexicale est le sens d un mot Un logiciel GENELEX fut ensuite r alis par chaque partenaire pour exploiter les donn es C est une surcouche logicielle au dessus de diff rents sys
361. rte quel article N anmoins il est souple puisque seuls certains l ments d information sont obligatoires quel que soit l article le mot vedette la cat gorie grammaticale une division s mantique par exemple En outre le format hi rarchique permet d une part d identifier les parties les plus importantes de l article par ex zone d introduction division s s mantique s section des compos s section des expressions fig es et d autre part de subdiviser chacune de ces parties en sous parties qui sont elles m mes subdivis es plus loin ce qui permet d ajouter beaucoup de d tails sur chaque partie importante Une fois le format de l article type tabli par un comit sp cial de l quipe du DCB travaillant avec un consultant une DTD a t cr e Cette DTD permet aux lexicographes de r diger des entr es en SGML Pour ce faire ils utilisent divers logiciels dont WordPerfect SGML Les logiciels analysent la DTD pour produire un squelette d article et proposent des facilit s de r daction qui s adaptent la DTD la liste des balises disponible un endroit pr cis de la structure l insertion ou la suppression d un nouvelle balise etc De ce fait la structure de l article en cours de r daction est toujours conforme la DTD La r daction est guid e par la structure La figure A 35 repr sente l article fier bras tel qu il appara t l cran lorsque le lexicographe le r dige en SGML Le l
362. s etc Il faut donc modifier cet article si nous voulons le r utiliser Pour r cup rer l article avec Poutil H grammar il faut crire une grammaire de r cup ration dans ce formalisme Voyons maintenant comment crire une grammaire H grammar 3 1 3 Grammaire de r cup ration Une grammaire de r cup ration H grammar se compose de six mots clefs avec leurs instructions grammar indique le nom de la grammaire syntax rules permet de d finir des r gles d analyse syntaxique pour la r cup ration start symbol indique le symbole de d part de la grammaire lexical rules permet de d finir des r gles d analyse lexicale pour construire les items lexicaux lexical order permet de d finir un ordre de pr f rence entre les items lexicaux working code permet d crire des fonctions Common Lisp et de les int grer dans les r gles syn taxiques La figure A 31 montre le squelette d une r gle d analyse syntaxique Nom A ail ai2 aol ao2 rss gt B bil bi2 bol bo2 C CIL CIZ ses COL COZ ses FIG A 31 squelette de r gle d analyse syntaxique de H grammar man Le nom d une r gle d analyse syntaxique est optionnel s il existe il est mis entre une paire de A est un non terminal ail ai2 et aol ao2 sont respectivement les variables d entr e et de sortie de la r gle Dans la partie droite B C peuvent tre un non terminal un term
363. s average 1s max 2s timeout 10s gt lt encoding input ASCIT ISO 8859 1 UTF 8 output UTF 8 gt lt format input txt xml output xml html txt gt lt arguments gt lt element name type type string gt lt element name domain type string gt lt element name category type string gt lt element name contents type string gt lt element name source language type string gt lt element name target language type string gt lt element name creation date type string gt lt element name installation date type string gt lt element name encoding type string gt lt element name format type string gt lt element name owner type string gt lt element name version type string gt lt element name hw number type string gt lt element name bytes type string gt lt element name source type string gt lt element name legal type string gt lt arguments gt lt result gt lt element name output gt lt complexType gt lt sequence gt lt element name info type string gt lt sequence gt lt complexType gt lt element gt 4 Int gration des outils de manipulation construction et consultation de dictionnaires 161 lt result gt lt api gt Voici un exemple de requ te sur la m ta information recherche des ressources bilingues et multilingues avec l anglais comme langue source cr es apr s 1990 et
364. s des exemples d utilisation et la traduction en anglais de l entr e sans infor mations grammaticales sur le frangais ni sur la provenance des entr es 118 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires les exemples du DHO l tymologie du NODE et les informations de tous les dictionnaires bilingues anglais fran ais disponibles en indiquant la provenance la d finition du Robert avec les images du Larousse si l article en contient une Visualisation des donn es L utilisation d un dictionnaire papier imprim montre vite l importance du contexte dans lequel un ar ticle se trouve c est dire l importance des autres articles qui l entourent dans l ordre d fini par la nomen clature du dictionnaire en g n ral l ordre alphab tique Il est alors possible de d couvrir des mots d une m me famille ou des variantes orthographiques etc Pour garder cet avantage il faut pouvoir acc der tout moment aux articles pr c dant et suivant celui qu on est en train de consulter dans un ordre suivant la nomenclature pr c demment d finie par l utilisateur L ordre par d faut suivant la nomenclature classique du dictionnaire demander de visualiser une fen tre plus ou moins grande repr sentant le contexte autour d un article pr cis Par exemple ouvrir une fen tre avec les 5 articles pr c dant et suivant celui qu on consulte P
365. s a ius cias ie eee a ce de ee 88 2 2 3 Interface de r daction 89 iv Table des mati res 2 24 DISCUSSION a e a E o a Oe a DE A 90 3 Nouvelles directions pour la consultation 91 3 1 Elargissement du concept de dictionnaire DicoSz t r 91 3 1 1 Utilisation de donn es multim dia 91 3 1 2 Interface personnalis e pour apprenants le quizz 91 3 2 Visualisation au moyen d arbres hyperboliques 93 3 2 1 Introduction 4 4 5 is 4 4 ba ue ER AY a ee ed EA 93 3 2 2 Exemple d arbre hyperbolique 93 3 2 3 DISCUSSION via Bee md au a a Gh le ak Le da 93 3 3 Annotation d un article de dictionnaire 94 3 31 Notre QUUL tos es aoa oe RENE RONA SR M ANA NU by daa en es 94 3 32 LC oual Third VoicE ii LR SE AN Gri NE dee BE RIRE nas 95 3 3 3 L annoteur d Amaya ib ie Dhs DR RE RAE we be ed ho ad 95 4 Coop ration entre applications 99 4 1 Aide la consultation gr ce des modules externes 99 4 121 Pr sentation ei eke Bu disease dette des see he ns 99 4 1 2 Utilisation d un conjugueur 99 4 2 Consultation par une application de traduction automatique 99 42 1 Pr sentation 2 4 4 44 a ed sde das BW die doe be she 99 4 2 2 Commandes dispo
366. s de donn es 1 Sp cifications externes de l environnement 121 D autre part les applications clientes des bases lexicales peuvent devenir leur tour fournisseurs de services Par exemple la construction d un analyseur morphologique n cessite des cat gories grammaticales que la base peut fournir son tour l analyseur morphologique une fois fini peut proposer ses services la base Celle ci doit pouvoir interroger ses clients pour voir ou r utiliser les applications cr es gr ce aux donn es qu elle a fourni Il faut instaurer un syst me de rappel automatique call back des clients Ceux ci doivent impl menter une API standard d finie par la base 122 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires 2 D finition du noyau de l environnement avec SUBLIM D finissons maintenant le noyau de notre environnement de manipulation cr ation et consultation de ressources lexicales Comme nous l avons dit plus haut nous utilisons pour cela SUBLIM S rasset94e Mais ce syst me est d fini avec des langages dont la syntaxe noyau est crite en LISP Pour respecter notre cahier des charges nous red finissons SUBLIM en XML en y ajoutant les nouvelles fonctionnalit s qu imposent notre environnement 2 1 tude critique de SUBLIM Un lexicologue utilisant le syst me SUBLIM d crit la structure interne de sa base lexicale en utilisant deux langages de haut niveau L
367. s de la r daction d un article ou de sa lecture de pouvoir aussi acc der au contexte de cet article de fa on voir les articles suivants et pr c dents Une acception monolingue est une unit s mantique d une langue Une base d acceptions fournit un lien entre les acceptions monolingues des diff rents dictionnaires L ensemble des acceptions interlingues 10 A Contexte actuel de la dictionnairique est l union des ensembles des acceptions monolingues des diff rents dictionnaires de la base Un concept est une repr sentation abstraite mentale et g n rale Une ontologie est un ensemble hi rarchis de concepts de faits et de r gles qui repr sente une mod lisation du monde Une base de concepts poss de donc un dictionnaire interlingue repr sentant une ontologie contrairement une base d acceptions qui n a pas de dictionnaire interlingue Ces objets linguistiques sont structur s de mani re plus ou moins complexe Les microstructures de certains dictionnaires se limitent une suite de paires attribut valeur D autres sont plus labor es et com prennent des arbres des tableaux des graphes etc Une microstructure fr quemment utilis e est celle de l entr e sous forme d arbre L avantage d une telle structure est qu elle est facilement repr sentable dans un format utilisant des balises Il est aussi possible de repr senter la plupart des microstructures l aide de structures de traits Ide95a L
368. s dictionnaires remplis l aide 48 A Contexte actuel de la dictionnairique d ATLAS sont utilis s par le syst me de traduction ARIANE GS 4 3 2 Les manuels d indexage Les manuels d indexage repr sentent les arbres de d cision utilis s par les lexicographes lors de l in dexation d une entr e Ils expliquent comment affecter les diff rents codes utilis s lors de la traduction Le linguiste dite son manuel avec un diteur de textes quelconque Il le compile ensuite avec ATLAS Lors qu ATLAS d tecte une erreur il signale sa position et permet au linguiste de la corriger La figure A 36 montre un exemple de manuel d indexage La figure A 37 montre la forme arborescente pour le manuel papier correspondant ROOT q type of word to be indexed L noun gt NOUN 2 verb gt VERB 3 adjective gt ADJ 4 invariant gt INVAR ADJ Q what is the adjective type this includes adj with no comp or sup 1 comp with MORE gt ADI 2 comp with ER gt AD2 3 irregular gt AD3 AD1 Q ambiguous adjective A I 3 yes gt AZ V obscure 2 3 no gt A V expensive AD2 Q what is the type of the adjective type 1 comp with ER sup with EST type 2 comp with ER sup with ST AMBIGUOUS ie normal ambiguous eg fast normal comp ambiguous eg l
369. s lemmes correspondant aux formes de surface que l on trouve dans les textes Un dictionnaire terminologique rassemble g n ralement des termes d un domaine pr cis de la langue Un dictionnaire g n ral rassemble des mots vedettes sans se sp cialiser dans un domaine particulier et contient des informations assez riches et vari es Un lexique est un dictionnaire monolingue terminologique dont la microstructure est tr s simple Le terme de ressource lexicale est un terme plus large que celui de dictionnaire Les ressources peuvent tre de plusieurs natures des dictionnaires des lexiques des corpus des th saurus etc Les ressources peuvent tre utilis es soit par des humains soit par des machines 1 1 2 La macrostructure des dictionnaires L organisation des volumes forme la macrostructure du dictionnaire La figure A 1 repr sente les prin cipaux exemples de macrostructures La macrostructure la plus simple consiste en un seul volume Les mots vedettes des dictionnaires com pos s d un seul volume appartiennent la m me langue La nomenclature de ces dictionnaires ne d pend que d une seule langue Ce sont des dictionnaires monodirectionnels On trouve des dictionnaires mono lingues mais aussi des dictionnaires multilingues index s selon une seule langue Ces derniers sont appel s dictionnaires multicibles ou furco des Boitet86a 86b Une macrostructure fr quemment utilis e est celle du dictionnaire bilingue en deux vo
370. s mais souffrent de quelques d ficiences elles ne sont pas crites en XML ne supportent pas les espaces de noms et n offrent qu un typage tr s limit des donn es C est pourquoi nous pr f rons utiliser des sch mas XML pour d crire nos documents XML Les sch mas apportent des fonctionnalit s int ressantes comme un grand nombre de types de donn es int gr s comme les bool ens les entiers les intervalles de temps etc la possibilit de cr er de nouveaux types par ajout de contraintes sur un type existant la notion d h ritage le support des espaces de noms les indicateurs d occurrences des l ments la possibilit de d finir les attributs et leurs valeurs par d faut en fonction du contexte d apparition de l l ment qui les porte Par la suite les descriptions seront not es dans le sch ma XML DML dont l URL est http www clips imag fr geta services dml xsd Ce sch ma est le sch ma de base de notre base lexicale La structure de tous les documents l ments attributs et types XML est d crite soit directement par ce sch ma XML soit par un sch ma qui importe ou red finit ce sch ma 2 D finition du noyau de l environnement avec SUBLIM 129 2 2 2 Types et attributs communs de DML Pour certaines informations nous d finissons des types et des attributs communs tous les l ments de DML Cela permet de standardiser les donn es Les sch mas XML disposent
371. s the links between the volumes files in the dictionary gt lt element name links gt lt complexType gt lt sequence gt lt element ref d arcType minOccurs 0 maxOccurs unbounded gt lt sequence gt lt complexType gt lt element gt lt a DML definitions for CDM elements P lt headword element gt lt This is the headword of the articles of the monolingual dictionaries It is the name of the lexies and vocables gt lt element name headword gt lt complexType mixed true gt at hn attribute gt lt Homograph number of the headword gt lt attribute name hn type string use optional gt lt attribute ref d delay gt lt complexType gt lt element gt lt pos element gt lt Part of speech of the headword The type has to be redefined in the schemas for the volumes gt lt element name pos type d posType gt lt simpleType name posType gt lt restriction base string gt lt simpleType gt lt pronunciation element gt lt pronunciation of the headword gt lt element name pronunciation gt lt complexType mixed true gt lt attribute name encoding type string use optional gt lt attribute ref d delay gt lt complexType gt lt element gt lt translation element gt 2 Sch ma XML de DML 249 lt translation of the headword gt lt element name translation gt lt com
372. sa Meaning English vehicle car Corresponding Thai Words ATAUE BIBT S eur TW HRS PIE TW TAS Sample Usage BOREM RG CHK sa da nas 1497125088 e TOBOS ENENLLOD usais sarunalssnate RIS LY VY AIV CBOAZAE KRED LUTLH EULUSA s sua ateaasa Synonyms 0 Fields 0 FIG A 41 article kuruma voiture du dictionnaire japonais tha En plus de la recherche de mots SAIKAM fournit des outils de recherche de corpus pour le japonais L utilisateur peut chercher un mot selon sa fr quence sa prononciation ou son niveau de difficult 4 5 4 Discussion Ce projet est tr s prometteur dans le domaine de la coop ration sur Internet pour la construction de bases lexicales Nous pouvons cependant regretter l absence de lexicologues contr lant les donn es De ce fait le degr de qualit d une telle base est difficile valuer 54 A Contexte actuel de la dictionnairique 4 6 Conclusion La m thode d mocratique utilise des outils tr s r pandus Elle est donc facile mettre en uvre Les changements de structure des dictionnaires en cours de construction pourvu qu ils restent petits sont tout fait possibles Cette m thode ne b n ficie pas par contre pour l instant d outils d aide la r daction et de v rification Elle n est pas valable non plus pour des dictionnaires fortement structur s Enfin elle n est pas non plus r active Il faut du temps pour distribuer le trava
373. se KAADO qui est donc la traduction japonaise de la lexie CARTE JOUER 178 D Application Papillon projet de base lexicale multilingue sur Internet 2 2 2 Articles monolingues les lexies de la base DiCo Igor Mel tchuk et ses coll gues ont mis au point la th orie sens texte d abord en Russie en particulier avec le laboratoire du professeur Rosenzweig puis l universit de Montr al Cette th orie fournit les informations n cessaires pour passer d une id e le sens sa r alisation dans une langue donn e le texte La lexicologie explicative et combinatoire Mel tchuk95 est issue de la th orie sens texte Elle d crit une m thode de construction d articles de dictionnaire bas s sur cette th orie Cette m thode est ind pendante des langues Elle permet donc de rep senter n importe quelle langue La lexicologie combinatoire a permis de construire le Dictionnaire Explicatif et Combinatoire du fran ais contemporain Mel tchuk92 Son usage est exp rimental Il comporte peu de vocables mais chacun est tr s d taill Les vocables sont divis s en lexies qui repr sentent les unit s de base du dictionnaire La mi crostructure du DEC est trop complexe pour tre utilis e grande chelle C est pourquoi Alain Polgu re Polgu re00 a simplifi les structures utilis es dans le DEC pour construire la base DiCo La microstructure des dictionnaires monolingues du projet Papillon se base sur celle des lexies
374. sions r guli res par exemple tous les mots contenant la racine coup comme coup coupole couple couper d couper d coupage etc Mais cepen dant lorsqu un dictionnaire n est pas public et c est le cas les concepteurs r duisent volontairement les options d acc s pour viter le pillage 2 Outils de consultation de dictionnaires 31 le Dictionnaire Avant propos abr ger v tr o Rendre plus court en dur e en substance Abr ger une attente fastidieuse Abr ger un article trop long Syn courter r sumer Ant allonger abreger Y Dictionare Uoversel Froxophre 1997 b e dorm HACHETTE EDICEF pour les ba dictiormairiques et la version reses 1997 AUPELF UREF pour les ajo cier es et l adaptation lexicographique des bases 1997 Claude Poirier pour la base lexicographique Am rique du Nord Toute reproduction par qudque moyen que ce sort sans autorisation explicite des ayants droit est formellement interdite FIG A 23 interface et r sultats de la consultation du DUF 2 2 2 Consultation plus volu e d un dictionnaire EDict Introduction Le projet EDICT a d marr en 1991 Il est dirig par Jim Breen professeur au campus de Melbourne de l universit Monash en Australie Il consiste en deux parties la cr ation et le maintien de trois documents un lexique japonais anglais EDICT qui contient ac tuellement plus de 70 000 articles un dictionnaire de noms p
375. sses universitaires d Oxford OUP en 1998 C est un dictionnaire usage humain Sa macrostructure consiste donc en un seul volume Sa microstructure contient la plupart des l ments d un dictionnaire monolingue classique parmi lesquels l tymologie des entr es des exemples et des informations encyclop diques Il contient environ 93 000 articles Comme ce dictionnaire tait disponible au XRCE des fins de recherche nous avons pu l utiliser pour nos exp riences Format interne du dictionnaire Comme ce dictionnaire a t publi par un diteur sp cialis son format interne original est SGML le format le plus r pandu chez les diteurs Sa microstructure est repr sent e sous forme d un arbre pour chaque article Le dictionnaire est stock dans un seul fichier d une taille de 38 m gaoctets Pour la prononciation l alphabet utilis est 1 Alphabet Phon tique International APT Dans les exemples suivants aucune police API n tait disponible La pornonciation est repr sent e par une transcription Le tableau A 1 d crit les l ments SGML de l exemple de la figure A 5 Pr sentation du dictionnaire La figure A 6 montre le m me article dans une pr sentation lisible par l humain 14 A Contexte actuel de la dictionnairique TAB A 1 l ments SGML du NODE lt se gt lt hg gt lt hw gt abbreviate lt hw gt lt pr gt lt ph gt bri vleIt lt ph gt lt pr gt lt hg gt lt sl gt lt ps gt
376. ssources libres et enfin l int gration des exp riences pr c dentes 1 1 Sp cification du noyau Pour les raisons expos es pr c demment nous avons t conduits prendre de la distance par rapport aux bases de donn es classiques qui ne serviront qu au stockage et ne seront pas directement utilis es pour la manipulation du contenu r alis par traitement des cha nes XML contenues dans les divers champs Il nous faut donc passer au niveau sup rieur et red crire un environnement complet en partant du noyau de cet environnement Nous devons choisir un formalisme de repr sentation des donn es puis des outils pour les manipuler au niveau interne 1 1 1 Choix du formalisme de repr sentation Le formalisme de repr sentation des donn es sera bas sur SUBLIM un Syst me Universel de gestion de Bases Lexicales Informatis es Multilingues d crit dans la th se de Gilles S rasset S rasset94e Ce syst me permet au lexicologue de sp cifier la structure interne d une base lexicale en utilisant deux langages de haut niveau le langage LEXARD pour la macrostructure de la base et des dictionnaires et le langage LINGARD pour la microstructure des dictionnaires Avec ce syst me 1l est donc possible de repr senter de nombreuses structures des ressources h t rog nes provenant de la r cup ration Le syst me poss de aussi un formalisme permettant de d crire les v rifications que l on souhaite appliquer aux donn es 1
377. st me doit impl menter un formalisme tr s souple permettant de repr senter de nombreuses res sources h t rog nes Les bases lexicales pourront contenir non seulement plusieurs dictionnaires pour plu sieurs langues mais aussi des objets qui ne seront pas des dictionnaires Le formalisme devra ainsi permettre d associer des arbres des images du son ou de la vid o un mot Les ressources traitables par le syst me envisag peuvent tre des dictionnaires g n raux monolingues NODE DEC des dictionnaires g n raux bilingues OHD OUPES des dictionnaires g n raux multilingues FeM Fe des bases multilingues de concepts ou d acceptions ELRA UNL des dictionnaires de syst mes de traduction ARIANE RUS FRA des bases de donn es terminologiques EURODICAUTOM des m moires de traduction les r ponses aux requ tes sont les segments align s contenant le mot des banques d arbres les r ponses sont les arbres repr sentant des analyses de phrases incluant le mot des corpus annot s ou non les r ponses sont les KWIC ou la fr quence d apparition du mot des nomenclatures des listes de noms propres des annuaires etc 108 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc Permettre la v rification des donn es Certaines donn es seront r cup r es partir de ressources existantes d autres seront
378. st sa qualit et sa couverture O se trouve t il Plut t que de stocker les m ta donn es dans un lieu qui leur est propre nous avons choisi de les mettre c t des donn es qu elles repr sentent ainsi d s que l on ajoute un nouvel ensemble de donn es les m ta donn es sont ajout es en m me temps Cela permet aussi de consulter ces m ta donn es directement lorsqu on acc de au syst me de fichier o sont stock es les donn es 1 1 2 Protocole de nommage des fichiers Pour permettre notre outil d acc der directement aux fichiers de m ta donn es et pour clarifier l or ganisation des fichiers nous avons instaur un protocole de nommage des r pertoires et des fichiers de donn es Cela permet par exemple de prendre en compte automatiquement un nouvel ensemble de donn es sans modifications de l outil Les ressources sont dans la mesure du possible rang es dans le m me r pertoire Chaque ressource est plac e dans un r pertoire dont le nom est compos du nom de la ressource suivi des langues pr sentes dans la ressource dans l ordre alphab tique Chaque nom de fichier de ressource contient le nom du dictionnaire suivi de la langue source puis des langues cibles pr sentes dans le fichier Le nom de version ainsi que l encodage sont ventuellement ajout s L extension repr sentant le format txt rtf xml html sgml etc termine le nom du fichier Par exemple le fichier repr sentant le volume fran
379. ste assez abstrait Il se pose donc un probl me de mise en uvre pratique Il faut donc continuer et am liorer cette technique et carrosser l outil pour le rendre utilisable par un non informaticien 4 M thodes de construction de dictionnaires 43 4 M thodes de construction de dictionnaires Il y a plusieurs t ches r aliser lors de la construction d un dictionnaire correspondant diff rents profils le lexicologue d finit les informations qui seront contenues dans le dictionnaire sp cifie leur forme et donne les crit res permettant de d finir les unit s lexicales l informaticien cr e les outils sp cifiques au dictionnaire ainsi d fini et met au point la m thodologie qui sera utilis e lors de la construction du dictionnaire Il construit de plus les interfaces n cessaires au lexicographe poste de travail le lexicographe construit le dictionnaire selon les sp cifications ainsi faites en cr ant des nouvelles unit s ou en compl tant des unit s d j existantes Dans la pratique il ne peut y avoir de lexicologue qui ne soit en m me temps lexicographe Dans la suite nous utiliserons cependant le terme de lexicologue pour d signer la personne qui d finit les informations contenues dans le dictionnaire mais aussi qui contr le le travail des lexicographes r dacteur en chef de la publication d un dictionnaire La cr ation d outils pour les dictionnaires pose des probl mes informati
380. ste un fort besoin en dictionnaires adapt s Par exemple NTT Nippon Telegraph and Telephone au Japon ou Lexiquest en France doivent d velopper leurs propres dictionnaires s par ment Dans le monde acad mique les applications cr es pour le fran ais et le japonais offrent une couverture r duite alors que de tr s bonnes ressources existent entre le japonais et l anglais Il est maintenant envisageable de construire ces ressources par Internet gr ce des linguistes lexico logues lexicographes traducteurs informaticiens etc travaillant en coop ration Un projet similaire concernant l anglais et le japonais est actif depuis plus de dix ans et a permis la construction effective d un dictionnaire gratuit japonais anglais disponible sur Internet C est le projet EDict dirig par le professeur Jim Breen de Monash University en Australie EDict Le dictionnaire actuel JMDict comprend actuellement plus de 70 000 articles de vocabulaire commun un dictionnaire sp cifique de kanji et une vingtaine de dictionnaires sp cialis s biologie droit etc Enfin le projet SAIKAM Ampornaramveth00 en coop ration entre le NII Tokyo Japon et NECTEC Bangkok Tha lande est actif de puis environ cinq ans Les tudiants tha landais travaillant ou ayant tra vaill au Japon ont construit un dictionnaire japonais tha d environ 4 000 articles sur Internet en validant des articles construits automatiquement En ao t 2000 le premier
381. stockage des poids calcul automatique des profils et gestion des conflits sur les contributions Bibliographie 217 Bibliographie Aarts85 J Aarts amp T V D Heuvel 1985 Computational Tools for the Syntactic Analysis of Corpora Linguistics 23 1 pp 303 335 Adriaens90 G Adriaens amp M Lemmens 1990 The Self Extending Lexicon Off line and On line De faulting of Lexical Information in the METAL Machine Translation System Proc Coling 90 Helsinki 20 25 August 1990 H Karlgren ed vol 3 3 pp 305 307 Aho86 A Aho R Sethi amp J Ullman 1986 COMPILATEURS Principes techniques et outils ed Intereditions Paris 875 p Ampornaramveth98 Vutichai Ampornaramveth 1998 SAIKAM An online dictionary development pro ject Proc of the 4th Workshop on Academic Information Networks and Systems f vrier 98 NACSIS seminar house Karuizawa Japon Ampornaramveth00 Vutichai Ampornaramveth Akiko Aizawa Keizo Oyama amp Tanasee Methapisit 2000 An Internet Based Collaborative Dictionary Development Project SAIKAM First In ternational Symposium on Advanced Informatics Proc AdInfo 2000 9 10 mars 2000 NAC SIS Tokyo Japon 4 p Antoine92 F Antoine 1992 Dictionnaire s mode s d emploi La maison du dictionnaire 120 p Atkins92 B T Sue Atkins 1992 Tools for computer aided corpus lexicography the Hector Project Proc COMPLEX 92 Conference on Computational Lexicography and text research Buda
382. sultat de la requ te est en format XML Le client utilisant un navigateur classique ne peut donc pas encore visualiser directement son r sultat La visualisation du r sultat se fait en deux phases D abord le client red finit la macrostructure des articles l aide d une interface sp cialis e La requ te est alors traduite en une feuille de style XSLT stock e dans son espace virtuel Il peut d cider de fusionner les articles selon leurs l ments DML par exemple les articles ayant le m me mot vedette et la m me cat gorie grammaticale Ensuite le r sultat XML est transform pour l essentiel en XHTML XHTML 1 0 et la pr sentation du r sultat est d crite dans une feuille de style CSS Il est possible d associer des visualisateurs sous forme d ap plets java pour certains l ments XML particuliers Pour ne pas p naliser les clients ayant des quipements de bas de gamme la transformation se fait sur le serveur Les l ments XML ne n cessitant pas de visualisateur particulier sont transform s en l ments XHTML lt span gt L attribut class de cet l ment prend alors la valeur du nom de l l ment XML Cet attribut 4 Int gration des outils de manipulation construction et consultation de dictionnaires 163 permet ensuite d associer un style particulier cet l ment Les styles sont d crits part dans une feuille de style CSS Voici un exemple de conversion de quelques l ments DML XML XHTML
383. sur XPath XPath Il permet choix de ses parties internes bas valeurs d attributs les caract res 3 Exemple d annotation Tout d abord l utilisateur conf Saa 009 ON nom a a lt EEE FIG B 24 exemple de document annot avec Amaya 4 Coop ration entre applications 99 4 Coop ration entre applications Dans cette section nous exp rimentons la coop ration entre applications Nous avons test la coop ration dans les deux sens la base lexicale pouvant jouer le r le du client ou du serveur D un cot nous utilisons dans nos applications des outils d aide la consultation ou des ressources install s sur des serveurs dis tants De l autre nos applications peuvent tre utilis es automatiquement par d autres applications comme serveurs de dictionnaires 4 1 Aide la consultation gr ce des modules externes 4 1 1 Pr sentation DicoSz t r notre serveur de dictionnaire pour apprenants du hongrois a t enrichi par l utilisation de modules install s sur des serveurs distants Nous avons associ des actions aux mots vedettes de DicoSz t r pour faciliter l apprentissage du hongrois L accusatif et le pluriel des noms hongrois n tant pas toujours r guliers nous avons associ un g n rateur d accusatif et de pluriel aux entr es correspondantes Nous avons aussi associ un conjugueur g n rique aux verbes DicoSz t r est install sur le serveur du CLIPS DicoSz t
384. syntaxique de H grammar 38 A 32 grammaire H grammar de r cup ration de BABEL 39 A 33 article de BABEL apr s r cup ration objet LISP 40 A 34 m thodologie de cr ation du FM 45 A 35 r daction d un article du DCB avec WordPerfect 47 A 36 exemple de manuel d indexage source pour l outil ATLAS 48 A 37 forme arborescente pour le manuel papier correspondant 49 Table des figures A 38 fen tre principale de DECID o p o sop a piosa rop me da eee eee 50 A 39 fen tre de lexie de DECID 200 5244 3 su bu Da bu a A a lc ee 51 A 40 interface d dition de SAIKAM 52 A 41 article kuruma voiture du dictionnaire japonais that 53 A 42 unit morphologique semestriel de AlethDic 58 A 43 unit syntaxique semestriel de AlethDic 58 A 44 unit s mantique semestriel de AlethDic 58 A 45 exemple d article de dictionnaire anglais fran ais 59 A 46 exemple d article encod avec les balises de la TEI 60 AAT document XLT sch o a eck 8 Dom M RE pue Se mu Eu 63 B 1 description du dictionnaire EuroWordNet 72 B 2 description du dictionnaire EuroWordNet en format texte
385. t lt is a common DML element already declared in the DML schema gt lt language specific group gt lt This group has to be redefined in the schemas for the monolingual dictionaries It contains all the language specific information gt 1 Sch ma g n ral de Papillon 261 lt due to a bug in XSV redefinition is not implemented I change the content of the group article for validation lt group name language specific gt lt all gt lt group gt gt lt group name language specific gt lt sequence gt lt element ref d kun yomi minOccurs 0 maxOccurs 1 gt lt element ref d on yomi minOccurs 0 maxOccurs 1 gt lt sequence gt lt group gt lt element name kun yomi type string gt lt element name on yomi type string gt lt pronunciation element gt lt is a common DML element already declared in the DML schema gt lt pos element gt lt is a common DML element already declared in the DML schema gt lt l language levels element gt lt It has to be redefined into the language specific schemas gt lt element name language levels gt lt complexType gt lt sequence gt lt element ref d politeness minOccurs 0 maxOccurs 1 gt lt element ref d usage minOccurs 0 maxOccurs 1 gt lt element ref d reference minOccurs 0 maxOccurs 1 gt lt sequence gt lt comp
386. t lt DML definitions for the history file gt lt element history gt lt The history file contains the logs of the modifications performed on every element of the database A log is referenced with the DML history attribute gt lt element name history gt lt complexType gt lt sequence maxOccurs unbounded gt lt element ref d administration gt lt sequence gt lt attribute name creation date type d dateType use optional gt lt attribute name name type string use optional gt lt complexType gt lt element gt lt element administration gt a The element administration contains the administration information and the history of the changes performed on the element with the history attribute which references this element through this id attribute gt lt element name administration gt lt complexType gt lt sequence gt lt element ref d creation minOccurs 1 maxOccurs 1 gt lt element ref d modification minOccurs 0 maxOccurs unbounded gt lt element ref d revision minOccurs 0 maxOccurs unbounded gt lt sequence gt lt attribute ref d id gt lt complexType gt lt element gt lt type annotation gt lt to describe all the changes on one element of the database It indicates the name of the person which has changed the element and the 2 Sch ma XML de DML 253 date of the change It can contain some text f
387. t lt xsl template gt 4 3 4 Personnalisation du r sultat D utilisateur d finit ses pr f rences de pr sentation du r sultat avec une interface sp cialis e Les infor mations sont ensuite envoy es au serveur puis traduites en feuille de style CSS CSS 2 0 ou XSL FO XSL qui sera ensuite stock e dans l espace virtuel de l utilisateur puis utilis e pour afficher les r sultats de ses requ tes Pour chaque l ment d information l utilisateur peut pr ciser son style couleur police taille emplace ment Dans l exemple le mot vedette headword aura une taille double de la taille normale font size 2em les traductions anglaises eng seront en orange color orange les traductions fran aises fra en bleu color blue les traductions japonaises jpn en rouge color red et la m ta information meta en gris color gray L utilisateur ne veut pas visualiser les traductions malaises ms a et indique donc display none Voici la feuille de style CSS exprimant ces pr f rences de pr sentation headword font size 2em eng font family Arial sans serif color orange fra font family Helvetica sans serif color blue Jpn font family Osaka sans serif color red msa display none meta font family Times serif color gray 4 4 R daction des articles et contributions Lorsque les lexicographes r digent de nouveaux articles et que les autres utilisateurs
388. t lt element ref d domain gt lt element ref d bytes gt lt element ref d source gt lt element ref d legal gt lt element ref d comments gt lt element ref d cdm elements gt lt element ref d administrators gt lt element ref d volumes gt lt element ref d links gt lt sequence gt Annexe A sch ma XML pour DML It notes the languages content of headwords etc TE ionary ie monolingual lt attribute ref d history use optional gt lt attribute ref d history ref use optional gt lt attribute ame category type categoryType use optional gt lt attribute lt attribute lt attribute lt attribute lt attribute lt attribute lt attribute lt attribute lt attribute lt attribute lt complexType gt lt element gt lt element languages gt lt lists the languages present in a dict lt element name languages gt lt complexType gt ame hw number type po ame name type string ame owner type string EN A O O A ame creation date type d dateType use optional gt ame encoding type d encodingType use optional gt ame format type d formatType use optional gt sitivelnteger use optional gt ame installation date type d dateType use optional gt use optional gt ame nickname type string use optional gt use optional gt ame type type d dictType
389. t complexType gt lt Automaton structure gt lt DML element to represent a graph gt lt element name automaton gt lt complexType gt lt sequence gt lt element ref d nodes minOccurs 1 maxOccurs 1 gt lt element ref d arcs minOccurs 1 maxOccurs 1 gt lt sequence gt lt attribute ref xlink type fixed locator gt lt complexType gt lt element gt lt Function structure gt 2 Sch ma XML de DML 255 lt DML element to represent a function gt lt element name function gt lt complexType mixed true gt lt sequence gt lt element ref d arguments minOccurs 0 maxOccurs 1 gt lt choice gt lt element ref d value maxOccurs 1 gt lt element ref d valgroup minOccurs 0 maxOccurs unbounded gt lt choice gt lt sequence gt lt attribute name name type string gt lt complexType gt lt element gt lt DML element for arguments of a function gt lt It has to be redefined in schemas specific to the dictionaries de lt element name arguments gt lt complexType gt lt sequence gt lt complexType gt lt element gt lt DML element for groups of values of a function gt lt element name valgroup gt lt complexType mixed true gt lt sequence gt lt element name comment type string minOccurs 0 maxOccurs 1 gt lt element ref d value minOccurs 0 maxOccurs u
390. t mes de stockage d objets persistants Cela permit chaque membre du projet de stocker ses donn es comme il le souhaitait avec ses propres outils Les dictionnaires d application taient ensuite g n r s par extraction des donn es n cessaires dans une forme adapt e aux besoins Entre les deux les fichiers SGML taient charg s et transform s en objets pour tre utilis s avec le logiciel Exemples La version 1 5 du dictionnaire AlethDic de GSI ERLI LexiQuest depuis 1998 est encod e selon la structure GENELEX AlethDic se compose de 128 066 unit s morphologiques 85 446 unit s syntaxiques et 57 951 unit s s mantiques Il est stock dans un fichier au format SGML de 42 m gaoctets Les exemples des figures A 42 A 43 et A 44 sont tir s de ce fichier 58 A Contexte actuel de la dictionnairique lt Um_S id UM54070 catgram NOM sscatgram COMMUN autonomie 0UI usyn_1 US80176 gt lt Umg mf PG101 gt lt Lib gt semestriel lt Lib gt lt Umg gt lt fUm_S gt FIG A 42 unit morphologique semestriel de AlethDic lt Usyn id US80176 description D_SN gt lt Corresp_Usyn_Usem usem_cible NO_semestriel_SE1_PG101 gt lt Usyn gt FIG A 43 unit syntaxique semestriel de AlethDic lt Usem 1d NO_semestriel_SE1_PG101 appellation semestriel trait_sem_valpond_1 TSVP_OBJET_TS_classificateur_de_nom _C TSVP_PLUS_TS_SEMIOTIQUE_T gt lt Usem gt FIG A 44 unit s
391. t comparer les articles quivalents Les modules compl mentaires permettent de proposer de nouvelles fonctionnalit s aux utilisateurs ce qui enrichit le concept de dictionnaire Inconv nients Les interfaces de connexion aux ressources distantes doivent tre programm es ad hoc Les informations provenant de ces ressources ont leur propre format qui est toujours un format de pr sentation et jamais un format logique Elles ne sont donc pas analysables automatiquement et ne sont par cons quent utilisables que par des humains Les modules ne peuvent pas tre clients et fournisseurs en m me temps De plus l adaptation des inter faces wrappers de ces modules doit aussi tre faite la main 1 4 Personnalisation du r sultat des requ tes le FeM 1 4 1 Pr sentation Le serveur du FeM a t construit en reprenant la technique de DicoWeb avec des scripts CGI crits en Perl Il dispose donc d une recherche d un article par expressions r guli res Perl et d un acc s aux entr es pr c dentes et suivantes Il est disponible sur le serveur public initialement financ par l action SILFIDE AUF CNRS FeM Nous avons modifi la technique de DicoWeb pour la rendre plus r active Au lieu de s parer le formu laire HTML dans un cadre frame et le r sultat des requ tes dans un autre cadre le formulaire HTML est inclus dans la page du r sultat L utilisateur du FeM est donc toujours devant la m me page dont le conten
392. t de simples conventions de l auteur de la grammaire La r gle n 1 produit un article babel babel entry partir du mot vedette hwd et d un corps body La r gle n 2 produit un corps body partir d une liste de sens sense La r gle n 3 produit un sens partir d une d finition exps d une explication exp1 et d un domaine subj Les r gles n 4 et 5 produisent une explication exp1 partir d un texte entre parenth ses Les r gles n 6 et 7 produisent un domaine subj partir d un texte entre crochets Les r gles n 8 et 9 produisent une liste de sens sense partir de 2 sens sense s par s par un Cette grammaire est interpr t e ensuite par un compilateur Macintosh Common Lisp qui produit des objets LISP correspondant aux articles r cup r s 3 1 4 Exemple d article apr s r cup ration La figure A 33 montre le r sultat de la r cup ration de l article BABEL original apr s compilation avec H grammar Cet article BABEL apr s transformation est un objet LISP Toutes les informations sont marqu es ex plicitement Il est alors tr s facile de les r utiliser automatiquement pour produire de nouveaux ensembles 40 A Contexte actuel de la dictionnairique BABEL HWD COM BODY LIST SENSE EXPS Command EXPL file name extension SUBJ NIL SENSE EXPS Commercial Business EXPL Domain Name SUBJ Internet FIG A 33 article de BABEL apr s
393. t destin un lecteur humain L utilisateur peut dans un premier temps lire l article rapidement de mani re naturelle Il peut ensuite s il est attentif aux d tails de mise en page retrouver toutes les informations pr sentes dans la base DiCo notamment la formule s mantique ou le r gime Ce formalisme est tr s int ressant puisque partir des m mes donn es il permet de produire des res sources aussi bien pour des syst mes lexicaux que pour des dictionnaires d usage grand public De plus il permet de populariser la lexicologie explicative et combinatoire provenant de la th orie sens texte Nous avons ici un net progr s par rapport aux autres dictionnaires vus pr c demment qui n taient destin s qu un usage uniquement humain et ne pouvaient donc pas tre facilement utilisables par une machine sans transformation L utilisation d une base de donn e limite cependant la structuration des entr es en champs Il serait int ressant d utiliser un syst me de structuration plus labor du type XML afin de noter explicitement toute la structure des articles 1 2 6 Conclusion De cette revue de quelques dictionnaires usage humain il ressort que certaines informations ont une structure implicite Elles sont cod es par une pr sentation sp ciale styles polices ou couleurs diff rentes Cela ne pose pas de probl mes l humain qui peut tout de suite d duire la structure de la pr sentation Par contre u
394. t en y ajoutant le nom du contributeur et la date La feuille de style est ensuite stock e dans l espace virtuel du contributeur 4 3 3 Contribution sur les liens interlingues La contribution sur les liens interlingues est sp cifique car elle ne demande pas de r daction Il faut simplement relier deux lexies de langues diff rentes entre elles De plus les contributions sur les liens interlingues sont faites par des personnes aux comp tences diff rentes de celle des contributeurs sur les articles monolingues Ce sont pour la plupart des traducteurs ou interpr tes qui ont une bonne connaissance des deux langues qu ils veulent relier Pour la cr ation et la r vision des liens interlingues entre lexies une interface sp cifique voir figure D 8 a t programm e en Java en collaboration avec Magaly Drant Cette interface poss de trois fen tres principales La fen tre de gauche permet d afficher des lexies d une langue la fen tre de droite des lexies d une autre langue et la fen tre du milieu des axies repr sentant les liens entre ces deux langues File Edit Link Help French Anterlingual links Japanese UV Search Search Gloss Existing links gt Confirm link lt Existing links French Iinerlingual links Japanese table de chevet R4b FTN FIG D 8 interface java permettant de cr er des liens entre lexies Les liens entre l
395. t say they are separating ucun r sultat FIG A 21 l article abr ger du Oxford Superlex La figure A 21 montre l article abr ger et l interface du Oxford Superlex Le contexte de l article trouv s affiche dans la partie gauche de la fen tre L utilisateur clique ensuite sur l article qu il veut consul ter et celui ci s affiche dans la partie droite Discussion Cette application est une simple adaptation lectronique des dictionnaires imprim s Les seuls avantages qu elle rapporte sont la rapidit de recherche et quelques facilit s comme l historique des recherches Sur Macintosh les caract res ne sont pas encod s correctement La qualit des donn es consult es nous fait regretter les limitations de l application En effet on ne peut pas faire de recherche multidictionnaires rechercher un mot autre que le mot vedette pr sent dans le texte de l article ni rechercher un mot partir de sa prononciation 2 Outils de consultation de dictionnaires 29 2 1 3 Une application volu e MoBiDic Introduction MoBiDic MorphoLogic Bilingual Dictionary Prosz ky97 est une application d velopp e par la soci t hongroise Morphologic Cette application permet des recherches multidictionnaire Il est possible de consul ter entre autres 21 dictionnaires anglais hongrois dont le English Hungarian School Dictionary de 35 000 ar ticles 13 dictionnaires allemand hongrois dont le German Hungarian C
396. te nous expliquons les standards principaux utilis s dans la repr sentation des dictionnaires comme SGML Standard Generalized Markup Language puis les standards actuels comme Unicode et XML eX tended Markup Language qui nous ont paru int ressants pour la suite de nos travaux Enfin nous terminerons par une tude de travaux r cents en lexicographie et terminologie bas s sur XML comme les projet DHYDRO Descotte00a 00b et SALT SALT 8 A Contexte actuel de la dictionnairique 1 Notions du domaine 1 1 D finition des termes utilis s dans la these 1 1 1 Introduction Un dictionnaire est compos d un ensemble de volumes Un volume est un ensemble d articles tri s se lon un ordre sp cifique La liste ordonn es de ces articles constitue la nomenclature du dictionnaire L ordre utilis est g n ralement l ordre alphab tique de la langue des mots vedettes Un article est compos d un mot vedette et d un corps Un texte est compos de mots Ces mots sont les formes de surface des lemmes Les formes de surface ne correspondent pas toujours de fa on vidente aux mots vedettes du dictionnaire Par exemple un verbe n est jamais index selon ses formes conjugu es vais allais irai mais selon l infinitif aller un nom com mun dictionnaires pauvresse actrices est pratiquement toujours index selon son singulier dictionnaire pauvre acteur G n ralement les mots vedettes d une langue donn e sont le
397. teurs travaillent sur les m mes donn es et d autre part pour contr ler l avancement de la construction des ressources 1 3 3 Utilisation de modules externes Pr traitement de la requ te Avant de lancer la requ te sur la base lexicale il faut permettre l utilisateur d effectuer des pr traitements sur la requ te Ces pr traitements peuvent s av rer tr s utiles surtout lorsque l utilisateur ne ma trise pas la langue du ou des mots vedettes qu il recherche Les mots vedettes sont dans la plupart des cas des lemmes Il est parfois difficile d acc der au lemme partir d une forme de surface C est pourquoi il serait int ressant de pouvoir ignorer les diacritiques faire une analyse morphologique du mot vedette ou lancer une correction orthographique avant interrogation Actions associ es aux informations Lorsque le r sultat de la requ te est affich il nous para t int ressant de pouvoir associer des actions aux diff rentes informations pr sentes Certaines actions peuvent nous permettre de continuer naviguer dans la base par exemple en suivant des liens de traduction ou de synonymie Voici quelques exemples d actions associ es Associer un conjugueur un article repr sentant un verbe Associer un phon tiseur une prononciation Associer un dictionnaire de synonymes un autre dictionnaire pour cr er des liens de synonymie Annotation des donn es Tous les utilisateurs de
398. tif gt lt nd ul chat determ defini gnr masc pos 1 gt lt nd ul souris determ indefini gnr fem pos 1 gt lt nd gt 2 D finition du noyau de l environnement avec SUBLIM 139 Graphes La figure C 17 montre un graphe UNL repr sentant la phrase Monkeys eat bananas nonkey icl gt animal a generic eat icl gt action arm icl gt food present entr generic FIG C 17 exemple de graphe UNL La d finition de ce graphe se fait en XML se fait de la mani re suivante lt graph xmlns x1 http www w3 org 1999 xlink xl type extended gt lt nodes gt lt node xl type locator xl label n001 gt eat icl gt action present entry lt node gt lt node xl type locator xl label n002 gt monkey icl gt animal generic lt node gt lt node xl type locator xl label n003 gt banana icl gt food generic lt node gt lt nodes gt ares lt arc xl type arc type oriented xl from n001 xl to n002 gt agt lt arc gt lt arc xl type arc type oriented xl from n001 xl to n003 gt o0bj lt arc gt lt arcs gt lt graph gt La norme xlink XLink 1 0 est utilis e pour d crire les arcs Le type des arcs est soit orient type oriented soit bijectif type bijective L origine et l extr mit des arcs sont not s avec les identificateurs des n uds from n001 et to n002 Liens La d finition d un lien se fait en utilisant aussi la norm
399. tion 97 Enfin on trouve un pointeur vers l annotation elle m me not e par l attribut resource de l l ment lt body gt ici le fichier annot01 html La figure B 23 montre finalement le fichier xhtml annot 01 html qui repr sente le corps de l annota tion lt html xmlns http www w3 org 1999 xhtml gt lt head gt lt titre g n r automatiquement gt lt title gt Annotation of Partie B lt title gt lt head gt lt body gt lt p gt Voici une lt strong gt annotation lt strong gt port e par le titre de cette section 3 3 3 L annoteur d Amaya lt p gt lt body gt lt html gt FIG B 23 document XML repr sentant une annotation La figure B 24 montre l annotation telle que l utilisateur la voit sur son document Discussion Le syst me d annotations d Amaya r pond pratiquement tous nos besoins On peut regretter cependant l absence de gestion de groupes d utilisateurs donc l impossibilit de partager des annotations 98 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc Attributs Pr sentation Amaya Amaya le navigate impl mente depuis peu un syst d annotations ou encore stocker s en local sans se connecter au web xhtml KHTML 1 0 et d crites pa RDF Resource Description m tadonn es RDF permet une in informations sur le Web RDF faci XPointer XML Pointer Langual langage utilis comme base pour bas
400. tionary axie gt lt si Saxicour pointe sur axie OK gt lt xsl if test Saxicour string attribute id gt OK lt xsl if gt lt xsl for each gt lt xsl template gt lt xsl stylesheet gt Nous voulons v rifier maintenant la contrainte de coh rence locale suivante sur une lexie l l ment lt axies gt ne doit comporter qu un lien vers une axie S il y a deux liens c est une erreur Il faudra ensuite soit fusionner les deux axies soit cr er une deuxi me lexie Cette contrainte porte sur toutes les lexies du dictionnaire French elle compte le nombre de liens de l l ment lt axies gt lt xsl stylesheet version 1 0 gt lt application du mod le sur les lexies gt lt xsl template match lexie gt lt si la lexie a plusieurs refaxie rreur gt lt xsl 1f test count axies refaxie gt 1 gt Error The lexie amp lt a href lt xsl value of select id gt lt xsl value of select headword text gt amp lt a gt is linked to various axies Assif lt xsl template gt lt xsl stylesheet gt Cette feuille de style produit un fichier d erreur avec des liens activables vers les lexies posant probl me 146 C Sp cification d un environnement de gestion et consultation de bases lexicales et dictionnaires 3 Paradigme de construction coop rative Dans ce chapitre nous appliquons le principe de d veloppement coop ratif de LINUX la construction de ressourc
401. tionnaire francais anglais malais A Base Format ARIANE Format UNL ERA Lexicale Dictionnaire Dictionnaire Multilingue frangais UNL anglais UNL transfert lexical Indexage Format RTF DU d indexage Format Word Pour compl ter et r viser les donn es FIG B 10 solution mise en uvre 2 1 2 Structure interne de la base La structure de la base n est pas fig e ce qui nous permet de la faire voluer facilement en fonction des besoins Nous pouvons tout moment int grer de nouveaux dictionnaires ou g n rer automatiquement des dictionnaires pour diff rents syst mes de d conversion traduction comme ARIANE Boitet82 ou le syst me DeCo utilis l Universit des Nations Unies par le centre UNL UNL97 pour le japonais et l anglais La base lexicale a t programm e en Macintosh Common LISP Object System MCL Keene89 Steele90 Ce langage objets nous a permis de d finir la structure interne en suivant un mod le objets La figure B 11 montre trois classes d objets li s entre eux La classe appel e Vocable est similaire une entr e de dictionnaire papier La classe appel e Acception fran aise repr sente une acception fran aise selon le point de vue du GETA 84 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc Chaque UW UNL est repr sent e par une instance de la classe Acception UNL
402. tique Il s agit d articuler un mod le de repr sentation s mantique des outils permettant de faire l aller retour entre un document en langue naturelle et ce mod le un syst me d information o les donn e chang es sont ind pendantes des langues Le mod le d velopp dans le projet UNL est fond sur une repr sentation interlingue sous forme de graphes s mantiques d crivant la structure abstraite des nonc s partir de laquelle on peut g n rer des textes dans toute langue disposant d un d convertisseur Il existe actuellement des g n rateurs exp rimentaux couvrant 14 langues et d velopp s dans 15 pays diff rents L axe principal de recherche a port dans un premier temps sur la d finition du langage d change UNL et sur sa validation par le d veloppement de d convertisseurs outils r alisant la d conversion ou traduction automatique d un document UNL en un document en langue naturelle La macrostructure de la base est constitu e d une part pour chaque langue du projet d un dictionnaire bilingue associant les mots de cette langue avec les unit s lexicales de l UNL que l on appelle UW Univer sal Words et d autre part d une base regroupant toutes les UW et d une base de relations reliant des couples d UW Une telle relation porte un poids qui indique sa fr quence d apparition dans les corpus La base de relations est appel e Knowledge Base Cette base ainsi
403. tiquement comme cat gorie adj au lieu de a pour les adjectifs il peut cr er un ensemble virtuel de toutes les lexies envoy es par ce contributeur et corriger la faute de fa on syst matique D autre part les ensembles virtuels peuvent servir pour construire un lexique et ensuite l exporter selon un format particulier Par exemple exporter la liste des verbes pronominaux fran ais 186 D Application Papillon projet de base lexicale multilingue sur Internet Voici la liste des commandes auxquelles le syst me doit r pondre cr er une lexie fusionner deux lexies cr er une axie fusionner deux axies cr er un ensemble virtuel de lexies cr er un ensemble virtuel d axies 3 3 R cup ration La r cup ration de ressources existantes se fait en deux tapes en suivant un principe de tra abilit utile pour la notori t des contributeurs et aussi pour la d pollution ext rieure comme dans l exemple pr c dent Tout l ment d information doit tre tra able une granularit d finie par la structure XML chaque l ment XML peut porter un attribut qui r f rencie l historique de ses modifications La premi re tape consiste convertir le format et la structure des ressources Le format d origine est converti vers le format XML DML La structure est r cup r e et un maximum d informations est balis e de fa on pouvoir ensuite la r utiliser Cette tape s effect
404. u est modifi dynamiquement chaque nouvelle requ te Un progr s par rapport DicoWeb est la possibilit offerte l utilisateur de personnaliser le r sultat de ses requ tes Avant de consulter le serveur l utilisateur s lectionne dans la partie gris e l aide des boutons les l ments d information qu il souhaite voir appara tre dans le r sultat de sa requ te Ainsi si l utilisateur est bilingue malais fran ais et s il n est pas int ress par les traductions anglaises il lui suffit de d cocher les cases correspondant aux traductions anglaises comme dans l exemple de la figure B 8 1 4 2 Discussion Avantages Le r sultat est param trable dynamiquement par l utilisateur Inconv nients L utilisateur ne peut param trer qu une partie du r sultat en s lectionnant les cat gories d information qu il souhaite afficher ou non Il n est pas encore possible de changer la pr sentation couleurs styles ni la structure du r sultat L utilisateur param tre son r sultat chaque session Il ne peut pas encore garder ses pr f rences pour une nouvelle session Pour cela il semble n cessaire qu les utilisateurs s inscrivent sur le serveur et que ce dernier puisse les identifier chaque nouvelle session 1 Exp riences sur la consultation en ligne essal e se nm pengujian preuve ujian percubaan tentative percubaan ouvrage karangan esei l essai dim percuba
405. u partie des utilisateurs de la base Utilisateurs et groupes Les utilisateurs de la base ont chacun un compte o sont stock s leurs profils leurs pr f rences leurs contributions et leurs annnotations Ils peuvent ensuite constituer librement des groupes en fonction d int r ts ou d activit s communs Au d part la base contient trois groupes pr d finis L univers regroupe tous les utilisateurs de la base Le groupe des administrateurs administre le serveur et le base lexicale Le groupe des lexicologues contr le la distribution du travail faire et r vise les contributions re ues avant de les int grer la base Syst me de points pour les contributions Pour inciter les utilisateurs contribuer nous voulons mettre en place un syst me de points pour les contributions D une part les utilisateurs peuvent contribuer localement sur un article et d autre part ils peuvent envoyer leurs propres ressources qu ils ont d velopp es localement chez eux Chaque utilisateur qui envoie ses contributions la base une contribution valid e gagne un certain nombre de points Chaque mois un tableau r compense les contributeurs les plus efficaces Affectation des points en fonction des profils Il convient de donner d autant plus de points un contributeur que ses contributions sont nombreuses et pertinentes Une solution consiste valuer une contribution en fonction de son type difficult et de sa qualit note d
406. u sous ensemble Pour pouvoir manipuler et fusionner certaines parties de ressources nous avons besoin d un formalisme commun de repr sentation de dictionnaires Il existe des standards comme la TEI Ide95 Johnson95 MARTIF Melby94 ISO99b GENELEX EAGLES GENELEX93 et GENETER visant l universa lit mais peu de ressources lexicales r elles les impl mentent Nous avons donc fait un travail plus pragmatique consistant identifier les informations apparaissant dans les ressources accumul es ainsi que leur signification et les nommer de fa on unique dans l espace de noms DML Cet ensemble hi rarchis est appel Common Dictionary Markup et provient principalement de l exa men d taill des dictionnaires FeM DEC DHO OUPES NODE EDict de la base ELRA M MODATA et du chapitre 12 de la TEI concernant les dictionnaires Il contient les l ments les plus courants trouv s dans ces ressources savoir le mot vedette la prononciation la cat gorie grammaticale le vocable la lexie l tymologie les exemples les tiquettes les gloses etc Ces l ments ont toujours la m me s mantique Par exemple lt dml entry gt r f re toujours un article et lt dml headword gt au mot vedette de l article Pour certains l ments ayant des listes ferm es de valeurs nous d finissons pour chaque langue une liste repr sentant l intersection des valeurs et des r gles de conversion pour chaque ressource Un e
407. ucture et la microstructure des dictionnaires qu il veut construire Il r partit ensuite le travail de r daction des articles entre les lexicographes et le r vise Ils g re leurs apports et leurs modifications Il distribue les points aux contributeurs en fonction de la qualit et la quantit de leurs contributions Le lexicographe Il participe la construction des dictionnaires Il r dige le corps des articles en ditant une partie du dictionnaire Il apporte une contribution compl te pour chaque article Il doit respecter la microstructure d finie par le ou les lexicologues Il annote des articles et partage ses annotations Le lexicographe gagne des points pour chaque article r dig et accept Le contributeur Il participe aussi la construction des dictionnaires mais en g n ral de mani re partielle Ils r dige une petite partie des articles tablit ou modifie des liens monolingues ou interlingues entre diff rents articles Il annote des articles et partage ses annotations Pour toutes ses contributions il gagne un certain nombre de points en fonction de son profil et de la qualit de ses contributions Le consulteur Il consulte la base en tablissant des requ tes et en personnalisant leur r sultat Il n a pas le droit de modifier ces ressources mais il peut les annoter et partager ses annotations Les consulteurs peuvent tre aussi bien des humains que des machines Ils visualisent et naviguent dans plusieurs
408. uctures que l utilisateur a d finies avec les langages LEXARD et LINGARD II comprend un v rificateur de coh rence sur toute la base Pr sentation des informations l utilisateur Le fonctionnement de cette architecture est bas sur l aller retour entre les diff rents niveaux Une requ te sera formul e au niveau pr sentation puis traduite en une structure qui sera elle m me traduite en une requ te au niveau BD V rificateur de coh rence Au niveau interne en plus des manipulations de structures SUBLIM comprend un v rificateur de coh rence permettant d laborer des contraintes d finies par des linguistes sur les dictionnaires Nous mon trons ici un exemple de contrainte de coh rence globale d finie au niveau de la base lexicale Dans l exemple la base lexicale est compos e du dictionnaire French et du dictionnaire Pivot Nous montrons dans la figure C 9 une partie de la structure du dictionnaire French def linguistic class lexie feature structure id integer headword string government pattern government lexical functions set of function examples set of example axies set of refaxie def linguistic class refaxie link source French lexie target Pivot axie FIG C 9 microstructure du dictionnaire French Nous montrons dans la figure C 10 une partie de la structure du dictionnaire Pivor Nous voulons v rifier maintenant la contrainte de coh rence g
409. ucune programmation Cependant nous ne pourrions pas fusionner les informations renvoy es par les diff rents outils 4 Coop ration entre applications 103 FEM essai essal iesen 2 m testing pengujian preuve test ujian tral percubaan tentative try percubaan ouvrage essay karangan esei l essai on trial dim percubaan sedang diuji p riode d essai FIG B 28 article essai du FeM dans l application Sherlock 104 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc 5 Conclusion cahier des charges d un environnement unifi Apr s avoir explor plusieurs aspects du traitement des dictionnaires comme la consultation en ligne la construction coop rative et de nouvelles directions pour la consultation et la coop ration entre applications nous sommes maintenant en mesure d laborer un cahier des charges pour un environnement complet de cr ation manipulation et consultation de dictionnaires multilingues h t rog nes Le cahier des charges est diff rent de celui d une entreprise sur deux aspects principaux le temps et les co ts Les recherches pour un nouvel outil ne sont pas limit es par le temps car il n y a pas le m me souci de rentabilit Sans contrainte temporelle on peut donc attacher plus d importance la conception d un tel environnement L environnement devra pouvoir tre capable de r sister au temps c est d
410. ue D ts BY a Fe lt heiretsujoshi connective postposition gt lt enumeration value We 1 EH Fal m lt juntaijoshi nominalisation postposition gt lt enumeration value TE dE ENT i gt lt hojod shi complementary verb gt lt enumeration value TE Bt a Gal Le lt hojokeiy shi complementary adjective gt lt enumeration value tR EN RTE Far gt lt makuraji head word gt lt enumeration value EX An MES lt rengo mot valise gt ERE lt enumeration value AH gt lt t ku clause gt lt enumeration value 1 MES lt restriction gt lt simpleType gt lt redefine gt KI Special elements of Papillon Japanese schema gt lt kun yomi element gt lt I lement specific to the Japanese language note the writing of the kanjis used in the headword gt lt element name kun yomi type string gt lt on yomi element gt lt lement specific to the Japanese language note the writing of the kanjis used in the headword gt lt element name on yomi type string gt lt l numerical specifiers gt lt 1 Here are defined the numerical specifiers of the Japanese language It has to be checked by Francis Bond Yves Lepage Jim Breen etc Specifiers are no longer an element They are noted as values of the lexical function synt gt lt simpleType name numSpecifiersType gt lt restriction base string gt 27
411. ue on construit un dictionnaire strictement monolingue au format DiCo de Polgu re et Mel tchuk Polgu re00 o l unit essentielle est la lexie sens de mot avec 174 D Application Papillon projet de base lexicale multilingue sur Internet une description tr s riche et syst matique collocations fonctions lexicales exemples etc permettant des usages fins et vari s On relie les lexies dans un pivot central de liens interlingues dits aussi acceptions interlingues ou axies en utilisant pour cela les quivalences traductionnelles attest es par les sources disponibles Ces axies ont donc un statut plus linguistique que conceptuel et sont motiv es de fa on pragmatique et testable ce qui vite les probl mes de construction d ontologie 1 3 Points forts du projet Le projet pr sente au moins neuf points forts 1 L architecture de la base lexicale est sym trique pivot N dictionnaires monolingues acc d s par vocables et par lexies sens de mots et un ensemble d axies liens interlingues On aimerait que les dictionnaires soient consultables de fa on plus riche ex trouver les mots masculin en ion Les langues de d part sont le fran ais le japonais l anglais utilis pour lier les dictionnaires existants et le tha Cette architecture rend possible le point suivant 2 De la base il est possible d extraire des dictionnaires bilingues ou multicibles usage humain par exemple au f
412. ue selon la m thode R CUPDIC La deuxi me tape consiste r partir chaque ressource convertie en lexies et axies et int grer ensuite les lexies et les axies dans la base lexicale Cette tape se fait automatiquement par le syst me l aide d un script de commandes PRODUCDIC propre chaque ressource Voici un exemple concret de r partition sur le FeM apr s r cup ration pour tous les articles du FeM for all entry in FeM do pour toutes les cat gories syntaxiques for all sense in entry do pour tous les sens francais for all sensel in sensel sense do cr er une lexie francaise create obj MaFra from entry cr er une axie reli e la lexie MaFra create obj MonAxie from MaFra pour tous les sens anglais for all eng in eng sensel do cr er une lexie anglaise MaEng create obj MaEng from sensel relier l axie la lexie MaEng link obj MonAxie MaEng stocker la lexie dans la base store database MaEng stocker la lexie MaFra dans la base store database MaFra stocker la lexie MaFra dans la base store database MonAxie 3 Sp cifications externes 187 La fonction store database n est pas encore impl ment e Il est possible dans un premier temps d ef fectuer la r partition en stockant les objets r sultats dans un fichier qui sera ensuite converti en XML DML puis envoy au serveur Papillon Le syst me assur
413. uence gt lt attribute ref d resource gt lt complexType gt lt element gt lt refsynset element gt lt Represents a synset corresponding to the axie gt lt eg synset for murder lt refsynset xlink href 00143589 gt 00143589 04 n 03 murder 0 homicide 0 slaying 0 013 00142607 n 0000 00143925 n 0000 00144191 n 0000 00145467 n 0000 00145676 n 0000 00808183 n 0000 00809697 n 0000 00812126 n 0000 00812230 n 0000 00812369 n 0000 00812446 n 0000 00812548 n 0000 00812622 n 0000 unlawful premeditated killing of a human being lt refsynset gt gt lt element name refsynset type d refType gt lt NTTsemcat element gt lt List of Nippon Telegraph and Telephone semantic categories corresponding to the axie gt lt element name NTTsemcat gt lt complexType gt lt sequence minOccurs 0 maxOccurs unbounded gt lt element ref d refsc gt 2 Sch ma du volume Papillon axies 271 lt sequence gt lt attribute ref d resource gt lt complexType gt lt element gt lt refsc element gt lt Represents a semantic category corresponding to the axie gt lt element name refsc type d refType gt lt NTTsemcat element gt lt List of LexiGuide concepts from LexiQuest corresponding to the axis gt lt element name LexiGuideConcepts gt lt complexType gt lt sequence minOccurs 1 maxOccurs unbounded gt
414. ular Expression lt lt pr c dent suivant gt gt thin mang orthographe oktogkat orthographe nf Entry 1 forme crite spelling quelle est P de how do you spell avoir une bonne mauvaise to be good bad at spelling 2 Scol mati re spelling not countable tre bon Look up en to be good at spelling avoir une bonne note en to have a good mark GB ou grade US for spelling brtograt FIG B 6 Interface Web de DicoWeb Il peut avant de consulter les dictionnaires envoyer le mot qu il vient de taper 4 un analyseur morpholo gique en cochant la case correspondante S il clique sur les boutons previous ou next des parties OHD ou NODE il pourra consulter les entr es pr c dentes et suivantes correspondant dans ordre alphab tique a celles affich es Dans un souci de clart nous fixons au d part une seule couleur ainsi qu une police diff rente pour chaque langue qu elle soit source ou cible et cela pour tous les dictionnaires L utilisateur s habituera ainsi a ce mode de repr sentation Pour construire nos interfaces nous nous effor ons de suivre les principes cognitifs d finis par Jo lle Coutaz et son quipe Coutaz88 76 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc 1 2 4 Fonctionnalit s originales Recherche de l entr e Selon les langues s lectionn es le script consulte les dictionnaires correspondants Par exemp
415. ulation de manuels d indexage A l poque l indexation directe dans un dictionnaire sous XEDIT interagissant avec ATLAS tait cependant tr s lente et donc peu utilis e Il serait tr s utile tel quel Seule l int gration est revoir 4 4 Construction sp cialis e pour des dictionnaires d usage l outil DE CID 4 4 1 Introduction Le projet de recherche NADIA DEC S rasset 97a 97b 1994 1996 r alis en collaboration entre le GETA et le GRESLET d partement de linguistique et traduction de l universit de Montr al et soutenu par le r seau LTT de l AUPELF UREF avait pour but l informatisation du Dictionnaire Explicatif et Com binatoire du Fran ais Contemporain DEC Au d part le dictionnaire tait disponible sous forme de fichier Word correspondant la version im prim e Mel tchuk92 Ce projet a permis de r cup rer le DEC vers un format refl tant sa structure interne de mani re plus explicite ce qui a ensuite permis de reconvertir ce dictionnaire vers diff rents formats cibles Un de ces formats est associ un diteur sp cialis DECID lui aussi d velopp par Gilles S rasset S rasset96 97c dans le cadre du m me projet cet gard le projet NADIA DEC se distingue des autres projets d informatisation du DEC qui se basent a priori sur une structure informatique simplifi e et qui n informatisent que le sous ensemble de donn es commun entre le DEC et cette structure Le DEC
416. ument qui ne respecteraient pas la structure initiale La bijection entre la base lexicale et le client se fait alors entre le document XML de la base et le document RTF dit avec Word La technique est aussi valable avec tout autre diteur utilisant un format structur qui puisse tre g n r facilement en mode texte par exemple Cette transformation peut par exemple se faire avec le programme LISP utilis dans Mangeot97 Le tableau C 7 montre un exemple de conversion de quelques l ments XML vers leur quivalent RTF Voici l en t te du fichier RTF qui sera utilis pour les l ments convertis rtfl iso deff8 deflang1033 fonttbl f0 froman fcharset77 fprq2 Tms Rmn d finition des polices f 1 fnil fcharset2 fprq2 Symbol 4 Int gration des outils de manipulation construction et consultation de dictionnaires 167 Base Lexicale Serveur programme LISP F Internet v diteur Word Client Document RTF FIG C 22 transformation et dition d un document rtf XML RTF avant conversion apr s conversion lt headword gt meurtre lt headword gt par pard plain s15 f8 meurtre lt pronunciation gt meu rtr e lt pronunciation par pard plain s16 f3 meu rtr e par pard plain s17 V9 n m lt example gt La m sentente pourrait tre le par pard plain s18 f8 La m sentente mobile du meurtre lt example gt pourrait tre le mobile du meurtre lt span gt
417. ur cette langue et aussi des liens de traduction entre sa langue et la nouvelle langue Les personnes navigant sur le Web et les touristes ont besoin d informations minimales pour pouvoir d coder quelques l ments de texte dans une langue inconnue Tous ces utilisateurs acc deront principalement la base via un navigateur Web Le serveur Web doit donc r pondre aux requ tes des utilisateurs via un serveur http Les temps de r ponses aux requ tes simples recherche d un article par son mot vedette ne doivent pas exc der une demi seconde pour que le serveur puisse tre utilisable La base lexicale peut tre aussi consultable directement par des applications Celles ci peuvent se connecter au serveur via les diff rents protocoles disponibles http ftp telnet Dict mail Les besoins des applications peuvent tre tr s divers Une application de traduction automatique peut se connecter au serveur de la base lexicale pour le traitement d un mot inconnu en cours de traduction Le temps de r ponse doit tre tr s bref pour ne pas g ner le processus Par contre une application utilisant un dictionnaire se mettant jour en t che de fond n a pas besoin d une r ponse imm diate 2 4 3 Ouvertures possibles d autres modules Notre serveur doit pouvoir s ouvrir vers d autres modules ext rieurs permettant d aider les utilisateurs lors de la consultation de la base en amont ou en aval Nous souhaitons r utiliser des lemmatise
418. ur eG wR cae ne m an 184 3 2 1 Description des structures 184 3 2 2 Principe de poids sur les l ments 185 3 2 3 Manipulation des structures ee 185 3 3 R cip ration ka ee a Ee ES ee eee oa eee ES a 186 3 4 Comsultationm ise ke de adm dons ie ne we Re ae a Ob taa ne Gow 187 Table des mati res vii 4 Analyse g n rale et impl mentation 188 4 1 D finition des structures avec DML 188 4 1 1 Organisation des sch mas XML 188 4 1 2 Macrostructure des dictionnaires 189 4 1 3 Microstructure des dictionnaires 192 4 2 Impl mentation du serveur 197 4 2 1 Architecture g n rale du serveur 197 4 2 2 Organisation de la base de donn es 198 4 2 3 Utilisation de la base lexicale 199 4 3 Impl mentation des interfaces 199 4 3 1 Consultation de la Das 4 8 ad ue BUS ee Na ae 199 4 3 2 Contribution sur les articles monolingues 200 4 3 3 Contribution sur les liens interlingues 200 4 3 4 Pseudo diteur structur ee 201 4 3 5 diteur structur 4 4044 202 4 3 6 Interfaces
419. ur permettre de r viser le vocabulaire d une le on en particulier 2 Am lioration des m thodes de construction 89 La structure des articles de Nihongo est une simplification de celle utilis e pour les lexies de la base DiCo Chaque article est en fait une lexie Nous pouvons donc avoir plusieurs articles ayant le m me mot vedette si les sens qu ils repr sentent sont diff rents Pour la traduction du mot vedette dans l autre langue nous n indiquons pas la traduction directement mais l identificateur de la lexie correspondante La figure B 16 repr sente un exemple d article du dictionnaire Nihongo fran ais lt lexie id maison 1 basic yes indexer Mathieu Mangeot date Fri Oct 20 19 3 1 46 MET DST 2000 status a r viser gt lt headword nb 1 gt maison lt headword gt lt pos gt nom commun lt pos gt lt jpn gt lt refjpn href Ex WSL pA lt lesson number gt 1 lt lesson number gt lt lesson date gt 20 10 00 lt lesson date gt lt lexie gt FIG B 16 article du dictionnaire Nihongo francais Chaque lexie a un identificateur unique id utilis pour les liens Nous notons le mot vedette avec l l ment lt headword gt la cat gorie grammaticale avec l l ment lt pos gt les traductions japonaises avec l l ment lt jpn gt Chaque traduction japonaise est en fait un lien vers une lexie japonaise not e avec l l ment lt refjpn gt Nous notons ensuite des informations li es l
420. urs comme lors des exp riences de la partie B et connecter tout autre module suscceptible d aider la consultation Une API sera disponible afin d ajouter des modules mais pour l instant aucun module sp cifique n est pr vu 3 Sp cifications externes 181 3 Sp cifications externes 3 1 Serveur Papillon 3 1 1 Sc narios type Accueil La figure D 4 montre la page d accueil du serveur Papillon Lorsque les utilisateurs se connectent pour la premi re fois ils doivent s enregistrer dans la base en cliquant sur le menu de gauche Lors des sessions suivantes ils doivent s identifier en cliquant sur le menu de gauche Ensuite les utilisateurs choisissent une section dans la barre des menus horizontale en haut La sec tion informations contient l archivage de la liste de distribution du projet Papillon la section consulta tion permet de consulter les dictionnaires de la base Papillon et la section dition permet de r diger de nouveaux articles ou de contribuer localement sur des articles Les parties sont pour l instant en cours de d veloppement Consultation Les utilisateurs qui consultent la base Papillon ont acc s l tat actuel de ce qui est disponible dans la base Papillon Ils ditent leurs pr f rences gr ce une interface sp cialis e r pondant API de personna lisation d crite en partie C Elles sont traduites ensuite en feuilles de style XSLT ou CSS puis stock es sur le serveur Pa
421. us complexe comme le DEC il n est pas possible de d composer tous les diff rents l ments de l article en champs s par s 2 Outils de consultation de dictionnaires Enter query How many cos A Looking for Truncation Term Base All Fields Abbreviation Author Collection ID Number Construction CI View HitList in List Box Native display FIG A 28 interface Web de la base terminologique EuroDicAutom Document 2 Prev Next HitList Query Options FeedBack Terminology Office European Commission Brussels BTB Common Customs Tariff TDCTA 0086204 conventions CEN rolling stock TRd Unknown CM TARIF DOUANIER NOTEX CE 86 09 A CUSTOM TARIFF NOTEX CE 36 00 A FIG A 29 terme voiture de la base Eurodicautom 2 2 5 Conclusion En g n ral les applications comme les serveurs Web de consultation de dictionnaires ne proposent pas de recherches multilingues De plus s ils font des recherches dans plusieurs dictionnaires ce sont presque toujours des dictionnaires anglais autre langue Il est donc tr s difficile de trouver de bons dictionnaires bilingues sans utiliser l anglais Les outils d aide la recherche comme les lemmatiseurs les correcteurs orthographiques sont tr s rare 35 36 A Contexte actuel de la dictionnairique ment utilis s pourtant on les trouve dans d autres applications Les options de recherche volu es comme les expressions r guli res n
422. utils Enfin nous terminerons en d taillant la m thodologie de construction de ces dictionnaires en diff rentes tapes 172 D Application Papillon projet de base lexicale multilingue sur Internet 1 Pr sentation du projet Papillon 1 1 Historique et buts du projet Le projet Papillon Papillon a t lanc en janvier 2000 par une coop ration entre le GETA CLIPS et le National Institute of Informatics NID japonais avec le support actif de l Ambassade de France Tokyo Depuis des partenaires tha landais Kasetsart University amp NECTEC Bangkok se sont joints au projet et un doctorant du GETA CLIPS sp cialiste de l informatisation du lao travaille l int gration de cette langue Le projet devrait s tendre court terme au vietnamien et au malais La premi re motivation de ce projet est le manque de ressources lexicales entre le fran ais et le japonais gratuites et disponibles au format lectronique La seconde est que les dictionnaires existants indiquent rarement la fois l criture japonaise en kanji et son criture en alphabet romain romaji Les articles japonais omettent aussi souvent d indiquer les sp cificateurs num riques Ce manque est galement criant pour bien d autres langues importantes mais le japonais est particuli rement int ressant En troisi me lieu le manque de ressources bilingues est aussi un obstacle au d veloppement d applica tions linguistiques pour lesquelles exi
423. uvelle lexie Par exemple un premier utilisateur entre le mot fran ais aimer et la traduction japonaise suki dans le sens de like Lorsqu un deuxi me utilisateur entrera le m me verbe fran ais aimer avec la traduction japonaise aisuru dans le sens de love il forcera l insertion de l entr e et un nouveau num ro unique sera affect ces lexies Le dictionnaire sera alors compos de deux lexies pour le verbe aimer 90 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc Indexage de Nihongo GETA Interface de Mathieu ee maison Kanji E Furigana 55 Romaji fuchi Indicateur Indicateur Cat gorie Cat gorie nom commun Date de N de Lee Er le on CR JIMM AA x Forcer l insertion de l entr e LJ FIG B 17 interface d indexage en ligne du dictionnaire Nihongo 2 2 4 Discussion Avantages Cette m thode est simple et efficace Les utilisateurs n ont besoin que d un navigateur Web pour Puti liser Le formulaire HTML permet de contr ler la structure des articles Les informations de gestion per mettent de contr ler la qualit du dictionnaire Inconv nients Nous n avons pas pour l instant d velopp d interface de r vision de modification ou de suppression d un article Ces manipulations se font la main directement avec un diteur de texte sur les fichiers Cette m thode demande donc plus de d veloppements pour tre vraim
424. v rifie si le style suivant est un style autoris par la grammaire et si le style contient une liste ferm e de valeurs elle applique la macro v rification 2 Am lioration des m thodes de construction 87 CO1101 rtf e IFO AE EEEF Caaba Caaba Y Caaba equ gt Kaaba f aq Selection erron e pr 4 Kaaba dr Pr f 4 La s lection n est pas valide Caaba icl gt building ES batiment Poursuivre la v rification pra Kaaba Y cabs se cab F FEM 4 FIG B 15 message d erreur suite a la v rification d une cat gorie Apr s avoir v rifi ses entr es le lexicographe enregistre le fichier en format RTF et le renvoie au lexicologue par disquette ou par r seau 2 1 4 Discussion La technique de construction du dictionnaire fran ais malais a t am lior e nous avons index 20 000 UW en 7 mois 6 indexeurs temps partiel travaillant chez eux nous pouvons g n rer les fichiers RTF partir de la base existante nous proposons des outils d aide l indexage qui permettent au lexicographe de v rifier la structure d un article Avantages Nos outils ont t con us pour r pondre la demande du projet UNL Nous les avons aussi test s avec les donn es du projet FeT L objectif de ce projet diter un dictionnaire trilingue fran ais anglais thai est diff rent de celui du projet UNL Les outils ont pu tre utilis s sans aucune modification
425. va D Application a Papillon projet de base lexicale multilingue sur Internet D Application Papillon projet de base lexicale multilingue sur Internet 171 Introduction Nous disposons maintenant d outils pour d finir et utiliser un environnement de manipulation cr ation et consultation de dictionnaires h t rog nes Nous allons dans cette partie appliquer nos m thodes et outils un cas concret le projet Papillon Ce projet vise construire une base lexicale multilingue avec une architecture en toile autour d un dictionnaire pivot d acceptions interlingues stocker les donn es dans des base de donn es puis en extraire des dictionnaires personnalis s Les int r ts de cette partie sont multiples Nous voulons d montrer l efficacit de nos outils dans une r alisation concr te pour le projet Papillon ajouter l aspect collaboratif dans la construction de dictionnaires et aussi faire progresser diff rents aspects linguistiques Ces aspects sont principalement l utilisation de la lexicographie explicative et combinatoire large chelle et appliqu e plusieurs langues l tablissement de liens interlingues non bas s sur des concepts et relier ces liens d autres th ories ext rieures Nous pr senterons d abord l historique les buts et l architecture g n rale du projet Papillon Nous d finirons ensuite les macrostructures et microstructures des dictionnaires du projet l aide de nos o
426. vant plus petit l analyse des documents XML L exemple pr c dent en SGML est encod en XML de la fa on suivante semaines lt jours feries gt lt jour num 6 gt samedi lt jour gt lt jour num 7 gt dimanche lt jour gt lt jours feries gt lt semaine gt Un nombre croissant de normes ont d ja t tablies autour de XML d finition d espaces de nom avec Namespace XML Namespaces description de structures de documents avec les DTD D finition de Type de Document et XML Schema XML Schemas 5 Standards li s la repr sentation de dictionnaires 57 d signation de parties de documents avec XLink Xlink XPath XPath et Xpointer XPointer transformation de documents avec XSLT eXtensible Stylesheet Language Transformation XSLT 1 0 ensembles d appels de fonctions standard de manipulation de documents XML avec DOM Document Object Model DOM et SAX Simple API for XML SAX 2 0 m tadonn es sur les documents XML avec RDF Resource Description Framework RDF pr sentation de documents XML avec les feuilles de style XSL FO Formatting Objects XSL CSS Cascading Stylesheet Language CSS 2 ou encore DSSSL Document Style Semantics and Speci fication Language DSSSL ISO96 XML est l heure actuelle le format id al pour repr senter le contenu des dictionnaires Les nombreuses normes qui sont d finies autour d XML ainsi que le nombre de plus en plus impo
427. vec les clients 2 2 Passage de SUBLIM XML Dans le cahier des charges nous avons choisi XML comme format de repr sentation interne de nos donn es Dans cette section nous allons donc red finir le syst me SUBLIM en XML en ajoutant des infor mations utiles la gestion pour mettre en place un environnement de manipulation cr ation et consultation de bases lexicales h t rog nes multilingues Lors de l impl mentation on pourra stocker tout ou une partie des documents XML repr sentant ces bases lexicales dans des bases de donn es classiques pour acc l rer l acc s aux informations Toute la base devra cependant rester disponible sous forme de fichiers XML pour garantir la lisibilit et la portabilit des donn es 2 2 1 L espace de noms DML Pour noter nos documents XML nous utiliserons un espace de noms XML XML Namespaces Les es paces de noms permettent de qualifier les l ments et attributs utilis s dans les documents XML de mani re unique en leur associant un espace de noms identifi par une URI Uniform Resource Identifier Notre espace de noms est appel DML pour Dictionary Markup Language L URI de notre espace de noms estnot http www clips imag fr geta services dml Cet URI est une adresse sym bolique qui ne pointe pas obligatoirement sur un fichier C est seulement un moyen de d finir un nom unique 128 C Sp cification d un environnement de gestion et consultation de bases lexicales et dict
428. violet Les acceptions reli es ce mot vedette sont colori es en gris Nous trouvons par exemple desert src gt human desert src gt group desert agt gt human desert agt gt animate icl gt event Nous avons adopt un principe ergonomique qui est d associer chaque langue une couleur Nous gar dons autant que possible les m mes codes de couleur pour des applications diff rentes Les traductions fran aises des acceptions sont colori es en bleu Nous trouvons entre autres d sert2 faire d fection d laisser abandonner Les traductions italiennes sont colori es en vert desertico amp disertare Les traductions japonaises sont colori es en rouge La version de l applet utilis e ne permet pas d utiliser Unicode Les traductions japonaises sont donc mal cod es La nouvelle version a corrig ce d faut mais nous n avions pas encore pu nous la procurer au moment de r diger cette section 3 2 3 Discussion L exp rience des codes de couleur est concluante Cela permet l utilisateur de se rep rer dans une base multilingue Nous avons aussi montr avec cette maquette qu il tait possible de r utiliser des produits du commerce et de les adapter pour permettre de visualiser plus facilement une grande quantit de donn es lexicales 94 B Exploration de nouvelles directions bilan et cahier des charges d un environnement avanc mE 3 d sert aire d fection desertico disertare d
429. wandten Informationsforschung e V de l Universit t des Saarlandes et du c t am ricain le Trans lation Research Group de la Brigham Young University et le Kent State University Institute for Applied Linguistics Le but de ce projet est d int grer des lexiques utilis s en traduction automatique d une part et des bases de donn es terminologiques conceptuelles utilis es dans les outils d aide la traduction humaine d autre part Cette int gration se fera gr ce un format d change appel XLT eXchange format for Lex Term data Le projet SALT comprend plusieurs t ches tester et raffiner un format d change de donn es lexicales et terminologiques bas sur XML et appel XLT 6 Exemples de projets r cents bas s sur XML 63 d velopper un site web pour tester XLT d velopper des outils XLT pour concevoir des applications utilisant des donn es lexicographiques et terminologiques 6 2 2 Exemple de document au format XLT Le format XLT est bas tout d abord sur XML Il reprend ensuite le standard MARTIF ISO 12200 ISO99b lui m me bas sur ISO 12620 ISO99c pour les bases terminologiques usage humain et le format OLIF OLIF pour les dictionnaires de traduction automatique Les caract res seront repr sent s en Unicode Les outils XLT pourront convertir les donn es entre XLT OLIF GENETER et d autres formats L exemple de la figure A 47 est un document XLT simple lt martif type DX
430. xemple est la liste des cat gories grammaticales d une langue Lors de la r cup ration d une ressource existante nous essayons dans la mesure du possible de conver tir les l ments originaux vers des l ments de cet ensemble Si toutefois certaines informations ne sont pas repr sentables avec cet ensemble les l ments originaux sont conserv s Si ces l ments se retrouvent fr quemment dans plusieurs ressources existantes ils sont ajout s cet ensemble Les l ments de l ensemble CDM sont utilis s comme points de r f rence dans un dictionnaire converti inconnu La correspondance entre un l ment de cet ensemble et un l ment original lors de la r cup ration est effectu par un linguiste pour viter des conflits possibles entre les l ments Le tableau C 2 liste une premi re version de l ensemble d l ments CDM Les l ments ont t choisis sur la base de leur fr quence L ensemble lui m me volue d s lors que de nouveaux dictionnaires sont explor s et r cup r s La structure des l ments de l ensemble CDM est d crite dans le sch ma DML Exemple de correspondance Lors de la r cup ration de ressources il faut alors tablir un tableau de correspondance des l ments r cup rer et des l ments de CDM Le tableau C 3 a t utilis pour r cup rer les dictionnaires FEM et DHO d crits chacun en premi re partie Exemples de fusion Gr ce cet ensemble d l ments pr
431. ype Xlink Par exemple un lien vers la lexie anglaise RIVER sera not par l l ment lt reflexie href rivers 1 gt Les axies peuvent aussi tre reli es entre elles par des liens de synonymie regroup s dans l l ment lt synonyms gt des liens de raffinement regroup s dans l l ment lt refinement s gt et des liens inverses de g n ralisation regroup s dans l l ment lt generalization gt Chaque r f rence vers une axie est ensuite repr sent e par l attribut href de type Xlink Ces liens peuvent tre tiquet s Par exemple un lien d une axie ayant le sens de cours d eau vers une autre axie ayant le sens de fleuve sera un lien de raffinement Il sera tiquet par exemple avec une glose anglaise expliquant que ce cours d eau d bouche dans la mer lt refaxie tag type gloss eng tag into sea href a009 gt Pour pouvoir relier nos donn es celles d autres projets et construire des dictionnaires les utilisant nous relions nos axies des r f rences externes Ces liens externes sont not s par l l ment lt external references gt Pour l instant il est pr vu des liens vers des UW du projet UNL UNL96 UNL97 not s avec l l ment lt UNL gt des liens vers des sens du projet WordNet Fellbaum98 not s avec l l ment lt WordNet gt des liens vers les cat gories s mantiques du dictionnaire NTT not s avec l l ment lt NTTsemcat gt et des liens vers des concepts du pr
432. ype gt lt type encodingType gt lt encoding type of a dictionary The values are taken from the Internet Assigned Number Authority IANA Character Set registry For more info please refer to http www iana org assignments character sets These encoding types 246 are also used Annexe A sch ma XML pour DML for MIME types gt lt simpleType name encodingType gt lt restriction base string gt lt enumeration value Big5 gt lt enumeration value EUC JP gt lt enumeration value EUC KR gt lt enumeration value GB2312 gt lt enumeration value ISO 2022 JP gt lt enumeration value ISO 2022 KR gt lt enumeration value ISO 8859 1 gt lt enumeration value ISO 8859 2 gt lt enumeration value ISO 8859 3 gt lt enumeration value ISO 8859 4 gt lt enumeration value ISO 8859 5 gt lt enumeration value ISO 8859 6 gt lt enumeration value ISO 8859 7 gt lt enumeration value ISO 8859 8 gt lt enumeration value ISO 8859 9 gt lt enumeration value ISO 8859 10 gt lt enumeration value 1S0 8859 15 gt lt enumeration value KOI8 R gt lt enumeration value US ASCII gt lt enumeration value Shift_JIS gt lt enumeration value UTF 7 gt lt enumeration value UTF 8 gt lt enumeration value UTF 16 gt lt f restriction gt lt simpleType gt lt type formatType gt lt format of a dictionary
433. ype gt lt element gt lt contribution element gt lt Links to a contribution of a contributor These contributions are represented by an XSLT stylesheet on the source file gt lt element name contribution gt lt complexType mixed true gt lt attribute name source type xlink hrefType gt lt attribute ref xlink href gt lt complexType gt lt element gt 1 requests element e lt Links to a file where all the requests of a user are stored gt lt element name requests gt lt complexType mixed true gt lt attribute ref xlink href gt lt complexType gt lt element gt gl xml stylesheet element Pi lt links to an XML stylesheet used by a user to indicate its preferences gt lt element name xml stylesheet gt lt complexType gt lt attribute name type type string use optional gt lt attribute ref xlink href use optional gt lt complexType gt lt element gt lt DML definitions for a dictionary gt l dictionary element gt 244 lt This elements describes a dictionary meta information available on a dictionary domain size dates encoding format number describes also the macrostructure of the dict bilingual multilingual etc gt lt element name dictionary gt lt complexType gt lt sequence gt lt element ref d languages gt lt element ref d contents g
Download Pdf Manuals
Related Search
these mathieu mangeo..
Related Contents
2015 Toronto Housing Market Outlook National manuale uso e manutenzione manuale uso e manutenzione V7 Micro SDHC 32GB Class 10 + SD Adapter clean`surf® diamant clean`surf® diamant hygiene de la USER`S MANUAL - Sweatband.com Manual de Instruções - Reset Eletronica Industrial FSA 4.0 User`s Manual 6th Edition Nady Systems Microphone rsm-2 User's Manual PS48402 User manual BOLLETTINO INFORMATIVO Copyright © All rights reserved.
Failed to retrieve file