Home

Manuel d`utilisation d`Unitex - Institut d`électronique et d`informatique

image

Contents

1. Apply Elag Rule FIGURE 7 32 Exemple d automate de texte lin aire Les r gles sont tr s proches de celles qui s appliquent lors des recherches avec Locate Voici les diff rences e vous ne pouvez pas m moriser des s quences dans des variables comme avec Locate voir figure 6 19 page 131 e vous ne pouvez pas reconna tre des choses qui ne sont pas l automate du texte si automate du texte contient seulement l tiquette d un mot compos mais pas des mots simples qu il renferme vous ne pourrez pas reconna tre les mots simples Par exemple dans la phrase de l automate de la figure 7 33 il est impossible reconna tre soixante ou huit puisque ces chemins n existent pas e les s quences reconnues peuvent tre diff rentes de celles apparaissant dans les con cordances En fait l automate du texte peut contenir des tiquettes qui ne correspon dent pas au texte brut d entr e en particulier lorsqu une grammaire de normalisation a t appliqu e Par exemple si vous recherchez le motif lt le DET gt dans l automate du texte de 80jours vous obtenez 7703 matches tandis que Locate n en trouve que 5763 Ceci provient du fait que quelques mots ont t normalis s comme au le ou du de le Ainsi quand vous cherchez lt le DET gt LocateTfst reconna t les tiquettes ajout es l automate du texte par la grammaire de normalisation alors que Concord utilise le fichi
2. 169 7 3 Lev e d ambiguit s lexicales avec BLAG onc oe eee ee De ERS SS 171 73 1 Grammaires de lev e d ambiguit s lt s ue eee HE ER He ws 171 732 Compilation des grammaires ELAG 44 sous 4068505 des 175 foo Lev edambiguit s lt 4 4 RARA A A 175 70 Ensembles de grammaires o nuoraa ne as deb Eure 176 7 3 5 Fen tre de traitement d ELAG 178 700 Deseriplicn du joa d CUquellss gt eee el eatea pur e OS 178 ad Optimiser lesgrammaires ss ds sad dar ARA 184 7A Lin arisation de l automate du texte avec le taggeur 4 444 185 741 Compatibilit du jeu d tiquettes ie owe hs au on bu Nes 187 fae Utlisa tion du Tagger sis diarrea 187 7 4 3 Cr ation d un nouveau taggeur lt i ee ee eR Se AER 188 7 5 Manipulation de l automate du texte si 2k hee Re RE eA eae a 189 7 5 1 Affichage des automates d phrases 2 2 0 2 ev viewed ws 189 7 5 2 Modifier manuellement l automate du texte 189 75 3 Param tres de pr sentation o lt 4448 6 veda Swede oe edb 191 7 6 Convertir l automate du texte en texte lin aire 192 7 7 Recherche de motifs dans l automate du texte 192 75 AIN A es ek sis sors ORR ee bide ester ses 194 A es AA LED ab NME EME 196 TABLE DES MATI RES 7 8 10 11 12 Automate de S quences 199 S1 OO Ce A RER eee EEA PE Reed EH EES 199 G2 UDDAN se 4 144 1624 8 ua d s doubler td
3. Le programme MultiFlex permet d utiliser dix variables de type dont les noms sont 1 9 et dix variables de type dont les noms sont 1 9 De plus plusieurs variables de types diff rents peuvent tre utilis es au sein d une m me op ration Ainsi l op rateur lt 3re 7re gt appliqu au verbe reprendre donne 3 rep et 7 nd Si l on consid re les verbes acc l rer s cher la deuxi me personne du pr sent de l indicatif peut tre g n r e par l op ration lt er gt es acc l res s ches lt er gt gt acc l r es gt lt er gt gt s ch efes gt acc l rer s cher On remarque que le facteur conserv dans la forme fl chie est de longueur variable r ch La flexion de acc l rer et s cher ne peut se faire que par des op rateurs de pile clas siques l aide d une op ration commune Deux op rations diff rentes 4R Ces 5R Ces sont n cessaires Le graphe de la figure 3 10 permet de fl chir des verbes comme acc l rer et s cher au pr sent lt er gt FIGURE 3 10 Graphe de flexion pour des verbes comme acc l rer s cher 3 5 FLEXION AUTOMATIQUE 61 Voici les flexions obtenues pour les verbes acc l rer et s cher acc l re acc l rer V Pls P3s acc l rent acc l rer V P3p acc l res acc l rer V P2s acc l rez acc l rer V P2p acc l rons ac
4. te porte servi NC_NNmf NC_NNmf ms AN fs ms fs 1 mp NC_AN1 1 AN 1 mp NC_AN1 1 noire vive NC_NN fs vive NC_NN fp icroscope a efi FLEXION DES MOTS COMPOSES mp fs germain NC_NNmf fp fet tunnel NC_NXXXXXX ms microscope a el fet tunnel NC_NXXXXXX mp ette NC_VNm ms lt 3 Gen g Nb n gt tes porte serviette NC_VNm ms tes porte serviette NC_VNm mp e g avant garde lt Gen g Nb n gt FIGURE 11 21 Graphe de flexion NC_XXN de mots compos s fran ais Esp Es e g bateau mouche Gen g Nb n gt FIGURE 11 22 Graphe de flexion NC_NN de mots compos s fran ais 11 3 INT GRATION UNITEX lt 1 Gen g Nb n gt 239 e g pomme de terre lt Gen g Nb n gt FIGURE 11 23 Graphe de flexion NC_NXXXX de mots compos s fran ais lt 1 Gen g Nb n gt lt 3 Gen gNb n gt lt Gen g Nb n gt e g assistant approvisionneur FIGURE 11 24 Graphe de flexion NC_NNmf de mots compos s fran ais Es lt Gen g Nb n gt e g franc macon FIGURE 11 25 Graphe de flexion NC_AN1 de mots compos s fran ais lt 1 Gen g Nb n gt lt Gen g Nb n gt e g microscope a effet tunnel FIGURE 11 26 Graphe de flexion NC_NXXXXXX de mots compos s fran ais lt Gen m Nb p gt FIGURE 11 27 Graphe de flexion N
5. ES CasEN_Quaero CJ Normalization E Preprocessing C3 text_xmi_david y teNA fst2 a normaliseTreeTag fst2 D testGram fst2 C testnombres tst2 y testPoids fst2 Save Compile File Name te stnombres fst2 Files of Type 1st2 Disabl Enabl Close FIGURE 12 2 Fen tre de configuration de CasSys avec droite la liste des transducteurs 1 Un gestionnaire de fichier 4 gauche du cadre permet de choisir les transducteurs a mettre dans la cascade Le gestionnaire n affiche que les fichiers fst2 tous les graphes que vous souhaitez mettre dans la liste doivent tre compil s au format fst2 Pour diter la cascade choisissez les graphes gauche et mettez les droite l aide d un glisser d poser 2 Le tableau de droite affiche la cascade la liste ordonn e des transducteurs et les options s lectionn es pour chaque graphe Le tableau est videmment vide pour une nouvelle cascade Les colonnes du tableau Figure 12 3 donne le num ro de chaque graphe et permettent de choisir leur comportement e Num ro du graphe transducteur dans la cascade pour chaque graphe le fichier fst2 est num rot Disabled Pour d s lectionner le graphe courant Disabled siginifie non appliqu dans la cascade Les graphes non s lectionn s apparaissent sans num ro en gris et barr e Name Le nom du graphe avec l extension fs
6. FIGURE 6 63 S lection d une occurrence dans le texte Extract unmatching units selon que vous voulez extraire les phrases contenant les occur rences ou non 6 10 6 Comparaison de concordances L option Show differences with previous concordance permet de comparer la concor dance qui vient d tre calcul e avec la concordance pr c dente si elle existe Pour cela le programme ConcorDi ff construit les deux concordances dans l ordre du texte puis com pare leurs lignes Le r sultat est une page HTML qui montre alternativement les lignes des deux concordances laissant une ligne vide quand un match n apparait que dans une seule des deux concordances figure 6 64 Les lignes de la concordance ant rieure sont gris es et celles de la concordance courante restent sur fond blanc Dans chaque ligne seules les s quences reconnues sont color es On peut cliquer dessus pour ouvrir le texte cette position Le bleu indique qu une s quence est commune aux deux concordances Le rouge indique qu une s quence reconnue est commune aux deux concordances mais avec des extensions diff rentes c est dire que les deux s quences reconnues se chevauchent partiellement Le vert signale qu une s quence n apparait que dans une seule concordance S il n existe pas de concordance ant rieure le bouton est d sactiv 6 10 7 Mode Debug Lorsqu on applique un graphe un texte avec le menu Locate dans la fen tre de la fig
7. Le respect des espacements est une r gle tr s simple pour qu une s quence du texte soit reconnue par une entr e de dictionnaire elle doit avoir exactement les m mes espaces Par exemple si le dictionnaire contient aujourd hui ADV la s quence Aujourd hui ne sera pas reconnue cause de l espace qui suit l apostrophe 68 CHAPITRE 3 DICTIONNAIRES 3 7 3 Graphes dictionnaires Le programme Dico est galement capable d appliquer des graphes dictionnaires Il s agit de graphes qui respectent par d faut la r gle suivante si on les applique avec le programme Locate en mode MERGE ils doivent produire des s quences correspondant des lignes de DELAF Quand on les applique un texte ils attachent les tiquettes lexicales DELAF ces s quences La figure 3 19 montre un graphe reconnaissant les symboles chimiques On peut voir sur cette figure un premier avantage par rapport aux dictionnaires compress s l utilisation des guillemets permet de forcer le respect de la casse Ainsi ce graphe reconna tra bien Fe mais pas FE alors qu il est impossible de sp cifier une telle interdiction dans un DELAF usuel Le second avantage des graphes dictionnaires est qu ils peuvent exploiter les r sultats four nis par les dictionnaires appliqu s pr c demment Ainsi on peut appliquer le dictionnaire g n ral puis tiqueter comme noms propres les mots inconnus commen ant par une ma juscule l aide du graphe NP
8. t N thread N cr er N thread a N random N choisir N fois un fichier log al atoire dans la liste dans chaque thread f N break after N l utilisateur annule apr s N ex cutions avec seule ment un seul thread u PATH unfound location PATH prend le dictionnaire et le FST2 partir de PATH s il est absent du fichier log Une autre utilisation UnitexToolLogger est d utiliser l option MzRepairUlp pour r parer un fichier ulp ab m souvent un log de crash UnitexToolLogger MzRepairUlp OPTIONS lt ulpfile gt OPTIONS apr s MzRepairUlp t X temp X utilise X comme nom de fichier temporaire lt ulpfile gt build par d faut o X output X utilise X comme nom de fichier ulp lt ulpfile gt repair par d faut m quiet n met pas de message lors de l ex cution 308 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e v verbose met un message lors de l ex cution Une autre utilisation de UnitexToolLogger est d utiliser l option CreateLog op tion avec des accolades pour cr er un fichier log d ex cutions de programme Uni tex comme UnitexToolLogger CreateLog OPTIONS cmd args UnitexToolLogger CreateLog OPTIONS cmd l args cmd 2 args Par exemple UnitexToolLogger CreateLog log_file my_run_normalize ulp Normalize C My Unitex French Corpus 80jours txt UnitexToolLogger CreateLog directory c
9. ATTENTION 3 beaucoup de programmes utilisent un fichier Alphabet txt Cette information peut tre omise pour l ensemble de ces programmes Dans ce cas une d finition par d faut de lettres est utilis e voir u_is_letter dans le fichier sourceUnicode cpp 13 1 Cr ation de fichiers log E Preferences for French Morphological dictionaries Directories Language amp Presentation Private Unitex directory where all user s data is to be stored home paumier unitex Set Graph repository Produce log information in directory home paumier tmp Clear all logs Cancel FIGURE 13 2 Configuration de fichiers log Vous pouvez cr er des fichiers 10g des programmes externes ex cut s Ces fichiers log peuvent tre utiles pour le d bogage ou des tests de r gression Vous avez juste besoin d activer cette fonctionnalit dans le cadre Pr f rences Vous devez simple ment choisir un r pertoire de fichiers log dans lequel tous les fichiers sont stock s et cocher la case Produce log En cliquant sur le bouton Clear all logs vous sup primez tous les fichiers log ventuellement contenus dans ce r pertoire D sormais toute nouvelle ex cution du promme produit un fichier unitex_log_XXX ulp dans le r pertoire de fichiers log XXX repr sente le num ro de log qui se trouve dans la console voir section suivante 13 2 LA CONSOLE
10. CR occurrence contexte droit e RL contexte droit contexte gauche 13 9 CONCORD 273 RC contexte droit occurrence Pour plus de d tails sur ces modes de tri voir la section 4 8 2 Options de sortie H html produit une concordance au format HTML cod e en UTF 8 par d faut t text produit une concordance au format texte Unicode g SCRIPT glossanet SCRIPT produit une concordance pour Glos saNet au format HTML Le fichier HTML produit est cod en UTF 8 p SCRIPT script SCRIPT produit une concordance au format HTML o les occurrences sont liens d crits par SCRIPT Par exemple si vous utilisez phttp www google com search q vous obtiendrez une concordance au format HTML o les occurrences sont des liens vers des requ tes Google i index produit un index de la concordance qui comporte les occur rences avec les sorties des grammaires s il y en a pr c d es par les positions des occurrences dans le fichier texte exprim es en caract res u offsets uima offsets produit un index de la concordance relatif fichier texte original avant toute op ration effectu e par Unitex Offsets est le fichier produit par Tokenize avec l option output_offsets e xm1 produit un index xml de la concordance w xml with header produit un index xml de la concordance avec une en t te xml compl te lemmatize produit un fichier de
11. Dictionary Type Check Dictionary O DELAS DELAC FIGURE 3 5 V rification automatique d un dictionnaire 3 4 Tri Unitex manipule les dictionnaires sans se soucier de l ordre des entr es Toutefois pour des raisons de pr sentation il est souvent pr f rable de trier les dictionnaires L op ration de tri varie selon plusieurs crit res commencer par la langue du texte trier Ainsi le tri d un dictionnaire tha s effectue selon un ordre diff rent de l ordre alphab tique si bien qu Unitex utilise un mode de tri d velopp sp cialement pour le tha voir chapitre 13 Pour les langues europ ennes le tri s effectue g n ralement selon l ordre lexicographique avec toutefois quelques variantes En effet certaines langues comme le fran ais consid rent certains caract res comme quivalents Par exemple la diff rence entre les caract res e et est ignor e lorsque l on veut comparer les mots manger et mang s car les contextes r et s permettent de d cider de l ordre La distinction n est faite que lorsque les contextes sont identiques ce qui est le cas si l on compare p che et p che Afin de prendre en compte ce ph nom ne le programme de tri SortTxt utilise un fichier qui d finit des quivalences de caract res Ce fichier s appelle Alphabet_sort txt et se trouve dans le r pertoire de la langue courante de l utilisateur Voici les premi res lignes du fichier utilis par d faut pour le f
12. O Matched sentences Matched sentences All sentences HTML All sentences HTML Aligned with target concordance Aligned with source concordance O Locate Clear alignment Align Save alignment Save alignment as Locate FIGURE 10 5 Ajout d un lien 10 3 RECHERCHE DE MOTIFS 217 10 3 Recherche de motifs Vous pouvez effectuer des recherches de motifs sur chacun des textes en cliquant sur son bouton Locate La premi re fois Unitex vous demandera de construire une version de travail de votre texte comme le montre la figure 10 6 Cette version sera pr trait e en tenant compte de la langue du texte en particulier les dictionaires s lectionn s par d faut seront appliqu s ATTENTION la langue du texte est d termin e l aide de son nom complet Par exemple si votre fichier se trouve dans le r pertoire MyUnitex Klingon Corpus la langue consid r e sera Klingon Donc si votre texte n est pas dans un sous r pertoire de votre r pertoire de travail sa langue ne sera pas correctement identifi e 4 Unitex needs a text version of your xml text in order to locate expression Do you agree to build and preprocess D My Unitex French Corpus A funtana fr_xalign txt FIGURE 10 6 Unitex doit construire une version de travail du texte XAlign Locate Pattern Locate pattern in the form of O Regular expression a Graph Index O Shortest matches e Longest m
13. Sous Linux MacoOS tapez make LIBRARY yes et vous obtiendrez une librairie nomm e libunitex so Si vous souhaitez produire DLL Windows nomm e unitex dll utilisez les commandes suivantes Windows make SYSTEM windows LIBRARY yes Cross compilation avec mingw32 make SYSTEM mingw32 LIBRARY yes dans tous les cas vous obtiendrez aussi un programme nomm Test_lib exe Si tout a bien fonctionn ce programme devrait afficher l cran suivant Expression converted Reg2Grf exit code 0 Unigraph 1 9 UNITEX POUR LES D VELOPPEURS Look In CI Mes documents M J Mes vid os J Downloads J Updaters 3 Ma musique J Visual Studio 2005 5 Mes eBooks J Mes fichiers re us C Mes images J Mes sites Web File Name CiDocuments and SettingsipaumieriMes documents FIGURE 1 4 Cr ation du r pertoire personnel de travail SIZE 1313 950 FONT Times New Roman 12 OFONT Times New Roman B 12 BCOLOR 16777215 FCOLOR 0 ACOLOR 12632256 SCOLOR 16711680 CCOLOR 255 PORIENT L 7 lt E gt 100 100 1 5 100 100 O 26 CHAPITRE 1 INSTALLATION D UNITEX a 100 100 1 o 100 100 1 Mc 100 100 1 lt E gt 100 100 lt E gt 100 100 PND BO Chapitre 2 Chargement d un texte Une des principales fonctionnalit s d Unitex est la recherche d expressions dans des textes Pour cela les textes doivent subir plusieurs op rations de pr traitement
14. 82 TABLE 3 4 Quelques r f rences bibliographiques sur les dictionnaires lectroniques 74 CHAPITRE 3 DICTIONNAIRES Chapitre 4 Recherche d expressions rationnelles Nous allons voir dans ce chapitre comment rechercher des motifs simples dans un texte au moyen des expressions rationnelles 4 1 D finition Le but de ce chapitre n est pas de faire une introduction aux langages formels mais de montrer comment utiliser les expressions rationnelles dans Unitex pour rechercher des motifs simples Le lecteur int ress par une pr sentation plus formelle pourra se reporter aux nombreux ouvrages qui traitent du sujet Une expression rationnelle ou expression r guli re peut tre e une unit lexicale livre ou un masque lexical lt manger V gt e une position particuli re du texte le d but ou la fin e la concat nation de deux expressions rationnelles je mange e l union de deux expressions rationnelles Pierre Paul e l toile de Kleene d une expression rationnelle tr s x 4 2 Unit s lexicales Dans une expression rationnelle l unit lexicale a la m me d finition qu en 2 5 4 page 38 Notons que les symboles point plus toile inf rieur ainsi que les parenth ses ouvrantes et fermantes ont une signification particuli re il faut donc les d sp cialiser avec le caract re si l on souhaite les rechercher Voici quelques exemples d unit s lexicales valides c
15. e Save et Save as permettent d enregistrer la liste des transducteurs Par d faut les listes des transducteurs sont plac es dans le r pertoire CasSys de la langue courante par exemple French Cassys e Compile recompile tous les graphes de la cascade e Disable all pour d s lectionner tous les graphes de la cascade e Enable all pour s lectionner tous les graphes de la cascade e Close ferme la fen tre courante Disabled Name Merge Replace Iter toolFigement fst2 Y a persNoel fst2 jamountfst2 jamountAmount fst2 itimeDateCalendaireAvecFin fst2 timeDateCalendaire fst2 timeAnnee Siecle fst2 itimeDateRelative fst2 ftimeDateAbsolue fst2 ISS JORNOODOODEERE timePrep fst2 jamountPrepDuree fst2 _ amountDureeLesHour fst2 JR timeLocution fst2 timestst2 ftimeDet0 fst2 ladhocEtapeTimeMois fst2 jadhocEtapeTime fst2 persCollectif fst2 ffoncCollectiveExtractor fst2 _ foncCollective fst2 ffoncCollectiveCtxtD fst2 lorginstitution fst2 __lorgCtxtDico fst2 JorgCtxt fst2 lorgCommerceDroite fst2 wo RNIN SSSI
16. gt A ADJ A NOUN N FIGURE 6 58 Une variable A qui peut tre ind finie Concordance D My UnitexiEnglishiCorpusiivanhoe_snticoncord no a een fixed upon the necks ADJ NOUN necks of as it were to the feudal chains ADJ feudal NOUN chains court and in the castles ADJ NOUN castles the castles of the great nobles ADJ qreat NOUN nobles nobles where the pomp ADJ NOUN pomp and 3 and state of a court ADJ NOUN court was e FIGURE 6 59 La variable A peut tre ind finie Optimizing compound word dictionary Optimizing fst2 Working Output error starting position of variable 4 undefined cms FIGURE 6 60 Sortie cause d une variable erron e 6 10 3 Concordance Le r sultat de la recherche est un fichier d index contenant les positions de toutes les oc currences trouv es La fen tre de la figure 6 62 vous propose de construire une concordance de modifier le texte ou de comparer le r sultat de la recherche la recherche pr c dente sur 6 10 APPLICATION DES GRAPHES AUX TEXTES 157 Concordance D My UnitexiEnglishiCorpus ivanhoe_snticoncord html a a Bd party in whatever rash expedition ADJ rash NOUN expedition sessed by the great Barons ADJ qreat NOUN Barons that even to the very edge ADJ very NOUN edge of destruct of their less powerful neigqhbours ADJ powerful NOUN neighbours erings of the inferior classes ADJ inferior NOUN classes
17. input sequence gt output sequence Si vous souhaitez utiliser la tabulation ou le newline vous devez les d sp cialiser avec un antislash comme ceci 123 gt ONE_TWO_THREE_NEW_LINE 14 13 PLUSIEURS AUTRES FICHIERS 343 14 13 7 Fichier de mots interdits Le programme PolyLex requiert un de mots interdits pour le hollandais et le norv gien Ce fichier texte brut est cens s appeler ForbiddenWords txt Il doit se trouver dans le r pertoire Dela correspondant la langue courante Chaque ligne est cens e contenir un mot interdit 14 13 8 Fichier de log Le programme UnitexToolLogger sile fichier unitex_logging_parameters txt est trouv avec un chemin pour enregistrer les fichiers log cr e un fichier ulp de log de l outil Unitex en cours d ex cution choisi Il cr e un fichier unitex_logging_parameters_count txt qui contient seule ment le num ro du dernier fichier log cr Un fichier log avec l extension ulp est un fichiers zip non comprim s com patibles avec unzip et tous les outils unzip standards On peut le recr er avec zip d Infozip avec les options 0 X Il contient ces fichiers e test_info command_line txt une liste de param tres de la ligne de commande utilis e pour ex cuter l outil Il y a un param tre sur chaque ligne La premiere ligne contient la valeur de retour la deuxi me ligne le nombre de param tres e test_info command_line_synth txt une simple ligne avec un
18. COMME COMME comme ADV z 1 COMME comme CONJS 1 DOMESTIQUE DOMESTIQUE domestiquer V z1 Kms DOMESTIQUE domestique A 4 il gt FIGURE 7 35 Affichage d un tableau les POS possibles pour chaque mot simple ou compos Il devrait tre consid r comme une vue approximative et compacte des informations contenues dans l automate Vous pou vez galement filtrer les codes grammaticaux s mantiques a afficher Choisissez All et vous verrez tous les codes Choisissez Only POS category les premiers codes suppos s repr senter la cat gorie de la POS seront affich s Si vous choisissez Use filter et crivez une expression r guli re X les codes non reconnus par X seront supprim s Toute expres sion rationnelle POSIX est accept e en tant que filtre V rifiez Always show POS category and as said the POS category will be kept even if not matched by the filter if any For in stance Figure 7 36 shows a filtering result obtained with the filter A Z that matches any code starting with an uppercase letter thus discarding codes like z1 Le bouton Export all text as POS list peut tre utilis pour exporter ce tableau d affichage de l ensemble du texte automate dans un fichier texte en utilisant un format particulier Actuellement cette fonctionnalit est exp rimentale et peut tre modifi e dans le futur Voici un exemple de sortie Je N ms mp Je PRO PpvIL 1fs lms
19. Implode mjor Apply Elag Rule ADV z1 FIGURE 7 8 Ambiguit due une s quence contenant un mot inconnu On trouve galement ce ph nom ne dans le traitement de certaines langues asiatiques comme le thai Quand les mots ne sont pas d limit s il n y a pas d autre solution que d envisager toutes les combinaisons possibles ce qui entraine la cr ation de nombreux chemins compor tant des mots inconnus qui s entrem lent avec les chemins tiquet s La figure 7 9 montre un exemple d un tel automate de phrase en thai 170 CHAPITRE 7 AUTOMATE DU TEXTE i y a a w 1003 sentences Maas sra tara anda iuuum aatunnmmala Aumann cia li qt Sentence Reset Sentence Graph Rebuild FST Text Elag Frame Explode Implode Apply Elag Rule FIGURE 7 9 Automate d une phrase tha Il est possible de supprimer ces chemins parasites Pour cela il faut s lectionner l option Clean Text FST dans la fen tre de configuration de la construction de l automate du texte voir figure 7 10 Cette option indique au programme de construction de l automate qu il doit nettoyer chaque automate de phrase Ce nettoyage s effectue selon le principe suivant si plusieurs chemins sont en concurrence dans l automate le programme garde ceux qui contiennent le moins de mots inconnus Par exemple la s quence aujourd hui en tant qu adverbe compos l emporte sur la d com position en
20. Les deuxi me et troisi me parties donnent respectivement les listes de codes gram maticaux et ou s mantiques et flexionnels Afin de pr venir des erreurs de codage le programme signale les codes qui contiennent des espaces des tabulations ou des caract res non ASCII Ainsi si un dictionnaire grec contient le code ADV o le car act re A est le A grec au lieu du A latin le programme signalera l avertissement suivant ADV warning 1 suspect char 1 non ASC char 0391 D V Les caract res non ASCII sont indiqu s par leur num ro de caract re en hexad ci mal Dans l exemple ci dessus le code 0391 repr sente le A grec Les espaces sont indiqu s par la s quence SPACE Km s warning 1 suspect char 1 space K m SPACE s Lorsqu on v rifie le dictionnaire suivant 1 2 et 3 INTJ abracadabra INTJ supercalifragilisticexpialidocious INTJ damned INTJ Paul N Hum Hum eat V W Pls Ps Plp P2p P3p on obtient le fichier CHECK_DIC TXT suivant Line 1 unprotected comma in lemma 1 2 et 31 INTJ Y Line 2 unexpected end of line abracadabra INTJ Y Line 5 duplicate semantic code Paul N Hum HumY Line 6 an inflectional code is a subset of another eat V W P1s Ps Plp P2p P3pY4 1 Stats 4 q File D My Unitex English Dela axe dic Type DELAF 14 9 FICHIERS ELAG 333 6 lines read 2 simple entries fo
21. a Gen gt Er s p lt 1 Nb w Case c Anim a Gen g gt FIGURE 11 30 Graphe de flexion NC_N2X1 de mots compos s serbes 248 CHAPITRE 11 FLEXION DES MOTS COMPOS S Novi Sad Crvena Zastava Ujeinxenxe Nacije g Nb n Case c Anim a gt lt 1 Gen g Nb n Case c Anim g Det e gt lt Gen g Nb n Case c Anim a gt lt 1 Gen gNb n Case c Anim g Det d gt masculine gender in accusative singular lt 1 Gen m Nb s Case 4 Anim a Det e gt m Nb 5 Case 4 Anim a gt lt Gen m Nb s Case 4 Anim a gt lt 1 Gen m Nb s Case 4 Anim a Det d gt FIGURE 11 31 Graphe de flexion NC_AXN3 de mots compos s serbes Kosovo i Metohya H lt 1 Gen 81 Nb n Case c Anim a gt lt 4 gt lt 5 Gen 25 Nb nl Case c Anim a gt lt Gen g1 Nb n Case c Anim a gt FIGURE 11 32 Graphe de flexion NC_N3XN de mots compos s serbes istrazani sudija lt 1 Gen g Nb s Case c Anim g Det e gt lt 3 Gen g Nb s Case c Anim a gt lt Gen g Nb s gt lt 1 Gen g Nb s Case c Anim g Det d gt lt 1 Gen f Nb w Case c Anim g Det e gt lt 3 Gen f Nb w Case c Anim a gt lt 1 Gen f Nb p Case c Anim g Det e gt lt 3 Gen f Nb p Case c Anim a gt lt 1 Gen mNb s Case 4 Anim a Det e gt lt 3 Gen m Nb s Case 4 Anim a g
22. charger et modifier au lieu d en cr er un nouveau partir de z ro Options d offsets e input_offsets fichier offsets d entr e e output_offsets fichier offsets a produire Le programme code chaque unit par un entier La liste des unit s est sauveg ard e dans un fichier texte nomm tokens txt La suite des codes repr sentant les unit s permet alors de coder le texte Cette suite est sauvegard e dans un fichier binaire nomm text cod Le programme produit galement les fichiers suivants e tok_by_freq txt fichier texte contenant la liste des unit s tri es par ordre de fr quence e tok_by_alph txt fichier texte contenant la liste des unit s tri es par ordre alphab tique e stats n fichier texte contenant des informations sur le nombre de s para teurs de phrases le nombre d unit s le nombre de mots simples et le nombre de chiffres 13 45 TRAININGTAGGER 303 e enter pos fichier binaire contenant la liste des positions des retours la ligne dans le texte La repr sentation cod e du texte ne contient pas de retours la ligne mais des espaces Comme un retour la ligne compte pour 2 car act res et l espace pour un seul il faut savoir o se trouvent les retours la ligne dans le texte si l on veut synchroniser les positions des occurrences cal cul es par le programme Locate avec le fichier texte Le fichier enter pos est utilis cette fin par le programm
23. e il est impossible d utiliser le mode morphologique e il est impossible d utiliser des contextes Les figures 2 10 page 34 et 2 11 page 37 montrent des exemples de graphes de pr traitement 6 13 Graphes de normalisation de l automate du texte Les graphes de normalisation de l automate du texte permettent de normaliser des formes ambigu s En effet ils peuvent d crire plusieurs tiquettes pour une m me forme Ces ti quettes sont ensuite ins r es dans l automate du texte explicitant ainsi les ambigu t s La figure 6 3 montre un extrait du graphe de normalisation utilis pour le fran ais de DET Dind zl mp fp FIGURE 6 3 Extrait du graphe de normalisation utilis pour le fran ais Les chemins d crivent les formes qui doivent tre normalis es Les variantes minuscules et majuscules sont prises en compte selon le principe suivant les lettres majuscules dans 122 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES le graphe ne reconnaissent que les lettres majuscules dans l automate du texte les lettres minuscules peuvent reconna tre les lettres minuscules et majuscules Les sorties repr sentent les s quences d tiquettes qui seront ins r es dans l automate du texte Ces tiquettes peuvent tre des entr es de dictionnaires ou de simples cha nes de car act res Les tiquettes repr sentant des entr es de dictionnaire doivent respecter le format des entr es d un DELAF et tre encadr es p
24. lt E gt with with ithe the of lof lt E gt Gen Tbuying 7 matches he slightest shade of selfishness and instead of dividing yet farther his weakened nation by ious than prepossessing especially as instead of doffing his bonnet he pulled it still deepe 1 homage and the kiss of peace S But instead of receiving their salutations with courtesy J dric who dried his hands with a towel instead of suffering the moisture to exhale by waving t hither by his father Henry the Second with th rpose o uying golden opinions of the inhab reyhound which ran limping about as if with the purpose of seconding his master in collecting 161 IL 4 uble click to open the graph 2 choice with tradition advantage experience function goal object policy the possibility privilege oblem nsk threat instead on charges lt gt effort in view FIGURE 6 65 La fen tre de concordance en mode debug 162 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES Chapitre 7 Automate du texte Les langues naturelles contiennent beaucoup d ambiguit s lexicales L automate du texte est un moyen efficace et visuel de repr senter ces ambigu t s Chaque phrase du texte est repr sent e par un automate dont les chemins expriment toutes les interpr tations possibles Ce chapitre pr sente les automates de texte le d tail de leur construction ainsi que les op
25. o 080 0808 080 00 108 0 00 0 AA FIGURE 12 3 La table liste de transducteurs 12 1 APPLIQUER UNE CASCADE DE TRANSDUCTEURS AVEC CASSYS 12 13 Application d une cascade 255 Dans le menu Text s lectionner le sous menu Apply CasSys cascade Figure 12 4 pour ouvrir la fen tre CasSys Ce sous menu Apply CasSys cascade n est actif que si un texte a t pr alablement ouvert FIGURE 12 4 Menu Text d Unitex et sous menu Apply CasSys Cascade DELA FSGraph Lexicon G Open Ctrl N Open Tagged Text Preprocess Text Change Language Apply Lexical Resources Ctrl Locate Pattern Located Sequences Compile Elag Grammars Construct FST Text Convert FST Text to Text Close Text Quit Unitex La fen tre CasSys 12 5 affiche le contenu du r pertoire CasSys de la langue courante Elle permet de choisir le fichier contenant la liste de transducteurs appliquer au texte Une fois que cette liste est choisie vous pouvez cliquer sur le bouton Launch pour appliquer la cascade ls 8 63 Bale J Share CA src E nouveauCasEN5_Quaero_correctionAmount csc Ey nouveauCasEN5_Quaero_poids csc File Name Files of Type CaSCade configuration File y FIGURE 12 5 Fen tre de lancement de la cascade de transducteurs 256 CHAPITRE 12 CASCADE DE TRANSDUCT
26. z1 49 z2 49 z3 49 _ 181 A Ajout de nouvelles langues 23 Alignement de texte 213 Alignement des bo tes 111 Alignement r entrant 215 All matches 85 153 Allemand mots compos s libres 41 295 Alphabet 35 67 274 286 289 292 302 304 312 cor en 197 tri 53 tri 313 Ambigu transducteur 105 153 Analyse des mots compos s libres INDEX langues germaniques 41 295 russe 41 295 Antialiasing 111 Apache 2 0 361 Approximation d une grammaire par un transducteur fini 124 283 Automate acyclique 163 du texte 77 121 163 301 304 conversion en texte lin aire 192 fini 94 minimal 65 Automate de S quences 199 Axiome 93 B Barre d outils 108 Bo tes alignement 111 connexion 97 cr ation 95 s lection 102 suppression 104 tri des lignes 110 Boucle nombre de r p titions 127 Boucles sans fin 125 BSD 357 C Cadre des concordances 88 Caract res chinois 198 Caract res sp ciaux 108 Cascade de transducteurs 269 cascade de transducteurs 251 Casse voir Respect des minuscules majuscules 122 CasSys 251 cat 180 Chevauchement d occurrences 145 Clitiques normalisation 167 296 Codes flexionnels 181 385 Collection de graphes 142 Coller 103 106 108 Commentaire dans un dictionnaire 46 dans un graphe 96 Comparaison de concordances 159 de variables 151 Compilation d un graphe 123 287 d une grammaire ELAG 175 complete
27. 4 Et dans leurs quivalents d pr ci s lt MIN gt lt MAJ gt et lt PRE gt Voir section 4 3 1 4 4 CONCAT NATION 81 e lt lire V P F gt le verbe lire au pr sent ou au futur e lt suis suivre V gt le mot suis en tant que forme conjugu e du verbe suivre par opposition la forme du verbe tre e lt facteur N Hum gt toutes les entr es nominales ayant facteur comme forme canon ique et ne poss dant pas le code s mantique Hum e lt ADV gt tous les mots qui ne sont pas des adverbes e lt WORD gt tous les caract res qui ne sont pas des lettres sauf le s parateur de phrases voir figure 4 2 Ce masque ne reconnait pas le s parateur de phrase S ni le tag STOP Concordance D My Unitex EnglishiCorpus ivanhoe_snticoncord htmi ngland which is watered by the river Don there extended in ancient times a large forest cover extended in ancient times a large forest covering the greater part of the beautiful hills and field and the pleasant town of Doncaster The remains of this extensive wood are still to be be seen at the noble seats of Wentworth of Warncliffe Park and around Rotherham S Here hau e seats of Wentworth of Warncliffe Park and around Rotherham Here haunted of yore the fab of Warncliffe Park and around Rotherham 5 Here haunted of yore the fabulous Dragon of Wantle d of yore the fabulous Dragon of Wantley 5 here were fought many of the most desperate battle ttles during t
28. A LL enr sed a ee a ee ete der ere 269 Tz CASEROS 22 ata ad a a Gee AE GE ae daa Be 8 270 A eke ee st RE we eRe RES ES ee dre WH SS OS 271 13 9 Concord EE 271 A nie 4 44 dei h du de da a OBa phas ee 275 DACON 4 444 dia 9 BE LA DM ban ed Pe E DS 275 BPD A 277 esti 0 A Lines OR ee aR Te RYE O nee 278 PO eee A E ESE EE Etre 280 IGNORE ale oe he BH EHR EED EL A A RE RHE ee REL Ew Ew Ss 282 LEA CAD ET A oe ee EDS BORE ESS ERS RHEE OS ESS 282 IS ITEVADO coria ek ae eee GS Pad we ee had Beale we de 283 WO IG ESPACE II 283 o A 283 IB 2ORSOCREE ociosa ada a MEN APE VE 284 IES as pe rs pedos E ei a e ea 285 ISR RSA una a ees a Him a Ok a din ee D die 286 IIG A des Dane d hab Mel DRAM OR eut pe 287 IS AGE 42 Lea OO HER a e bete eae ed bee ees 288 BSCS isc la a BS o ane 289 E A ee eS Hd OS dense Somerset 289 W327 LOE co 1 2 ee 448 di sa ada de a ai a me 289 er 2 34422 eye Da Dana eR heh dial die net deu 292 DOMNE Ee ocio 2 IRL MEME LES DINAN a BS CAMES UE 294 WS SONGHMANZE conciso ar dus da dou do nd enr ee ee ee a 294 LEA A III 295 Tol Rebuild sie ceda po to e to in ess 296 13 OS RECONSUUCAO oo La da aa a Rew Se Se des 296 OR E AN 297 A o ee de eed a e dodo 297 EN 4 14 Lu DEN Di Dhs males bebe sa EN SERRE 298 MA ORAS o de de Den a es ds Oa Ge D oo es 2S 298 ESSAI LL Li Li LL ada aa BES PS EMSS SYS 299 e ni ei hi are Dane BESS HD ren et 299 TABLE DES MATI RES 9
29. A la quatri me it ration aucune concordance n est trouv e le graphe n est donc plus r appliqu Attention Prendre garde la possibilit de blocage en utilisant cette option Par exemple un transducteur qui reconna t A et le remplace par A causerait un blocage s il tait appliqu sur le texte de l exemple 12 23 R gles utilis es dans une cascade Dans une cascade chaque graphe observe les r gles utilis es dans Unitex e Insertion gauche des motifs reconnus en mode merge la sortie est ins r e gauche de la s quence reconnue e Priorit au motif le plus gauche lors de l application d une grammaire locale les occurrences qui se chevauchent sont toutes index es Durant la construction de la concordance toutes ces occurrences sont pr sentes mais comme CasSys modifie le texte apr s application de chaque graphe de la cascade il est n ces saire de choisir parmi ces occurrences celle prendre en compte La priorit est donn e la s quence la plus gauche Priorit au plus long motif dans CasSys lors de l application d un graphe c est la s quence la plus longue qui est conserv e Limitation du nombre d occurrences recherch es dans CasSys ce nombre n est pas limit une telle limitation n a aucun sens dans CasSys Toutes les occurrences sont toujours index es dans le texte 258 CHAPITRE 12 CASCADE DE TRANSDUCTEURS 12 24 Marquage de motifs dans CasSys La sortie des tra
30. LADL Universit Paris 7 1999 3 8 16 Unicode Consortium http www unicode org 2 2 17 Matthieu CONSTANT and Anastasia YANNACOPOULOU Le dictionnaire lec tronique du grec moderne Conception et d veloppement d outils pour son enrichissement et sa validation In Studies in Greek Linguistics Proceedings of the 23rd annual meeting of the Department of Linguistics Faculty of Philosophy Aristotle University of Thessaloniki 2002 3 8 18 Danielle CORBIN Hypoth ses sur les fronti res de la composition nominale Cahiers de grammaire 17 26 55 1992 Universit de Toulouse Le Mirail 11 1 19 Blandine COURTOIS Formes ambigu s de la langue fran aise Lingvistice In vestigationes 20 1 167 202 1996 Amsterdam Philadelphia John Benjamins Publishing Company 3 8 20 Blandine Courtois and Max Silberztein editors Les dictionnaires lectroniques du francais Larousse Langue francaise vol 87 1990 3 8 11 2 1 11 2 2 21 Anne DISTER Nathalie FRIBURGER and Denis MAUREL Am liorer le d coupage en phrases sous INTEX In Anne Dister editor Revue Informatique et Statistique dans les Sciences Humaines volume Actes des 3 mes Journ es INTEX pages 181 199 2000 2 5 2 22 Pamela DOWNING On the Creation and Use of English Compound Nouns In Proceedings of CICLING 2002 volume 53 pages 810 842 Linguistic Society of America 1977 11 1 23 Dana Marina DUMITRIU and S bastien PAUMIER Requ tes linguistiques
31. NC_NNmf franc franc A47 ms ma on macon N41 ms NC_AN1 m moire m moire N21 fs vive vif A48 fs NC_NN microscope microscope Nl ms a effet tunnel NC_NXXXXXX porte serviette serviette N21 fs NC_VNm Les graphes de flexion correspondants se trouvent de la figure 11 21 la figure 11 27 Le DELACF r sultant de la flexion par MULTIFLEX du DELAC pr c dent est le suivant 238 avant garde avant garde NC_XXN f CHAPITRE 11 S avant gardes avant garde NC_XXN fp bat ba ca ca car Car au mouche bat teaux mouches bateau mo f au lait caf au lait f s au lait caf au lait te postale carte postale NC_ tes postales carte post teau mouche NC_ uche NC_NN mp NC NN ms NXXXX ms NC_NXXXX mp NN fs tale NC_NN fp cousin germain cousin germain NC_NNmf ms cousins germains cousin germain cousine germaine cousin germain cousines germaines cousin franc ma on franc ma on NC_AN1 NC_ franc maconn franc macon franc maconn francs macon francs macon francs macon francs macon n moire vive m n e fran franc e franc ma on s franc macon nes franc macon s franc macon nes franc ma on c ma on n n n n por por por n moires vives m moir nicroscope effet t nicroscopes effet te servie te servie te servie macon NC_ NC_AN NC_AN NC_AN unnel m tunnel
32. OF ALL NECESSARY SERVICING REPAIR OR CORRECTION 13 IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN WRITING WILL ANY COPYRIGHT HOLDER OR ANY OTHER PARTY WHO MAY MODIFY AND OR REDISTRIBUTE THE LINGUIS TIC RESOURCE AS PERMITTED ABOVE BE LIABLE TO YOU FOR DAM AGES INCLUDING ANY GENERAL SPECIAL INCIDENTAL OR CON SEQUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE THE LINGUISTIC RESOURCE INCLUDING BUT NOT LIM ITED TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR LOSSES SUSTAINED BY YOU OR THIRD PARTIES OR A FAILURE OF THE LINGUISTIC RESOURCE TO OPERATE WITH ANY OTHER SOFTWARE EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES END OF TERMS AND CONDITIONS Bibliographie 1 Free Software Foundation http www fsf org 14 13 12 2 Anna ANASTASSIADIS SYMEONIDIS Tita KYRIACOPOULOU Elsa SKLAVOUNOU lasson THILIKOS and Rania VOSKAKI A system for analysing texts in modern greek representing and solving ambiguities In Proceedings of COMLEX 2000 Workshop on Computational Lexicography and Multimedia Dictionaries Patras 2000 3 8 3 Jean Claude ANSCOMBRE Pourquoi un moulin vent n est pas un ventilateur Langue Fran aise 86 1990 11 1 4 Laurie BAUER English Word Formation Cambridge University Press 1983 11 1 5 Emile BENVENISTE Fondements syntaxiques de la composition nominale Formes nouvelles de la composition nominale pages 145 176 Gallimar
33. On peut utiliser des masques lexicaux qui n cessitent la consultation d un dictionnaire comme lt DIC gt lt be gt ou lt N ms gt qui font r f rence aux informations contenues dans un dictionnaire du moment qu il a t pr alablement d clar comme diction naire du mode morphologique voir section 6 4 3 On peut utiliser des masques lexicaux qui n cessitent la consultation d un graphe dictionnaire section 3 7 3 du moment que le nom du graphe dictionnaire contient l option b Cependant cette possibilit ne fonctionne que pour les formes reconnues dans le texte par le graphe dictionnaire pendant l application initiale des dictionnaires section 3 7 et non pour les formes qui n apparaissent dans le texte que comme des parties de tokens On peut utiliser des filtres morphologiques section 4 7 Cependant les filtres mor phologiques employ s seuls ou sur lt TOKEN gt ne s appliqueront seulement qu au car act re courant Par cons quent les filtres comme lt lt 1 9 0 9 gt gt qui sont congus pour reconna tre plus d un caract re ne reconna tront jamais rien En fait dans le mode morphologique les filtres morphologiques ne sont utiles que pour exprimer des n ga tions comme lt lt aeiouy gt gt n importe quel caract re qui n est pas une voyelle Les contextes gauches et droits au sens de la section 6 3 sont interdits On peut utiliser des sorties A LETTER gt reconna
34. S Chapitre 12 Cascade de Transducteurs Ce chapitre presente l outil Cassys qui donne la possibilit de cr er une cascade de trans ducteurs et de nouvelles mani res de travailler sur la langue naturelle avec des graphes tats finis Une cascade de transducteurs applique plusieurs graphes automates ou transduc teurs l un apr s l autre sur le texte chaque graphe modifie le texte et les changements peuvent tre utilis s pour des traitements suppl mentaires par les graphes suivants Ce type de syst me est notamment utilis pour l analyse syntaxique le chunking l extraction d information la reconnaissance d entiti s nomm es etc Pour faire cela CasSys utilise une succession de locate patterns avec les options ad quates Le premier prototype du syst me CasSys a t cr en 2002 au laboratoire LI Laboratoire d Informatique de l Universit de Tours 31 Ce prototype tait enti rement sp cialis pour l extraction d entit s nomm es CasSys a t ensuite g n ralis pour effectuer n im porte quelle sorte de traitement n cessitant une cascade Il a t constamment am lior au cours des ann es sans tre r ellement int gr Unitex C est gr ce un projet r cent que l int gration compl te de CasSys Unitex a pu tre r alis e Les grammaire Unitex sont de type Context free et int grent la notion de transduction issue du domaine des automates tats finis Une grammaire avec tr
35. Sentence Reset Sentence Graph Rebuild FST Text close elag frame Explode Implode Apply Elag Rule Implose resulting text automaton FIGURE 7 17 Fen tre de l automate du texte Une fois le programme termin vous pouvez consulter l automate r sultat en cliquant sur le bouton Open Elag Frame button Comme on le voit sur la figure 7 18 la fen tre est s par e en deux l automate d origine est affich en haut et l automate r sultat en bas Ne soyez pas tonn si l automate du bas semble plus compliqu Cela s explique par le fait que les entr es lexicales factoris es ont t explos es de fa on traiter s par ment chaque interpr tation flexionnelle Pour refactoriser ces entr es cliquez sur le bouton Implode Un clic sur le bouton Explode vous donne une vue explos e de l automate du texte Si vous cliquez sur le bouton Replace l automate r sultat deviendra le nouvel automate du texte Ainsi si vous utilisez d autres grammaires elles s appliqueront sur l automate d j partiellement d sambiguis ce qui permet de cumuler les effets de plusieurs grammaires 7 3 4 Ensembles de grammaires Il est possible de regrouper plusieurs grammaires ELAG en un ensemble de grammaires afin de les appliquer en une seule fois Les ensembles de grammaires ELAG sont d crits dans 1 Ce sont des entr es qui regroupent
36. Si les informations grammaticales et s mantiques diff rent il faut cr er des entr es dis tinctes glace N zl fs glace glacer V z1 P1s P3s S1s S3s Y2s Certaines entr es ayant les m mes codes grammaticaux et s mantiques peuvent avoir des sens diff rents comme c est le cas pour le mot po le qui d signe un appareil de chauffage ou un voile au masculin et un instrument de cuisine au f minin On peut donc distinguer les entr es dans ce cas po le N z1 fs po le frire po le N z1 ms voile linceul appareil de chauffage NOTE dans la pratique cette distinction n a pas d autre cons quence qu une augmenta tion du nombre d entr es du dictionnaire Les diff rents programmes qui composent Unitex donneront exactement les m mes r sultats si l on fusionne ces entr es en po le N z1 fs ms L int r t de cette distinction est donc laiss l appr ciation des personnes qui construisent des dictionnaires 3 1 2 Format des DELAS Le format des DELAS est tr s similaire celui des DELAF La diff rence est qu on ne mentionne qu une forme canonique suivie de codes grammaticaux et ou s mantiques La forme canonique est s par e des diff rents codes par une virgule Voici un exemple d entr e cheval N4 Anl Le premier code grammatical ou s mantique sera interpr t par le programme de flexion comme le nom de la grammaire utiliser pour fl chir l entr e L entr e de l exemple
37. as object code and or source code so that the user can modify the Linguistic Resource and then encrypt it to produce a modified package containing the modified Linguistic Resource b Use a suitable mechanism for combining with the Linguistic Resource A suitable mechanism is one that will operate properly with a modified ver sion of the Linguistic Resource if the user installs one as long as the mod 372 CHAPITRE 14 FORMATS DE FICHIERS ified version is interface compatible with the version that the package was made with c Accompany the package with a written offer valid for at least three years to give the same user the materials specified in Subsection 4a above for a charge no more than the cost of performing this distribution d If distribution of the package is made by offering access to copy from a designated place offer equivalent access to copy the above specified ma terials from the same place e Verify that the user has already received a copy of these materials or that you have already sent this user a copy If the package includes an encrypted form of the Linguistic Resource the re quired form of the work that uses the Linguistic Resource must include any data and utility programs needed for reproducing the package from it How ever as a special exception the materials to be distributed need not include anything that is normally distributed in either source or binary form with the major components
38. cifi e parN Les r sultats du calcul sont affich s sur la sortie standard L automate du texte n est pas modifi par ce programme OPTIONS e o OUT output OUT nom de fichier optionnel e s N sentence N num ro de phrase 13 18 Extract Extract OPTIONS lt text gt Ce programme extrait de ce texte toutes les phrases qui contiennent au moins une des occurrences de la concordance Le param tre lt text gt repr sente le nom complet du fichier texte sans omettre l extension snt OPTIONS e y yes extrait toutes les phrases qui contiennent des s quences reconnues par d faut e n no extrait toutes les phrases qui ne contiennent pas de s quence recon nue e o OUT output OUT nom du fichier de sortie e i X index X le fichier ind qui d crit la concordance Par d faut X est le fichier concord ind situ dans le r pertoire du texte Le r sultat est un fichier texte contenant toutes les phrases extraites raison d une phrase par ligne 13 19 Flatten Flatten OPTIONS lt fst2 gt Ce programme prend une grammaire fst2 en param tre et essaye de la trans former en un transducteur tats finis OPTIONS 284 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e f fst la grammaire est d pli e la profondeur maximum et tronqu e si des appels des sous graphes existent Les appels tronqu s sont remplac s par des transitions vides Le r sult
39. consiste a lui appliquer les op rations suivantes normalisation des s parateurs d coupage en unit s lexicales normalisation de formes non ambigu s d coupage en phrases et appli cation des dictionnaires Si vous refusez le pr traitement le texte sera n anmoins normalis et d coup en unit s lexicales car ces op rations sont indispensables au fonctionnement d Unitex Il vous sera toujours possible d effectuer le pr traitement plus tard en cliquant sur Preprocess text dans le menu Text Si vous acceptez le pr traitement Unitex vous proposera de le param trer gr ce la fen tre de la figure 2 9 L option Apply FST2 in MERGE mode sert effectuer le d coupage du texte en phrases L option Apply FST2 in REPLACE mode est utilis e pour effectuer des remplacements dans le texte le plus souvent des normalisations de formes non ambigu s L option Apply All default Dictionaries permet d appliquer au texte des dictionnaires au format DELA Dictionnaires Electroniques du LADL L option Analyse unknown words 32 CHAPITRE 2 CHARGEMENT D UN TEXTE Unitex 2 1 current language is Frenc Open Tagged Text Preprocess Text Change Language Apply Lexical Resources Ctrl y Locate Pattern Apply CasSys Cascade Located Sequences Compile Elag Grammars Construct FST Text Convert FST Text to Text Close Text Quit Unitex FIGURE 2 7 Menu Text snt y novel snt y te
40. crivent les quivalences entre les pr c dents fichiers Morphology txt du polonais et du fran ais respectivement et les caract ristiques repr sent es par une unique lettre qui peuvent tre utilis es dans les dictionnaires DELA pour ces langues dans Unitex 226 CHAPITRE 11 FLEXION DES MOTS COMPOS S 11 22 D composition d un mot compos en constituants La notion de constituant l mentaire est controvers e et varie selon les langues et les syst mes de TAL Par exemple dans Unitex un alphabet c est dire un ensemble de car act res est d abord d fini pour chaque langue Tout caract re n appartenant pas l alpha bet est appel s parateur Un constituant l mentaire est aussi bien un simple s parateur habituellement un signe de ponctuation un chiffre etc une s quence de caract res conti gus appartenant l alphabet ex aujourd hui comporte selon cette d finition 3 constituants Dans d autres syst mes un constituant peut contenir un signe de ponctuation e g c est dire ou une limite entre deux constituants peut se produire dans une s quence de caract res alphab tiques widziat bym je verrais cf 79 Cette vari t de d finitions possibles d un constituant a videmment un impact sur la d fini tion d un mot compos Cependant nous souhaitons que notre formalisme puisse s adapter diff rents syst mes de flexion de mots simples Ainsi la d finition d un constituant est u
41. de la profondeur limite Cette option garantit la stricte quivalence du r sultat avec la grammaire d origine mais ne produit pas forc ment un transducteur tats finis Cette option peut tre utilis e pour optimiser certaines grammaires Un message indique la fin du processus d approximation si le r sultat est un transducteur tats finis ou une grammaire FST2 et dans le cas d un transducteur s il est quivalent la grammaire d origine voir figure 6 6 6 2 COMPILATION D UNE GRAMMAIRE 125 Messages with a colored background are generated by the interface not by the external programs Compiling graph loop Recursion detection started Resolving lt E gt conditions Looking for lt E gt loops Looking for infinite recursions Recursion detection completed Compilation has succeeded Loading X BOULOTiRecherche manuelunitexiresourcestimgloop fst2 Computing grammar dependencies Flattening Cleaning graph Minimization Writing grammar Saving tags The resulting grammar is an equivalent finite state transducer FIGURE 6 6 R sultat de l approximation d une grammaire 6 2 3 Contraintes sur les grammaires l exception des grammaires de flexion une grammaire ne peut pas avoir de chemin vide Cela signifie que le graphe principal d une grammaire ne doit pas pouvoir reconna tre le mot vide mais cela n emp che pas un sous graphe de cette grammaire de reconna tre ep
42. e a ALPH alphabet ALPH le fichier alphabet de la langue du texte e s start_on_space ce param tre indique que la recherche va commencer n importe quelle position dans le texte m me avant un espace Ce param tre ne devrait tre utilis que pour effectuer des recherches morphologiques e x dont_start_on_ space interdit au programme de reconna tre des s quences commen ant par un espace par d faut e c char_by_char ce param tre facultatif permet d appliquer le trans ducteur en mode caract re par caract re Cette option doit tre utilis e pour les textes en langues asiatiques comme le Tha e w word_by_word fonctionne en mode mot par mot par d faut e input_offsets XXxX fichier offset utiliser 13 23 GRF2FST2 287 Options de sorties e M merge ajoute les sorties du transducteur aux s quences reconnues texte d entr e par d faut e R replace remplace les s quences reconnues avec les sorties correspon dantes du transducteur e output_offsets XXX fichier offset produire Ce programme a pour effet de modifier le fichier texte pass en param tre 13 23 Grf2Fst2 Grf2Fst2 OPTIONS lt grf gt Ce programme compile une grammaire en un fichier st2 pour plus de d tails voir section 6 2 Le param tre lt grf gt d signe le chemin d acces complet au graphe principal de la grammaire sans omettre l extension grf OPTIONS e y lo
43. engendrant toutes les formes fl chies possibles Afin d viter de devoir remplacer les noms des grammaires de flexion par de vrais codes grammaticaux dans le dictionnaire obtenu le programme remplace ces noms par leurs plus longs pr fixes compos s de lettres Ainsi N4 est remplac par N En choisissant judicieusement les noms des grammaires de flexion on peut donc engendrer directement un dictionnaire pr t l emploi La figure 3 9 montre le dictionnaire obtenu apr s flexion du DELAS de notre exemple 3 5 FLEXION AUTOMATIQUE 59 aviatrices aviatrix N Hum p aviatrix aviatrix N Hum s matrices matrix N Math p matrix matrix N Math s radices radix N p radix radix N s FIGURE 3 9 R sultat de la flexion automatique 3 5 2 Op rateurs de flexion avanc s Dans certaines langues le processus de flexion entraine une modification de la racine du mot Plusieurs op rateurs ont t d velopp s pour faciliter ce type de traitement Ils permettent de rechercher et d enlever un suffixe du mot W fl chir Cette op ration peut tre accompagn e de la m morisation dans une variable ou d un facteur de ce suffixe Ces op rateurs peuvent prendre les formes suivantes e lt X Y gt On recherche la fin du mot W le suffixe Y Puis on recherche partir de la position atteinte la plus proche occurrence de X qui pr c de strictement celle de Y La variable contient alors le plus court facteur hortest
44. le programme recopiera les graphes dans le r pertoire de la grammaire de sortie et cr era des sous graphes correspondant aux diff rents sous r pertoires comme on peut le voir sur la figure 6 40 qui montre le graphe de sortie engendr pour notre exemple On peut constater qu une bo te contient les appels des sous graphes correspondant des sous r pertoires ici les r pertoires Banque et Nourriture et que l autre bo te fait appel tous les graphes qui se trouvaient dans le r pertoire ici le graphe truc grf Grammars corresponding to sub directories Banque_dir Nourriture _dir Grammars corresponding to graphs FIGURE 6 40 Graphe principal d une collection de graphes 6 7 R gles d application des transducteurs Cette section d crit les r gles d application des transducteurs lors des op rations de pr traitement et de recherche de motifs Les graphes de flexion et de normalisation de formes ambigu s ne sont pas concern s par ce qui suit 6 7 1 Insertion gauche du motif reconnu Lorsqu un transducteur est appliqu en mode REPLACE les sorties remplacent les s quences lues dans le texte En mode MERGE les sorties sont ins r es gauche des s quences recon nues Consid rons le transducteur de la figure 6 41 HEHE HEO Adj FIGURE 6 41 Exemple de transducteur 6 7 R GLES D APPLICATION DES TRANSDUCTEURS 145 Si l on applique ce transducteur au roman Iv
45. must be preceeded by a verb E 1 2 sentences Est il gentil a Sentence 2 a Reset Sentence Graph Rebuild FST Text close elag frame Explode Implode Apply Elag Rule Explode Implode FIGURE 7 15 R sultat de l application de la grammaire de la figure 7 14 7 3 LEV E D AMBIGUI T S LEXICALES AVEC ELAG 175 7 3 2 Compilation des grammaires ELAG Avant de pouvoir tre appliqu e un automate de texte une grammaire ELAG doit tre compil e en un fichier rul Cette op ration s effectue via la commande Elag Rules dans le menu Text qui fait appara tre la fen tre de la figure 7 16 A Elag Grammar Compilation Set of Elag Grammars plag st I Dany Unitex French ElagiPPYSiSE grf Look In la PPVS X D postpos grf O SE grf D PpviL grf D PpvLe grt D PpvLUL grf E PpvPR grf C PpvSeq ort File Name SE or Files of Type Elag Grammar grf y Compiled Elag Rule flag rul compile cancel compilation FIGURE 7 16 Fen tre de compilation des grammaires ELAG Si le cadre droite contient d j des grammaires que vous ne souhaitez pas utiliser vous pouvez les retirer au moyen du bouton S lectionnez ensuite votre grammaire dans l ex plorateur de fichiers situ dans le cadre gauche et cliquez sur le bouton pour l ajouter la liste du cadre droit Cliquez
46. ont pas t ins r es gauche du texte d entr e dans la figure 6 50 Par ailleurs les sorties sont trait es avant d tre m moris es si la sortie d une boite contient une chaine comme A LEMMAS la variable de sortie ne contiendra en fait pas cette cha ne mais le lemme associ la variable A Les variables de sortie m morisent seulement des sorties effectivement produites par la grammaire Ainsi m me en mode MERGE les variables de sortie ne m morisent jamais le texte d entr e figures 6 49 et 6 50 150 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES Quand une boite red finit une variable qui avait d j t d finie la nouvelle valeur crase l ancienne Ainsi si la variable est d finie dans une boucle la valeur de la variable juste apr s la boucle d pend du dernier passage dans la boucle 6 9 Op rations sur les variables 6 9 1 Tests sur les variables Il est possible de tester si une variable est d finie ou non afin d interrompre la recon naissance courante si la condition n est pas v rifi e Ceci se fait en ins rant la s quence xxx SETS dans la sortie d une bo te Ainsi si une variable d nomm e xxx a t d finie cette s quence est ignor e et la reconnaissance continue sinon la reconnaissance s arr te et le programme repart en arri re Ceci fonctionne sur les variables d entr e les variables de sortie et les variables de dictionnaire De fa on similaire on peut v rifier qu une
47. pr sent que ces informations rel vent plus de la syntaxe que de l analyse lexicale et nous ne les avons donc pas int gr es dans la description du jeu d tiquettes Celle ci sont donc automatiquement limin es lors du chargement de l automate du texte ce qui r duit son taux d ambiguit s 3 Ce code indique que l adjectif doit appara tre gauche du nom auquel il se rapporte comme c est le cas pour bel 184 CHAPITRE 7 AUTOMATE DU TEXTE Afin de bien distinguer les effets li s au jeu d tiquettes de ceux des grammaires ELAG il est conseill de proc der une tape pr alable de normalisation de l automate du texte avant de lui appliquer les grammaires de d sambiguisation Cette normalisation s effectue en ap pliquant l automate du texte une grammaire n imposant aucune contrainte comme celle de la figure 7 20 Notez que cette grammaire est normalement pr sente dans la distribution d Unitex et pr compil e dans le fichier norm rul FIGURE 7 20 Grammaire ELAG n exprimant aucune contrainte Le r sultat de l application de cette grammaire est que l automate d origine est nettoy de tous les codes qui ne sont soit pas d crits dans le fichier tagset def soit non conformes cette description cause de cat gories grammaticales inconnues ou de combinaisons in valides de traits flexionnels En rempla ant alors l automate du texte par l automate ainsi normalis on peut tre s r que les modific
48. sur alignements multilingues In Directia Terminologie si Inginerie Lingvistica DTIL 08 February 2008 ISBN 978 9 291220 37 3 10 24 Inkscape Vector Graphics Editor http www inkscape org 5 4 1 25 Samuel ELEUTERIO Elisabete RANCHHOD Helena FREIRE and Jorge BAP TISTA A system of electronic dictionaries of portuguese Lingvistice Investiga tiones 19 1 57 82 1995 Amsterdam Philadelphia John Benjamins Publishing Company 3 8 BIBLIOGRAPHIE 377 26 Anibale ELIA Le verbe italien Les compl tives dans les phrases un compl ment Schena Nizet Fasano Paris 1984 9 1 27 Anibale ELIA Lessico grammatica dei verbi italiani a completiva Tavole e indice generale Liguori Napoli 1984 9 1 28 Anibale ELIA and Simoneta VIETRI Electronic dictionaries and linguistic anal ysis of italian large corpora In Actes des 5es Journ es internationales d Anal yse statistique des Donn es Textuelles Ecole Polytechnique f d rale de Lausanne 2000 3 8 29 Anibale ELIA and Simoneta VIETRI L analisi automatica dei testi e i dizionari elettronici In E Burattini and R Cordeschi editors Manuale di Intelligenza Artificiale per le Scienze Umane Roma Carocci 2002 3 8 30 Vassiliki Foufi Les noms compos s A A N du Grec Moderne et leurs variantes In Kakoyianni Doa 57 11 2 31 Nathalie FRIBURGER Reconnaissance automatique des noms propres application la classification automatique de textes journalisti
49. t pas sur l cran elle peut tre occult e par d autres fen tres Unitex E Ew 31H txt NO N hum NO V n Aux avoir lt ENT gt NO estv ant NO estYpp MOpc lui Y NO Y de NOpeNhum Y sur NI abando labuser acquie ladouber agioter lagoniser archaiser arquer arriver atermoyer badauder baisser bambocher 1lt1l 1 1 SENESE y ty REJET 1 TT METE i Thi t Ty 1 MESE Ul ltli PAPE t ra rl rr il gt FIGURE 9 6 Displaying a table Pour g n rer automatiquement des graphes partir d un graphe param tr cliquez sur Compile to GRF dans le menu Lexicon Grammar La fen tre de la figure 9 7 appara t alors Dans le cadre Reference Graph in GRF format indiquez le nom du graphe param tr utiliser Dans le cadre Resulting GRF grammar indiquez le nom du graphe principal qui sera g n r Ce graphe principal est un graphe faisant appel tous les graphes qui auront t g n r s En lan ant une recherche dans un texte avec ce graphe vous appliquerez ainsi simultan ment tous les graphes g n r s 210 CHAPITRE 9 LEXIQUE GRAMMAIRE Compile Lexicon Grammar to GRF Reference Graph in GRF format city UniteiFrenchiGraphsiparametrized_graph grf Resulting GRF grammar D imy UnitexiFrenchiGraphsiTestGraph grt Name
50. to blend the hostile blood ADJ hostile NOUN blood of nterests two hostile races ADJ hostile NOUN races on which still felt ADJ sti11 NOUN felt the ela FIGURE 6 61 Marche arri re en cas de variable erron e le m me texte Pour afficher une concordance vous devez cliquer sur le bouton Build concordance Vous pouvez param trer la taille des contextes gauche et droit en caract res Vous pouvez gale ment choisir le mode de tri qui sera appliqu aux lignes de la concordance gr ce au menu Sort According to Pour plus de d tails sur les param tres de construction de la concor dance reportez vous la section 4 8 2 La concordance est produite sous la forme d un fichier HTML Vous pouvez param trer Uni tex pour que les concordances soient lues l aide d un navigateur Web voir section 4 8 2 Si vous affichez les concordances avec la fen tre propos e par Unitex vous pouvez acc der la s quence reconnue dans le texte en cliquant sur l occurrence Si la fen tre du texte n est pas ic nifi e et que le texte n est pas trop long pour tre affich vous verrez appara tre la s quence s lectionn e voir figure 6 63 De plus si l automate du texte a t construit et que la fen tre correspondante n est pas ic nifi e le fait de cliquer sur une occurrence s lectionne l automate de la phrase qui con tient cette occurrence 6 10 4 Modification du texte Vous pouvez choisir de modifier le texte
51. tre tres prudent si vous manipulez les s parateurs dans ces regles 13 31 PolyLex PolyLex OPTIONS lt list gt Ce programme prend en param tre un fichier de mots inconnus lt list gt et essaye d analyser chacun d eux comme un mot compos obtenu par soudure de mots sim ples Les mots qui ont au moins une analyse sont retir s du fichier de mots inconnus et les lignes de dictionnaire correspondant aux analyses sont ajout es au fichier OUT OPTIONS e a ALPH alphabet ALPH le fichier alphabet utiliser e d BIN dictionary BIN le dictionnaire bin utiliser e o OUT output OUT d signe le fichier dans lequel les lignes de diction naire produites doivent tre enregistr es si ce fichier existe d j les lignes sont ajout es a la fin du fichier e i INFO info INFO d signe un fichier texte dans lequel les informa tions relatives a l analyse a t r alis e Options de langue 296 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e D dutch e G german e N norwegian e R russian NOTE pour les mots hollandais ou norv giens le programme tente de lire un fichier texte contenant une liste de mots interdits Ce fichier est suppos s appeler ForbiddenWords txt voir section 14 13 7 et tre stock dans le m me r pertoire que BIN 13 32 RebuildTfst RebuildTist lt tist gt Ce programme reconstruit l automate du texte lt t fst gt en tenant compt
52. une paire attribut valeur contenue dans les codes s mantiques c est dire la valeur zzz de l attribut y y y s il y figure un code s mantique de la forme yyy zzz Les variables de dictionnaire peuvent tre utilis es en dehors du mode morphologique comme sur la figure 6 36 On peut effectuer des tests sur ces variables comme expliqu dans la section 6 7 5 lt A gt O a Inflected form a INFLECTEDS Lemma a LEMMAS Codes a CODE FIGURE 6 34 Utilisation d une variable de dictionnaire Al Concordance D My UnitexiEnglish Corpus wanhoe_snticoncord html gn of Stephen i Second scarce to the crown crown had now their ancient ost extent 5 FIGURE 6 35 R sultats de la grammaire de la figure 6 34 appliqu e en mode in MERGE Variables de dictionnaire dans LocateTfst Pour les grammaires appliqu es avec LocateTfst cf section 7 7 on dispose d une pos sibilit suppl mentaire En dehors du mode morphologique on peut m moriser dans une 6 5 EXPLORATION DES CHEMINS D UNE GRAMMAIRE 141 lt gt 9 Inflected form a INFLECTED Lemma a LEMMAS Codes a CODE FIGURE 6 36 Utilisation d une variable de dictionnaire en mode normal variable de dictionnaire une tiquette lexicale contenue dans l automate du texte Il suf fit pour cela d associer la bo te une sortie de la forme abc o abc est le nom de la variable On peut ensuite l utiliser comme
53. 11 16 Graphe de flexion NC_XXXinv de mots compos s anglais Ha ae 4 lt Nb n gt e g cross roads FIGURE 11 17 Graphe de flexion NC_XXNs de mots compos s anglais e g head of government lt Nb p gt FIGURE 11 18 Graphe de flexion NC_NofNs de mots compos s anglais FIGURE 11 19 Graphe de flexion NC_NsNs de mots compos s anglais 11 3 INT GRATION UNITEX 237 FIGURE 11 20 Graphe de flexion NC_Ns N 11 3 2 Exemple complet en fran ais lt Nb n gt de mots compos s anglais Supposons que la description des caract ristiques morphologiques du frangais est d finie par le fichier Morphology txt suivant French lt CATEGORIES gt Nb s p Gen m f lt CLASSES gt noun Nb lt var gt Gen lt var gt adj Nb lt var gt Gen lt var gt adv et que les quivalences entre les caract ristiques ci dessus et leurs codes correspondants dans les dictionnaires DELA sont d finis par le fichier French s Nb s p Nb p m Gen m f Gen f Consid rons l extrait du DELAC fran ais suivant les peuvent tre diff rents de ceux pr sents dans Unitex avant garde garde N21 fs NC_XXN Equivalences txt suivant codes flexionnels des mots simples bateau bateau N3 ms mouche mouche N21 fs NC_NN caf caf Nl ms au lait NC_NXXXX carte carte N21 fs postale postal A8 fs NC_NNS cousin cousin N8 ms germain germain A8 ms
54. 181 Compression des dictionnaires 271 296 Concat nation d expressions rationnelles 75 81 Concordance 86 156 271 comparaison 159 Configuration de la recherche 84 Conjugaison 55 Conservation des meilleurs chemins 169 304 Console 267 Consultation d un dictionnaire 51 Contexte concordance 87 157 272 copie de liste 107 zone dans un graphe 128 Contraintes flexionnelles 78 Contraintes sur les grammaires 125 Copie 103 106 108 d une liste 106 Corpus de s quences 199 Corpus qualifi 199 Couleurs configuration 112 Couper 108 Cr ation de fichiers log 266 Cr ation d une bo te 95 D D clinaison 55 D coupage en phrases 34 en unit s lexicales 38 386 Degr d ambiguit 165 DELA 31 45 DELAC 45 DELACE 45 DELAF DELAS 45 48 D limiteur de phrase 294 302 336 D limiteur de phrases 34 D placement de groupes de mots 146 D rivation 93 D tection d erreur dans les graphes 128 284 287 Diagrammes de syntaxe 94 Dictionnaire application 40 66 277 codes utilis s 49 commentaire 46 compression 64 271 296 consultation 51 contenu 49 DELAC 45 DELACE 45 DELAF DELAS 45 48 du mode morphologique 68 138 du texte 40 77 163 filtre 67 flexion automatique 55 294 format 45 granularit 165 mots compos s cor ens 268 priorit 66 recherche 51 r f rence aux informations du 77 122 s lection par d faut 41 tri 53 v rification 52 270 dis
55. 326 CHAPITRE 14 FORMATS DE FICHIERS 14 6 2 Fichier concord txt Le fichier concord txt est un fichier texte repr sentant une concordance Chaque occurrence est cod e par une ligne compos e de 3 cha nes de caract res s par es par le caract re de tabulation et qui repr sentent le contexte gauche l occurrence ventuellement modifi e par des transductions et le contexte droit 14 63 Fichier concord html Le fichier concord html est un fichier HTML qui repr sente une concordance Ce fichier est cod en UTF 8 Le titre de la page est le nombre d occurrences qu elle d crit Les lignes de la con cordance sont cod es par des lignes o les occurrences sont consid r es comme des liens hypertextes La r f rence associ e chacun de ces liens est de la forme lt a href X Y Z gt X et Y repr sentent les positions de d but et de fin de l occurrence en caract res dans le fichier name_of_text snt Z repr sente le num ro de la phrase dans laquelle appara t cette occurrence Tous les espaces sont cod s comme des espaces ins cables amp nbsp in HTML ce qui permet de conserver l alignement des occurrences m me si l une d elles se trou vant en d but de fichier a un contexte gauche compl t avec des espaces NOTE dans le cas d une concordance construite avec le param tre glossanet le fichier HTML obtenu a la m me structure sauf en ce qui concerne les liens Dans ces concordances les occurrences sont de
56. A B C D Chaque ligne correspond une modification du texte exprim e de la fa on suivante l intervalle A B du texte original correspond l intervalle C D apr s traitement A B C et D 14 13 PLUSIEURS AUTRES FICHIERS 345 tant des positions en caract res dans les fichiers textes Sur chaque ligne B A D C Par exemple si on applique le programme Normalize sur le texte Hello world avec deux espaces entre les deux mots on aura une ligne comme ceci 0 5 0 5 712 6 11 signifiant que les caract re de 0 inclus 5 non inclus des deux fichiers con tiennent exactement le m me texte et que ceux de 7 inclus a 12 non inclus du premier texte contiennent exactement le m me texte que ceux de 6 inclus a 11 non inclus du second 14 13 12 fichier d offsets uima Les fichiers d offsets uima sont crit par Tokenize et lu par Concord avec les options uima xml with header ou xml1 Ces fichiers tablissent la correspondance entre chaque token successif et une position dans le fichier d orig ine Ces fichiers textes sont constitu es de lignes contenant 3 entiers A B C et de texte entre lt et gt Chaque ligne correspond un token exprim e de la fa on suivante Le token num ro A correspond au texte de la position B inclue la position C non inclus du fichier d origine et le texte de ce token est mentionn entre lt et gt Le num ro de token A correspond au num ro de
57. Dictionary FIGURE 3 7 Configuration de la flexion automatique matrix matrices FIGURE 3 8 Grammaire de flexion N4 La figure 3 8 pr sente un exemple de grammaire de flexion Les chemins d crivent les suf fixes ajouter ou retrancher pour obtenir la forme fl chie partir de la forme canonique et les sorties texte en gras sous les bo tes donnent les codes flexionnels ajouter l entr e du dictionnaire Dans notre exemple deux chemins sont possibles Le premier ne modifie pas la forme canonique et ajoute le code flexionnel s Le second retranche une lettre gr ce l op ra teur L ajoute ensuite le suffixe ces et ajoute le code flexionnel mp Voici les op rateurs utilisables e L left enl ve une lettre l entr e e R right r tablit une lettre de l entr e En fran ais beaucoup de verbes du premier groupe se conjuguent au pr sent la troisi me personne du singulier en retirant le r de l infinitif et en changeant la 4 lettre en partant de la fin en e peler gt pele acheter gt ach te g rer gt g re etc Plut t que d crire un suffixe de flexion pour chaque verbe LLLL le LLLL te and LLLLere on peut utiliser l op rateur R pour n en crire qu un seul LLLLeRR e C copy duplique une lettre de l entr e en d calant tout ce qui se trouve sa droite Supposons par exemple que l on souhaite g n rer automatiquement des adjectifs en able p
58. ESS 200 8 3 RechercheparapproxiMation ik ss s rra Oe eh ede oH ED EO 202 Lexique grammaire 205 gT Lestables de lexique SIE wees eee a OME Su a 205 V2 Conversion d une table en graphes lt 4 ccc inagads Fates adaeda 206 O21 Prncipe des graphes parametes soc o eed sui del ee en es 206 92 2 Pormatde laiable 2 2 4 2 so Bed oe de Be ete Bie eee iS 206 923 Lesgr phes PITAMICU S gt so arre pee pe 207 924 G n ration automatique de graphes 4 0 4 du nues a 209 Alignement de texte 213 10 1 CASE III 213 10 2 Aligner des EES e E ea A A OE e aea 215 10 3 Recherche de motis 25 24 54 4 4654 2464 6 2424544888964 85 217 Flexion des mots compos s 221 PEL MI One ee o AAA Cee EOE es 221 11 1 1 Description formelle du comportement flexionnel des mots compos s 222 11 12 Approche lexicale ou grammaticale de la description morphologique 223 11 2 Formalisme de flexion des mots compos s 224 11 2 1 Caract ristiques morphologiques de la langue 224 11 2 2 D composition d un mot compos en constituants 226 11 23 Paradigme de flexion des mots composes lt lt 2 2 2 227 11 9 Me rinon a UNES lt i gt oeste a E es E ers 233 11 31 Exemple complet enanelais s ie he hehe siens 233 11 32 Exemple complet entrance cde BEES Oe RE eK e 237 11 3 3 ENSUIDIS CENSOS cad s Be ed Ge Be OR Re RHE RE rare 240 Cascade de Transducteurs 251 12 1 Applique
59. Fst2List Fst2List o out p s f d a t s m m f s a s 0s Str r s l Str 1 line i subname x c SS O0xxxx fname Ce programme prend un fichier fst2 et produit la liste des s quences reconnues par cette grammaire Les param tres sont les suivants e fname nom de la grammaire avec l extension fst2 e o out pr cise le nom du fichier de sortie Par d faut ce fichier se nomme Ist txt e S Affiche le r sultat sur la sortie standard Exclusif avec o e a t s m pr cise si l on tient compte t ou non a des ventuelles sor ties de la grammaire s indique qu il n y a qu un seul tat initial tandis que m indique qu il y en a plusieurs ce mode est utile en cor en Par d faut ce param tre vaut a s e 1 line nombre maximum de lignes crire dans le fichier de sortie e i subname indique que l on doit arr ter l exploration r cursive lorsque l on rencontre le graphe subname Ce param tre peut tre utilis plusieurs fois afin de sp cifier plusieurs graphes d arr ts e p s f d s produit l affichage des chemins de chaque sous graphe de la grammaire par d faut affiche les chemins globaux de la grammaire d af fiche les chemins en ajoutant des indications sur les imbrications d appels de sous graphes e c SS 0xXXXX remplace le symbole SS quand il appara t entre angles par le caract re unicode de code hexad cimal OxXXXX e s L R sp c
60. Graphe de flexion pour les mots qui se fl chissent comme bateau mouche Variables d unification Une caract ristique importante de notre formalisme est celle des variables d unification Elles sont repr sent es par un symbole dollar suivi d un identifiant pouvant contenir n importe quel nombre de caract res comme 91 num_10 c etc La figure 11 5 montre un graphe approximativement quivalent celui de la figure 11 4 dans la mesure o il permet d engendrer les m mes formes fl chies pour le m me mot compos Cependant ici un chemin unique repr sente a la fois le singulier et le pluriel Ceci est rendu possible grace a la variable n qui est instanci e tour a tour par toutes les valeurs du domaine de sa cat gorie Nb ici n s puis n p Quand une variable d unification apparait dans une formule du type Nb n avec un seul signe gale le syst me parcourt toutes les valeurs d clar es dans les fichiers de configuration pour cette cat gorie cf section 11 2 1 Pour chaque valeur il effectue une nouvelle instanciation de la variable L instanciation est la m me pour tous les l ments du chemin si une valeur est attribu e au premier constituant la m me valeur doit tre attribu e au troisi me ainsi que pour l ensemble du mot compos De m me si 1 M me dans le cas o les constituants simples apparaissant dans le lemme d un mot compos sont d j au pluriel comme dans cross roads 230
61. Graphe principal appelant tous les graphes g n r s 212 CHAPITRE 9 LEXIQUE GRAMMAIRE Chapitre 10 Alignement de texte Le principe de l alignement de texte est simple quand on aligne deux textes ou plus le premier est consid r comme le texte source et les autres comme ses traductions L aligne ment s effectue au niveau de la phrase parce l alignement au niveau des mots n est pas encore possible et certainement pas pertinent On peut chercher une expression A dans un des textes puis rechercher ses traductions dans les phrases align es avec celles contenant A Pour ajouter cette fonctionnalit Unitex Patrick Watrin a int gr l outil d alignement de texte Open Source XAlign d velopp au LORIA 68 Dans ce chapitre nous expliquons comment utiliser le module d alignement Le lecteur int ress par les d tails d int gration de XAlign peut consulter 23 ou 77 et 94 pour avoir une id e de ce qui peut tre fait avec ce module 10 1 Chargement de textes Il faut tout d abord s lectionner deux textes Pour cela allez sur XAlign gt Open files et vous verrez le cadre de la figure 10 1 Deux formats de textes peuvent tre utilis s texte brut unicode comme pour les corpus ou texte au format TEI format de type XML voir 55 Dans le dernier champ choisissez un fichier XML d alignement si vous en avez d j construit un Si vous choisissez un texte brut Unitex doit construire une version TEI de votr
62. Hum fs est cod e par la ligne 3er 1 N AN Hum fs Le code 3er indique que l on doit retrancher 3 caract res la s quence premi re et lui ajouter les caract res er pour obtenir premier Le 1 indique que l on doit sim plement retirer un caract re partie pour obtenir la s quence parti Le nombre 0 est utilis lorsqu on veut indiquer que l on ne doit supprimer aucun caract re 14 8 3 Fichier information sur un dictionnaire Dans le cadre Apply lexical resources il est possible d obtenir quelques infor mations sur un dictionnaire par click droit Ces informations sont associ es aux dic tionnairesbiniou binoubiniou fst2 l aide d un texte brut nomm biniou txt situ dans le m me r pertoire 14 8 4 Fichier CHECK_DIC TXT Ce fichier est produit par le programme de v rification de dictionnaire CheckDic Il s agit d un fichier texte qui donne des informations sur le dictionnaire analys et se d com pose en quatre parties La premi re partie donne la liste ventuellement vide de toutes les erreurs de syn taxe trouv es dans le dictionnaire absence de la forme fl chie ou de la forme canon ique absence de code grammatical ligne vide etc Chaque erreur est d crite par le num ro de la ligne concern e un message d crivant la nature de l erreur ainsi que le contenu de la ligne Voici un exemple de message 332 CHAPITRE 14 FORMATS DE FICHIERS Line 12451 unexpected end of line garden N s
63. Language amp Presentation Private Unitex directory where all user s dat home paumier unitex Set Graph repository C Produce log information in directory home paumier tmp set Clear all logs FIGURE 5 11 Configuration du r pertoire de d p t El E repository El Det o 5 Smith FIGURE 5 12 Exemple de r pertoire de d p t DetdolmsonDEr E FIGURE 5 13 Appel un graphe du r pertoire de d p t graphes En effet il vous suffira de mettre jour le graphe situ la racine du r pertoire de d p t Les appels des sous graphes sont repr sent s dans les bo tes par des lignes sur fond gris figure 5 9 ou kaki dans le cas de sous graphes rechercher dans le r pertoire de d p t figure 5 13 Si le fichier grf du sous graphe n est pas trouv au chemin indiqu Unitex 102 CHAPITRE 5 GRAMMAIRES LOCALES cherchera le fichier fst2 de m me nom Si Unitex ne trouve ni le fichier gr f ni le fichier fst2 l appel au graphe manquant appara t dans une ligne sur fond rouge FIGURE 5 14 Les sous graphes manquants apparaissent en rouge Sous Windows vous pouvez ouvrir un sous graphe en cliquant sur la ligne gris e tout en appuyant sur la touche Alt Sous Linux la combinaison lt Alt Click gt est intercept e par le syst me pour ouvrir un sous graphe faites un clic central sur son nom avec le bouton central ou faites
64. Nb r2 gt O lt Gen g Nb n1 Case c gt e g pranie m zgu FIGURE 11 7 Graphe de flexion pour pranie m zgu Variantes orthographiques et autres variantes Notre formalisme permet n importe quel constituant d tre omis ou d plac au sein de diff rentes formes fl chies si cela est n cessaire Il permet galement l insertion de constitu ants suppl mentaires qui n apparaissent pas dans la forme de base du mot compos Cela permet d tendre un paradigme flexionnel une description de variantes plus g n rale or thographique ou partielle variante syntaxique voir 56 pour une tude exhaustive des variantes Par exemple en anglais student union appara t dans un corpus sous les formes students union et students union au singulier ou au pluriel dans les deux cas Notre formalisme permet d ajouter les deux types de variantes la description cf figure 11 8 lt Nb n gt FIGURE 11 8 Graphe de flexion pour student union 232 CHAPITRE 11 FLEXION DES MOTS COMPOS S figure 11 9 montre un exemple dans lequel en plus de l insertion d un nouveau constituant l ordre des constituants peut tre invers Le chemin du haut permet de g n rer par exemple birth date et birth dates tandis que celui du bas repr sente les variantes syntaxiques des formes pr c dentes date of birth et dates of birth e g birth date gt gt faint lt Nb n gt Sana eee FIGURE 11 9 Graphe de flexion pour
65. a t cod deux fois comme d terminant dans deux sous cat gories de la cat gorie DET Cette finesse de description ne sera d aucune utilit si l on ne s int resse qu la cat gorie grammaticale de ce mot Il faut donc adapter la finesse des dictionnaires l utilisation recherch e DET DetQ 5 p DET Dind s DET Dadj s p FIGURE 7 3 Double entr e pour which en tant que d terminant Pour chaque unit lexicale de la phrase Unitex recherche toutes ses interpr tations possibles dans le dictionnaire des mots simples du texte On recherche ensuite toutes les suites d u nit s lexicales qui ont une interpr tation dans le dictionnaire des mots compos s du texte Toutes les combinaisons de ces interpr tations forment l automate de la phrase NOTE quand le texte contient des tiquettes lexicales e g aujourd hui ADV ces tiquettes sont reproduites l identique dans l automate sans que le programme essaye de d composer les s quences qu elles repr sentent 166 CHAPITRE 7 AUTOMATE DU TEXTE Dans chaque bo te la 1 ligne contient la forme fl chie trouv e dans le texte et la 2 ligne contient la forme canonique si elle est diff rente Les autres informations sont cod es sous la bo te voir section 7 5 1 Les espaces s parant les unit s lexicales ne sont pas retranscrits dans l automate l excep tion des espaces l int rieur de mots compos s La casse des unit s l
66. a 207 129 129 _ 106 A 49 Abst 49 ADV 49 Anl 49 AnlCol1 49 BuildKrMwuDic 268 C 50 56 119 Cassys 269 CheckDic 52 270 331 Compress 47 64 271 329 Conc 49 ConcColl 49 Concord 271 ConcorDiff 159 275 CONJC 49 CONJS 49 Convert 275 Boy 119 DET 49 Dico 40 67 68 277 DumpOffsets 278 280 Elag 282 334 ElagComp 282 en 49 Equivalences txt 225 Evamb 283 Extract 283 F 50 383 384 50 Flatten 124 283 Fst2Check 284 Fest 2Grf 189 Fst2L1st 285 Fst2Txt 36 286 G 50 Grf2Fst2 123 287 Hum 49 HumCol11 49 1 50 i 49 ImplodeTfst 289 INTJ 49 J 50 57 K 50 L 56 119 Locate 68 218 289 LocateTfst 292 m 50 Morphology txt 224 225 MultiFlex 294 N 49 n 50 ne 49 Normalize 266 294 norm rul 184 P 50 57 119 p 50 PolyLex 41 295 PREP 49 PRO 49 R 56 119 RebuildTfst 296 Reconstrucao 169 296 Reg2Grf 297 sj 34 50 81 294 302 319 336 341 s 50 se 49 Seq2Grf 297 SortTxt 53 298 313 Stats 298 STOP 77 81 INDEX T 50 t 49 Table2Grf 299 Tagger 299 TagsetNormTfst 300 tags ind 72 TEI2Txt 300 Tfst2Grf 301 Tfst2Unambig 192 301 Tokenize 38 302 tokens txt 193 TrainingTagger 303 Txt2Tfst 304 U 57 119 Uncompress 305 UnitexTool 305 UnitexToolLogger 306 Untokenize 305 Unxmlize 309 V 49 w 50 57 119 XMLizer 310 Y 50
67. alors sur le bouton Compile Ceci lancera le programme ElagComp qui va compiler la grammaire s lectionn e pour cr er un fichier nomm elag rul par d faut Si vous avez s lectionn votre grammaire dans le cadre droit vous pouvez rechercher les motifs qu elle reconna t en cliquant sur le bouton Locate Cela ouvre la fen tre Locate Pattern en sp cifiant automatiquement un nom de graphe se terminant par conc fst2 Ce graphe correspond la partie si de la grammaire Vous pouvez ainsi obtenir les occur rences du texte sur lesquelles la grammaire s appliquera NOTE le fichier conc fst2 utilis pour localiser la partie si d une grammaire est g n r lors de la compilation des grammaires ELAG au moyen du bouton Compile Il faut donc avoir d abord compil votre grammaire avant d utiliser la fonction de recherche du bouton Locate 7 3 3 Lev e d ambiguit s Une fois que vous avez compil votre grammaire en un fichier elag rul vous pouvez l appliquer l automate du texte Dans la fen tre de l automate du texte cliquez sur le bou ton Apply Elag Rule Une bo te de dialogue appara tra pour vous demander le nom du 176 CHAPITRE 7 AUTOMATE DU TEXTE fichier rul utiliser voir figure 7 17 Comme le fichier par d faut est bien elag rul cliquez simplement sur OK Cela lancera le programme Elag qui va effectuer la lev e d ambiguit s E FST Text 3 sentences du car se ferme automatiquement
68. an appropriate copyright notice and disclaimer of war ranty keep intact all the notices that refer to this License and to the absence of any warranty and distribute a copy of this License along with the Linguistic Resource You may charge a fee for the physical act of transferring a copy and you may at your option offer warranty protection in exchange for a fee You may modify your copy or copies of the Linguistic Resource or any por tion of it thus forming a work based on the Linguistic Resource and copy and distribute such modifications or work under the terms of Section 1 above provided that you also meet all of these conditions a The modified work must itself be a linguistic resource b You must cause the files modified to carry prominent notices stating that you changed the files and the date of any change c You must cause the whole of the work to be licensed at no charge to all third parties under the terms of this License These requirements apply to the modified work as a whole If identifiable sections of that work are not derived from the Linguistic Resource and can be reasonably considered independent and separate works in themselves then this License and its terms do not apply to those sections when you distribute them as separate works But when you distribute the same sec tions as part of a whole which is a work based on the Linguistic Resource the distribution of the whole must be on the terms of thi
69. au lieu de construire une concordance Pour cela s lectionnez un nom de fichier dans le cadre Modify text de la fen tre de la figure 6 62 Ce fichier doit porter l extension txt Si vous souhaitez modifier le texte courant il faut choisir le fichier txt correspondant Si vous choisissez un autre nom de fichier le texte courant ne sera pas affect Cliquez sur le bouton GO pour lancer la modification du texte Les r gles de priorit s appliqu es lors de cette op ration sont d taill es la section 6 7 158 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES Located sequences Concordance Statistics Modify text Resulting snt file Set File Extract units Set File Extract matching units Extract unmatching units Concordance presentation C Use a web browser to view the concordance better for more than 2000 matches Show differences with previous concordance Show matching sequences in context Context length Stopat Sort according to Left 40 chars S Center Left Right 55 chars 5 Build concordance FIGURE 6 62 Configuration de l affichage des occurrences trouv es Une fois cette op ration effectu e le fichier r sultant est une copie du texte dans laquelle les sorties ont t prises en compte Les op rations de normalisation et de d coupage en unit s lexicales sont automatiquement appliqu es ce fichier texte Les dictionnaires du texte e
70. aujourd suivi d une apostrophe et de hui car aujourd est un mot inconnu ce 7 3 LEVEE D AMBIGUI T S LEXICALES AVEC ELAG 171 Construct the Text FST Normalization Apply the Normalization grammar home paumier unitex English Graphs Normalization Norm grf lv Clean Text FST Normalize according to Elag tagset def _ Linearize with the Tagger home paumier unitex English Dela tagger_data_cat bin Set Use Following Dictionaries previously constructed The program will construct the text FST according to the DLF DLC and tags ind files previously built by the Dico program for the current text Cancel Construct FST FIGURE 7 10 Configuration de la construction de l automate du texte qui fait une forme non tiquet e contre z ro dans le cas de l adverbe compos La figure 7 11 montre l automate de la figure 7 9 apr s nettoyage 7 3 Lev e d ambiguit s lexicales avec ELAG Le programme ELAG permet d appliquer des grammaires de lev e d ambiguit s sur l automate du texte C est un m canisme puissant qui permet chacun d crire ses propres r gles de fa on ind pendante des r gles d j existantes Cette section pr sente rapidement le formalisme des grammaires utilis es par ELAG ainsi que le fonctionnement du programme Pour plus de d tails le lecteur pourra se reporter 6 et 64 7 3 1 Grammaires de lev e d ambiguit s Les grammai
71. avec une sortie au sens habituel Par exemple pour ins rer sous la boite de la figure 6 11 la sortie lt ADJ position ant pos gt saisissez dans le champ texte lt A gt 1 4 lt ADJ position ant pos gt 6 2 5 D tection d erreurs Pour viter aux programmes de se bloquer ou de planter Unitex effectue automatique ment une d tection d erreurs lors de la compilation des graphes Le compilateur de graphes v rifie que le graphe principal ne reconna t pas le mot vide et recherche toutes les formes de boucles infinies Si une erreur est trouv e un message d erreur appara t dans la fen tre de compilation La figure 6 12 montre le message obtenu lorsqu on tente de compiler le graphe Det de la figure 6 10 Compiling graph Det HCompiling graph DetCompose MRecursion detection started Resolving lt E gt conditions Looking for lt E gt loops Looking for infinite recursions Recursion detection completed ERROR Det calls DetCompose that recalls the graph Det Cancel FIGURE 6 12 Message d erreur obtenu en compilant le graphe Det Si vous avez lanc une recherche de motifs en s lectionnant un graphe au format grf et qu Unitex y d c le une erreur l op ration de recherche sera automatiquement interrompue 6 3 Contextes Les graphes d Unitex sont des grammaires alg briques Elles sont galement appel es grammaires hors contexte car lorsque l on souhaite reconna tre une s que
72. bas droite le nom du fichier est obtenu en rempla ant l extension 1st par rul Vous pouvez maintenant appliquer votre ensemble de grammaires Comme expliqu plus haut cliquez sur le bouton Apply Elag Rule dans la fen tre de l automate du texte Quand la bo te de dialogue vous demande le nom du fichier rul utiliser cliquez sur le bouton Browse et s letionnez votre ensemble L automate r sultat est identique celui qui aurait t obtenu en appliquant successivement chacune des grammaires 178 CHAPITRE 7 AUTOMATE DU TEXTE 7 3 5 Fen tre de traitement d ELAG Lors de la d sambigu sation le programme Elag est lanc dans une fen tre de traite ment qui permet de voir les messages mis par le programme pendant son ex cution Par exemple lorsque l automate du texte contient des symboles qui ne correspondent pas au jeu d tiquettes d ELAG voir section suivante un message indique la nature de l erreur rencontr e De m me lorsqu une phrase est rejet e toutes les analyses possibles ont t limin es par les grammaires un message indique le num ro de la phrase Cela permet de localiser rapidement la source des problemes valuation du taux d ambiguit L valuation du taux d ambiguit ne se base pas uniquement sur le nombre moyen d in terpr tations par mot Afin d avoir une mesure plus repr sentative le systeme prend gale ment en compte les diff rentes combinaisons de mots Durant la lev e d
73. centr es sur un m me axe e Bottom les bo tes sont align es sur la bo te la plus basse Les possibilit s d alignement vertical sont e Left les bo tes sont align es sur la bo te la plus gauche e Center les bo tes sont toutes centr es sur un m me axe e Right les bo tes sont align es sur la bo te la plus droite 112 CHAPITRE 5 GRAMMAIRES LOCALES no_antialiasing grf X BOULOTiRechercheimanuelunitexiresourcesi o 7 FIGURE 5 28 Exemple d antialiasing La figure 5 30 montre un exemple d alignement Le groupe de bo tes situ droite est une copie des bo tes de gauche qui a t align e verticalement gauche L option Use Grid de la fen tre d alignement permet d afficher une grille en arri re plan du graphe Cela permet d aligner approximativement les bo tes 5 3 5 Pr sentation polices et couleurs Vous pouvez configurer l aspect d un graphe en appuyant sur lt Ctrl R gt ou en cliquant sur Presentation dans le sous menu Format du menu FSGraph ce qui provoque l af fichage de la fen tre de la figure 5 32 5 3 OPTIONS DE PR SENTATION 113 Alignment x Horizontal Vertical C Use Grid every 30 pixels FIGURE 5 29 Fen tre d alignement een more y Y as N J Teu NS FIGURE 5 30 Exemple d alignement vertical gauche Les param tres de polices sont e Input police utilis e dans l
74. ces iles l bas o 8 All sentences Plain text All sentences Plain text e Matched sentences All sentences HTML O Matched sentences O All sentences HTML Aligned with target concordance Aligned with source concordance Locate Clear alignment Save alignment Save alignment as FIGURE 10 3 Cadre d alignement de texte 10 2 Aligner des textes Une fois les textes charg s vous pouvez les aligner en cliquant sur Align Le nom du fichier XML contenant toutes les informations d alignement vous sera demand Ensuite Unitex lance le programme XAlign vous visualisez alors l alignement sous la forme de traits rouges entre les phrases align es comme le montre la figure 10 4 Il est possible d diter les liens d alignement avec la souris Le fait de cliquer sur un lien le supprime Pour ajouter un lien ou le supprmer s il existe d j s lectionnez une phrase avec la souris dans le texte de votre choix source ou destination et d placez la souris jusqu la phrase correspondante dans l autre texte Le lien en cours de cr ation appara t en jaune comme le montre la figure 10 5 En le s lectionnant ce lien est effectivement ajout et devient rouge Une fois toutes les corrections effectu es sauvegardez le nouvel alignement au moyen des boutons Save alignment Save alignment as Une caract ristique int ressante du programme XAlign est qu il est r entrant Cela siginifie q
75. cet attribut peut convenir Il est galement possible de d clarer qu une entr e ne prend aucun trait flexionnel au moyen d une ligne ne contenant que le caract re _ underscore Ainsi par exemple si nous consid rons les lignes suivantes extraites de la section concernant la description des verbes W K lt genre gt lt nombre gt Elles permettent de d clarer que les verbes l infinitif d not par le code w n ont pas d autres traits flexionnels positionn s tandis que les formes participe pass code K sont galement attribu es d un genre et d un nombre Description des codes flexionnels La principale fonction de la partie discr est de diviser les tiquettes en sous cat gories ayant un comportement morphologique similaire Ces sous cat gories sont ensuite utilis es pour faciliter l criture de la partie complete Pour la lisibilit des grammaires ELAG il est souhaitable que les l ments d une m me sous cat gorie aient tous le m me comportement flexionnel dans ce cas la partie complete est compos e d une seule ligne par sous cat gorie Consid rons par exemple les lignes suivantes extraites de la description des pronoms Pdem lt genre gt lt nombre gt PpvIl lt genre gt lt nombre gt lt pers gt PpvPr 182 CHAPITRE 7 AUTOMATE DU TEXTE Ces lignes signifient e tous les pronoms d monstratifs PRO P dem gt ont des indications de genre et de nom bre et aucune autre
76. compos dans son ensemble Dans sa version actuelle MULTIFLEX repose sur le syst me de flexion des mots simples d Unitex e MULTIFLEX utilise les m mes codages qu Unitex i e Unicode 3 0 e MULTIFLEX utilise l diteur de graphe d Unitex pour repr senter la flexion des mots compos s e MULTIFLEX admet des principes de description morphologique similaires ceux du syst me DELA mis en uvre dans Unitex Ainsi un paradigme est un ensemble d ac tions effectuer sur le lemme afin de g n rer ses formes fl chies et de leurs associer les informations flexionnelles correspondantes e MULTIFLEX permet d tendre la flexion des mots simples celle des mots compos s en produisant partir d un DELAC DELA lectronique des mots compos s un DELACF DELA lectronique des formes fl chies de mots compos s Le format du DELACF g n r est compatible avec Unitex tandis que le format du DELAC est nouveau mais inspir de celui du DELAS DELA lectronique dictionnaire des mots simples Les sections suivantes pr sentent pour plusieurs langues des exemples complets de flexion d un DELAC en DELACEF travers l interface MULTIFLEX Unitex 11 3 1 Exemple complet en anglais Supposons que la description des caract ristiques morphologiques de l anglais est d finie par le fichier Morphology txt suivant English lt CATEGORIES gt Nb s p lt CLASSES gt noun Nb lt var gt adj 234 CHAPITRE 11 FLEXION DES MOTS COM
77. concordance HTML sp cial utilis par l interface de lemmatisation de l interface graphique d Unitex REMARQUE les options e et w acceptent toutes deux un fichier d offset comme l accepte u PRLG X Y produit une concordance pour des corpus PRLG o chaque ligne est pr fix e par l information extraite avec l option PRLG de Unxmlize X est le fichier produit par l option PRLG de Unxmlize et Y est le fichier pro duit par l option output_offsets de Tokenize Remarquons que si cette option est utilis e en plus avec u l argument Y remplace l argument de u A axis presque pareil que index mais les nombres repr sentent le caract re m dian de chaque occurrence Pour plus d information consultez 32 274 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e x xalign un autre fichier index utilis par le module d alignement de texte Chaque ligne est form e de 3 entiers X Y Z suivi du contenu de l oc currence X est num ro de la phrase partant de 1 Y et Z sont les positions de d but et de fin de l occurrence dans la phrase exprim e en caract res e m TXT merge TXT indique au programme qu il doit produire une ver sion modifi e du texte et l enregistrer dans le fichier d nomm TXT voir sec tion 6 10 4 e T export_csv produit un fichier avec le s parateur tabulation export csv dans l ordre du texte avec le format suivant ABCDEE o A nombre de lignes dans le fichier csv B n
78. contenant l unique entr e pomme de terre N zl fs La s quence Igor n tant ni un mot simple du francais ni une partie de mot compos a t consid r e comme un mot inconnu L application de dictionnaires s effectue avec le pro gramme Dico Les trois fichiers produits 41 pour les mots simples dlc pour les mots compos s et err pour les mots inconnus sont plac s dans le r pertoire du texte On appelle dictionnaires du texte les fichiers d1f et dlc Une fois l application des dictionnaires effectu e Unitex pr sente par ordre alphab tique les mots simples compos s et inconnus trouv s dans une fen tre La figure 2 13 montre les r sultats pour un texte anglais Il est galement possible d appliquer des dictionnaires en dehors du pr traitement du texte Pour cela il faut cliquer sur Apply Lexical Resources dans le menu Text Unitex af fiche alors une fen tre voir figure 2 14 qui permet de choisir la liste des dictionnaires appliquer La liste User resources recense tous les dictionnaires bin et st 2 pr sents dans le r per toire langue Dela de l utilisateur Les dictionnaires du syst me sont list s dans le cadre intitul System resources Utilisez lt Ctrl click gt pour s lectionner plusieurs dictionnaires Les dictionnaires syst mes sont appliqu s avant les dictionnaires utilisateurs Vous pouvez choisir l ordre des dictionnaires des listes utililisateur et syst me l aid
79. correspondant cette langue dans le r pertoire syst me Unitex ce qui n cessite d avoir les droits d acc s ce r pertoire il vous faudra peut tre demander votre administrateur syst me de le faire En revanche si vous tes le seul utilisateur concern par la langue vous pouvez copier le r pertoire en question dans votre r pertoire de travail Vous pourrez ainsi travailler sur cette langue sans qu elle soit propos e aux autres utilisateurs 24 CHAPITRE 1 INSTALLATION D UNITEX K Welcome Welcome paumier Your private Unitex directory where you can store your own data is fhome thesards paumier unitex FIGURE 1 3 Premi re utilisation sous Linux 1 8 D sinstallation Quel que soit le syst me sous lequel vous travaillez il vous suffit de supprimer le r per toire Unitex pour effacer tous les fichiers du syst me Sous Windows vous devrez ensuite supprimer le raccourci vers Unitex jar si vous en avez cr un m me chose sous Linux ou MacOS si vous avez cr un alias 1 9 Unitex pour les d veloppeurs Si vous tes programmeur cela peut vous int resser de lier votre code avec les sources C d Unitex Pour faciliter cette op ration vous pouvez compiler Unitex en tant que li brairie dynamique qui contient toutes les fonctions Unitex functions sauf mains bien s r La page http docs unitexgramlab org projects unitex library fr latest contient une documentation sur la librairie
80. d entiers une bo te Cela fixe les limites du nombre de fois que le motif apparait Le motif doit tre d crit dans une boite unique Si on associe un intervalle m M une bo te contenant lt A gt figure 6 11 le chemin reconnaitra des s quences avec au moins m adjectifs cons cutifs et pas plus de M 155 matches ans un troit espace peu p2 ait un express pr t partir par un extr me confort 5 D fvant un fait brutal qu il ne fera un fameux homme S Et ke d un fauve n en troublait le 1 4 3 E d un fin tissu ramassaient un lt a gt lt gt 5 Un formidable juron s cha ait un fort galant homme et 1 S Un gar on g d une trent vu un gar on plus gai plus a ant un gar on si d contenanc d un g teau farci de tiges ait un grand avantage d auta 5S Un grand Tumeur peut fume ient un grand nombre de gentle Want un grand tirant d eau 4 Il FIGURE 6 11 Utilisation d un intervalle pour reconna tre plusieurs tokens cons cutifs On attache un intervalle en ins rant m M dans la sortie de la boite juste apr s le carac tere et selon les r gles e m M au moins m motifs cons cutifs et pas de plus de M 128 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES e M de0 M e m au moins m La boite ne doit pas tre connect e a elle m me par une boucle directe Un intervalle est compatible
81. de ces syst mes Il pr sente galement les proc dures d ajout de nouvelles langues et de d sinstallation 1 1 Licences Unitex est un logiciel libre Cela signifie que le code source des programmes est distribu avec le logiciel et que chacun peut le modifier et le redistribuer Le code des programmes d Unitex est sous licence LGPL 36 l exception de 1 la biblioth que de manipulation d expressions r guli res TRE de Ville Laurikari 65 qui est sous une licence du genre des licences BSD a 2 clauses 2 la biblioth que wingetopt de Todd Miller et de la Fondation NetBSD sous licence BSD license plus permissive que la licence LPGL 3 l analyseur syntaxique Xerces2 Java Parser de l Apache Software Foundation sous licence Apache 4 la biblioth que LibYAML de Kirill Simonov qui est sous licence MIT galement plus permissive que la licence LGPL 5 la bibliotheque SVNKit de TMate Software sous licence TMate La licence LGPL est plus permissive que la licence GPL car elle permet d utiliser du code LGPL dans des logiciels non libres Dans les deux cas le logiciel peut librement tre utilis et distribu Toutes les ressources linguistiques distribu es avec Unitex sont soumises a la licence LGPLLR 54 Le texte complet des licences LGPL BSD a 2 clauses Apache MIT TMate et LGPLLR se trouve dans les annexes a la fin de ce manuel 19 20 CHAPITRE 1 INSTALLATION D UNITEX 1 2 Environ
82. de telle sorte qu il est consult quand le programme Locate rencontre des masques lexicaux en mode morphologique Mais cette solution ne fonctionne que pour les formes reconnues par le graphe dictionnaire pendant l application initiale des dictionnaires cf section 3 7 et non pour celles qui n apparaissent dans le texte que comme parties de tokens Si on ajoute z la place de b le dictionnaire produit de fa on interne pour le texte est imm diatement compress et il peut tre consult quand d autres graphes dictionnaires sont appliqu s par la suite Conventions de nommage Le processus de nommage d un graphe dictionnaire s tablit comme suit nom XYZ st2 e X prend l une des valeurs rRmM r signifie mode REPLACE Msignifie mode MERGE mode par d faut e Y prend l une des valeurs bBzZ option qui r git la construction d un dictionnaire du mode morphologique voir ci dessus e Z prend l une des valeurs aA1LsS a signifie que le graphe est appliqu en mode All matches 1 signifie mode Longest matches mode par d fault s signifie Short est matches 3 7 4 Graphe dictionnaire morphologique Dans un graphe dictionnaire chaque chemin doit par d faut produire une entr e lex icale inclure dans le dictionnaire du texte Dans un graphe dictionnaire morphologique chaque chemin doit produire une s quence d une ou plusieurs tiquettes d limit es par 71 3 7 APPLICATION
83. dec Hso V i pass Morph FIGURE 7 40 Automate de phrase reconnue par la grammaire de la figure 7 39 REMARQUES 1 Les lettres Jamo ne sont pas dans le fichier contenant l alphabet cor en Alphabet txt NE LES AJOUTEZ PAS A CE FICHIER parce que cela occasionnerait des disfonction nements des programmes 2 Ce fichier alphabet contient les quivalences entre certains caract res chinois et cer 198 CHAPITRE 7 AUTOMATE DU TEXTE tains Hangul Dans la pratique si la grammaire contient un caract re chinois qui pos s de un tel Hangul comme quivalent il reconna t celui ci dans l automate du texte Par exemple la grammaire de la figure 7 41 reconna t la phrase de la figure 7 40 parce que l alphabet contient un quivalent pour ce caract re comme le montre la figure mn me FIGURE 7 41 Une grammaire avec un caract res chinois 52 BO z2 FIGURE 7 42 Extrait du fichier contenant l alphabet cor en Chapitre 8 Automate de S quences La construction de grammaires locales peut tre un long processus durant lequel le lin guiste r p te de nombreuses fois les m mes op rations La finalit du programme Seq2Grf est de produire rapidement et automatiquement des grammaires locales Ce programme peut tre utilis en ligne de commande ou en cliquant sur Construct Se quences Automaton dans le menu Text L utilisation de la commande Seq2Grf est d crite la section 13 35 Pour un docu
84. documentation and or other materials provided with the distribution 3 Redistributions in any form must be accompanied by information on how to obtain complete source code for the software that uses SVNKit and any accom panying software that uses the software that uses SVNKit The source code must either be included in the distribution or be available for no more than the cost of distribution plus a nominal fee and must be freely redistributable un der reasonable conditions For an executable file complete source code means the source code for all modules it contains It does not include source code for modules or files that typically accompany the major components of the oper ating system on which the executable file runs 4 Redistribution in any form without redistributing source code for software that uses SVNKit is possible only when such redistribution is explictly permitted by TMate Software Please contact TMate Software at support svnkit com to get such permission 367 368 CHAPITRE 14 FORMATS DE FICHIERS THIS SOFTWARE IS PROVIDED BY TMATE SOFTWARE AS IS AND ANY EX PRESS OR IMPLIED WARRANTIES INCLUDING BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANTABILITY FITNESS FOR A PARTICU LAR PURPOSE OR NON INFRINGEMENT ARE DISCLAIMED IN NO EVENT SHALL TMATE SOFTWARE BE LIABLE FOR ANY DIRECT IN DIRECT INCIDENTAL SPECIAL EXEMPLARY OR CONSEQUENTIAL DAM AGES INCLUDING BUT NOT LIMITED TO PROCUREMENT OF SUBSTI
85. e cursentence grf graphe repr sentant l automate de la phrase e cursentence txt fichier texte contenant la phrase e cursentence tok fichier texte contenant le nombre de token qui compose la phrase 13 43 Tfst2Unambig Tfst2Unambig OPTIONS lt tfst gt Ce programme prend un automate de texte t fst et produit le fichier texte quiv alent si celui ci est lin aire i e sans ambigu t Voir section 7 6 page 192 OPTIONS e o TXT out TXT fichier de sortie 302 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES 13 44 Tokenize Tokenize OPTIONS lt txt gt Ce programme d coupe le texte en unit s lexicales lt txt gt le chemin d acc s com plet au fichier texte sans omettre l extension snt extension OPTIONS e a ALPH alphabet ALPH alphabet file e c char_by_char indique que le programme est appliqu caract re par caract re l exception du d limiteur de phrase S du marqueur STOP et d tiquettes lexicales comme today ADV qui sont consid r es comme des unit s simples e w word_by_word Avec cette option le programme consid re qu une unit est soit une s quence de lettres ces lettres sont d finies dans le fichier alphabet ou un caract re qui n est pas une lettre ou le d limiteur de phrase S ou une tiquette lexicale comme aujourd hui ADV C est le mode par d faut t TOKENS tokens TOKENS d signe un fichier a tokens txt
86. elle doit porter sur la forme fl chie le lemme les codes grammaticaux et s mantiques et ou les codes flexionnels Ainsi si vous voulez rechercher tous les verbes qui ont le trait s mantique t marquant la transitivit il vous suffit de chercher t en cochant Grammati 2 4 OUVERTURE D UN TEXTE 31 cal code Vous obtiendrez ainsi les entr es voulues sans ambiguit s avec toutes les autres occurrences de la lettre t BE x Find Find Sentence Dictionary Search Find what Find Next Replace Replace Next Occurrences 0 Replace Options Count occurrences Search from begining Vv Grammatical code __ Canonical form Replace All O Search up _ Inflected form Flexional code Close a Search down FIGURE 2 6 Recherche du trait s mantique t dans un dictionnaire lectronique 2 4 Ouverture d un texte Unitex propose d ouvrir deux types de fichiers textes Les fichiers portant l extension snt sont des fichiers textes pr trait s par Unitex qui sont pr ts tre manipul s par les dif f rentes fonctions du syst me Les fichiers portant l extension txt sont des fichiers bruts Pour utiliser un texte il faut donc commencer par ouvrir le fichier t xt correspondant en cliquant sur Open dans le menu Text 2 5 Pr traitement du texte Une fois le texte s lectionn Unitex vous propose de le pr traiter Le pr traitement du texte
87. en ins rant o1d au d but de son extension Par exemple si un fichier ASCII est nomm biniou txt le processus de conversion va cr er une copie de ce fichier ASCII nomm e biniou old txt et va remplacer le contenu de biniou txt par son quivalent en Unicode Si le codage propos par d faut n est pas le bon ou si vous voulez renommer le fichier autrement qu avec le suffixe o1d vous pouvez utiliser la commande Transcode Files dans le menu File Edition Cette commande vous permet de choisir les codages d origine et de destination des documents convertir voir figure 2 3 Par d faut le codage source propos est celui qui correspond la langue courante et le codage de destination est Unicode Little Endian Vous pouvez modifier ces choix en s lectionnant n importe quels codages de source et destination Ainsi vous pouvez si vous le souhaitez convertir vos donn es dans d autres codages comme par exemple UTF 8 si vous voulez en faire des pages web Le bouton Add Files vous permet de s lectionner les fichiers convertir Le bouton Remove Files permet de retirer de la liste des fichiers s lectionn s par erreur Le bouton Transcode lancera la 1 Unitex propose galement de convertir automatiquement les graphes et dictionnaires qui ne sont pas en Unicode Little Endian 2 2 FORMAT DES TEXTES 29 Transcoding home paumier Bureau biniou txt is not a Unicode Little Endian one Do you want to transcode it f
88. espace Les anciens codes correspondant lt WORD gt lt LOWER gt lt UPPER gt et lt FIRST gt taient re spectivement lt MOT gt lt MIN gt lt MAJ gt et lt PRE gt Ils restent op rationnels afin de conserver la compatibilit descendante du syst me avec les graphes existants mais ils sont maintenant d pr ci s c est dire qu on recommande de les viter dans les graphes con us pour fonc tionner avec les versions plus r centes pour ne pas faire augmenter inutilement le nombre de masques lexicaux en usage Par d faut l espace est facultatif entre deux bo tes Si l on veut interdire la pr sence de ce s parateur il faut utiliser le symbole sp cial l inverse si vous souhaitez forcer la pr sence de l espace vous devez utiliser la s quence Les lettres minuscules et majuscules sont d finies par un fichier alphabet voir chapitre 14 Pour plus de d tails sur les graphes voir le chapitre 5 Pour plus de d tails sur le d coupage d un texte en phrases voir 21 La gram maire utilis e se nomme Sentence fst2 et se trouve dans le r pertoire suivant r pertoire personnel langue Graphs Preprocessing Sentence 2 partir de la version 3 1b ta r vision 4072 du 2 octobre 2015 36 CHAPITRE 2 CHARGEMENT D UN TEXTE L application de cette grammaire un texte s effectue gr ce au programme Fst2Txt en mode MERGE Cela signifie que les sorties produites par la gramma
89. et var1 Ces symboles d finissent respectivement le d but et la fin de la zone m moriser Cr ez deux bo tes con tenant l une var1 et l autre var1 Ces bo tes ne doivent rien contenir d autre que le nom de la variable pr c d de et suivi d une parenth se Reliez ensuite ces bo tes la zone de la grammaire voulue Dans le graphe de la figure 5 21 on reconna t une s quence com mengant par un nombre que l on stocke dans une variable nomm e var1 suivi de dollar ou dollars m 1 al VALUE var1 var Vv FIGURE 5 21 Utilisation d une variable d entr e var1 Les noms de variables peuvent contenir des lettres latines non accentu es minuscules ou majuscules ainsi que des chiffres et le caract re _ underscore Unitex fait la diff rence entre les lettres minuscules et majuscules Quand une variable a ainsi t d finie on peut l utiliser dans les sorties en encadrant son nom avec le caract re La grammaire de la figure 5 22 reconna t une date form e d un mois et d une ann e et produit en sortie la m me date mais dans l ordre ann e mois Si on veut utiliser le caract re en sortie d une bo te on doit le redoubler comme le montre la figure 5 21 Quand une boite red finit une variable qui avait d j t d finie la nouvelle valeur crase l ancienne Ainsi si la variable est d finie dans une boucle la valeur de la variable juste apr s la boucle d pend du dernie
90. et un ensemble de valeurs flexion nelles il renvoie toutes les formes fl chies corespondantes Par exemple en polon ais si le cas instrumental du mot reka doit tre produit trois formes doivent tre ren voy es r k instrumental singulier rekami et rekoma deux variantes de l instrumen tal pluriel reka lt Case Inst gt reka lt Nb sing Gen fem Case Inst gt rekami lt Nb pl Gen fem Case Inst gt rekoma lt Nb pl Gen fem Case Inst gt 11 3 INT GRATION UNITEX 233 La pr sence d une interface entre le syst me de flexion des mots simples et celui des mots compos s permet une meilleure modularit et une ind pendance de l un vis vis de l autre Le syt me de flexion des mots compos s n a pas besoin de savoir comment les formes fl chies des mots simples sont d crites analys es et g n r es Il a seulement besoin d un ensemble de formes correctement fl chies des constituants des mots compos s R ciproque ment le syst me pour les mots simples ne connait rien de la mani re dont celui des mots compos s combine les formes fournies 113 Int gration Unitex L un des principes majeurs de conception de MULTIFLEX est d tre aussi ind pendant que possible du syst me de flexion des mots simples Cependant l existence d un tel sys teme est in vitable parce qu un mot compos est form de mots simples que nous devons tre en mesure de fl chir dans le but de fl chir un mot
91. ex cut es en cliquant sur Info gt Console Il est aussi possi ble de voir les options des differents programmes dans Info gt Help on commands voir Figure 13 1 Remarquons que tous les programmes Unitex poss dent l option h help Help on commands CheckDic This program is part of Unitex 2 1 version Compress Copyright 2001 2009 Universit Paris Est Marne la Vall e CompressKr Contact lt unitex univ mly fr gt Concord Usage Convert OPTIONS lt text_1 gt lt text_2 gt lt text_3 gt ConcorDiff lt text_i gt text file to be converted OPTIONS S X src X source encoding of the text file to be converted d X dest X encoding of the destination text file The default value is LITTLE ENDIAN Output options ri replace sources files will be replaced by destination files default ps PFX source files will be renamed with the prefix PFX 4 Ill FIGURE 13 1 Help on commands IMPORTANT plusieurs programmes utilisent le r pertoire du texte mon_texte_snt Ce r pertoire est cr par l interface graphique apr s la normalisation du texte Si 265 266 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES vous travaillez en ligne de commande vous devrez cr er ce r pertoire vous m me apr s l ex cution du programme Normalize IMPORTANT 2 lorsqu un param tre contient des espaces vous devez l entourer de guillemets pour qu il ne soit pas consid r comme plusieurs param tres
92. fait en les s parant par le caract re L expression Je ttutil telle ontnous voustilstelles lt V gt reconna t un pronom suivi par un verbe Si l on veut rendre un l ment facultatif dans une expression il suffit de faire l union de cet l ment avec le mot vide epsilon Exemples le petit lt E gt chat reconna t les s quences le chat et le petit chat lt E gt franco anglais belge reconna t anglais belge franco anglais et franco belge 4 6 toile de Kleene L toile de Kleene repr sent e par le caract re permet de reconna tre z ro une ou plusieurs occurrences d une expression L toile doit tre plac e droite de l l ment con cern L expression il fait tr s froid reconna t il fait froid il fait tr s froid il fait tres tr s froid etc L toile est prioritaire sur les autres op rateurs Il faut utiliser les parenth ses pour appliquer l toile une expression complexe L expression 0 0 1 2 3 4 5 6 7 8 9 x reconna t un z ro suivie d une virgule et d une suite ventuellement vide de chiffres ATTENTION il est interdit de rechercher le mot vide avec une expression rationnelle Si l on essaye de chercher 0 1 2 3 4 5 6 7 8 9 x le programme signalera une erreur comme le montre la figure 4 3 4 7 FILTRES MORPHOLOGIQUES 83 F ERROR fessages with a colored background are generated by the interface not by the external programs Expression
93. gest de zi cu zi les plus quotidiens P A Ne cn eS aroi mai RAT Si apoi recurgem la cainta gi la tot ce ne P mange E ofer doctrinele noastre filosofice l un d entre nous ligi i politice commen ait Tante LAPS EE EE donne moi le dessus s il si daca toate astea nu sintindeajuns niait Elle avem si un fel de reminiscenta de regret 108 O All sentences Plain text All sentences Plain text e 8 Matched sentences Matched sentences All sentences HTML Allsentences HTML O Aligned with target concordance Aligned with source concordance gt Locate Clear alignment Align Save alignment Save alignment as Locate FIGURE 10 8 Affichages des phrases reconnues Pour utiliser des textes parall les il est int ressant de retrouver les phrases align es avec les phrases reconnues Il suffit pour cela de s lectionner pour l autre texte le mode d affichage Aligned with source concordance Dans ce mode Unitex filtre les phrases non li es a des phrases reconnues dans le texte source Il est ainsi facile de rechercher une expression dans un texte et de trouver la phrase correspondante dans l autre comme le montre la figure 10 9 10 3 RECHERCHE DE MOTIFS 219 D My Unitex XAlign funtana xml mais nous assassinons sugrum rn dar noi asasin m cu atita tour de bras corme nous nongalant de parc am minca am mangeons comme nous respira am face un gest de zi cu zi ESRIFO
94. gr ce un m canisme de graphes param tr s La premiere partie de ce chapitre pr sente le formalisme de ces tables La seconde partie d crit les graphes param tr s et le m canisme de g n ration automatique de graphes par tir d une table de lexique grammaire 9 1 Les tables de lexique grammaire Le lexique grammaire est une m thodologie qui a t d velopp e par Maurice Gross et son quipe du LADL 9 10 39 52 50 51 49 48 45 44 43 42 41 66 86 sur le principe suivant chaque verbe a des propri t s syntaxiques quasiment uniques De ce fait ces propri t s doivent tre syst matiquement d crites car il est impos sible de pr voir le comportement pr cis d un verbe Ces descriptions syst matiques sont repr sent es au moyen de matrices o les lignes correspondent aux verbes et les colonnes aux propri t s syntaxiques Les propri t s consid r es sont des propri t s formelles telles que le nombre et la nature des compl ments admis par le verbe et les diff rentes transfor mations que ce verbe peut subir passivation nominalisation extraposition etc Les matri ces plus souvent appel es tables sont binaires un signe appara t a l intersection d une ligne et d une colonne d une propri t si le verbe v rifie la propri t un signe sinon Pour plus d information consulter http infolingu univ mlv fr o des tables du lexique grammaire sont librement t
95. graphes contient des raccourcis vers certaines commandes et permet de manipuler les bo tes d un graphe en utilisant des outils Cette barre d ic nes peut tre d plac e en cliquant sur la zone rugueuse Elle peut m me tre dissoci e du graphe et appara tre alors comme une fen tre s par e voir figure 5 25 Dans ce cas le fait de fermer cette fen tre replace la barre d ic nes sa position initiale Chaque graphe poss de sa propre barre d ic nes Les deux premi res ic nes sont des raccourcis permettant de sauver et de compiler le graphe Les cing suivantes correspondent aux op rations Copier Couper Coller Redo et Undo 5 2 DITION DE GRAPHES 109 S bx a 2 DC GEE Pala AO oO lt gt sl se se FIGURE 5 25 Barre d outils Les 6 ic nes suivantes correspondent des commandes d dition des bo tes La premiere en forme de fl che blanche correspond au mode d dition normal des bo tes Les 5 autres correspondent des outils Pour utiliser un outil cliquez sur l ic ne correspondante le curseur de la souris changera alors de forme et les clics de la souris seront alors interpr t s de fa on particuli re Voici la description des outils de gauche droite e cr ation de bo tes cr e une bo te vide l endroit du clic e suppression de bo tes supprime la bo te sur laquelle vous cliquez e relier des bo tes une autre bo te cet outil permet de s lectionner une ou p
96. la grammaire reconnaissant une suite quelconque de a peut se r crire en une gram maire tendue d une seule r gle S a Ces grammaires galement appel es r seaux de transitions r cursifs RTN en Anglais ou dia grammes de syntaxe se pr tent une repr sentation graphique conviviale En effet le membre droit d une r gle peut tre repr sent par un graphe dont le nom est le membre gauche de la r gle Toutefois les grammaires Unitex ne sont pas exactement des grammaires alg briques ten dues car elles int grent la notion de transduction Cette notion emprunt e aux automates tats finis signifie qu une grammaire peut produire des sorties Dans un souci de clart nous utiliserons malgr tout les termes grammaire ou graphe Quand une grammaire pro duira des sorties nous utiliserons le terme transducteur par extension de la d finition d un transducteur dans le domaine des automates tats finis 5 2 dition de graphes 5 2 1 Cr ation d un graphe Pour cr er un graphe cliquez sur New dans le menu FSGraph 5 1 On voit alors apparaitre une fen tre comme celle de la figure 5 2 Pour pouvoir importer des graphes Intex dans Unitex il faut les convertir en Unicode Le proc d de conversion est le m me que pour les textes voir section 2 2 Le symbole en forme de fl che est l tat initial du graphe Le symbole compos d un rond contenant un carr est l tat final du graphe La gr
97. la m me unit lexicale et le r sultat est la somme de ceux obtenus pour the et THE Les figures suivantes montrent les statistiques calcul es pour chaque mode pour la requ te lt have gt sur ivanhoe snt Statistics Left context Right context would been been a thought the een no received been seen been been FIGURE 4 10 contexte gauche match contexte droit nombre d occurrence 92 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES FIGURE 4 11 collocate count FIGURE 4 12 collocate count et d autres informations Chapitre 5 Grammaires locales Les grammaires locales sont un moyen puissant de repr senter la plupart des ph no m nes linguistiques La premi re section pr sentera le formalisme sur lesquel ces gram maires reposent Nous verrons ensuite comment construire et pr senter des grammaires avec Unitex 5 1 Formalisme des grammaires locales 5 1 1 Grammaires alg briques Les grammaires Unitex sont des variantes des grammaires alg briques galement ap pel es grammaires hors contexte Une grammaire alg brique est constitu e de r gles de r criture Voici une grammaire qui reconna t n importe quel nombre de caracteres a S gt aus S gt e Les symboles figurant gauche des regles sont appel s symboles non terminaux car ils peu vent tre r crits Les s
98. le manuel de MULTIFLEX crit par Agata Savary l auteur de MULTIFLEX 11 1 Mots compos s Les mots compos s ou MWUs englobent un ensemble d objets linguistiques difficiles d finir et contrevers s cf 53 18 Leurs nombreuses d finitions linguistiques ou prag matiques 5 22 67 4 37 3 89 88 13 reposent sur trois principaux points e ils se composent de deux ou plusieurs mots e ils montrent un certain degr de non compositionnalit sur le plan morphologique distributionnel ou s mantique e ils poss dent un r f rent constant et unique Cependant les notions de base un mot un r f rent la non compositionnalit et les mesures degr de non compositionnalit utilis es dans ces d finitions sont elles m mes controver s es De fa on pragmatique nous consid rons comme mot compos une s quence d unit s graphiques contigu s qui pour des raisons applicatives doivent tre list es d crites morphologique ment syntaxiquement s mantiquement etc et trait es en tant qu une seule et m me unit 221 222 CHAPITRE 11 FLEXION DES MOTS COMPOS S 11 11 Description formelle du comportement flexionnel des mots compos s L objectif principal de MULTIFLEX est le m canisme de flexion des mots compos s Ce ph nom ne a t analys en ce qui concerne l anglais le polonais et le fran ais dans 87 Evidemment un processus fiable de flexion des mots simples est un p
99. les fichiers texte d crits dans ce chapitre sont cod s en Unicode Little Endian 14 1 Codage Unicode Par d faut les fichiers textes manipul s par Unitex doivent tre en Unicode Little Endian Unitex accepte aussi des fichiers Unicode Big Endian ou UTF 8 Ce codage permet de repr senter 65536 caracteres en les codant chacun sur 2 octets En Little Endian les octets sont dans l ordre poids faible poids fort Quand cet ordre est invers on parle de codage Big Endian Un fichier texte cod en Little Endian Big Endian or UTF 8 commence par le caract re sp cial Unicode Byte Or der Mark BOM de valeur hexad cimale FF FE Little Endian FE FF Big Endian ou EF BBBF UTF 8 Parce que UTF 8 n a pas d ordre d octet l ajout d un BOM UTF 8 est optionnel pour UTF 16 c est obligatoire Les symboles de saut de ligne doivent tre cod s par les deux caract res 0D 00 et 0A 00 Little Endian 00 0D et 00 0A Big Endian ou 0D and 0A UTF 8 Consid rons le texte suivant Unitex P versionY Voici la repr sentation en Unicode Little Endian de ce texte 311 312 CHAPITRE 14 FORMATS DE FICHIERS BOM header U n i t e x q B FF FE 5500 6E00 6900 7400 6500 7800 0DOO0O0A0O B2 03 v e r s i o n 4 2D00 7600 6500 7200 7300 6900 6F 00 6E 00 OD 00 0A 00 TABLE 14 1 Repr sentation hexad cimale d un texte Unicode Little Endian V
100. library is modified by someone else and passed on the recipients should know that what they have is not the original version so that the original author s reputation will not be affected by problems that might be introduced by others Finally software patents pose a constant threat to the existence of any free pro gram We wish to make sure that a company cannot effectively restrict the users of a free program by obtaining a restrictive license from a patent holder Therefore we insist that any patent license obtained for a version of the library must be consistent with the full freedom of use specified in this license Most GNU software including some libraries is covered by the ordinary GNU General Public License This license the GNU Lesser General Public License ap plies to certain designated libraries and is quite different from the ordinary General Public License We use this license for certain libraries in order to permit linking those libraries into non free programs When a program is linked with a library whether statically or using a shared library the combination of the two is legally speaking a combined work a derivative of the original library The ordinary General Public License therefore permits such linking only if the entire combination fits its criteria of freedom The Lesser General Public License permits more lax criteria for linking other code with the library We call this license the Lesser General Public Lice
101. lt grf2 gt eX a b x y transition a t supprim e a b src et dst num ros de bo tes dans lt grf1 gt x y src et dst num ros de bo tes dans lt grf2 gt Remarquons que les modifications concernant les transitions li es aux bo tes ajout es ou supprim es sont rapport es 13 25 GRFDIFF3 289 13 25 GrfDiff3 GrfDiff3 lt mine gt lt base gt lt other gt lt mine gt mon fichier grf lt other gt l autre fichier grf qui produit un conflit lt base gt fichier grf anc tre commun OPTIONS e output X enregistre le r sultat le cas ch ant dans X et pas sur la sortie e conflicts X enregistre la description des conflits le cas ch ant dans X e only cosmetic signale un conflit de tout changement qui n est pas pure ment cosm tique Essaye de regrouper les lt mine gt et lt other gt En cas de succ s le r sultat est im prim sur la sortie standard et O est renvoy En cas de conflits non r solus 1 est renvoy et rien n est imprim 2 est renvoy en cas d erreur 13 26 ImplodeTfst ImplodeTfst OPTIONS lt tfst gt Ce programme implose l automate du texte sp cifi en fusionnant ensemble les en tr es lexicales qui ne diff rent que par leurs catact ristiques flexionnelles OPTIONS e o OUT output OUT fichier de sortie Par d faut l automate du texte est modifi e 13 27 Locate Locate OPTIONS lt fst2 gt Ce programme applique une g
102. lt txt gt Ce programme construit un fichier grf correspondant l expression rationnelle contenue dans le fichier lt txt gt Le param tre lt txt gt doit repr senter le chemin d acces complet au fichier contenant l expression rationnelle Ce fichier doit tre un fichier texte Unicode Le programme prend en compte tous les caracteres jusqu au premier retour ligne Le fichier r sultat se nomme regexp grf et est sauvegard dans le m me r pertoire que lt txt gt 13 35 Seq2Grf Seq2Grf OPTIONS lt snt gt ce programme construit un fichier grf qui correspond aux s quences contenues dans le fichier lt snt gt OPTIONS e a ALPH alphabet ALPH le fichier alphabet utiliser e o XXX output XXX le fichier graphe de sortie e s only stop ne consid rer que les s quences s par es par STOP e b beautify appliquer au graphe l algorithme beautify e n no_beautify ne pas appliquer au graphe l algorithme beautify par d faut e case sensitive respect de la casse par d faut e case insensitive non respect de la casse e w x nombre de jokers e i x nombre d insertions e r x nombre de remplacement e d x nombre de d litions 298 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES Construire l automate des s quences un unique automate qui reconna t toutes les s quences du SNT Les s quences doivent tre d limit es par l tiquette STOP Le
103. mauvaises lignes comme 3 14 PI NUM e v X Y variable x yY d finit une variable de sortie nomm X avec un contenu Y Remarquons que Y doit tre ASCII Options de sortie ambigu s e b ambiguous_outputs permet la production de plusieurs matchs avec la m me entr e mais diff rentes sorties par d faut e z no_ambiguous_outputs interdit les sorties ambigu s Dans le cas de sorties ambigu s l une sera arbitrairement choisie en fonction de l tat interne du programme Options d erreur sur les variables Ces options n ont aucun effet si le mode de sortie est r gl avec ignore sinon elles d finissent le comportement du programme Locate quand une sortie contient une r f rence une variable qui n est pas correctement d finie e X exit_on_ variable error arr te le programme e Y ignore variable errors agit comme si la variable avait un con tenu vide par d faut e Z backtrack_ on variable errors arr ter d explorer le chemin courant de la grammaire Injection de variables 292 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e v X Y variable X Y d finit une variable de sortie nomm e X avec un contenu Y Notez que Y doit tre ASCII Ce programme enregistre les r f rences des occurrences trouv es dans un fichier appel concord ind Le nombre d occurrences le nombre d unit s appartenant ces occurrences ainsi que le pourcentage d u
104. noble A l oppos avec l option Forbid ambiguous outputs nous obtenons la concordance de la figure 6 57 avec seulement une sortie choisie arbitrairement pour la s quence the noble 154 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES Locate Pattern Locate configuration Advanced options Ambiguous output policy 8 Allow ambiguous outputs Forbid ambiguous outputs Variable error policy Note these options have no effect if outputs are ignored 8 Ignore variable errors O Exit on variable error Backtrack on variable error FIGURE 6 54 Options de recherche avanc es DET N FIGURE 6 55 Graphe avec des sorties ambigu s L option Variable error policy permet de d finir le comportement de Locate LocateTfst lorsqu ils rencontrent une sortie contenant une variable mal d finie Remarquons que ce param tre n a aucun effet si les sorties sont ignor es Consid rons par exemple le graphe de la figure 6 58 Avec l option Ignore variable errors A est ignor e comme si son contenu tait vide comme le montre la figure 6 59 6 10 APPLICATION DES GRAPHES AUX TEXTES 155 Concordance D My UnitexiEnglishiCorpu n IT er Scott S IN THAT PLEASANT DET merry England which is DET N watered by is watered by the river DET N Don there ancient times a large DET A forest rest covering the greater DET part of reater part of the beautiful DET A hills ls and valleys which lie DET N b
105. not price Our General Public Licenses are designed to make sure that you have the freedom to distribute copies of free software and charge for this service if you wish that you receive source code or can get it if you want it that you can change the software and use pieces of it in new free programs and that you are informed that you can do these things To protect your rights we need to make restrictions that forbid distributors to deny you these rights or to ask you to surrender these rights These restrictions 347 348 CHAPITRE 14 FORMATS DE FICHIERS translate to certain responsibilities for you if you distribute copies of the library or if you modify it For example if you distribute copies of the library whether gratis or for a fee you must give the recipients all the rights that we gave you You must make sure that they too receive or can get the source code If you link other code with the library you must provide complete object files to the recipients so that they can relink them with the library after making changes to the library and recompiling it And you must show them these terms so they know their rights We protect your rights with a two step method 1 we copyright the library and 2 we offer you this license which gives you legal permission to copy distribute and or modify the library To protect each distributor we want to make it very clear that there is no war ranty for the free library Also if the
106. ont les m mes consonnes et different par leurs voyelles on doit coder les voyelles dans les grammaires de flexion Hsb V3au compter Hasaba yaHosubu Hsb V3ii penser Hasiba yaHosibu Pour copier tout le champ lemme on peut utiliser l op rateur lt LEMMA gt figure 3 16 De cette fa on un chemin avec tout le champ lemme ne d pend pas du nombre de lettres Cet op rateur est utile pour les noms et adjectifs arabes pour lesquels les formes du masculin sont obtenues en ins rant des voyelles dans le squelette consonantique alors que celles du f minin le sont en ajoutant des suffixes Dans cet exemple on a cod la fois les consonnes et les voyelles dans le champ lemme 3 6 Compression Unitex applique aux textes des dictionnaires comprim s La compression permet de r duire la taille des dictionnaires et d en acc l rer la consultation Cette op ration s effectue avec le programme Compress Celui ci prend en entr e un dictionnaire sous forme de fichier texte par exemple mon_dico dic et produit deux fichiers 3 6 COMPRESSION 65 Lexical Entry si LE tilomiyo N400 g FvEvLvvB FaEaaLiBap 1234 tilomiyo lt LEMMA gt talaAmiJap 1a3aA5i9 broken plural tilmiyo ap feminin FIGURE 3 16 Une grammaire de flexion en mode s mitique avec l op rateur lt LEMMA gt e mon_dico bin contient l automate minimal des formes fl chies du dictionnaire e mon_dic
107. ou comme s parateur dans les noms de graphes la place il vaut mieux utiliser le caract re qui joue le r le de s parateur universel valable quel que soit le syst me sous lequel vous travaillez On peut d ailleurs voir sur la figure 5 10 que c est ce s parateur qui est utilis en interne par le compilateur de graphe E greek delta grf R pertoire de d p t Lorsqu on souhaite r utiliser une grammaire X dans une grammaire Y une pratique r pan due est de recopier tous les graphes de X dans le r pertoire o se trouvent les graphes de Y ce qui pose deux probl mes 100 CHAPITRE 5 GRAMMAIRES LOCALES Messages with a colored background are generated by the interface not by the external programs Compiling graph alpha Compiling graph beta Compiling graph E greek delta Recursion detection started Resolving lt E gt conditions Looking for lt E gt loops Looking for infinite recursions Recursion detection completed Compilation has succeeded Absolute path name detected Windows E greek delta grf Absolute path names are not portable FIGURE 5 10 Avertissement pour un nom de graphe non portable e le nombre de graphes dans le r pertoire devient vite tr s important e deux graphes ne peuvent pas avoir le m me nom Afin d viter cela il est possible de stocker la grammaire X dans un r pertoire particulier appel r pertoire de d p t Ce r pertoire est une sorte de bib
108. permet de d crire les entr es lexicales simples et compos es d une langue en leur associant de fa on optionnelle des informations grammaticales s mantiques et flexionnelles On distingue deux sortes de dictionnaires lec troniques Le type que l on utilise le plus couramment est le dictionnaire de formes fl chies appel DELAF DELA de formes Fl chies ou encore DELACF DELA de formes Compos es Fl chies lorsqu il s agit d un dictionnaire de mots compos s Le second type est le diction naire de formes non fl chies appel DELAS DELA de formes Simples ou DELAC DELA de formes Compos es Les programmes d Unitex ne font pas de distinction entre les dictio nnaires de formes simples et compos es Nous utiliserons donc les termes DELAF et DELAS pour d signer les deux sortes de dictionnaires que leurs entr es soient simples compos es ou mixtes 3 1 1 Format des DELAF Syntaxe d une entr e Une entr e d un DELAF est une ligne de texte termin e par un retour la ligne qui respecte le sch ma suivant mercantiles mercantile A zl mp fp ceci est un exemple Les diff rents l ments qui forment cette ligne sont les suivants e mercantiles est la forme fl chie de l entr e Cette forme fl chie est obligatoire 45 46 CHAPITRE 3 DICTIONNAIRES mercantile est la forme canonique lemme de l entr e Pour les noms et les adjec tifs il s agit en g n ral de la forme au masculin singulier pour les v
109. plusieurs interpr tations flexionnelles diff rentes comme par exem ple se PRO PpvLE 3ms 3fs 3mp 3fp 7 3 LEV E D AMBIGUI T S LEXICALES AVEC ELAG 177 E FST Text 3 sentences La porte du car se ferme automatiquement Sentence 3 Reset Sentence Graph Rebuild FST Text close elag frame Explode ferme ES PROxP 3fs 3ms 3fp 3mp fme N ba WY 2z1 P1s P38 51s Implode ON Apply Elag Rule Explode Implode Replace FIGURE 7 18 Fen tre de l automate du texte s par e en deux des fichiers 1st Ils sont g r s depuis la fen tre de compilation des grammaires ELAG figure 7 16 Le label en haut gauche indique le nom de l ensemble courant par d faut elag 1st C est le contenu de cet ensemble qui est affich dans le cadre droit de la fen tre Pour modifier le nom de l ensemble cliquez sur le bouton Browse Dans la bo te de dia logue qui appara t alors choisissez le nom du fichier 1st que vous voulez donner votre ensemble Pour ajouter une grammaire l ensemble s lectionnez la dans l explorateur de fichiers du cadre gauche et cliquez sur le bouton Pour retirer une grammaire de l ensemble s lectionnez la dans le cadre droit et cliquez sur le bouton Une fois que vous avez s lec tionn toutes vos grammaires compilez les en cliquant sur le bouton Compile Cela cr era un fichier rul portant le nom indiqu en
110. sous MacOS X NOTE ce court tutoriel va vous expliquer comment installer et ex cuter Unitex sous Mac OS X Vos questions commentaires suggestions corrections sont plus que bienvenus Contact cedrick fairon uclouvain be Une version officielle Oracle de Java existe pour MacOS X 10 7 3 Lion et plus r cent Voir section Informations et configuration minimale requise pour l installation et l utilisation d Oracle Java sur Mac OS X https www java com fr download faq java_ mac xml Il existe une distribution Java d Apple for MacOS X 10 7 and higher Voir https support apple com kb DL1572 Pour OS X 10 6 il existe une autre distribution Apple sur https support apple com kb DL1573 Une version officielle de Java 1 6 existe pour MacOS X 10 5 64 bit Intel Core 2 Duo mais il n y a pas de solution officielle pour les anciens OS X 10 4 ou plus anciens PowerPC et 32 bit Intel Core Duo Ainsi si vous avez OS X 10 5 un MacOS 64 bit Intel il vous suffit de vous procurer la JRE 1 6 Apple Le seul probl me est que cette version ne d marre pas par d faut Voir section Java pour Mac OS X 10 5 Update 10 https support apple com kb DL1359 Comment savoir si mon processeur est un 32 ou un 64 bits Dans le menu Apple cliquez sur About this Mac Si vous voyez quelquechose comme Processor x xx Ghz Intel Core Duo votre processeur est un 32 bits Si vous voyez Processeur x xx Ghz Intel Core 2 Duo ou
111. suivie soit le nombre 0 pour cat tags ou 1 pour morph REMARQUE l tape finale TrainingTagger comprime ces deux fichiers de don n es au format bin 14 11 Fichier de configuration 14 11 1 Fichier Config Lorsque l utilisateur modifie ses pr f rences pour une langue donn e celles ci sont sauvegard es dans un fichier texte nomm Config qui se trouve dans le r per toire de la langue courante Ce fichier a la syntaxe suivante l ordre des lignes peut varier Unitex configuration file of paumier for English Y Fri Oct 10 15 18 06 CEST 20081 TEXT FONT NAME Courier New TEXT FONT STYLE 04 TEXT FONT SIZE 10 CONCORDANCE FONT NAME Courier new CONCORDANCE FONT HTML SIZE 124 INPUT FONT NAME Times New Roman INPUT FONT STYLE 04 INPUT FONT SIZE 104 CHAPITRE 14 FORMATS DE FICHIERS FONT NAME Arial Unicode MSY 338 OUTPUTA OUTPUT FONT STYLE 14 OUTPUT FONT SIZE 124 DATE trueY FILE NAME trueY PATH NAME falseY FRAME true RIGHT TOY LEFT false BACKGROUND COLOR 14 FOREGROUND COLOR 167772164 AUXILIARY NODES COLOR 32896514 COMMENT NODES COLOR 655364 SELECTED NODES COLOR 167769614 PACKAGE NODES COLOR 23029764 CONTEXT NODES COLOR 167119364 CHAR BY CHAR falsef ANTIALIASING false HTML VI EWER MAX TE
112. t n importe quelle lettre d finie dans le fichier alphabet lt LOWER gt reconna t n importe quelle minuscule d finie dans le fichier alphabet lt UPPER gt reconna t n importe quelle majuscule d finie dans le fichier alphabet lt DIC gt reconna t n importe quel mot pr sent dans un dictionnaire du mode mor phologique mais les m ta symboles lt FIRST gt lt NB gt lt SDIC gt et lt CDIC gt sont in terdits Si on atteint la fin de la zone sans tre la fin du token la reconnaissance choue Par exemple si le texte contient enabled on ne peut pas reconna tre seulement enable Les anciens codes correspondant lt LETTER gt lt LOWER gt et lt UPPER gt taient respectivement lt MOT gt lt MIN gt et lt MAJ gt Ils restent op rationnels afin de conserver la compatibilit descen dante du syst me avec les graphes existants mais ils sont maintenant d pr ci s c est dire qu on recommande de les viter dans les graphes con us pour fonctionner avec les versions plus r centes pour ne pas faire augmenter inutilement le nombre de masques lexicaux en usage 6 43 Dictionnaires du mode morphologique Dans le mode morphologique on peut faire des requ tes qui utilisent les dictionnaires Par exemple la grammaire de la figure 6 32 cherche les mots constitu s du pr fixe un suivi d un adjectif 6 4 LE MODE MORPHOLOGIQUE 139 ua lt A gt lt lt able gt gt gt 0 F
113. telles que la normal isation de formes non ambigu s et le d coupage du texte en phrases Une fois ces op rations effectu es des dictionnaires lectroniques sont appliqu s aux textes On peut alors effectuer des recherches sur ces textes en leur appliquant des grammaires Ce chapitre d crit les diff rentes tapes du pr traitement des textes 2 1 S lection de la langue Lors du lancement d Unitex le programme vous demande de choisir la langue dans laque lle vous allez travailler voir figure 2 1 Les langues propos es sont celles qui sont pr sentes dans le r pertoire syst me Unitex ainsi que celles ventuellement install es dans votre r per toire de travail Si vous utilisez une langue pour la premi re fois Unitex recopie le r pertoire syst me de cette langue dans votre r pertoire de travail l exception des dictionnaires afin d conomiser de l espace disque Attention si vous avez d j un r pertoire de travail pour une langue donn e Unitex n es saiera pas de recopier les donn es syst me dedans Ainsi si une mise jour a modifi un fichier de ressource autre qu un dictionnaire il vous faudra soit faire une mise jour manuelle du fichier dans votre r pertoire de travail soit supprimer votre r pertoire pour la langue concern e et laisser Unitex le soin de le recr er Le choix de la langue permet d indiquer Unitex o trouver certaines donn es comme par exemple le fichier alphabet Vou
114. tement lin aire un message d erreur vous indiquera le num ro de la premi re phrase contenant une ambigu t Sinon le programme T fst2Unambig con struira le fichier de sortie selon les principes suivants e le fichier de sortie contient une ligne par phrase e toutes les phrases sauf la derni re sont termin es par S e pour chaque bo te le programme crit son contenu suivi par un espace NOTE la gestion des espaces est enti rement laiss e l utilisateur Ainsi si le texte d origine est celui de l automate de phrase de la figure 7 32 le texte produit sera 2 3 cats cat N Anl p are be V P2s Plp P2p P3p white white A 7 7 Recherche de motifs dans l automate du texte Le programme LocateTfst d Unitex peut effectuer des recherches sur l automate du texte Les principaux avantages sont que vous pouvez e b n ficier de la suppression de l ambiguit e b n ficier de l application de grammaire de normalisation voir ci dessous e travailler plusieurs niveaux morphologiques mots compos s mots simples mor ph mes C est particuli rement int ressant car vous pouvez facilement manipuler les langues agglutinantes comme le cor en pour le cor en voir section 7 9 7 7 RECHERCHE DE MOTIFS DANS L AUTOMATE DU TEXTE 193 2 3 cats cat N inl p are be V P2s Pip P2p P3p 1 vhite vhite A Reset Sentence Graph C mmmrsrrex cose egin Explode Implode 1 sentence
115. the start of each source file to most effectively convey the exclusion of warranty and each file should have at least the copyright line and a pointer to where the full notice is found lt one line to give the library s name and a brief idea of what it does gt Copyright C lt year gt lt name of author gt This library is free software you can redistribute it and or modify it under the terms of the GNU Lesser General Public License as published by the Free Software Foundation either version 2 1 of the License or at your option any later version This library is distributed in the hope that it will be useful but WITHOUT ANY WARRANTY without even the implied warranty of MERCHANTABILITY or FIT NESS FOR A PARTICULAR PURPOSE See the GNU Lesser General Public License for more details You should have received a copy of the GNU Lesser General Public License along with this library if not write to the Free Software Foundation Inc 59 Temple Place Suite 330 Boston MA 02111 1307 USA Also add information on how to contact you by electronic and paper mail You should also get your employer if you work as a programmer or your school if any to sign a copyright disclaimer for the library if necessary Here is a sample alter the names Yoyodyne Inc hereby disclaims all copyright interest in the library Frob a library for tweaking knobs written by James Random Hacker lt signature of Ty Coon gt 1 April 1990 Ty
116. transducteurs suppl mentaires afin d obtenir la sortie souhait e Le texte r sultant directement des transducteurs est sauveg ard dans le fichier exemple _csc raw et la version XML is e est dans le fichier exemple_csc txt Plus pr cisement les tiquettes lexicales sont dans le format suivant forme lemme codel code2 flexl flex2 La sortie de type XML correspondante a le format suivant lt csc gt lt form gt forme lt form gt lt lem gt lemme lt lem gt lt code gt codel lt code gt lt code gt code2 lt code gt lt inflect gt flex1 lt inflect gt lt inflect gt flex2 lt inflect gt lt csc gt La DTD de notre format est la suivante lt xml version 1 0 encoding 1S0 8859 1 2 gt lt ELEMENT text PCDATA csc gt lt ELEMENT csc form lem codex inflectx gt lt ELEMENT form PCDATA csc gt lt ELEMENT lem PCDATA gt T T lt ELEMEN code PCDATA gt lt ELEMENT inflect PCDATA gt 264 CHAPITRE 12 CASCADE DE TRANSDUCTEURS Chapitre 13 Utilisation des programmes externes Ce chapitre pr sente l utilisation des diff rents programmes qui composent Uni tex Ces programmes qui se trouvent dans le r pertoire Unitex App sont appel s automatiquement par l interface en fait UnitexToolLogger est appel afin de r duire de mani re importante la taille du fichier zip Il est possible de voir les commandes qui ont t
117. un clic simultan avec les boutons gauche et droit La liste des graphes appel s par le graphe courant et celle des graphes qui appellent le graphe courant peuvent tre affich es en cliquant sur le second et troisi me bouton du quatri me groupe de boutons de la barre d outils figure 5 15 voir aussi figure 5 25 sec tion 5 2 8 Dans ces listes de sous graphes e les sous graphes directement appel s par le graphe courant apparaissent avec leur simple nom de fichier e les sous graphes indirectement appel s par l un des graphes appel s par le graphe courant apparaissent avec une fleche devant leurs nom e les sous graphes qui apparaissent dans des graphes appel s par le graphe courant sans tre connect s et donc non trait s ont leur nom en orange e les sous graphes non trouv s ni en grf ni en fst2 apparaissent en rouge 5 2 3 Manipulation des bo tes Vous pouvez s lectionner plusieurs bo tes au moyen de la souris Pour cela cliquez et d placez la souris sans rel cher le bouton Lorsque vous rel cherez le bouton toutes les bo tes touch es par le rectangle de s lection seront s lectionn es et s afficheront alors en blanc sur fond bleu figure 5 16 Vous pouvez s lectionner plusieurs bo tes en maintenant les touches lt CTRL gt et lt SHIFT gt et en cliquant sur chaque bo te ajouter la s lection De cette mani re vous pouvez s lec tionner plusieurs bo tes sans avoir s lectionner une zone co
118. variable n est pas d finie en utilisant xxx UNSETS La figure 6 51 montre un graphe qui utilise ce type de test La figure 6 52 montre les r sultats obtenus par ce graphe en mode MERGE a UNSET ADV FALSE FIGURE 6 51 Test d une variable a Concordance D My UnitexiEnglishiCorpus ivanhoe no a Bd 200 matches upon which he had hitherto ridden ADV TRUE to the served that he had included ADY FALSE in his h the Conquest had inflicted ADV FALSE and to l Rebecca who had joined ADV FALSE him at Ashby mpanion Wamba had just entered ADY TRUE the hall ess as the Jew had laid ADV FALSE aside on the FIGURE 6 52 R sultats d un test de variable 6 9 OP RATIONS SUR LES VARIABLES 151 6 9 2 Comparaison de variables Il est galement possible de comparer tout type de variable d entr e de sortie ou de dictionnaire avec une constante ou une autre variable Ceci se fait en ins rant dans la sortie d une bo te une s quence respectant la syntaxe suivante Sabc EQUAL xyz Cela agit comme un interrupteur qui permet de bloquer l exploration de grammaire si la valeur de la variable abc est diff rente de la valeur de la variable xyz Remarquons que pour les variables de dictionnaire c est la forme fl chie telle qu elle existe dans le dictionnaire attention aux variantes de casse qui est utilis e pour le test Si vous d sirez comparer la variable abc la constan
119. version d arriv e du fichier texte Il faut obligatoirement sp cifier les deux tailles Converti un fichier d offset indiquant les plages de caract res identiques en fichier indiquant les caract res supprim s 13 15 Elag Elag OPTIONS lt tfst gt Ce programme prend un fichier tfst automate de texte lt t st gt et lui applique des r gles de lev e d ambiguit s OPTIONS e 1 LANG language LANG Le fichier de configuration ELAG pour la langue consid r e e r RULES rules RULES le fichier de r gles compil es au format rul e o OUT output OUT l automate du texte de sortie 13 16 ElagComp ElagComp OPTIONS Ce programme compile une grammaire ELAG dont le nom est GRAMMAR ou toutes les grammaires sont sp cifi es dans le fichier RULES Le r sultat est stock dans un fichier OUT qui pourra tre utilis par le programme Elag OPTIONS e r RULES rules RULES fichier listant des grammaires ELAG e g GRAMMAR grammar GRAMMAR une grammaire ELAG donn e e 1 LANG language LANG le fichier de configuration ELAG pour la langue consid r e e o OUT output OUT nom du fichier de sortie Par d faut le fichier de sortie est identique RULES sauf pour l extension qui est rul 13 17 EVAMB 283 13 17 Evamb Evamb OPTIONS lt tfst gt Ce programme calcule un taux d ambiguit moyen sur tout l automate du texte lt tfst gt ou juste sur la phrase sp
120. vuk gladan kao vuk AC_A3XN2 slmgda hungry as a wolf gladan kao vuk gladan kao vuk AC_A3XN2 slmgka hungry as a wolf gladna kao vuk gladan kao vuk AC_A3XN2 slfgea hungry as a wolf gladno kao vuk gladan kao vuk AC_A3XN2 singea hungry as a wolf gladnoga kao vuk gladan kao vuk AC_A3XN2 s2mgda hungry as a wolf gladnog kao vuk gladan kao vuk AC_A3XN2 s2mgda hungry as a wolf gladna kao vuk gladan kao vuk AC_A3XN2 s2mgka hungry as a wolf gladne kao vuk gladan kao vuk AC_A3XN2 s2fgea hungry as a wolf gladnoga kao vuk gladan kao vuk AC_A3XN2 s2ngda hungry as a wolf gladnog kao vuk gladan kao vuk AC_A3XN2 s2ngda hungry as a wolf gladna kao vuk gladan kao vuk AC_A3XN2 s2ngka hungry as a wolf gladnome kao vuk gladan kao vuk AC_A3XN2 s3mgda hungry as a wolf gladnom kao vuk gladan kao vuk AC_A3XN2 s3mgda hungry as a wolf gladnu kao vuk gladan kao vuk AC_A3XN2 s3mgka hungry as a wolf gladnoj kao vuk gladan kao vuk AC_A3XN2 s3fgea hungry as a wolf gladnome kao vuk gladan kao vuk AC_A3XN2 s3ngda hungry as a wolf gladnom kao vuk gladan kao vuk AC_A3XN2 s3ngda hungry as a wolf gladnu kao vuk gladan kao vuk AC_A3XN2 s3ngka hungry as a wolf gladnu kao vuk gladan kao vuk AC_A3XN2 s4fgea hungry as a wolf gladno kao vuk gladan kao vuk AC_A3XN2 s4ngea hungry as a wolf gladni kao vuk gladan kao vuk AC_A3XN2 s5mgea hungry as a wolf gladna kao vuk gladan kao vuk AC_A3XN2 s5fgea hungry as a wolf gladno kao vuk
121. 0 Grammaire de d coupage en phrases pour le fran ais Lorsqu un chemin de la grammaire reconna t une s quence dans le texte et que ce chemin produit le symbole d limiteur de phrases S on ins re ce symbole dans le texte Ainsi 2 5 PR TRAITEMENT DU TEXTE 35 un chemin de la grammaire de la figure 2 10 reconna t la s quence compos e d un point d interrogation et d un mot commen ant par une majuscule et ins re le symbole S entre le point d interrogation et le mot suivant Le texte suivant Quelle heure est il Huit heures deviendrait donc Quelle heure est il S Huit heures Une grammaire de d coupage peut manipuler les symboles sp ciaux ou m ta symboles suivants e lt E gt mot vide ou epsilon Reconnait la s quence vide e lt WORD gt reconna t n importe quelle suite de lettres e lt LOWER gt reconna t n importe quelle suite de lettres minuscules e lt UPPER gt reconna t n importe quelle suite de lettres majuscules e lt FIRST gt reconna t n importe quelle suite de lettres commen ant par une majuscule e lt NB gt reconna t n importe quelle suite de chiffres contigus 1234 est reconnu mais pas 1 234 e lt PNC gt reconna t les symboles de ponctuation ainsi que les points d exclamation et d interrogation invers s de l espagnol et quelques signes de ponctuation asiatiques e lt gt reconna t un retour la ligne e interdit la pr sence de l
122. 1 N Comp p5v N2X1 N Comp p N2X1 N Comp p ve NC_N2X1 N Comp p ve NC_N2X1 N Comp p ve NC_N2X1 N Comp p ve NC_N2X1 N Comp p NC_N2X1 N Comp w2v NC_N2X1 N Comp w2v NC_N2X1 N Comp w4v NC_N2X1 N Comp w4v _AXN3 N Comp NProp Ujedinxenim nacijama Ujedinxene nacij Ujedinxene nacije Ujedinxene nacije NC Ujedinxene nacije Ujedinxene nacije NC Ujedinxenih nacija Ujedinxene nacije NC_AXN3 N Comp NProp NC_AXN3 N Comp NProp Org fp3q NC_AXN3 N Comp NPr _AXN34 FN Comp NP rop _AXN34 Ujedinxenima nacijama Ujedinxene nacij Ujedinxenim nacijama Ujedinxene nacij Ujedinxenima nacijama Ujedinxene nacij Ujedinxenim nacijama Ujedinxene nacij Kosovom i Metohijom Kosovo i Metohija Kosovu i Metohiji Kosovo i Metohija NC istrazxne sudije istrazxni sudija NC_AXNF N Kosovo i Metohija Kosovo i Metohija NC_ Kosova i Metohije Kosovo i Metohija NC_ Kosovu i Metohiji Kosovo i Metohija NC_ Kosovo i Metohiju Kosovo i Metohija NC_ Kosovo i Metohijo Kosovo i Metohija NC_ NC_AXN3 N Comp NP C_AXN3 N Comp NPr NC_AXN3 N Comp NP C_AXN3 N Comp NPr 3XN N Comp NP rop 3XN N Comp NProp 1 3XN N Comp NProp 1 3XN N Comp NProp 3XN N Comp NP rop _N3XN N Comp NProp Comp 1vfp FN Comp NP rop istrazxnih sudija istrazxni sudija NC_AXNF N Comp 2vfp istrazxnima sudijama istrazxni sudija NC_AXNF N Comp 3vfp istrazxnim sudij
123. 23 Pour revenir la configuration d origine tapez defaults write com apple Finder AppleShowAllFiles OFF 1 6 Premi re utilisation Si vous travaillez sous Windows le programme vous demandera de choisir un r pertoire personnel de travail que vous pourrez changer ult rieurement dans Info gt Preferences gt Di rectories Pour cr er un r pertoire cliquez sur l ic ne repr sentant un dossier voir figure 1 4 Sous Linux et MacOS le programme cr era automatiquement un r pertoire personnel de travail appel unitex dans votre r pertoire HOME Le r pertoire personnel de travail ou r pertoire de l utilisateur vous permettra de stocker vos donn es Unitex personnelles Pour chaque langue que vous utiliserez le programme copiera l arborescence de la langue dans votre r pertoire de travail l exception des dic tionnaires Vous pourrez ainsi modifier votre guise votre copie des donn es sans risquer d endommager les donn es du syst me stock es dans le r pertoire syst me Unitex Welcome Welcome paumier To use Unitex you must choose a private directory to store your data that you can change later if you want Click on OK to choose your directory FIGURE 1 2 Premi re utilisation sous Windows 1 7 Ajout de nouvelles langues Il y a deux mani res d ajouter des langues Si vous d sirez ajouter une nouvelle langue accessible tous les utilisateurs il vous faut copier le r pertoire
124. 267 13 2 La console Lorsque Unitex lance un programme externe la ligne de commande appel e est m moris e dans la console Pour la voir cliquez sur Info gt Console Quand une commande n met aucun message d erreur elle est affich e avec une ic ne verte Sinon l ic ne est un triangle rouge sur lequel vous pouvez cliquer pour voir les messages d erreur comme indiqu sur la figure 13 3 Ceci est utile lorsque un mes sage d erreur se produit si vite que vous ne pouvez pas le lire Si une commande a t enregistr e son num ro de log appara t dans la deuxi me colonne Notez que vous pouvez exporter toutes les commandes affich es dans la console vers le presse papiers avec Ctrl C home paumier Unitex2 1beta App UnitexToolLogger Tfst2Grf home paumier unite home paumier Unitex2 1beta App UnitexToolLogger Tfst2Grf home paumier unite hhome paumier Unitex2 1beta App UnitexToolLogger Reg2Grf home paumier unite home paumier Unitex2 1beta App UnitexToolLogger Grf2Fst2 home paumier unitex home paumier Unitex2 1beta App UnitexToolLogger Locate t home paumier unite home paumier Unitex2 1beta App UnitexToolLogger CreateLog d home paumier home paumier Unitex2 1beta App UnitexToolLogger CreateLog d home paumier home paumier Unitex2 1beta App UnitexToolLogger CreateLog d home paumier home paumier Unitex2 1beta App UnitexToolLogger CreateLog d home paumier Cannot open the graph t
125. 2vm avioprevoznika avio prevoznik NC_2XN2 N Comp w4vm predsednik drzxave predsednik drzxave NC_N2X1 N Comp slvm predsednika drzxave predsednik drzxave predsedniku drzxave predsednik drzxave predsednika drzxave predsednik drzxave predsednicye drzxave predsednik drzxav predsednikom drzxave predsednik drzxav predsedniku drzxave predsednik drzxave predsednici drzxave predsednik drzxave predsednici drzxava predsednik drzxave predsednika drzxave predsednik drzxave predsednika drzxava predsednik drzxave predsednicima drzxave predsednik drzxa predsednicima drzxava predsednik drzxa predsednike drzxave predsednik drzxave predsednike drzxava predsednik drzxave predsednici drzxave predsednik drzxave predsednici drzxava predsednik drzxave predsednicima drzxave predsednik drzxa predsednicima drzxava predsednik drzxa predsednicima drzxave predsednik drzxa predsednicima drzxava predsednik drzxa predsednika drzxave predsednik drzxave predsednika drzxava predsednik drzxave predsednika drzxave predsednik drzxave predsednika drzxava predsednik drzxave Ujedinxene nacije Ujedinxene nacije NC Ujedinxenima nacijama Ujedinxene nacij C_N2X1 N Comp s2v NC_N2X1 N Comp s3v C_N2X1 N Comp s4v e NC_N2X1 N Comp s5 e NC_N2X1 N Comp s6 C_N2X1 N Comp s7v C_N2X1 N Comp plv C_N2X1 N Comp plv C C N2X1 N Comp p2v N2X1 N Comp p2v ve NC_ ve NC_ _N2X1 N Comp p4v _N2X1 N Comp p4v _N2X1 N Comp p5v _N2X
126. 342 CHAPITRE 14 FORMATS DE FICHIERS e simple forms nombre total dans le texte d unit s lexicales compos es de lettres Le nombre entre parentheses repr sente le nombre d unit s lexicales diff rentes qui sont compos es de lettres e digits nombre total dans le texte de chiffres Le nombre entre parenth ses indique le nombre de chiffres diff rents utilis s au plus 10 14 134 Fichier concord n Le fichier concord n est un fichier texte qui se trouve dans le r pertoire du texte Il contient des informations sur la derni re recherche de motifs effectu e sur ce texte et se pr sente de la mani re suivante 6 matches 6 recognized units 0 004 of the text is covered La premi re ligne donne le nombre d occurrences trouv es la seconde le nombre d unit s couvertes par ces occurrences La troisi me ligne indique le rapport entre le nombre d unit s couvertes et le nombre total d unit s du texte 14 135 Fichier concord_tfst n Le fichier concord_t fst n est un fichier texte qui se trouve dans le r pertoire du texte Il contient des informations sur la derni re recherche sur l automate du texte et ressemble ce qui suit 23 matches 45 outputs 14 13 6 Fichier r gles de normalisation Ce fichier est utilis par les programmes Normalization et XMLi zer Il repr sente r gles de normalisation Chaque ligne repr sente une r gle selon le format suivant gt repr sente le caract re de tabulation
127. 5 3 2 Zoom Le sous menu Zoom vous permet de choisir l chelle laquelle sera affich le graphe L option Fit in screen tire ou r tr cit le graphe pour lui donner la taille de l cran L option Fit in window ajuste le graphe pour qu il soit enti rement affich dans la fen tre 5 3 OPTIONS DE PR SENTATION 111 Tools Format Close all Fit in screen O Fit in window O 60 O 80 100 O 120 O 140 FIGURE 5 27 Sous menu Zoom 5 3 3 Antialiasing L antialiasing est un effet de rendu qui permet d viter l effet de pixellisation Vous pou vez activer cet effet en cliquant sur Antialiasing dans le sous menu Format La fig ure 5 28 montre deux graphes affich s normalement graphe du haut et avec antialiasing graphe du bas Cet effet ralentit l ex cution d Unitex Nous vous conseillons de ne pas l utiliser si votre machine est peu puissante 5 34 Alignement des bo tes Afin d obtenir des graphes harmonieux il est utile de pouvoir aligner les bo tes aussi bien horizontalement que verticalement Pour cela s lectionnez les bo tes aligner et cli quez sur Alignment dans le sous menu Format du menu FSGraph ou appuyez sur lt Ctrl M gt Vous voyez alors appara tre la fen tre de la figure 5 29 Les possibilit s d alignement horizontal sont e Top les bo tes sont align es sur la bo te la plus haute e Center les bo tes sont toutes
128. 75 177 282 334 Sentence fst2 35 snt 33 295 302 304 311 319 stat_dic n 278 341 stats n 38 303 341 system_dic def 339 tags_err 328 341 tags_err n 341 tagset def 333 tags ind 328 text cod 38 302 319 text tfst 304 320 text tind 304 323 tfst 282 tfst_tags_by_alph txt 324 tfst_tags_by_freq txt 324 tok_by_alph txt 38 303 320 tok_by_freq txt 38 303 320 tokens txt 38 302 319 train_dict 336 txt 157 274 311 319 Unitex3 1beta zip 20 Unitex jar 20 24 user_dic def 340 alphabet 27 35 38 52 67 274 286 289 292 302 304 de log programmes Unitex 343 387 de mots interdits 343 des r gles typographiques de l arabe 344 formats 311 HTML 87 157 information dictionnaire 331 r gles de normalisation 342 tagset def 178 182 184 texte 31 311 param tres de codage 268 transcodage 28 Fichier de log programmes Unitex 309 Filtre morphologique 68 83 flex 180 Flexion automatique 55 119 294 Format de fichier 311 des textes 28 Forme canonique 46 fl chie 45 G G n ration du dictionnaire des mots com pos s cor ens 268 GlossaNet 273 326 Grammaires alg briques tendues 94 collection 176 context free 93 contraintes 125 de flexion 55 d coupage en phrases 34 ELAG 123 formalisme 93 lev e d ambiguit s 171 locales 122 normalisation de formes non ambigu s 36 120 de l automate du texte 121 pour la reconnaissance de fin de ph
129. Annexe A GNU Lesser General Public License 347 Annexe B Licences du type BSD 2 clauses 357 Annexe C Licence Apache de Xerces2 361 Annexe D Licence MIT de LibYAML 365 Annexe E Licence open source TMate de SVNKit 367 TABLE DES MATI RES 11 Annexe F Lesser General Public License For Linguistic Resources 369 Bibliographie 375 Index 383 12 TABLE DES MATI RES Introduction Unitex est un ensemble de logiciels permettant de traiter des textes en langues naturelles en utilisant des ressources linguistiques Ces ressources se pr sentent sous la forme de dic tionnaires lectroniques de grammaires et de tables de lexique grammaire Elles sont issues de travaux initi s sur le fran ais par Maurice Gross au Laboratoire d Automatique Docu mentaire et Linguistique LADL Ces travaux ont t tendus d autres langues au travers du r seau de laboratoires RELEX Les dictionnaires lectroniques d crivent les mots simples et compos s d une langue en leur associant un lemme ainsi qu une s rie de codes grammaticaux s mantiques et flexionnels La pr sence de ces dictionnaires constitue une diff rence majeure par rapport aux outils usuels de recherche de motifs car on peut faire r f rence aux informations qu ils contiennent et ainsi d crire de larges classes de mots avec des motifs tr s simples Ces dictionnaires sont repr sent s selon le formalisme DELA et ont t labor s par des quipes de linguistes po
130. CHAPITRE 11 FLEXION DES MOTS COMPOS S nous attribuons n la valeur p dans la premi re bo te elle garde cette valeur p tout au long du chemin Es 2 e g bateau mouche lt Gen m Nb n gt FIGURE 11 5 Graphe de flexion avec variable pour les mots qui se fl chissent comme bateau mouche Le graphe de flexion de la figure 11 5 s applique la plupart des compos s fran ais de types Nom Nom et Nom Adjectif bateau mouche ange gardien circuit s quentiel etc qui sont de genre masculin c est parce que la sortie de la bo te finale contient Gen m Pour tous les compos s des m mes types mais de genre f minin comme main courante moissoneuse batteuse etc un nouveau graphe doit tre cr identique celui de figure 11 5 jusqu la sortie finale con tenant lt Gen f Nb n gt Ce n est pas tr s intuitif puisque circuit s quentiel et main courante se fl chissent de la m me mani re dans la mesure o dans les deux cas nous devons mettre au pluriel le premier et le dernier constituant pour obtenir le pluriel du mot compos C est pourquoi un autre type d instanciation utilisant l unification a t introduit Il s ex prime au moyen de par opposition au signe gale simple comme pour n dans la fig ure 11 5 Quand une valeur est attribu e une variable en utilisant ce symbole la variable est instanci e une seule fois elle h rite de la cat gorie du constituant telle qu elle appara t dan
131. C_VNm de mots compos s francais 240 CHAPITRE 11 FLEXION DES MOTS COMPOS S 11 3 3 Exemple en serbe Supposons que la description des caract ristiques morphologiques du serbe est d finie par le fichier Morphology txt suivant Serbian lt CATEGORIES gt Nb s p w Case 1 2 3 4 5 6 7 Gen m f n Anim v q 8 Comp a b c Det d k e lt CLASSES gt noun Nb lt var gt Case lt var gt Gen lt var gt Anim lt fixed gt adj Nb lt var gt Case lt var gt Gen lt var gt Anim lt var gt Comp lt var gt Det lt var gt adv La particuliarit de ce mod le morphologique n est pas seulement sa richesse mais aussi l existence de no care features comme Anim g ou Det e Ces caract ristiques s accordent avec les autres caract ristiques de la m me cat gorie Elles sont utilis es uniquement pour certaines sous classes particuli res de noms ou d adjectifs et sont n cessaires pour une meill eure compacit des paradigmes flexionnels des mots simples qui sont d j tr s imposants et le seraient encore plus sans elles Supposons que les quivalences entre les caract ristiques ci dessus et leurs codes correspon dants dans les dictionnaires DELA soient d finis par le fichier Equivalences txt suiv ant 11 3 INT GRATION UNITEX 241 Serbian s Nb s p Nb p w Nb w 1 Case 1 2 Case 2 3 Case 3 4 Case 4 5 Case 5 6 Case 6 7 Case 7 m Gen m f Gen f n Gen n v Anim v q Anim
132. Com pany 9 1 85 Elisabete RANCHHOD and Samuel ELEUTERIO Construc o de dicion rios elec tr nicos do portugu s problemas te ricos e metodol gicos In Actas do Con gresso Internacional sobre o Portugu s pages 265 282 1996 Lisboa Colibri 3 8 86 Morris SALKOFF Verbs of mental states In Lexique syntaxe et lexique grammaire Papers in honour of Maurice Gross volume 24 of Lingvisticee Investigationes Sup plementa pages 561 571 Amsterdam Philadelphia Benjamins 2004 9 1 87 Agata SAVARY Recensement et description des mots compos s m thodes et applica tions 2000 These de doctorat Universit de Marne la Vall e 3 8 11 1 1 11 1 2 88 Agata SAVARY A formalism for the computational morphology of multi word units Archives of Control Sciences 15 3 437 449 2005 11 11 1 2 11 2 89 Max SILBERZTEIN Les groupes nominaux productifs et les noms compos s lexicalis s Lingvuistic Investigationes 27 2 405 426 1999 Amsterdam Philadelphia John Benjamins Publishing Company 3 8 11 1 90 Carlos SUBIRATS R GGEBERG Sentential complementation in Spanish A lexico grammatical study of three classes of verbs John Benjamins Amster dam Philadelphia 1987 9 1 91 Thomas TREIG Compl tives en allemand classification Technical Report 7 LADL 1977 9 1 92 Lidia VARGA Classification syntaxique des verbes de mouvement en hongrois dans l optique d un traitement automatique In F Kiefer G K
133. Comme nous l avons vu pr c demment l automate d un texte est en r alit l ensemble des automates des phrases de ce texte Cette structure peut tre repr sent e gr ce au format fst2 utilis pour repr senter les grammaires compil es Cependant ce format ne per met pas d afficher directement les automates de phrases Il faut donc utiliser un programme Fst2Grf pour convertir un automate de phrase en un graphe pour qu il puisse tre af fich Ce programme est appel automatiquement quand vous s lectionnez une phrase pour g n rer le fichier grf Les fichiers gr g n r s ne sont pas interpr t s de la m me mani re que les fichiers grf qui repr sentent des graphes construits par l utilisateur En effet dans un graphe normal les lignes d une bo te sont s par es par le symbole Dans un graphe de phrase chaque bo te est soit une unit lexicale sans tiquette soit une entr e de dictionnaire encadr e par des accolades Si la bo te ne contient qu une unit sans tiquette celle ci appara t seule dans la bo te Si la bo te contient une entr e de dictionnaire la forme fl chie est affich e suivie de sa forme canonique si celle ci est diff rente Les informations grammaticales et flexionnelles sont affich es sous la bo te comme dans les transductions La figure 7 27 montre le graphe obtenu pour la premi re phrase Ivanhoe Les mots Ivanhoe Walter et Scott sont consid r s comme des mots inconnus Le mot b
134. Coon President of Vice That s all there is to it 356 CHAPITRE 14 FORMATS DE FICHIERS Annexe B Licences du type BSD 2 clauses B 1 TRE Voici la licence la note de copyright et la clause de non responsabilit pour TRE une biblioth que de manipulation d expressions r guli res Copyright 2001 2009 Ville Laurikari lt vl iki fi gt All rights reserved Redistribution and use in source and binary forms with or without modification are permitted provided that the following conditions are met 1 Redistributions of source code must retain the above copyright notice this list of conditions and the following disclaimer 2 Redistributions in binary form must reproduce the above copyright notice this list of conditions and the following disclaimer in the documentation and or other materials provided with the distribution THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDER AND CONTRIB UTORS AS IS AND ANY EXPRESS OR IMPLIED WARRANTIES INCLUDING BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT INDIRECT INCIDENTAL SPECIAL EXEMPLARY OR CONSEQUEN TIAL DAMAGES INCLUDING BUT NOT LIMITED TO PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES LOSS OF USE DATA OR PROFITS OR BUSINESS INTERRUPTION HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY WHETHER IN CONTRACT STRICT LIABIL
135. DE DICTIONNAIRES yo lt lt CTAA mnd XXII TIRER mnanaa nahalal annn 666 0001 lt lt s GaimalralralalaimiaidOxboortbarctihhxboodxxbomalanaalanalaalalaalanalanlo gt gt 666 001 lt lt GITLAITTAILALALATIIIIID Oxea haaa gt gt 66 01 lt lt GorA TANAlAlATTTITID gt gt 61 Eli shi FIGURE 3 21 Graphe dictionnaire reconnaissant les nombres en chiffres romains 72 CHAPITRE 3 DICTIONNAIRES des accolades et conformes la syntaxe des lignes du DELAF section 3 1 1 Les sorties de tels graphes seront utilis es comme entr es pour construire l automate du texte Nous les appelons graphes dictionnaires morphologiques parce que leur principale utilit est de fournir de nouvelles analyses morphologiques dans l automate du texte gr ce au mode morphologique voir 6 4 Cette fonctionnalit est utile pour des langues agglutinantes comme le cor en Pour pouvoir utiliser un graphe comme graphe dictionnaire morphologique on le d clare par une barre oblique slash comme premier caract re de sa sortie comme dans la figure 3 22 us _ lt a gt gt C PFX x x LEMMA x CODE FIGURE 3 22 Exemple de graphe dictionnaire morphologique La r gle est simple toute sortie du graphe dictionnaire commen ant par une barre oblique slash est ajout e au fichier tags ind situ dans le r pertoire du texte Ce fichier est utilis par le program
136. DES MOTS COMPOS S une bo te le constituant sera le m me que dans le lemme du mot compos Par exemple lt 3 gt dans le premier chemin du graphe signifie que royal doit tre recopi tel quel Si la variable est accompagn e d assignations de la forme cat gories caract ristiques le consti tuant sera fl chi dans la forme demand e Ainsi lt 3 Nb p gt signifie que la forme plurielle de royal est souhait e Pour g n rer toutes les formes fl chies d un mot compos nous devons explorer tous les chemins du graphe Chaque chemin d bute la fleche droite la plus gauche et se termine la bo te encercl e finale Chaque fois qu une bo te est atteinte on r alise l action qu elle contient la recopie ou la flexion d un constituant et on accumule les informations pr sentes sous la bo te Le total des sorties des bo tes accumul donne la description morphologique compl te de la forme fl chie Par exemple dans le graphe de la figure 11 1 si nous suivons le chemin interm diaire extrait la figure 11 2 FIGURE 11 2 Un chemin du graphe de flexion de battle royal nous recopions battle 1 et l espace 2 et nous mettons royal au pluriel ce qui produit la forme du pluriel battle royals du mot compos Le graphe de la figure 11 1 contenant trois chemins diff rents l ensemble des formes fl chies g n r es pour battle royal sera battle royal lt Nb s gt battle royals lt Nb p gt battles royal
137. EURS N importe quel dictionnaire du mode morphologique d clar dans vos pr f rences est utlisable dans vos graphes Les pr f rences peuvent tre modifi es partir du menu Info Info gt Preferences gt morphological mode dictionaries 12 14 Partage d un fichier liste de transducteurs en cascade Afin de faciliter le travail collaboratif avec CasSys une fonctionnalit d export import est fournie l aide d un fichier liste de transducteurs Cette possibilit est offerte par le menu Text Apply CasSys cascade Figure 12 5 Pour partager un fichier liste de cascade les points suivants doivent tre remplis 1 Export Choisissez un fichier cascade et cliquez sur le bouton export Un fichier partageable est cr dans le r pertoire Cassys Share 2 Envoyez le fichier partag vos coll gues 3 Import Choisissez un fichier et cliquez sur le bouton import Un fichier pr t tre utilis est cr dans le r pertoire Cassys 12 2 CasSys en d tail Dans cette section nous pr sentons une description d taill e du fonctionnement de CasSys 12 21 Type de graphe utilis CasSys utilise la version compil e des graphes format fst2 CasSys g re les gram maires locales section 6 1 4 pr sent es dans le chapitre 6 Les grammaires utilis es dans une cascade suivent les m mes r gles que les grammaires habituellement utilis es dans Uni tex Elles peuvent comporter des sous graphes u
138. EXPRESSED OR IMPLIED INCLUD ING BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANTABIL ITY AND FITNESS FOR A PARTICULAR PURPOSE THE ENTIRE RISK AS TO THE QUALITY AND PERFORMANCE OF THE LIBRARY IS WITH YOU SHOULD THE LIBRARY PROVE DEFECTIVE YOU ASSUME THE COST OF ALL NECES SARY SERVICING REPAIR OR CORRECTION 14 13 PLUSIEURS AUTRES FICHIERS 355 16 IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN WRITING WILL ANY COPYRIGHT HOLDER OR ANY OTHER PARTY WHO MAY MODIFY AND OR REDISTRIBUTE THE LIBRARY AS PERMITTED ABOVE BE LIABLE TO YOU FOR DAMAGES INCLUDING ANY GENERAL SPECIAL INCIDENTAL OR CONSEQUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE THE LIBRARY INCLUDING BUT NOT LIM ITED TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR LOSSES SUSTAINED BY YOU OR THIRD PARTIES OR A FAILURE OF THE LIBRARY TO OPERATE WITH ANY OTHER SOFTWARE EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAM AGES END OF TERMS AND CONDITIONS How to Apply These Terms to Your New Libraries If you develop a new library and you want it to be of the greatest possible use to the public we recommend making it free software that everyone can redistribute and change You can do so by permitting redistribution under these terms or alter natively under the terms of the ordinary General Public License To apply these terms attach the following notices to the library It is safest to attach them to
139. F8 Si unitex cfg ne contient pas un chemin Linux valide vers un r pertoire existant il est ignor Sous Windows il n est pas toujours possible d associer un r pertoire par d faut un utilisateur Pour rem dier cela Unitex cr e pour chaque utilisateur un fichier cfg contenant le chemin de son r pertoire de travail Ce fichier est sauvegard sous lenom nom d utilisateur cfg dans le sous r pertoire Users du r per toire systeme Unitex Si l utilisateur n a pas les droits pour crire dans ce r pertoire un fichier unitex cfg est sauvegard dans le r pertoire du profil utilisateur e dans Documents and Settings user login sous Windows XP e dans Users user login sous WindowsVista ou une version plus r cente ATTENTION CE FICHIER N EST PAS EN UNICODE ET LE CHEMIN DU R PER TOIRE PERSONNEL DE TRAVAIL N EST PAS SUIVI PAR UN RETOUR A LA LIGNE 1 Cela permet de lancer Unitex tant t sous Linux tant t sous Windows sur des fichiers partag s le chemin Windows vers le r pertoire personnel de travail Unitex est indiqu dans unitex cfg et Unitex l ignore quand on le lance sous Linux Dela 14 12 FICHIERS CASSYS 341 14 12 Fichiers CasSys 14 12 1 Fichiers de configuration CasSys csc Pour m moriser la liste des transducteurs d une cascade CasSys nous utilisons un fichier texte csc dans lequel chaque ligne contient le chemin vers un transduc teur suivi du mode de sortie fusionner remplace
140. FIGURE 14 2 Exemple de concordance 14 64 Fichier diff html Le fichier diff html est une page HTML qui montre les diff rences entre deux concordances Ce fichier est encod en UTF 8 Voici un exemple de fichier des re tours la ligne ont t introduits pour la mise en page lt html gt lt head gt lt meta http equiv Content Type content text html charset UTF 8 gt lt style type text css gt a blue f color blue text decoration underline a red color red text decoration underline a green color green text decoration underline lt style gt lt head gt lt body gt lt h4 gt lt font color blue gt Blue lt font gt identical sequences lt br gt lt font color red gt Red lt font gt similar but different sequences lt br gt lt font color green gt Green lt font gt sequences that occur in only 328 CHAPITRE 14 FORMATS DE FICHIERS one of the two concordances lt br gt lt table border 1 cellpadding 0 style font family Courier new font size 12 gt lt tr gt lt td width 450 gt lt font color blue gt ed in ancient times lt u gt a large forest lt u gt covering the greater par lt font gt lt td gt lt td width 450 gt lt font color blue gt ed in ancient times lt u gt a largeforest lt u gt covering the greater par lt font gt lt td gt lt tr gt lt tr gt lt td width 450 gt lt font color green gt ge forest covering lt u gt the gre
141. I CZECH GERMAN 13 12 DICO SPANISH PORTUGUESE TALIAN NORWEGIAN 277 LATIN default latin code page windows 1252 windows 1250 windows 1257 windows 1251 windows 1254 windows 1258 iso 8859 1 iso 8859 15 iso 8859 2 iso 8859 3 iso 8859 4 iso 8859 5 iso 8859 7 iso 8859 9 iso 8859 10 next step Microsoft Windows 1252 Latin I Western Europe amp USA Microsoft Windows 1250 Central Europe Microsoft Windows 1257 Baltic Microsoft Windows 1251 Cyrillic Microsoft Windows 1254 Turkish Microsoft Windows 1258 Viet Nam ISO 8859 1 Latin 1 Europe de l ouest amp USA ISO 8859 15 Latin 9 Western Europe amp USA ISO 8859 2 Latin 2 Eastern and Central Europe ISO 8859 3 Latin 3 Southern Europe ISO 8859 4 Latin 4 Northern Europe ISO 8859 5 Cyrillic ISO 8859 7 Greek ISO 8859 9 Latin 5 Turkish ISO 8859 10 Latin 6 Nordic NextStep code page LITTLE ENDIAN BIG ENDIAN UTF8 13 12 Dico Dico OPTIONS lt dic_1 gt lt dic_2 gt lt dic_3 gt Ce programme applique des dictionnaires un texte Le texte doit avoir t d coup en unit s lexicales par le programme Tokenize OPTIONS e t TXT text TXT nom complet du fichier texte snt e a ALPH alphabet ALPH le fichier alphabet utiliser e m DICS morpho DICS ce param tre optionnel l
142. IGURE 6 32 Reconnaissance des mots constitu s de un et d un adjectif en able E Preferences for English SEE Language amp Presentation Morphological dictionaries Directories Choose the bin dictionaries to use in Locate s morphological mode home paumier Unitex2 1beta English Dela dela en public bin lt Remove Cancel FIGURE 6 33 D claration des dictionnaires du mode morphologique Pour pouvoir reconna tre le mot unaware avec cette grammaire le syst me doit savoir que aware est un adjectif Le masque lexical lt A gt n cessite la consultation d un dictionnaire Mais aware peut ne pas tre pr sent dans le texte de sorte qu on ne peut pas compter sur les dictionnaires du texte C est la raison pour laquelle on doit d finir une liste de dictionnaires consulter en mode morphologique Pour ce faire on va dans Info gt Preferences gt Morphological mode dictionaries figure 6 33 On peut d finir autant de dictionnaires du mode mor phologique qu on veut mais ils doivent tre au format bin Ceci fait on peut appliquer la grammaire Pour sp cifier qu un graphe dictionnaire doit tre consult lorsqu on est en mode morphologique on utilise l option b ou z section 3 7 3 Exporter les entr es produites comme dictionnaire du mode morphologique 6 44 Variables de dictionnaire On peut affecter des variables des informatio
143. IL 3p gt lt PRO PpvLE gt lt PRO PpvLUI gt lt PRO PpvPR gt FIGURE 7 21 Grammaire ELAG v rifiant l accord entre verbe et pronom Utilisation des symboles lexicaux Il vaut mieux n utiliser les lemmes que lorsque c est absolument n cessaire Cela est partic uli rement vrai pour les mots grammaticaux lorsque leurs sous cat gories portent presque autant d information que les lemmes eux m mes Si vous utilisez malgr tout un lemme dans un symbole il est recommand de pr ciser le plus possible ses traits syntaxiques s mantiques et flexionnels Par exemple avec les dictionnaires fournis pour le fran ais il est pr f rable de remplacer des symboles comme lt je PRO 1s gt lt je PRO PpvIL 1s gt et lt je PRO gt par le symbole lt PRO Ppv11 1s gt En effet tous ces symboles sont iden tiques dans la mesure o ils ne peuvent reconna tre que l unique entr e de dictionnaire je PRO PpvIL 1ms 1fs Cependant comme le programme ne peut pas d duire au tomatiquement cette information si l on ne pr cise pas tous ces traits le programme con sid rera en vain des tiquettes non existantes telles lt je PRO 3p gt lt je PRO PronQ gt etc en vain 7 4 Lin arisation de l automate du texte avec le taggeur Par d faut l automate du texte contient de nombreux chemins tiquet s en raison de l ambigu t lexicale Le processus de lin arisation consiste choisir un chemin unique une s quence d ti
144. ITY OR TORT INCLUD ING NEGLIGENCE OR OTHERWISE ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAM AGE 357 358 CHAPITRE 14 FORMATS DE FICHIERS B 2 wingetopt Voici la licence la note de copyright et la clause de non responsabilit pour wingetopt une biblioth que getopt pour compilateurs Windows Copyright 2002 Todd C Miller lt Todd Miller courtesan com gt Permission to use copy modify and distribute this software for any purpose with or Without fee is hereby granted provided that the above copyright notice and this permission notice appear in all copies THE SOFTWARE IS PROVIDED AS IS AND THE AUTHOR DISCLAIMS ALL WARRANTIES WITH REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR ANY SPECIAL DIRECT INDIRECT OR CONSE QUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING FROM LOSS OF USE DATA OR PROFITS WHETHER IN AN ACTION OF CONTRACT NEGLIGENCE OR OTHER TORTIOUS ACTION ARISING OUT OF OR IN CON NECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE Sponsored in part by the Defense Advanced Research Projects Agency DARPA and Air Force Research Laboratory Air Force Materiel Command USAF under agree ment number F39502 99 1 0512 Copyright 2000 The NetBSD Foundation Inc All rights reserved This code is derived from software contributed to The NetBSD Foundation by Dieter B
145. LGPLLR 19 369 MIT 365 TMate 367 Log programmes Unitex 306 Longest matches 85 153 M Majuscules voir Respect de minuscules majuscules 122 Masque lexical 76 77 Matrices 205 MERGE 36 68 144 153 325 M ta symboles 35 76 INDEX Minuscules voir Respect de minuscules majuscules 122 Mode morphologique 68 137 Modification du texte 157 271 Motif de recherche 289 Mots compos s 40 76 avec espace ou tiret 47 compos s libres langues germaniques 41 295 russe 41 295 inconnus 40 80 simples 40 76 Mots apparent s 215 Mots compos s 221 Multi mots 221 N Navigateur web 88 157 N erlandais mots compos s libres 41 295 N gation d un masque lexical 79 d une propri t 78 Nombre de r p titions 127 Noms de variables 106 Normalisation de formes ambigu s 121 166 304 de formes non ambigu s 36 de l automate du texte 121 166 304 des clitiques en portugais 167 296 des s parateurs 33 294 Norv gien mots compos s libres 41 295 O Occurrences extraction 158 les plus courtes 85 les plus longues 85 nombre 85 153 toutes 85 Op rateur 389 poe lt I gt 57 lt R gt 57 lt X n gt 57 2 986 119 5 87 119 Jae L 56 119 b 97 119 R 56 119 0 3 119 w 57 119 concat nation 81 disjonction 82 toile de Kleene 82 it ration 82 Optimiser les grammaires ELAG 184 Options configuration 112 Options de recherche avanc es 153 P Pa
146. NS Comme nous Dupa ce igi manca portia unul dintre noi D a es gearea ncepea Tanti d mi te rog partea p ae de deasupra Matusa detaga partea Frs ed de sus ornat de zah r i buc ti de ciocolat i i o d dea ea commen ait Tante furnind 3 si ling degetel donne moi le dessus s il ee Sag a ai nla t 2 Elle murdare de zah r All sentences Plain text All sentences Plain text 8 Matched sentences Matched sentences O All sentences HTML All sentences HTML Aligned with target concordance Aligned with source concordance 8 Locate Clear alignment Save alignment Save alignment as Locate FIGURE 10 9 Affichages des phrases reconnues et des phrases auxquelles elles sont li es 220 CHAPITRE 10 ALIGNEMENT DE TEXTE Chapitre 11 Flexion des mots compos s MULTIFLEX est une plate forme compatible Unicode de flexion automatique des mots compos s ou multi mots en anglais multi word units MWUs Elle est tout particuli rement con ue pour la cr ation de dictionnaires morphologiques de mots compos s Elle met en uvre un formalisme fond sur l unification 88 pour la description du comportement flexionnel des mots compos s et suppose l existence d un module de flexion des mots sim ples Dans ce chapitre nous pr sentons la notion de mots compos s et nous d crivons la mani re de les fl chir avec MULTIFLEX Ce chapitre est fond sur
147. O nX FIGURE 12 13 Graphe g n rique modifi _ G _ 1X FIGURE 12 14 Graphe g n rique avec une restriction 4 4 Xx FIGURE 12 15 Graphe g n rique modifi Au contraire la n gation d une cat gorie par exemple y sur la figure 12 16 placera B dans cette bo te figure 12 17 _ GO X FIGURE 12 16 Graphe g n rique avec une n gation 4 2 1 X FIGURE 12 17 Graphe g n rique modifi Si on veut compl ter la sortie du graphe par quelque chose qui ne doit pas tre cherch e on ajoute une troisi me bo te comme dans la figure 12 18 G O 5 px t FIGURE 12 18 Graphe g n rique avec un compl ment 262 CHAPITRE 12 CASCADE DE TRANSDUCTEURS 12 4 Les r sultats d une cascade 12 41 Affichage des r sultats de la cascade Le r sultat de l application d une cascade est un fichier d index concord ind comme c est le cas lors d une recherche de motif avec Locate pattern Ce fichier d index contient toutes les s quences reconnues conform ment aux r gles fix es dans Unitex Pour afficher une concordance il suffit de cliquer sur le bouton Build concordance comme d crit au chapitre 6 dans la menu Text Located sequences La figure 12 19 pr sente un chantillon de concordance d une cascade qui reconna t les entit s nomm es ieux sergent se mit leur t te Merci meri
148. P3s Si l on veut fl chir le verbe particule aussprechen on peut utiliser deux variables de type Le figure 3 13 montre un graphe qui comport les variables 1 et 2 ausge 2o 1len Kms aus 2e len lt aus 2e len gt P1p P3p FIGURE 3 13 Graphe de flexion pour des verbes comme aussprechen Voici les flexions obtenues pour le verbe allemand aussprechen 3 5 FLEXION AUTOMATIQUE 63 ausgesprochen aussprechen V Kms aussprechen aussprechen V W spreche aus aussprechen V Pls sprichst aus aussprechen V P2p sprichst aus aussprechen V P2s spricht aus aussprechen V P3s sprechen aus aussprechen V P3p sprechen aus aussprechen V Plp Codes s mantiques Dans certaines langues il existe des caract ristiques flexionnelles qui correspondent en fait des caract ristiques s mantiques comme par exemple les marqueurs de la forme passive Ces codes peuvent ne pas appara tre comme des codes flexionnels mais plut t comme des codes s mantiques Pour produire des codes s mantiques il faut ins rer un signe plus au d but de la sortie d une bo te Cette bo te doit seulement contenir le code s mantique pr c d d un plus comme le montre la figure 3 14 an invalid path az P3ms passive a good path P3ms passive FIGURE 3 14 Une grammaire de flexion avec un code s mantique 3 5 3 Flexion des mots compos s Voir chapitre 11 3 5 4 Flexion des langues s m
149. POS S et que les quivalences entre les caract ristiques ci dessus et leurs codes correspondants dans les dictionnaires DELA sont d finis par le fichier Equivalences txt suivant English s Nb s p Nb p Consid rons l extrait du DELAC anglais suivant angle angle N1 s of reflection NC_NXXXX Adam s apple apple Nl s NC_XXXXN air brake brake Nl s NC_XXN birth date date Nl s NC_NN_NofN criminal police NC_XXXinv cross roads NC_XXNs head head N1 s of government government N1 s NC_NofNs notary notary N3 s public public Nl s NC_NsNs rolling stone stone Nl s NC_XXN student student N1 s union union N1l s NC_Ns N Les graphes de flexion correspondants N1 et N3 pour les mots simples se trouvent dans les figures 11 10 et figures 11 11 tandis que ceux pour les mots compos s s chelonnent de la figure 11 12 la figure 11 20 Le DELACF r sultant de la flexion par MULTIFLEX du DELAC pr c dent est le suivant angle of reflection angle of reflection NC_NXXXX s angles of reflection angle of reflection NC_NXXXX p Adam s apple Adam s apple NC_XXXXN s Adam s apples Adam s apple NC_XXXXN p air brake air brake NC_XXN s air brakes air brake NC_XXN p date of birth birth date NC_NN_NofN s dates of birth birth date NC_NN_NofN p birth date birth date NC_NN_NofN s birth dates birth date NC_NN_NofN p criminal police criminal police NC_XXXinv p cross roads cross roads NC_XXNs s cr
150. PTIONS lt tfst gt L entr e de ce programme est l automate du texte sp cifi dans t fst Le pro gramme applique l algorithme de Viterbi et produit un automate lin aire L auto mate est lagu de fa on probabiliste selon un mod le de Markov cach de second 300 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES ordre Si fichier tagger indiqu contient des tuples de type cat le tagger lague les transitions sur la base des codes grammaticaux syntaxiques et s mantiques par exemple that DET Ddem versus that PRO Pdem Par contre si le fichier con tient des tuples de type morph le tagger lague les transitions sur la base des codes grammaticaux syntaxiques s mantiques et flexionnels the DET Ddef s versus the DET Ddef p Dans le cas o l automate doit tre d velopp avant d applique le processus d tiquetage un fichier tagset doit re indiqu avec l option t ci dessous OPTIONS e a ALPH alphabet ALPH fichier alphabet e o OUT output OUT automate du texte en sortie t TAGSET tagset TAGSET nom du fichier tagset e d DATA data DATA un fichier de donn tagger bin qui contient le nom bre d occurences d unigramme de bigrammes et de trigrammes afin de cal culer des probabilit s ce fichier est fournit avec le programme TrainingTagger voir section 14 10 2 13 40 TagsetNormTfst TagsetNormTfst OPTIONS lt tfst gt Ce programme normalise l automa
151. Pour que CasSys reconnaisse un graphe g n rique il faut cocher la colonne Generic figure 12 10 esse a a Disabled Replace Until Fix Poin 1 generee MW I L 2 fst2 y EJ m 3 hasta v E FIGURE 12 10 Graphe g n rique 12 3 2 Structure d un graphe g n rique Un chemin dans un graphe g n rique doit commencer par une bo te avec G et en sortie une accolade ouvrante C est cette bo te qui sera remplie par CasSys La deuxi me bo te comprend en sortie l l ment chercher Sur la figure 12 11 CasSys place dans la bo te toutes les entr es de cat gorie x extraites du dictionnaire du texte Par exemple CasSys extrait A de la ligne A x du dictionnaire du texte comme dans la figure 12 12 En plus un contexte droit n gatif section 6 3 est plac pour emp cher le deuxi me tiquetage de l occurence G x t FIGURE 12 11 Graphe g n rique SY HS DO x FIGURE 12 12 Graphe g n rique modifi Dans le cas d une imbrication A y B z x le graphe de la figure 12 11 place dans la bo te A B comme dans la figure 12 13 Des restrictions sont possibles en crivant l int rieur de la deuxi me bo te une cat gorie par exemple y sur la figure 12 14 c est alors seulement A qui est plac dans la bo te comme montr dans la figure 12 15 12 3 GRAPHES G N RIQUES 261 4
152. RATE NN Et di Ru diese dE Ne eRe ETS oe ERS SG 300 LT E Loa at Le RD da da a a DUR se eue Sue e 300 PA TBUG Lin a las au made bed pin las oe 301 EAST ROI oes nee den ere Ame sea Sete e da ed 301 PA Token E ace dae A Bd De dame Mie ORES DRED 302 13 45 raming si i is Le si Ses EES CHEESE ESCA 303 TSG Pete ER SL De Li UM da a dde Dar CD D Deer ee me de 304 LT E Lu he ke Sue Se Ee OR eee eee eee es 305 TS ASU WIOKGIMNZE 0 coto bee Ee ee Dee we ee ba web Ew N 305 ee iio LOOM A 305 13 50UmitexTool Logger o s o A AR AA ARA BS 306 TO SLUNG e os 414 p Ai AN Lai martin mes S au ei 309 TRS E A 310 14 Formats de fichiers 311 Qe AA ek E ew ae eee ed g Pee Opa 311 14 2 Fichiers d alphabet lt ei sa bee ded owe spenr dodit EER As 312 MAL Alphabet III 312 J422 Alphabetde tri ks ioone Oe od oe ee ee A ES 313 e MI 314 14 3 1 Format rra AAA AAA RS RHE Se WEEE REL EW 314 IZ POTTS tee PSE oh i oe Se os SE SE ee ey SR al Se a 318 144 Textes oe 4 4 4 ee ao dou dd n e ne ee 6 319 1441 o A 319 DEL DICES Le a eA ee e te wR De e 319 144 3 Pichi textcod idad a a 44 a Be PR ES ER 319 14 4 4 Fichier tokens txt eee 319 1445 Fichier tok_by_alph txt et tok_by_freq txt ek mu eu be es 320 H46 Pehereptetpos so sis date L une Aa en 320 14 5 Automate du l acs boa ca bide me made da b b 320 145 1 Fichier IEEE co cian bs DE ee ea de eu dun 320 14 5 2 Fichier text tind 323 14 5 3 Fichie
153. TEXTE n TEE A 3543 sentences Os benfeitores Dir se ia uma galeria de afogados todos solenes secos hirtos de Sentence l bios finos e ar de cerim nia Reset Sentence Graph Rebuild FST Text Elag Frame Explode Implode Apply Elag Rule V MC C1s C4s C3s PRO Pes R4ms R4fs R4mp R4fp FIGURE 7 7 Automate de phrase normalis 7 2 CONSTRUCTION 169 Le programme Reconstrucao permet de construire dynamiquement pour chaque texte une grammaire de normalisation de ces formes La grammaire ainsi produite peut alors tre utilis e pour normaliser l automate du texte La fen tre de configuration de construction de automate propose l option Build clitic normalization grammar voir figure 7 10 Cette option lance automatiquement la construction de la grammaire de normalisation qui est ensuite utilis e pour construire l automate du texte si vous avez s lectionn l option Apply the Normalization grammar 7 2 4 Conservation des meilleurs chemins Il peut arriver qu un mot inconnu vienne parasiter l automate du texte en tant con current avec une s quence compl tement tiquet e Ainsi dans l automate de phrase de la figure 7 8 on peut voir que l adverbe aujourd hui est concurrenc par le mot inconnu aujourd suivi d une apostrophe et du participe pass du verbe huir i 3653 sentences Je n ai pas le temps aujourd hui _ Restez r pondit Fix Sentence Explode
154. TUTE GOODS OR SERVICES LOSS OF USE DATA OR PROFITS OR BUSINESS IN TERRUPTION HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY WHETHER IN CONTRACT STRICT LIABILITY OR TORT INCLUDING NEGLIGENCE OR OTHERWISE ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE Annexe F Lesser General Public License For Linguistic Resources Cette licence a t con ue par l Universit de Marne la Vall e Elle a re u l approba tion de la Free Software Foundation 1 et figure sur la liste de licences open source partir de la version 2 1 du projet Software Package Data Exchange SPDX de la Fondation Linux Preamble The licenses for most data are designed to take away your freedom to share and change it By contrast this License is intended to guarantee your freedom to share and change free data to make sure the data are free for all their users This license the Lesser General Public License for Linguistic Resources applies to some specially designated linguistic resources typically lexicons grammars thesauri and textual corpora TERMS AND CONDITIONS FOR COPYING DISTRIBUTION AND MODIFICATION 0 This License Agreement applies to any Linguistic Resource which contains a notice placed by the copyright holder or other authorized party saying it may be distributed under the terms of this Lesser General Public License for Linguistic Resources also called this License Each licen
155. UNITEX 3 1BETA MANUEL D UTILISATION Universit Paris Est Marne la Vall e http www igm univ mlv fr unitex E unitex univ mlv fr S bastien Paumier La version fran aise de 2013 a t r alis e par Claude Martineau partir de la version 1 2 en frangais 2006 et de la version 3 1 b ta en anglais quatre nouveaux chapitres et de nombreux ajouts dans les chapitres pr existants Date de cette version 14 novembre 2015 Table des mati res Introduction 13 Quoi deneut depuis la version 30 3 24234 4444424484 ed SRE HEEL 14 CONIC 3 3S boa ea a da ee eee CS SERA Se aR EGA ae aes 16 Umitex COmiriPUisurs o oc Le Deh Dee Pd we ae She Ee ED ee ee 17 Si vous utilisez Unitex dans des projets de recherche 18 1 Installation d Unitex 19 Il LICENLES 5 ac oe di aa Maman near ans eo Ee eee da 19 1 2 Environnement d ex cution Java 20 13 stallationsous Windows escocia ee ees Oe bea oo 20 14 Installation sous Linux s se seose bons ee msi e 20 1 5 Installation sous MacOSX 21 1584 Utliser Apple lava L runtime 2 cc e c da saucis m o ma Oe ES 22 1 5 2 Comment rendre tous les fichiers visibles sur MacOS 22 1 6 Premi re utilisation 23 17 AOS NOUS langues osse pos aene a ee a AAA 23 TS Destellos 00 a e M ee hs Ge wa a A a 24 1 9 Due pour les d veloppears 1 i245 cara
156. XN2 p2mgea hungry as a wolf gladnih kao vukovi gladan kao vuk AC_A3XN2 p2mgea hungry as a wol gladnih kao vuk gladan kao vuk AC_A3XN2 p2fgea hungry as a wolf gladnih kao vuci gladan kao vuk AC_A3XN2 p2fgea hungry as a wolf gladnih kao vukovi gladan kao vuk AC_A3XN2 p2fgea hungry as a wol gladnih kao vuk gladan kao vuk AC_A3XN2 p2ngea hungry as a wolf gladnih kao vuci gladan kao vuk AC_A3XN2 p2ngea hungry as a wolf gladnih kao vukovi gladan kao vuk AC_A3XN2 p2ngea hungry as a wol gladnima kao vuk gladan kao vuk AC_A3XN2 p3mgea hungry as a wolf gladnima kao vuci gladan kao vuk AC_A3XN2 p3mgea hungry as a wolf gladnima kao vukovi gladan kao vuk AC_A3XN2 p3mgea hungry as a wol gladnim kao vuk gladan kao vuk AC_A3XN2 p3mgea hungry as a wolf gladnim kao vuci gladan kao vuk AC_A3XN2 p3mgea hungry as a wol gladnim kao vukovi gladan kao vuk AC_A3XN2 p3mgea hungry as a wol gladnima kao vuk gladan kao vuk AC_A3XN2 p3fgea hungry as a wolf gladnima kao vuci gladan kao vuk AC_A3XN2 p3fgea hungry as a wolf gladnima kao vukovi gladan kao vuk AC_A3XN2 p3fgea hungry as a wol gladnim kao vuk gladan kao vuk AC_A3XN2 p3fgea hungry as a wolf gladnim kao vuci gladan kao vuk AC_A3XN2 p3fgea hungry as a wolf gladnim kao vukovi gladan kao vuk AC_A3XN2 p3fgea hungry as a wol gladnima kao vuk gladan kao vuk AC_A3XN2 p3ngea hungry as a wolf gladnima kao vuci gladan kao vuk AC_A3XN2 p3ngea hungry as a wolf gladnima kao vukovi gladan kao vu
157. XT FILE SIZE 20971524 ICON BAR POSITION WestY PACKAGE PATH D repository MORPHOLOGICAL DICTIONARY D MyUnitex English Dela zz bin MORPHOLOGICAL NODES COLOR 3911728 MORPHOLOGICAL USE OF SPACE falseY Les deux pre antes indique les dictionnai mi res lignes sont des lignes de commentaires Les trois lignes suiv nt le nom le style et la taille de la police utilis e pour afficher les textes res les unit s lexicales les phrases de l automate du texte etc The CONCORDANCE FONT NAME et CONCORDANCE FONT HTML SIZE d finissent le nom et la taille de la police a utiliser pour afficher les concordances en HTML La taille de la police doit tre comprise entre 1 et 7 Les param tres INPUT FONT et OUTPUT FONT d finissent le nom le style et la taille des polices utilis es pour afficher les chemins et les transductions des graphes Les 10 param tres suivants correspondent aux param tres pr cis s dans les en t tes des graphes Le tableau 14 5 d crit ces correspondances Le param tre r pertoire de PACKAGE NODES d finit la couleur des appels a des sous graphes du d p t Le param tre CONTEXT NODES d finit la couleur des bo tes correspondant des d buts ou fin s de contextes 14 11 FICHIER DE CONFIGURATION 339 Par
158. ace vides peuvent correspondre a des mots vides du texte Dans ces cas z a la valeur 1 La d finition de tag se termine par une ligne qui contient f Exemple Voici le fichier correspondant au texte He is drinking orange juice 00000000014 1q He is drinking orange juice Y 322 CHAPITRE 14 FORMATS DE FICHIERS 0 2 1 1 2 2 1 1 3 8 1 1 4 6 1 1 5 5 6 1 LEA 0_04 IN E 4 2 3 24 D 3 6 4 53 10 5 9 4 8 4 12 5 11 5 13 6f tq q lt E gt q Y STD4 He he N s p f 0 0 0 0 1 09 2 STD4 He he PRO Nomin 3ms 0 0 0 0 1 09 Y STD4 is be V P3s f 2 0 0 2 1 09 Y STD4 is i N p 2 0 0 2 1 09 Y STD4 drinking drinking A 4 0 0 4 7 09 2 STD4 drinking drinking N s 4 4 0 0 4 7 09 Y STD4 drinking drink V G 4 4 0 0 4 7 09 Y STD4 orange orange A 4 6 0 0 6 5 04 14 5 AUTOMATE DU TEXTE 323 4 STD4 orange orange N s 4 k6 0 0 6 5 0 4 STD4 orange juice orange juice N XN z1l s 4 6 0 0 8 4 04 4 STD4 juice juice N Conc s 4 68 0 0 8 4 04 4 STD4 juice juice V W P1s P2s P1p P2p P3p 4 8 0 0 8 4 04 4 STD4 e 9 0 0 9 0 0 2 fT 14 5 2 Fichier text tind Le fichier text tind utilis pour sauter l octet d offset correct dans le fichier text tfst quand on veut charger une phrase donn e C est un fichier binaire qui contient 4 x N octets o N est le nombre de phrases Il donne l offset de d
159. acyunima zxiro racyun NC_2 zxiro racyune zxiro racyun NC_2X zxiro racyuni zxiro racyun NC_2XN zxiro racyunima zxiro racyun NC_2 zxiro racyunima zxiro racyun NC_2 zxiro racyuna zxiro racyun NC_2XN1 N Comp w2qm zxiro racyuna zxiro racyun NC_2XN1 N Comp w4qm zxiro racyun zxiro racyun NC_2XN1 N Comp slqm zxiro racyuna zxiro racyun NC_2XN1 N Comp s2qm zxiro racyunu zxiro racyun NC_2XN1 N Comp s3qm zxiro racyun zxiro racyun NC_2XN1 N Comp s4qm zxiro racyune zxiro racyun NC_2XN1 N Comp s5qm zxiro racyunom zxiro racyun NC_2XN1 N Comp s6qm zxiro racyunu zxiro racyun NC_2XN1 N Comp s7qm zxiro racyuni zxiro racyun NC_2XN1 N Comp plqm zxiro racyuna zxiro racyun NC_2XN1 N Comp p2qm zxiro racyunima zxiro racyun NC_2XN1 N Comp p3qm zxiro racyune zxiro racyun NC_2XN1 N Comp p4qm zxiro racyuni zxiro racyun NC_2XN1 N Comp p5qm zxiro racyunima zxiro racyun NC_2XN1 N Comp p6qm zxiro racyunima zxiro racyun NC_2XN1 N Comp p7qm zxiro racyuna zxiro racyun NC_2XN1 N Comp w2qm zxiro racyuna zxiro racyun NC_2XN1 N Comp w4qm avio prevoznik avio prevoznik NC_2XN2 N Comp slvm 1 N Comp plqm 1 N Comp p2qm XN1 N Comp p3qm 1 N Comp p4qm 1 N Comp p5qm XN1 N Comp p6qm XN1 N Comp p7qm 1 1 avio prevoznika avio prevoznik NC_2XN2 N Comp s2vm avio prevozniku avio prevoznik NC_2XN2 N Comp s3vm avio prevoznika avio prevoznik NC_2XN2 N Comp s4vm avio prevoznicye avio prevoznik NC_2XN2 N Comp s5v
160. add Aa da 24 2 Chargement d un texte 27 2 1 S lection de la langue lt ss sa sa ba due de ria Pee ER pe ai 27 22 Format des MES nn ee e 4 Ju di du de dar ue eee Lu 28 23 dition de textes 1 14 du 65 bbb ceed bow b Eee Rhee ea tetes 30 24 Ouverture d unterte s ceanii eane oe ee nd Sa de le d s h me ba a 31 2 5 Pr traitement du texte 0 ce ee ee 31 251 Normalisation dess parateurs ociosa 33 252 IDEOOUPA RSE PTAS e rect eee dE Re OES ete 34 2 5 3 Normalisation de formes non ambigu s 36 254 D coupage du texte en unit s lexicales 6 4 4s esa be ears 38 255 Application de dictionnaires s gt 4004 4 dos ep Ea de detre 40 2 5 6 Analyse des mots compos s libres en n erlandais allemand norv gien a DURS Ge ee eB wa Bed 41 LE Quyerture d un texte heres so ke aies SEs AA RADA 42 4 3 TABLE DES MATI RES Dictionnaires 45 3 1 Les dictionnaires DELA 45 31 1 Formatdes DELAR scs calet 4 padou Ge wea e we 45 341 2 Pormatdes DELAS 2424 it a nette sd 48 3 1 3 Contenu des dictionnaires 49 3 2 Recherche d un mot dans un dictionnaire 51 3 3 V rification du format du dictionnaire 52 Be E SAS 2 actos SS 4 Shee Se EM SMS SN LR NU MENU 53 a lt s 5 RI ee ee Re eS 55 Sol Jeon des mots Simples 26 s o spoe puede Listes ere es 55 3 5 2 Op rateurs de flexi n av
161. aire 14 8 1 Fichier bin Un fichier bin est un fichier binaire repr sentant un automate Les 4 premiers octets du fichier repr sentent un entier indiquant la taille du fichier en octets Les tats de l automate sont ensuite cod s de la mani re suivante e les 2 premiers octets indiquent si l tat est terminal ainsi que le nombre de transitions qui en sortent Le bit le plus fort vaut 0 si l tat est terminal et 1 sinon Les 15 autres bits codent le nombre de transitions Exemple un tat non terminal avec 17 transitions est cod par la s quence hexad cimale 8011 si l tat est terminal les 3 octets suivants codent l indice dans le fichier inf de la forme comprim e utiliser pour reconstruire les lignes de dictionnaires pour cette forme fl chie Exemple si l tat renvoie la forme comprim e d indice 25133 la s quence hexad cimale correspondante est 00622D chaque transition sortante est ensuite cod e sur 5 octets Les 2 premiers octets codent le caract re tiquetant la transition et les 3 suivants codent la position en octets dans le fichier bin de l tat d arriv e Les transitions d un tat sont cod es les unes la suite des autres Exemple une transition tiquet e par le caract re A pointant vers l tat dont la description d bute au 50106eme octet sera repr sent par la s quence hex ad cimale 004100C3BA Par convention le premier tat de l automate est
162. am tres dans le fichier Config file Param tres dans un fichier grf file DATE DDATE FILE NAME DFILE PATH NAME DDIR FRAME DFRAME RIGHT TO LEFT DRIG BACKGROUND COLOR BCOLOR FOREGROUND COLOR FCOLOR AUXILIARY NODES COLOR ACOLOR COMMENT NODES COLOR SCOLOR SELECTED NODES COLOR CCOLOR TABLE 14 5 Signification des param tres Le param tre CONTEXT NODES indique si la langue courante doit tre trait e en mode caract re par caract re ou non Le param tre ANTIALIASING indique si les graphes ainsi que les automates de phrases doivent tre affich s par d faut avec l effet d antialiasing Le param tre HTML VIEWER indique le nom du navigateur utiliser pour afficher les concordances Si aucun nom de navigateur n est pr cis les concordances sont affich es dans une fen tre d Unitex Le param tre MAX TEXT FILE SIZE n est plus utlis Le param tre ICON BAR POSITION d finit la position de la barre d ic nes dans les fen tres de graphes Le param tre PACKAGE PATH d finit le r pertoire de d p t utiliser pour cette langue Le param tre MORPHOLOGICAL DICTIONARY indique la liste des dictionnaires du mode morphologique s par s par des points virgules Le param tre MORPHOLOGICAL NODES COLOR d finit la couleur des tiquettes du mode morphologique lt et gt Le param tre MORPHOLOGICAL USE OF SPACE indique s
163. ama istrazxni sudija NC_AXNF N Comp 3vfp istrazxne sudije istrazxni sudija NC_AXNF N istrazxne sudije istrazxni sudija NC_AXNF N Comp 4vfp Comp 5vfp istrazxnima sudijama istrazxni sudija NC_AXNF N Comp 6vfp istrazxnim sudijama istrazxni sudija NC_AXNF N Comp 6vfp istrazxnima sudijama istrazxni sudija NC_AXNF N Comp 7vfp istrazxnim sudijama istrazxni sudija NC_AXNF N Comp 7 vfp istrazxne sudije istrazxni sudija NC_AXNF N Comp 2vfw m m m vm vm m m m m m 3vm 3vm m m m m 6vm 6vm 7vm 7vm m m m m Org fp1q Org fp2q op Org fp3q Org fp4q Org fp5q rop Org fp6q op Org fp6q rop Org fp7q op Org fp7q Top Reg ns1q op Reg ns2q op Reg ns3q op Reg ns4q Top Reg ns5q NC_N3XN N Comp NProp Top Reg ns6q op Reg ns7q 243 244 CHAPITRE 11 FLEXION DES MOTS COMPOS S istrazxne sudije istrazxni sudija NC_AXNF N Comp 4vfw istrazxnoga sudiju istrazxni sudija NC_AXNF N Comp ms4v istrazxnog sudiju istrazxni sudija NC_AXNF N Comp ms4v istrazxni sudija istrazxni sudija NC_AXNF N Comp lvms istrazxnoga sudije istrazxni sudija NC_AXNF N Comp 2vms istrazxnog sudije istrazxni sudija NC_AXNF N Comp 2vms istrazxnomu sudiji istrazxni sudija NC_AXNF N Comp 3vms istrazxnome sudiji istrazxni sudija AXNF N Comp 3vms istrazxnom sudiji istrazxni sudija NC_AXNF N Comp 3vms istrazxnomu sudiji istrazxni sudija XNF N Comp 7vms istrazxnome sudiji i
164. ambiguit s le pro gramme Elag calcule le nombre d analyses possibles dans l automate du texte avant et apres modification cela correspond au nombre de chemins possibles dans l automate En se basant sur cette valeur le programme calcule l ambiguit moyenne par phrase et par mot C est cette derni re mesure qui est utilis e pour repr senter le taux d ambiguit s du texte car elle ne varie pas avec la taille du corpus ni avec le nombre de phrases de celui ci La formule appliqu e est log nombredechemins taux d ambiguit s exp longueurdutezte Le rapport entre le taux d ambiguit s avant et apr s l application des grammaires donne une mesure de leur efficacit Toutes ces informations sont affich es dans le fen tre de traitement d ELAG 7 3 6 Description du jeu d tiquettes Les programmes Elag and ElagComp n cessitent une description formelle du jeu d ti quettes des dictionnaires utilis s Cette description consiste grosso modo en une num ra tion de toutes les cat gories grammaticales pr sentes dans les dictionnaires avec pour cha cune delle la liste des codes syntaxiques et flexionnels qui leur sont associ es et une de scription de leurs possibles combinaisons Ces informations sont d crites dans le fichier nomm tagset def qui se trouve dans votre r pertoire personnel dans le sous r pertoire de la langue choisie tagset def file Voici un extrait du fichier tagset def utilis pour le franca
165. ammaire reconna t les s quences d crites par les chemins allant de l tat initial l tat final 5 2 DITION DE GRAPHES 95 Unitex 2 1 current Text DELA Lexicon Grammar XAlign File Edition Windows Info Open Save Save as Save All Page Setup Print Ctri P Print All Close all FIGURE 5 1 Menu FSGraph FIGURE 5 2 Graphe vierge Pour cr er une bo te cliquez sur la fen tre tout en appuyant sur la touche Ctrl Vous verrez alors appara tre un carr bleu symbolisant la bo te vide cr e voir figure 5 3 Lors de la cr ation d une bo te celle ci est automatiquement s lectionn e Le contenu de la bo te s affiche dans la zone de texte situ e en haut de la fen tre figure 5 3 La bo te cr e contient le symbole lt E gt qui repr sente le mot vide epsilon Remplacez ce symbole par le texte I you he she it we they et validez en appuyant sur la touche Entr e Vous venez de cr er une bo te contenant sept lignes voir figure 5 4 96 CHAPITRE 5 GRAMMAIRES LOCALES FIGURE 5 3 Cr ation d une bo te FIGURE 5 4 Bo te contenant I you he she it we they En effet le caract re sert de s parateur La bo te appara t sous la forme de lignes de texte rouge car elle n est pour l instant reli e aucune autre On utilise souvent ce type de bo tes pour ins re
166. amme code la forme canonique par le nombre de caract res retrancher de la forme fl chie suivi des caract res ajouter A nsi la premi re ligne du fichier ci dessus correspond la ligne de dictionnaire James Bond 007 N Comme la s quence James Bond contient trois unit s et 007 seulement une la forme canonique est cod e par _10 0 0 7 Le caract re _ indique que les deux formes n ont pas le m me nombre d unit s Le nombre qui suit ici 10 indique le nombre de caract res retrancher La s quence 101017 qui suit ce nombre indique que l on doit ensuite ajouter la s quence 007 Les chiffres sont pr c d s du caract re pour ne pas tre confondus avec le nombre de caract res retrancher 14 8 DICTIONNAIRES 331 Lorsque les deux formes ont le m me nombre d unit s les unit s sont comprim es deux deux Si les deux unit s sont compos es d un espace ou d un tiret la forme comprim e de l unit est l unit elle m me comme c est le cas dans la ligne suiv ante 0 1 N p qui est la sortie pour battle axes battle axe N p Cela permet de conserver une certaine visibilit dans le fichier inf lorsque le dic tionnaire contient des mots compos s Lorsque au moins une des unit s n est ni un espace ni un tiret la forme comprim e est compos e du nombre de caract res retrancher suivi de la s quence de carac t res ajouter Ainsi la ligne de dictionnaire premi re partie premier parti N AN
167. anc s lt lt reos AAA 59 399 Fledondes MOS COMPASES au i ee be AAA A 63 35 4 Flexiondes langues s mitiques sore nantes sa 63 EA AI 64 Of Applicalon de dICHONNAIRS lt gt cres iris ns da 66 SU Priorit s corzos sa rca de ab Bk es in unie 66 3 7 2 R gles d application des dictionnaires 44444 ee evens 67 37 9 Graphes dicH nnair s s Lis cerda 68 3 74 Graphe dictionnaire morphologique 242 4 eus e096 5 70 One IBIS seei tet Gah AREA A es 73 Recherche d expressions rationnelles 75 El DEMOS osa cora maue seu e a a aa 75 de LABS leacales Sos ii 2S ol OS ESM SOA A SRE 75 49 Masgues lexica dr ra as AA RARAS 76 Sek Symboles Splay e st eee ha a RR A ee ES phe de be 76 4 3 2 R f rence aux informations fournies par les dictionnaires TE 4 3 3 Contraintes grammaticales et s mantiques 77 4 3 4 Contraintes flexionnelles 78 435 N gation d un masque lexical lt o es sos du rare EE es 79 24 A_OnCATCN ATOM cias wR de a a dans 81 Ao MN a ek da a a A OE le Se ee he ee a E S 82 46 toile de Kleene 82 a7 Filtres morphologiques 254 025 shbee de bebe SP SESE Va 83 48 Recherche 46 44 8 48 eue ee em A ee ee a a 84 40 1 Coniguration dela recnercie lt ies snok dus Od SOLER a 84 482 Alichage des meule a see Oe amp pres we OE A 86 AGO ci 24 25 25 sente SSS LARGE PER REE Ee Sad 90 Grammair
168. anhoe by Sir Walter Scott en mode MERGE on obtient la concordance de la figure 6 42 a Concordance D My Unitex English Corpus ivanhoe_snticoncord html of pointed beans which the Adj adjacent forest supplied defended the o f the outlaws with whom the Adj adjacent forest abounded or by the viol es may be still seen in the Adj antique Colleges of Oxford or Cambridge insolence fellow said the Adj armed rider breaking in on his prattle an 3 take a turn round the Adj back o the hill to gain the wind on the ring the greater part of the Adj beautiful hills and valleys which lie be mantle and hood were of the Adj best Flanders cloth and fell in ample dest wine cask 5 place the Adj best mead the mightiest ale the riches Then sad relief from the Adj bleak coast that hears The German Ocean e bring to the shrine of the Adj Blessed Virgin Well you have said en rong And yellow hair d the Adj blue eyed Saxon came 5 Thomson s Liber the son of Beowulph is the Adj born thrall of Cedric of Rotherwood Be Sentados a gt FIGURE 6 42 Concordance obtenue en mode MERGE avec le transducteur de la figure 6 41 6 7 2 Application en avancant Pendant les op rations de pr traitement le texte est modifi au fur et mesure qu il est parcouru Afin d viter le risque de boucler ind finiment il ne faut pas que les s quences produites par un transducteur p
169. anipuler par les programmes d Unitex Pour compiler un graphe vous devez l ou vrir puis cliquer sur Compile FST2 dans le sous menu Tools du menu FSGraph Unitex lance alors le programme Grf2Fst2 dont vous pouvez suivre l ex cution dans une fen tre voir figure 6 4 Messages with a colored background are generated by the interface not by the external programs Compiling graph DetN Compiling graph DetSimple Recursion detection started Resolving lt E gt conditions Looking for lt E gt loops MLooking for infinite recursions Recursion detection completed Compilation has succeeded Cannot open the graph DetSimple grf D My Unitex English Graphs DetSimple grf Cancel FIGURE 6 4 Fen tre de compilation Si le graphe fait appel des sous graphes ceux ci sont automatiquement compil s Le r sul tat est un fichier st 2 fichier qui rassemble tous les graphes qui composent la grammaire La grammaire est alors pr te tre utilis e par les diff rents programmes d Unitex 124 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES 6 2 2 Approximation par un transducteur fini Le format FST2 conserve l architecture en sous graphes des grammaires ce qui les dif f rencie des stricts transducteurs tats finis Le programme Flatten permet de trans former une grammaire FST2 en un transducteur tats finis quand cela est possible et d en construire une approximation dans le cas contraire Cette
170. ans le dictionnaire et qui se termine par es e lt V S T gt lt lt uiss gt gt verbe au subjonctif pass ou pr sent contenant uiss NOTE par d faut les filtres morphologiques sont soumis aux m me variations de casse que les masques lexicaux Ainsi le filtre lt lt gt gt va reconna tre tous les mots commen ant par mais galement ceux qui commencent par E ou Pour forcer le respect exact de la casse du filtre il faut ajouter _f_ imm diatement apr s celui ci Exemple lt A gt lt lt gt gt _ _ 48 Recherche 4 8 1 Configuration de la recherche Pour pouvoir rechercher une expression il faut tout d abord ouvrir un texte voir chapitre 2 Cliquez ensuite sur Locate Pattern dans le menu Text La fen tre de la figure 4 4 ap para t alors 4 8 RECHERCHE 85 fF Locate Pattern Locate configuration Advanced options Locate pattern in the form of O Regular expression Graph Set Index Grammar outputs Shortest matches 8 Are not taken into account 8 Longest matches Merge with input text All matches O Replace recognized sequences Search limitation a Stop after 200 matches SEARCH O Index all utterances in text Search algorithm 8 Paumier 2003 working on text quicken automaton intersection higher precision FIGURE 4 4 Fen tre de recherche d expressions Le cadre Locate Pattern permet de choisir en
171. ansduction un trans ducteur est capable de produire une sortie Cassys est sp cialis dans l application de trans ducteurs sous la forme d une cascade Une cascade peut tre utilis e pour l analyse syntaxique le chunking l extraction d in formation etc Les transducteurs sont int r ssants car ils permettent d associer la s quence reconnue l information qui se trouve dans sorties des graphes Ces sorties peuvent e Etre ajout es la s quence reconnue et appara tre dans la concordance r sultante ou le texte modifi e Remplacer la s quence reconnue pour modifier le texte Ces deux op rations transforment le texte ou lui ajoute des informations 1 Feder R gion Centre entit s nomm es et nommables dirig par Denis Maurel LI Tours France int gra tion r alis e par Nathalie Friburger et David Nott 251 252 CHAPITRE 12 CASCADE DE TRANSDUCTEURS Dans ce chapitre nous expliquons comment cr er des cascades de transducteurs et comment les appliquer Ensuite nous d taillons les options et possibilit s offertent par CasSys 12 1 Appliquer une cascade de Transducteurs avec CasSys Appliquer une cascade de transducteurs avec CasSys consiste repr senter un ph nom ne linguistique par une liste de transducteurs appliquer au texte dans un ordre pr cis CasSys et son interface dans Unitex permet d y parvenir Cette section explique comment utiliser l interface pour cr er et g rer les graphes or
172. antes du transducteur Options de sortie ambigu s e b ambiguous_outputs permet la production de plusieurs matchs avec la m me entr e mais diff rentes sorties par d faut e z no_ambiguous_outputs interdit les sorties ambigu s Dans le cas de sorties ambigu s l une sera arbitrairement choisie en fonction de l tat interne du programme Options d erreur sur les variables Ces options n ont aucun effet si le mode de sortie est r gl avec ignore sinon elles d finissent le comportement du programme Locate quand une sortie une r f rence une variable qui n est pas correctement d finie e X exit_on_ variable error arr te le programme e Y ignore variable errors agit comme si la variable avait un con tenu vide par d faut e Z backtrack_ on variable errors arr ter d explorer le chemin courant de la grammaire Injection de variables e v X Y variable x yY d finit une variable de sortie nomm e X avec un contenu Y Notez que Y doit tre ASCII Option d tiquetage e tagging indique que la concordance doit tre taggu e et contenir les in formations suppl mentaires sur les tats de d but et de fin de chaque match Ce programme enregistre les r f rences des occurrences trouv es dans un fichier appel concord ind Le nombre d occurrences et le nombre de sorties produites sont enregistr es dans un fichier appel concord_tfst n Ces deux fich
173. aphe Concordance D My Unitex EnglishiCorpuslivanhoe_snticoncord html lders and was silent 5 Prince John TITLE Prince resumed his retreat he hermit his name is Sir Anthony of Scrabelstone TITLE Sir as if I again passed round To Sir Athelstane of Coningsburgh TITLE Sir r shall call thee Saxon Sir Baron TITLE Sir replied Cedric offended to say lady answered Sir Brian de Bois TITLE Sir Guilbert ory Sir Palmer said Sir Brian de Bois TITLE Sir Guilbert so unsafe the escort of Sir Brian de Bois TITLE Sir Guilbert is not to er to be a handmaiden to Sir Brian de Bois TITLE Sir Guilbert after the ghts of the Temple and Sir Brian de BoisGuilbert TITLE 5Sir well knows have offended replied Sir Brian TITLE 5ir I crave your FIGURE 6 45 Concordance obtenue par l application du graphe Tit leName 148 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES ADJ ADJ NOUN NOUN PNOUN ADJ FIGURE 6 46 Interversion de mots gr ce deux variables d entr e Concordance D My Unitex EnglishiCorpus ivanhoe_snticoncord html stopping the course of a brook small which glided smoothly round the foot a when his return from his captivity long had become an event rather wished t E heir gnarled arms over a carpet thick of the most delicious green sward 5 ight as it were to the chains feudal with which they were loaded S At c arance of that wild and character rustic which
174. ar les symboles et Les sorties variables n ont pas de sens dans ce type de graphe Il est possible de faire appel des sous graphes Il n est pas possible de faire r f rence aux dictionnaires pour d crire les formes normaliser L unique symbole sp cial reconnu dans ce type de graphe est le mot vide lt E gt Les graphes de normalisation de formes ambigu s doivent tre compil s avant de pouvoir tre utilis s 6 1 4 Graphes syntaxiques Les graphes syntaxiques galement appel s grammaires locales permettent de d crire des motifs syntaxiques qui pourront ensuite tre recherch s dans des textes De tous les types de graphe ceux ci possedent la plus grande puissance d expressions car ils permet tent de faire r f rence aux dictionnaires Les variantes minuscules majuscules sont autoris es selon le principe d crit plus haut Il est toutefois possible de forcer le respect de la casse en encadrant une expression avec des guillemets L emploi des guillemets permet galement de forcer le respect des espacements En effet Unitex consid re par d faut qu un espace est possible entre deux bo tes Pour forcer la pr sence d un espace il faut le mettre entre guillemets Pour interdire la pr sence d un espace il faut utiliser le symbole sp cial Les graphes syntaxiques peuvent faire appel des sous graphes voir section 5 2 2 Ils gerent galement les sorties y compris les sorties variables Les s quen
175. aragraphe CR amp LF CR O LF o Amer Aide FIGURE 2 4 Sauvegarde en Unicode dans OpenOffice Writer Vous pouvez choisir le codage par d faut UTF16LE UTF16BE ou UTF8 dans l onglet En coding gr ce au sous menu Preference dans le menu Info Ce codage n est valide que pour la langue courante Morphological dictionaries SVN Encoding Directories I Language amp Presentation Select encoding to be used by Unitex 8 UTF16LE 2 UTF16BE Cancel FIGURE 2 5 Choix de l encodage par d faut pour la langue courante 2 3 dition de textes Vous avez galement la possibilit d utiliser l diteur de texte int gr Unitex accessi ble via la commande Open du menu File Edition Cet diteur vous propose des fonc tionnalit s de recherche et remplacement propres aux textes et dictionnaires manipul s par Unitex Pour y acc der cliquez sur l ic ne Find jumelles Vous verrez alors appara tre une fen tre divis e en trois onglets L onglet Find correspond aux op rations de recherche habituelles Si vous ouvrez un texte d coup en phrases vous aurez la possibilit de faire une recherche par num ro de phrase dans l onglet Find Sentence Enfin l onglet Dictio nary Search visible sur la figure 2 6 vous permet d effectuer des op rations propres aux dictionnaires lectroniques En particulier vous pouvez effectuer une recherche en sp cifi ant si
176. aron and Thomas Klausner Redistribution and use in source and binary forms with or without modification are permitted provided that the following conditions are met 1 1 Redistributions of source code must retain the above copyright notice this list of conditions and the following disclaimer 2 2 Redistributions in binary form must reproduce the above copyright notice this list of conditions and the following disclaimer in the documentation and or other materials provided with the distribution THIS SOFTWARE IS PROVIDED BY THE NETBSD FOUNDATION INC AND CONTRIBUTORS AS IS AND ANY EXPRESS OR IMPLIED WARRANTIES IN CLUDING BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANT ABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED IN NO EVENT SHALL THE FOUNDATION OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT INDIRECT INCIDENTAL SPECIAL EXEMPLARY OR CONSE QUENTIAL DAMAGES INCLUDING BUT NOT LIMITED TO PROCUREMENT 14 13 PLUSIEURS AUTRES FICHIERS 359 OF SUBSTITUTE GOODS OR SERVICES LOSS OF USE DATA OR PROFITS OR BUSINESS INTERRUPTION HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY WHETHER IN CONTRACT STRICT LIABILITY OR TORT INCLUD ING NEGLIGENCE OR OTHERWISE ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAM AGE 360 CHAPITRE 14 FORMATS DE FICHIERS Annexe C Licence Apache de Xerces2 Voici la licence la note de copyright et la clause de non respon
177. artir de noms Dans des cas comme regrettable ou r quisitionnable 3 5 FLEXION AUTOMATIQUE 57 on observe un doublement de la consonne finale du nom Pour viter d crire un graphe de flexion pour chaque consonne finale possible on peut utiliser l op rateur C afin de dupliquer la consonne finale quelle qu elle soit e D delete supprime une lettre de l entr e en d calant tout ce qui se trouve sa droite Si l on souhaite par exemple fl chir le mot roumain european en europeni on utilis era la s quence LDRi Le L positionnera le curseur sur la lettre a D va supprimer le a en d calant le n sur la gauche puis Ri va r tablir le n et ajouter un i e U unaccent enl ve l accent du caract re courant s il en comporte un Par exemple la s quence LLUx appliqu e au mot mang s produit la forme fl chie mangex puisque U transform le en e e P uppercase met en majuscule la premiere lettre de la pile Par exemple la s quence Px transforme foo en Foox e Ww lowercase met en minuscule la premi re lettre de la pile e lt R gt remplace la premi re lettre de la pile par la lettre e lt I gt ins re la lettre avant la premi re lettre de la pile e lt X n gt supprime les n premi res lettres de la pile Il y a galement deux op rateurs sp ciaux pour le Cor en e J supprime une lettre Jamo Si le caract re est un Hangul ce caract re est d abord rem plac par sa s quence quivalen
178. as long as the modified version is interface compatible with the version that the work was made with c Accompany the work with a written offer valid for at least three years to give the same user the materials specified in Subsection 6a above for a charge no more than the cost of performing this distribution d If distribution of the work is made by offering access to copy from a designated place offer equivalent access to copy the above specified materials from the same place e Verify that the user has already received a copy of these materials or that you have already sent this user a copy For an executable the required form of the work that uses the Library must include any data and utility programs needed for reproducing the executable from it However as a special exception the materials to be distributed need not include anything that is normally distributed in either source or binary form with the ma jor components compiler kernel and so on of the operating system on which the executable runs unless that component itself accompanies the executable It may happen that this requirement contradicts the license restrictions of other proprietary libraries that do not normally accompany the operating system Such a contradiction means you cannot use both them and the Library together in an executable that you distribute 7 You may place library facilities that are a work based on the Library side by side in a single librar
179. at est une grammaire fst2 qui contient un unique transducteur tats finis e r rtn les appels aux sous graphes qui subsistent apr s transformation sont laiss s tels quels Le r sultat est un transducteur tats finis dans le cas fa vorable et une grammaire optimis e strictement quivalente l originale dans le cas contraire par d faut e d N depth N profondeur maximum laquelle les appels aux graphes devraient tre d pli s La valeur par d faut est 10 13 20 Fst2Check Fst2Check OPTIONS lt fst2 gt Ce programme v rifie si un fichier fst2 n a pas d erreurs Locate OPTIONS e y loop_check active la v rification d erreurs d tection de boucles e n no_loop_check d sactive la v rification d erreurs par d faut e t tfst_check v rifie si le graphe donn peut tre consid r comme un automate de phrases ou non e e no_empty_graph_warning pas d mission de warning quand les graphes reconnaissent le mot vide Cette option est utilis e par MultiFlex pour ne pas effrayer les utilisateurs par des messages d erreurs inad quats lorsqu ils construisent une grammaire de flexion qui reconna t le mot vide Options de sortie e o file output file fichier de sorties pour les messages d erreurs e a append ouvre un fichier de message d erreurs en mode append e s statistics affiche les statistique du fichier fst2 13 21 FST2LIST 285 13 21
180. atches All matches Search limitation Stop after 200 matches SEARCH Index all utterances in text FIGURE 10 7 Recherche de motifs sur des textes align s Une fois qu Unitex a cr et pr trait la version de travail de votre texte vous pouvez 218 CHAPITRE 10 ALIGNEMENT DE TEXTE effectuer une requ te comme indiqu figure 10 7 Celle ci tant faite par le programme Locate elle est tout fait semblable celles effectu es sur un corpus normal La seule restriction est qu il est impossible d utiliser les sorties des grammaires si elles en compor tent Recherchons par exemple le motif lt manger gt dans le texte de notre exemple Dans un premier temps nous n obtenons aucun r sultat car nous n avons pas encore chang le mode d affichage du texte qui par d faut est All sentences Plain text En s lectionnant Matched sentences nous voyons seulement les phrases qui contiennent des occurrences habituellement surlign es en bleu comme le montre la figure 10 8 En cliquant sur All sen tences HTML nous obtenons toutes les phrases avec les occurrences surlign es en bleu D My UnitexiXAlign funtana xml mais nous assassinons Desi cre tini nu ne am pierdut tour de bras comme nous bine n eles indeminarea daca e cazul s mangeons comme nous sugrumam dar noi asasinam cu at ta SRIEOnS comme SOUS nongalant de parca am minca am accomplissons les gestes respira arn face un
181. ater part lt u gt amp nbsp of the beautiful hills lt font gt lt td gt lt td width 450 gt lt font color green gt lt font gt lt td gt lt tr gt lt table gt lt body gt lt html gt 14 7 Dictionnaires du texte Le programme Di co produit plusieurs fichiers qui repr sentent les dictionnaires 14 7 1 dif et dlc al f et dlc sont des dictionnaires de mots simples et compos s au format DELAF format voir section 3 1 1 14 7 2 err Ce fichier contient les mots inconnus un par ligne 14 7 3 tags _err Ce fichier contient les mots inconnus un par ligne La diff rence avec le fichier err est que dans celui ci les mots simples reconnus dans le fichier tags ind n ap paraissent pas 14 7 4 tags ind Ce fichier a le m me format que concord ind il s obtient en mode MERGE ou REPLACE mais son en t te est T Remarquons que les sorties ne commence pas par un slash 14 8 DICTIONNAIRES 329 14 8 Dictionnaires La compression des dictionnaires DELAF par le programme Compress produit 2 fichiers un fichier bin qui repr sente l automate minimal des formes fl chies du dictionnaire et un fichier inf qui contient les formes comprim es permettant de reconstruire les lignes du dictionnaire partir des formes fl chies Cette sec tion d crit le format de ces deux types de fichiers ainsi que le format du fichier CHECK_DIC TXT qui contient le r sultat de la v rification d un dictionn
182. ation des s parateurs de texte Les s parateurs sont l espace la tabulation et le saut de ligne Chaque s quence de s parateurs qui contient au moins un saut de ligne est remplac par un saut de ligne unique Toutes les autres s quences de s parateurs sont remplac es par un seul espace Ce programme v rifie galement la syntaxe des tiquettes lexicales pr sentes dans le texte Toute s quence entre accolades doit tre soit le d limiteur de phrase 5 le marqueur STOP soit une ligne de DELAF valide aujourd hui ADV 13 31 POLYLEX 295 Le param tre lt text gt doit repr senter le chemin d acc s complet au fichier du texte Le programme produit une version modifi e du texte qui est sauv dans un fichier portant l extension snt OPTIONS e n no_carriage_ return chaque s quence de s parateurs sera trans form e en un espace unique e input_offsets XXX fichier offset utiliser e output_offsets XXX fichier offset produire e r XXX replacement_rules XXX indique la r gle de normalisation utiliser Voir section 14 13 6 Pour plus de d tails sur le format de ce fichier Par d faut le programme ne remplace que and par et e no_separator_normalization n applique que des r gles de remplace ment sp cifi es par r ATTENTION si vous sp cifiez un fichier de r gles de normalisation ces r gles seront appliqu es avant toute autre chose Donc il faut
183. ations ult rieures de l automate seront unique ment dues aux effets des grammaires ELAG 7 3 7 Optimiser les grammaires La compilation des grammaires effectu e par le programme El agComp consiste constr uire un automate dont le langage est l ensemble des s quences d entr es lexicales ou inter pr tations lexicales d une phrase qui ne sont pas rejet es par les grammaires Cette t che est complexe et peut prendre beaucoup de temps il est toutefois possible de l acc l rer sen siblement en observant certains principes lors de l criture des grammaires Limiter le nombre de branches alors Il est recommand de r duire au minimum le nombre de parties alors d une grammaire Cela peut r duire consid rablement le temps de compilation des grammaires Le plus souvent une grammaire poss dant beaucoup de parties alors peut tre r crite avec une ou deux parties then sans perte de lisibilit C est par exemple le cas de la grammaire de la figure 7 21 qui impose une contrainte entre un verbe et le pronom qui le suit Comme on peut le voir sur la figure 7 22 on peut crire une grammaire quivalente en factorisant toutes les parties alors en une seule Les deux grammaires auront exactement le m me effet sur l automate du texte mais la seconde sera compil e beaucoup plus rapide ment 7 4 LIN ARISATION DE L AUTOMATE DU TEXTE AVEC LE TAGGEUR 185 EL ER En lt PRO PpvIL 2p gt lt PRO Ppv
184. aye pue aouepueq saatnbaz ay uaym uo Jo pue STEI139EN 139924 Jo sem m103 U 30 Iawn 244 UT S13pPINOUS pue Peau au J0 zeah peay ya 10 feq ATTal e 10 de PauTENS1 MOPT2S 24 SE pue S 13410 10 g atiauaa P340T JEI 12PT19n0 uy ati dn Hutyoqes 12972 Aasuanol sty ue aq oyn Hutaq adeys UT uotuedmod sty jo 38491 P Aq paxaa09 azam Aa13 ed qzadns sty Jo g PEoI 242 UO UTIT2AE19 103 HUON que SMT JUATOUE UT papuaqxa 21349 U0Q 13 y noya JOTI UOSWTIJ Jo sem 3T Ss UT AT 380199 241 qe pa1n0938 aT quem sty 333g S230093q mq noya se qgons uamspuo gotateoddo sat Aq anef aouautua au Pau107 2pnatfuoT Jo quem S3T UITN pags Aq peor sty 1013 at burdaams jo aanseat S TTTm Jo pue aheazanod 30 U0TI13X2 pau fapeTh ESTUZ 30 Asptm 243 UT soeds Wado sTqereptsuos Fis em Atay spem 43493 yatun 03 3an3 3 THE pauueq aya Jo pasodmos saaaaTs yata Je_oel 26010 E ABUTJ YONM sTetTrzsqem Jo pasodmos qmq AUON WetoazsqEsty E 2 qmq futanoaes U019981998 Ystaqanboo 30 ITE Uteqiss E 338 amos usaq PEU 22393 yotym uodn any SsTdand qypbtaq E futaq aTqeuthemt MIOJ qsatdmts 241 30 JO 2eu2 sem ssaap sty S AMUEI YT Jo maya Autsodstp 30 apom 243 pue sTetirsq J0 pauteqs usaq PEU 124080 styis aoue lunu pioauorqus aoyUeANSndJoj Yysibuyxapup ANG SDUPPIOJUOS m FIGURE 4 8 Exemple de concordance 90 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES 4 8 3 Statistiques Si l on s lectionne l onglet Statis
185. belonged to the woodlands gorget was engraved in characters Saxon an inscription of the following md the sufferings of the classes inferior arose from the consequences of t FIGURE 6 47 R sultat de l application du transducteur de la figure 6 46 Si le d but ou la fin d une variable est mal d fini fin d une variable avant son d but absence du d but ou de la fin d une variable celle ci sera ignor e lors des sorties Consultez la section 6 10 2 pour d autres options affectant le traitement d erreurs concernant les variables Il n y a aucune limite au nombre de variables utilisables Les variables d entr es peuvent tre imbriqu es et m me se chevaucher comme le montre la figure 6 48 Monday Tuesday Wednesday Thursday lt NB gt Friday Saturday Sunday September October DayAndNumber NumberAndMonth DayAndNumber NumberAndMonth November December FIGURE 6 48 Chevauchement de variables d entr e 6 8 VARIABLES DE SORTIE 149 6 8 Variables de sortie Les variables d entr e sont d clar es soit avec les parenth ses rouges de la barre d ic nes soit avec xxx et xxx et m morisent des portions du texte d entr e Il est aussi possible de m moriser des parties des sorties produites par une grammaire Cela met en jeu des variables de sortie Ces variables sont d clar es soit avec l ic ne des parenth ses bleues dans la barre d ic nes au dessus du graphe
186. bi reddi Teitei ia 145 67a Pronteagauche s td oad oe He BESS a eh dS Ss OOS ES 145 6 TABLE DES MATI RES 6 74 Priorit aux s quences les plus longues 146 679 SOTES A VAMADI S 252 ss sa ga a gun 6 de due dde de 146 66 Vanables deso o 2 ieee 2 wwe ne tester EE REE DE e 149 69 Operations sur les variables lt o ea ee bee dede ra ba or 150 6 9 1 Tests sur les variables 150 692 Comparaison de yariaDleS s ot o sac us eus ae ee ee mette es 151 6 9 3 Recherche d un code s mantique dans une variable de dictionnaire 151 6 10 Application des graphes ACTES dus Dada a eK eee 152 6 10 1 Configuration de la recherche oc ra dedo met nee yet ES 152 6 102 Options de recherche avanc es ick ae Leslie eR OS 153 6103 Concordance acia yera nupti rerea e ad Lies 156 6 104 Modification d texte 44 414444 44 ua su cons 157 6 10 5 Extraction des occurrences 158 6 10 6 Comparaison deconcordances 24 24 4 de ea ewe de be 159 610 7 Mode DEDOS e si seda rereana dat EES RARE 159 7 Automate du texte 163 Tal Foa cr ee ea A ee eed A es dos 163 Fad SOMBIE CHOU sse eke ne rs a e de Te ed E A 165 7 2 1 R gles de construction de l automate du texte 165 7 2 2 Normalisation de formes ambigu s aaao 166 7 2 3 Normalisation des pronoms clitiques en portugais 167 7 2 4 Conservation des meilleurs chemins
187. birth date Interface avec le syst me de flexion des mots simples MULTIFLEX est une mise en uvre du formalisme de flexion des mots compos s pr c dem ment pr sent Il suppose l existence d un syt me de flexion des mots simples qui satisfasse les contraintes d interface suivantes e Pour une s quence de caract res donn e il renvoie sa d composition en constituants ins cables tokens cf section 11 2 2 Par exemple dans le cas de la d finiton d un token dans Unitex la s quence Athens 04 est divis e en 5 tokens Athens 04 Athens AOL Pour une forme fl chie simple donn e il retourne toutes ses caract ristiques flexion nelles Ces caract ristiques doivent permettre la g n ration la demande de toute autre forme fl chie de m me lemme par le m me module de flexion Par exemple dans le cas d Unitex la forme porte m ne la reconnaissance de 7 formes dont 6 sont factoris es selon leur code flexionnel porte porte porte N21 s porte porter V3 P1s P3s S1s S3s Y2s En cas d ambiguit comme ci dessus l identification correcte doit tre faite pour le moment par l utilisateur lors de l dition du lemme du mot compos fl chir par la suite cette t che sera partiellement automatis e Par exemple dans le cas de porte fen tre le premier constituant doit tre identifi comme un nom pl tot que comme un verbe Pour une identification morphologique donn e
188. bre en cas et en genre de 3 9 valeurs selon diff rentes approches Si aucun m canisme d unification n tait disponible ces formes devraient tre d crites par des chemins s par s dans le graphe L unification permet de r duire consid rablement la taille du graphe jusqu un seul chemin dans la plupart des cas Par exemple le graphe de la figure 11 7 permet de fl chir les mots compos s polonais qui se fl chissent comme pranie m zgu lavage du cerveau ou powozenie koniem ang horse coaching Leur troisi me constituant a son cas d fini le plus souvent au g nitif ou l instrumental Le premier et le troisi me constituant se fl chissent en nombre ind pendamment l un de l autre pranie m zg w prania m zgu prania m zg w etc C est pourquoi chacun d eux a une variable diff rente pour la flexion en nombre n1 et 12 Les trois variables n1 n2 et c peuvent tre instanci es n importe quelle valeur de leur domaine respectif sing pl sing pl et Nom Gen Dat Acc Inst Loc Voc cf Morphology txt fichier la section 11 2 1 Le mot compos h rite son genre son nombre et son cas de son premier constituant Ce genre est d fini par Gen g alors que son nombre et son cas sont instanci s selon 14 com binaisons possibles Sans unification le chemin unique de ce graphe aurait du tre remplac par 28 chemins diff rents H lt 1 Gen 8 Nb n1 Case 0c gt lt 2 gt lt 3
189. c l rer V Plp s che s cher V Pls P3s s chent s cher V P3p s ches s cher V P2s s chez s cher V P2p s chons s cher V Plp Le redoublement de certaines lettres lors de la flexion peut s effectuer avec l op rateur Par exemple l adject tranquil en anglais poss de deux formes au comparatif et deux au superlatf Le graphe de la figure 3 11 permet de les produire FIGURE 3 11 Graphe de flexion pour des adjectifs anglais comme tranquil Voici les flexions obtenues pour l adjectif anglais tranquil tranquil tranquil A tranquiler tranquil A C tranquilest tranquil A 5 tranquiller tranquil A C tranquillest tranquil A S Dans certaines langues certaines formes fl chies comporte un pr fixe qui s ajoute devant la racine C est le cas lors de la formation du participe pass en allemand L utilisation conjointe des op rateurs et permet de fl chir le verbe allemand sprechen parler au pr sent et participe pass comme le montre le graphe de la figure 3 12 62 CHAPITRE 3 DICTIONNAIRES ge o en iK e en W e e Pis lt e en gt i st a P2s P2p i t P3s e en P1p P3p FIGURE 3 12 Graphe de flexion pour des verbes comme sprechen Voici les flexions obtenues pour le verbe allemand sprechen gesprochen sprechen V K spreche sprechen V Pls sprechen sprechen V Plp P3p W sprichst sprechen V P2p P2s spricht sprechen V
190. ce mot est reconnu par lt A z3 gt cause de la premi re entr e et par lt A z3 gt cause de l autre 4 3 MASQUES LEXICAUX 79 Un code flexionnel est introduit par le caract re et constitu d un ou plusieurs caract res qui repr sentent une information chacun Commen ons par le cas simple d entr es lexicales et de masques qui ont un seul code flexionnel Pour qu une entr e lexicale E soit reconnue par un masque M il faut que le code flexionnel de E contienne tous les caract res du code flexionnel de M E s pare s parer V Y2s M lt V Y2 gt Le code Y2s de E contient les caracteres Y et 2 Le code Y2 est inclus dans au moins un code de E le masque lexical M reconna t donc l entr e E L ordre des caract res l int rieur d un code flexionnel est sans importance Tous les codes grammaticaux et s mantiques doivent pr c der les codes flexionnels Si plusieurs codes flexionnels sont pr sents dans un masque lexical le caract re est inter pr t comme ou e lt A mp f gt correspond la fois lt A mp gt et lt A f gt il reconna t un adjectif qui est soit au masculin pluriel soit au f minin e lt V 2 3 gt reconna t un verbe la 2 ou la 3 personne cela exclut tous les temps qui n ont ni 2 ni 3 personne infinitif participe pass et participe pr sent ainsi que les temps conjugu s la premi re personne Pour qu une entr e de dictionnaire F soit reconnue
191. ces produites sont interpr t es comme des cha nes de caract res qui seront ins r es dans les concordances ou dans le texte si vous voulez modifier celui ci voir section 6 10 4 Les graphes syntaxiques peuvent utiliser des contextes voir section 6 3 Les graphes syntaxiques peuvent utiliser des filtres morphologiques voir section 4 7 Les graphes syntaxiques peuvent utiliser le mode morphologique voir section 6 4 Les symboles sp ciaux support s par les graphes syntaxiques sont les m mes que ceux util isables dans les expressions rationnelles voir section 4 3 1 Il n est pas obligatoire de compiler les graphes syntaxiques avant de les utiliser pour la recherche de motifs Si un graphe n est pas compil le syst me le compilera automatique ment 6 2 COMPILATION D UNE GRAMMAIRE 123 6 15 Grammaires ELAG La syntaxe des grammaires de lev e d ambiguit s est pr sent e la section 7 3 1 page Izi 6 1 6 Graphes param tr s Les graphes param tr s sont des m ta graphes permettant de g n rer une famille de graphes partir d une table de lexique grammaire Il est possible de construire des graphes param tr s pour n importe quel type de graphe La construction et l utilisation des graphes param tr s seront d velopp es dans le chapitre 9 6 2 Compilation d une grammaire 6 2 1 Compilation d un graphe La compilation est l op ration qui permet de passer du format grf un format plus facile m
192. cidessus indique que le mot cheval doit tre fl chi avec une grammaire nomm e N4 Il est possible d ajouter des codes flexionnels aux entr es mais la nature de l op ration de flexion limite l int r t de cette possibilit Pour plus de d tails voir plus loin dans ce chapitre la section 3 5 3 1 LES DICTIONNAIRES DELA 49 3 13 Contenu des dictionnaires Les dictionnaires fournis avec Unitex contiennent des descriptions des mots simples et compos s Ces descriptions indiquent la cat gorie grammaticale de chaque entr e ses ventuels codes de flexion ainsi que des informations s mantiques diverses Les tableaux suivants donnent un aper u des diff rents codes utilis s dans les dictionnaires fournis avec Unitex Ces codes ont la m me signification pour presque toutes les langues m me si cer tains d entre eux sont propres certaines langues i e marque du neutre etc Code Signification Exemples A adjectif fabuleux broken down ADV adverbe r ellement la longue CONJC conjonction de coordination mais CONJS conjonction de subordination puisque moins que DET d terminant ses trente six INTJ interjection adieu mille millions de mille sabords N nom prairie vie sociale PREP pr position sans la lumi re de PRO pronom tu elle m me V verbe continuer copier coller TABLE 3 1 Codes grammaticaux
193. ckage is a derivative of the Linguistic Resource you may distribute the package under the terms of Section 4 Any works containing that package also fall under Section 4 4 As an exception to the Sections above you may also combine a work that uses the Linguistic Resource with the Linguistic Resource or an encrypted form of the Linguistic Resource to produce a package containing portions of the Linguistic Resource and distribute that package under terms of your choice provided that the terms permit modification of the package for the customer s own use and reverse engineering for debugging such modifications You must give prominent notice with each copy of the package that the Lin guistic Resource is used in it and that the Linguistic Resource and its use are covered by this License You must supply a copy of this License If the package during execution displays copyright notices you must include the copyright notice for the Linguistic Resource among them as well as a reference directing the user to the copy of this License Also you must do one of these things a Accompany the package with the complete corresponding machine readable legible form of the Linguistic Resource including whatever changes were used in the package which must be distributed under Sections 1 and 2 above and if the package contains an encrypted form of the Linguistic Resource with the complete machine readable work that uses the Lin guistic Resource
194. code gen erated documentation and conversions to other media types Work shall mean the work of authorship whether in Source or Object form made available under the License as indicated by a copyright notice that is included in or attached to the work an example is provided in the Appendix at the following address http www apache org licenses Derivative Works shall mean any work whether in Source or Object form that is based on or derived from the Work and for which the editorial revisions annota tions elaborations or other modifications represent as a whole an original work 361 362 CHAPITRE 14 FORMATS DE FICHIERS of authorship For the purposes of this License Derivative Works shall not include works that remain separable from or merely link or bind by name to the interfaces of the Work and Derivative Works thereof Contribution shall mean any work of authorship including the original version of the Work and any modifications or additions to that Work or Derivative Works thereof that is intentionally submitted to Licensor for inclusion in the Work by the copyright owner or by an individual or Legal Entity authorized to submit on behalf of the copyright owner For the purposes of this definition submitted means any form of electronic verbal or written communication sent to the Licensor or its rep resentatives including but not limited to communication on electronic mailing lists source code control s
195. comme les sorties sont permises pour certains types et interdites pour d autres De plus les symboles sp ciaux ne sont pas les m mes en fonction du type de graphe Cette section pr sente donc chacun des types de graphes en d taillant leurs particularit s 6 1 1 Graphes de flexion Un graphe de flexion d crit les variations morphologiques associ es une classe de mots en associant chaque variante des codes flexionnels Les chemins d un tel graphe d crivent les modifications appliquer aux formes canoniques tandis que les sorties conti ennent les informations flexionnelles qui seront produites matrix matrices FIGURE 6 1 Exemple de grammaire de flexion Les chemins peuvent contenir des op rateurs et des lettres Les op rateurs possibles sont repr sent s par les caract res L R C D U P et W Les lettres qui ne sont pas des op rateurs 119 120 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES sont des caract res Le seul symbole sp cial autoris est le mot vide lt E gt Il n est pas possible de faire r f rence aux dictionnaires dans un graphe de flexion Il est cependant possible de faire appel des sous graphes Les sorties sont concat n es pour produire une cha ne de caract res Cette cha ne est ensuite concat n e la ligne de dictionnaire produite Les sorties variables n ont pas de sens dans un graphe de flexion Le contenu d un graphe de flexion est manipul sans aucune var
196. compiler kernel and so on of the operating system on which the executable runs unless that component itself accompanies the executable It may happen that this requirement contradicts the license restrictions of pro prietary libraries that do not normally accompany the operating system Such a contradiction means you cannot use both them and the Linguistic Resource together in a package that you distribute 5 You may not copy modify sublicense link with or distribute the Linguistic Re source except as expressly provided under this License Any attempt otherwise to copy modify sublicense link with or distribute the Linguistic Resource is void and will automatically terminate your rights under this License How ever parties who have received copies or rights from you under this License will not have their licenses terminated so long as such parties remain in full compliance 6 You are not required to accept this License since you have not signed it How ever nothing else grants you permission to modify or distribute the Linguistic Resource or its derivative works These actions are prohibited by law if you do not accept this License Therefore by modifying or distributing the Linguistic Resource or any work based on the Linguistic Resource you indicate your ac ceptance of this License to do so and all its terms and conditions for copying distributing or modifying the Linguistic Resource or works based on it 7 Each ti
197. converted Compiling graph regexp Recursion detection started Resolving lt E gt conditions Recursion detection completed ERROR the main graph regexp recognizes lt E gt FIGURE 4 3 Erreur lors de la recherche d une expression reconnaissant le mot vide 4 7 Filtres morphologiques Il est possible d appliquer des filtres morphologiques aux unit s lexicales recherch es Pour cela il faut faire suivre imm diatement l unit lexicale consid r e par un filtre entre doubles angles motif lt lt motif morphologique gt gt Les filtres morphologiques s expriment sous la forme d expressions r guli res au format POSIX voir 65 pour une syntaxe d taill e Voici quelques exemples de filtres l men taires e lt lt ss gt gt contient ss e lt lt a gt gt commence par a e lt lt ez gt gt finit par ez e lt lt a s gt gt contient a suivi par un caract re quelconque suivi par s e lt lt a s gt gt contient a suivi par un nombre de caract res quelconque suivi par s e lt lt ss tt gt gt contient ss ou tt e lt lt aeiouy gt gt contient une voyelle non accentu e e lt lt aeiouy 3 5 gt gt contient une s quence de voyelles non accentu es de longueur comprise entre 3 et 5 84 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES e lt lt es gt gt contient e fsuivi par un s facultatif e lt lt ss e gt gt contient ss suivi par un caract re qui n est pa
198. copies and derivative works made from that copy This option is useful when you wish to copy part of the code of the Library into a program that is not a library 4 You may copy and distribute the Library or a portion or derivative of it under Section 2 in object code or executable form under the terms of Sections 1 and 2 above provided that you accompany it with the complete corresponding machine readable source code which must be distributed under the terms of Sections 1 and 2 above on a medium customarily used for software interchange If distribution of object code is made by offering access to copy from a designated place then offering equivalent access to copy the source code from the same place satisfies the requirement to distribute the source code even though third parties are not compelled to copy the source along with the object code 5 program that contains no derivative of any portion of the Library but is designed to work with the Library by being compiled or linked with it is called a work that uses the Library Such a work in isolation is not a derivative work of the Library and therefore falls outside the scope of this License However linking a work that uses the Library with the Library creates an ex ecutable that is a derivative of the Library because it contains portions of the Li brary rather than a work that uses the library The executable is therefore covered by this License Section 6 states ter
199. cordance affich e par Unitex devrait ressembler celle de la figure 12 9 Pour des raisons li es la programmation les ambiguit s entre les caract res entre accolades des tiquettes lexicales nous n avons d autres options que de placer des avant chaque caract re ambigu c est pourquoi ces symboles sont pr c d s de dans la concordance pour viter des probl mes avec Unitex 5 Concordance C apps my_unitex_cassys French Corpusicassys_exemple1_snticoncord html 4 matches bac abc cc abb ba ab ab bea a b1 1 4B1 c ABC abaabc bac a b AB c ABC cc ab b ba abab boa ab c aba bac a b c cc a b AB b ba ab a b bca ab c abaabc bac ab c cc a b b ba ab a b AB bca BC a b c abaabc FIGURE 12 9 La concordance issue l application de la cascade 12 3 Graphes g n riques Parfois on a identifi des l ments recherch s gr ce leur contexte mais si ces l ments apparaissent ailleurs hors contexte on ne les reconna t pas Afin de trouver de telles occurences CasSys propose d utiliser des graphes g n riques Ces graphes contiennent des bo tes vides qui sont remplies automatiquement par le programme 260 CHAPITRE 12 CASCADE DE TRANSDUCTEURS avant d tre appliqu s au texte Ces graphes g n riques ne fonctionnent qu avec l u tilisation d accolades car le programme consulte le dictionnaire du texte analyser par le futur graphe 12 3 1 D claration d un graphe g n rique
200. cr 181 E ELAG 123 171 fen tre de traitement 178 Entr e lexicale 45 Equivalence de caract res 53 INDEX Erreurs dans les graphes 128 284 287 Espace interdit 76 obligatoire 76 Etat final 94 initial 94 Etiquette lexicale 77 165 295 302 319 336 Etoile de Kleene 75 82 Evaluation du taux d ambiguit 178 Exclusion des codes grammaticaux et s mantiques 78 Exploration des chemins d une grammaire 141 Expression rationnelle 75 83 94 297 Expression r guli re 75 83 297 Extraction des occurrences 158 F Factorisation des entr es lexicales 176 Fen tre de traitement d ELAG 178 Fichier Alphabet_sort txt 53 Alphabet t xt 67 313 arabic_typo_rules txt 344 bin 65 271 278 329 340 cfg 340 CHECK_DIC TXT 52 270 331 conc fst2 175 concord_tfst n 293 342 concord html 326 concord ind 292 293 324 concord n 292 342 concord txt 326 Config 337 corpus txt 335 cursentence grf 301 323 cursentence tok 301 324 cursentence txt 301 324 dic 52 64 271 diff html 327 dic 40 55 278 328 341 dlc n 341 INDEX dlf 40 55 278 328 341 dlf n 341 elg 334 enter pos 303 320 Equivalences txt 225 err 40 55 278 328 341 err n 341 ForbiddenWords txt 343 fst2 86 123 189 287 318 grf 86 128 189 287 297 314 html 274 inf 65 271 330 1st 177 334 Morphology txt 224 225 norm rul 184 regexp grf 297 rul 1
201. currence in ancient est concurrente avec ancient times C est donc la premi re qui est retenue car c est l occurrence la plus gauche et ancient times est limin e L occur rence suivante times a n est donc plus en conflit avec ancient times et peut donc appara tre dans le r sultat Don there extended in ancient times a large forest La r gle de priorit gauche s applique uniquement lorsque le texte est modifi soit lors du pr traitement soit apr s l application d un graphe syntaxique voir section 6 10 4 6 74 Priorit aux s quences les plus longues Lors de l application d un graphe syntaxique il est possible de choisir si la priorit doit tre donn e aux s quences les plus courtes ou les plus longues ou si toutes les s quences doivent tre retenues Lors des op rations de pr traitement la priorit est toujours donn e aux s quences les plus longues 6 7 5 Sorties a variables Comme nous l avons vu la section 5 2 5 il est possible d utiliser des variables d entr e pour m moriser le texte qui a t analys par une grammaire Ces variables peuvent tre utilis es dans les graphes de pr traitement et dans les graphes syntaxiques Vous devez donner des noms aux variables que vous utilisez Ces noms peuvent contenir les lettres comprises entre A et Z non accentu es minuscules ou majuscules des chiffres et le caract re _ underscore Pour d finir le d but et la fin de
202. d Paris 1974 11 1 6 Olivier BLANC and Anne DISTER Automates lexicaux avec structure de traits In Actes RECITAL 2004 2004 7 3 7 Xavier BLANCO Noms compos s et traduction francais espagnol Lingvistice Investigationes 21 1 1997 Amsterdam Philadelphia John Benjamins Publish ing Company 3 8 8 Xavier BLANCO Les dictionnaires lectroniques de l espagnol DELASs et DELACSs Lingvistice Investigationes 23 2 2000 Amsterdam Philadelphia John Benjamins Publishing Company 3 8 9 Jean Paul BOONS Alain GUILLET and Christian LECL RE La structure des phrases simples en francais classes de constructions transitives Technical re port LADL Paris 1976 9 1 10 Jean Paul BOONS Alain GUILLET and Christian LECLERE La structure des phrases simples en francais constructions intransitives Droz Gen ve 1976 9 1 11 Firefox Web browser http www mozilla com firefox 4 8 2 12 Netscape Web browser http www netscape com 4 8 2 375 376 BIBLIOGRAPHIE 13 Pierre CADIOT A entre deux noms vers la composition nominale Lexique 11 193 240 1992 11 1 14 Folker CAROLI Les verbes transitifs compl ment de lieu en allemand Lingvistice Investigationes 8 2 225 267 1984 Amsterdam Philadelphia John Benjamins Publishing Company 9 1 15 A CHROBOT B COURTOIS M HAMMANI MC CARTHY M GROSS and K ZELLAGUI Dictionnaire electronique DELAC anglais noms compos s Technical Report 59
203. d Univ Press 1994 9 1 51 Maurice GROSS The lexicon grammar of a language Application to french In R E Asher editor The Encyclopedia of Language and Linguistics volume 4 pages 2195 2205 Oxford NewYork Seoul Tokyo Pergamon 1994 9 1 52 Alain GUILLET and Christian LECLERE La structure des phrases simples en fran ais les constructions transitives locatives Droz Gen ve 1992 9 1 53 Beno t HABERT and Christian JACQUEMIN Noms compos s termes d nomi nations complexes probl matiques linguistiques et traitements automatiques Traitement Automatique des Langues 2 5 41 1993 11 1 BIBLIOGRAPHIE 379 54 IGM Lesser General Public License for Linguistic Resources http igm univ mlv unitex lgpllr html 1 1 55 Text Encoding Initiative http www tei c org 10 1 56 Christian JACQUEMIN Spotting and Discovering Terms through Natural Language Processing MIT Press 2001 11 2 3 57 Fryni Kakoyianni Doa editor Penser le lexique grammaire perspectives actuelles Editions Honor Champion Paris France 2014 30 78 58 Gaby KLARSFLED and Mary HAMMANI MC CARTHY Dictionnaire lectron ique du ladl pour les mots simples de l anglais DELASa Technical report LADL Universit Paris 7 1991 3 8 59 Cvetana KRSTEV Du ko VITAS and Agata SAVARY Prerequisites for a Com prehensive Dictionary of Serbian Compounds LNCS 4139 552 563 2006 11 2 60 Tita KYRIACOPOULOU Les dictionnaires l
204. dance D My Unitex English Corpus anhoe_snticoncord html horseback at any secure place within were briefly as follows 5 First the which betwixt sun and sun he baptized At length the barriers were opened and urse of spectators fixed upon them the n a champion that could bear down these et and black the chosen colours of the hed their vow by each of them breaking eight days after our liberation 3 wh five challengers were to undertake all five hundred heathen Danes and Britons five knights chosen by lot advanced five knights advanced up the platform five knights in one day s jousting 5 five knights challengers 5 The cords five lances the Prince was to declare FIGURE 6 22 Reconnaissance d un nom apr s un contexte gauche 6 3 CONTEXTES 133 Concordance D My Unitex English Corpus wanhoe_snticoncord html e courses and cast to the ground three antagonists I add that sevena utes to keep at sword s point his three antagonists turning and wheeling entinels to give the alarm when any one approaches 5 But I trust soon t omanlike and bravely 5 Of twenty four arrows shot in succession ten started up and bent their bows 5 Six arrows placed on the string were he back of which was decorated with two ass s ears and which was placed These two squires were followed by two attendants whose dark visages ber with a grave pace followed by four attendants bearing in a table co ake part 5 and bei
205. de ou non lors du chargement de l automate du texte Ce sont des codes facultatifs qui sont ind pendants des autres codes comme par exemple l attribut de niveau de langue z1 z2 or z3 De la m me mani re que pour les codes flex ionnels il est galement possible de nier un attribut flexionnel en crivant le caract re juste avant le nom de l attribut Ainsi avec notre fichier d exemple le symbole lt A gauche f gt reconna t tous les adjectifs au f minin qui ne poss dent pas le code gauche Tous les codes qui ne sont pas d clar s dans le fichier tagset def sont ignor s par ELAG Si une entr e de dictionnaire contient un tel code ELAG produira un avetissement et retirera le code de l entr e En cons quence si deux entr es concurrentes ne diff raient dans l automate du texte d o rigine que par des codes non d clar s ces entr es deviendront indistinguables par le pro gramme et seront donc unifi es en une seule entr e dans l automate r sultat Ainsi le jeu d tiquettes d crit dans le fichier tagset def peut suffire r duire l am biguit en factorisant des mots qui ne diff rent que par des codes non d clar s et ceci in d pendamment des grammaires appliqu es Par exemple dans la version la plus compl te du dictionnaire du fran ais chaque emploi distinct d un verbe est caract ris par une r f rence vers la table du lexique grammaire qui le caract rise Nous avons consid r jusqu
206. de W strictement compris entre X et Y w U X Y L op rateur lt X Y gt retire X Y de W et donne une valeur Une fois qu il a t appliqu la s quence qui reste dans la pile est U et la variable peut tre utilis e dans le reste du chemin lt X Y gt On recherche la fin du mot W le suffixe Y Puis on recherche partir de la position atteinte l occurrence de X la plus gauche qui pr c de strictement celle de Y La variable contient alors le plus long facteur ongest de W strictement compris entre X et Y W U X Y e lt X gt Si aucune variable n est pr sente on recherche X comme suffixe de W W U X e lt Y gt Si le facteur X est absent le plus court facteur est la premi re lettre qui pr c de strictement Y e lt Y gt Si le facteur X est absent le plus long facteur est le pr fixe de W tel que W Y Pour illustrer l utilisation des ces op rateurs consid rons le verbe reprendre 1 Le point repr sente ici l op ration de concat nation 60 CHAPITRE 3 DICTIONNAIRES Verbe Op rateur Variable R sultat reprendre lt re gt reprend reprendre lt gt e reprendr reprendre lt gt reprendre reprendre lt re re gt nd rep reprendre lt re re gt prend reprendre lt re gt d repren reprendre lt re gt reprendre reprendre lt re gt reprend e reprendre lt re gt prendre re
207. de fr quence Dans le fichier tok_by_alph txt chaque ligne est compos e d une unit suivie par le caract re tabulation et le nombre d occurrences de cette unit dans le texte Les lignes du fichier tok_by_freq txt sont form es sur le m me principe mais le nombre d occurrences appara t avant le caract re tabulation et l unit 14 4 6 Fichier enter pos Ce fichier est un fichier binaire contenant la liste des positions des retours la ligne dans le fichier snt Chaque position est l indice dans le fichier text cod d un retour la ligne ayant t remplac par un espace Ces positions sont des entiers cod s sur 4 octets 14 5 Automate du texte 14 5 1 Fichier text tfst Le fichier text t fst repr sente l automate du texte C est un fichier texte qui commence par une ligne comportant dix chiffres qui indiquent le nombre de phrases contenues dans l automate Ensuite pour chaque phrase on dispose de l en t te suivante e SXXXY XXX num ro de la phrase e foo foo foo f texte de la phrase e a b c d e f g h Y pour chaque token de la phrase il y a une paire x y x est l index du token dans le fichier tokens txt y est sa longueur en caracteres e X_Y4 X est l offset du premier token de la phrase en tokens depuis le d but du texte Y est identique mais l offset repr sente le nombre de caracteres 14 5 AUTOMATE DU TEXTE 321 Ensuite tous les tats de l automate sont cod s un par lign
208. de graphes Il peut arriver que l on souhaite appliquer plusieurs grammaires situ es dans un m me r pertoire Pour cela il est possible de construire automatiquement une grammaire partir d une arborescence de fichiers Supposons par exemple que l on ait l arborescence suivante e Dicos 6 6 COLLECTION DE GRAPHES 143 vanille fraise pistache FIGURE 6 38 Exemple de graphe Banque carte grf Nourriture x eau grf pain grf truc grf Si l on veut rassembler toutes ces grammaires en une seule on peut le faire avec la com mande Build Graph Collection dans le sous menu FSGraph gt Tools On configure cette op ration au moyen de la fen tre de la figure 6 39 Building Graph Collection E x Source directory Set Resulting GRF grammar Set Cancel OK FIGURE 6 39 Construction d une collection de graphes Dans le champ Source directory s lectionnez le r pertoire racine que vous voulez ex plorer dans notre exemple le r pertoire Dicos Dans le champ Resulting GRF grammar indiquez le nom de la grammaire produite ATTENTION ne placez pas la grammaire de sortie dans l arborescence que vous voulez explorer car dans ce cas le programme va chercher lire et crire simultan ment dans ce fichier ce qui provoquera un plantage 144 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES Lorsque vous cliquerez sur OK
209. de mor phologique cf section 6 4 On ne peut pas d clarer un graphe dictionnaire comme diction naire du mode morphologique de la maniere habituelle cf section 6 4 3 car ce n est pas un fichier bin Quand on est en mode morphologique les masques lexicaux qui n cessitent la consultation d un dictionnaire ne d clenchent pas la consultation de graphes dictionnaires En compensation on dispose de plusieurs solutions 2 Les graphes dictionnaires morphologiques sont une exception section 3 7 4 3 7 APPLICATION DE DICTIONNAIRES 69 eS Yp No A Tm Md Ep Fm AZ Gd Tb Dy Ho Ver Es Ry Rh Pg Ag tg Es LL Py Am Sm Bk Pr Nd Pm nyju Np Nb Mo A E A La Ce Ac GR a Pa FIGURE 3 19 Graphe dictionnaire des l ments chimiques 70 CHAPITRE 3 DICTIONNAIRES 3 eE NPr FIGURE 3 20 Graphe dictionnaire tiquetant comme noms propres les mots inconnus com men ant par une majuscule e On peut envisager d invoquer le graphe dictionnaire depuis la partie du graphe qui est en mode morphologique e Unitex produit de fa on interne un dictionnaire des formes reconnues dans le texte par un graphe dictionnaire Si le nom du graphe dictionnaire contient l option b voir ci dessous Conventions de nommage ce dictionnaire produit automatiquement est in clus implicitement parmi les dictionnaires du mode morphologique
210. de un genre d fini Ce type de fichier est n cessaire pour exprimer le fait qu un cer tain mot se fl chit en nombre genre ou cas sans avoir num rer chaque fois les valeurs flexionnelles singuler pluriel masculin etc qu il accepte De fa on similaire pour le francais le fichier Morphology txt ressemble ceci French lt CATEGORIES gt Nb s p Gen m f lt CLASSES gt noun Nb lt var gt Gen lt var gt adj Nb lt var gt Gen lt var gt adv Toutefois dans les syst mes de flexion existants de telles descriptions de cat gories gram maticales cat gories flexionnelles et valeurs ne sont pas toujours pr sentes Par exemple selon les conventions DELA 20 les valeurs morphologiques des mots simples sont des s quences de caract res contigus e g ms pour le masculin singulier sans mention explicite des cat gories correspondantes Afin que le programme soit compatible avec de tels sys t mes on utilise une liste contenue dans le fichier appel Equivalences txt qui d crit quelle caract ristique flexionelle correspond a quelle paire cat gorie valeur dans notre de scription Par exemple les listes suivantes Polish French s Nb sing s Nb s p Nb pl p Nb p M Case Nom f Gen f D Case Gen m Gen m C Case Dat B Case Acc I Case Inst L Case Loc V Case Voc o Gen masc_pers z Gen masc_anim r Gen masc_inanim f Gen fem n Gen neu d
211. dis que le pluriel de celui ci a trois variantes e chief justices e lord justices lords justice lords justices Ainsi au moins l un des exemples ci dessus doit tre consid r comme lexicalis pour que la flexion automatique soit fiable MULTIFLEX met en uvre un formalisme fond sur l unification qui permet de d crire la flexion des mots compos s 88 Ses caract ristiques sont d crites dans la section 11 2 Ce 224 CHAPITRE 11 FLEXION DES MOTS COMPOS S formalisme n cessite que la description soit pleinement lexicalis e chaque mot compos figurant dans un dictionnaire est muni d un code ex NC_NN NC_NN2 etc repr sentant son paradigme flexionnel par exemple dans un format de type DELA aircraft carrier carrier N1 s NC_NN chief justice justice N1 s NC_NN lord lord N1 s justice justice N1 s NC_NN2 Cependant la grande majorit des mots compos s peut tre trait e avec un petit nombre de codes Ainsi la lexicalisation de la description consiste principalement a d finir les mots compos s qui respectent ou ne respectent pas la grammaire 11 2 Formalisme de flexion des mots compos s Un formalisme de description de la morphologie des mots compos s a t d crit par Agata Savary en 1985 88 Il est fond sur des tudes sur l anglais le polonais et le francais et en outre a t test pour le serbe 59 et le grec 30 Il repose sur une repr sentation ind pendante de la langue q
212. dit Mr Fog nt 7 Savez vous une chose ajouta t il capitaine BeEntity PunctiontMilitary 7 Fogg que ainsi con ue Suez Londres Rowan directeur MEntitye PunctionsAdministration police able Batulcar sorte de Barnum am riceain directeur NEntity Panctiont Adainistration d une t esko la grande cit qu habite le mikado empereur WeEntityeFunction Aristocratic eccl siast ecient quelques paroles et ce moment le brigadier NtEntitytMm tiontMilitaryl g n ral r rehe du steamer Quand il tait maniable i le capitaine JHEntite Puncrion Military faisait t Phileas Fogg voulait aller Liverpool le capicaine NtEnticy Pim crioneMilitaryl ne voulait tendant que J avais tort de jouer pique l le colone r ty ct n a fait une r Arriv Suez mercredi 9 octobre 11 heures NtEnticyeTine Hour matin Total des heur e lendemain c tait le 12 d cembre Du 121 sept heures NEntity Tine Mour du matin au 21 u t Lt fe t rapidement vers l est Le lendemain t Dare tPe vel midi wm ion ne partait que le surlendemain J iag zel Et d ailleu saki et Yokohama Arriv le matin m me l heure r faux pont tout y passa Le lendemain 119 d cembre NtEnticytTinetDatetFelativel on br la la FIGURE 12 19 Concordance de CasSys dans Unitex 12 4 2 Les diff rents fichiers r sultats d une cascade CasSys conserve tous les textes cr s par chaque graphe de
213. dre ajout suppression et appliquer la cascade 12 1 1 Cr ation de la liste des transducteurs Afin de pouvoir g rer la liste de transducteur le menu FSGraph comporte deux sous menus New cascade et Edit cascade Figure 12 1 Pour cr er la liste des transducteurs s lec tionnez New cascade Si vous souhaitez modifier une cascade existante s lectionnez Edit cascade puis choisissez le nom de la cascade ouvrir FSGraph Lexicon Grammar New Open Ctri O Save Ctri S Save as Save All Page Setup Print Ctri P Print All Undo Ctrl Z Redo Ctrl Y Tools gt Format gt Zoom gt New Cascade Edit Cascade Close all FIGURE 12 1 Menu FSGraph d Unitex et sous menu New Cascade et Edit cascade Le r pertoire de la langue courante contient un sous r pertoire nomm CasSys dans lequel se trouvent les fichiers de configuration d une cascade Ce sont des fichiers textes avec l extension csc ex ma cascade csc 12 1 APPLIQUER UNE CASCADE DE TRANSDUCTEURS AVEC CASSYS 253 12 1 2 Edition de la liste des transducteurs La fen tre de configuration de CasSys 12 2 comporte trois parties A Cassys Transducer Configuration test csc Disabled Replace Until Fix Point L _ testGram fst2 i testPoids fst2 ra G jombres fst2 wI Look In C Graphs SEE e
214. duire Ainsi dans l interface Unitex MULTIFLEX la description d un mot simple se fait comme suit o vive vif A54 fs o A54 est le code flexionnel vif et fs forment la description morphologique de type DELA des caract ristiques pr sentes dans le fichier Equivalences txt cf section 11 2 1 En sachant que vive est le f minin singulier de vif on peut demander la g n ration du pluriel sans avoir pr ciser explicitement le genre du pluriel de la forme souhait e puisque nous voulons seulement modifier le nombre le genre reste celui du mot d origine vive donc f minin 11 23 Paradigme de flexion des mots compos s Dans notre formalisme la description morphologique des mots compos s repose sur le syst me DELA dans la mesure o e chaque mot compos poss de un code flexionnel e un code flexionnel d crit explicitement chaque forme fl chie en termes de traitement effectuer sur sa forme canonique et de caract ristiques lui associer Dans sa version Unitex MULTIFLEX utilise des codes flexionnels qui renvoient des graphes Unitex compil s au format st2 Par exemple figure 11 1 pr sente le graphe de flexion pour battle royal FIGURE 11 1 Graphe de flexion pour battle royal Selon les conventions d Unitex trois constituants sont pr sents dans battle royal battle d nomm 1 un espace d nomm 2 et royal d nomm 3 Si des variables apparaissent seules dans 228 CHAPITRE 11 FLEXION
215. e Si l tat est final la ligne commence par t Sinon elle commence par Toutes les transitions sont crites sous la forme de paires x y x tant le nombre de tag y tant le nombre d tats de destination Remarquons que contrairement au format fst2 les lignes doivent finir par un espace La derni re ligne de la liste d tats contient f Enfin tous les les tags sont cod s Par convention le premier tag est toujours p silon lt E gt 4 D autres tiquettes doivent tre soit des unit s lexicales ou des entr es au format DELAF entre accolades Elles sont cod es comme suit STD4 content Qa b c x y zq contenu est le contenu du tag Les informations a b c x y z d crivent la zone du texte couverte par le tag e a offset de d but en tokens depuis le d but de la phrase e b offset de d but en caract res depuis le d but du premier token du tag e c offset de d but en lettres logiques depuis le premier caract re du tag Ces in formations sont utiles pour le cor en parce qu un tag repr sent une s quence de caract res Jamo qui apparaissent l int rieur d un Hangul L offset en car act res n est donc pas assez pr cis e x offset de fin en tokens depuis le d but de la phrase e y offset de fin en caract res depuis le d but du dernier token du tag e z de fin en lettres logiques depuis le dernier caract re du the tag Dans des automates de phrase cor en des formes de surf
216. e celle ci sera ignor e gr ce au jeu des priorit s Il y a trois niveaux de priorit s Les dictionnaires dont les noms sans extension se terminent par ont la priorit la plus grande ceux dont le nom se termine par ont la priorit la plus faible les autres dictionnaires sont appliqu s avec une priorit moyenne L ordre d appli cation de plusieurs dictionnaires ayant la m me priorit est sans importance En ligne de commande l instruction Dico ex snt alph txt ctr bin cities bin rivers bin regions bin appliquerait donc les dictionnaires dans l ordre suivant ex snt est le texte auquel sont appliqu s les dictionnaires alph txt est le fichier alphabet utilis 1 cities bin 2 regions bin 3 rivers bin 4 ctr bin 3 7 2 R gles d application des dictionnaires Outre la r gle de priorit s l application des dictionnaires s effectue en respectant les majuscules et les espaces La r gle du respect des majucules est la suivante e s il y a une majuscule dans le dictionnaire alors il doit y avoir une majuscule dans le texte e s il y a une minuscule dans le dictionnaire il peut y avoir soit une minuscule soit une majuscule dans le texte Ainsi l entr e pierre N fs reconna tra les mots pierre Pierre et PIERRE alors que Pierre N Pr nom ne reconna tra que Pierre et PIERRE Les lettres minuscules et ma juscules sont d finies par le fichier alphabet pass en param tre au programme Dico
217. e en une grammaire au format fst2 qui sera utilis e par le programme de recherche 4 8 2 Affichage des r sultats Une fois la recherche termin e la fen tre de la figure 4 5 appara t indiquant le nombre d occurrences trouv es le nombre d unit s lexicales reconnues ainsi que le rapport entre ce nombre et le nombre total d unit s lexicales du texte 200 matches 644 recognized units 0 345 of the text is covered FIGURE 4 5 R sultats de la recherche Apr s avoir cliqu sur OK vous verrez appara tre la fen tre de la figure 4 6 permettant de configurer l affichage de la liste des occurrences trouv es Vous pouvez galement faire appara tre cette fen tre en cliquant sur Display Located Sequences dans le menu Text On appelle concordance la liste d occurrences Le cadre Modify text offre la possibilit de remplacer les occurrences trouv es par les sor ties produites Cette possibilit sera examin e au chapitre 6 Le cadre Extract units vous permet de construire un fichier texte avec toutes les phrases contenant ou non des occurrences Le bouton Set File vous permet de s lectionner le fichier de sortie Cliquez ensuite sur Extract matching units ou Extract unmatching units selon que vous voulez extraire les phrases contenant les occurrences ou non Dans le cadre Show Matching Sequences in Context vous pouvez s lectionner la longueur en caract res des contextes gauche et droit des occurre
218. e grammaticale leurs codes s mantiques leurs codes flexionnels et la valeur zzz de l attribut y y y s il y figure un code de la forme yyy zzz 7 8 Affichage de la Table Les automates de phrases peuvent tre affich es sous forme de tableau Pour ce faire il vous suffit de s lectionner l onglet Tableau dans la zone automate de texte Vous verrez alors un tableau comme indiqu sur la figure 7 35 Ce tableau n est pas tout fait quivalent l automate de phrase car il affiche seulement 7 8 AFFICHAGE DE LA TABLE 195 Automaton Table Filter grammatical semantic codes Always show POS category regardless filtering Export all text as POS list All Only POS category Use filter Form POS sequence 1 POS sequence 2 DANS DANS dans PREP Dnom z 1 LEQUEL LEQUEL lequel DET Dnom z 1 ms Phileas Fogg N Hum Phileas Fogg N Hum ET ET et CONJC PASSEPARTOUT PASSEPARTOUT s se PRO PpvLE z1 3f5 3ms 3fp 3mp se PRO PpvLUI z1 3fs 3ms ACCEPTENT ACCEPTENT accepter V z1 P3p S3p RECIPROQUEMENT RECIPROQUEMENT r ciproquement ADV z 1 L la le DET Ddef zi fs la le PRO PpvLE z1 3fs L UN L UN l un PRO Pind zi ms UN UN un A z2 ms UN un DET Dind z1 ms COMME COMME comme ADV z 1 COMME comme CONJS 1 MAT TRE MA TRE ma tre N zi ms r r IL la le DET Ddef z1 fs la le PRO PpvLE z1 3fs AUTRE AUTRE autre DET Dadj ms fs
219. e image avec un diteur graphique par exemple TheGimp et collez votre image dans votre document de la m me facon que sous Windows Image vectorielle Si vous pr f rez une image vectorielle vous pouvez exporter votre graphe vers le format SVG qui est utilisable avec des logiciels comme Inkscape 24 Il permet d obtenir des sorties PostScript utilisables dans des documents TEX 5 4 2 Impression d un graphe Vous pouvez imprimer un graphe en cliquant sur Print dans le menu FSGraph ou en appuyant sur lt Ctrl P gt ATTENTION vous devez vous assurer que le parametre d orientation de l imprimante portrait ou paysage correspond bien l orientation de votre graphe 5 4 LES GRAPHES EN DEHORS D UNITEX 117 Vous pouvez d finir vos pr f rences d impression en cliquant sur Page Setup dans le menu FSGraph Vous pouvez galement imprimer tous les graphes qui sont ouverts en cliquant sur Print All 118 CHAPITRE 5 GRAMMAIRES LOCALES Chapitre 6 Utilisation avanc e des graphes 6 1 Les types de graphes Unitex peut manipuler plusieurs types de graphes qui correspondent aux utilisations suivantes flexion automatique de dictionnaires pr traitement des textes normalisation des automates de textes graphes dictionnaires recherche de motifs lev e d ambiguit s et g n ration automatique de graphes Ces diff rents types de graphes ne sont pas interpr t s de la m me fa on par Unitex Certaines choses
220. e texte pour plus de d tails voir section 13 52 au sujet du programme XMLi zer Quand vous cliquez sur OK le nom d un fichier XML vous est demand comme le montre la figure 10 2 Unitex construit alors si besoin est les versions XML de vos textes et affiche le cadre de la figure 10 3 Comme vous pouvez le constater chaque texte est repr sent sous la forme d une liste chaque cellule comportant une phrase 213 214 CHAPITRE 10 ALIGNEMENT DE TEXTE Target text st Alignment file optional oO FIGURE 10 1 Fen tre de s lection des textes aligner XAlign Source text D My UnitexiFrenchiCorpusiA funtana fr bd set aka gt DAM EE Your source file is a txt one Please select the Alignt destination file to be used by XAlign TEI format _ OK FIGURE 10 2 Attention aux textes bruts 10 2 ALIGNER DES TEXTES D iMy UnitexiXAlign funtana xml Je vous demande pardon ch re madame de ne pas pouvoir vous r pondre dans otre langue Je suis sans doute sur cette ile la seule personne qui ait oubli la m moire d outre mer cer scuze stimat doamna ca nu pot s va raspund in limba dumneavoastr Sint probabil sigura persoan de pe aceasta insula careia i s a sters din memorie lumea de dincolo de mare Ah marea Si insulele indepartate pierdute la geana orizontului Fara de veste vintul se pr vale dinspre ghn Tra mer Et
221. e Concord C est gr ce cela que lorsque l on clique sur une occurrence dans une concordance celle ci est correctement s lectionn e dans le texte Tous les fichiers produits sont sauvegard s dans le r pertoire du texte 13 45 TrainingTagger TrainingTagger OPTIONS lt txt gt Ce programme g nere automatiquement deux fichiers de donn es Tagger partir d un corpus tiquet Ils sont utilis s par le programme Tagger afin de calculer les probabilit s et lin ariser l automate texte Le fichier corpus tiquet doit suivre le format d crit la section 14 10 1 Ces fichiers contiennent des tuples unigrammes bigrammes et trigrammes form es par des balises et des mots Dans le premier fichier de donn es les tiquettes sont de type cat i e des codes grammaticaux syntaxiques et s mantiques Dans le second fichier de domn es les tiquettes sont de type morph i e des codes grammaticaux syntaxiques s mantiques et flexion nels OPTIONS e a all indique que le programme doit produire tous les fichiers de don n es par d faut e c cat indique que le programme ne doit produire que les fichiers de donn es avec cat e m morph indique que le programme ne doit produire que les fichiers de donn es avec morph e n no_binaries indique que le programme ne doit pas compresser les fichiers de donn es en fichiers bin seulement dans ce cas les fichiers de don n es dic son
222. e de e e ou Voici l extrait du fichier alphabet du francais qui d finit les diff rentes lettres e 14 2 2 Alphabet de tri L alphabet de tri est un fichier texte qui d finit les priorit s des lettres d une langue lors du tri l aide du programme SortTxt Chaque ligne de ce fichier d finit 314 CHAPITRE 14 FORMATS DE FICHIERS un groupe de lettres Si un groupe de lettres est d fini avant un groupe de lettres B n importe quelle lettre de A sera inf rieure n importe quelle lettre de B Les lettres d un m me groupe ne sont distingu es que si n cessaire Par exemple si l on a d fini le groupe de lettre e le mot bahi sera consid r comme plus petit que estuaire lui m me plus petit que t Comme les lettres qui suivent e et permettaient de classer les mots on n a pas cherch comparer les lettres e et car elles sont du m me groupe En revanche si l on compare les mots chant s et chantes chantes sera consid r comme plus petit En effet il faut comparer les lettres e et pour distinguer ces mots Comme la lettre e appara t en premier dans le groupe e eg elle est consid r e comme inf rieure Le mot chantes sera donc consid r comme plus petit que le mot chant s Le fichier d alphabet de tri permet de d finir des quivalences de caract res On peut donc ignorer les diff rences de casse et d accent Par exemple si l on veut ordonner les lettr
223. e des fl ches haut et 2 5 PR TRAITEMENT DU TEXTE 41 F Word Lists in home paumier unitex English Corpus ivanhoe_snt oo Y Xi DLF 13284 simple word lexical entri a DET Dind s a N s Aaron N PR Hum abandoned A abandoned abandon V K 116 1I abate V WsPis P2s PipsP2ps abated abate V K 116 126 13 abbey N Conc s abbot N Hum s abbots abbot N Hum p abide V W Pis P25 P1p P2p om ERR 413 unknown simple words Filter unknown words with tags DLC 274 compound lexical entries absolute necessity N XN z1 2 act of violence N NPN z1 5 Andalusia agnus castus N XN NX Conc andTermagaunt all around A DA z1 all comers N XN z1 p all in A z1 Anglo Saxon N XN Hum z1 s Anglo Saxons Anglo Saxon N as usual A asA z1 as was AtasV z1 ass s ears ass s ear N NsN 4 ill FIGURE 2 13 R sultats de l application de dictionnaires sur un texte anglais bas voir figure 2 14 Le bouton Set Default vous permet de d finir la s lection courante de dictionnaires comme s lection par d faut Cette s lection par d faut sera utilis e lors du pr traitement si vous choisissez l option Apply All default Dictionaries Si vous effectuez un clic droit au dessus d un nom de dictionnaire la documentation du dictionnaire si elle existe s affichera dans le cadre inf rieur 2 5 6 Analyse des mots compos s libres en n erlandais allemand norv gien et russe Dans ce
224. e des mod ifications manuelles Si le programme trouve un fichier sentenceN grf dans le m me r pertoire que lt t st gt il remplace l automate de la phrase N par celle repr sen t e par sentenceN grf L automate du texte donn entr e est modifi 13 33 Reconstrucao Reconstrucao OPTIONS lt index gt Le programme g n re une grammaire de normalisation destin e tre appliqu e avant la construction d un automate pour un texte en langue portugaise Le fichier lt index gt repr sente une concordance qui doit tre produite en mode MERGE to the considered text a grammar that extracts all forms to be normalized Cette grammaire est nomm e V Pro Suf etest stock e dans le r pertoire Portuguese Graphs Normalizat OPTIONS e a ALPH alphabet ALPH le fichier alphabet utiliser e r ROOT root ROOT le dictionnaire invers bin utiliser pour retrou ver les formes au futur et au conditionnel partir des formes canoniques Il a t obtenu en compressant le dictionnaire des verbes au futur et au condition nel avec le param tre flip voir section 13 8 e d BIN dictionary BIN le dictionnaire bin utiliser e p PRO pronoun_rules PRO la grammaire fst2 de r criture des pronoms 13 34 REG2GRF 297 e n PRO nasal_pronoun_rules PRO la grammaire fst2 de r crit ure des pronoms nasaux e o OUT output OUT le nom du graphe grf g n rer 13 34 Reg2Grf Reg2Grf
225. e la grammaire ainsi que le mode d ex ploration e Ignore outputs les sorties sont ignor es Separate inputs and outputs les sorties sont affich es group es apr s les entr es abc ABC Merge inputs and outputs chaque sortie est affich e imm diatement apr s l entr e qui lui correspond a A b B c C Only paths les appels aux sous graphes sont explor s r cursivement Do not explore subgraphs recursively les appels aux sous graphes sont affich s sans tre explor s r cursivement Si l option Maximum number of sequences est coch e le nombre sp cifi sera le nombre maximum de chemins g n r s Si l option n est pas s lectionn e tous les chemins seront g n r s Voici ce que l on obtient pour le graphe de la figure 6 38 avec les param tres par d faut ignorer les sorties limite 100 chemins Zz B gt B gt B gt B gt B gt B gt B gt B gt B gt 2 222222 oe ce oy te Ca ee es ANA AA lt bo lt bo lt bo lt bo lt bo lt bo lt bo lt bo lt bo lace 1 lace 1 lace la vanille lace vanille G GaGa G G amp G GG GG bo Lu Lu ps ps ps L H H H H H H le gt le gt le gt lace fraise lace pistache de de de de de de de de de glace la pistache glace la fraise glace la vanille glace vanille glace fraise glace pistache pistache fraise vanille la fraise La pistache 6 6 Collection
226. e les codes grammaticaux ta ble 3 1 et s mantiques table 3 2 Dans le format de dictionnaires lectroniques DELAF les codes grammaticaux sont ceux qui apparaissent en premier et codent la cat gorie grammat icale mais dans les masques lexicaux d Unitex l ordre dans lequel apparaissent les codes grammaticaux et s mantiques n a pas d importance Les trois masques lexicaux suivants sont quivalents lt N Hum z1 gt lt z1 N Hum gt lt Hum z1 N gt Un masque lexical peut contenir un code s mantique sans code de cat gorie grammaticale NOTE il n est pas possible d utiliser un masque n ayant que des codes d interdiction lt N gt et lt A z1 gt sont donc des masques incorrects Il est toutefois possible d exprimer de telles contraintes en utilisant des contextes voir section 6 3 4 3 4 Contraintes flexionnelles On peut galement sp cifier des contraintes portant sur les codes flexionnels Ces con traintes doivent obligatoirement tre pr c d es par au moins un code grammatical ou s mantique Elles suivent les m mes conventions de format que les codes flexionnels pr sents dans les dictionnaires Voici quelques exemples de masques lexicaux utilisant des contraintes flexionnelles e lt A m gt reconnait un adjectif au masculin e lt A mp gt reconna t un adjectif au masculin pluriel 2 Siles dictionnaires d crivent un mot par deux entr es dont une avec A z3 et l autre avec seulement A
227. e les pronoms personnels nominatifs lt PRO PpvI1 gt sont tiquet s morphologique ment par une personne un genre et nombre e les pronoms pr positionnels en y n ont aucun trait flexionnel Toutes les combinaisons des traits flexionnels et discriminants qui apparaissent dans les dictionnaires doivent tre d crites dans le fichier tagset def faute de quoi les entr es correspondantes seront rejet es par ELAG Dans le cas o des mots d une m me sous cat gorie diff rent par leurs traits flexionnels il est n cessaire d crire plusieurs lignes dans la partie complete L inconv nient de cette m thode de description est qu il devient difficile de faire la distinction entre de tels mots dans une grammaire ELAG Si l on consid re la description donn e pr c demment en exemple certains adjectifs du fran ais prennent un genre et un nombre alors que d autres n ont aucun trait flexionnel C est par exemple le cas de s quences fig es comme de bonne humeur qui ont un comporte ment syntaxique tres proche de celui des adjectifs De telles s quences ont ainsi t int gr es dans le dictionnaire du francais en tant qu adjec tifs invariables et donc sans trait flexionnel Le probl me est que si l on veut faire r f rence exclusivement ce type d adjectifs dans une grammaire de d sambiguisation le symbole lt A gt ne convient pas puisqu il donnera tous les adjectifs Pour contourner cette difficult il est po
228. ec son r pertoire _snt Le fichier con tenant la liste des transducteurs est un fichier dans lequel chaque ligne contient le nom complet du transducteur suivi de son mode d application 270 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES A la place d une liste vous pouvez sp cifier chaque fichier et mode d application par un ensemble de couple d arguments pour repr senter la liste s transducer _file et m transducer _ policy Le mode d application peut tre MERGE ou REPLACE L option de fichier l option alphabet et l option fichier liste de transducteurs sont obligatoires Comme le programme Locate ce programme enregistre les r f rences des occur rences dans un fichier concord ind stock dans le r pertoire _snt verb du texte Le fichier concord ind produit est dans le m me format que celui d crit chapitre 14 mais la cascade peut tre form e de graphes appliqu s en mode merge ou replace de ce fait M ou R la premi re ligne du fichier concord ind n a pas de sens dans ce contexte 13 7 CheckDic CheckDic OPTIONS dic Ce programme effectue la v rification du format d un dictionnaire de type DELAS ou DELAF dic qui correspond au nom du dictionnaire v rifier OPTIONS e f delaf v rifie un dictionnaire de formes fl chies e s delas v rifie un dictionnaire de formes canoniques e r strict v rification stricte de la syntaxe la d sp cialisation des points et virgule
229. ectroniques la flexion verbale en grec moderne 1990 These de doctorat Universit Paris 8 3 8 61 Tita KYRIACOPOULOU Un syst me d analyse de textes en grec moderne repr sentation des noms compos s In Actes du 5 me Colloque International de Linguistique Grecque 13 15 septembre 2001 Sorbonne Paris 2002 3 8 62 Tita KYRIACOPOULOU Safia MRABTI and AnastasiaYANNACOPOULOU Le dictionnaire lectronique des noms compos s en grec moderne Lingvistice In vestigationes 25 1 7 28 2002 Amsterdam Philadelphia John Benjamins Pub lishing Company 3 8 63 Jacques LABELLE Le traitement automatique des variantes linguistiques en fran ais l exemple des concrets Lingvistice Investigationes 19 1 137 152 1995 Amsterdam Philadelphia John Benjamins Publishing Company 3 8 64 Eric LAPORTE and Anne MONCEAUX Elimination of lexical ambiguities by grammars The ELAG system Lingvistice Investigationes 22 341 367 1998 Amsterdam Philadelphia John Benjamins Publishing Company 7 3 65 Ville LAURIKARI TRE home page http laurikari net tre 1 47 66 Christian LECL RE The lexicon grammar of french verbs a syntactic database In Kawaguchi Y et alii editor Linguistic Informatics State of the Art and the Future pages 29 45 Amsterdam Philadelphia Benjamins 2005 9 1 67 Judith N LEVI The Syntax and Semantics of Complex Nominals Academic Press New York London 1978 11 1 68 XAlign Alignement multi
230. egistrer le graphe dans le sous r pertpoire Graphs de votre r pertoire de travail Vous pouvez voir si le graphe a t modifi apr s le dernier enregistrement en v rifiant si le titre du graphe contient le texte Unsaved Un graphe peut contenir des boucles Une boucle peut entourer une seule boite comme dans la fig 5 7 ou plusieurs comme dans la fig 5 16 Le contenu de la boucle sera reconnu n importe quel nombre de fois en s quence On peut fixer des limites au nombre de fois mais uniquement pour une boucle autour d une seule boite voir la section 6 2 4 Lorsqu on modifie un graphe on peut faire appara tre par un clic droit un menu contextuel fig 5 8 qui permet d effectuer les op rations les plus usuelles Create box Surround with Merge boxes Output variable gt Input variable Export as new graph Morphological mode Save Left context Save as Right context Page Setup Negative right context Print Tools gt Format b Zoom FIGURE 5 8 Menu contextuel e cr er une bo te e enregistrer ou imprimer le graphe courant ou modifier les param tres de la page e les menus habituels Tools Format et Zoom galement accessibles dans le menu FSGraph 5 2 DITION DE GRAPHES 99 Si une ou plusieurs bo tes sont s lectionn es les menus suivants deviennent accessibles et permettent d effectuer plusieurs types d op rations sur cet ensemble de bo tes Sin
231. elle fen tre est alors affich e voir figure 5 26 qui contient les deux graphes avec des couleurs qui indiquent les types de diff rences entre les deux graphes insertion suppression d placement de bo tes et change ment de contenu d une bo te apparaissent respectivement en vert rouge mauve et jaune Les six derniers boutons sont des raccourcis pour la d finition d une variable du mode morphologique ou d un contexte sur une ou plusieurs bo tes s lectionn es Ces boutons ne sont activ s que si une ou plusieurs bo tes sont s lectionn es 110 CHAPITRE 5 GRAMMAIRES LOCALES Graph Diff sx A added removed M moved M content changed les bassins ni les docks E E n 2 i mE FIGURE 5 26 DIFF variable d entr e voir section 5 2 5 variable de sortie voir section 6 8 e lt gt mode morphologique voir section 6 4 e 5 contexte gauche voir section 6 3 e contexte droit voir section 6 3 e 5 contexte droit n gatif voir section 6 3 5 3 Options de pr sentation 5 3 1 Tri des lignes d une bo te Vous pouvez trier le contenu d une bo te en la s lectionnant et en cliquant sur Sort Node Label dans le sous menu Tools du menu FSGraph Ce tri ne fait pas appel au programme Sort Txt Il s agit d un tri basique qui trie les lignes de la bo te selon l ordre des caracteres dans le codage Unicode
232. ement ou de normalisation Les variables qui font r f rence aux colonnes sont form es du caract re suivi d un nom de colonne en lettres majuscules les colonnes sont num rot es en partant de A Exemple C fait r f rence la troisi me colonne de la table Lorsqu une variable doit tre remplac e par un ou un le signe correspond la suppres sion du chemin passant par cette variable Il est possible d effectuer l op ration contraire en faisant pr c der le caract re d un point d exclamation Dans ce cas c est lorsque la vari able renvoie un signe que le chemin est supprim Si la variable ne renvoie ni un signe ni un signe elle est remplac e par le contenu de la cellule Il existe galement une variable sp ciale qui est remplac e par le num ro de la ligne dans la table Le fait que sa valeur soit diff rente pour chaque ligne permet de l utiliser pour 208 CHAPITRE 9 LEXIQUE GRAMMAIRE caract riser facilement une ligne Cette variable n est pas affect e par la pr sence d un point d exclamation sa gauche La figure 9 3 montre un exemple de graphe param tr con u pour tre appliqu la table de lexique grammaire table 31H pr sent e sur la figure 9 4 le verbe n ne v rifie pas la propri t de la colonne A NO V vers N FIGURE 9 3 Exemple de graphe param tr E Y_31H OpenOffice org Calc Fichier diter Afficher Ins rer For
233. ement ou indirectement depuis un m me graphe principal 152 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES e le graphe principal est compil et transform en transducteur fini voir section 6 2 2 e la boite qui contient le masque lexical est commune plus de chemins que celles qui cherchent les codes s mantiques dans la variable de dictionnaire 6 10 Application des graphes aux textes Cette section concerne uniquement les graphes syntaxiques 6 10 1 Configuration de la recherche Pour appliquer un graphe un texte vous devez ouvrir le texte puis cliquer sur Locate Pattern dans le menu Text ou appuyer sur lt Ctrl L gt Vous pouvez alors configurer votre recherche gr ce la fen tre de la figure 6 53 E Locate Pattern Locate configuration Advanced options Locate pattern in the form of Regular expression e Graph Set _ Activate debug mode Index Grammar outputs Shortest matches 8 Are not taken into account 8 Longest matches Merge with input text All matches Replace recognized sequences Search limitation 8 Stop after 200 matches Index all utterances in text Search algorithm 8 Paumier 2003 working on text quicker automaton intersection higher precision FIGURE 6 53 Fen tre de recherche d expressions 3 De cette fa on le masque lexical provoque une consultation des dictionnaires du mode morphologique qu
234. ement un nom bre par ligne une position Ceci convertit une liste de positions en utilisant le fichier d offsets Le fichier cr contient a chaque ligne la nouvelle position suivi d un si le caract re a cette posi tion est dans le fichier d arriv e suivi d un si le caract re a t supprim e p lt list_to_create gt T lt offset_file_to_read gt Utiliser t la place de T produit la traduction inverse 13 14 DumpOffsets Ce programme permet d tudier et d utiliser les fichiers de correspondance d Off sets manipul par certains outils Unitex comme Unxmlize Normalize Fst2Txt To kenize Concord et GrfTest DumpOffsets merge o lt fichier_offsetsl gt lt fichier_offsets2 gt p lt fichier_offset12 gt IONS lt 13 14 DUMPOFFSETS 281 En entr e le fichier offsets1 14 13 10 page 344 contient la correspondant des off sets entre un fichier en version A et un fichier en version B et offset2 contient la correspondant des offsets entre ce fichier en version B et en version C le fichier fichier_offset12 r sultant aura la correspondance entre les versions A et B DumpOffsets OPTIONS o lt fichier_versionl gt n lt fichier_Version2 gt lt fichier_offset gt p lt fichier_dump gt OPTIONS e f full Inclus des informations plus compl tes En entr e le fichier fichier_offset contient la correspondant des offsets entre le fichier_versionl et le fic
235. emple I do not like the square bracket N sign S De tels tags permettent de lever des ambigu t s en interdisant tout autre interpr tation Dans notre exemple on ne pourra pas reconna tre square bracket comme combinaison de deux mots simples Toutefois la pr sence de ces tags peut perturber l application des graphes de pr traitement L utilisateur dispose donc de la commande Open Tagged Text dans le menu Text gr ce laquelle il peut ouvrir un texte contenant des tags sans que les graphes de pr traitements ne soient appliqu s comme on le voit sur la figure 2 15 2 6 OUVERTURE D UN TEXTE TAGGU Preprocessing amp Lexical parsing xl Preprocessing Sentence and Replace graphs should not be applied on tagged texts Tokenizing The text is automatically tokenized This operation is language dependant so that Unitex can handle languages with special spacing rules Lexical Parsing Apply All default Dictionaries Cancel but tokenize text C Analyse unknown words as free compound words this option is available onty for Dutch German Norwegian amp Russian C Construct Text Automaton Cancel and close text FIGURE 2 15 Pr traitement d un texte taggu 43 CHAPITRE 2 CHARGEMENT D UN TEXTE Chapitre 3 Dictionnaires 3 1 Les dictionnaires DELA Les dictionnaires lectroniques utilis s par Unitex utilisent le formalisme DELA Dic tionnaires Electroniques du LADL Ce formalisme
236. entrent l int rieur des tokens sauf avec les filtres morphologiques voir section 4 7 comme le montre la figure 6 30 2 502 fine This does not work We should use the following morphological filter lt lt un able gt gt FIGURE 6 30 Reconnaissance d l ments morphologiques Cependant les filtres morphologiques ne permettent pas n importe quelle requ te puisqu ils ne peuvent pas faire r f rence aux informations contenues dans les dictionnaires Ainsi il est impossible de formuler de cette mani re une requ te comme un mot constitu du pr fixe un suivi d un adjectif en able Pour surmonter cette difficult nous introduisons un mode morphologique dans le pro gramme Locate Il consiste d limiter une partie de votre grammaire avec les symboles lt et gt Dans cette zone les donn es sont reconnues lettre par lettre comme le montre la figure 6 31 FIGURE 6 31 Exemple de zone morphologique dans la grammaire 6 4 2 Les r gles Dans ce mode le contenu du graphe n est pas interpr t de mani re habituelle 1 Il n y a pas d espace entre les bo tes Ainsi si on d sire reconna tre un espace on doit le rendre explicite avec un espace entre guillemets 2 On peut toujours utiliser des sous graphes mais la fin de la zone morphologique doit se trouver dans le m me graphe que son d but 138 10 11 12 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES
237. er on ou d sactiver off la sor tie standard e e on off error on off activer on ou d sactiver off la sortie erreur standard Par exemple UnitexToolLogger SelectOutput o off e off Normalize Unitex English Corpus ivanhoe txt 13 51 Unxmlize Ce programme supprime tous les tags xml d un fichier xml ou html donn pour produire un fichier texte traitable par Unitex Unxmlize OPTIONS lt file gt OPTIONS e o TXT output TXT fichier de sortie Par d faut foo xml gt foo txt e output_offsets XXX sp cifie le fichier offset produire e PRLG XXX extrait dans le fichier XXX des informations utilis es dans le projet PRLG du grec ancien exige output_offsets e t html considere le fichier comme un fichier html ne tient pas compte de l extension e x xml considere le fichier comme un fichier xml ne tient pas compte de l extension 310 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES 1 tolerate essayez tol rer des malformations de balisage comment s IGNORE chaque commentaire est supprim par d faut comment s SPACE chaque commentaire est remplac par un simple espace scripts IGNORE chaque script block is removed scripts SPACE chaque commentaire est remplac par un simple espace par d faut pour html Note par d faut balises de script sont trait es comme des balises normales par d faut
238. er texte original pour produire la concordance comme le mon tre la figure 7 34 e lt TOKEN gt ne reconna t pas les tokens tel que d finis dans tokens txt Il reconna t n importe quelle tiquette de l automate du texte Les tiquettes reconnues peuvent 194 CHAPITRE 7 AUTOMATE DU TEXTE DET Dnum z1 mp fp FIGURE 7 33 Phrase de l automate qui ne reconna t pas le motif huit m laient quelques jeunes nglais qui i le million en poche allaient fonder loin des comptoirs de commerce llion en poche allaient fonder au loin des comptoirs de commerce Le Le au r au loin des comptoirs de commerce Le purser l homme de confianc omptoirs de commerce 5 Le purser l homme de confiance de la Compagn rr Le purser l homme de confiance de la Compaqnie l gal du capitaine l homme de confiance de la Compagnie l gal du capitaine bord faisai FIGURE 7 34 Une concordance surprenante pour le motif lt le DET gt tre plus longues que les tokens si ce sont des tiquettes de mots compos s ou m me plus courtes si l automate comporte une analyse mophologique comme un comme le montre la figure 3 23 page 72 e m me sans entrer dans le mode morphologique on peut d finir des variables de dic tionnaire cf section 6 4 4 Ensuite on peut extraire de ces variables la forme fl chie la forme canonique et les codes des entr es lexicales correspondantes leur cat gori
239. erbes la forme canonique est l infinitif Cette information peut tre omise comme dans l exemple suivant bo te merveilles N zl fs Cela signifie alors que la forme canonique est identique la forme fl chie La forme canonique est s par e de la forme fl chie par une virgule A z1 est la s quence d informations grammaticales et s mantiques Dans notre ex emple A d signe un adjectif et z1 ndique qu il s agit d un mot courant voir tableau 32 Toute entr e doit comporter au moins un code grammatical ou s mantique s par de la forme canonique par un point S il y a plusieurs codes ceux ci doivent tre s par s par le caract re mp fp est la s quence d informations flexionnelles Ces informations d crivent le genre le nombre les temps et modes de conjugaisons les d clinaisons pour les langues cas etc Ces informations sont facultatives Un code flexionnel est compos d un ou plusieurs caract res codant chacun une information Les codes flexionnels doivent tre s par s par le caract re Dans notre exemple m signifie masculin p pluriel et f f minin voir tableau 3 3 Le caract re s interprete comme un OU logique Ainsi mp fp signifie masculin pluriel ou f minin pluriel Comme chaque caract re cor respond une information il est inutile d utiliser plusieurs fois un m me caract re Ainsi coder le participe pass avec le code PP serait strictement quivalent utilise
240. es b c et d sans tenir compte de la casse ni de la c dille on peut crire les lignes suivantes Bb cecc pag Ce fichier est facultatif Lorsqu aucun alphabet de tri n est sp cifi au programme SortTxt celui ci effectue un tri dans l ordre d apparition des caract res dans le codage Unicode 143 Graphes Cette section pr sente les deux formats de graphes le format graphique grf et le format compil fst2 14 3 1 Format grf Un fichier grf est un fichier texte contenant des informations de pr sentation en plus des informations repr sentant les contenus des bo tes et les transitions du graphe Un fichier grf commence par les lignes suivantes Unigraph SIZE 1313 9504 FONT Times New Roman 124 OFONT Times New Roman B 124 BCOLOR 1677721594 FCOLOR 04 ACOLOR 126322564 14 3 GRAPHES 315 SCOLOR 1671168094 CCOLOR 2554 DBOXES yY DFRAME y DDATE y DFILE y DDIR y DRIG ng DRST ng FITS 1004 PORIENT L 9 La premiere ligne Unigraph est une ligne de commentaire Les lignes suivantes d finissent les valeurs des param tres de pr sentation du graphe e SIZE x y d finit la largeur x et la hauteur y du graphe en pixels e FONT name xyz d finit la police utilis e pour afficher le contenu des bo tes name repr sente le nom de la police x indique si la police doit tre en gras ou non Si x vaut B cela indique que la police doit tre en gras Pour une po
241. es bo tes ainsi que dans la zone de texte o l on dite le contenu des bo tes e Output police utilis e pour afficher les sorties des bo tes Les param tres de couleur sont e Background couleur de fond e Foreground couleur utilis e pour le texte et le dessin des bo tes 114 grid grf X BOULOT Rechercheimanuelunitex resourcesimg of a graph displayed with CHAPITRE 5 GRAMMAIRES LOCALES Presentation Display Colors v Date Background Set File Name Foreground a C Pathname Auxiliary Nodes Set Frame Selected Nodes ETS C Right to Left Comment Nodes Set Antialiasing __ Enable antialising for rendering graphs Icon Bar Position West North East O South None Fonts Courier 10 Pitch 10 Output Dialog bold 12 Cancel FIGURE 5 32 Configuration de l aspect d un graphe e Auxiliary Nodes couleur des bo tes faisant appel des sous graphes e Selected Nodes couleur utilis e pour dessiner les bo tes quand elles sont s lection n es e Comment Nodes couleur utilis e pour dessiner les bo tes qui ne sont reli es aucune autre Les autres param tres sont 5 4 LES GRAPHES EN DEHORS D UNITEX 115 Date affichage de la date courante dans le coin inf rieur gauche du graphe File Name affichage du nom du graphe dans le coin inf rieur gauche du graphe Pathname affichage du n
242. es lexicaux des exemples pr c dents sont simples Il est possible d exprimer des motifs plus complexes en indiquant plusieurs codes grammaticaux ou s mantiques s par s par le caract re Si plusieurs codes sont pr sents le caract re est interpr t comme et une entr e de dictionnaire ne sera alors reconnue que si elle poss de tous les codes pr sents dans le masque Le masque lt N z1 gt reconna t ainsi les entr es broderies broderie N z1 fp capitales europ ennes capitale europ enne N NA Conc HumColl zl fp 1 partir de la version 3 1b ta r vision 4072 du 2 octobre 2015 78 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES mais pas Descartes Ren Descartes N Hum NPropre ms habitu A z1 ms On peut exclure des codes en les faisant pr c der du caract re au lieu de Pour tre reconnue une entr e doit contenir tous les codes exig s par le masque sans aucun des codes qu il interdit Par exemple lt A z3 gt reconna t toutes les entr es qui ont le code A sans le code z3 cf table 3 2 Si on veut faire r f rence un code contenant le caract re on doit le d sp cialiser en le faisant pr c der d un REMARQUE Avant la version 2 1 l op rateur de n gation tait le signe moins Si l on veut utiliser d anciens graphes sans les modifier il faut appeler Locate en ligne de commande avec l option g minus La syntaxe des masques lexicaux ne fait aucune diff rence entr
243. es locales 93 5 1 Formalisme des gramm ires locales coore cenad ewe ewe eS 93 S11 Griammairesaleebrigues s rct oe ee ee aw Re ES Ge a es 93 5 1 2 Grammaires alg briques tendues des des ee nus 4 94 5 2 dition de o s x25 4 der os CRESS ee Ier SSSR Eds 94 921 Creatondungpraphe Less sex E AAA 94 TABLE DES MATI RES 5 522 SOUS praphes oco es EE Ness sers 99 523 Manipulation des oites s s so co ee pe a pe de ue 102 SP SOPHIE 4 2 da due en Re dre de ab He eur ne ee pui 104 5 2 5 Variables d entr e 106 526 opie de list s sireci ee dis redin de RARES SRE Res 106 547 Symboles SpEda X lt i eser r AE RES ERNES EE 108 5 2 8 Commandes de la barre d ic nes 108 50 SIOUOMS Ge pr sentation s e coss eine Larsen SRE NULS RTS En OS 110 531 Tideslienes dd imebolle lt esame messe ar 110 A 44 de PRS SEA ee a OMS ES we a wi Sue 110 Soo AUS Sauter ed der AAA AD 111 934 Alpnementdes BOIS 0 st eee eed we disais ee ae 111 5 3 5 Pr sentation polices et couleurs lt lt lt coco res bs ee Ghee eas 112 5 4 Les graphes en dehors d UniteX 23 cee eee EEE SHEE ERS EES 115 541 Inchision d un graphe dans un document lt o 2 s sess sess 115 542 PONT MERS gt s cece sa at an A OE LE eS 116 6 Utilisation avanc e des graphes 119 61 Lestypesdepraphes ieo ee a AAA 119 611 HORMIS eo hea ane ASA EN bre 119 6 1 2 Graphe sde pr traitement
244. es permet de v rifier que les caract res pr sents dans le dictionnaire sont coh rents avec ceux pr sents dans le fichier alphabet de la langue Chaque caract re est suivi par sa valeur en notation hexad cimale Les listes de codes peuvent tre utilis es pour v rifier qu il n y a pas de faute de frappe dans les codes du dictionnaire Le programme CheckDic fonctionne avec des dictionnaires non comprim s c est dire sous forme de fichiers texte La convention g n ralement appliqu e est de donner l exten sion dic Pour v rifier le format d un dictionnaire il faut tout d abord l ouvrir en cliquant sur Open dans le menu DELA Chargeons le dictionnaire de la figure 3 4 Pour lancer la v rification automatique cliquez sur Check Format dans le menu DELA la fen tre de la figure 3 5 appara t alors Cette fen tre vous permet de choisir le type du dictionnaire que vous voulez v rifier Les r sultats de la v rification du dictionnaire de la figure 3 4 sont pr sent s sur la figure 3 6 La premi re erreur est due au fait que le programme n ait pas trouv de point Le seconde au fait qu il n ait pas trouv de virgule marquant la fin de la forme fl chie La troisi me erreur indique que le programme n a trouv aucun code grammatical ou s mantique 3 4 TRI 53 5 D My Unitex English Dela agreeably dic lagreed FIGURE 3 4 Exemple de dictionnaire Check Dictionary Format
245. et minuscules 67 pour l application des transducteurs 144 r criture 93 R pertoire d p t de graphes 100 du texte 34 personnel de travail 23 27 98 217 340 syst me Unitex 20 21 23 27 340 texte 266 R p tition nombre de 127 REPLACE 144 153 325 R seau de transitions r cursif 94 Respect de la casse 76 84 des espaces 122 des minuscules majuscules 76 84 120 122 Respect de la casse 122 RTN 94 Russe mots compos s libres 41 295 S Script de programmes Unitex 305 S lection de la langue 27 S lection multiple 102 copier coller 103 S parateur de phrases 81 319 341 S parateurs de mots 33 Shortest matches 85 153 Sortie d un transducteur 113 ambiguit 105 153 associ e un appel de sous graphe 125 INDEX avec variable 146 Squelette consonantique 63 Statistiques 298 STOP 38 SVG export de graphe 116 Symboles lexicaux 185 non terminaux 93 sp ciaux 108 terminaux 93 T Taux d ambiguit 178 Tests sur les variables 150 Texte automate du 77 296 301 304 conversion en texte lin aire 301 normalisation 121 166 d coupage en phrases 34 d coupage en unit s lexicales 38 302 modification 157 271 normalisation 33 294 pr traitement 31 120 r pertoire 266 r pertoire du 34 TMate 367 Token 38 Tokenisation 38 Traitement des erreurs sur les variables 153 Transducteur 94 104 avec variables 106 de flexion 55 119 re
246. etween Sheffield and the pleasant DET A town of Doncaster 5 The remains DET N of this The remains of this extensive DET A wood to be seen at the noble DET seats of to be seen at the noble DET N seats of FIGURE 6 56 Sorties ambigu s pour the noble Concordance D My Unitex EnglishiCorpusiva a a Bd er Scott S IN THAT PLEASANT DET A DISTRICT merry England which is DET N watered by the is watered by the river DET N Don there ex ancient times a large DET A forest coverin rest covering the greater DET A part of the reater part of the beautiful DET A hills and ls and valleys which lie DET N between Sheff Sheffield and the pleasant DET A town of Do Doncaster 5 The remains DET N of this ext The remains of this extensive DET A wood are to be seen at the noble DET N seats of Went aunted of yore the fabulous DET A Dragon of FIGURE 6 57 Sortie unique the noble Avec l option Exit on variable error Locate LocateTfst mettent un message d erreur comme le montre la figure 6 60 Avec l option Backtrack on variable error Locate LocateTfst arr te l exploration du chemin courant de la grammaire Ainsi les variables jouent le r le d interrupteurs qui coupent les chemins lorsqu elles sont ind finies Par exemple l application de la grammaire 6 58 produit seulement des sorties contenant des adjectifs comme le montre la figure 6 61 156 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES
247. eurs r sultat que le JPEG Et contrairement au PNG et au JPEG qui sont des fomats bitmap le format SVG est un format vectoriel ce qui permet souvent un meilleur r sultat A l aide du logiciel Inkscape il est galement possible de convertir le fichier SVG en EPS ou en PDF avec des lignes de commandes de ce type Inkscape z E graph eps graph svg Inkscape z A graph pdf graph svg La seconde m thode consiste faire une capture d cran Sous Windows Appuyez sur la touche Imprime cran de votre clavier qui doit se trouver pr s de la touche F12 Lancez le programme Paint dans le menu Accessoires de Windows Appuyez sur lt Ctrl V gt Paint peut vous dire que l image contenue dans le presse papiers est trop grande et vous demander si vous voulez agrandir l image Cliquez sur Oui Vous pou vez maintenant diter l image de l cran S lectionnez la zone qui vous int resse Pour cela passez en mode s lection en cliquant sur le rectangle en pointill qui se trouve dans le coin sup rieur gauche de la fen tre Vous pouvez maintenant s lectionner une zone de l image avec la souris Une fois votre zone s lectionn e appuyez sur lt Ctrl C gt Votre s lection est maintenant dans le presse papier il ne vous reste plus qu aller dans votre document et appuyer sur lt Ctrl V gt pour coller votre image Sous Linux Effectuez une capture d cran par exemple avec le programme xv Retaillez ensuite votr
248. exicales est conserv e Par exemple si l on trouve le mot Here on conserve la majuscule voir figure 7 1 Ce choix permet de ne pas perdre cette information lors du passage l automate du texte ce qui pourra tre utile pour des applications o la casse est importante telle que la reconnaissance des noms propres 7 2 2 Normalisation de formes ambigu s Lors de la construction de l automate il est possible d effectuer une normalisation de formes ambigu s en appliquant une grammaire de normalisation Cette grammaire doit se nommer Norm fst2 et doit tre plac e dans votre r pertoire personnel dans le sous r pertoire Graphs Normalization de la langue voulue Les grammaires de normalisa tion de formes ambigu s sont d crites la section 6 1 3 Si une s quence du texte est reconnue par la grammaire de normalisation toutes les in terpr tations d crites par la grammaire sont ins r es dans l automate du texte La figure 7 4 montre l extrait de la grammaire utilis e pour le francais qui explicite l ambigu t de la s quence 1 la le PRO PpvLE z1 3fs FIGURE 7 4 Normalisation de la s quence 1 Si l on applique cette grammaire une phrase fran aise contenant la s quence 1 on obtient un automate de phrase similaire celui de la figure 7 5 Dans l automate obtenu on peut voir que les quatre r gles de r criture de la s quence 1 ont t appliqu es ce qui a ajout quatre tiquette
249. ext FST according to the DLF DLC and tags ind files previously built by the Dico program for the current text Cancel Construct FST FIGURE 7 25 Configuration de la lin arisation de l automate du texte insectes nuisibles envahissent maison insecte nuisible envahir N fs DET mp N mp V P3p DET fs FIGURE 7 26 L automate du texte lin aris avec les donn es de type morph 7 4 3 Cr ation d un nouveau taggeur Pour cr er un nouveau taggeur pour votre langue vous devez lancer le programme TrainingTagger sur votre propre corpus annot Le format du corpus annot est d crit dans 14 10 1 Comme nous le signalions la section 7 4 1 vous devez faire attention au jeu d tiquettes et la morphologie Avant de calculer un modele statistique vous devez d cider quels dictionnaires et graphes de normalisation vous utiliserez pour construire l automate du texte Puis vous devrez modifier le corpus annot si la forme des mots ou le jeu d ti quettes ne sont pas identiques Par exemple si le graphe de normalisation transforme le mot jusqu en jusque le mot correspondant dans le corpus annot doit tre jusque Un taggeur pour le fran ais est fourni avec Unitex Il a t cr avec un corpus annot com pos d tiquettes d pourvues de codes s mantiques et syntaxiques 7 5 MANIPULATION DE L AUTOMATE DU TEXTE 189 7 5 Manipulation de l automate du texte 7 5 1 Affichage des automates de phrases
250. f pr sent du conditionnel pass simple infinitif participe pr sent participe pass futur 3 x Ww ALR A Ia l alklAalalH wI Nolu TABLE 3 3 Codes flexionnels usuels Les codes pr sent s ne sont absolument pas limitatifs Chaque utilisateur peut introduire ses propres codes et cr er ses propres dictionnaires Par exemple on pourrait dans un but p dagogique introduire dans les dictionnaires anglais des marques indiquant les faux amis fran ais bless V faux ami b nir cask N faux ami tonneau journey N faux ami voyage Il est galement possible d utiliser les dictionnaires pour stocker des informations parti culi res Ainsi on pourrait utiliser la forme fl chie d une entr e pour d crire un sigle et la forme canonique pour en donner la forme compl te ADN Acide D soxyriboNucl ique SIGLE LADL Laboratoire d Automatique Documentaire et Linguistique SIGLE SAV Service Apr s Vente SIGLE 3 2 RECHERCHE D UN MOT DANS UN DICTIONNAIRE 51 3 2 Recherche d un mot dans un dictionnaire Vous pouvez rechercher un mot dans plusieurs dictionnaires de deux mani res Unitex 3 0beta February 10 2011 Check Format Ctrl Transliterate Sort Dictionary Inflect Compress into FST Build Korean MWU dic graph Close FIGURE 3 1 Menu DELA Si vous avez ouvert un dictionnaire la fen tr
251. ff rence Les fichiers d offsets de diff rence sont lu et crit par l outils Unxmlize 13 51 DumpOffsets 13 14 Normalize 13 30 Fst2Txt 13 22 Tokenize 13 44 Concord 13 9 et Grf Test et lu par Tokenize 13 44 Ces fichiers textes sont constitu es de lignes contenant 4 entiers A B C D Chaque ligne correspond une modification du texte exprim e de la fa on suivante l intervalle A B du texte avant tout traitement est remplac par l intervalle C D apr s traitement A B C et D tant des posi tions en caract res dans les fichiers textes Par exemple si on applique le programme Normalize sur le texte Hello world avec deux espaces entre les deux mots on aura une ligne comme ceci 5 7 5 6 signifiant qu une s quence de deux caract res les 2 espaces a t remplac e par une s quence d un seul caract re Le principe est donc de produire un nouveau fichier d offsets pour chaque ap plication de programme modifiant le texte en prenant en entr e le fichier d offsets produit par le programme pr c dent Ainsi en regardant le dernier fichier d offsets produit on sait que pour chaque ligne A BC D l intervalle C D dans le fichier snt correspond l intervalle A B dans le fichier txt de d part 14 13 11 fichier d offsets de zone commune Les fichiers d offsets de zone commune sont lu et crit par DumpOffsets Ces fichiers textes sont constitu es de lignes contenant 4 entiers
252. fichier grf produit est stock dans le r pertoire Graphs de l utilisateur Les autres fichiers nomm s text tfst text tind se trouvent dans le r pertoire text 13 36 SortTxt SortTxt OPTIONS lt txt gt Ce programme effectue un tri lexicographique des lignes du fichier lt txt gt lt txt gt doit repr senter le chemin d acc s complet au fichier trier OPTIONS e n no_duplicates supprime les doublons par d faut e d duplicates conserve les doublons e r reverse trie en ordre d croissant e o XXX sort_order XXX trie en utilisant l ordre alphab tique d fini par le fichier XXX Si ce param tre est abscent le tri est effectu selon l ordre des caract res Unicode e 1 XXX line_info XXX sauvegarde le nombre de lignes du fichier r sultat dans le fichier XXX e t thai option utiliser pour trier un texte Thai e f factorize_inflectional_codes transformeles deux entr es XXX YYY ZZZ A et XXX YYY ZZZ B en l entr e unique XXX YYY ZZZ A B L op ration de tri modifie le fichier texte Par d faut le tri est effectu dans l ordre des caract res en Unicode en supprimant les doublons 13 37 Stats Stats OPTIONS lt ind gt Ce programme calcule des statistiques partir du fichier d index de concordances lt ind gt OPTIONS e m MODE mode MODE sp cifie la sortie produire 13 38 TABLE2GRF 299 0 s quence reco
253. fin de ligne figure 8 1 soit ins rer la balise XML sp cifique dans un document existant TEILite figure 8 3 Le pr traitement des documents TXT ou XML g n re un fichier SNT qui est utilis pour la construction de l automate de s quences figure 8 2 Ce fichier peut tre utilis comme une entr e Le graphe produit ne reconna tra que les s quences qui sont correctement d limit es La production de grammaires locales est automatique uniquement partir d un corpus de s quences bien d finies Si vous disposez d un tel corpus alors le gain de temps est consid rable Tomorrow Tomorrow STOP this week this week STOP twice a month twice a month STOP as soon as possible as soon as possible STOP in the next few days in the next few days FIGURE 8 1 TXT FIGURE 8 2 SNT lt xml version 1 0 encoding UTF 16LE gt lt DOCTYPE xml SYSTEM teilite dtd gt lt TEI 2 lang fr gt lt teiHeader gt lt teiHeader gt lt text gt lt body gt lt p id 1 gt am going to see three of them lt seg type sequence gt tomorrow lt seg gt lt p gt lt p id 2 gt Here are suggestions of things to do lt seg type sequence gt this week lt seg gt in London lt p gt lt p id 3 gt These meetings will be held at least lt seg type sequence gt twice a month lt seg gt lt p gt lt p id 4 gt We will bring forward an amended proposal lt seg type sequence gt as soon as possible lt seg g
254. fois pour utiliser le taggeur sur l automate du texte on doit faire attention au jeu d tiquettes et la morphologie Le jeu d tiquettes du mod le doit tre identique celui de l automate du texte Par exemple si le mod le statistique a t calcul avec les tiquettes DET pour les mots the l tiquette correspondante dans le texte doit tre DET Unitex dispose d une fonctionnalit qui permet de changer la forme des mots du texte par exemple pour normaliser doesn t en does not Appliquer des graphes de remplacement ou de normalisation peut entrainer des modifications de la forme des mots Si un tel traitement a t appliqu au texte il doit avoir t appliqu galement au corpus d entrainement Si ces r gles ne sont pas respect es le taggeur pourrait tre incapable de trouver le chemin souhait dans l automate du texte Le programme Training Tagger produit deux variantes de taggeur Le premier supprime des transitions sur la base de codes gramaticaux s mantiques syntaxiques et flexionnels par exemple the DET Ddef s au lieu de the DET Ddef p Le second supprime les tran sitions sur la base de codes gramaticaux s mantiques et syntaxiques that DET Ddem au lieu de that PRO P den Ce traitement acc l re l entrainement et les informations flexion nelles ne sont plus n cessaires pour toutes les applications 7 4 2 Utilisation du Tagger Pour lin ariser l automate du texte vous devez choisir l
255. fonction permet ainsi d obtenir des objets plus simples manipuler et sur lesquels peuvent s appliquer tous les algorithmes classiques sur les automates Pour compiler et transformer ainsi une grammaire s lectionnez la commande Compile Flatten FST2 dans le sous menu Tools du menu FSGraph La fen tre de la figure 6 5 vous permet de configurer l op ration d approximation x 2 Expected result grammar format 8 equivalent FST2 subgraph calls may remain O Finite State Transducer can be just an approximation Flattening depth Maximum flattening depth 10 Cancel FIGURE 6 5 Configuration de l approximation d une grammaire Le cadre Flattening depth permet de pr ciser le niveau d imbrication des sous graphes Cette valeur repr sente la profondeur maximale au del de laquelle les appels des sous graphes ne seront plus remplac s par les sous graphes eux m mes Le cadre Expected result grammar format permet de d terminer le comportement du pro gramme au del de la limite indiqu e Si vous s lectionnez l option Finite State Trans ducer les appels aux sous graphes seront ignor s remplac par lt E gt au del de la pro fondeur maximale Cette option garantit ainsi l obtention d un transducteur tats finis ventuellement non quivalent la grammaire de d part En revanche l option equivalent FST2 indique au programme de laisser tels quels les appels aux sous graphes au del
256. g Les noms de fichiers elg sont entres angles Les lignes commen ant par une tabulation ont valeur de commentaire et sont ignor es par le programme Elag Voici le fichier elag rul fourni par d faut pour le francais PPVs PpvIL elgY PPVs PpvLE elgY PPVs PpvLUI elgY lt elag rub 0 elg gt Y PPVs PpvPR elgY PPVs PpvSeq elgY PPVs SE elg PPVs postpos elgY lt elag rul 1 elg gt Y 14 10 FICHIER TAGGEUR 335 14 10 Fichier taggeur Cette section pr sente les fichiers produits et utilis s par les programmes Train ingTagger et Tagger 14 10 1 Fichier corpus txt Ce fichier est utilis par le programme TrainingTagger afin de calculer les statis tiques pour le programme Tagger Il contient des phrases o chaque mot est repr sent sur une ligne s par e Chaque ligne repr sentant un mot est constitu e d un mot simple ou compos suivie d une barre oblique et de l tiquette du mot Cette tiquette est compos e d un code grammatical parfois suivi d une et de codes syntaxiques ou s mantiques Les codes flexionnels sont sp cifi s apr s un Si le mot est un compos les mots simples qui y figurent doivent tre s par s par un _ Voici un exemple d un fichier corpus txt The DET Ddef s4 GATT N sY had V 13s4 formerly ADVY a DET Dind sY political AY assessment N sY of PREPY the DET Ddef s4 behavior N sY of PREPY foreign_countries N pY PONCTS q She PRO N
257. gladan kao vuk AC_A3XN2 s5ngea hungry as a wolf gladnim kao vuk gladan kao vuk AC_A3XN2 s6mgea hungry as a wolf gladnom kao vuk gladan kao vuk AC_A3XN2 s6fgea hungry as a wolf gladnim kao vuk gladan kao vuk AC_A3XN2 s6ngea hungry as a wolf 11 3 INT GRATION UNITEX gladnome kao vuk gladan kao vuk AC_A3XN2 s7mgda hungry as a wolf gladnom kao vuk gladan kao vuk AC_A3XN2 s7mgda hungry as a wolf gladnu kao vuk gladan kao vuk AC_A3XN2 s7mgka hungry as a wolf gladnoj kao vuk gladan kao vuk AC_A3XN2 s7fgea hungry as a wolf gladnome kao vuk gladan kao vuk AC_A3XN2 s7ngda hungry as a wolf gladnom kao vuk gladan kao vuk AC_A3XN2 s7ngda hungry as a wolf gladnu kao vuk gladan kao vuk AC_A3XN2 s7ngka hungry as a wolf gladni kao vuk gladan kao vuk AC_A3XN2 plmgea hungry as a wolf gladni kao vuci gladan kao vuk AC_A3XN2 plmgea hungry as a wolf gladni kao vukovi gladan kao vuk AC_A3XN2 plmgea hungry as a wolf gladne kao vuk gladan kao vuk AC_A3XN2 plfgea hungry as a wolf gladne kao vuci gladan kao vuk AC_A3XN2 plfgea hungry as a wolf gladne kao vukovi gladan kao vuk AC_A3XN2 plfgea hungry as a wolf gladna kao vuk gladan kao vuk AC_A3XN2 plngea hungry as a wolf gladna kao vuci gladan kao vuk AC_A3XN2 plngea hungry as a wolf gladna kao vukovi gladan kao vuk AC_A3XN2 plngea hungry as a wolf gladnih kao vuk gladan kao vuk AC_A3XN2 p2mgea hungry as a wolf gladnih kao vuci gladan kao vuk AC_A3
258. gles d application 144 Transduction 94 Tri 297 298 de concordance 87 157 272 des lignes d une bo te 110 d un dictionnaire 53 Types de graphes 119 U Underscore 106 146 Unicode 28 110 275 311 391 Union d expressions rationnelles 75 82 Unit graphique 221 Unit lexicale 75 302 304 Unitex JNI 267 UTF 8 273 326 327 Variable code s mantique 151 dans un graphe 146 dans un graphe param tr 207 de dictionnaire 139 de sortie 99 149 d entr e 99 106 dictionary entry 151 d unification 229 interrogation 150 morphologique 139 non d finie 106 red finition 106 150 V rification du format d un dictionnaire 52 270 Zoom 110
259. gt lt o cocca dv ae ec ewe been dew 120 6 13 Graphes de normalisation de l automate du texte 121 614 Graphessyntaxigues ae eee RP e doa BESS Hoe Es 122 615 Grimman es ELAG oo kares ee ee ee we 123 616 Grapes PARM MES 2 lt so eka we ee em t med GO eas 123 6 2 Compilation d une grammaire ve he EER SHE REESE YD 123 62 1 Compilaton dun graphe s s s see ee he oH eS 123 6 2 2 Approximation par un transducteur fini lt 6 2 5 exes ee be es 124 O20 Co traintes sur les Sales 2244 os ee eR e taob ts 125 6 24 Intervalle pour le nombre de r p titions 127 62 5 Detection d erreurs occiso DU ae dt et dire 128 6 3 COMOROS dadas a dla due Aube a ee de ane 128 0 3 1 Contextes droits o secs cca ua na ar me sud e ee 129 63 2 COMEM S gauch s lt lt es co eke eee em AAA 131 64 Lemodemorphologique cos ises chee Ke ta be ER ERS EES 137 OAL POUR abs ode ee eee be Oe eee ee S 137 A i cg eer eh eee OOo eee OE Oe EE OEE EBS 137 643 Dictionnaires du mode morphologique 138 644 Variables de dictionnaire 139 63 Exploration des chemins d une grammaire caco dir eut 141 Oe Collecion de NES siens Loos un da a a FP ed babes 142 67 R gles d application des transducteurs ceded a santa tenue 144 6 7 1 Insertion gauche du motif reconnu 6 o oo 144 67 2 Applicaiomen avant lt 5 as 64444 44
260. harg Si l on s lectionne l option Allow concordance edition on ne peut pas cliquer ainsi sur les occurrences mais on peut diter la concordance comme du texte Cela permet entre autres de s y d placer avec un curseur ce qui peut tre pratique si l on travaille sur une concordance avec de grands contextes Analyze this language char by char Enable morphological use of space Semitic language _ Right to left rendering for text Right to left rendering for graphs Text Font Courier 10 Pitch 12 Concordance Font Courier 10 Pitch 10 Html Viewer usribinifirefox Graph configuration FIGURE 4 7 S lection d un navigateur pour l affichage des concordances 89 4 8 RECHERCHE 224 pey yotTym sada sty Jo auo 09 Wotssaadxa 193ISTUTS E STy umop Zem JTEU payoear ATaorzeos yotym NEOTO 3108 E Ya WelTTtm 30 wAtaz ayy 09 qguanbasqns sTdoad sjeiredss E om 934 115 qayoel 242 aye OL Ss 12pPUElURIH US111006 E 343 YITYM PUTH 3293 30 1N3 YTN paorey Med 211806 E mosaq nq ameu uoxes ray Aq sao0h ays SABTS UOXES E AO 343 YATA 38e13u09 e urmao3 moqo p21 318p 418n1 E 09 prnos ay UOTUM aoueUSIUNON STU 1340 PUEMICS Ape31 e uo UMOP 1123 Pue 11 UTYITM moaz 25018 Peq pabuoro1d e J 18 geya paIe20u09 2q02 1addn styl 103 181 N99d E aya JO UOTITQUE ayy UO0TITpadxa yser 13439eqn UT 4318d E Ag auamAolua Jo 139980 samo
261. hat Ma lt N ms gt S 75 76 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES Par d faut Unitex tol re que des mots avec des minuscules reconnaissent des mots crits avec des majuscules Il est possible de forcer le respect de la casse en utilisant les guillemets Ainsi pierre ne reconna t que la forme pierre et non pas Pierre ou PIERRE NOTE si l on souhaite rendre la pr sence d un espace obligatoire il faut le mettre entre guillemets 43 Masques lexicaux Un masque lexical est une requ te qui reconna t une unit lexicale ou une suite d unit s lexicales 4 3 1 Symboles sp ciaux Il y a deux sortes de masques lexicaux La premi re cat gorie regroupe les symboles sp ciaux ou m ta symboles pr sent s dans la section 2 5 2 sauf lt PNC gt et lt gt Le symbole lt PNC gt qui reconna t des signes de ponctuation n est valide que pendant le pr traitement lt gt reconna t un retour ligne mais tous les retours la ligne ayant t remplac s par des espaces ce symbole n a plus aucune utilit lors de la recherche de motifs Les m ta symboles utilisables pour rechercher des motifs dans un texte sont les suivants e lt E gt mot vide ou epsilon Reconnait la s quence vide e lt TOKEN gt reconna t n importe quelle unit lexicale sauf l espace utilis par d faut pour les filtres morphologiques e lt WORD gt reconna t n importe quelle unit lexicale fo
262. he Civil Wars of the Roses 3 and here also flourished in ancient times those ba ent times those bands of gallant outlaws whose deeds have been rendered so popular in English been rendered so popular in English song Such being our chief scene the date of our story lish song 3 Such being our chief scene the date of our story refers to a period towards the owards the end of the reign of Richard I when his return from his long captivity had become a wards the end of the reign of Richard I when his return from his long captivity had become an gt FIGURE 4 2 R sultat de la recherche du m ta lt WORD gt 4 4 Concat nation On peut concat ner des expressions rationnelles de trois facons La premiere consiste utiliser l op rateur de concat nation repr sent par le point Ainsi l expression lt DET gt lt N gt reconna t un d terminant suivi par un nom L espace peut galement servir concat ner L expression de l exemple suivant le lt A gt chat le lt A gt chat reconna t l unit lexicale le suivie d un adjectif et de l unit lexicale chat Les parenth ses servent d limiter une expression rationnelle Toutes les expressions suivantes sont quiv alentes 82 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES le lt A gt chat le lt A gt chat le lt A gt chat le lt A gt chat le lt A gt chat 45 Union L union d expressions rationnelles se
263. he Licensor except as required for rea sonable and customary use in describing the origin of the Work and reproducing the content of the NOTICE file 7 Disclaimer of Warranty Unless required by applicable law or agreed to in writ ing Licensor provides the Work and each Contributor provides its Contributions on an AS IS BASIS WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND either express or implied including without limitation any warranties or condi tions of TITLE NON INFRINGEMENT MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE You are solely responsible for determining the appropri ateness of using or redistributing the Work and assume any risks associated with Your exercise of permissions under this License 364 CHAPITRE 14 FORMATS DE FICHIERS 8 Limitation of Liability In no event and under no legal theory whether in tort in cluding negligence contract or otherwise unless required by applicable law such as deliberate and grossly negligent acts or agreed to in writing shall any Contrib utor be liable to You for damages including any direct indirect special incidental or consequential damages of any character arising as a result of this License or out of the use or inability to use the Work including but not limited to damages for loss of goodwill work stoppage computer failure or malfunction or any and all other commercial damages or losses even if such Contributor has been advised of the possibility of
264. he Source form or documentation if provided along with the Derivative Works or within a display generated by the Derivative Works if and wherever such third party notices normally appear The contents of the NOTICE file are for informational purposes only and do not modify the Li cense You may add Your own attribution notices within Derivative Works that You distribute alongside or as an addendum to the NOTICE text from the Work provided that such additional attribution notices cannot be construed as modifying the License You may add Your own copyright statement to Your modifications and may provide additional or different license terms and conditions for use reproduction or distri bution of Your modifications or for any such Derivative Works as a whole provided Your use reproduction and distribution of the Work otherwise complies with the conditions stated in this License 5 Submission of Contributions Unless You explicitly state otherwise any Contribu tion intentionally submitted for inclusion in the Work by You to the Licensor shall be under the terms and conditions of this License without any additional terms or conditions Notwithstanding the above nothing herein shall supersede or modify the terms of any separate license agreement you may have executed with Licensor regarding such Contributions 6 Trademarks This License does not grant permission to use the trade names trade marks service marks or product names of t
265. hemin complet pour chaque transducteur remar quons que X doit se terminer par un antislash e w DIC morpho DIC indique que DIC est un bin dictionnaire utiliser en mode morphologique Utiliser autant de m XXX qu il y a de bin Vou pouvez galemnt s parer plusieurs bin par des deux points e 1 TRANSDUCERS_LIST transducers_list TRANSDUCERS_LIST fichier contenant la liste des transducteurs avec leur mode d application e s transducer fst2 transducer_file transducer fst2 un trans ducteur a appliquer e m output_policy transducer_policy output_policy le mode d application du transducteur sp cifi e t TXT text TXT le fichier texte avec l extension snt modifier e i in_ place sigifie qu il faut utiliser les m mes r pertoires csc snt pour chaque transducteur e d no_ create _directory signifie que tous les r pertoires snt csc ex istent d ja et n ont pas besoin d tre cr es e g minus negation_operator minus utilise moins comme op ra teur de n gation pour les graphes version Unitex 2 0 e g tilde negation_operator tilde utilise tilde comme op ra teur de n gation par d faut e h help affiche cette aide Cassys applique une liste de grammaires un texte et sauve les s quences recon nues dans un fichier index nomm concord ind stock dans le r pertoire texte Le fichier cible doit tre un fichier snt av
266. hier_version2 En sortie le fichier texte lt fichier_dump gt con tiendra la comparaison des s quences entre les 2 fichiers et v rifiera leur coh rence Ce fichier est destin e une lecture manuelle afin d tudier le contenu du fichier d offset DumpOffsets OPTIONS convert_modified_to_common lt fichier_offset_diff rence gt p lt fichier_offset_zone_commune gt OPTIONS e s N old_size N Contient la taille en caract re de la version d origine du fichiet texte e S N new_size N Contient la taille en caract re de la version d arriv e du fichiet texte Il faut obligatoirement sp cifier une des deux tailles Pour un fichier encod en UTF16BE_BOM c est la taille en octets auquel on retranche 2 pour les 2 octets de signature BOM et que l on divise ensuite par 2 car chaque caract re unicode prend 2 octets En UTF8 la correspondance n est pas imm diate Converti un fichier d offset indiquant les caract res supprim s tel que fournis par les autres outils Unitex en fichier indiquant les plages de caract res identiques 14 13 11 DumpOffsets OPTIONS convert_common_to_ modified lt fichier_ offset _ zone commune gt p lt fichier_ offset _diff rence gt OPTIONS e s N old _size N Contient la taille en caract re de la version d origine du fichier texte 282 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e S N new _size N Contient la taille en caract re de la
267. hrase 7 5 3 Param tres de pr sentation Les automates de phrase sont soumis aux m mes options de pr sentation que les graphes Ils partagent les m mes couleurs et polices de caract res ainsi que l utilisation de l effet d antialiasing Pour configurer l apparence des automates de phrase vous devez modifier la configuration g n rale en cliquant sur Preferences dans le menu Info Pour plus de d tails reportez vous la section 5 3 5 Vous pouvez galement imprimer un automate de phrase en cliquant sur Print dans le menu FSGraph ou en appuyant sur lt Ctrl P gt Assurez vous que le param tre d orienta tion de l imprimante est bien r gl sur le mode paysage Pour r gler ce param tre cliquez sur Page Setup dans le menu FSGraph 192 CHAPITRE 7 AUTOMATE DU TEXTE 7 6 Convertir l automate du texte en texte lin aire Si l automate du texte ne contient plus la moindre ambigu t il est possible de construire un fichier texte correspondant l unique chemin repr sent par cet automate Pour cela allez dans le menu Text et cliquez sur Convert FST Text to Text La fen tre de la figure 7 31 vous permet alors de d finir le fichier texte de sortie F Convert Text Automaton to Text Output text file D iMy UniteEnglishCorpusilinear snt Set Cancel FIGURE 7 31 Choix du fichier de sortie pour la lin arisation de l automate du texte Si l automate n est pas compl
268. hungry as a wolf gladna kao vukovi gladan kao vuk AC_A3XN2 w2ngea hungry as a wolf Hh gladna kao vuk gladan kao vuk AC_A3XN2 w4mgea hungry as a wolf gladna kao vuci gladan kao vuk AC_A3XN2 w4mgea hungry as a wolf gladna kao vukovi gladan kao vuk AC_A3XN2 w4mgea hungry as a wolf gladne kao vuk gladan kao vuk AC_A3XN2 w4fgea hungry as a wolf 11 3 INT GRATION UNITEX 247 gladne gladne gladna gladna gladna kao kao kao kao kao vuci gladan kao vuk AC_A3XN2 w4fgea hungry as a wolf vukovi gladan kao vuk AC_A3XN2 w4fgea hungry as a wolf vuk gladan kao vuk AC_A3XN2 w4ngea hungry as a wolf vuci gladan kao vuk AC_A3XN2 w4ngea hungry as a wolf vukovi gladan kao vuk AC_A3XN2 w4ngea hungry as a wolf zxiro racyun aliizxiro racyun lt 3 Nb n Case c Anim a Gen g gt lt Nb n Case c Anim a Gen g gt FIGURE 11 28 Graphe de flexion NC_2XN1 de mots compos s serbes avio prevoznik 1 avioprevoznik lt 3 Nb n C ase c Anim a Gen gt lt Nb n Case c Anim a Gen g FIGURE 11 29 Graphe de flexion NC_2XN2 de mots compos s serbes predsednik drzxave plural predsednici dizxave i predsednici dizxava lt 1 Nb s Case c Anim a Gen g gt lt Nb s Case c Anim a Gen g gt lt s2 gt lt Nb p Case c Anim a Gen g gt 32 lt Nb w Case c Anim a Gen g gt lt 1 Nb p Case c Anim
269. i chevauche la fin d une nouvelle et le d but de la suivante e une tiquette lexicale aujourd hui ADV e une s quence de lettres contigu s les lettres sont d finies dans le fichier alphabet de la langue e un et un seul caract re diff rrent d une lettre i e tous les caract res non d finis dans le fichier alphabet de la langue courante s il s agit d une newline il est remplac par un espace Pour les autres langues le d coupage est effectu caract re par caract re l exception du d limiteur de phrases S le marqueur STOP et des tiquettes lexicales Ce d coupage basique garantit le fonctionnement d Unitex mais limite l optimisation des op rations de recherche de motifs Quel que soit le mode de d coupage les retours la ligne pr sents dans un texte sont rem plac s par des espaces Ce d coupage est effectu par le programme Tokenize Ce pro gramme produit plusieurs fichiers stock s dans le r pertoire du texte e tokens txt contient la liste des unit s lexicales dans l ordre o elles ont t trouv es dans le texte e text cod contient un tableau d entiers chaque entier correspondant l indice d une unit lexicale dans le fichier tokens txt e tok_by_freq txt contient la liste des unit s lexicales tri e par ordre de fr quence e tok_by_alph txt contient la liste des unit s lexicales tri e par ordre alphab tique e stats n contient quelques s
270. i gladan kao vuk AC_A3XN2 p5ngea hungry as a wolf gladnima kao vuk gladan kao vuk AC_A3XN2 p6mgea hungry as a wolf gladnima kao vuci gladan kao vuk AC_A3XN2 p6mgea hungry as a wolf gladnima kao vukovi gladan kao vuk AC_A3XN2 p6mgea hungry as a wol gladnim kao vuk gladan kao vuk AC_A3XN2 p6mgea hungry as a wolf gladnim kao vuci gladan kao vuk AC_A3XN2 p6mgea hungry as a wolf gladnim kao vukovi gladan kao vuk AC_A3XN2 p6mgea hungry as a wol gladnima kao vuk gladan kao vuk AC_A3XN2 p6fgea hungry as a wolf gladnima kao vuci gladan kao vuk AC_A3XN2 p6fgea hungry as a wolf gladnima kao vukovi gladan kao vuk AC_A3XN2 p6fgea hungry as a wol gladnim kao vuk gladan kao vuk AC_A3XN2 p6fgea hungry as a wolf gladnim kao vuci gladan kao vuk AC_A3XN2 p6fgea hungry as a wolf gladnim kao vukovi gladan kao vuk AC_A3XN2 p6fgea hungry as a wolf gladnima kao vuk gladan kao vuk AC_A3XN2 p6ngea hungry as a wolf gladnima kao vuci gladan kao vuk AC_A3XN2 p6ngea hungry as a wolf gladnima kao vukovi gladan kao vuk AC_A3XN2 p6ngea hungry as a wol gladnim kao vuk gladan kao vuk AC_A3XN2 p6ngea hungry as a wolf gladnim kao vuci gladan kao vuk AC_A3XN2 p6ngea hungry as a wolf gladnim kao vukovi gladan kao vuk AC_A3XN2 p6ngea hungry as a wolf gladnima kao vuk gladan kao vuk AC_A3XN2 p7mgea hungry as a wolf gladnima kao vuci gladan kao vuk AC_A3XN2 p7mgea hungry as a wolf gladnima kao vukovi gladan kao vuk AC_A3XN2 p7mgea hungry as a wol gladnim kao vuk gladan kao
271. i le programme Locate peut commencer en reconnaissant les espaces par d faut c est non 14 112 Fichier system _dic def Le fichier system_dic def est un fichier texte d crivant la liste des diction naires du syst me appliquer par d faut Ce fichier se trouve dans le r pertoire 340 CHAPITRE 14 FORMATS DE FICHIERS de la langue courante Chaque ligne correspond un nom de fichier bin file Les dictionnaires du syst me doivent se trouver dans le r pertoire syst me Unitex l int rieur du sous r pertoire langue courante Dela Voici un exemple de fichier delacf bing delaf bin 14 113 Fichier user_dic def Le fichier user_dic def est un fichier texte d crivant la liste des dictionnaires de l utilisateur appliquer par d faut Ce fichier se trouve dans le r pertoire de la langue courante et a le m me format que le fichier system _dic def Les diction naires de l utilisateur doivent se trouver dans le sous r pertoire langue courante du r pertoire personnel de travail 14 114 Fichiers nom d utilisateur cfg et unitex cfg Sous Linux et Mac OS Unitex consid re que le r pertoire personnel de travail se nomme unitex et qu il se trouve dans le r pertoire racine de l utilisateur HOME Si vous voulez changer cet emplacement par d faut un fichier unitex cfg est cr dans votre r pertoire racine et il contient le chemin vers votre r pertoire de travail Unitex Ce fichier est un fichier UT
272. i n est effectu e qu une fois avant plusieurs recherches de codes s mantiques Si on v rifie le code grammati cal et un code s mantique par un m me masque lexical ces masques deviennent plus nombreux dans l ensemble de la grammaire et ils provoquent plus de consultations des dictionnaires 6 10 APPLICATION DES GRAPHES AUX TEXTES 153 Dans le cadre intitul Locate pattern in the form of choisissez Graph et s lectionnez votre graphe en cliquant sur le bouton Set Vous pouvez choisir un graphe au format grf Uni code Graphs ou un graphe compil au format st2 format Unicode Compiled Graphs Si votre graphe est au format grf Unitex le compilera automatiquement avant de lancer la recherche Si vous cliquez sur Activate debug mode la concordance sera affich e dans une fen tre dans laquelle vous trouverez l automate et pour chaque s quence reconnue la liste des tats du chemin qui la reconna t Cette fen tre est d crite en d tails la section 6 10 7 Le cadre Index permet de s lectionner le mode de reconnaissance e Shortest matches donne la priorit aux s quences les plus courtes e Longest matches donne la priorit aux s quences les plus longues C est le mode utilis par d faut e All matches donne toutes les s quences reconnues Le cadre Search limitation permet de limiter ou non la recherche un certain nombre d occurrences Par d faut la recherche est limit e aux 200 pre
273. iante de casse les lettres minuscules restent minuscules idem pour les majuscules En outre la liaison de deux bo tes est strictement quivalente la concat nation de leurs contenus munie de la concat nation de leurs sorties voir figure 6 2 FIGURE 6 2 Deux chemins quivalents dans une grammaire de flexion Les graphes de flexion doivent tre compil s avant de pouvoir tre utilis s par le pro gramme de flexion Pour plus de d tails voir section 3 5 6 1 2 Graphes de pr traitement Les graphes de pr traitement sont destin s tre appliqu s aux textes avant que ceux ci soient d coup s en unit s lexicales Ces graphes peuvent tre utilis s pour ins rer ou remplacer des s quences dans les textes Les deux utilisations usuelles de ces graphes sont la normalisation de formes non ambigu s et le d coupage en phrases L interpr tation de ces graphes dans Unitex est tr s proche de celle des graphes syntaxiques utilis s pour la recherche de motifs Les diff rences sont les suivantes e on peut utiliser le symbole sp cial lt gt qui reconna t un retour la ligne e si l on travaille en mode caract re par caract re il est possible d utiliser le symbole sp cial lt L gt qui reconna t une lettre telle que d finie dans le fichier alphabet e il est impossible de faire r f rence aux dictionnaires 6 1 LES TYPES DE GRAPHES 121 e il est impossible d utiliser les filtres morphologiques
274. iers l adresse suivante http igm univ mlv fr unitex dans un r per toire dossier Unitex3 1beta que vous aurez pr alablement cr de pr f rence dans le r pertoire Program Files et qui sera appel dans ce manuel le r pertoire syst me Unitex Apr s la d compression le r pertoire Unitex3 1beta le r pertoire syst me Unitex con tient plusieurs sous r pertoires dont un nomm App Ce dernier r pertoire contient un fichier nomm Unitex jar Ce fichier est l ex cutable Java qui lance l interface graphique Il vous suffit de double cliquer dessus pour lancer le programme Pour faciliter le lancement du programme il est conseill de cr er un raccourci vers ce fichier sur le bureau 1 4 Installation sous Linux Pour installer Unitex sous Linux et MacOS il est recommand d tre administrateur sys t me D compressez le fichier Unitex3 1beta zip dans un r pertoire nomm Unitex au moyen de la commande suivante 1 5 INSTALLATION SOUS MACOS X 21 unzip Unitex3 lbeta zip d Unitex Ce r pertoire sera appel dans ce manuel le r pertoire syst me Unitex Placez vous ensuite dans le r pertoire Unitex Src C build et lancez la compilation des programmes au moyen de la commande make install ou si avez un ordinateur 64 bits avec la commande make install 64BITS yes Cr ez ensuite un alias sur le mod le suivant alias unitex cd Unitex App java jar Unitex jar 15 Installation
275. iers sont stock s dans le r pertoire du texte 294 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES 13 29 MultiFlex MultiFlex OPTIONS lt dela gt Ce programme effectue la flexion automatique d un dictionnaire DELA contenant des formes canoniques 3 1 2 de mots simples ou compos s see chapter 11 OPTIONS e o DELAF output DELAF fichier DELAF de sortie e a ALPH alphabet ALPH fichier alphabet e d DIR directory DIR le r pertoire contenant les fichiers Morphology et Equivalences et des graphes de flexion pour mots simples ou compos s e K korean indique MultiF lex qu il travaille sur du cor en e s only simple words le programme tiendra compte des mots com pos s comme des erreurs e c only compound words le programme tiendra compte des mots sim ples comme des erreurs e p DIR pkgdir DIR indique le r pertoire des graphes e rXXX named_repositories XXX d claration des d p ts nomm s XXX est form e d une s quence ou plus X Y s par s par o X est le nom de d p t d sign par le chemin Y Vous pouvez utiliser cette option plusieurs reprises Remarquons que les transducteurs de flexion fst2 sont automatiquement con struits partir des fichiers grf correspondants en cas d absence ou de fichiers grf plus anciens 13 30 Normalize Normalize OPTIONS lt text gt Ce programme effectue une normalis
276. ifie les d limiteurs gauche L et droit R qui entoureront les items Par d faut ces d limiteurs sont nuls e s0 Str si l on tient compte des sorties de la grammaire ce param tre sp cifie la s quence St r qui s parera une entr e de sa sortie Par d faut il n y a pas de s parateur e f a s sil on tient compte des sorties de la grammaire ce param tre sp cifie le format des lignes g n r es in0 inl out0 outl s ouin0 out0 inl outl a La valeur par d faut est s e ss stop d finit str comme la marque d arr t l exploitation lt stop gt La valeur par d faut est null 286 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e v ce param tre produit l affichage de messages d informations mode ver bose e m mode sp cial pour description avec alphabet e rx L R ce param tre sp cifie comment les cycles doivent tre pr sen t s L et R d signent des d limiteurs Si l on consid re le graphe de la figure 13 4 voici les r sultats que l on obtient si l on pose L et R x il fait tr s tres x il fait tr s beau ara Qu frees FIGURE 13 4 Graphe avec un cycle 13 22 Fst2Txt Ce Fst2Txt OPTIONS lt fst2 gt programme applique un transducteur un texte en phase de pr traitement quand le texte n est pas encore d coup en unit s lexicales OPTIONS e t TXT text TXT le fichier texte modifier avec l extension snt
277. il n y aura pas de match S il r ussit c est dire s il peut atteindre la fin du contexte le programme reviendra la position pos dans le texte et continuera l exploration de la grammaire partir de la fin du contexte Les poids section 5 2 4 dans les contextes droits sont ignor s On peut galement d finir des contextes droits n gatifs en utilisant comme d but de contexte La figure 6 14 montre un graphe reconnaissant des nombres qui ne sont pas suivis par th La diff rence avec les contextes positifs est que lorsque Locate essaie de recon na tre l expression d crite dans le contexte le fait d atteindre la fin du contexte est consid r comme un chec car cela signifie que l on a reconnu une s quence interdite l inverse si la fin de contexte ne peut tre atteinte le programme Locate reviendra la position pos dans le texte et continuera l exploration de la grammaire partir de la fin du contexte Les contextes peuvent tre plac s n importe o dans le graphe y compris au d but La fig ure 6 15 montre ainsi un graphe qui reconna t un adjectif dans le contexte de quelque chose 130 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES I FIGURE 6 14 Utilisation d un contexte n gatif le O FIGURE 6 15 Recherche d un adjectif non ambigu avec un participe pass qui n est pas un participe pass Autrement dit ce graphe reconna t tous les adjectifs qui ne sont pas ambigus avec des partic
278. il travaille sur du cor en u X arabic_rules x d signe le fichier de configuration des r gles ty pographiques de l arabe g X negation_operator X sp cifie l op rateur de n gation utiliser dans les masques lexicaux Les deux valeurs possibles de X sont moins et tilde par d faut Utiliser moins offre une compatibilit descendante avec les versions pr c dentes de Unitex Options de limite de recherche e 1 all recherche toutes les s quences reconnues par d faut n N number_of_matches N stoppe apr s les premiers N matches Options du nombre d it rations maximum par token e o N stop_token_count N stoppe apr s N it rations sur un token e o N M stop_token_count N M met un warning apr s N it rations sur un token et s arr te apr s it rations M Options du mode de reconnaissance 13 27 LOCATE 291 e S shortest matches e L longest_matches par d faut e A a11 matches Options de sortie e 1 ignore ignore les sorties du transducteur par d faut e M merge ajoute les sorties du transducteur avec les s quences reconnues e R replace remplace les s quences reconnues par les sorties correspon dantes du transducteur e p protect_dic_chars quand le mode Mou R est utilis p protege certains caract res de l entr e avec un antislash Ceci est utile quand Locate est appel e par Dico afin d viter la production de
279. imples et 50 pour ceux de mots compos s REMARQUE pour les langues s mitiques un algorithme de compression particulier est utilis afin de r duire la taille des fichiers bin et inf Le fait qu une langue soit consid r e comme s mitique peut tre configur dans les pr f rences globales 3 7 Application de dictionnaires Unitex peut manipuler soit des dictionnaires compress s bin soit des graphes dictionnaires st 2 Ces dictionnaires peuvent tre appliqu s soit lors du pr traitement soit explicite ment en cliquant sur Apply Lexical Resources dans le menu Text Nous allons main tenant d tailler les r gles de l application des dictionnaires Le cas des graphes dictionnaires sera abord dans la section 3 7 3 3 7 1 Priorit s La r gle de priorit est la suivante si un mot du texte a t trouv dans un dictionnaire ce mot ne sera plus pris en compte lors de l application de dictionnaires ayant une priorit inf rieure Cela permet d liminer certaines ambiguit s lors de l application des dictionnaires Par ex emple le mot par a une interpr tation nominale dans le domaine du golf Si l on ne veut 3 7 APPLICATION DE DICTIONNAIRES 67 pas envisager cet emploi il suffit de cr er un dictionnnaire filtre ne contenant que l entr e par PREP et de le sauver en lui donnant la priorit la plus haute De cette mani re m me si le dictionnaire des mots simples contient l autre entr
280. ine understanding thou mightst know Clericus clericum non decimat 5 that is thine understanding thou mightst know Clericus clericum non decimat 5 that is to say we ch derstanding thou mightst know Clericus clericum non decimat 5 that is to say we churchmen d thou mightst know Clericus clericum non decimat 5 that is to say we churchmen do not exhaust ointed servants It is true replied Wamba that I being but an ass am nevertheless hon o How call d you your Franklin Prior Aymer Cedric answered the Prior 3 Cedric the Sa all d you your Franklin Prior Aymer Cedric answered the Prior 5 Cedric the Saxon T mer Cedric answered the Prior 5 Cedric the Saxon Tell me good fellow are we near road will be uneasy to find answered Gurth who broke silence for the first time and the f e A CO P 2 AS 2 ee n P e e D FIGURE 4 1 R sultat de la recherche du m ta lt DIC gt La n gation d un masque lexical comme lt V G gt reconna t tous les mots sauf ceux qui peu vent tre reconnus par ce masque Ainsi le masque lt V G gt ne reconnaitra pas la forme anglaise being m me s il existe dans les dictionnaires du texte des entr es non verbales pour ce mot being A being N Abst s being N Hum s Voici plusieurs exemples de motifs m langeant les diff rentes sortes de contraintes e lt A Hum fs gt adjectif non humain au f minin singulier
281. ines langues asiatiques et l ouver ture gr ce une distribution en logiciel libre Ses caract ristiques linguistiques sont celles qui ont motiv l laboration des ressources la pr cision l exhaustivit et la prise en compte 13 14 TABLE DES MATI RES des ph nom nes de figement notamment en ce qui concerne le recensement des mots com pos s Quoi de neuf depuis la version 3 0 Voici les principales nouvelles fonctionnalit s Moteur plus rapide qui utilise moins de pile Version am lior e de CasSys nouveaux fichiers csc ouverture de cascade possible aussi avec le menu FSGraph suppression du r pertoire Share application de graphe jusqu au point fixe graphes g n riques red normalisation du dernier fichier chapitre 12 Introduction du malgache Publication de main_UnitexTool_c comme API publique Version am lior e de l diteur de graphes s lection et dition des boites ouverture sauvegarde exportation comme image 5 2 5 4 Les commandes non applicables des menus sont maintenant gris es Introduction de l op rateur lt n LEMMA gt pour la flexion en mode s mitique non en core document Introduction d une liste de graphes et corpus r cemment ouverts Introduction d une liste de fen tres ouvertes Compatibilit am lior e avec Ruby Introduction de InstallLingResourcePackage un outil qui installe un paquetage de ressources et de scripts dans un environnement cible
282. ion de tous ces automates correspondrait l automate de tout le texte On utilise donc le terme automate du texte m me si l on ne manipule pas r ellement cet objet pour des raisons pratiques 163 164 CHAPITRE 7 AUTOMATE DU TEXTE 2335 sentences Here haunted of yore the fabulous Dragon of E antley Ea Sentence Reset Sentence Graph Rebuild FST Text Elag Frame N NPN z1 p FIGURE 7 2 Concurrence entre un mot compos et une combinaison de mots simples 7 2 CONSTRUCTION 165 7 2 Construction Pour construire l automate d un texte vous devez ouvrir ce texte puis cliquer dans le menu Text sur Construct FST Text Il est recommand d avoir d coup le texte en phrases et de lui avoir appliqu les dictionnaires Si vous n avez pas d coup le texte en phrases le programme de construction d coupera arbitrairement le texte en s quences de 2000 unit s lexicales au lieu de construire un automate par phrase Si vous n avez pas ap pliqu les dictionnaires les automates de phrase que vous obtiendrez ne seront constitu s que d un seul chemin ne comportant que des mots inconnus 7 2 1 R gles de construction de l automate du texte Les automates de phrase sont construits partir des dictionnaires du texte Le degr d ambiguit obtenu est donc directement li la finesse de description des dictionnaires utilis s Sur l automate de phrase de la figure 7 3 on peut voir que le mot which
283. ipes pass s Dans les graphes tels que celui de la figure 6 15 le contexte droit n gatif ne v rifie pas n cessairement le m me nombre de tokens que la boite qui le suit Par exemple avant que le graphe de la figure 6 16 ne reconnaisse too le contexte droit n gatif v rifie s il apparait dans une expression telle que too early ou too many FIGURE 6 16 Un contexte qui ne v rifie pas le m me nombre de mots que la boite qui le suit On peut formuler des requ tes complexes avec les contextes droits n gatifs Ainsi la figure 6 17 montre un graphe qui reconna t toutes les s quences de deux noms simples qui ne sont pas ambigu s avec des mots compos s En effet le motif lt CDIC gt lt lt gt gt reconna t un mot compos contenant exactement un espace et le motif lt N gt lt lt gt gt reconna t un nom sans espace c est dire un nom simple Ainsi dans la phrase Black cats should like the town hall ce graphe reconna tra Black cats mais pas town hall qui est un mot compos Il est possible d imbriquer des contextes Par exemple le graphe de la figure 6 18 reconna t un nombre qui n est pas suivi par un point sauf si ce point est suivi par un nombre Ainsi dans le texte 5 0 7 12 ce graphe reconnaitra 5 0 et 12 Les sorties qui se trouvent dans des bo tes l int rieur d un contexte sont ignor es En re vanche il est possible d utiliser une variable qui a t d finie dans u
284. ire en l occurrence le symbole S sont ins r es dans le texte Ce programme prend en entr e un fichier snt et le modifie 2 5 3 Normalisation de formes non ambigu s Certaines formes pr sentes dans les textes peuvent tre normalis es par exemple la s quence fran aise l on est quivalente la forme on Chaque utilisateur peut donc vouloir effectuer des remplacements en fonction de ses besoins Toutefois il faut faire at tention ce que les formes normalis es soient non ambigu s ou ce que la disparition de l ambigu t soit sans cons quence pour l application recherch e Si l on d cide de remplacer la forme audit par le dit la phrase La cour a proc d un audit des comptes de cette soci t sera remplac e par la phrase incorrecte La cour a proc d un le dit des comptes de cette soci t Il faut donc tre tr s prudent lorsque l on manipule la grammaire de normalisation Il faut galement faire attention aux espaces En effet si l on remplace c par ce non suivi par un espace la phrase Est ce que c tait toi sera remplac e par la s quence incorrecte Est ce que ce tait toi Les symboles accept s par les grammaires de normalisation sont les m mes que ceux au toris s dans les grammaires de d coupage en phrases La grammaire utilis e se nomme Replace fst2 et se trouve dans le r pertoire suivant r pertoire personnel langue Graphs P
285. is 7 3 LEV E D AMBIGUI T S LEXICALES AVEC ELAG 179 NAME french POS ADV POS PRO flex pers 12 33 genre f nombre s p diser subcat complete Pind lt genre gt lt nom Pdem lt genre gt lt nom Ppossis lt genre gt lt nom Ppossip lt genre gt lt nom Pposs2s lt genre gt lt nom Pposs2p lt genre gt lt nom Pposs3s lt genre gt lt nom Pposs3p lt genre gt lt nom PpvIL lt genre gt lt nom PpvLE lt genre gt lt nom PpvLUI lt genre gt lt nom Ton lt genre gt lt nom PpvPR PronQ Dnom POS A adjectifs flex genre mf nombre s p cat gauche g droite d complete Pind Pdem PpvIL PpvLUI PpvLE Ton PpvPR PronQ Dnom Ppossls lt genre gt lt nombre gt bre gt bre gt bre gt bre gt bre gt bre gt bre gt bre gt bre gt bre gt bre gt bre gt lt pers gt lt pers gt lt pers gt lt pers gt pour de bonne humeur A lui elle moi en y ou qui que quoi rien Sse de de e H au bord des larmes A par exemple 180 CHAPITRE 7 AUTOMATE DU TEXTE POS V flex temps pers genre nombre JKPSTVWYGX I 3 I 03Ra F 2 f P complete 2 RKKXH0O0O UGQGQhHrdo O Ss lt pers gt lt nombre gt lt pers gt lt nombre gt lt pers gt lt nombre gt lt pers gt lt nombre gt lt pers gt lt nombre gt lt pers gt lt nombre gt lt pers gt lt nombre gt s eusse du
286. iss and J Pa jzs editors Papers in Computational Lexicography COMPLEX pages 257 265 Budapest Research Institute for Linguistics Hungarian Academy of Sciences 1996 9 1 93 Simoneta VIETRI On the study of idioms in italian In Sintassi e morfolog a della lingua italiana Congresso internazionale della Societ di Linguistica Italiana Roma Bulzoni 1984 3 8 94 Du ko VITAS Svetla KOEVA Cvetana KRSTEV and Ivan OBRADOVIC Tour du monde through the dictionaries In Matthieu Constant Takuya Nakamura Michele De Gioia and Sara Vecchiato editors 27th International Conference on Lexis and Grammar LGC 08 pages 249 256 September 2008 10 382 BIBLIOGRAPHIE Index 46 67 75 82 96 78 35 76 79 122 138 x 82 131 46 47 106 1 20 46 57 81 67 46 46 104 1 50 2 50 3 80 46 99 lt 137 lt gt 35 120 lt CDIC gt 76 138 lt DIC gt 76 80 138 lt E gt 39 76 79 82 95 120 122 lt FIRST gt 35 76 80 138 lt I gt 57 lt L gt 120 lt LETTER gt 138 lt LOWER gt 35 76 80 138 lt MAJ gt 35 76 80 138 lt MIN gt 35 76 80 138 lt MOT gt 35 76 138 lt NB gt 35 76 79 138 lt PNC gt 35 lt PRE gt 35 76 80 lt R gt 57 lt SDIC gt 76 138 lt TDIC gt 76 lt TOKEN gt 138 193 lt UPPER gt 35 76 80 138 lt WORD gt 35 76 lt X n gt 57 47 gt EVA as 207
287. iste les dictionnaires du mode morphologique si la pr sence de dictionnaires fst2 rend cette infor mation n cessaire DICS repr sente une liste de fichiers bin avec leur nom complet s par s par des points virgules e K korean indique Dico qu il travaille sur du cor en 278 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e s semitic indique Dico qu il travaille sur une langue s mitique n ces saire si Dico doit compresser un dictionnaire e u X arabic_rules X d signe le fichier de configuration des r gles ty pographiques de l arabe er X raw X indique que Dico devrait simplement produire un fichier de sortie X contenant les mots simples et compos s sans exiger un r pertoire texte Si X est omis les r sultats sont affich s sur la sortie standard lt dic_i gt repr sente le chemin d acc s complet un dictionnaire Le dictionnaire doit tre soit un dictionnaire compress au format bin obtenu avec le programme Compress soit un graphe dictionnaire au format fst2 voir section 3 7 page 66 Il est possible de donner des priorit s aux dictionnaires Pour les d tails voir section LA Le programme Dico produit les fichiers suivants et les sauve dans le r pertoire du texte e dif dictionnaire des mots simples du texte e dic dictionnaire des mots compos s du texte e err liste des mots inconnus du texte e tags_err mots simples inconnus qui ne so
288. ith two ass s ears Det tw0 and which was place ber with a grave pace followed by four attendants Det four bearing in a table FIGURE 6 27 R sultats de l application de la grammaire de la figure 6 26 M FIGURE 6 28 Une grammaire avec des contextes gauche et droit les r sultats Par exemple la grammaire de la figure 6 28 cherche des expressions comme the animal s mais extrait seulement les noms comme on peut le voir figure 6 29 Les poids section 5 2 4 fonctionnent normalement dans les contextes gauches 136 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES Concordance D My UnitexEnglish Corpusianhoe_snticoncord html said Athelstane upon whose memory the Abbot s good ale for Burton was ala mounted some by the dexterity of their adversary s lance some by the s The javelin inflicted a wound upon the animal s shoulder and narrowly mis the Templar aimed at the centre of his antagonist s shield and struck it r is not yet very far spent let the archer s shoot a few rounds at the he back of which was decorated with two ass s ears and which was placed taking their directions more from the Baron s eye and his hand than his FIGURE 6 29 R sultats de l application de la grammaire de la figure 6 28 6 4 LE MODE MORPHOLOGIQUE 137 6 4 Le mode morphologique 6 4 1 Pourquoi Comme Unitex fonctionne sur une version tokenis e du texte il n est pas possible de faire des requ tes qui
289. itiques Les langues s mitiques comme l arabe ou l h breu ne se fl chissent pas de la m me mani re que d autres types de langues Leur morphologie ob it une logique diff rente Dans ces langues les mots se fl chissent selon un squelette consonantique Le processus de flexion combine ce squelette avec des voyelles Tout d abord voyons un cas o on ne code que les consonnes dans le champ lemme de l entr e DELAS ktb V31 123 Le signe avant le code grammatical indique que la grammaire de flexion est en mode s mitique et la forme ktb qui figure dans le champ lemme est le squelette consonantique 64 CHAPITRE 3 DICTIONNAIRES La figure 3 15 montre une grammaire jouet V31 123 grf qui illustre comment le mode s mitique fonctionne yakotubu h yalo2u3 lu al 3ms active Imperfect 3rd masc sing FIGURE 3 15 Une grammaire de flexion jouet en mode s mitique Le mode s mitique ob it aux r gles suivantes 1 Tous les op rateurs standards de flexion peuvent tre utilis s L R etc 2 Un chiffre repr sente une lettre du champ lemme 1 pour la premi re 2 pour la sec onde etc Dans notre exemple 1 2 et 3 repr sentent respectivement k t et b Si on veut d signer une lettre apr s la neuvi me on doit prot ger son num ro avec des chevrons lt 10 gt Le DELAF produit par cette grammaire est yakotubu ktb V al3ms Si on ne code que les consonnes dans le champ lemme et que deux entr es
290. jokers ne seront ajout es ce graphe de telles s quences peuvent tre produites par des suppressions ou des remplacements sur des s quences courtes 8 3 RECHERCHE PAR APPROXIMATION 203 e pas d insertion de jokers au d but ou la fin d une s quence e chaque token d une s quence y compris le premier et le dernier peuvent tre remplac s par un joker Les graphes produits en utilisant des jokers contiennent de nombreuses s quences erron es et doivent tre confront es avec le corpus au moyen de Locate pour ne garder que les s quences pertinentes Ces s quences peuvent tre utilis es pour produire un nouveau graphe que vous voudrez peut tre garder Le graphe de la figure 8 8 a t produit avec remplacement de 1 token et avec l option beautifying activ e cf figure 8 2 a month lt TOKEN gt XH soon as possible the H next few days Tomorro this week lt TOKEN gt twice a lt TOKEN gt as lt TOKEN gt soon as lt TOKEN gt lt TOKEN gt lt TOKEN gt the lt TOKEN gt next few FIGURE 8 8 Automate avec un remplacement permis 204 CHAPITRE 8 AUTOMATE DE S QUENCES Chapitre 9 Lexique grammaire Les tables de lexique grammaire sont un moyen compact de repr senter les propri t s syntaxiques des l ments d une langue Il est possible de construire automatiquement des grammaires locales partir de ces tables
291. k AC_A3XN2 p3ngea hungry as a wol gladnim kao vuk gladan kao vuk AC_A3XN2 p3ngea hungry as a wolf gladnim kao vuci gladan kao vuk AC_A3XN2 p3ngea hungry as a wolf gladnim kao vukovi gladan kao vuk AC_A3XN2 p3ngea hungry as a wol gladne kao vuk gladan kao vuk AC_A3XN2 p4mgea hungry as a wolf gladne kao vuci gladan kao vuk AC_A3XN2 p4mgea hungry as a wolf gladne kao vukovi gladan kao vuk AC_A3XN2 p4mgea hungry as a wolf gladne kao vuk gladan kao vuk AC_A3XN2 p4fgea hungry as a wolf gladne kao vuci gladan kao vuk AC_A3XN2 p4fgea hungry as a wolf gladne kao vukovi gladan kao vuk AC_A3XN2 p4fgea hungry as a wolf gladna kao vuk gladan kao vuk AC_A3XN2 p4ngea hungry as a wolf gladna kao vuci gladan kao vuk AC_A3XN2 p4ngea hungry as a wolf gladna kao vukovi gladan kao vuk AC_A3XN2 p4ngea hungry as a wolf gladni kao vuk gladan kao vuk AC_A3XN2 p5mgea hungry as a wolf gladni kao vuci gladan kao vuk AC_A3XN2 p5mgea hungry as a wolf gladni kao vukovi gladan kao vuk AC_A3XN2 p5mgea hungry as a wolf 246 CHAPITRE 11 FLEXION DES MOTS COMPOS S gladne kao vuk gladan kao vuk AC_A3XN2 p5fgea hungry as a wolf gladne kao vuci gladan kao vuk AC_A3XN2 p5fgea hungry as a wolf gladne kao vukovi gladan kao vuk AC_A3XN2 p5fgea hungry as a wolf gladna kao vuk gladan kao vuk AC_A3XN2 p5ngea hungry as a wolf gladna kao vuci gladan kao vuk AC_A3XN2 p5ngea hungry as a wolf gladna kao vukov
292. l tat initial 330 CHAPITRE 14 FORMATS DE FICHIERS 14 8 2 Fichier inf Un fichier inf est un fichier texte d crivant les formes comprim es associ es un fichier bin Voici un exemple de fichier inf file 00000000064 _10 0 0 7 N4 PREPY _3 PREPY PREP _3 PREPY 1 1 N Hum mpY 3er 1 N AN Hum fsY La premiere ligne du fichier indique le nombre de formes comprim es qu il contient Chaque ligne peut contenir une ou plusieurs formes comprim es S il y a plusieurs formes celles ci doivent tre s par es par des virgules Chaque forme comprim e est form e d une s quence permettant de retrouver une forme canonique partir d une forme fl chie suivie par la s quence de codes grammaticaux s mantiques et flexionnels associ s l entr e Le mode de compression de la forme canonique varie en fonction de la forme fl chie Si les deux formes sont exactement identiques la forme comprim e se r sume aux informations grammaticales s mantiques et flexionnelles comme c est le cas dans la ligne suivante N Hum ms Si les formes sont diff rentes le programme de compression d coupe les deux formes en unit s Ces unit s peuvent tre soit un espace soit un tiret soit une s quence de caract res ne contenant ni espace ni tiret Ce mode de d coupage permet de prendre efficacement en compte les flexions des mots compos s Si les formes fl chies et canonique ne comportent pas le m me nombre d unit s le progr
293. l chargeables Ce type de description a aussi t utilis pour les adjectifs 69 les noms pr dicatifs 34 35 33 40 83 adverbes 46 71 ou les expressions fig es dans de nombreuses langues 14 26 27 75 76 80 90 91 92 84 81 47 La figure 9 1 montre un exemple de table de lexique grammaire Cette table concerne les verbes admettant un compl ment num rique 205 206 CHAPITRE 9 LEXIQUE GRAMMAIRE lolx Fichier diter Afficher Ins rer Format Outils Donn es Fen tre Aide acia RSR Ve IR BB 16 09 1ANHIOYIMOBEQIO Y dy arial 10 Gus Hell i e e Eg CID E 1 lt OPT gt Exemple avoir le fait que P Dnum Nmes INO V Dnum V n Aux 1 1 Ce salon accepte vingt personnes Ce salon accueille vingt personnes Max accuse 80 kilos Max accuse ses trente ans On admet 50 personnes dans cette salle Ces cristawgaffectentgune forme g om trique Les valeurs ont affich un repli La plante aime l eau Cette maison approche les deux millions Ce terrain arpente 30 arpents Ma atteint 80 kilos Max a une soeur une voiture des sous Ce sac avoisine les 20 kg La montre bat les secondes Son calme cache son une grandejangoisse Ce bateau cale 80 cm y Mx gt A accepter accueillir accuser accuser admettre affecter afficher aimer approcher arpente
294. la cascade Ceci peut tre utile pour des tests le d bugage ou la v rification de diff rents r sultats de la cascade Il est alors possible de corriger les erreurs selon l ordre d application des graphes ou de trouver des erreurs dans leur criture Il est pratique d ajouter dans la sortie d un transducteur le nom de ce dernier afin de voir dans le r sultat final quel motif a t reconnu par quel graphe Si l on applique une cascade au texte exemple txt deux r pertoires sont cr s exemple_snt et exemple_csc Les fichiers cr s dans exemple_csc sont les r sultats obtenus par chaque graphe Ces fichiers sont intitul s selon le num ro du graphe qui les a produit Par exemple si le troisi me graphe reconna t un motif les r sultats de l application de ce graphe seront stock s dans le r pertoire exemple_3 _0_snt le fichier exemple _3_0 snt contiendra le texte modifi 12 4 LES R SULTATS D UNE CASCADE 263 12 43 Un texte au format de type XML pour les tiquettes lexicales En sortie le r sultat est fourni sous deux formes le texte r sultant directe ment de l application des transducteurs et un format de type XML dans lequel les tiquettes lexicales ont t transform es en XML Ce changement est fait dans le but de proposer un texte plus manipulable l utilisateur final A partir de ce format il est possible d utiliser l un des nombreux outils de traitement du XML Il est galement facile d appliquer des
295. la liste Par d faut ces contextes sont vides Si l on applique les contextes lt et V gt la liste suivante eat sleep drink play read on obtient la boite de la figure 5 24 108 CHAPITRE 5 GRAMMAIRES LOCALES lt eat V gt lt sleep V gt lt drink V gt O lt play V gt lt read V gt FIGURE 5 24 Bo te obtenue par copie d une liste avec ajout de contextes 5 2 7 Symboles sp ciaux L diteur de graphes d Unitex interpr te de fa on particuli re les symboles suivants T ae ET NX Le tableau 5 1 r sume la signification pour Unitex de ces symboles ainsi que la ou les fa ons de reconna tre ces caract res dans des textes Caract re Signification Codage les guillemets d limitent des s quences qui ne ym doivent ni tre interpr t es par Unitex ni subir de variantes de casse s pare les diff rentes lignes bo tes mam sert introduire appel un sous graphe we Or indique le d but de la sortie d une bo te Ne lt lt indique le d but d un motif ou d un m ta lt or lt gt gt indique la fin d un motif ou d un m ta gt or gt sert interdire la pr sence de l espace ia ae sert d sp cialiser la plupart des caract res sp ci NN aux TABLE 5 1 Codage des symboles sp ciaux dans l diteur de graphes 5 2 8 Commandes de la barre d ic nes La barre d ic nes pr sente au dessus des
296. la zone stocker dans une variable d entr e soit on utilise le bouton avec les parenth ses rouges dans la barre d ic nes au dessus du graphe section 5 2 8 soit on cr e deux boites l une contenant le nom de la variable encadr par les car act res et pour le d but de la zone et l autre par et pour la fin Pour utiliser une variable dans une sortie on fait pr c der et suivre son nom du caract re voir figure 6 44 Les variables sont globales Cela signifie qu on peut d finir une variable dans un graphe et l appeler dans un autre comme l illustrent les graphes de la figure 6 44 Si on applique le graphe Tit leName en mode MERGE au texte Ivanhoe on obtient la concordance de la figure 6 45 Les sorties a variables peuvent tre utilis es pour d placer des groupes de mots En effet l application d un transducteur en mode REPLACE n crit dans le texte que les s quences produites par des sorties Pour intervertir deux groupes de mots il suffit donc de les stocker dans des variables et de produire une sortie avec ces variables dans l ordre souhait Ainsi le transducteur de la figure 6 46 appliqu en mode REPLACE au texte Ivanhoe donne la concordance de la figure 6 47 6 7 R GLES D APPLICATION DES TRANSDUCTEURS 147 TitleName grf XBOULOTiRecherchelmanuelunitexrresourcesigrf n 7 FIGURE 6 44 D finition d une variable d entr e dans un sous gr
297. les sont compos s soit d une s quence de 2 ou 3 tags pour calculer la probabilit de transition ou d un mot pr c d par 0 ou 1 tag pour calculer la probabilit mise Les unit s dans un tuple doivent tre s par es par une tabulation Ces tuples sont suivis par la s quence de d limiteurs et ensuite un nombre entier repr sentant le nombre d occurrences de ce tuple dans le corpus Les noms de fichiers sont suffix s par cat ou morph Dans la premier les tuples sont compos s tags de codes grammaticaux syntaxiques et s mantiques Dans le second les tuples sont compos s de tags de codes grammaticaux syntaxiques et s mantiques parfois suivis par un et des codes flexionnels Voici un exemple d un fichier de donn es avec des tags de type cat the 96309 those 2364 eyes 324 DET Ddef the 96304 DET Ddem those 1404 PRO Pdem those 964 N eyes 324 DET N 625418 N p 14 11 FICHIER DE CONFIGURATION 337 PREP DET N 258374 1 Voici un exemple d un fichier de donn es avec des tags de type morph the 96309 those 2364 eyes 324 DET Ddef s the 44374 DET Ddef p the 51934 DET Ddem p those 1409 PRO Pdem p those 969 N p eyes 324 DET s N s 184894 PREP DET s Nis 269774 1 Une ligne sp cifique est ajout e des fichiers de donn es afin de d terminer si le fichier contient des tags de type cat ou morph Cette ligne contient CODE FEATURES
298. lice normale x doit tre un espace De la m me mani re y vaut I si la police doit tre en italique un espace sinon z repr sente la taille de la police e OFONT name xyz d finit la police utilis e pour afficher les transductions Les param tres name x y et z sont d finis de la m me mani re que pour FONT BCOLOR x d finit la couleur de l arri re plan du graphe x repr sente la couleur au format RGB FCOLOR x d finit la couleur de dessin du graphe x repr sente la couleur au format RGB e ACOLOR x d finit la couleur utilis e pour dessiner les lignes des bo tes qui correspondent des appels des sous graphes x repr sente la couleur au for mat RGB e SCOLOR x d finit la couleur utilis e pour crire le contenu des bo tes de com mentaires i e les bo tes qui ne sont reli es aucune autre x repr sente la couleur au format RGB e CCOLOR x d finit la couleur utilis e pour dessiner les bo tes s lectionn es x repr sente la couleur au format RGB e DBOXES x cette ligne est ignor e par Unitex Elle est conserv e par souci de compatibilit avec les graphes Intex 316 CHAPITRE 14 FORMATS DE FICHIERS e DFRAME x dessine ou non un cadre autour du graphe selon que x vaut y ou n e DDATE x affiche ou non la date en bas du graphe selon que x vaut y ou n e DFILE x affiche ou non le nom du fichier en bas du graphe selon que x vaut y oun e DDIR x affiche ou non le che
299. lier Le pavillon le r cit fut achev cas particulier le sacrifice comme dans un r ve cas particulier Le Carnatic aborder Passepartout cas particulierlle premier bien celle du booby cas particulierlle plus neuf 4 l I FIGURE 5 20 Poids dans les graphes Les poids sont des valeurs enti res Pour donner une boite le poids 1 on ins re 1 dans la sortie de la boite comme dans lt E gt 1 5 Le poids d un chemin est le dernier poids trouv en parcourant le chemin Un poids peut tre nul mais pas strictement n gatif Un chemin qui a un poids m me nul a la priorit sur un chemin sans poids Avec des poids on peut d finir une priorit entre des chemins qui reconnaissent la m me s quence On ne peut pas d finir une priorit entre deux s quences dont une est incluse dans l autre cf section 4 8 1 ni entre des s quences qui se chevauchent cf section 6 7 3 Les poids ne sont valides qu l int rieur du graphe et non dans les sous graphes ni les graphes appelants 106 CHAPITRE 5 GRAMMAIRES LOCALES 5 2 5 Variables d entr e Il est possible de s lectionner des parties du texte reconnu par une grammaire au moyen de variables d entr e Pour associer une variable d entr e var1 une partie d une gram maire on utilise soit le bouton avec les parentheses rouges dans la barre d ic nes au dessus du graphe section 5 2 8 soit les symboles sp ciaux varl
300. ligne de tokens txt o figure ce token apres avoir ajout 1 pour la ligne d en t te de tokens txt 14 4 4 346 CHAPITRE 14 FORMATS DE FICHIERS Annexe GNU Lesser General Public License Cette licence peut galement tre trouv e ici 36 GNU LESSER GENERAL PUBLIC LICENSE Version 2 1 February 1999 Copyright C 1991 1999 Free Software Foundation Inc 59 Temple Place Suite 330 Boston MA 02111 1307 USA Everyone is permitted to copy and distribute verbatim copies of this license document but changing it is not allowed This is the first released version of the Lesser GPL It also counts as the successor of the GNU Library Public License version 2 hence the version number 2 1 Preamble The licenses for most software are designed to take away your freedom to share and change it By contrast the GNU General Public Licenses are intended to guar antee your freedom to share and change free software to make sure the software is free for all its users This license the Lesser General Public License applies to some specially des ignated software packages typically libraries of the Free Software Foundation and other authors who decide to use it You can use it too but we suggest you first think carefully about whether this license or the ordinary General Public License is the better strategy to use in any particular case based on the explanations below When we speak of free software we are referring to freedom of use
301. lingue LORIA 2006 http led loria fr outils ALIGN align html 10 14 13 12 380 BIBLIOGRAPHIE 69 Annie MEUNIER Nominalisation d adjectifs par verbes supports 1981 These de doctorat Universit Paris 7 9 1 70 Sun Microsystems Java http java sun com 1 2 71 Christian MOLINIER and Fran oise LEVRIER Grammaire des adverbes description des formes en ment Droz Gen ve 2000 9 1 72 Anne MONCEAUX Le dictionnaire des mots simples anglais mots nouveaux et variantes orthographiques Technical Report 15 IGM Universit de Marne la Vall e 1995 3 8 73 Marcello C M MUNIZ Maria das Gra as V NUNES and Eric LAPORTE UNITEX PB a set of flexible language resources for Brazilian Portuguese In Proceedings of the Workshop on Technology of Information and Human Language 2005 S o Leopoldo Brazil Unisinos 3 8 74 OpenOffice org http www openoffice org 2 2 9 2 2 75 Dong Ho PAK Lexique grammaire compar fran ais cor en Syntaxe des construc tions compl tives PhD thesis UQAM Montr al 1996 9 1 76 Soun Nam PARK La construction des verbes neutres en cor en 1996 Th se de doctorat Universit Paris 7 9 1 77 S bastien PAUMIER and Dana Marina DUMITRIU Editable text alignments and powerful linguistic queries In Matthieu Constant Takuya Nakamura Michele De Gioia and Sara Vecchiato editors 27th International Conference on Lexis and Grammar LGC 08 pages 117 125 Septe
302. lioth que dans laquelle on peut ranger des graphes et faire ensuite appel ces graphes au moyen de au lieu de Pour utiliser ce m canisme il faut tout d abord d finir le r pertoire de d p t dans le menu Info gt Preferences gt Directories voir figure 5 11 Choisissez votre r pertoire dans le cadre Graph repository Le r pertoire de d p t est propre la langue de travail vous n tes donc pas oblig d utiliser le m me r pertoire pour plusieurs langues Supposons que l on ait une arborescence comme celle de la figure 5 12 Si l on souhaite faire appel au graphe DET qui se trouve dans le sous r pertoire Johnson on utilisera l appel Det Johnson DET voir figure 5 13 1 ASTUCE si vous voulez viter de mettre dans vos graphes un chemin compliqu comme Det Johnson DET vous pouvez cr er un graphe nomm DET que vous placerez la racine du r pertoire de d p t D repository DET grf Ce graphe contiendra sim plement un appel au graphe Det Johnson DET Vous pourrez alors mettre dans vos graphes un simple appel DET Cela permet 1 de ne pas avoir de noms compliqu s et 2 de pouvoir modifier les graphes du r pertoire de d p t sans avoir modifier tous vos 1 Dans un souci de clart les appels des graphes du r pertoire de d p t sont affich s sur fond kaki au lieu de gris 5 2 DITION DE GRAPHES 101 E Preferences for English Morphological dictionaries
303. lles pointent Chaque ligne de d finition de boite doit se terminer par un espace suivi d un retour a la ligne 318 CHAPITRE 14 FORMATS DE FICHIERS 14 3 2 Format fst2 Un fichier fst 2 est un fichier texte qui d crit un ensemble de graphes Voici un exemple de fichier st 2 file 00000000024 1 NP 1 1 4 22 224 3 3 t f 2 Adj4 6151419 gt 4 Sthe DETY A gt ADJY pretty smal14 fq La premi re ligne repr sente le nombre de graphes cod s dans le fichier Le d but de chaque graphe est identifi par une ligne indiquant le num ro et le nom du graphe 1 NP et 2 Adj dans le fichier ci dessus Les lignes suivantes d crivent les tats du graphe Si l tat est terminal la ligne d bute par le caract re t et par le caract re sinon Pour chaque tat la liste des transitions est une suite ventuellement vide de couples d entiers e le premier entier indique le num ro d tiquette ou de sous graphe correspon dant la transition Les tiquettes sont num rot es partir de 0 Les sous graphes sont repr sent s par des entiers n gatifs ce qui explique que les num ros pr c dant les noms des graphes soient n gatifs e le deuxi me entier repr sente le num ro de l tat d arriv e de la transition Dans chaque graphe les tats sont num rot s partir de 0 Par convention l tat 0 d un graphe est son tat initial Chaque ligne de d finition d tat doit se terminer par
304. logs Compress c dela mydela dic CheckDic delaf c dela mydela inf OPTIONS apr s CreateLog e g no_create_log ne pas cr er de fichier log Incompatible avec toutes les autres options e p XXX param_file XXX charge un fichier de param tres comme uni tex_logging_parameters txt Incompatible avec toutes les autres options e d XXX directory XXX Emplacement du r pertoire o le fichier log est cr e 1 XXX log_file XXX nom du fichier log cr er e i store_input_file enregistre le fichier d entr e dans log par d faut e n no_store_input_file n enregistre pas le fichier d entr e dans log emp che de relancer le fichier log e o store_output_file enregistre le fichier de sortie dans log e u no_store_output_file n enregistre pas le fichier de sortie dans log par d faut e s store_list_input_file enregistre la liste de fichiers d entr e dans log par d faut e t no_store_list_input_file n enregistre pas la liste de fichiers d en tr e dans log 13 51 UNXMLIZE 309 e r store list _output_file enregistre la liste de fichiers de sortie dans log par d faut e f no_ store _ list _output_file n enregistre pas la liste de fichiers de sortie dans log UnitexToolLogger SelectOutput OPTIONS cmd l args cmd 2 args ete OPTIONS apr s SelectOutput e o on off output on off activ
305. lt Nb p gt Apr s r criture de ces formes au format DELACE on obtient les entr es suivantes battle royal battle royal N s battle royals battle royal N p battles royal battle royal N p Remarquons que cette description est ind pendante de la mani re dont les formes fl chies des mots simples sont g n r es parce que nous supposons que ce traitement est g r par le module externe de flexion des mots simples Dans la version Unitex de MULTIFLEX nous g n rons le pluriel de royal du fait que nous connaissons son code flexionnel N1 qui correspond au graphe de la figure 11 3 11 2 FORMALISME DE FLEXION DES MOTS COMPOS S 229 s P FIGURE 11 3 Graphe de flexion N1 pour les mots simples qui se fl chissent comme royal Dans le paradigme flexionnel d un mot compos chaque constituant est accompagn de la cat gorie morphologique qui d termine sa flexion Les cat gories inchang es n ont pas be soin d tre mentionn es Par exemple dans bateau mouche les deux noms constituants ont un genre d termin et ne se fl chissent qu en nombre bateaux mouches C est pourquoi fig ure 11 4 dans le graphe de flexion de ce mot compos les bo tes correspondantes ne contien nent des assignations de valeurs que pour le nombre Remarquons que les deux constituants peuvent avoir ou non le m me genre ici bateau est masculin tandis que mouche est f minin e g bateau mouche lt Gen m Nb p gt FIGURE 11 4
306. lusieurs bo tes et de la ou les relier une autre la diff rence du mode normal la ou les transitions qui vont tre cr es sont affich es pendant le d placement du pointeur de la souris e relier des bo tes une autre bo te en sens inverse cet outil effectue la m me chose que le pr c dent mais en reliant en sens inverse les bo tes s lectionn es la bo te cliqu e e ouvrir un sous graphe ouvre un sous graphe lorsque vous cliquez sur la ligne gris e correspondante dans une bo te Pour que le curseur retrouve sa forme initiale de fl che blanche faites un clic droit sur le fond du graphe les clics seront nouveau interpr t s normalement L ic ne en forme de cl anglaise est un raccourci pour ouvrir la fen tre des options d af fichage du graphe Les deux suivantes permettent de voir les listes de graphes en relation avec le graphe courant e Le premier bouton affiche la liste des graphes appel s par le graphe courant e Le deuxi me bouton affiche la liste des graphes qui appellent le graphe courant Le bouton muni de deux fl ches vertes rafra chit le graphe courant en chargeant sa derni re version Si un fichier grf est modifi alors que le graphe qu il contient est affich dans une fen tre Unitex une fen tre pop up vous invitera le recharger Le bouton portant l ic ne d une balance permet de comparer le graphe courant un autre graphe ou une autre version du m me graphe Une nouv
307. m avio prevoznikom avio prevoznik NC_2XN2 N Comp s6vm avio prevozniku avio prevoznik NC_2XN2 N Comp s7vm avio prevoznici avio prevoznik NC_2XN2 N Comp plvm avio prevoznika avio prevoznik NC_2XN2 N Comp p2vm avio prevoznicima avio prevoznik NC_2XN2 N Comp p3vm avio prevoznike avio prevoznik NC_2XN2 N Comp p4vm avio prevoznici avio prevoznik NC_2XN2 N Comp p5vm avio prevoznicima avio prevoznik NC_2XN2 N Comp p6vm avio prevoznicima avio prevoznik NC_2XN2 N Comp p7vm avio prevoznika avio prevoznik NC_2XN2 N Comp w2vm avio prevoznika avio prevoznik NC_2XN2 N Comp w4vm avioprevoznik avio prevoznik NC_2XN2 N Comp slvm avioprevoznika avio prevoznik NC_2XN2 N Comp s2vm avioprevozniku avio prevoznik NC_2XN2 N Comp s3vm avioprevoznika avio prevoznik NC_2XN2 N Comp s4vm avioprevoznicye avio prevoznik NC_2XN2 N Comp s5vm avioprevoznikom avio prevoznik NC_2XN2 N Comp s6vm avioprevozniku avio prevoznik NC_2XN2 N Comp s7vm avioprevoznici avio prevoznik NC_2XN2 N Comp plvm avioprevoznika avio prevoznik NC_2XN2 N Comp p2vm avioprevoznicima avio prevoznik NC_2XN2 N Comp p3vm avioprevoznike avio prevoznik NC_2XN2 N Comp p4vm avioprevoznici avio prevoznik NC_2XN2 N Comp p5vm avioprevoznicima avio prevoznik NC_2XN2 N Comp p6vm avioprevoznicima avio prevoznik NC_2XN2 N Comp p7vm 11 3 INT GRATION UNITEX avioprevoznika avio prevoznik NC_2XN2 N Comp w
308. mat Outils Donn es Fen tre Aide A SEB asa Ivy 2B5B 6 0 1ANUIQYIMOBEQIO SI BIRX Sales 0 A olx x lt OPT gt E Aux avoir abandonner Paul a abandonne abuser ee He ee Max abuse acquiescer L ek fe feb EE fF HE Max aSacquiesc E de adouber pk kk kb HE HE PaulSadoube checs agioter Rol klk klk ke kE ep 2 Max agiote sur les chan agoniser lo Ll LL ep pp Max agonise archaiser lo Ll ep o Cet auteur archaise volc arquer be ob feb feb e eR Max agarqu stoute la jou arriver tL Se a PH Max est arriv atermoyer L h h Max atermoie badauder badaud Max badaude Feuille 1 1 PageStyle_c31H 100 sto pe Somme 0 FIGURE 9 4 Table de lexique grammaire 31H 9 2 CONVERSION D UNE TABLE EN GRAPHES 209 9 2 4 G n ration automatique de graphes Pour pouvoir g n rer des graphes partir d un graphe param tr et d une table il faut tout d abord ouvrir la table en cliquant sur Open dans le menu Lexicon Grammar voir figure 9 5 La table doit avoir t pr alablement convertie en texte Unicode Unitex 2 1 current XAlign File Edition Windows Info IS Text DELA FSGraph Open Compile to GRF Close FIGURE 9 5 Menu Lexicon Grammar La table s lectionn e est alors affich e dans une fen tre voir figure 9 6 Si elle n appara
309. mber 2008 10 10 2 78 S bastien PAUMIER and Jee Sun NAM Un systeme de dictionnaire de mots simples du cor en In Kakoyianni Doa 57 pages 481 490 6 9 3 79 Adam PRZEPI RKOWSKI and Marcin WOLINSKI The Unbearable Lightness of Tagging A Case Study in Morphosyntactic Tagging of Polish In Proceedings of the 4th International Workshop on Linguistically Interpreted Corpora EACL 2003 2003 11 1 1 11 2 2 80 Roger Bruno RABENNILAINA Le verbe malgache AUPELF UREF et Universit Paris 13 Paris 1991 9 1 81 Elisabete RANCHHOD Frozen adverbs comparative forms como c in por tuguese Lingvistic Investigationes 15 1 141 170 1991 Amsterdam Philadelphia John Benjamins Publishing Company 3 8 9 1 82 Elisabete RANCHHOD Ressources linguistiques du portugais impl ment es sous intex In C Fairon editor Analyse Lexicale et Syntaxique Le syst me IN TEX Lingvisticae Investigationes pages 263 277 Amsterdam Philadelphia John Benjamins Publishing Company 1998 3 8 BIBLIOGRAPHIE 381 83 Elisabete RANCHHOD Probl mes de traduction automatique des constructions verbes supports Lingvistice Investigationes 23 2 253 267 2001 Amsterdam Philadelphia John Benjamins Publishing Company 9 1 84 Elisabete RANCHHOD and Michele DE GIOIA Comparative romance syn tax frozen adverbs in italian and in portuguese Lingvistice Investigationes 20 1 33 85 1996 Amsterdam Philadelphia John Benjamins Publishing
310. me Txt 2F st 2 afin d ajouter des interpr tations a l automate du texte La grammaire de la figure 3 22 reconnait des mots form s par le pr fixe un suivi d un ad jectif Si on l applique comme graphe dictionnaire on obtient de nouveaux chemins dans l automate du texte comme le montre la figure 3 23 Remarquons que lorsque deux tags cor respondent a des analyses dans la m me unit lexicale le lien entre eux est affich par une ligne discontinue EV FST Text is oa Bw It is unlucky to travel where your path is crossed by a monk a 2335 sentences hare or a howling dog until you have eaten your next meal Sentence 1 692 away said Cedric impatiently Reset Sentence Graph Rebuild FST Text Elag Frame Automaton Table Explode Implode Apply Elag Rule FIGURE 3 23 Chemin ajout par un graphe dictionnaire morphologique 3 8 BIBLIOGRAPHIE 73 3 8 Bibliographie Le tableau 3 4 donne quelques r f rences relatives aux dictionnaires lectroniques de mots simples et compos s Pour plus de d tails consultez la page de r f rences sur le site web d Unitex http www igm univ mlv fr unitex Langue Mots simples Mots compos s English 58 72 15 87 French 19 20 63 20 38 89 46 Modern Greek 2 17 60 61 62 Italian 28 29 93 Spanish 8 7 Portuguese 25 85 82 73 81
311. me fl chie ou la forme canonique contient le caract re Si c est le cas le programme remplace l entr e par deux entr es une o le caract re est remplac par un espace et une o il est remplac par un tiret Ainsi l entr e suivante grand m res grand m re N fp est remplac e par les deux lignes suivantes grand m res grand m re N fp grand m res grand m re N fp NOTE si vous souhaitez crire une entr e contenant le caract re d sp cialisez le avec le caract re comme dans l exemple suivant E mc2 FORMULI E Cette op ration de remplacement a lieu lors de la compression du dictionnaire Une fois le dictionnaire comprim les signes d sp cialis s sont remplac s par de simples Ainsi si l on comprime un dictionnaire contenant les lignes suivantes E E mc2 FORMUL grand m re N fs et que l on applique ce dictionnaire au texte Ma grand m re m a expliqu la formule E mc2 on obtiendra les lignes suivantes dans le dictionnaire de mots compos s du texte E E mc2 FORMUL grand m re N fs 48 CHAPITRE 3 DICTIONNAIRES Factorisation d entr es Plusieurs entr es ayant les m mes formes fl chie et canonique peuvent tre regroup es en une seule condition qu elle aient les m mes codes grammaticaux et s mantiques Cela permet entre autres de regrouper des conjugaisons identiques pour un m me verbe glace glacer V z1 P1s P3s S1s S3s Y2s
312. me to time Such new versions will be similar in spirit to the present version but may differ in detail to address new problems or concerns Each version is given a distinguishing version number If the Linguistic Re source specifies a version number of this License which applies to it and any later version you have the option of following the terms and conditions either 374 CHAPITRE 14 FORMATS DE FICHIERS of that version or of any later version published by the Free Software Founda tion If the Linguistic Resource does not specify a license version number you may choose any version ever published by the Free Software Foundation 11 If you wish to incorporate parts of the Linguistic Resource into other free pro grams whose distribution conditions are incompatible with these write to the author to ask for permission NO WARRANTY 12 BECAUSE THE LINGUISTIC RESOURCE IS LICENSED FREE OF CHARGE THERE IS NO WARRANTY FOR THE LINGUISTIC RESOURCE TO THE EXTENT PERMITTED BY APPLICABLE LAW EXCEPT WHEN OTH ERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND OR OTHER PARTIES PROVIDE THE LINGUISTIC RESOURCE ASIS WITH OUT WARRANTY OF ANY KIND EITHER EXPRESSED OR IMPLIED INCLUDING BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PUR POSE THE ENTIRE RISK AS TO THE QUALITY AND PERFORMANCE OF THE LINGUISTIC RESOURCE IS WITH YOU SHOULD THE LIN GUISTIC RESOURCE PROVE DEFECTIVE YOU ASSUME THE COST
313. me you redistribute the Linguistic Resource or any work based on the Linguistic Resource the recipient automatically receives a license from the original licensor to copy distribute link with or modify the Linguistic Re source subject to these terms and conditions You may not impose any further 14 13 PLUSIEURS AUTRES FICHIERS 373 10 restrictions on the recipients exercise of the rights granted herein You are not responsible for enforcing compliance by third parties with this License If as a consequence of a court judgment or allegation of patent infringement or for any other reason not limited to patent issues conditions are imposed on you whether by court order agreement or otherwise that contradict the con ditions of this License they do not excuse you from the conditions of this Li cense If you cannot distribute so as to satisfy simultaneously your obligations under this License and any other pertinent obligations then as a consequence you may not distribute the Linguistic Resource at all For example if a patent license would not permit royalty free redistribution of the Linguistic Resource by all those who receive copies directly or indirectly through you then the only way you could satisfy both it and this License would be to refrain entirely from distribution of the Linguistic Resource If any portion of this section is held invalid or unenforceable under any par ticular circumstance the balance of the sec
314. ment donn T1 EILite ou des fichiers au format txt ou SNT quand ils sont pr trait s pour cette t che avec des marqueurs STOP ce programme construit un unique automate qui reconna t toutes les s quences contenues dans le document On doit porter une attention particuli re la construction de la liste de s quences qui doivent tre reconnues par le graphe Ce chapitre pr sente les formats de fichiers support s par le programme Seq2Gri struction de l automate de s quences et l utilisation de jokers 8 1 Corpus de s quences f la con Nous appelons corpus de s quences ou corpus qualifi une liste de s quences d un ou plusieurs mots que l on veut reconna tre par une grammaire locale repr sent e par un seul g raphe Le corpus de s quences est stock dans un seul fichier qui peut avoir l un des formats suivants e fichiers texte brut dans lequel les s quences sont d limit es par des fins de li gnes e fichiers SNT d ja pr trait s par ce menu les s quences sont d limit es par STOP e fichiers TEILite dont les s quences sont d limit es par un tag xm1 de la forme lt seg type sequence gt example lt seg gt 199 200 CHAPITRE 8 AUTOMATE DE S QUENCES Puisque le corpus contient des s quences sp cifiques il doit tre fait la main Cela signifie que vous devez soit crire toutes les s quences dans un fichier texte brut et les s parer par une
315. mi res occurrences Le cadre Grammar outputs concerne le mode d utilisation des sorties Le mode Merge with input text permet d ins rer les s quences produites par les sorties Le mode Replace recognized sequences permet de remplacer les s quences reconnues par les s quences pro duites Le troisi me mode ignore les sorties Ce dernier mode est utilis par d faut Dans le cadre Search algorithm vous pouvez sp cifier si vous voulez effectuer la recherche sur le texte en utilisant le programme Locate ou sur l automate du texte avec LocateTfst Par d faut la recherche est faite avec le programme Locate comme Unitex l a toujours fait jusqu maintenant Si vous d sirez utiliser LocateTfst lisez la section 7 7 Une fois vos param tres fix s cliquez sur SEARCH pour lancer la recherche 6 10 2 Options de recherche avanc es Si vous s lectionnez l onglet Advanced options vous voyez le cadre de la figure 6 54 L option Ambiguous output policy est illustr e par le graphe de la figure 6 55 Lorsqu un d terminant est suivi par un mot pouvant tre un nom ou un adjectif il peut produire deux sorties distinctes pour la m me s quence d entr e le transducteur est dit ambigu Si nous appliquons ce graphe sur le texte Ivanhoe avec l option Allow ambiguous outputs celle par d faut nous obtenons la concordance de la figure 6 56 Comme vous pouvez le constater deux sorties sont produites pour la s quence the
316. min complet d acc s au fichier en bas du graphe selon que x vaut y ou n Cette option n est prise en compte que si le param tre DFILE a la valeur y e DRIG x dessine le graphe de droite gauche ou de gauche droite selon que x vaut y ou n e DRST x cette ligne est ignor e par Unitex Elle est conserv e par souci de compatibilit avec les graphes Intex e FITS x cette ligne est ignor e par Unitex Elle est conserv e par souci de compatibilit avec les graphes Intex e PORIENT x cette ligne est ignor e par Unitex Elle est conserv e par souci de compatibilit avec les graphes Intex e cette ligne est ignor e par Unitex Elle sert indiquer la fin des informations d en t te Les lignes suivantes donnent le contenu et la position des bo tes du graphe Les lignes suivantes correspondent un graphe reconnaissant un chiffre 34 lt e gt 84 248 1 2 Y 272 2480 s 1 2 3 4 5 6 7 8 9 0 172 248 1 1 4 La premi re ligne indique le nombre de bo tes du graphe imm diatement suivi d un retour la ligne Ce nombre ne doit jamais tre inf rieur 2 car un graphe est toujours sens poss der un tat initial et un tat final Les lignes suivantes d finissent les bo tes du graphe Les bo tes sont num rot es a partir de 0 Par convention l tat 0 est l tat initial et l tat 1 est l tat final Le contenu de l tat final doit toujours tre vide Chaque bo
317. modifica tions manuelles Pour cela cliquez sur le bouton Rebuild FST Text Toutes les phrases pour lesquelles des modifications ont t faites sont alors remplac es dans l automate du texte par leur version modifi e Le nouvel automate du texte est ensuite recharg automatiquement Lev e manuelle des ambiguit s L automate du texte peut contenir de nombreux chemins tiquet s en raison de l am biguit lexicale Vous pouvez lever les ambiguit s avec des grammaires ELAG ou s lec tionner manuellement les chemins corrects pour l un ou tous les graphes de l automate de phrase Vous devez pour cela effectuer un clic droit sur la bo te que vous voulez garder lorsque plusieurs bo tes avec diff rentes tiquettes sont propos es Les bords de la bo te s lectionn e deviendront plus gras tandis que les autres bo tes appara tront gris es voir figure 7 29 Vous pouvez alors cliquer sur le bouton Remove greyed states pour ne garder que les bo tes s lectionn es figure 7 30 7 5 MANIPULATION DE L AUTOMATE DU TEXTE 191 EV Fst lext i 2607 sentences Here haunted of yore the fabulous Dragon of Wantley Sentence Reset Sentence Graph Rebuild FST Text Elag Frame Remove greyed states gt Automaton Table Explode V Kills Ls Bs Ilp 2p L3p Implode Apply Elag Rule 4 FIGURE 7 30 Suppression de bo tes ambigu s dans l automate de p
318. mpl te figure 5 17 2 Si vous travaillez sous KDE d sactivez lt Alt Click gt dans kcontrol 5 2 DITION DE GRAPHES E Sentence grf home paumier unitex French Graphs Preprocessing Sentence DEE h ex w Cas g n ral Ponctuation Called graphs LA gt AbrPoint gt AbrPointMilFin gt Abr_nbAmb gt LettreMaj gt LettreMin gt Millions gt MotsComposesAvecMaj gt MotsSuivisDeLettreMaj gt NN gt NenN gt Nombres gt PhTh gt Prenoms gt Symboles1Maj gt abr_nb cas2 cas3 cas4 gt crochets crochets gt motifAnthro gt motifSymboles gt nb_abr gt parTel gt parentheses parentheses gt rois gt sigles FIGURE 5 15 Affichage de la liste de tous les graphes appel s FIGURE 5 17 S lection de bo tes loign es Lorsque des bo tes sont s lectionn es vous pouvez les d placer en cliquant et en d pla ant le curseur sans rel cher le bouton Pour annuler la s lection cliquez sur une zone vide du graphe si vous cliquez sur une bo te toutes les bo tes de la s lection seront reli es celle ci Vous pouvez effectuer un copier coller sur plusieurs bo tes comme dans la figure 5 18 Pour cela s lectionnez les et appuyez sur lt Ctrl C gt ou cliquez sur Copy dans le menu Edit Votre s lection multi
319. ms for distribution of such executables When a work that uses the Library uses material from a header file that is part of the Library the object code for the work may be a derivative work of the Library even though the source code is not Whether this is true is especially significant if the work can be linked without the Library or if the work is itself a library The threshold for this to be true is not precisely defined by law If such an object file uses only numerical parameters data structure layouts and accessors and small macros and small inline functions ten lines or less in length then the use of the object file is unrestricted regardless of whether it is legally a derivative work Executables containing this object code plus portions of the Li brary will still fall under Section 6 Otherwise if the work is a derivative of the Library you may distribute the ob ject code for the work under the terms of Section 6 Any executables containing that work also fall under Section 6 whether or not they are linked directly with the Li brary itself 6 As an exception to the Sections above you may also combine or link a work that uses the Library with the Library to produce a work containing portions of the Library and distribute that work under terms of your choice provided that the terms permit modification of the work for the customer s own use and reverse en 352 CHAPITRE 14 FORMATS DE FICHIERS gineering for debugging
320. ms of Section 1 above provided that you also meet all of these conditions a The modified work must itself be a software library b You must cause the files modified to carry prominent notices stating that you changed the files and the date of any change c You must cause the whole of the work to be licensed at no charge to all third parties under the terms of this License d If a facility in the modified Library refers to a function or a table of data to be supplied by an application program that uses the facility other than as an argument passed when the facility is invoked then you must make a good faith effort to ensure that in the event an application does not supply such function or table the facility still operates and performs whatever part of its purpose remains meaningful For example a function in a library to compute square roots has a purpose that is entirely well defined independent of the application Therefore Subsection 2d requires that any application supplied function or table used by this function must be optional if the application does not supply it the square root function must still compute square roots These requirements apply to the modified work as a whole If identifiable sec tions of that work are not derived from the Library and can be reasonably con sidered independent and separate works in themselves then this License and its terms do not apply to those sections when you distribute them as sepa
321. n contexte comme c est 6 3 CONTEXTES 131 ane rr lt N gt lt lt n JH gt gt lt N gt lt lt gt gt FIGURE 6 17 Utilisation avanc e des contextes 35 o 428 FIGURE 6 18 Imbrication de contextes le cas sur la figure 6 19 Sil on applique ce graphe en mode MERGE au texte the cat is white on obtient en sortie the lt pet name cat color white gt is white Ss lt pet name Y 10 color C gt FIGURE 6 19 Variable d finie dans un contexte 6 3 2 Contextes gauches Il est galement possible de rechercher une expression X si elle se trouve seulement apr s une expression Y videmment il tait d j possible de le faire avec une grammaire semblable celle de la figure 6 20 Cependant avec ce type de grammaire le contexte gauche est inclus dans la s quence reconnue comme le montre la figure 6 21 Pour viter cela on peut utiliser le symbole x qui indique la fin du contexte gauche de l expression qu on d sire reconna tre Ce symbole est repr sent par une toile verte dans le graphe comme le montre la figure 6 22 L effet d un tel contexte est d utiliser une partie de la grammaire pour calculer la s quence reconnue sans que cette partie ne figure dans le r sultat voir figure 6 23 132 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES FIGURE 6 20 Reconnaissance d un nom pr c d d un d terminant num ral Concor
322. n may publish revised and or new versions of the Lesser General Public License from time to time Such new versions will be sim ilar in spirit to the present version but may differ in detail to address new problems or concerns Each version is given a distinguishing version number If the Library specifies a version number of this License which applies to it and any later version you have the option of following the terms and conditions either of that version or of any later version published by the Free Software Foundation If the Library does not specify a license version number you may choose any version ever published by the Free Software Foundation 14 If you wish to incorporate parts of the Library into other free programs whose distribution conditions are incompatible with these write to the author to ask for permission For software which is copyrighted by the Free Software Foundation write to the Free Software Foundation we sometimes make exceptions for this Our decision will be guided by the two goals of preserving the free status of all deriva tives of our free software and of promoting the sharing and reuse of software gen erally NO WARRANTY 15 BECAUSE THE LIBRARY IS LICENSED FREE OF CHARGE THERE IS NO WARRANTY FOR THE LIBRARY TO THE EXTENT PERMITTED BY APPLICA BLE LAW EXCEPT WHEN OTHERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND OR OTHER PARTIES PROVIDE THE LIBRARY AS IS WITH OUT WARRANTY OF ANY KIND EITHER
323. n param tre de notre syst me chaque fois que MULTIFLEX est utilis avec un module externe pour les mots simples celui ci doit d cider comment une s quence de caract res est divis e en constituants Dans notre formalisme les constituants sont repr sent s par des variables num riques 1 2 3 etc Par exemple avec Unitex la s quence e Athens 04 comprend cinq constituants envoy s MULTIFLEX de cette fa on 1 Afhens 2 lt space gt 3 4 0 5 4 Chaque constituant d un mots compos suceptible d tre fl chi doit tre morphologique ment identifi Cette identification doit permettre de fournir les informations n cessaires afin que n importe quelle forme fl chie de ce mot puisse tre g n r e la demande Par exemple dans e m moire vive nous devons savoir que vive est le f minin singulier de vif et ainsi tre capable de g n rer le f minin pluriel vives Dans MULTIFLEX nous supposons que ce module externe de traite ment des mots simples est responsable de leur identification et de la g n ration de leurs formes fl chies Dans Unitex la g n ration des formes fl chies est fortement inspir e du systeme DELA 20 Pour g n rer une ou plusieurs formes fl chies d un mot nous devons conna tre 11 2 FORMALISME DE FLEXION DES MOTS COMPOS S 227 e sa forme canonique e son paradigme flexionnel appel code flexionnel e les caract ristiques flexionnelles des formes pro
324. nce A on ne tient pas compte du contexte dans lequel A appara t Par exemple il est impossible de rechercher 6 3 CONTEXTES 129 avec un graphe normal toutes les occurrences du mot president sauf celles qui sont suiv ies par of the republic Il est toutefois possible de tenir compte du contexte dans les graphes syntaxiques Dans ce cas les graphes ne sont plus des grammaires alg briques mais des grammaires contex tuelles qui n ont pas les m mes propri t s th oriques 6 3 1 Contextes droits On d finit un contexte droit en d limitant une zone du graphe avec des bo tes contenant and repr sentant respectivement les d but et fin de contexte qui sont repr sent s dans le graphe par des crochets verts Le d but et la fin d un contexte doivent appara tre dans le m me graphe 2 1 0 FIGURE 6 13 Utilisation d un contexte droit La figure 6 13 montre un exemple simple de contexte Ce graphe reconna t tous les nombres qui sont suivis par l euro la livre ou le dollar mais sans que le symbole d unit n apparaisse dans les occurrences trouv es c est dire dans la concordance Les contextes s interpretent de la fa on suivante Supposons que l on rencontre un d but de contexte lors de l application d une grammaire un texte et notons pos la position courante dans le texte cet instant Le programme Locate va ensuite chercher reconna tre l expres sion d crite dans le contexte S il choue
325. nces qui seront affich es dans la con cordance Si une occurrence a une longueur inf rieure la taille du contexte droit la ligne de concordance sera compl t e avec le nombre de caract res n cessaire Si une occurrence a une longueur sup rieure la taille du contexte droit elle est affich e en entier 4 8 RECHERCHE 87 Located sequences Statistics Modify text Resulting snt file Extract units Extract matching units Extract unmatching units Concordance presentation _ Use a web browser to view the concordance better for more than 2000 matches Show differences with previous concordance Show matching sequences in context Context length Stopat Sort according to Len adjcnars IS comenten x Right _55 chars S Build concordance FIGURE 4 6 Configuration de l affichage des occurrences trouv es NOTE en thai la taille des contextes est mesur e en caract res affichables et non en car act res r els Cela permet de conserver l alignement des lignes de concordance malgr la pr sence de caract res diacritiques qui se combinent d autres lettres au lieu de s afficher comme des caract res normaux Vous pouvez s lectionner le mode de tri appliquer dans la liste Sort According to Le mode Text Order affiche les occurrences dans l ordre o elles apparaissent dans le texte Les six autres modes permettent de trier en colonnes Les trois zones d une ligne so
326. ne langue agglutinante qui poss de une morphologie tr s particuli re les mots sont form s de caract res repr sentant des syllabes appel s Hangul mais un caract re Hangul correspond plusieurs caract res de l alphabet JAMO Par exemple vous pouvez voir figure 7 37 deux exemples de caract res Hangul suivis de leus quivalents en alphabet Jamo AH o O AIO r or FIGURE 7 37 Caract res et leurs quivalents en alphabet Jamo En outre les morph mes ne correspondent pas n c ssairement des caract res Hangul Par exemple la figure 7 38 montre qu un token donn en vert doit tre analys comme une combinaison de deux l ments un verbe et un modifieur Le probl me est que le modifieur n est form que d un caract re Jamo qui se combine avec le dernier caract re Hangul du verbe pour donner le dernier caract re Hangul du mot entier en vert Les tokens en vert correspondent des tokens non tiquet s Les tokens non tiquet s ne sont pas surlign s en vert pour les autres langues Par cons quent il est pr f rable pour les utilisateurs cor ens d crire des grammaires avec un m lange de Hangul et de caract res Jamo Ainsi une grammaire comme celle de la figure 7 39 reconna tra des s quences comme celles de la figure 7 40 7 9 LE CAS PARTICULIER DU COR EN 197 FIGURE 7 38 D composition d un caract re Hangul FIGURE 7 39 Une grammaire avec deux lettres Jamo E A St
327. nement d ex cution Java Unitex est compos d une interface graphique crite en Java et de programmes externes crits en C C Ce m lange de langages de programmation permet d avoir une application rapide et portable sous diff rents syst mes d exploitation Afin de pouvoir utiliser l interface graphique il faut pr alablement installer un environ nement d ex cution commun ment appel machine virtuelle ou JRE Java Runtime Envi ronment Pour fonctionner en mode graphique Unitex n cessite une version 1 6 ou plus r cente de Java Si vous avez une version trop ancienne de Java Unitex se bloquera apr s que vous ayez choisi votre langue de travail Vous pouvez t l charger librement la machine virtuelle correspondant votre syst me d ex ploitation sur le site de Sun Microsystems 70 l adresse suivante http java sun com Si vous travaillez sous Linux ou MacOS ou si vous utilisez une version de Windows g rant des comptes personnels pour les utilisateurs il vous faudra demander votre administra teur syst me d installer Java 1 3 Installation sous Windows Si vous d sirez installer Unitex sur une machine Windows multi utilisateurs il est pr f rable de demander votre administrateur de le faire Si vous tes l utilisateur unique de votre machine vous pouvez effectuer l installation vous m me D compressez le fichier Unitex3 1beta zip ouUnitex3 0 zip vous pouvez t l charger ces fich
328. ng divided into two bands of equal numbers might fig FIGURE 6 23 R sultats de l application de la grammaire de la figure 6 22 134 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES Toutes les sorties produites par un contexte gauche sont ignor es comme on peut le voir dans la concordance de la figure 6 25 qui donne les r sultats obtenus avec la grammaire de la figure 6 24 one two three four ES a 0 seven N eight nine ten FIGURE 6 24 Sorties ignor es dans un contexte gauche Concordance D My Unitex English Corpusivanhoe_snticoncord html e courses and cast to the ground three N antagonists 5 I add that seven of utes to keep at sword s point his three N antagonists turning and wheeling with entinels to give the alarm when any one N approaches 5 But I trust soon to ga omanlike and bravely 5 Of twenty four N arrows shot in succession ten were fi started up and bent their bows 5 Six N arrows placed on the string were pointe he back of which was decorated with two N ass s ears and which was placed about These two squires were followed by two N attendants whose dark visages white t ber with a grave pace followed by four N attendants bearing in a table covered ake part 3 and being divided into two N bands of equal numbers might fight it FIGURE 6 25 R sultats de l application de la grammaire de la figure 6 24 Toutefois on peut m moriser des inf
329. ng mod ifications to it For a library complete source code means all the source code for all modules it contains plus any associated interface definition files plus the scripts used to control compilation and installation of the library Activities other than copying distribution and modification are not covered by this License they are outside its scope The act of running a program using the Li brary is not restricted and output from such a program is covered only if its contents constitute a work based on the Library independent of the use of the Library in a tool for writing it Whether that is true depends on what the Library does and what the program that uses the Library does 350 CHAPITRE 14 FORMATS DE FICHIERS 1 You may copy and distribute verbatim copies of the Library s complete source code as you receive it in any medium provided that you conspicuously and ap propriately publish on each copy an appropriate copyright notice and disclaimer of warranty keep intact all the notices that refer to this License and to the absence of any warranty and distribute a copy of this License along with the Library You may charge a fee for the physical act of transferring a copy and you may at your option offer warranty protection in exchange for a fee 2 You may modify your copy or copies of the Library or any portion of it thus forming a work based on the Library and copy and distribute such modifications or work under the ter
330. ngs of Nobel Symposium 51 pages 297 315 Stockholm Almqvist Wiksell 1982 9 1 43 Maurice GROSS On structuring the lexicon Quaderni di Semantica 4 1 107 120 1983 9 1 44 Maurice GROSS Lexicon grammar and the syntactic analysis of french In Pro ceedings of the 10 th International Conference on Computational Linguistics COL ING 84 Stanford California 1984 9 1 45 Maurice GROSS A linguistic environment for comparative romance syntax In Ph Baldi editor Papers from the XIIth Linguistic Symposium on Romance Lan guages volume IV 26 of Amsterdam studies in the theory and history of linguistic science pages 373 446 Amsterdam Philadelphia Benjamins 1984 9 1 46 Maurice GROSS Grammaire transformationnelle du francais 3 Syntaxe de l ad verbe ASSTRIL Paris 1986 3 8 9 1 47 Maurice GROSS Lexicon grammar the representation of compound words In COLING 1986 Proceedings pages 1 6 Bonn 1986 9 1 48 Maurice GROSS Methods and tactics in the construction of a lexicon grammar In Linguistics in the Morning Calm 2 Selected papers from SICOL pages 177 197 Seoul Hanshin 1986 9 1 49 Maurice GROSS Linguistic representations and text analysis In Linguistic Unity and Linguistic Diversity in Europe pages 31 61 London Academia Europaea 1991 9 1 50 Maurice GROSS Constructing lexicon grammars In Atkins and Zampolli edi tors Computational Approaches to the Lexicon pages 213 263 Oxfor
331. nit s reconnues dans le texte sont enregistr es dans un fichier appel concord n Ces deux fichiers sont stock s dans le r pertoire du texte 13 28 LocateTfst LocateTfst OPTIONS lt fst2 gt Ce programme applique une grammaire l automate du texte et sauve l indes des s quences reconnues dans un fichier concord ind comme le fait Locate OPTIONS e t TFST text TFST chemin complet du fichier texte sans omettre l ex tension e a ALPH alphabet ALPH chemin d acces complet au fichier alphabet e K korean indique LocateTfst qu il travaille sur du cor en e g X negation_operator X sp cifie l op rateur de n gation utiliser dans les masques lexicaux Les deux valeurs possibles de X sont moins et tilde par d faut Utiliser moins offre une compatibilit descendante avec les versions pr c dentes de Unitex Options de limite de recherche e 1 all recherche toutes les s quences reconnues par d faut e n N number_of_matches N stoppe apr s les premiers N matches Options du mode de reconnaissance e S shortest matches e L longest_matches par d faut e A a11 matches Options de sortie 13 28 LOCATETFST 293 e 1 ignore ignore les sorties du transducteur par d faut e M merge ajoute les sorties du transducteur avec les s quences reconnues e R replace remplace les s quences reconnues par les sorties correspon d
332. nnue avec contexte gauche et droit nombre d occur rences 1 cooccurrences nombre d occurrences 2 cooccurrences nombre d occurrences z score e a ALPH alphabet ALPH fichier alphabet utiliser e o OUT output OUT fichier de sortie e 1 N left N longueur du contexte gauche en tokens e r N right N longueur du contexte droit en tokens e c N case N traitement de la casse 0 non respect de la casse 1 respect de la casse par d faut 13 38 Table2Grf Table2Grf OPTIONS lt table gt Ce programme g n re automatiquemient des graphes partir de la table de lexique grammaire lt table gt et d un graphe patron OPTIONS e r GRF reference_graph GRF nom du graphe patron e o OUT output 0UT nom du graphe r sultant principal e s XXX subgraph_pattern XXX si ce param tre optionnel est sp ci fi tous les sous graphes produits seront nomm s en fonction de ce motif Afin d avoir des noms non ambigus nous vous recommandons d inclure dans le param tre rappelons que sera remplac par le num ro de ligne de l entr e dans la table Par exemple si vous d finissez le param tre par le motif subgraph grf les noms de sous graphe seront de la forme subgraph 0013 grf Par d faut les noms de sous graphe ressemblent result_0013 grf ou result grf est le graphe r sultant principal 13 39 Tagger Tagger O
333. non encore document Introduction de RunScript qui ex cute dans l environnement cible des scripts in stall s par InstallLingResourcePackage non encore document Avec ces deux outils on peut mettre au point des op rations Unitex dans un environnement et les d ployer dans un autre Introduction de l option match word boundaries dans l algorithme de recherche par intersection d automates 7 7 avec cette option active par d faut pour la plupart des langues enlever and en lever ne matchent pas non encore document Suivi am lior des offsets c est dire de la diff rence entre les adresses d une m me position dans un corpus suivant diff rentes versions du corpus 13 14 Compilation quotidienne d ex cutables pour Windows 32 bit 64 bit GNU Linux Intel Intel 64 bit et OS X 10 7 TABLE DES MATI RES 15 e Installateurs automatiques pour toutes ces plates formes IMPORTANT certains formats de fichiers ayant t chang s et de nouveaux ayant t ajout s nous vous recommandons d effectuer un nouveau pr traitement de vos textes en particulier si vous utilisez l automate du texte 16 TABLE DES MATI RES Contenu Le chapitre 1 d crit comment installer et lancer Unitex Le chapitre 2 pr sente les diff rentes tapes de l analyse d un texte Le chapitre 3 d crit le formalisme des dictionnaires lectroniques DELA et les diff rentes op rations qui peuvent leur tre appliqu s Le
334. ns des autres Autrement dit une entr e ne peut pas prendre plus d une valeur pour un m me attribut En revanche il peut exister des 7 3 LEV E D AMBIGUITES LEXICALES AVEC ELAG 181 tiquettes ne prenant aucune valeur pour un attribut donn Par exemple pour d finir l attribut niveau_de_langue pouvant prendre les valeurs z1 z2 et z3 on crira la ligne suivante niveau_de_ langue zl 22 23 mais cet attribut n est pas forc ment pr sent pour tous les mots e discr cette partie est constitu e de la d claration d un unique attribut La syntaxe est la m me que dans la partie cat et l attribut d crit ici ne doit pas y tre r p t Cette partie permet de diviser la cat gorie grammaticale en sous cat gories discriminantes dans lesquelles les entr es ont des attributs flexionnels similaires Pour les pronoms par exemple une indication de personne est attribu e aux entr es appartenant la sous cat gorie des pronoms personnels mais non aux pronoms relatifs Ces d pen dances sont d crites dans la partie complete e complete Dans cette partie est explicit l tiquetage morphologique des mots ap partenant la cat gorie grammaticale courante Chaque ligne d crit une combinaison valide de codes flexionnels en fonction de leur sous cat gorie discriminante si une telle cat gorie a t d clar e Lorsqu un nom d attribut appara t entre angles lt et gt cela signifie que n importe quelle valeur de
335. ns issues des dictionnaires du mode morphologique Ces variables sont appel es variables de dictionnaire ou variables mor phologiques L initialisation d une variable de ce type doit tre associ e une boite con tenant un motif qui fait r f rence des informations contenues dans un dictionnaire du mode morphologique l exception du motif lt DIC gt On met xxx en sortie de la bo te o 1 partir de la version 3 1b ta r vision 4072 du 2 octobre 2015 2 Les dictionnaires du texte sont compil s pendant l application initiale des dictionnaires section 3 7 non pas pendant la recherche de motifs 140 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES xxx est un nom correct de variable cf section 5 2 5 Ceci affecte une variable d nomm e xxx l entr e de dictionaire reconnue par le motif Dans la suite des chemins qui passent par la boite on peut obtenir la forme fl chie la forme canonique et les codes fournis par l entr e avec xxx INFLECTEDS xxx LEMMAS et xxx CODES comme le montre la figure 6 34 On peut galement u tiliser les motifs suivants e xxx CODE GRAMS fournit seulement le premier code grammatical cens tre la cat gorie grammaticale e xxx CODE SEMS fournit tous les autres codes s par s par des s il en existe e Sxxx CODE F LEX fournit tous les codes flexionnels s par s par des s il en existe e xxx CODE ATTR yyy renvoie la valeur d
336. nsducteurs peut tre utilis e pour ins rer des informations dans les textes en particulier pour marquer les motifs reconnus il est possible d utiliser toute sorte de marques etc ou des balises xml comme lt xxx gt lt xxx gt mais CasSys propose une mani re particuli re d annoter les motifs reconnus offrant certaines possibilit s que nous pr sentons maintenant Unitex d coupe les textes en tokens de diff rentes sortes comme le marqueur de fin de phrase S le marqueur STOP des s quences de lettres contigu s des tiquettes lexicales aujourd hui ADV etc Les tiquettes lexicales sont utilis es dans CasSys de mani re particuli re Une tiquette lexicale entre accolades est habituellement utilis e pour viter les ambigu t s voir les explications la section 2 5 4 et la sec tion 7 5 1 Par exemple dans un texte si vous avez le token curly brackets N ni curly ni brackets ne seront reconnus mais seulement la s quence toute enti re curly brackets Une tiquette lexicale peut contenir une information lexicale com plexe comme N Pers Hum fs Dans un graphe il est possible de chercher un token en utilisant l information contenue dans un masque lexical par exemple on peut crire lt N gt pour chercher un nom lt Pers Hum gt pour un tre humain ou lt Pers gt Ces masques lexicaux sont d crits dans le chapitre Recherche d expressions ra tionnelles section 4 3 1 Dans CasSys n
337. nse because it does Less to protect the user s freedom than the ordinary General Public License It also pro vides other free software developers Less of an advantage over competing non free programs These disadvantages are the reason we use the ordinary General Pub lic License for many libraries However the Lesser license provides advantages in certain special circumstances For example on rare occasions there may be a special need to encourage the widest possible use of a certain library so that it becomes a de facto standard To achieve this non free programs must be allowed to use the library A more frequent case is that a free library does the same job as widely used non free libraries In this case there is little to gain by limiting the free library to free software only so we use the Lesser General Public License 14 13 PLUSIEURS AUTRES FICHIERS 349 In other cases permission to use a particular library in non free programs en ables a greater number of people to use a large body of free software For example permission to use the GNU C Library in non free programs enables many more peo ple to use the whole GNU operating system as well as its variant the GNU Linux operating system Although the Lesser General Public License is Less protective of the users free dom it does ensure that the user of a program that is linked with the Library has the freedom and the wherewithal to run that program using a modified version of
338. nt le contexte gauche l occurrence et le contexte droit Les occurrences et les contextes droits sont tri s de gauche droite Les contextes gauches sont tri s de droite gauche Le mode utilis par d faut est Center Left Col La concordance est produite sous la forme d un fichier HTML 88 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES Lorsque les concordances atteignent plusieurs milliers d occurrences il est pr f rable de les afficher avec un navigateur web Firefox 11 Netscape 12 Internet Explorer etc Pour cela cochez la case Use a web browser to view the concordance voir figure 4 6 Cette option est activ e par d faut lorsque le nombre d occurrences est sup rieur 3000 Pour d finir le navigateur qui sera utilis cliquez sur Preferences dans le menu Info Cliquez sur l onglet Text Presentation et s lectionnez le programme utiliser dans le cadre Html Viewer voir figure 4 7 Si vous choisissez d ouvrir la concordance l int rieur d Unitex vous verrez une fen tre comme celle de la figure 4 8 L option Enable links activ e par d faut permet de consid rer les occurrences comme des liens hypertextes Ainsi quand on clique sur une occurrence cela ouvre la fen tre du texte et y s lectionne la s quence reconnue De plus si l automate du texte est construit et que cette fen tre n est pas r duite sous forme d ic ne l automate de la phrase contenant l occurrence cliqu e est c
339. nt pas reconnus par le fichier tags ind e tags ind s quences ins rer dans l automate du texte see section 3 7 3 page 68 e stat_dic n fichier contenant les nombres de mots simples compos s et inconnus du texte NOTE Les fichiersd1f dlc err and tags_err ne sont pas tri s Utilisez le pro gramme Sort Txt pour le faire 13 13 DumpOffsets Utilisation DumpOffsets OPTIONS lt txt gt lt txt gt fichier d offsets d origine Ce programme permet d tudier et d utiliser les fichiers de correspondance d Off sets manipul par certains outils Unitex comme Unxmlize Normalize Fst2Txt To kenize Concord et GrfTest OPTIONS 13 13 DUMPOFFSETS 279 e o X 01d X nom du fichier d origine e n X new X nom du fichier d arriv e e p X output X nom du fichier de sortie e f full ajouter le texte courant e q quiet ne pas afficher de message e c no_escape_sequence don t escape text sequence e h help cet aide Exemple UnitexToolLogger Normalize r resource Norm txt work text_file txt output_offsets work text_file_offset txt UnitexToolLogger DumpOffsets o work text_file offset txt n work p work dump dump_offsets txt work text_file offset txt Autre Utilisation DumpOffsets m merge OPTIONS lt txt gt lt txt gt fichier d offsets d origine Fusionner deux fichiers d offsets produits par deux modifications s
340. o inf contient des codes qui permettent de reconstruire le dictionnaire d o rigine partir des formes fl chies contenues dans mon_dico bin L automate minimal contenu dansmon_dico bin est une repr sentation des formes fl chies o tous les pr fixes et suffixes communs sont factoris s Par exemple l automate minimal des mots me te se ma ta et sa peut tre repr sent par le graphe de la figure 3 17 FIGURE 3 17 Repr sentation d un exemple d automate minimal Pour comprimer un dictionnaire ouvrez le puis cliquez sur Compress into FST dans le menu DELA La compression est ind pendante de la langue et du contenu du dictionnaire Les messages produits par le programme sont affich s dans une fen tre qui ne se ferme pas automatiquement Vous pouvez ainsi voir la taille du fichier bin obtenu le nombre 66 CHAPITRE 3 DICTIONNAIRES de lignes lues ainsi que le nombre de codes flexionnels produits La figure 3 18 montre le r sultat de la compression d un dictionnaire de mots simples essages with a colored background are generated by the interface not by the external programs Compressing Minimizing Minimization done Binary file 111437 bytes 13976 lines read 2179 INF entries created 11358 states 16340 transitions Cancel FIGURE 3 18 R sultat d une compression A titre indicatif les taux de compression g n ralement observ s sont d environ 95 pour les dictionnaires de mots s
341. o2q 24 u ayn meu UEULON E 238 4324 peu qayoel STH S souearadde 91188308 23101 E n pmoq sTepues s HAsqney QUATOUE 10 Jats ui pom e qeya des ayq 30 31ed STU of sem 11 ABSENT Ul13por e ptseuos aq 44tu pinos aq aanasod ames ayy UT aput E Y 2TAUTEp e Auem TIM aT 30qqy ue aq 03 M ATUEN F TY aptsaq sserzh ayy uodn ZeT yotym 33235 13318n5 Huot e 211895 futaq 1N0T00 ayy ang gjarn DTJSEUON huoT E pUMO01 ayy 09 T1EaU Pau9ea21 qotqa 41019 13007 Huot e UTE 243 UT Ppa20TT03 oyn asoa 30 suo 1201014 APT Y Taneaq aq Jo 21ed 1298216 2342 UTI13409 153107 2b18T E se pue S imoTTaA 29 TIG YATM PaUTT PATIOS TES pooh E 13px0 sty 03 1ado0o1d ssaap aTou ya pue adseo usprTob E s10M 3243 23103234 SaATI1E sy usqa querTeb qual 41313 Te azaymasTa pue PIOETA ayy 03 200101 Jo 39104 31439 E BAG 124 TS UTU PEU ay Z4iadezp Jo 39314 913581083 e daap e g fTTTm Jo pue a6eanos Jo UOTI13X3 peulMiejep E TY 03 SSaUU129 TRuoTaTppe 2AE m01q sty uo 1695 dasp E pue a3oueua3moo STU oq SSaUU131S TEUOT Pappe ay 124080 2393 OL Ss sanojToo quaz se suoxes oThuy 343 30 30uaqstxa IJ YA Jo 28042 aXIT 212q 83204 IA 2331 JTE YITM Pa312409 sem Peau sty Ss arom pues Jo ahaeyo ayq UT ST PUE SaATT 23n1q ay ogur uns 243 Jo asouanTJutT ayq Aq paqgozo UTU ayhneq PEU UOTIENIATE pue uotssajord aTtym 3auoxos9 e HuttTqmasaz yxaom Uado Jo 55019 e YQOTO 3aqTym UT 1n9 SEM 3213 SB paaToaut UT Jo paezey UTEZI IUA S
342. of produced subgraphs D My UnitexiFrenchiGraphsiTestGraph_ grt Set Cancel Compile FIGURE 9 7 Configuration de la g n ration automatique de graphes Le cadre Name of produced subgraphs permet de pr ciser le nom des graphes qui seront g n r s Afin d tre certain que tous les graphes auront des noms distincts il est conseill d utiliser la variable cette variable sera remplac e pour chaque entr e par le num ro de celle ci garantissant ainsi que tous les graphes auront un nom diff rent Par exemple si l on remplit ce cadre avec le nom TestGraph grf et si les sous graphes sont nom m s TestGraph_ grf le sous graphe g n r partir de la 16 ligne sera nomm TestGraph_0016 grf Les figures 9 8 et 9 9 montrent deux graphes g n r s en appliquant le graphe param tr de la figure 9 3 a la table 31H La figure 9 10 montre le graphe principal obtenu lt archaiser V G gt NO tre V ant le verbe n 0007 ne v rifie pas la propri t de la colonne A FIGURE 9 8 Graphe g n r pour le verbe archaiser 9 2 CONVERSION D UNE TABLE EN GRAPHES 211 NO V vers N FIGURE 9 9 Graphe g n r pour le verbe badauder TestGraph_0119 TestGraph_0120 TestGraph_0121 TestGraph_ 0122 TestGraph_0123 TestGraph_0124 TestGraph_0125 TestGraph_0126 TestGraph_0127 TestGraph_0128 TestGraph_0129 TestGraph_0130 TestGraph_0131 FIGURE 9 10
343. oici sa repr sentation en Unicode Big Endian BOM header U n i t e x q B FEFF 0055 006E 0069 0074 0065 0078 00 OD 00 OA 03 B2 v e r s i O n 4 00 2D 0076 0065 0072 0073 0069 00 6F 00 6E 00 0D 00 OA TABLE 14 2 Repr sentation hexad cimale d un texte Unicode Big Endian Voici sa repr sentation Unicode en UTF 8 BOM header U n i t e x 4 B EF BBBF 55 6E 69 74 65 78 ODOA CEB2 e r s i o n 4 2D 76 65 72 73 69 6F 6E OD OA TABLE 14 3 Repr sentation hexad cimale d un texte Unicode UTF 8 En Unicode Little Endian les octets de poids fort et de poids faible ont t invers s ce qui explique que le caract re d en t te soit cod par FF FE au lieu de FE FF idem pour 00 0D et 00 OA qui sont devenus respectivement 0 14 2 Fichiers d alphabet D 00 and 0A 00 Il y a deux sortes de fichiers d alphabet un fichier qui d finit les caract res d une langue et un fichier indiquant des pr f rences pour le tri Le premier est d sign sous le terme alphabet et le second sous celui alphabet de tri 14 2 1 Alphabet Le fichier d alphabet est un fichier texte d crivant tous les caract res d une langue ainsi que les correspondances entre lettres minuscules et majuscules Ce fichier doit 14 2 FICHIERS D ALPHABET 313 s appeler Alphabet t xt et doit se t
344. olice si la sortie est fichier HTML Les param tres concernant la police sont ignor s si la sortie n est pas au format HTML e only_ambiguous Affiche seulement les occurrences identiques avec une sortie ambigu dans l odre du texte e only_matches cette option d finit un mode sans contexte En outre si elle est utilis e avec t t ext Concord n entoure pas les s quences reconnues de tabulations e 1 X left X nombre de caract res gauche des occurrences par d faut 0 Dans le mode Thai ceci correspond au nombre de caract res non dia critiques e r X right X nombre de caract res non diacritiques dans le mode Thai droite des occurrences par d faut 0 Si l occurrence est plus petite que cette valeur la ligne de concordance est compl t e jusqu right Si l occurrence est plus longue que la valeur d finie par right elle est n anmoins enti rement conserv e NOTE Pour left et right vous pouvez ajouter le caract re s pour arr ter au premier symbole de fin de phrase S Par exemple si vous mettez 40s comme valeur de gauche le contexte gauche sera au plus 40 caracteres moins si le S est trouv avant Options de tri e TO ordre dans lequel les occurrences apparaissent dans le texte par d faut e LC contexte gauche comme premier tri occurrence comme second tri e LR contexte gauche contexte droit e CL occurrence contexte gauche e
345. om du graphe avec son chemin complet dans le coin in f rieur gauche du graphe Cette option n a d effet que si l option File Name est s lec tionn e Frame dessine un cadre autour du graphe Right to Left inverse le sens de lecture du graphe voir exemple de la figure 5 33 FIGURE 5 33 Graphe se lisant de droite gauche Vous pouvez r tablir les param tres par d faut en cliquant sur le bouton Default Si vous cliquez sur le bouton OK seul le graphe courant sera modifi Pour modifier les pr f rences par d faut d une langue cliquez sur Preferences dans le menu Info et choisissez l on glet Graph Presentation 5 4 Les graphes en dehors d Unitex 5 4 1 Inclusion d un graphe dans un document Pour inclure un graphe dans un document il faut en faire une image Pour cela une premi re m thode consiste exporter votre graphe vers un format d image PNG JPEG ou SVG Pour cela allez dans le menu FSGraph et cliquez sur Export as image Choisissez ensuite le type de fichier Vous obtiendrez ainsi une image pr te tre int gr e dans un 116 CHAPITRE 5 GRAMMAIRES LOCALES document ou tre dit e avec un logiciel de retouche d images Afin de rendre l image plus lisse vous pouvez activer l antialiasing pour le graphe qui vous int resse Contraitement au JPEG le format PNG utilise une compression sans perte de qualit donc le PNG donne toujours un meill
346. ombre de phrases C r f rence PRLG si elle existe D la forme fl chie pr sente dans le texte E le lemme s il existe F les codes s il y en a Pour fonctionner cette option doit re appel e pour des fichier concord ind qui ne contiennent pas de token S ni espace Autres options e d DIR directory DIR indique au programme qu il ne doit pas tra vailler avec le m me r pertoire que lt index gt mais avec DIR a ALPH alphabet ALPH fichier alphabet utilis pour le tri e T thai option utiliser pour les concordances en Thai Le r sultat de l application de ce programme est un fichier concord txt si la con cordance a t construite en mode texte un fichier concord html pour les modes html glossanet ou script et un fichier texte dont le nom a t d fini par l utilisateur si le programme a construit une version modifi e du texte En mode htm1 l occurrence est cod e comme un lien La r f rence associ e ce lien est de la forme lt a href X Y Z gt Xet Y repr sentent les positions de d but et de fin de l occurrence en caract res dans le fichier text_name snt Z repr sente le num ro de la phrase dans laquelle appara t l occurrence 13 10 CONCORDIFF 275 13 10 ConcorDiff ConcorDiff OPTIONS lt concorl gt lt concor2 gt Ce programme prend deux fichiers de concordance et produit une page HTML montrant les diff rences entre ces deux concordances voir
347. omin 3fsY closed V 13s4 easily ADVY her DET Poss3fs pY eyes N p4 when CONJY some DET Dadj p infractions N p4 might V 13p4 appear V W4 justified V K4 against PREPY higher Aq 336 CHAPITRE 14 FORMATS DE FICHIERS interests N p4 PONCTS q REMARQUE Les phrases doivent tre d limit es par des lignes vides Le format t xt peut galement tre utilis voir section 14 4 1 Chaque mot du texte doit tre repr sent par une tiquette lexicale valide aujourd hui ADV et les phrases sont d limit es par S Voici l exemple pr c dent dans le format EXC The DET Ddef s GATT N s had V 13s formerly ADV a DET Dind s political A assessment N s of PREP the DET Ddef s behavior N s of PREP foreign countries PONCT S She PRO Nomin 3fs closed V 13s easily ADV her DET Poss3fs p eyes N p when CONJ some DET Dadj p infraction N p might V 13p appear V W justified V K lagainst PREP higher A interests N p PONCT 5 14 10 2 Le fichier de donn es du taggueur The TrainingTagger programme genere deux fichiers de donn es par d faut utilis par le programme Tagger afin de calculer un mod le de Markov cach d or dre 2 Ces fichiers contiennent des tuples unigram bigramme et trigramme extraits du corpus tiquet corpus txt Les tup
348. on ils sont inutiles et donc d sactiv s e entourer les bo tes s lectionn es avec la d finition d une variable d entr e ou de sortie d un contexte au sens de la section 6 3 ou des d limiteurs du mode morphologique Ces op rations sont galement r alisables avec la barre d outils de la fen tre d dition du graphe voir section 5 2 8 e fusionner les bo tes s lectionn es e exporter les bo tes s lectionn es en tant que nouveau graphe 5 2 2 Sous graphes Pour faire appel un sous graphe il faut indiquer son nom dans une bo te en le faisant pr c der du caract re Si vous entrez dans une bo te le texte suivant alpha beta gamma E greek delta grf vous obtiendrez une bo te similaire celle de la figure 5 9 alpha beta gamma E greek delta grf FIGURE 5 9 Graphe faisant appel aux sous graphes beta et delta Vous pouvez indiquer le nom complet du graphe E greek delta grf ou simplement le nom sans le chemin d acc s beta dans ce cas le sous graphe est suppos se trouver dans le m me r pertoire que le graphe qui y fait r f rence Il est d conseill d utiliser des noms de graphes comportant des chemins absolus car cela nuit leur portabilit Si vous utilisez un nom de graphe absolu comme c est ici le cas pour E greek delta grf le compilateur de graphe mettra un avertissement voir figure 5 10 Pour les m mes raisons de portabilit il est d conseill d utiliser
349. on on a une boucle infinie qu Unitex ne peut pas liminer a HEO FIGURE 6 9 Boucle infinie due un appel un sous graphe reconnaissant epsilon La troisieme possibilit de boucle infinie concerne les appels r cursifs des sous graphes Consid rons les graphes Det et DetCompose de la figure 6 10 Chacun de ces graphes peut appeler l autre sans rien lire dans le texte Le fait qu aucun des deux graphes ne comporte d tiquette entre l tat initial et l appel l autre graphe est capital En effet s il y avait au moins une tiquette diff rente d epsilon entre le d but du graphe Det et l appel Det Compose cela signifierait que les programmes d Unitex explorant le graphe Det devraient lire le motif d crit par cette tiquette dans le texte avant d appeler r cursivement Det Compose Dans ce cas les programmes ne pourraient boucler ind finiment que s ils rencontraient une infinit de fois le motif dans le texte ce qui ne peut pas arriver 6 2 COMPILATION D UNE GRAMMAIRE 127 E Det grf X BOULOTiRecherch o 7 Bd DetCompose grf X BOULOTiRecherchel o E DI lt DET gt less Da HeH FIGURE 6 10 Boucle infinie caus e par deux graphes s appelant l un l autre 6 24 Intervalle pour le nombre de r p titions Pour reconna tre des s quences de tokens dans laquelle un motif appara t une fois plusieurs fois ou jamais on peut associer un intervalle
350. on 2 5 4 AUCUN des m tas ne peut tre utilis pour reconna tre le marqueur STOP pas m me lt TOKEN gt 4 3 2 R f rence aux informations fournies par les dictionnaires La seconde sorte de masques lexicaux regroupe ceux qui font appel aux informations contenues dans les dictionnaires du texte Les quatre formes possibles sont e lt lire gt reconna t toutes les entr es qui ont lire comme forme canonique On re marque que cette forme est ambigu si 1 i re est aussi un code grammatical ou s man tique e lt lire gt reconna t toutes les entr es qui ont lire comme forme canonique Ce masque lexical n est pas ambigu avec le pr c dent e lt be V gt reconna t toutes les entr es qui ont lire comme forme canonique et qui ont le code grammatical V e lt V gt reconna t toutes les entr es qui ont le code grammatical v Ce masque lexical est ambigu comme le premier Pour lever l ambuguit on peut utiliser lt V gt ou lt V gt e lirons lire V ou lt lirons lire V gt reconnait toutes les entr es qui ont lir ons comme forme fl chie 1ire comme forme canonique et qui ont le code grammat ical V Ce type de masque n a d int r t que si l on travaille sur l automate du texte o sont explicit es les ambiguit s des mots Lorsque l on effectue une recherche sur le texte ce masque reconna t la m me chose que la simple unit lexicale lirons 4 3 3 Contraintes grammaticales et s mantiques Les masqu
351. op_check active la v rification d erreurs d tection de boucles e n no_loop_check d sactive la v rification d erreurs par d faut a ALPH alphabet ALPH sp cifie le fichier d alphabet utiliser pour faire le d coupage en unit s lexicales du contenu des bo tes de la grammaire e c char_by_char le d coupage se fait caract re par caract re Si ni c ni a ne sont utilis s le d coupage s effectue en prenant des suites de lettres Unicode e d DIR pkgdir DIR d finit le r pertoire de d p t utiliser pour com piler la grammaire voir section 5 2 2 page 99 e e no_ empty_graph_ warning pas d mission de warning quand les graphes reconnaissent le mot vide Cette option est utilis e par MultiFlex pour ne pas effrayer les utilisateurs par des messages d erreurs inad quats lorsqu ils construisent une grammaire de flexion qui reconna t le mot vide e t tfst_ check v rifie si le graphe donn peut tre consid r comme un automate de phrases ou non e s silent_grf_name n affiche pas le nom des graphes n cessaire pour l utilisation de fichiers log sur plusieurs syst mes 288 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e r XXX named_repositories XXX d claration de noms de r pertoires de d p t XXX est form d une s quence d un ou plusieurs X Y s par s par o X est le nom du r pertoire de d p t d sign par le chemin Y Vous pouvez
352. option Linearize with the Tag ger dans la fen tre de configuration pour construire l automate du texte cf figure 7 25 Avec cette option le programme lin arise chaque phrase de l automate Vous devez gale ment s lectionner le fichier de donn es du taggeur avec l extension bin en cliquant sur le bouton Set Le fichier de donn es du taggeur suffix par morph est la premi re variante avec les codes flexionnels et celle suffix e par cat est la seconde sans codes flexionnels Si vous utilisez les donn es de type morph vous devez galement cliquer sur Normalize accordind to Elag tagset def pour plus de d tails voir section 13 39 au sujet du programme Tagger Par exemple l automate du texte de la figure 7 24 est la sortie de la lin arisation de l auto mate du texte de la figure 7 23 avec la version cat La lin arisation de l automate avec la version morph se trouve figure 7 26 188 CHAPITRE 7 AUTOMATE DU TEXTE E Construct the Text FST Normalization Build clitic normalization grammar available only for Portuguese Portugal lv Apply the Normalization grammar home sigogne unitex French Graphs Normalization Norm grf Set WW Clean Text FST C Normalize according to Elag tagset def W Linearize with the Tagger home sigogne unitex French Dela corpus_data_cat bin Set Use Following Dictionaries previously constructed The program will construct the t
353. ormations avec des variables voir section 6 7 5 et les utiliser en dehors du contexte gauche comme le montrent la grammaire de la figure 6 26 et son r sultat dans la figure 6 27 On peut invoquer dans une grammaire un graphe qui contient des contextes gauches mais cela n cessite d tre vigilant Au moment o le contexte gauche est exclu de la s quence reconnue toutes les s quences qui avaient t reconnues par des graphes appelants en sont exclues galement car la s quence qui sera finalement reconnue devra tre contigu Les sorties correspondant aux s quences exclues sont ignor es elles aussi Ainsi avec des contextes gauche et droit on peut faire une distinction entre les motifs util is s pour reconna tre des points du texte et la d limitation des s quences extraire dans 6 3 CONTEXTES 135 DO seven Det num eight nine ten FIGURE 6 26 Utilisation d une variable dans un contexte gauche Concordance D My Unitex English Corpusivanhoe_snticoncord html e courses and cast to the ground three antagonists Det three 5 I add that sia utes to keep at sword s point his three antagonists Det three turning and whee entinels to give the alarm when any one approaches Det one 5 But I trust soon omanlike and bravely 5 Of twenty four arrows Det four shot in succession te started up and bent their bows 5 Six arrows Det 5ix placed on the string wer he back of which was decorated w
354. oss roads cross roads NC_XXNs p heads of government head of government NC_NofNs p heads of governments head of government NC_NofNs p head of government head of government NC_NofNs s notaries public notary public NC_NsNs p notary public notary public NC_NsNs s 11 3 INT GRATION UNITEX 235 notary publics notary public NC_NsNs p rolling stone rolling stone NC_XXN s rolling stones rolling stone NC_XXN p students union student union NC_Ns N s students unions student union NC_Ns N p students union student union NC_Ns N s students unions student union NC_Ns N p s S tudent union student union NC_Ns N s tudent unions student union NC_Ns N p FIGURE 11 10 Graphe de flexion N1 de FIGURE 11 11 Graphe de flexion N3 de mots mots simples anglais simples anglais e g angle of reflection lt Nb n gt FIGURE 11 12 Graphe de flexion NC_NXXXX de mots compos s anglais e g advance booking office FIGURE 11 13 Graphe de flexion NC_XXXXN de mots compos s anglais hse Hse pisans 0 e g air brake lt Nb n gt FIGURE 11 14 Graphe de flexion NC_XXN de mots compos s anglais 236 CHAPITRE 11 FLEXION DES MOTS COMPOS S e g birth date Eee EEE 5232 FIGURE 11 15 Graphe de flexion NC_NN_NofN de mots compos s anglais Hese Hse Hs lt Nb p gt e g criminal police FIGURE
355. oto grf home paumier Unitex2 1 beta App toto grf home paumier Unitex2 1 beta App UnitexToolLogger CreateLog d home paumier O O O O O O O O A O FIGURE 13 3 Console 13 3 Unitex JNI Vous pouvez utilisez Unitex avec JNI by en incluant les imports suivants import fr umlv unitex 3jni UnitexJni import java io x import fr umlv unitex x Ceci vous permet de charger en m moire les dictionnaires bin les grammaires ou graphes dictionnaires fst2 et les fichiers alphabet et de les garder en m moire de mani re persistante Vous utilisez alors le nom de fichier renvoy par la foncton loadPersistent 268 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES String persistentAlphabet UnitexJni loadPersistentAlphabet unit String persistentFst2 UnitexJni loadPersistentFst2 unitex Frenc String persistentDictionary UnitexJni loadPersistentDictionary unitex French Dela communesFR bin 13 4 Param tres de codage des fichiers textes Unitex utilise Unicode pour les fichiers textes 14 1 Tous les programmes qui lisent ou crivent des fichiers textes partagent les m mes param tres d encodage Les formats possibles sont utf16le bom utf16le no bom utfl6be bom utf16be no bom utf8 bom utf8 no bom qui correspondent Unicode Big Endian Little Endian et UTF 8 avec ou sans Unicode byte order mark bom au d but du fichier Po
356. ots simples Comme d crit dans la section 3 1 2 une ligne de DELAS se compose g n ralement d une forme canonique et d une s quence de codes grammaticaux ou s mantiques aviatrix N4 Hum matrix N4 Math radix N4 Le premier code rencontr est interpr t comme le nom de la grammaire a utiliser pour fl chir la forme canonique Il y a deux formes possibles e N4 nom de la grammaire N4 fst2 codes grammaticaux N le plus long pr fixe uniquement compos de lettres e N NC_XXX nom de la grammaire NC_XXX fst 2 codes grammaticaux N Ces grammaires de flexion seront automatiquement compil es si besoin est Dans l exemple ci dessus toutes les entr es seront fl chies avec une grammaire nomm e N4 Pour lancer la flexion cliquez sur Inflect dans le menu DELA La fen tre de la figure 3 7 permet d indiquer au programme de flexion le r pertoire dans lequel se trouvent les gram maires de flexion Par d faut le sous r pertoire Inflection du r pertoire de la langue courante est utilis On peut aussi sp cifier quels types de mots le dictionnaire est suppos contenir Si une entr e non conforme est rencontr e un message d erreur sera affich 56 CHAPITRE 3 DICTIONNAIRES F Inflection j Directory where inflectional FST2 are stored home igm unitex English Inflection Set a Allow both simple and compound words Allow only simple words Allow only compound words Cancel Inflect
357. ouncil 566 0 0 570 10 0 the national convulsions 590 0 0 594 5 0 the inferior gentry 626 0 0 630 11 0 the English constitution 696 0 0 700 4 0 the petty kings 813 0 0 817 5 0 the certain hazard 896 0 0 900 5 0 the great Barons 938 0 0 942 3 0 the very edge La premi re ligne indique dans quel mode de transduction la concordance a t calcul e Les trois valeurs possibles sont e 1 les transductions ont t ignor es e M les transductions ont t ins r es dans les s quences reconnues mode MERGE e R les transductions ont remplac les s quences reconnues mode REPLACE Chaque occurrence est d crite par une ligne Les lignes commencent par les posi tions de d but et de fin de l occurrence Ces positions correspondent aux offsets d finis dans le fichier tag t fst voir 14 5 1 Si le fichier comporte la ligne d en t te 1 la position de fin de chaque occurrence est imm diatement suivie d un retour a la ligne Dans le cas contraire elle est suivie d un espace et d une chaine de caract res En mode REPLACE cette chaine corre spond la transduction produite pour la s quence reconnue En mode MERGE elle repr sente la s quence reconnue dans laquelle ont t ins r es les transductions En mode MERGE ou REPLACE c est cette chaine qui est affich e dans la concordance Si les transductions ont t ignor es le contenu de l occurrence est extrait du fichier texte
358. ous utilisons la marque lexicale de mani re particuli re Une cascade de transducteurs est int ressante pour localiser un lot de certitude Il est n cessaire pour ce type de syst me d viter que des motifs pr c demment reconnus soient ambigus avec ceux reconnus par les graphes suivants Pour viter cela on tiquette les motifs reconnus par les graphes sous la forme et fag1 tag2 tagn o tagl tag2 etc sont vos propres tiquettes Pour expliciter ce comportement voici un exemple tr s simple Le texte sur lequel nous travaillons est bac a b c cc a b b ba ab a b bca a bc abaabc Le graphe grfAB 12 7 reconna t la s quence ab dans le texte et lui ajoute l tiquette lexicale a b AB Ce graphe appliqu en mode MERGE ajoute et AB dans le texte FIGURE 12 7 Le graphe grfAB Le texte r sultant est bac a b AB c cc a b AB b ba ab a b AB bca a b AB c abaabc 12 3 GRAPHES G N RIQUES 259 Maintenant le motif a b est tiquet AB La partie a ou b seul de ce motif ne peut pas l tre cause de l tiquetage de a b Apr s ce graphe la cascade applique un autre graphe nomm tag AB 12 8 con tenant le masque lexical lt AB gt Il reconnait toutes les s quences lexicalement ti quet es par le graphe pr c dent FIGURE 12 8 Le graphe tag AB Le texte r sultant est bac fla b AB c ABC cc a b AB b ba ab a b AB bca BCA la b AB c ABC abaabc La con
359. ouvera aussi la licence 2 clause BSD qui s applique la biblioth que TRE utilis e par Unitex pour les filtres morphologiques TABLE DES MATI RES 17 Contributions Unitex Unitex est n comme un pari sur la puissance de la philosophie Open Source dans le monde universitaire voir http igm univ mlv fr unitex why_unitex html en s appuyant sur l hypoth se que les gens seraient int ress s partager leurs connaissances et leurs comp tences dans un tel projet ouvert e Olivier Blanc a int gr le syst me ELAG Unitex originellement con u par Eric La porte Anne Monceaux et certains de leurs tudiants a galement crit RebuildTfst anciennement appel MergeTextAutomaton e Matthieu Constant auteur de Grf2Fst2 e Julien Decreton auteur de l diteur de texte int gr Unitex a aussi r alis la fonc tionnalit undo de l diteur de graphe e Claude Devis ajout des filtres morphologiques fond sur la librairie TRE e Hyun Gue Huh auteur de l outil de g n ration de dictionnaires cor ens e Claude Martineau a travaill sur la flexion des mots simples dans MultiFlex e Sebastian Nagel a optimis de nombreuses parties du code il a galement adapt PolyLex pour l allemand et le russe e Alexis Neme a optimis Dico et Tokenize a aussi int gr Locate dans Dico pour accepter des graphes dictionnaires e Aljosa Obuljen auteur de Stats e S bastien Paumier d veloppeur principal e Agata Sa
360. par des tabulations et les lignes par des retours la ligne Pour convertir une table avec OpenOffice org Calc sauvegardez la au format texte exten sion csv Le programme vous propose ensuite de param trer la sauvegarde au moyen d une fen tre comme celle de la figure 9 2 Choisissez le codage Unicode s lectionnez la tabulation comme s parateur de colonnes et ne pr cisez pas de d limiteur de texte Export de texte 3 E x Options de champ Jeu de caract res Unicode y RE E Annuler S parateur de champ rab y S parateur de texte Y Aide I Largeur de colonne fixe FIGURE 9 2 Configuration de la sauvegarde d une table avec OpenOffice org Calc Lors de la g n ration des graphes Unitex saute la premi re ligne consid r e comme don nant les en t tes des colonnes Vous devez donc vous assurer que les en t tes des colonnes occupent exactement une ligne S il n y a pas de ligne d en t te la premi re ligne de la ta ble sera ignor e et s il y a plusieurs lignes d en t te elles seront interpr t es partir de la deuxi me comme des lignes de la table 9 2 3 Les graphes param tr s Les graphes param tr s sont des graphes dans lesquels apparaissent des variables fai sant r f rence aux colonnes d une table de lexique grammaire On utilise g n ralement ce m canisme avec des graphes syntaxiques mais rien n emp cherait de construire des graphes param tr s de flexion de pr trait
361. par un masque M il faut qu au moins un code flexionnel de E contienne tous les caract res d au moins un code flexionnel de M Consid rons l exemple suivant E s pare s parer V W P1s P3s S1s S3s Y2s M lt V P2s Y2 gt Aucun code flexionnel de E ne contient la fois les caract res P 2 et s Cependant le code Y2s de E contient bien les caracteres Y et 2 Le code Y2 est inclus dans au moins un code de E le masque lexical M reconna t donc l entr e E 4 3 5 N gation d un masque lexical Il est possible de faire la n gation d un motif au moyen du caract re plac imm di atement apr s le caract re lt La n gation est possible sur les m tas lt WORD gt lt LOWER gt lt UPPER gt lt FIRST gt lt DIC gt ainsi que sur les masques lexicaux ne comportant que des codes grammaticaux s mantiques ou flexionnels i e lt V z3 P3 gt Les motifs et sont la n gation l un de l autre Le m ta lt WORD gt peut reconna tre toutes les unit s lex icales qui ne sont pas form es de lettres sauf le s parateur de phrases S et bien s r 3 Et sur leurs quivalents d pr ci s lt MOT gt lt MIN gt lt MAJ gt lt PRE gt Voir section 4 3 1 80 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES le marqueur STOP La n gation est sans effet sur lt NB gt lt SDIC gt lt CDIC gt lt TDIC gt et lt TOKEN gt La n gation est interpr t e d une fa on particuli re dans les m tas lt DIC g
362. part de chaque phrase sous la forme d une suite de 4 octets en little endian 14 5 3 Fichier cursentence grf Le fichier cursentence grf est g n r par Unitex lors de l affichage d un au tomate de phrase Le programme Fst2Grf construit un fichier grf repr sentant l automate d une phrase partir du fichier text fst2 NOTE les sorties des bo tes sont utilis es pour coder les offsets tels que d finis dans tfst Les offsets sont s par s par des espaces Voici par exemple quelques lignes qui representent la premi re phrase d Ivanhoe Ivanhoe 0 0 0 0 6 0 100 200 2 3 4 Y by bys PARTI Z O0 0 2 1 0 220 150256 by by PREP 2 O0 0 2 1 0 220 50256 Sir sir N Hum s 4 0 O0 4 2 0 310 200 1 99 324 CHAPITRE 14 FORMATS DE FICHIERS 14 54 Fichier sentenceN grf Lorsque l utilisateur modifie l automate d une phrase cet automate est sauveg ard sous le nom sentenceN grf o N repr sente le num ro de la phrase un tel graphe contient des offsets dans les sorties des bo tes du graphe voir note section 14 5 3 145 5 Fichier cursentence txt Lors de l extraction de l automate phrase le texte de la phrase est enregistr dans le fichier appel cursentence txt Ce fichier est utilis par Unitex pour afficher le texte de la phrase sous l automate Ce fichier contient le texte de la phrase suivie d un saut de ligne 14 5 6 The cursentence tok file Lors de l extraction de l automate phrase les num
363. ple est maintenant dans le presse papiers d Unitex Vous pouvez alors coller cette s lection en pressant lt Ctrl V gt ou en cliquant sur Paste dans le menu Edit 104 CHAPITRE 5 GRAMMAIRES LOCALES F monday grf Unsaved Monday Tuesday Wednesday Thursday Friday Saturday Sunday Friday Saturday Sunday FIGURE 5 18 Copier coller d une s lection multiple NOTE Vous pouvez coller une s lection multiple dans des graphes diff rents de celui dont elle est issue Pour supprimer des boites s lectionnez les effacez le texte qu elles contiennent c est a dire le texte affich dans le champ situ en haut de la fen tre et appuyez sur Enter On ne peut pas supprimer l tat initial ni l tat final 5 2 4 Sortie Il est possible d associer une sortie une bo te Pour cela on utilise le caract re sp cial Tous les caract res situ s droite de celui ci seront consid r s comme faisant partie de la sortie Ainsi le texte one two three number donne la bo te de la figure 5 19 number FIGURE 5 19 Exemple de sortie 5 2 DITION DE GRAPHES 105 Pour cr er une boite vide avec une sortie contenant number on crit lt E gt number exem ple la boite la plus droite dans la figure 5 21 est vide et a une sortie La sortie associ e une bo te est repr sent e en gras sous celle ci Poids On peut attribuer un poids des bo tes d un transducteur Ainsi lorsq
364. pour xml normal_tags IGNORE chaque tag diff rent est supprim par d faut pour xml normal_tags SPACE chaque tag diff rent est remplac est remplac par un unique espace par d faut pour html 13 52 XMLizer XMLizer OPTIONS lt txt gt Ce programme prend un fichier texte brut lt txt gt et produit le fichier quivalent au format TEI ou XML La diff rence entre TEI et XML est que les fichier TEI contien nent une en t te de type TEI OPTIONS x xm1 produit un fichier a XML t tei produit un fichier TEI par d faut n XXX normalization XXX d signe le fichier de r gles de normalisa tion utiliser voir section 14 13 6 o O UT output OUT nom optionnel du de fichier de sortie par d faut file txt gt file xml a ALPH alphabet ALPH fichier alphabet s SEG segmentation_grammar SEG grammaire de d limitation de phrase utiliser Cette grammaire devrait ressembler la grammaire Sentence grf utilis e lors du pr traitement d un corpus mais elle peut comporter l tiquette sp ciale P pour indiquuer les limites de paragraphe Chapitre 14 Formats de fichiers Ce chapitre pr sente les formats des diff rents fichiers lus ou g n r s par Unitex Les formats des dictionnaires DELAS et DELAF sont d j pr sent s aux sections SLL etal NOTE dans ce chapitre le symbole repr sentera le retour la ligne Sauf indica tion contraire tous
365. q g Anim g a Comp a b Comp b c Comp c d Det d k Det k e Det e Consid rons l extrait du DELAC serbe suivant les codes flexionnels des mots simples peu vent tre diff rents de ceux pr sents dans Unitex zxiro racyun racyun Nl ms1lq NC_2XN1 N Comp avio prevoznik prevoznik N10 mslv NC_2XN2 N Comp predsednik predsednik N10 mslv drzxave drzxava N600 fs2q NC_N2X1 N Comp Ujedinxene Ujedinxen Al aefplg nacije nacija N600 fplq NC_AXN3 N Comp NProp Org Kosovo Kosovo N308 nslq i Metohija Metohija N623 fslq NC_N3XN N Comp NProp Top Reg istrazxni istrazxni A2 admslg sudija sudija N679 mslv NC_AXNF N Comp Mirosinka Mirosinka N1637 fslv Dinkicx Dinkicx N1028 mslv NC_ImePrezime N Comp Hum PersName gladan gladan A18 akmslg kao vuk vuk N128 mslv AC_A3XN2 hungry as a wolf Les graphes de flexion correspondants se trouvent de la figure 11 28 a la figure 11 35 Le DELACF r sultant de la flexion par MULTIFLEX du DELAC pr c dent est le suivant zxiro racyun zxiro racyun NC_2XN1 N Comp slqm zxiro racyuna zxiro racyun NC_2XN1 N Comp s2qm zxiro racyunu zxiro racyun NC_2XN1 N Comp s3qm zxiro racyun zxiro racyun NC_2XN1 N Comp s4qm zxiro racyune zxiro racyun NC_2XN1 N Comp s5qm zxiro racyunom zxiro racyun NC_2XN1 N Comp s6qm zxiro racyunu zxiro racyun NC_2XN1 N Comp s7qm 242 CHAPITRE 11 FLEXION DES MOTS COMPOS S zxiro racyuni zxiro racyun NC_2X zxiro racyuna zxiro racyun NC_2X zxiro r
366. ques 2002 Th se de doctorat Universit de Tours 12 32 A Simple English Axis Generator http nlp cs nyu edu GMA docs HOWTO axis 13 9 33 Jacqueline GIRY SCHNEIDER Syntax and lexicon Blessure wound noeud knot caresse caress SMIL Journal of Linguistic Calculus 3 4 55 72 1978 9 1 34 Jacqueline GIRY SCHNEIDER Les nominalisations en francais L op rateur faire dans le lexique Droz Geneve Paris 1978 9 1 35 Jacqueline GIRY SCHNEIDER Les pr dicats nominaux en fran ais Les phrases sim ples verbe support Droz Geneve Paris 1987 9 1 36 GNU Lesser General Public License http www gnu org licenses lgpl html 1 1 14 13 12 37 Gaston GROSS D finition des noms compos s dans un lexique grammaire Langue Francaise 87 1990 11 1 38 Gaston GROSS Les expressions fig es en fran ais Noms compos s et autres locutions Ophrys Paris 1996 3 8 11 1 39 Maurice GROSS M thodes en syntaxe Hermann Paris 1975 9 1 40 Maurice GROSS Sur quelques groupes nominaux complexes In J C Cheva lier et M Gross editor M thodes en grammaire fran aise pages 97 119 Paris Klincksieck 1976 9 1 378 BIBLIOGRAPHIE 41 Maurice GROSS Taxonomy in syntax SMIL Journal of Linguistic Calculus 3 4 73 96 1978 9 1 42 Maurice GROSS Simple sentences Discussion of Fred W Householder s paper analysis synthesis and improvisation In Sture Allen editor Text Processing Proceedi
367. quettes avec une tiquette par token et de supprimer les autres Le r sultat est un automate du texte avec un seul chemin voir section 7 6 pour convertir un automate lin aire en un texte lin aire Le choix du chemin d pend de son score Le chemin avec le 186 CHAPITRE 7 AUTOMATE DU TEXTE lt PRO PpvLE gt lt PRO PpvLUI gt lt PRO PpvPR gt lt PRO T on gt FIGURE 7 22 Grammaire ELAG optimis e v rifiant l accord entre verbe et pronom meilleur score est choisi et les autres supprim s Le score d un chemin est calcul par un mod le statistique entrain sur un corpus annot Ce mod le utilise des fichiers de donn es du taggeur produites par le programme Training Tagger vour section 13 45 Par exemple vous pouvez voir figure 7 23 l automate du texte original sur la phrase Les insectes nuisibles envahissent la maison L automate du texte apr s lin arisation est celui de la figure 7 24 nuisibles FIGURE 7 23 Automate du texte de Les insectes nuisibles envahissent la maison 7 4 LIN ARISATION DE L AUTOMATE DU TEXTE AVEC LE TAGGEUR 187 Les insectes nuisibles envahissent le insecte nuisible envahir maison B N fs DET fp mp N mp V T3p S3p P3p DET fs PONCT FIGURE 7 24 Automate du texte lin aris 7 4 1 Compatibilit du jeu d tiquettes Le jeu d tiquettes du taggeur est identique celui du corpus d entrainement ou en est une variante voir ci dessous Toute
368. r appliquer ce transduc teur Le format d une ligne du fichier csc est Name_and_path_of_transducer Merge Voici un exemple de fichier de cascade csc C apps my_unitex French Graphs grfl fst2 Merge C apps my_unitex French Graphs grf2 fst2 Replace 14 13 Plusieurs autres fichiers Pour chaque texte Unitex cr e plusieurs fichiers contenant des informations des tin es tre affich es dans l interface graphique Cette section d crit ces diff rents fichiers 14 13 1 Fichier dlf n dlc n err n et tags_err n Ces trois fichiers sont des fichiers texte se trouvant dans le r pertoire du texte Ils contiennent respectivement les nombres de lignes des fichiers d1f dlc err et tags_err Ces nombres sont suivis par un retour la ligne 14 13 2 Fichier stat dic n Ce fichier est un fichier texte se trouvant dans le r pertoire du texte Il est form de trois lignes contenant les nombres de lignes des fichiers d1f dlc and err 14 13 3 Fichier stats n Ce fichier texte se trouve dans le r pertoire du texte et contient une ligne de la forme suivante 3949 sentence delimiters 169394 9428 diff tokens 73788 9399 simple forms 438 10 digits Les nombres indiqu s s interpr tent de la fa on suivante e sentence delimiters nombre de s parateurs de phrases S e tokens nombre total d unit s lexicales du texte Le nombre pr c dant diff indique le nombre d unit s diff rentes
369. r P seul ceci est un exemple est un commentaire Les commentaires sont facultatifs et doivent tre introduits par le caract re Les commentaires sont supprim s lorsque l on comprime les dictionnaires REMARQUE IMPORTANTE il est possible d utiliser le point et la virgule dans une entr e de dictionnaire Pour cela il faut les d sp cialiser avec le caract re 3 1415 PI NOMBRE Organisation des Nations Unies O N U SIGLE ATTENTION chaque caract re est pris en compte dans une ligne de dictionnaire Par ex emple si vous introduisez des espaces ceux ci seront consid r s comme faisant partie int grante des informations Dans la ligne suivante 3 1 LES DICTIONNAIRES DELA 47 g t g sir V z1 P3s voir ci g t l espace qui pr c de le caract re sera consid r comme faisant partie d un code flexionnel 4 caract res compos s de P 3 s et d un espace Il est possible d ins rer des lignes de commentaires dans un dictionnaire DELAF ou DELAS en faisant d buter la ligne par le caract re Exemple L entr e nominale pour par est un terme de golf par N z3 ms Mots compos s avec espace ou tiret Certains mots compos s comme grand m re peuvent s crire avec des espaces ou avec des tirets Pour viter de devoir d doubler toutes les entr es il est possible d utiliser le caract re Lors de la compression du dictionnaire le programme Compress v rifie pour chaque ligne si la for
370. r atteindre avoir avoisiner battre cacher Feuille 1 1 PageStyle_c32NM Somme 0 FIGURE 9 1 Table de lexique grammaire 32NM 9 2 Conversion d une table en graphes 9 2 1 Principe des graphes param tr s La conversion d une table en graphes s effectue au moyen du m canisme des graphes param tr s Le principe est le suivant on construit un graphe qui d crit des constructions possibles Ce graphe fait r f rence aux colonnes de la table gr ce des variables On g n re ensuite pour chaque ligne de la table une copie de ce graphe dans laquelle les variables sont remplac es en fonction du contenu des cellules situ es l intersection des colonnes correspondantes et de la ligne trait e Si une cellule de la table contient le signe la variable correspondante est remplac e par lt E gt Si la cellule contient le signe la bo te contenant la variable correspondante est supprim e ce qui d truit du m me coup les chemins passant par cette bo te Dans tous les autres cas la variable est remplac e par le contenu de la cellule 9 2 2 Format de la table Les tables de lexique grammaire sont g n ralement cod es l aide d un tableur comme OpenOffice org Calc 74 Pour pouvoir tre utilis es par Unitex les tables doivent tre cod es en texte Unicode selon la convention suivante les colonnes doivent tre s par es 9 2 CONVERSION D UNE TABLE EN GRAPHES 207
371. r de la figure 3 20 Le dans le nom du graphe lui donne une priorit basse afin qu il soit appliqu apr s le dictionnaire g n ral Pour fonctionner ce graphe se base sur les mots qui sont toujours inconnus apr s le passage du dictionnaire g n ral Les crochets correspondent une d finition de contexte voir la section 6 3 Comme les graphes dictionnaires sont appliqu s par le moteur du programme Locate ils peuvent utiliser tout ce que le programme Locate autorise En particulier il est possible d utiliser les filtres morphologiques section 4 7 et le mode morphologique section 6 4 Ainsi le graphe de la figure 3 21 utilise ces filtres pour reconna tre les nombres en chiffres romains Notons qu il utilise galement des contextes afin d viter par exemple que C ne soit pris comme chiffre romain quand il est suivi par une apostrophe Par d faut les graphes dictionnaires sont appliqu s en mode MERGE Il est possible de les appliquer en mode REPLACE en ajoutant leur le nom le suffixe r Celui ci se combine avec les priorit s et bagpipe r fst2 McAdam r fst2 phtirius r fst2 Exporter les entr es produites comme dictionnaire du mode morphologique Les entr es produites par un graphe dictionnaire sont consult es par le programme Locate quand il rencontre des masques lexicaux qui n cessitent la consultation d un dic tionnaire Cependant cette fonctionnalit est restreinte quand le masque lexical est en mo
372. r requis pour la flex ion des mots compos s Cependant cette condition est rarement suffisante Par exemple en anglais les formes plurielles de e battle cry e battle royal e battle of nerves il n est pas seulement n cessaire de savoir comment g n rer les pluriels de battle royal et cry mais aussi de savoir quelles formes fl chies de ces constituants se combinent entre elles e battle cries e battle royals or battles royal e battles of nerves mais pas battles cries battles royals battles of nerve_ Formellement une description explicite et compl te du paradigme flexionnel des mots compos s doit r pondre aux questions suivantes e A quelle cat gorie grammaticale appartient le mot compos nom adjectif etc et donc quelles cat gories flexionnelles nombre genre cas etc sont elles pertinentes pour lui 79 se prononce pour une d finiton fond e sur la morphosyntaxe des cat gories grammaticales une cat gorie grammaticale devrait pleinement d terminer les cat gories flexionnelles dans lesquelles le mot se fl chit ainsi que celles qui sont lexi calement fix es pour le mot Par exemple en polonais un nom a un genre et se fl chit en nombre et en cas Quelles sont les exceptions aux cat gories flexionnelles d termin es ci dessus Par exemple en polonais wybory powszechne lections g n rales 11 1 MOTS COMPOS S 223 est un nom compos qui n a pas de forme au sing
373. r sum de la ligne de commande utilis e pour ex cuter l outil e test_info list_file_in txt une liste des fichiers lus par l outil La premiere colonne est la taille du fichier la seconde est crc32 la troisieme le nom du fichier e test_info list_file_out txt une liste des fichiers cr s par l outil La premi re colonne est la taille du fichier la seconde est crc32 la troisi me le nom du fichier e test_info std_out txt le contenu de sortie standard de la console e test_info std_err txt le contenu de sortie erreurs de la console e src xxx une copie du fichier lu par l outil n cessaire pour faire fonctionner nouveau le log e dest xxx une copie du fichier cr par l outil Si la seconde ligne de unitex_logging_parameters txt contient 0 ces fichiers ne sont pas enregistr s si cette ligne contient 1 ils sont enregistr s 344 CHAPITRE 14 FORMATS DE FICHIERS 14 139 R gles typographiques de l arabe arabic_typo_rules txt Pour l arabe la recherche dans le dictionnaire peut tre param tr e avec un fichier qui d crit si certaines variations typographiques sont autoris es ou non Ce fichier est constitu de lignes comme celles ci fatha omission YES o fatha omission est le nom de la r gle Pour une description compl te de toutes les r gles disponibles il faut consulter le fichier Arabic h dans les sources du programme 14 13 10 fichier d offsets de di
374. r 2 distinct lemmas O compound entry for 0 distinct lemma 1 All chars used in forms Y 1 1 2 grammatical semantic codes used in dictionary INTIY INTJ warning 1 suspect char 1 space SPACE I NT J 4 O inflectional code used in dictionary q Remarquons que les codes flexionnels de eat ne sont pas signal s puisque une erreur s est produite dans cette ligne 14 9 Fichiers ELAG 14 9 1 Fichier tagset de See section 7 3 6 page 178 334 CHAPITRE 14 FORMATS DE FICHIERS 14 9 2 Fichiers lst LES FICHIERS LST NE SONT PAS COD S EN UNICODE Un fichier 1st contient une liste de noms de fichiers grf Si le nom d un fichier n est pas absolu il est relatif l emplacement du fichier elag 1st Voici le fichier elag lst fourni pour le francais PPVs PpvIL grtY PPVs PpvLE grtY PPVs PpvLUI gr tY PPVs PpvPR grtY PPVs PpvSeq grtY PPVs SE grff PPVs postpos grff 14 9 3 elg files Les fichiers e1g contiennent des r gles ELAG compil es Ces fichiers sont au format fst2 14 9 4 Fichier rul LES FICHIERS RUL NE SONT PAS COD S EN UNICODE Un fichier rul contient diff rents fichiers elg qui compose un ensemble de r gles ELAG Un fichier rul est constitu d autant de parties qu il y a de fichiers elg Chaque partie est compos e de la liste des grammaires ELAG qui correspon dent un fichier el
375. r CSN med goe EEE Oe a Da 323 14 54 Fichier sentenceN SI eh eee eee REA OER Pw s 324 14 5 5 Fichier cursentence txt 324 14 5 6 The cursentence tok file 324 14 5 7 Fichiers tfst_tags_by_freq txt et tfst_tags_by_alph txt 324 T46 Concordances od a Lau ae Ba do n e de ee Eo ee ee ERS 324 1461 Fichier c oncord ind s Les 25 068 445464 6h ea Bee Sie boss 324 14 6 2 Fichier concord txt oao ee ew ee 326 14 6 3 Fichier concord html 326 1464 Fichter dif html 5 2 Lui hee hd ie we a a we 327 147 Dictionaries dui texte cocos lt Ewa a pau wR OE we D 328 Wat UPC US oo ol He thea he Be He RS ESR 328 MR AE cana Be be a oe ee Be oe a a 328 10 TABLE DES MATI RES 147 3 taps em mr diese Hoe AA A A SEER ES ERS 328 EPA MR as Den pete orties Oe eee F arte 328 143 DICHONRGIES coc bu da sida hu a da ba he ee EN ba ee eee 329 LR o ea Dune ee Shaka da dan lie su nee 329 L O H ROS onda ah does OS ds eee a TR Tee hada 330 14 8 3 Fichier information sur un dictionnaire 331 148 4 Fichier CHECK DIC TAT c re su sue eus sd mad ea 331 14 9 Fichiers ELAG o cd secca cu du ca ua uma au uma esse esse 333 149 1 Peter ele econo ra de Es 333 149 2 Fichiers lst 2 4 24 sa 04 du due de da a ee eee 0 334 149 3 ARR dar ire Re PEER edit Ree RE bas 334 HIA Feher lo arta et ea ve is ered ve eu 334 14 10 Fichier
376. r appropri Tous les d tails sur l utilisation des jokers se trouvent dans la section 8 3 e choisissez le r pertoire o le graphe sera enregistr Construct sequence automaton 1 Choose your sequence corpus 2 Options Apply beautifying algorithm Exact case matching fontana aa tchi ti 3 Choose your output directory home adrien unitex French Graphs Set Create graph FIGURE 8 4 Menu automate de s quences Construct sequence automaton 1 Choose your sequence corpus 2 Options Apply beautifying algorithm Exact case matching fonclanal na tchi ti Operations C Insert C Replace C Delete o joker s 3 Choose your output directory home adrien unitex French Graphs set Create graph FIGURE 8 5 Menu options de l automate de s quences Vous pouvez voir figures 8 6 et 8 7 les graphes sans jokers produits avec ou sans beautify 202 CHAPITRE 8 AUTOMATE DE S QUENCES net days 2 soon possible as month twice in the next few FIGURE 8 7 Automate avec l option beau ae tify FIGURE 8 6 Automate sans l option beau tify 8 3 Recherche par approximation Lorsque vous effectuez un Locate sur un texte en utilisant un graphe produit avec le programme Seq2Grf
377. r des commentaires dans un graphe Si vous souhaitez ajouter un commentaire dans un graphe vous devez cr er une bo te qui commence par Le texte de la bo te est affich en vert et peut contenir des lignes vides La bo te ne peut avoir ni de transition entrante ni de transition sortante voir figure 5 5 Pour relier une bo te une autre il faut cliquer sur la bo te de d part puis sur la bo te 5 2 DITION DE GRAPHES 97 al grf Vhome paumier unitex French Graphs Unsaved 9 P p i si a h lt c alors on a COFD dixit toto FIGURE 5 5 Bo te contenant un commentaire de destination S il y a d j une transition entre les deux bo tes celle ci est enlev e Il est possible d effectuer cette m me op ration en cliquant d abord sur la bo te de destination puis sur la bo te de d part tout en pressant sur la touche Shift Dans notre exemple une fois la bo te reli e l tat initial et l tat final du graphe on obtient le graphe de la figure 5 6 FIGURE 5 6 Graphe reconnaissant des pronoms anglais REMARQUE si vous double cliquez sur une bo te vous relierez cette bo te elle m me voir figure 5 7 Pour annuler double cliquez une nouvelle fois sur la bo te 98 CHAPITRE 5 GRAMMAIRES LOCALES FIGURE 5 7 Bo te reli e elle m me Cliquez sur Save as dans le menu FSGraph pour enregistrer le graphe Par d faut Unitex propose d enr
378. r passage dans la boucle Par d faut Locate et LocateTfst consid rent que les variables non d finies sont vides On peut modifier ce comportement voir section 6 10 2 De plus il est possible dans un graphe d interroger une variable pour savoir si elle a t initialis e ou non section 6 7 5 5 2 6 Copie de listes Il peut tre pratique d effectuer un copier coller d une liste de mots ou d expressions depuis un diteur de texte vers une bo te dans un graphe Afin d viter de devoir copier manuellement chaque terme Unitex propose un m canisme de copie de listes Pour l utili ser s lectionnez votre liste dans votre diteur de texte et copiez la au moyen de lt Ctrl C gt ou 5 2 DITION DE GRAPHES 107 January February March April May June lt B gt July el 4 August year month September October November December month year FIGURE 5 22 Interversion du mois et de l ann e dans une date de la fonction de copie int gr e a votre diteur Cr ez ensuite une boite dans votre graphe et utilisez lt Ctrl V gt ou la commande Paste du menu Edit pour la coller dans la bo te Vous verrez alors apparaitre la fen tre de la figure 5 23 O Choose your left and right contexts item FIGURE 5 23 S lection de contexte pour la copie d une liste Cette fen tre vous permet de d finir les contextes gauche et droit qui seront ajout s automa tiquement a chaque terme de
379. r une cascade de Transducteurs avec CasSys 252 12 1 1 Cr ation de la liste des transducteurs 252 12 1 2 Edition de la liste des transducteurs 253 AS SDL d une CSM L a es A dus ire she a 255 12 14 Partage d un fichier liste de transducteurs en cascade 256 T22 Cas EME Lu ue se mesure lent dune 256 12 21 Typ ed egraph utilis gt lt erdam e tanri there be HS 256 1222 Applicaton aN AI 256 12 2 3 R gles utilis es dans unecascade o 6k gos e 257 1224 Marquage de motifs dans CasSys 2 2 eee ee ee ees 258 DOME MES Espa p kop paoi AO tete es 259 12 3 1 D claration d un graphe g n rique 2 284429 oca 260 12 3 2 Structure d un graphe BEN NQUe lt ss Lu Dub e scs s e poa 260 8 TABLE DES MATI RES 12 4 Les r sultats d une cascade 262 1241 Affichage des r sultats dela cascade o 44 oc cci sus or 262 12 42 Les diff rents fichiers r sultats d une cascade 262 124 3 Un texte au format de type XML pour les tiquettes lexicales 263 13 Utilisation des programmes externes 265 131 Creation de eee lOp s s o cc he re is ic ed tetes 266 13 4 Laconsole oca 5 42 Ee EL e ae Ow eS DR ES 267 13 3 Unites INT 4 5 4 4 ba cae ea Dee eee Ee ee ee a ee aa 267 13 4 Param tres de codage des fichiers textes gt oie che ee she dore do 268 135 Build SM WuDE co aoe dun aura aaa non date dettes 268
380. ra tions qui peuvent leur tre appliqu es en particulier la lev e d ambiguit s au moyen du programme ELAG Depuis la version 2 1 il est possible d effectuer des recherches de motifs sur l automate du texte voir section 7 7 7 1 Pr sentation L automate du texte permet d exprimer toutes les interpr tations lexicales possibles des mots Ces diff rentes interpr tations sont les diff rentes entr es pr sentes dans les diction naires du texte La figure 7 1 montre l automate de la quatri me phrase du texte Ivanhoe On peut voir sur la figure 7 1 que le mot Here poss de ici trois interpr tations adjectif ad verbe et nom haunted deux adjectif et verbe etc Toutes les combinaisons possibles sont exprim es car chaque interpr tation de chaque mot est reli e toutes les interpr tations des mots suivants et pr c dents En cas de concurrence entre un mot compos et une s quence de mots simples l automate contient un chemin tiquet par le mot compos parall le aux chemins exprimant les com binaisons de mots simples Ceci est illustr par la figure 7 2 o le mot compos courts of law est concurrent avec une combinaison de mots simples Par construction l automate du texte ne contient pas de boucle On dit que l automate du texte est acyclique NOTE le terme automate du texte est un abus de langage En effet il y a en r alit un automate pour chaque phrase du texte Cependant la concat nat
381. ram tres de codage des fichiers textes 268 Parenth ses 81 Pixellisation 111 Poids 105 Point de synchronisation 173 Portugais normalisation des clitiques 167 296 POSIX 83 Pr f rences 115 Priorit la s quence de gauche 145 la s quence la plus longue 146 entre dictionnaires 66 Programmes externes BuildKrMwuDic 268 Cassys 269 CheckDic 52 270 331 Compress 47 64 271 329 Concord 271 ConcorDiff 159 275 Convert 275 390 Dico 40 67 68 277 DumpOffsets 278 280 Elag 176 178 282 334 ElagComp 175 178 184 282 Evamb 283 Extract 283 Flatten 124 283 Fst2Check 284 Fst2Grf 189 Fst2List 285 Fst2Txt 36 286 Grf2Fst2 123 287 ImplodeTfst 289 Locate 68 289 LocateTfst 292 MultiFlex 294 Normalize 266 294 PolyLex 41 295 RebuildTfst 296 Reconstrucao 169 296 Reg2Grf 297 Seq2Grf 297 Sort Txt 53 298 313 Stats 298 Table2Grf 299 Tagger 299 TagsetNormTfst 300 TEI2Txt 300 Tfst2Grf 301 Tfst2Unambig 192 301 Tokenize 38 302 TrainingTagger 303 Txt2Tfst 304 Uncompress 305 UnitexTool 305 UnitexToolLogger 306 Untokenize 305 Unxmlize 309 XMLizer 310 Propri t s syntaxiques 205 R Recherche dans un dictionnaire 51 Recherche de motifs 152 292 INDEX Reconstruction de l automate du texte 296 Recursive Transition Network 94 R f rence aux informations dans les dic tionnaires 77 122 R gles espace 67 majuscules
382. rammaire un texte et construit un fichier d index des occurrences trouv es OPTIONS e t TXT text TXT chemin complet du fichier texte sans omettre l exten sion snt e a ALPH alphabet ALPH chemin d acces complet au fichier alphabet 290 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES m DICS morpho DICS ce param tre optionnel indique quels diction naires morphologiques sont utilis s s ils sont exig s par des dictionnaires st 2 DICS repr sente une liste de fichiers bin avec leurs chemins complets s par s par des points virgules s start_on_space ce param tre indique que la recherche va commencer n importe quelle position dans le texte m me avant un espace Ce param tre ne devrait tre utilis que pour effectuer des recherches morphologiques x dont_start_on_space interdit au programme de reconnaitre des s quences commen ant par un espace par d faut c char_by_char ce param tre facultatif permet d appliquer le trans ducteur en mode caract re par caract re Cette option doit tre utilis e pour les textes en langues asiatiques comme le Tha w word_by_word fonctionne en mode mot par mot par d faut d DIR sntdir DIR met les fichiers produits dans le r pertoire au lieu DIR au lieu du r pertoire texte Notez que DIR doit se terminer par un s para teur de fichier or K korean indique Locate qu
383. ran ais AAAAaaaa Bb CCCC 54 CHAPITRE 3 DICTIONNAIRES Check Results Line 1 unexpected end of line agreeably ADV Line 2 unexpected end of line agreed INTJ Line 4 empty grammatical or semantic code File D My Unitex English Dela agreeably dic Type DELAF 5 lines read 2 simple entries for 2 distinct lermas 0 compound entry for O distinct lemma FIGURE 3 6 R sultats d une v rification automatique 3 5 FLEXION AUTOMATIQUE 55 Dd E Fe Les caract res pr sents sur une m me ligne sont consid r s comme quivalents quand le contexte le permet Lorsqu il faut comparer deux caract res quivalents on les compare selon l ordre dans lequel ils apparaissent de gauche droite sur la ligne On peut voir sur l extrait ci dessus qu on ne fait pas de diff rence entre minuscules et majuscules et qu on ignore les accents ainsi que la c dille Pour trier un dictionnaire ouvrez le puis cliquez sur Sort Dictionary dans le menu DELA Par d faut le programme cherche toujours utiliser le fichier Alphabet_sort txt Si ce fichier est absent le tri se fait selon l indice des caract res dans le codage Unicode En mod ifiant ce fichier vous pouvez d finir vos propres pr f rences de tri Remarque apr s l application des dictionnaires sur un texte les fichiers d1f dlc et err sont automatiquement tri s avec ce programme 3 5 Flexion automatique 3 5 1 Flexion des m
384. rase 120 Granularit des dictionnaires 165 Graphe 388 alignement des bo tes 111 antialiasing 111 appel un sous graphe 99 approximation par transducteur fini 124 283 commentaires 96 compilation 123 287 connexion des bo tes 97 cr ation d une bo te 95 de flexion 55 119 d tection d erreur 128 284 287 dictionnaire 68 enregistrement 98 export en PNG 115 export en SVG 116 format 314 inclure dans un document 115 INDEX Installation sous Linux 20 sous MacOS X 21 sous Windows 20 Intervalle 127 J Jamo 57 321 Java Apple Java 1 6 runtime 22 JRE 20 machine virtuelle 20 Runtime Environment 20 Jeu d tiquettes ELAG 178 JRE 20 L LADL 13 45 205 options d affichage polices et couleurs Langages alg briques 94 112 param tr 123 206 pr sentation 110 principal 299 303 r pertoire de d p t 100 suppression de bo tes 104 syntaxique 122 types de 119 variables 106 zoom 110 Graphe dictionnaire 68 morphologique 70 Grille 112 H Hangul 57 294 321 I Impression automate de phrase 191 d un graphe 116 Inclure un graphe dans un document 115 Informations flexionnelles 46 grammaticales 46 s mantiques 46 Langages hors contexte 94 Langues s mitiques 63 Lemme 46 Lev e d ambiguit s 171 175 Lexique grammaire 205 table 205 299 303 LGPL 347 LGPLLR 369 Licence Apache 2 0 361 BSD 357 LGPL 19 347
385. rate works But when you distribute the same sections as part of a whole which is a work based on the Library the distribution of the whole must be on the terms of this License whose permissions for other licensees extend to the entire whole and thus to each and every part regardless of who wrote it Thus it is not the intent of this section to claim rights or contest your rights to work written entirely by you rather the intent is to exercise the right to control the distribution of derivative or collective works based on the Library In addition mere aggregation of another work not based on the Library with the Library or with a work based on the Library on a volume of a storage or distribu tion medium does not bring the other work under the scope of this License 3 You may opt to apply the terms of the ordinary GNU General Public License instead of this License to a given copy of the Library To do this you must alter all the notices that refer to this License so that they refer to the ordinary GNU General 14 13 PLUSIEURS AUTRES FICHIERS 351 Public License version 2 instead of to this License If a newer version than version 2 of the ordinary GNU General Public License has appeared then you can specify that version instead if you wish Do not make any other change in these notices Once this change is made in a given copy it is irreversible for that copy so the or dinary GNU General Public License applies to all subsequent
386. re affich e contient un champ qui vous permet d effectuer une recherche Si le mot appara t dans le dictionnaire le bouton Find surligne la premi re entr e correspondante Si plusieurs entr es correspondent vous pouvez les par courir en cliquant sur les deux boutons en forme de fl che E home paumier unitex French Dela dela fr public dic phtirius Find 4 gt phtalonitriles phtalonitrile N mp phtalyl PFx phtal ine N fs phtal ines phtal ine N fp phtanite N is phtanites phtanite N fp phtiriase N ts phtiriases phtiriase N fp phtiriasique A ms is 15 imp phtisie N z2 fs phtisie dorsale N NA fs phtisie tuberculeuse N NA fs phtisies phtisie N z2 fp phtisies qalopantes phtisie qalopante N NA z2 fp phtisies ulc reuses phtisie ulc reuse N NA fp phtisiog ne A ms fs phtisiog nes phtisiog ne A mp p phtisiologie N fe phtisiologies phtisiologie N fip phtisiologique A ms is pbtisiologiquess htisiologique A mp fp 4 IlL FIGURE 3 2 Recherche d un mot dans un dictionnaire Vous pouvez aussi rechercher un mots dans plusieurs dictionnaires en cliquant sur le bou ton Lookup du menu DELA Vous pouvez ensuite s lectionner les dictionnaires dans lesquels rechercher le mot que vous avez entr 52 CHAPITRE 3 DICTIONNAIRES E Dictionary Lookup gt Da Select dictionaries to look up into User resources System reso
387. reprocessing Replace Comme pour le d coupage en phrases cette grammaire est utilis e avec le programme Fst2Txt mais cette fois en mode REPLACE ce qui signifie que les entr es reconnues par la grammaire sont remplac es par les s quences produites par celle ci On peut voir sur la figure 2 11 une grammaire qui normalise des contractions verbales en anglais 2 5 PR TRAITEMENT DU TEXTE 37 Shouldn t Should not Ls is FIGURE 2 11 Grammaire de normalisation de formes verbales en anglais 38 CHAPITRE 2 CHARGEMENT D UN TEXTE 2 5 4 D coupage du texte en unit s lexicales Certaines langues en particulier les langues asiatiques utilisent les s parateurs de fa on diff rente des langues occidentales les espaces peuvent tre interdits facultatifs ou obli gatoires Pour pouvoir g rer ces particularit s au mieux Unitex d coupe les textes d une mani re d pendante de la langue Ainsi les langues comme le francais sont trait es selon le principe suivant Une unit lexicale peut tre e soit le d limiteur de phrases S e le marqueur STOP Contrairement au d limiteur de phrases S le marqueur STOP ne peut JAMAIS tre reconnu par une grammaire de quelque fa on que ce soit Il peut tre utilis dans un corpus pour d limiter des lements Par exemple si un corpus est form de nouvelles s par es par STOP il est impossible pour une grammaire de re conna tre une s quence qu
388. res manipul es par ELAG ont une syntaxe particuli re Elles comportent deux parties que nous appelerons partie si et alors La partie si d une grammaire ELAG se divise en deux zones d limit es par des bo tes contenant le symbole lt gt La partie alors est divis e de la m me fa on au moyen du symbole lt gt La signification d une grammaire est la suivante dans l automate du texte si l on trouve une s quence reconnue par la partie si alors elle doit aussi tre reconnue par la partie alors de la grammaire faute de quoi elle sera retir e de l automate du texte La figure 7 12 montre un exemple de grammaire La partie si reconnait un verbe la deux i me personne du singulier suivi par un tiret et tu soit en tant que pronom soit en tant que 172 CHAPITRE 7 AUTOMATE DU TEXTE a E FST Text oom Bd 1003 sentences aun moran t n anda iuumuem dantunmumala anmiana sa Wn 4 Sentence 13 fi i Reset Sentence Graph Rebuild FST Text Elag Frame Explode Implode FIGURE 7 11 Automate de la figure 7 9 apr s nettoyage If tu follows a verb in the 2nd person singular and a dash then it is a pronoun and not the past participle of taire lt PRO PpvIL 2s gt lt V K gt lt PRO PpvIL 2s gt FIGURE 7 12 Exemple de grammaire ELAG elag tu grf participe pass du verbe taire La partie alors impose que tu soit alors consid r comme pronom La fig
389. rm e de lettres e lt LOWER gt reconna t n importe quelle unit lexicale form e de lettres minuscules e lt UPPER gt reconna t n importe quelle unit lexicale form e de lettres majuscules e lt FIRST gt reconna t n importe quelle unit lexicale form e de lettres et commen ant par une majuscule e lt DIC gt reconna t n importe quel mot figurant dans les dictionnaires du texte e lt SDIC gt reconna t n importe quel mot simple figurant dans les dictionnaires du texte e lt CDIC gt reconna t n importe quel mot compos figurant dans les dictionnaires du texte e lt TDIC gt reconna t n importe quelle unit lexicale taggu e comme XXX XXX XXX e lt NB gt reconna t n importe quelle suite de chiffres contigus 1234 est reconnue mais pas 1 234 e interdit la pr sence de l espace 4 3 MASQUES LEXICAUX 77 Les anciens codes correspondant lt WORD gt lt LOWER gt lt UPPER gt et lt FIRST gt taient re spectivement lt MOT gt lt MIN gt lt MAJ gt et lt PRE gt Ils restent op rationnels afin de conserver la compatibilit descendante du syst me avec les graphes existants mais ils sont maintenant d pr ci s c est dire qu on recommande de les viter dans les graphes con us pour fonc tionner avec les versions plus r centes 1 pour ne pas faire augmenter inutilement le nombre de masques lexicaux en usage NOTE comme il a t dit en secti
390. rom FRENCH to Unicode Little Endian a Replace O Rename source with suffix old FIGURE 2 2 Conversion automatique d un texte non Unicode conversion de tous les fichiers Si une erreur survient lors du traitement d un fichier par exemple un fichier qui serait d j en Unicode le traitement continue avec le fichier suivant E Transcode Files Source encoding Destination encoding Replace Rename source with prefix O Rename source with suffix O Name destination with prefix 8 Name destination with suffix Prefix suffix ut 6 Selected files a D iMy Unitex English Corpusinovel txt D My Unitex English Corpus wiki monoide en txt Remove Files Transcode Cancel FIGURE 2 3 Conversion de fichiers Pour obtenir du texte au bon format vous pouvez galement utiliser un traitement de texte comme le logiciel libre OpenOffice org 74 ou Microsoft Word et sauvegarder votre doc ument au format Texte unicode Dans OpenOffice Writer vous devez choisir le format Coded Text txt puis le codage Unicode dans la fen tre de configuration comme le montre la figure 2 4 Par d faut le codage propos sur un PC est toujours Unicode Little Endian Les textes ainsi obtenus ne contiennent plus d informations de formatage police couleurs etc et sont pr ts tre utilis s avec Unitex 30 CHAPITRE 2 CHARGEMENT D UN TEXTE LT i x ce Dore initie F Annuler Saut de p
391. ros de tokens qui composent la phrase sont enregistr s dans un fichier nomm cursentence tok Ce fichier contient une ligne par token chaque ligne tant compos e de 2 entiers x y x est le num ro de token y est sa longueur en caract res Voici le contenu de ce fichier pour la premi re phrase d Ivanhoe 0 74 Ivanhoe 1 1 2 2 by 1 1 3 34 Sir 1 1 4 64 Walter 1 1 5 5 Scott 1 1 14 5 7 Fichiers tfst tags by_freq txt et tfst tags by_alph txt Ces fichiers contiennent tous les tags qui apparaissent dans l automate du texte class s par fr quence et par ordre alphab tique 14 6 Concordances 14 6 1 Fichier concord ind Le fichier concord ind est l index des occurrences trouv es par les programmes Locate ou LocateTfst lors de l application d une grammaire C est un fichier 14 6 CONCORDANCES 325 texte qui contient les positions de d but et de fin de chaque occurrence ventuelle ment accompagn es d une cha ne de caract res si la concordance a t obtenue en prenant en compte les ventuelles transductions de la grammaire Voici un exemple de fichier M4 59 0 0 63 3 0 the ADJ greater part 67 0 0 71 4 0 the beautiful hills 87 0 0 91 3 0 the pleasant town 123 0 0 127 4 0 the noble seats 157 0 0 161 5 0 the fabulous Dragon 189 0 0 193 3 0 the Civil WarsY 455 0 0 459 11 0 the feeble interference 463 0 0 467 6 0 the English C
392. rouver dans la racine du r pertoire de la langue concern e Sa pr sence est obligatoire pour qu Unitex puisse fonctionner Exemple le fichier d alphabet de l anglais doit se trouver dans le r pertoire English Chaque ligne du fichier alphabet doit avoir l une des 3 formes suivantes suivie par un retour la ligne e 71 amp un di se suivi de 2 caract res X and Y indique que tous les caract res compris entre les caract res X et Y sont des lettres Tous ces caract res sont consid r s comme tant la fois minuscules et majuscules Ce mode est utile pour d finir les alphabets des langues asiatiques comme le cor en le chinois ou le japonais o il n y a pas de distinction de casse et o le nombre de caract res rendrait tr s fastidieuse une num ration compl te e Aa 2 caract res X et Y indiquent que X et Y sont des lettres et que X est l quivalent en majuscule de la lettre Y e Y un unique caract re X d finit X comme une lettre la fois minuscule et majuscule Ce mode est utile pour d finir un caract re asiatique de mani re ponctuelle Pour certaines langues comme le fran ais il arrive qu une lettre minuscule cor respondent plusieurs majuscules For example qui peut avoir comme majuscule soit E ou Pour exprimer cela il suffit d utiliser plusieurs lignes L inverse est gale ment vrai une majuscule peuvent correspondre plusieurs minuscules A nsi E peut tre la majuscul
393. rtaines langues comme le norv gien il est possible de former des mots compos s libres en soudant leurs l ments Par exemple le mot aftenblad signifiant journal du soir est obtenu en combinant les mots aften soir et blad journal Le programme PolyLex explore la liste des mots inconnus apr s application des dictionnaires au texte et essaye d analyser chacun de ces mots comme un mot compos Si un mot poss de au moins une analyse il est retir de la liste des mots inconnus et les lignes de dictionnaires produites pour ce mot sont ajout es au dictionnaire des mots simples du texte 42 CHAPITRE 2 CHARGEMENT D UN TEXTE Lexical Resources Select the dictionaries to be applied You can sort them one by one using the arrows Note that system dictionaries are given to the Dico program before the user ones User resources System resources IPfxV Lidia bin dico lidia bin ight click a dictionary to get information about it Graphe dictionnaire reconnaissant les chiffres romains Ce dictionnaire reconna t les chiffres romains en majuscules depuis 1 jusqu 4999 Son avantage par rapport au dictionnaire RomNum bin est qu il ne prend pas comme chiffres romains L C D M et MM dans les contextes suivants Set Default FIGURE 2 14 Param trage de l application des dictionnaires 2 6 Ouverture d un texte taggu Un texte taggu est un texte contenant des entr es lexicales entre accolades comme par ex
394. rtions of the Software THE SOFTWARE IS PROVIDED AS IS WITHOUT WARRANTY OF ANY KIND EXPRESS OR IMPLIED INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY FITNESS FOR A PARTICULAR PURPOSE AND NON INFRINGEMENT IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLD ERS BE LIABLE FOR ANY CLAIM DAMAGES OR OTHER LIABILITY WHETHER IN AN ACTION OF CONTRACT TORT OR OTHERWISE ARISING FROM OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEAL INGS IN THE SOFTWARE 365 366 CHAPITRE 14 FORMATS DE FICHIERS Annexe E Licence open source TMate de SVNKit Voici la licence la note de copyright et la clause de non responsabilit pour SVNKit une bibliotheque open source de TMate Software This license applies to all portions of TMate SVNKit library which are not externally maintained libraries e g Ganymed SSH library All the source code and compiled classes in package org tigris subversion javahl ex cept SvnClient class are covered by the license in JAVAHL LICENSE file Copyright 2004 2009 TMate Software Redistribution and use in source and binary forms with or without modification are permitted provided that the following conditions are met 1 Redistributions of source code must retain the above copyright notice this list of conditions and the following disclaimer 2 Redistributions in binary form must reproduce the above copyright notice this list of conditions and the following disclaimer in the
395. rucao e s semitic indique que l algorithme de compression pour langue s mi tique doit tre utilis Cette option utilis e avec des langues s mitiques comme l arabe r duit sensiblement la taille du dictionnaire produit e v1 produit un fichier bin ancienne mani re e v2 produit un fichier bin nouvelle mani re mieux comprim et sans limitation de taille de fichier 16 Mb par d faut Ce programme prend en param tre un dictionnaire DELAF et le compresse La compression d un dictionnaire dico dic produit deux fichiers e dico bin fichier binaire contenant l automate minimal des formes fl chies du dictionnaire e dico inf fichier texte contenant des formes comprim es permettant de re construire les lignes du dictionnaire partir des formes fl chies contenues dans l automate Pour plus de d tails sur les formats de ces fichiers voir chapitre 14 13 9 Concord Concord OPTIONS lt index gt Ce programme prend en param tre un fichier d index de concordance produit par le programme Locate et produit une concordance Il peut galement produire une 272 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES version du texte modifi e prenant en compte les transductions associ es aux occur rences Voici la description des param tres OPTIONS e f FONT font FONT nom de la police de caract res utiliser si la sortie est fichier HTML e s N fontsize N taille de la p
396. s e t tolerate tol re des points et des virgules non d sp cialis s par d faut e n no space _ warning tol re des espaces dans les codes grammaticaux s mantiques e p skip_path n affiche pas le chemin complet du dictionnaire utiles pour la compatibilit de fichiers de log sur plusieurs syst mes e a ALPH alphabet ALPH indique le fichier alphabet utiliser Le programme teste la syntaxe des lignes du dictionnaire Il dresse galement la liste des caract res pr sents dans les formes fl chies et canoniques la liste des codes grammaticaux et syntaxiques ainsi que la liste des codes flexionnels utilis s Les r sultats de la v rification sont stock s dans un fichier nomm CHECK_DIC TXT 13 8 COMPRESS 271 Le choix de strict permet de d tecter l utilisation de points non d sp cial is s dans la forme fl chie ou de virgules non d sp cialis es dans la forme canon ique L option tolerate se comporte comme dans les versions Unitex 2 0 et an t rieures et ne les d tecte pas 13 8 Compress Compress OPTIONS dictionary OPTIONS e o BIN output BIN d finit le fichier de sortie Par d faut un fichier xxx dic produit un fichier xxx bin e f1ip indique que les formes fl chies et canoniques doivent tre inver s es dans le dictionnaire comprim Cette option est utilis e pour construire un dictionnaire invers n cessaire au programme Reconst
397. s ce texte 2 5 2 D coupage en phrases Le d coupage en phrases est une tape importante du pr traitement car elle va permettre de d finir des unit s de traitement linguistique Ce d coupage sera utilis par le programme de construction de l automate du texte Contrairement ce que l on pourrait penser la re cherche des limites de phrases n est pas un probl me trivial Consid rons le texte suivant La famille a appel le Dr Martin en urgence Le point qui suit Dr est suivi d un mot commen ant par une majuscule il pourrait donc tre consid r comme un point de fin de phrase ce qui serait faux Afin d viter les probl mes de ce genre dus des ambigu t s des symboles de ponctuation on utilise des grammaires qui d crivent les diff rents contextes o peuvent appara tre les limites de phrases La figure 2 10 montre un exemple de grammaire de d coupage en phrases Placement des marques de s paration de phrases S Cas g n ral Ponctuation parentheses crochets Ponctuation suivie de cas particuliers sigles noms symboles Sigles pr noms anthroponymes gt oe Mots compos s ou suivis d une lettre majuscule symboles cas3 Cas particuliers Abr viations Graphe r alis par cas4 Nathalie Friburger LI Tours Anne Dister Univ de Li ges Denis Maurel LI Tours FIGURE 2 1
398. s License whose permissions for other licensees extend to the entire whole and thus to each and every part regardless of who wrote it Thus it is not the intent of this section to claim rights or contest your rights to work written entirely by you rather the intent is to exercise the right to control the distribution of derivative or collective works based on the Linguistic Resource 14 13 PLUSIEURS AUTRES FICHIERS 371 In addition mere aggregation of another work not based on the Linguistic Resource with the Linguistic Resource or with a work based on the Lin guistic Resource on a volume of a storage or distribution medium does not bring the other work under the scope of this License 3 program that contains no derivative of any portion of the Linguistic Re source but is designed to work with the Linguistic Resource or an encrypted form of the Linguistic Resource by reading it or being compiled or linked with it is called a work that uses the Linguistic Resource Such a work in isolation is not a derivative work of the Linguistic Resource and therefore falls outside the scope of this License However combining a work that uses the Linguistic Resource with the Lin guistic Resource or an encrypted form of the Linguistic Resource creates a package that is a derivative of the Linguistic Resource because it contains por tions of the Linguistic Resource rather than a work that uses the Linguistic Resource If the pa
399. s SFX les fichiers sources sont renomm s avec le suffixe SFX toto txt totoSFX txt e sd SFX les fichiers destinations sont renomm s avec le suffixe SFX Options HTML Convert offre des options sp ciales pour les fichiers HTML Vous pouvez utiliser une combinaison des options suivantes e dnc Decode Normal Chars des s quences comme seacute amp 120 et amp xF8 sont d cod es comme un unique caract re unicode sauf si elles representent un caract re de contr le HTML e dcc Decode Control Chars amp lt amp gt amp amp et amp quot sont d cod s comme lt gt amp et les quote de m me pour leur repr sentation d cimales et hex ad cimales e eac Encode All Chars chaque caract re non support par l encodage de sortie est repr sent par une cha ne comme 4457 e ecc Encode Control Chars lt gt amp et les quote sont encod s par 1t amp gt samp et amp quot Par d faut toutes les options HTML sont d sactiv es Autres options e m main names imprime la liste des noms principaux des encodage e a aliases imprime la liste des alias d encodage e A all infos imprime toutes les information concernant tous les en codages e i X info X imprime toutes les information concernant l encodage X Les encodages prennent leurs valeurs dans la liste suivante liste non exhaustive voir ci dessous FRENCH ENGLISH GREEK THA
400. s chapitres 4 et 5 pr sentent les diff rents moyens d effectuer des recherches de motifs dans des textes Le chapitre 5 d crit en d tail l utilisation de l diteur de graphe Le chapitre 6 est consacr aux diff rentes utilisations possibles des grammaires Les partic ularit s de chaque type de grammaires y sont pr sent es Le chapitre 7 pr sente le concept d automate du texte et d crit les propri t s de cette notion Ce chapitre d crit galement les op rations sur cet objet en particulier comment d sam biguiser les items lexicaux avec le programme ELAG Le chapitre 9 contient une pr sentation des tables du lexique grammaire et la description d une m thode de construction de grammaires fond es sur ces tables Le chapitre 10 d crit le module d alignement de texte bas sur l outil XAlign Le chapitre 11 d crit le module de flexion des mots compos s en tant que compl ment du syst me de flexion des mots simples pr sent au chapitre 3 Le chapitre 12 d crit le syst me de cascade de transducteur CasSys Le chapitre 13 contient une description d taill e des programmes externes qui composent le syst me Unitex Le chapitre 14 contient une description de tous les formats de fichiers utilis s par Unitex Le lecteur trouvera en annexe la licence LGPL sous laquelle le code source Unitex est diffus ainsi que la licence LGPLLR qui s applique pour les donn es linguistiques distribu es avec Unitex Il y tr
401. s dans l automate Ces tiquettes ne sont 7 2 CONSTRUCTION 167 accumulation des accumulation de NDET Dnom1 4 accumulation N z1 fs PRO PpvLE z1 3fs FIGURE 7 5 Automate normalis avec la grammaire de la figure 7 4 pas concurrentes avec les deux chemins pr existants pour la s quence 1 gr ce l heuris tique keep best paths voir section 7 2 4 La normalisation la construction de l automate du texte permet d ajouter des chemins l automate pas d en supprimer La suppression des chemins est partiellement faite par l heuristique keep best paths si elle est s lectionn e Pour aller plus loin vous devez utiliser les fonctionnalit s de d sambiguisation du syst me ELAG 7 2 3 Normalisation des pronoms clitiques en portugais En portugais les verbes au futur et au conditionnel peuvent tre modifi s par l inser tion d un ou deux pronoms clitiques entre le radical et le suffixe du verbe Par exemple la s quence dir me ao ils me diront correspond la forme verbale complete dir o associ e au pronom me En vue de pouvoir effectuer des manipulations sur cette forme r crite il est n cessaire de l introduire dans l automate du texte en parall le de la s quence d origine Ainsi l utilisateur pourra rechercher l une ou l autre forme selon ses besoins Les figures 7 6 et 7 7 montrent l automate d une phrase avant et apr s normalisation des clitiques 168 CHAPITRE 7 AUTOMATE DU
402. s dans un m me processus afin d acc l rer le traitement Cela se fait en invoquant des commandes imbriqu es entre parenth ses comme ceci UnitexTool SelectOutput OPTIONS cmd l args cmd 2 args ete 306 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES Par exemple si vous souhaitez faire un locate et construire la concordance vous pouvez utiliser la commande suivante UnitexTool Locate tD My Unitex English Corpus ivanhoe snt D My Unitex English regexp fst2 aD My Unitex English Alphabet txt L I n200 morpho D Unitex2 0 English Dela dela en public bin b Y Concord D My Unitex English Corpus ivanhoe_snt concord ind fCourier new s12 140 r55 CL html aD My Unitex English Alphabet_sort txt OPTIONS e o on off output on off activer on ou d sactiver off la sor tie standard e e on off error on off activer on ou d sactiver off la sortie erreur standard Par exemple UnitexTool SelectOutput o off e off Normalize Unitex English Corpus ivanhoe txt 13 50 UnitexToolLogger UnitexToolLogger lt utilities gt Ce programme est un surensemble de UnitexTool Il permet d ex cuter nouveau un fichier de log ulp Il peut galement enregistrer une session d UnitexTool en cours d ex cution et cr er un fichier de log ulp Si UnitexToolLogger est utilis comme UnitexTool avec uniq
403. s la forme canonique du mot compos Par exemple la figure 11 6 contient un graphe d crivant la flexion pour le masculin comme pour le f minin des mots compos s de type Nom Nom et Nom Adjectif La premi re bo te contient l affectation du genre par double signe gale pour la variable g ce qui signifie que cette variable a pour genre celui du premier constituant Pour bateau mouche c est le masculin parce que bateau est masculin tandis que pour main courante c est le f minin Sito Mam ans lt Gen g Nb n gt e g bateau mouche FIGURE 11 6 Graphe de flexion bateau mouche avec deux types d instanciation Quand une affectation par double symbole gale coexiste avec une affectation par simple symbole gale sur le m me chemin et pour la m me variable l affectation par double sym bole gale pr vaut sur l autre la variable est instanci e une seule fois Par exemple sur la figure 11 6 la sortie finale contient Gen g mais g prend une seule valeur d termin e par le premier constituant Le syst me d unification est particuli rement utile pour des langues la flexion riche Par exemple en polonais la plupart des noms se fl chissent en nombre 2 valeurs et en cas 7 valeurs ce qui implique au moins 14 formes diff rentes si des variantes et des formes 11 2 FORMALISME DE FLEXION DES MOTS COMPOS S 231 syncr tiques diff rent Ce score est encore plus lev pour les adjectifs qui se fl chissent en nom
404. s liens r els renvoyant vers le serveur web de l application GlossaNet Pour plus d information sur GlossaNet consulter les liens sur le site web d Unitex http www igm univ mlv fr unitex Voici un exemple de fichier lt html lang en gt Y lt head gt Y 1 lt meta http equiv Content Type content text html charset UTF 8 gt Y lt title gt 6 matches lt title gt Y lt head gt lt body gt Y lt table border 0 cellpadding 0 width 100 style font family Arial Unicode MS font size 12 gt 4 lt font face Courier new size 3 gt Y on there lt a href 116 124 2 gt extended lt a gt nbsp i amp nbsp lt br gt 14 6 CONCORDANCES 327 amp nbsp extended lt a href 125 127 2 gt in lt a gt nbsp ancient nbsp lt br gt amp nbsp Scott S lt a href 32 34 2 gt IN lt a gt amp nbsp THAT PL amp nbsp lt br gt STRICT of lt a href 61 66 2 gt merry lt a gt amp nbsp Engl nbsp lt br gt S IN THAT lt a href 40 48 2 gt PLEASANT lt a gt amp nbsp D amp nbsp lt br gt amp nbsp which is lt a href 84 91 2 gt watered lt a gt amp nbsp by amp nbsp lt br gt S ront lt td gt lt table gt lt body gt Y lt htm1 gt 4 La figure 14 2 montre la page correspondant au fichier ci dessus F concordance Da o m Bd MATTRE L AUTRE TRE COMME DOMESTIQUE _ tait habit e UN COMME MA TRE l un des membres la maison portant
405. s pouvez tout moment changer de langue en cliquant sur Change Language dans le menu Text Si vous changez de langue le programme fermera s il y en a toutes les fen tres relatives au texte courant La langue courante est indiqu e sur la barre de titre de l interface graphique 27 28 CHAPITRE 2 CHARGEMENT D UN TEXTE CCE x 2 User paumier Choose the language you want to work on FIGURE 2 1 S lection de la langue au lancement d Unitex 2 2 Format des textes Unitex manipule des textes Unicode Unicode est un standard qui d crit un codage uni versel des caract res Chaque caract re se voit attribuer un num ro unique ce qui permet de repr senter des textes sans avoir tenir compte des codages propres aux diff rentes machines et ou syst mes d exploitation Unitex utilise une repr sentation cod e sur deux octets du standard Unicode 3 0 appel e Unicode Little Endian pour plus de d tails voir 16 Les textes fournis avec Unitex sont d ja au format Unicode Si vous essayez d ouvrir un texte qui n est pas au format Unicode le programme vous proposera de le convertir automatique ment voir figure 2 2 Cette conversion se base sur la langue courante si vous travaillez en francais Unitex vous proposera de convertir votre texte 1 en supposant qu il est cod avec un codage fran ais Par d faut Unitex vous propose soit de remplacer le texte original soit de renommer le fichier d origine
406. s section is held invalid or unenforceable under any particular circumstance the balance of the section is intended to apply and the section as a whole is intended to apply in other circumstances It is not the purpose of this section to induce you to infringe any patents or other property right claims or to contest validity of any such claims this section has the sole purpose of protecting the integrity of the free software distribution system 354 CHAPITRE 14 FORMATS DE FICHIERS which is implemented by public license practices Many people have made gener ous contributions to the wide range of software distributed through that system in reliance on consistent application of that system it is up to the author donor to decide if he or she is willing to distribute software through any other system and a licensee cannot impose that choice This section is intended to make thoroughly clear what is believed to be a conse quence of the rest of this License 12 If the distribution and or use of the Library is restricted in certain countries either by patents or by copyrighted interfaces the original copyright holder who places the Library under this License may add an explicit geographical distribu tion limitation excluding those countries so that distribution is permitted only in or among countries not thus excluded In such case this License incorporates the limitation as if written in the body of this License 13 The Free Software Foundatio
407. s une voyelle e Il est possible de combiner ces filtres l mentaires pour former des filtres plus complexes e lt lt ailble gt gt finit par able ou ible e lt lt anti pro gt gt commence par anti ou pro suivi par un tiret facultatif e lt lt rst aeiouy 2 gt gt mot form de 2 ou plus s quences commen ant par un r s ou t suivi d une voyelle non accentu e e lt lt 1 1 e gt gt ne commence pas par 1 ou alors la deuxi me lettre n est pas un e c est dire n importe quel mot sauf ceux qui commencent par le De telles con traintes peuvent tre exprim es plus simplement en utilisant des contextes voir 6 3 Par d faut un filtre morphologique tout seul est consid r comme s appliquant au m ta lt TOKEN gt c est dire n importe quelle unit lexicale sauf l espace et le marqueur STOP En revanche lorsqu un filtre suit imm diatement un motif il s applique ce qui est reconnu par le motif Voici quelques exemples de telles combinaisons e lt V K gt lt lt i gt gt participe pass finissant par i e lt CDIC gt lt lt gt gt mot compos contenant un tiret e lt CDIC gt lt lt gt gt mot compos contenant deux espaces e lt A fs gt lt lt pro gt gt adjectif f minin singulier commen ant par pro e lt DET gt lt lt u u n un gt gt d terminant diff rent de un e lt DIC gt lt lt es gt gt mot qui n est pas d
408. sabilit pour Xerces2 Java Parser un analyseur syntaxique XML utilis par XAlign 68 Copyright 1999 2010 The Apache Software Foundation All Rights Reserved Apache License Version 2 0 January 2004 http www apache org licenses TERMS AND CONDITIONS FOR USE REPRODUCTION AND DISTRIBUTION 1 Definitions License shall mean the terms and conditions for use reproduction and distribu tion as defined by Sections 1 through 9 of this document Licensor shall mean the copyright owner or entity authorized by the copyright owner that is granting the License Legal Entity shall mean the union of the acting entity and all other entities that control are controlled by or are under common control with that entity For the purposes of this definition control means i the power direct or indirect to cause the direction or management of such entity whether by contract or otherwise or ii ownership of fifty percent 50 or more of the outstanding shares or iii beneficial ownership of such entity You or Your shall mean an individual or Legal Entity exercising permissions granted by this License Source form shall mean the preferred form for making modifications including but not limited to software source code documentation source and configuration files Object form shall mean any form resulting from mechanical transformation or translation of a Source form including but not limited to compiled object
409. section 5 2 8 soit avec xxx et xxx Elles apparaissent en bleu voir figure 6 49 Cette grammaire appliqu e en mode MERGE au texte Ivanhoe produit la concordance visible sur la figure 6 50 256 matches also flourished in ancient times those bands output NOUN of gallant outlaws whose deeds have n and oppression possessed by the great Barons output NOUN that they never wanted the pretext were fought many of the most desperate battles output NOUN during the Civil Wars of the Rose orest covering the greater part of the beautifulfoutput ADJ hills and valleys which lie betw ds of gallant outlaws whose deeds have been output NOUN rendered so popular in English ish bosom and at the certain hazard of being output ADJ involved as a party in whatever rash red so popular in English song S Such being output ADJ our chief scene the date of our stoy ish bosom and at the certain hazard of being output NOUN involved as a party in whatever ras ammm loman Tm md ECS nn om de p dam PE ti tt am nn Ill v FIGURE 6 50 Concordances obtenues avec la grammaire de la figure 6 49 Au moment o une variable de sortie est initialis e les s quences de sortie du transducteur ne sont pas mises dans la sortie correspondant l occurrence courante elles sont seulement m moris es dans la variable de sortie cr e par cette op ration Par exemple les sorties ADJ et NOUN de la figure figure 6 49 n
410. section 6 10 6 page 159 lt concorl1 gt et lt concor2 gt fichiers de concordances ind doivent avoir des noms absolus car Unitex en d duit le texte sur lequel elles ont t calcul es OPTIONS e o X out X page HTML de sortie e f FONT font FONT police utiliser dans le page HTML de sortie e s N size N taille de police utiliser dans le page HTML de sortie e d diff_only ne pas afficher les s quences identiques 13 11 Convert Convert OPTIONS lt text_1 gt lt text_2 gt lt text_3 gt Ce programme permet de transcoder des fichiers textes OPTIONS e s X src X encodage d entr e e d X dest X encodage de sortie par d faut LITTLE ENDIAN Options de translit ration seulement pour l arabe e F delaf l entr e est un DELAF et l on veut seulement translit rer les formes fl chies et canoniques e S delas l entr e est un DELAS et l on veut seulement translit rer les formes canoniques Options de sortie e r replace la conversion crase les fichiers source par d faut e o file output file nom du fichier de destination seulement un fichier convertir e ps PFX les fichiers sources sont renomm s avec le pr fixe PFX toto txt gt PFXtoto txt 276 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e pd PFX les fichiers destinations sont renomm s avec le pr fixe PFX e s
411. see is addressed as you A linguistic resource means a collection of data about language prepared so as to be used with application programs The Linguistic Resource below refers to any such work which has been dis tributed under these terms A work based on the Linguistic Resource means either the Linguistic Resource or any derivative work under copyright law that is to say a work containing the Linguistic Resource or a portion of it ei ther verbatim or with modifications and or translated straightforwardly into another language Hereinafter translation is included without limitation in the term modification 369 370 CHAPITRE 14 FORMATS DE FICHIERS Legible form for a linguistic resource means the preferred form of the re source for making modifications to it Activities other than copying distribution and modification are not covered by this License they are outside its scope The act of running a program us ing the Linguistic Resource is not restricted and output from such a program is covered only if its contents constitute a work based on the Linguistic Re source independent of the use of the Linguistic Resource in a tool for writing it Whether that is true depends on what the program that uses the Linguistic Resource does You may copy and distribute verbatim copies of the Linguistic Resource as you receive it in any medium provided that you conspicuously and appropriately publish on each copy
412. si votre processeur est de type Intel comme Xeon alors vous avez un processeur 64 bits 22 CHAPITRE 1 INSTALLATION D UNITEX 1 5 1 Utiliser Apple Java 1 6 runtime Si vous utilisez Mac OS X 10 5 ou ult rieur sur des processeurs Intel 64 bits vous pou vez simplement utiliser le Java 1 6 d Apple Vous pouvez l obtenir partir de https support apple com kb DL1359 Vous pouvez aller dans Application gt Utilities gt Java Preferences pour v rifier la pr sence de Java SE 6 dans la liste Java Applications Option 1 modifier le runtime par d faut pour Java Applications Si vous n utilisez pas une autre application Java qui a besoin de Java 1 5 vous pouvez simplement mettre Java SE 6 en haut de la liste Applications Java dans Utilitaire de pr f rence Java Option 2 Cr er un alias pour lancer Java 1 6 Si vous ne voulez pas modifier les param tres globaux de Java vous pouvez cr er un alias alias jre6 System Library Frameworks JavaVM framework Versions 1 6 Commands jre6 jar Unitex jar Ensuite lancer Unitex depuis un terminal 1 5 2 Comment rendre tous les fichiers visibles sur Mac OS Voir http www macworld com article 51830 2006 07 showallfinder html Ou essayez tout de suite Tapez defaults write com apple Finder AppleShowAllFiles ON Ensuite red marrez le Finder killall Finder Terminal bash 75x5 381 FIGURE 1 1 Red marrez le Finder 1 6 PREMI RE UTILISATION
413. silon Il n est pas possible d associer une sortie un appel un sous graphe De telles sorties sont ignor es par Unitex Il faut donc utiliser une bo te vide situ e imm diatement gauche de l appel au sous graphe pour porter la sortie voir figure 6 7 Les grammaires ne doivent pas non plus comporter de boucles infinies car les programmes d Unitex ne pourraient jamais terminer l exploration de telles grammaires Ces boucles peu vent tre dues des transitions tiquet es par le mot vide epsilon ou des appels de sous graphes r cursifs Les boucles dues des transitions par le mot vide peuvent avoir deux origines dont la pre mi re est illustr e par la figure 6 8 Ce type de boucle est d au fait qu une transition par le mot vide ne peut pas tre limin e automatiquement par Unitex lorsqu elle est munie d une sortie Ainsi la transition par le mot vide de la figure 6 8 ne sera pas supprim e et provoquera une boucle infinie 126 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES DET is ignored on this path DET but not on this one FIGURE 6 7 Comment associer une sortie un appel de sous graphe lt E gt Ue 5 0 ADJ N FIGURE 6 8 Boucle infinie due une transition par le mot vide avec sortie La seconde cat gorie de boucle par epsilon concerne les appels des sous graphes pouvant reconna tre le mot vide Ce cas de figure est illustr par la figure 6 9 si le sous graphe Adj reconnait epsil
414. sont des fichiers txt qui ont t pr trait s par Unitex Ces fichiers ne doivent pas contenir de tabulation Ils ne doivent pas non plus contenir plusieurs espaces ou retours a la ligne cons cutifs Les seules accolades autoris es dans des fichiers snt sont celles du s parateur de phrases S et celles des tiquettes lexi cales aujourd hui ADV 14 43 Fichier text cod Le fichier text cod est un fichier binaire contenant une suite d entiers repr sen tant le texte Chaque entier i renvoie au token d indice i dans le fichier tokens t xt Ces entiers sont cod s sur 4 octets NOTE les tokens sont num rot s partir de 0 14 4 4 Fichier tokens txt Le fichier tokens txt est un fichier texte contenant la liste de toutes les unit s lexicales du texte La premi re ligne de ce fichier indique le nombre d unit s con tenues dans le fichier Les unit s sont s par es par des retours la ligne Quand une 320 CHAPITRE 14 FORMATS DE FICHIERS s quence est trouv e dans le texte avec des variantes de casse chaque variante est cod e par une unit e distincte NOTE les retours la ligne ventuellement pr sents dans le fichier snt sont cod s comme des espaces Il n y a donc jamais d unit codant le retour la ligne 14 4 5 Fichier tok_by_alph txt et tok_by_freq txt Ces deux fichiers sont des fichiers texte qui contiennent la liste des unit s lexi cales tri e par ordre alphab tique ou par ordre
415. sse puisse fusse je 1 p lt nombre gt lt genre gt lt nombre gt Le symbole indique que le reste de la ligne est en commentaire Un commentaire peut appara tre n importe quel endroit dans le fichier Le fichier commence toujours par le mot NAME Suivi par un identifiant french dans l exemple La suite du fichier est constitu e de sections POS pour Part Of Speech partie du discours une pour chaque cat gorie gram maticale Chaque section d crit la structure des tiquettes des entr es lexicales appartenant la cat gorie grammaticale concern e Chaque section se compose de 4 parties qui sont toutes optionnelles flex cette partie num re les codes flexionnels relatifs la cat gorie grammaticale Par exemple les codes 1 2 3 qui d notent la personne de l entr e sont des codes per tinents pour les pronoms mais pas pour les adjectifs Chaque ligne d crit un attribut flexionnel genre temps etc et est compos e du nom de l attribut suivi du signe et des valeurs qu il peut prendre Par exemple la ligne suivante d clare un attribut pers pouvant prendre les valeurs 1 2 or 3 pers 1 2 3 cat cette partie d clare les attributs syntaxiques et s mantiques qui peuvent tre attribu s aux entr es appartenant a la cat gorie grammaticale concern e Chaque ligne d crit un attribut et les valeurs qu il peut prendre Les codes d clar s pour un m me attribut doivent tre exclusifs les u
416. ssible de nier un attribut flexionnel en crivant le caract re juste avant une des valeurs possibles pour cet attribut Ainsi le symbole lt A m p gt reconna t tous les adjectifs qui n ont ni genre ni nombre A l aide de cet op rateur il est maintenant possible d crire des grammaires comme celles de la figure 7 19 qui imposent l accord en genre et en nom bre entre un nom et l adjectif qui le suit Cette grammaire conservera l analyse correcte de phrases comme Les personnes de bonne humeur m insupportent Il est toutefois recommand de limiter l usage de l op rateur car cela nuit la lisibilit des grammaires Il est pr f rable de distinguer les tiquettes qui acceptent diff rentes com binaisons flexionnelles au moyen de sous cat gories discriminantes d finies dans la partie discr Codes optionnels Les codes syntaxiques et s mantiques optionnels sont d clar s dans la partie cat Ils peu vent tre utilis s dans les grammaires ELAG comme les autres codes La diff rence est que 2 Cette grammaire n est pas compl tement correcte car elle limine par exemple l analyse correcte de la phrase J ai recu des coups de fil de ma mere hallucinants 7 3 LEVEE D AMBIGUI T S LEXICALES AVEC ELAG 183 FIGURE 7 19 Grammaire ELAG v rifiant l accord en genre et en nombre entre un nom et l adjectif qui le suit ces codes n interviennent pas pour d cider si une tiquette doit tre rejet e comme invali
417. st franz txt bak xt G novel txt G test_tagges snt p5 xml A novel txt bak IN test_tagges txt p5_xalign snt skepticism txt G toto snt p5_xalign txt G test franz snt G uima_0 snt y test franz txt Ey uima_0 txt File Name skepticism td FIGURE 2 8 Ouverture d un texte Unicode as free compound words est utilis e en norv gien pour analyser correctement les mots 2 5 PR TRAITEMENT DU TEXTE 33 Preprocessing amp Lexical parsing y t x Preprocessing lv Apply graph in MERGE mode EnglishiGraphsiPreprocessing SentenceiSentence gri Set v Apply graph in REPLACE m lexEnglishiGraphsiPreprocessing Replace Replace grfl Set Tokenizing The text is automatically tokenized This operation is language dependant so that Unitex can handle languages with special spacing rules Lexical Parsing 7 Apply All default Dictionaries gol Ja Analyse unknown words as free compound words this option Cancel but tokenize text is available only for Dutch German Norwegian amp Russian m Construct Text Automaton Cancel and close text FIGURE 2 9 Fen tre de pr traitement compos s libres form s par soudure de mots simples Enfin l option Construct Text Au tomaton est utilis e pour construire l automate du texte Cette option est d sactiv e par d faut car elle entra ne une forte consommation de m moire et d espace disque si le texte es
418. strazxni sudija N XNF N Comp 7vms istrazxnom sudiji istrazxni sudija NC_AXNF N Comp 7vms istrazxni sudijo istrazxni sudija NC_AXNF N Comp 5vms istrazxni sudija istrazxni sudija NC_AXNF N Comp 5vms istrazxnim sudijom istrazxni sudija NC_AXNF N Comp 6vms Dinkicx Mirosinka Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName slvf Dinkicx Mirosinke Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s2vf Dinkicx Mirosinki Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s3vf Dinkicx Mirosinku Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s4vf Dinkicx Mirosinka Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s5vf Dinkicx Mirosinkom Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s6vf Dinkicx Mirosinki Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s7vf C_A C_A Mirosinka Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName slvf Mirosinke Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s2vf Mirosinki Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s3vf Mirosinku Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s4vf Mirosinka Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s5vf Mirosinkom Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s6vf Mirosinki Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s7vf gladni kao
419. such damages 9 Accepting Warranty or Additional Liability While redistributing the Work or Derivative Works thereof You may choose to offer and charge a fee for accep tance of support warranty indemnity or other liability obligations and or rights consistent with this License However in accepting such obligations You may act only on Your own behalf and on Your sole responsibility not on behalf of any other Contributor and only if You agree to indemnify defend and hold each Contributor harmless for any liability incurred by or claims asserted against such Contributor by reason of your accepting any such warranty or additional liability END OF TERMS AND CONDITIONS Annexe D Licence MIT de LibYAML Voici la licence la note de copyright et la clause de non responsabilit pour la bib lioth que open source LibYAML d analyse syntaxique YAML 1 1 crite en C Copyright 2006 Kirill Simonov Permission is hereby granted free of charge to any person obtaining a copy of this software and associated documentation files the Software to deal in the Soft ware without restriction including without limitation the rights to use copy mod ify merge publish distribute sublicense and or sell copies of the Software and to permit persons to whom the Software is furnished to do so subject to the following conditions The above copyright notice and this permission notice shall be included in all copies or substantial po
420. such modifications You must give prominent notice with each copy of the work that the Library is used in it and that the Library and its use are covered by this License You must supply a copy of this License If the work during execution displays copyright no tices you must include the copyright notice for the Library among them as well as a reference directing the user to the copy of this License Also you must do one of these things a Accompany the work with the complete corresponding machine readable source code for the Library including whatever changes were used in the work which must be distributed under Sections 1 and 2 above and if the work is an executable linked with the Library with the complete machine readable work that uses the Library as object code and or source code so that the user can modify the Library and then relink to produce a modified executable containing the modified Library It is understood that the user who changes the contents of definitions files in the Library will not necessarily be able to recompile the application to use the modified definitions b Use a suitable shared library mechanism for linking with the Library A suit able mechanism is one that 1 uses at run time a copy of the library already present on the user s computer system rather than copying library functions into the exe cutable and 2 will operate properly with a modified version of the library if the user installs one
421. suis V P1s suis V Y2s P2s P1ls M N mp ms Mdiba de DET Dind fp mp fs ms de PREP de PREP z1 de la DET Dind z1 fs de PREP z1 des DET Dind z1l mp fp de PREP z1 du DET Dind z1 ms de la DET Dind z1 fs des DET Dind z1 mp fp du DET Dind zl ms LG ville N fs S 196 CHAPITRE 7 AUTOMATE DU TEXTE Automaton Table Filter grammatical semantic codes v Always show POS category regardless filtering Export all text as POS list AI Only POS category Use filter A Z Form POS sequence 1 POS sequence 2 DANS DANS dans PREP Dnom LEQUEL LEQUEL lequel DET Dnom ms Phileas Fogg N Hum Phileas Fogg N Hum ET ET et CONJC PASSEPARTOUT 8 se PRO PpvLE 3fs 3ms 3fp 3mp se PRO PpvLUI 315 3ms 31p 3m ACCEPTENT ACCEPTENT accepter V P3p S3p R CIPROQUEMENT RECIPROQUEMENT r ciproquement ADV L la le DET Ddef fs la le PRO PpvLE 3fs L UN L UN l un PRO Pind ms UN UN un A ms UN un DET Dind ms COMME COMME comme ADV COMME comme CONJS MATTRE MATTRE ma tre N ms r L la le DET Ddef fs la le PRO PpvLE 3fs AUTRE AUTRE autre DET Dadj ms fs COMME COMME comme ADV COMME comme CONJS DOMESTIQUE DOMESTIQUE domestiquer V Kms DOMESTIQUE domestique A ms FIGURE 7 36 Affichage d une table filtr e 7 9 Le cas particulier du cor en Le cor en est u
422. t lt Gen m Nb s Case 4 Anim a gt lt 1 Gen m Nb s Case 4 Anim a Det d gt FIGURE 11 33 Graphe de flexion NC_AXNF de mots compos s serbes 11 3 INT GRATION UNITEX 249 feminin name first name sumame Katarina Jovanovic lt 1 Anim a Gen f Case c Nb s gt lt 2 gt lt 3 Nb s Anim a Gen g1 Case 1 gt lt 3 Nb s Anim a Gen g1 Case 1 gt lt 2 gt lt 1 Anim a Gen f Case c Nb feminine name surname first name Jovanovic Katarina we lt Nb s Case c Anim a Gen f gt masculine name first name surname Ljuba Popovic b s Case fc Anim fa Gen m gt lt 1 Anim a Gen mCase c Nb s gt lt 2 gt lt 3 Nb s Anim a Gen gl Case c gt H masculine name surname first name Popovic Ljuba lt 3Nb s Anim a Gen g1 Case 1 gt lt 2 gt lt 1 Anim a Gen m Case c Nb s gt FIGURE 11 34 Graphe de flexion NC_ImePrezime de mots compos s serbes gladan kao vuk Es lt 1 Nb s Case c Gen g Anim a Det d Comp cp gt lt Nb s Case c Gen g Anim a Det d Comp cp gt Es lt 1Nb p Case c Gen g Anim a Det d Comp cp gt lt Nb p Case c Gen g Anim a Det d Comp cp gt lt 1 Nb w Case 5c Gen g Anim a Det d Comp cp gt net FIGURE 11 35 Graphe de flexion AC_A3XN2 de mots compos s serbes 250 CHAPITRE 11 FLEXION DES MOTS COMPOS
423. t lt LOWER gt lt UPPER gt et lt FIRST gt Au lieu de reconna tre toutes les formes qui ne sont pas re connues par le m ta sans la n gation ces motifs ne donnent que des formes qui sont des s quences de lettres Ainsi le m ta lt DIC gt permet d obtenir les mots inconnus du texte cf figure 4 1 Ces formes inconnues sont le plus souvent des noms propres des n ologismes et des fautes d orthographe 15 Concordance D My Unitex EnglishCorpus ivanhoe_snticoncord html istresses of the oppressed If Prior Aymer rode hard in the chase or remained long at the b emained long at the banquet if Prior Aymer was seen at the early peep of dawn to enter the whatsoever to atone for them Prior Aymer therefore and his character were well known to beisance and received his benedicite mes filz in return But the singular appearance of ance and received his benedicite mes filz in return But the singular appearance of his y could scarcely attend to the Prior of Jorvaulx question when he demanded if they knew of an raising his voice and using the lingua Franca or mixed language in which the Norman and Saxo st servants of Mother Church repeated Wamba to himself but fool as he was taking care no iding would carry them to the Priory of Brinxworth where their quality could not but secure th ch would bring them to the hermitage of Copmanhurst where a pious anchoret would make them sha d not dizzied th
424. t lt jp gt lt p id 5 gt We will have to decide lt seg type sequence gt in the next few days lt seg gt how we take all this together lt p gt lt body gt lt ftext gt lt TEI 2 gt FIGURE 8 3 TEILite 8 2 Utilisation Pour cr er un automate de s quences cliquez sur S quence Construct Automate dans le menu Text Vous verrez alors appara tre la fen tre de la figure 8 4 Cette fen tre vous permet de d finir les param tres pour produire un automate s quence Vous devez suivre ces trois tapes e choisissez le corpus s quences celui ci peut tre un fichier dont le format est l un des trois formats d crits dans la section pr c dente Le format de fichier est automatique ment d tect en fonction de l extension de fichier e d finissez les options sp cifiques Apply the beautifying algorithm placera chaque bo te de mani re ce que le graphe r sultant soit le plus petit et le plus facile lire que possible Exact case matching mettra les tokens litt raux entre accolades dans le 8 2 UTILISATION 201 graphe afin que ceui ci ne reconnaisse pas des tokens avec les m mes lettres mais avec des diff rences de casse Vous pouvez d finir des options suppl mentaires pour produire un graphe qui permet une reconnaissance approximative vous pouvez fixer le nombre de jokers utiliser pour produire de nouvelles s quences d riv es des s quences du corpus original et choisir le joke
425. t gen r s e b binaries indique que le programme doit compresser les fichiers de donn es en fichiers bin files par d faut 304 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e o XXX output XXX motif utilis pour nommer les fichiers de sortie du taggueur XXX_data_cat bin et XXX_data_morph bin par d faut nom de fichier sans extension corpus de textes e s semitic indique que l algoritme de compression s mitique doit tre utilis 13 46 Txt2Tfst Txt2Tfst OPTIONS lt txt gt Ce programme construit l automate du texte Le param tre lt t xt gt doit repr senter le chemin d acc s complet au fichier texte sans omettre l extension snt OPTIONS e a ALPH alphabet ALPH fichier alphabet e c clean indique que la r gle de conservation des meilleurs chemins voir section 7 2 4 doit tre utilis e e n XXX normalization_grammar XXX nom de la grammaire de nor malisation qui doit tre appliqu e l automate de texte e t TAGSET tagset TAGSET fichier de jeu d tiquete Elag pour la nor malisation des entr es du dictionnaire e K korean indique Txt2Tfst qu il traite du cor en Si le texte a t d coup en phrases le programme construit un automate pour chaque phrase Si ce n est pas le cas le programme d coupe arbitrairement le texte en s quences de 2000 unit s lexicales et construit un automate pour chacune de ces s quences Le r sultat es
426. t trop volumineux La construction de l automate du texte sera abord e dans le chapitre 7 NOTE si vous cliquez sur Cancel but tokenize text le programme effectuera malgr tout la normalisation des s parateurs et le d coupage en unit s lexicales cliquez sur Cancel and close text pour annuler compl tement l op ration 2 5 1 Normalisation des s parateurs Les s parateurs usuels sont l espace la tabulation et le retour la ligne On peut rencon trer plusieurs s parateurs cons cutifs dans des textes mais comme cela n est d aucune utilit pour une analyse linguistique on normalise ces s parateurs selon les r gles suivantes e toute suite de s parateurs contenant au moins un retour la ligne est remplac e par un unique retour la ligne e toute autre suite de s parateurs est remplac e par un espace La distinction entre espace et retour la ligne est conserv e cette tape car la pr sence de retours la ligne peut intervenir dans le d coupage du texte en phrases Le r sultat de la normalisation d un fichier appel mon_texte txt est un fichier situ dans le m me r pertoire que le txt et dont le nom est mon_texte snt NOTE lorsque l on pr traite un texte depuis l interface graphique un r pertoire nomm 34 CHAPITRE 2 CHARGEMENT D UN TEXTE mon_texte snt est cr imm diatement apr s la normalisation Ce r pertoire appel r per toire du texte contiendra toutes les donn es relative
427. t un fichier nomm text t fst qui est sauvegard dans le r pertoire du texte Un autre fichier text t ind est aussi produit NOTE Ce programme essaye galement d utiliser le fichier tags ind s il existe voir section 14 7 4 13 47 UNCOMPRESS 305 13 47 Uncompress Uncompress OPTIONS lt bin gt Ce programme d compresse un dictionnaire bin en un fichier texte dic OPTIONS e o OUT output OUT nom du fichier de sortie optionnel par d faut file bin gt file dic 13 48 Untokenize Untokenize OPTIONS lt txt gt Untokenize et reconstruit le texte orgininal La liste des token est stock e dans le fichier tokens txt et le texte cod dans text cod Le fichier enter pos contient la position en tokens de tous les retours la ligne Ces fichiers se trouvent dans le r pertoire XXX_snt o XXX est sans son extension lt txt gt OPTIONS e d X sntdir xX utilise le r pertoire X au lieu du r pertoire texte remar quez que X doit se terminer par un antislash e n N number_token N ajoute le num ro de token chaque N token e r N range N met seulement les tokens du num ro N la fin e r N M range N M met seulement les tokens du num ro N M 13 49 UnitexTool UnitexTool lt utilities gt Ce programme est un programme qui vous permet d ex cuter tous les programmes externes d Unitex Avec lui vous pouvez enchainer les commandes afin qu elles soit ex cut e
428. t2 Si vous laissez la souris sur le nom du graphe une info bulle appara t avec le chemin complet du graphe Les graphes dont le fichier source n est pas trouv apparaissent en italique et en rouge e Merge Si le transducer doit tre appliqu en mode merge e Replace Si le transducer doit tre appliqu en mode replace 254 CHAPITRE 12 CASCADE DE TRANSDUCTEURS e Until fix point Si le transducteur doit tre appliqu une fois ou plusieurs fois jusqu ce que le texte soit inchang c est dire qu un point fixe est atteint voir 1222 3 Au centre se trouvent les boutons d crits ci dessous e Up Down Top Bottom sont utilis s pour modifier l ordre des transduc teurs dans la liste ils d placent le transducteur s lectionn Up et Down d placent le transducteur s lectionn d une ligne vers le haut ou vers le bas Top et Bottom le positonnent au d but ou la fin de la liste e Delete permet de supprimer le transducteur s lectionn de la liste des transduc teurs e Add ajoute un transducteur pr c demment s lectionn dans la liste Il rem place le gisser d poser pr alablement d crit e View ouvre le graphe s lectionn aussi bien dans l explorateur de fichiers que dans la liste de transducteurs Il est tr s utile d avoir un acces rapide n importe quel transducteur aussi bien pour y jeter un coup d ceil que pour le modifier
429. tagger cara did 335 1410 1 Fichier corpus ixt s scie L au BE A OES 335 14 10 2 Le fichier de donn es du taggueur c o cosmos sarira ritas 336 14 11 Fichier de CONSUMO gt risa RARA ES 337 1411 1 Fichier Config gt le cda done Be dd we ae ee AA 337 14 11 2 Fichiersystem dicdef ori AAA 339 1411 3 Fichier user dic def 340 14 11 4 Fichiers nom d utilisateur cfg et unitex cfg 340 14 12 Fichiers CasSyS 2 che ec eee PERO d dede ARA 341 14121 Fichiers de configuration CasSys se oo s c cca mao ro 341 14 13Plusieurs autres fichiers 341 14 131 Fichier difn dlc n errn et ASS EMO ocio 4 341 112 2 PIC UE STAT diem eare 2 te ee De a ah bn ds EOS 341 14 13 3 Fichier statsn 341 14134 Fichier concord i 2 3 1 ua Lada bide edhe ee te 342 14 13 5 Fichier concord_H tn 2 4444 48 488 a droni ve es 342 14 13 6 Fichier r gles de normalisation 44 cou uses een ee eb ews 342 14 13 7 Fichier de mots interdits 343 1413 8 Fichierde l g sooro so xi EH GS Ee SHEER SH AS 343 14 13 9 R gles typographiques de l arabe arabic_typo_rules txt 344 14 13 1Gichier d offsets de diff rence 344 14 13 1 fichier d offsets de zone commune 344 14 13 1fichier d offs ts uima lt gt 6 es 4 du du man ea e a 345
430. tatistiques sur le texte 2 5 PR TRAITEMENT DU TEXTE 39 Le d coupage du texte Un sou c est un sou donne la liste d unit s lexicales suivantes UN ESPACE sou c est un On peut remarquer qu il est tenu compte de la casse Un et un sont deux unit s distinctes mais que chaque unit n est cod e qu une fois En num rotant ces unit s de 0 7 ce texte peut tre repr sent par la s quence d entiers d crite dans le tableau suivant Indice 011211 311 4 1 2 5 Unit lexicale UN sou est UN sou correspondante TABLE 2 1 Repr sentation du texte Un sou c est un sou Pour plus de d tails voir le chapitre 14 FIGURE 2 12 Unit s lexicales d un texte anglais tri es par fr quence 40 CHAPITRE 2 CHARGEMENT D UN TEXTE 2 5 5 Application de dictionnaires L application de dictionnaires consiste construire le sous ensemble des dictionnaires ne contenant que les formes pr sentes dans le texte Ainsi le r sultat de l application des dictionnaires du francais au texte Igor mange une pomme de terre produit le dictionnaire de mots simples suivant de DET z1 de PREP z1 de XI z1l mange manger V zl P1s P3s S1s S3s Y2s pomme A zl ms fs mp fp pomme N z1 fs pomme pommer V z3 P1s P3s S1s S3s Y2s terre N zl fs terre terrer V z1 P1s P3s S1s S3s Y2s une N zl fs une un DET z1 fs ainsi que le dictionnaire de mots compos s
431. te JKL utilisez le test suivant Sabc EQUAL JKLS on peut galement tester si le contenu est diff rent avec UNEQUAL Si vous d sirez comparer des variables en ignorant les variantes de casse vous pouvez utiliser les tests suivants Sabc EQUALCC xyz ou Sabc UNEQUALCC xyz 6 9 3 Recherche d un code s mantique dans une variable de dictionnaire On peut chercher dans une variable de dictionnaire section 6 4 4 un code s mantique au sens de la section 3 1 1 Pour cela on ins re dans la sortie d une boite une s quence respectant la syntaxe suivante Sabc EQ Conc Ce test agit comme un interrupteur qui permet de bloquer l exploration de la grammaire si Conc ne figure pas parmi les codes s mantiques de la variable de dictionnaire abc On peut chercher un seul code a la fois dans une variable Pour v rifier plusieurs codes on met plusieurs boites en s rie Cette fonctionnalit est utilis e pour de grandes grammaires de graphes dictionnaires mor phologiques en vue de dissocier dans des boites distinctes la v rification d un code gram matical et de codes s mantiques qui viennent ensuite comme dans 78 page 486 On teste le code grammatical avec un masque lexical puis on fait de m me pour les codes s man tiques en les cherchant dans la variable de dictionnaire correspondante Cette dissociation peut acc l rer l application des graphes si e tous les graphes sont invoqu s direct
432. te de texte t fst selon un fichier de jeu d tiquettes en supprimmant les codes dictionnaire non d clar s et les entr es lexi cales incoh rentes Les caract ristiques flexionnelles ne pas sont factoris es afin que rouge A fs ms soit divis en deux tiquettes rouge A fs et rouge A ms OPTIONS e o OUT output OUT automate de texte r sultant Par d faut l automate du texte donn en entr e est modifi e t TAGSET tagset TAGSET nom du fichier de description du jeu d ti quettes 13 41 TERTxt TEI2Txt OPTIONS lt xml gt Produit un fichier de texte brut partir du fichier TEI lt xm1 gt OPTIONS 13 42 TFST2GRF 301 e o TXT output TXT nom du fichier de texte de sortie Par d faut le fichier de sortie porte le m me nom que celui d entr e rempla ant xml by EXT 13 42 Tfst2Grf Tfst2Grf OPTIONS lt tfst gt Ce programme extrait un automate de phrase en format grf format partir d un automate du texte donn OPTIONS e s N sentence N le nombre de phrases extraire e o XXX output XXX motif utilis pour nommer le fichier de sortie XXX grf XXX txt et XXX tok defaut cursentence e f FONT font FONT d finit la police utiliser en sortie grf default Times new Roman e z N fontsize N d finit la taille de police defaut 10 Le programme produit les fichiers suivants et les enregistre dans le r pertoire du texte
433. te du graphe est d finie par une ligne qui doit avoir le format suivant contenu X Y N transitions 4 14 3 GRAPHES 317 contenu est une cha ne de caract res entour e de guillemets qui repr sente le con tenu de la bo te Cette cha ne peut ventuellement tre pr c d e d un s dans le cas d un graphe Intex import ce caract re est alors ignor par Unitex Le contenu de la cha ne est le texte qui a t entr dans le contr le de texte de l diteur de graphes Le tableau 14 4 donne le codage des deux s quences sp ciales qui ne sont pas cod es telles quelles dans les fichiers grf S quence dans l diteur de graphe S quence dans le fichier grf X TABLE 14 4 Codage des s quences sp ciales NOTE les caract res compris entre lt et gt ou entre et ne sont pas interpr t s Ainsi le caract re contenu dans la cha ne le lt A Conc gt n est pas interpr t comme un s parateur de lignes car le motif lt A Conc gt est interpr t en priorit X and Y repr sentent les coordonn es de la bo te en pixels La figure 14 1 montre comment ces coordonn es sont interpr t es par Unitex 0 0 x y FIGURE 14 1 Interpr tation des coordonn es des bo tes N repr sente le nombre de transitions qui sortent de la boite Ce nombre doit tou jours valoir 0 pour l tat final Les transitions sont d finies par les num ros des boites vers lesquelles e
434. te en alphabet Jamo ensuite la derni re lettre Jamo est supprim e Si le caract re n est ni un Jamo ni un Hangul une erreur est produite e latin dot ins re une limite de syllabe Ceci a un effet de ford si le haut de la pile contient des lettres Jamo elles sont recombin es en Hangul Voici un exemple qui d crit la flexion de choose en chosen gr ce la s quence d op ra teurs LLDRRn e tape 0 initialisation de la pile avec la forme canonique on place le curseur apr s la derni re lettre c h lo lo sle e Etape 1 on d cale le curseur vers la gauche LLDRRn 58 CHAPITRE 3 DICTIONNAIRES Etape 2 on d cale une seconde fois le curseur vers la gauche LLDRRn c h lolo sle tape 3 on d cale tout ce qui est droite du curseur vers la gauche LLDRRn cijhlofsle e Step 4 on d cale le curseur vers la droite LLDRRn ve alo se e Step 5 on d cale encore le curseur vers la droite LLDRRn e Step 6 on crit un n LLDRRn cjhlofs eln Une fois la s quence d op rateurs puis e on prend le contenu de la pile jusqu avant le curseur pour former la forme fl chie ici chosen Le programme de flexion Inflect explore tous les chemins de la grammaire de flexion en
435. the Library The precise terms and conditions for copying distribution and modification fol low Pay close attention to the difference between a work based on the library and a work that uses the library The former contains code derived from the library whereas the latter must be combined with the library in order to run GNU LESSER GENERAL PUBLIC LICENSE TERMS AND CONDITIONS FOR COPYING DISTRIBUTION AND MODIFICATION 0 This License Agreement applies to any software library or other program which contains a notice placed by the copyright holder or other authorized party saying it may be distributed under the terms of this Lesser General Public License also called this License Each licensee is addressed as you A library means a collection of software functions and or data prepared so as to be conveniently linked with application programs which use some of those functions and data to form executables The Library below refers to any such software library or work which has been distributed under these terms A work based on the Library means either the Li brary or any derivative work under copyright law that is to say a work containing the Library or a portion of it either verbatim or with modifications and or trans lated straightforwardly into another language Hereinafter translation is included without limitation in the term modification Source code for a work means the preferred form of the work for maki
436. tics dans le cadre Located sequences le panneau de la figure 4 9 appara t Ce panneau permet d effectuer des calculs statistiques sur les s quences pr alablement index es Located sequences Concordance Mode a collocates by z score 2 collocates by frequency contexts by frequency Sizes of contexts in non space tokens Left 1 Right Case sensitivity e case sensitive case insensitive Compute statistics FIGURE 4 9 Panneau statistiques Dans le panneau Mode il est possible de choisir le type de statistiques d sir e collocates by frequency montre les unit s lexicales pr sentes dans le contexte de la s quence reconnu e collocates by z score le me m mes informations avec en plus number of occurrences of the collocate in the match context and in the whole corpus z score of the collocate 4 8 RECHERCHE 91 e contexts by frequency montre les unit s lexicales avec les contextes gauche et droit voir au dessous count est le nombre d occurrences d une s quence reconnue don n e munie de contexte Dans le second panneau on choisit la longueur des contextes gauche et droit utiliser en tokens sans espace NOTE Cette notion de contexte n a rien voir avec celle utilis e dans les grammaires Dans le dernier panneau on peut permettre ou non la variation de casse Si cette variation est permise the et THE sont consid r es comme
437. tiliser le mode morphologique et les filtres morphologiques et faire r f rence aux informations pr sentes dans les dictionnaires CasSys n est pas compatible avec les fichiers fst2 en mode debug 6 10 7 Quand on ap plique un graphe en mode debug avec le menu Text gt Locate Pattern le syst me com pile le graphe dans un format sp cial de mode debug Pour obtenir un fichier au format fst2 normal recompilez le graphe soit avec le menu FSGraph soit en ligne de commande soit en d cochant le mode debug avant d appliquer le graphe avec Locate Pattern 12 2 2 Application it rative Cassys peut appliquer un graphe sur un texte de mani re it rative tant que de nouvelles concordances sont obtenues Ce comportement est s lectionn ou non pour chaque graphe selon que la case Until fix point est coch e ou non Cette section pr sente le comporte ment de cette option Consid rons par exemple le graphe 12 6 qui reconnait AB et le remplace par A 12 2 CASSYS EN D TAIL 257 a A FIGURE 12 6 Transducteur qui modifie BA en A Consid rons le texte B B B A A A L application du graphe 12 6 sur ce texte avec Until fix point donne initial text B B B A A A it ration 1 B B A A A 1match it ration 2 B A A Al lmatch it ration 3 A A Al lmatch it ration 4 A A A Omatch Durant les trois premi res it rations une concordance est obtenue le graphe est alors appliqu nouveau au texte r sultant
438. tion is intended to apply and the section as a whole is intended to apply in other circumstances It is not the purpose of this section to induce you to infringe any patents or other property right claims or to contest validity of any such claims this sec tion has the sole purpose of protecting the integrity of the free resource dis tribution system which is implemented by public license practices Many peo ple have made generous contributions to the wide range of data distributed through that system in reliance on consistent application of that system it is up to the author donor to decide if he or she is willing to distribute resources through any other system and a licensee cannot impose that choice This section is intended to make thoroughly clear what is believed to be a con sequence of the rest of this License If the distribution and or use of the Linguistic Resource is restricted in cer tain countries either by patents or by copyrighted interfaces the original copy right holder who places the Linguistic Resource under this License may add an explicit geographical distribution limitation excluding those countries so that distribution is permitted only in or among countries not thus excluded In such case this License incorporates the limitation as if written in the body of this License The Free Software Foundation may publish revised and or new versions of the Lesser General Public License for Linguistic Resources from ti
439. tre sp ciale voir figure 6 65 divis e en trois parties En haut droite se trouve la fen tre de concordance Elle est identique la fen tre habituelle dans laquelle les s quences reconnues apparaissent en bleu En bas droite se trouve le graphe utilis par Locate A gauche il y a un tableau divis en trois colonnes Tag Output et Matched Chaque token de la s quence reconnue appara t dans la colonne Matched la colonne Tag indique le contenu de la bo te de l automate qui l a reconnue et si elle poss de une sortie elle appara t dans la colonne Output Pour chaque s quence reconnue de la concordance si on clique dessus le tableau est mis jour Si on clique sur une ligne du tableau le syst me colore la bo te correspondante dans le graphe On peut ainsi voir pour chaque occurrence reconnue dans le texte quel chemin de l automate la reconnait Le nombre en rouge au dessus d une bo te indique le nombre de s quences du texte pour lesquelles cette bo te a reconnu un token Quand on applique un graphe en mode debug avec le menu Text gt Locate Pattern le syst me le compile en un fichier fst2 dans un formal sp cial de mode debug qui n est pas compatible avec CasSys Voir la section 12 2 1 pour r soudre ce probl me 6 10 APPLICATION DES GRAPHES AUX TEXTES E Concordance C Documents and Settings adurand Mes documents UNITEXEnglish Corpusivanhoe_snticoncordhtmi Tag Output Matched
440. tre une expression rationnelle et une gram maire Cliquez sur Regular expression Le cadre Index permet de s lectionner le mode de reconnaissance e Shortest matches donne la priorit aux s quences les plus courtes For instance if your grammar can recognize the sequences very hot chili and very hot the first one will be discarded e Longest matches donne la priorit aux s quences les plus longues C est le mode utilis par d faut e All matches donne toutes les s quences reconnues Le cadre Search limitation permet de limiter ou non la recherche un certain nombre d occurrences Par d faut la recherche est limit e aux 200 premi res occurrences Les options du cadre Grammar outputs ne concernent pas les expressions rationnelles Elles sont d crites la section 6 10 De m me pour les options de l onglet Advanced op tions voir section 6 10 2 86 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES Dans le cadre Search algorithm on d finit si l on veut effectuer la recherche dans le texte avec le programme Locate ou dans l automate du texte avec le programme LocateTfst Par d faut la recherche est effectu e avec le programme Locate Pour utiliser LocateTfst il est utile de se r f rer la section 7 7 Entrez une expression et cliquez sur Search pour lancer la recherche Unitex va transformer l expression en une grammaire au format grf Cette grammaire va ensuite tre compil
441. ty including a cross claim or counter claim in a lawsuit alleging that the Work or a Contribution incorporated within the Work constitutes direct or contributory patent infringement then any patent li censes granted to You under this License for that Work shall terminate as of the date such litigation is filed 4 Redistribution You may reproduce and distribute copies of the Work or Deriva tive Works thereof in any medium with or without modifications and in Source or Object form provided that You meet the following conditions 1 You must give any other recipients of the Work or Derivative Works a copy of this License and 2 You must cause any modified files to carry prominent notices stating that You changed the files and 14 13 PLUSIEURS AUTRES FICHIERS 363 3 You must retain in the Source form of any Derivative Works that You dis tribute all copyright patent trademark and attribution notices from the Source form of the Work excluding those notices that do not pertain to any part of the Derivative Works and 4 If the Work includes a NOTICE text file as part of its distribution then any Derivative Works that You distribute must include a readable copy of the at tribution notices contained within such NOTICE file excluding those notices that do not pertain to any part of the Derivative Works in at least one of the following places within a NOTICE text file distributed as part of the Deriva tive Works within t
442. u une s quence est reconnue par plusieurs chemins avec des sorties diff rentes transducteur ambigu seul un chemin de poids maximal sera conserv Apr s un Locate la concordance ne comportera qu une seule fois la s quence reconnue et avec la sortie appropi e figure 5 20 Concordance C Documents and Settings adurand Mes documents UNITEX Fren no a E 17191 matches rester dans l Inde cas g n rallvotre salut n t _ Vous n abusez pas cas g n rallvotre pr sence r ort de mon ma tre cas g n rallvotre ma tre t l air de la mer _ cas g n rallvotre ma tre jd r _ Bordeaux _ cas g n rallvotre cargaison e l oc an Indien S Et cas g n rallvotre ma tre My st moi _ Cet homme est cas g n rallvotre domestique man _ Et cet homme est cas g n rallvotre domestique la monsieur Fix c est cas g n rallvotre affaire y nt sa marche C est cas g n rallvotre m tier et offre caution _ C est cas g n rallvotre droit y r ve Le Carnatic cas particulier lle Carnatic ppa la terre du pied cas particulier le gueux g 0 cas g n ral d un homme du monde cas particulier Le capitaine articuler une parole cas particulier Le pari du gd e l on parl t de lui cas particulier Le gouverner jusqu la stupeur cas particulier Le tour du agner le temps perdu cas particulier Le train le dent sur la lumi re cas particu
443. uccessives du texte OPTIONS e o X old X nom du fichier d origine e n X output X nom du fichier d offset issu de la fusion Autre Utilisation DumpOffsets v convert_modified_to_common OPTIONS lt lt txt gt fichier d offsets d origine Cr e un fichier d offset des chaines identiques dans le fichier original et le fichier modifi Au moins une taille doit tre fournie OPTIONS e s N old_size N taille en caract re de la version d origine du fichier texte e S N new_size n taille en caract re de la version d arriv e du fichier texte 280 CHAPITRE 13 UTILISATION DES PROGRAMMES EXTERNES e p X output X nom du fichier d offsets courant e h help cet aide Autre Utilisation DumpOffsets M convert_modified_to_common OPT lt txt gt fichier d offsets d origine Cr e un fichier d offsets a partir des offsets des chaines identiques dans le fichier original et le fichier modifi Il faut obligatoirement sp cifier les deux tailles OPTIONS e s N old_size N taille en caract re de la version d origine du fichier texte e S N new_size n taille en caract re de la version d arriv e du fichier texte e p X output X nom du fichier d offsets courant e h help cet aide Autre Utilisation DumpOffsets o lt list_of_position_file_to_read txt gt lt list_of_position_file_to_read txt gt est un fichier avec seul
444. ue vous pouvez utiliser un alignement existant comme un ensemble de liens obligatoires en tant qu entr es du processus d alignement Ceci peut tre tr s utile si vous souhaitez travailler avec des mots apparent s Pour plus de d tails au sujet des mots apparent s et de XAlign voir 77 216 CHAPITRE 10 ALIGNEMENT DE TEXTE D My UnitexiXAlignfuntana xml 78 s entre d chirent Ne inc p tin m s le vener m pe amindou in timp ce ele se devor ous plait reciproc nu scrieti asta v rog cineva on pourrait me le ar putea s m trag la r spundere 79feprocher ntr o buna zi je ne suis ici que depuis quelques minutes un quart d heure tout au plus N am comandat nimic v asteptarn pe dumneavoastr 8 All sentences Plain text All sentences Plain text 8 O Matched sentences Matched sentences All sentences HTML All sentences HTML Aligned with target concordance Aligned with source concordance O Locate Clear alignment Save alignment Save alignment as FIGURE 10 4 Phrases align es D My UnitexiXAlign funtana xm E E EE Continentul numit o 10 E Oui c tait l Italie rame Terra Ferma Comme vous madame comme italia 11 ous Ou comme Altea ma ch re 12 comme Altea 13 Pina mai ieri Leag nul civilizatiei noastre lingvigtii sustin chiar ca apartinem unei arii italice All sentences Plain text 8 8 All sentences Plain text
445. uement les param tres contenant des lignes de com mande pour des programmes Unitex externes et qu un fichier contenant un chemin etnomm unitex_logging_parameters_count txt est pr sent dans le r pertoire courant alors un fichier de log ulp pour la session en cours sera cr Le fichier ulp est un fichier zip comprim compatible avec unzip qui peut tre utile pour le d bogage UnitexToolLogger RunLog OPTIONS lt ulp gt OPTIONS after RunLog e m quiet n met pas de messages lors de l ex cution e v verbose met des messages lors de l ex cution 13 50 UNITEXTOOLLOGGER 307 d DIR rundir DIR chemin o le fichier log est ex cut r newfile ulp result newfile ulp nom du fichier ulp r sultat cr c clean supprime le fichier de travail apr s l ex cution k keep conserve le fichier de travail apr s l ex cution s file txt summary file txt fichier avec comparaison de lo P 8 e file txt summary error file txt fichier de synth se avec com paraison des erreurs b no benchmark ne pas enregistrer le temps d ex cution dans les fichiers log n cleanlog supprime le r sultat ulp apr s ex cution 1 keeplog garde le r sultat ulp apr s ex cution o NameTool too1 NameToo lance seulement les log pour NameToo i N increment N incr menter le nom de fichier lt ulp gt de 0 N
446. ui doit tre compl t e par l ensemble des l ments caract ris tiques d une langue donn e Dans cette section nous donnons une description d taill e de ce formalisme 11 2 1 Caract ristiques morphologiques de la langue Lorsque l on traite les mots compos s d une langue il faut d finir les caract ristiques g n rales de cette langue Ces donn es se trouvent dans deux fichiers textes Le fichier Morphology txt indique les cat gories grammaticales nom adjectif cat gories flexionnelles nombre genre cas et leurs valeurs masculin f minin singulier nominatif Consid rons l exemple suivant Polish lt CATEGORIES gt Nb sing pl Case Nom Gen Dat Acc Inst Loc Voc Gen masc_pers masc_anim masc_inanim fem neu lt CLASSES gt noun Nb lt var gt Case lt var gt Gen lt fixed gt adj Nb lt var gt Case lt var gt Gen lt var gt adv Le fichier ci dessus indique que pour le polonais trois cat gories flexionnelles sont consid r es le nombre Nb le cas Case et le genre Gen On donne pour chaque cat gorie la liste exhaustive des valeurs qu elle peut prendre singulier et pluriel pour le nombre etc 11 2 FORMALISME DE FLEXION DES MOTS COMPOS S 225 Ensuite chaque cat gorie grammaticale est d crite selon les cat gories qui varient avec la flexion et celles qui sont d finies Par exemple un nom se fl chit en nombre et en cas et poss
447. uissent tre r analys es par celui ci Pour cette raison quand une s quence a t introduite dans le texte l application du transducteur se poursuit apr s cette s quence Cette r gle ne concerne que les transducteurs de pr traitement car lors de l application de graphes syntaxiques les sorties ne modifient pas le texte parcouru mais un fichier de concordances distinct du texte 6 7 3 Priorit gauche Lors de l application d une grammaire locale les occurrences qui se chevauchent sont toutes index es Nous consid rons ici de vrai chevauchements d occurrence comme abc et bcd et pas d occurrences imbriqu es comme abc et bc Lors de la construction de la concordance toutes ces occurrences sont pr sent es voir figure 6 43 iver Don there extended in ancient times a large forest covering the gr r Don there extended in ancient times a large forest covering the great here extended in ancient times a large forest covering the greater part FIGURE 6 43 Occurrences se chevauchant dans une concordance En revanche si vous modifiez le texte au lieu de construire une concordance il est n ces saire de choisir parmi ces occurrences lesquelles seront prises en compte Pour cela Unitex 146 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES applique la r gle de priorit suivante la s quence la plus gauche l emporte Si l on applique cette r gle aux trois occurrences de la concordance pr c dente l oc
448. ulier cependant son nom t te wybory en poss de une e Quelles sont les caract ristiques flexionnelles forme canonique cat gorie grammati cale paradigme flexionnel etc des constituants simples du mot compos Par exem ple en fran ais porte est un verbe non fl chi dans porte avion alors que c est un nom fl chi dans porte fen tre qui prend un s au pluriel portes fen tres e Comment doit on combiner les formes fl chies des constituants simples pour g n rer les formes fl chies du compos Par exemple pour fl chir battle of nerves et battle cry nous devons fl chir respectivement le premier et le dernier constituant 11 12 Approche lexicale ou grammaticale de la description morphologique Une tude pr c dente 87 a confirm le statut particulier des mots compos s les situant la fronti re de la morphologie et de la syntaxe Leur structure compositionnelle sugg re une productivit qui ne pourrait gu re tre trait e sans une approche grammaticale Toutefois certaines de leurs propri t s morphologiques syntaxiques et s mantiques ex cluent leur traitement seulement en termes des propri t s de leurs constituants Par exem ple dans les deux exemples ci dessous e chief justice e lord justice il y a peu d indices automatiquement accessibles indiquant que le dernier est morphologique ment un syntagme nominal anglais standard prenant un s son dernier constituant au pluriel tan
449. un espace La fin de chaque graphe est marqu e par une ligne contenant un f suivi d un espace et d un retour la ligne 14 4 TEXTES 319 Les tiquettes sont d finies apr s le dernier graphe Si la ligne d bute par le caract re cela signifie que le contenu de l tiquette doit tre recherch sans variante de casse Cette information n est utile que lorsque l tiquette est un mot Si la ligne d bute par le caract re les variantes de casse sont autoris es Si une tiquette porte une transduction les s quences d entr e et de sortie sont s par es par le caract re exemple the DET Par convention la premi re tiquette doit toujours tre le mot vide lt E gt et ce m me si cette tiquette n est utilis e dans aucune transition La fin du fichier est indiqu e par une ligne contenant le caract re f suivi d un retour la ligne 14 4 Textes Cette section pr sente les diff rents fichiers utilis s pour repr senter des textes 14 4 1 Fichiers txt Les fichiers t xt doivent tre des fichiers texte cod s en Unicode Little Endian Ces fichiers ne doivent pas contenir d accolade ouvrante ou fermante moins qu elles soient utilis es pour crire un s parateur de phrase S ou une tiquette lexicale valide aujourd hui ADV Les retours la ligne doivent tre cod s par les deux caract res sp ciaux de valeurs hexad cimales 000D and 000A 14 4 2 Fichiers snt snt
450. ur le format d entr e vous pouvez sp cifier plusieurs encodages bom avec bom codage s par es par des virgules mais seulement un encodage no bom sans bom OPTIONS e k ENCODING input_encoding ENCODING format du texte source Peut contenir plusieurs valeurs s par es par des virgules e q ENCODING output_encoding ENCODING format du texte de sortie Par d faut les valeurs sont input_encoding utf16le bom utf16be bom ut f8 bom output_encoding utf16le bom 13 5 BuildKrMwuDic BuildKrMwuDic OPTIONS dic Ce programme g n re des graphes de flexion pour les mots compos s partir d un tableau dic qui d crit chaque constituant de chaque mot compos OPTIONS e o GRF output GRE fichier grf produire e d DIR directory DIR r pertoire de flexion qui contient les graphes de flexion n c ssaires pour produire les variantes morphologiques des racines e a ALPH alphabet ALPH fichier alphabet utiliser e b BIN binary BIN dictionnaire des mots simples de type bin utiliser 13 6 CASSYS 269 13 6 Cassys Cassys OPTIONS lt snt gt Ce programme applique une liste ordonn e de grammaires un texte et construit un index des occurrences trouv es OPTIONS e a ALPH alphabet ALPH fichier alphabet de la langue e r X transducer_dir X prend un transducteur dans le r pertoire X ainsi ne donnez pas le c
451. ur plusieurs langues fran ais anglais grec italien espagnol allemand tha cor en polonais norv gien portugais etc Les grammaires sont des repr sentations de ph nom nes linguistiques par r seaux de tran sitions r cursifs RTN un formalisme proche de celui des automates tats finis De nom breuses tudes ont mis en vidence l ad quation des automates aux probl mes linguistiques et ce aussi bien en morphologie qu en syntaxe ou en phon tique Les grammaires manip ul es par Unitex reprennent ce principe tout en reposant sur un formalisme encore plus puissant que les automates Ces grammaires sont repr sent es au moyen de graphes que l utilisateur peut ais ment cr er et mettre jour Les tables de lexique grammaire sont des matrices d crivant les propri t s de certains mots De telles tables ont t labor es pour tous les verbes simples du fran ais dont elles d crivent les propri t s syntaxiques L exp rience ayant montr que chaque mot a un comportement quasi unique ces tables permettent de donner la grammaire de chaque l ment de lexique d o le nom de lexique grammaire Unitex permet de construire des grammaires partir de telles tables Unitex est un moteur permettant d exploiter ces ressources linguistiques Ses caract ris tiques techniques sont la portabilit la modularit la possibilit de g rer des langues pos s dant des syst mes d critures particuliers comme certa
452. urces tagger_data_simple bin tagger_data_cat bin tagger_data_compound bin profession bin pronouns FR bin Prolex PaysCapitales bin test bin motsGramf bin suf_dc bin Prolex Toponymes bin E communesFR bin prenom s bin F testfix bin dela fr public bin rac_arabe bin tagger data morph bin new verbs FR bin test bin ajouts80jours bin Extrait DelquefM2 bin Lum hin Clear selection Refresh lists Word Parie Paris N PR DetZ Toponyme Ville IsoFRims is Paris N PR DetZ Toponyme Ville ms fs paris pari N z1 mp FIGURE 3 3 Recherche d un mot dans plusieurs dictionnaires 3 3 V rification du format du dictionnaire Lorsque les dictionnaires sont de taille importante il devient fastidieux de les v rifier a la main Unitex contient le programme CheckDic qui v rifie automatiquement les diction naires DELAF et DELAS Ce programme effectue une v rification de la syntaxe des entr es Pour chaque entr e mal form e le programme affiche le num ro de ligne le contenu de cette ligne et la nature de l erreur Les r sultats de l analyse sont sauv s dans un fichier nomm CHECK_DIC TXT qui est affich une fois la v rification termin e En plus des ventuels messages d erreurs ce fichier contient la liste de tous les caract res utilis s dans les formes fl chies et canoniques la liste des codes grammaticaux et s mantiques ainsi que la liste des codes flexionnels utilis s La liste des caract r
453. ure 6 53 si le mode debug est activ dans le champ Locate pattern in the form of la 160 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES Violet identical sequences with different outputs Red similar but different sequences Green sequences that occur in only one of the two concordances Grey background previous matches White background new matches sa barbe de l eau quatre vingt quatre degr s Fahrenheit au sa barbe de l eau quatre vinat quatre degr s Fahrenheit au eau quatre vingt quatre degr s Fahrenheit au lieu de quat hrenheit au lieu de quatre vingt six _ et il attendait son hrenheit au lieu de quatre vinat six _ et il attendait son jeu de quatre vingt six _ et il attendait son aie se pr senter entre onze heures et onze heures et demie S ntre onze heures et onze heures et demie S Phileas Fogg c s son fauteuil les deux pieds rapproch s comme ceux d un so s son fauteuil les deuxfunit s pieds rapproch s comme ceux roch s comme ceux d un soldat 4 la parade les mains appuy e roch s comme ceux d un unit s soldat la parade les mains es et l ann e S A onze heures et demie sonnant Mr Fogg d tique dit il S Un gar on g d une trentaine d ann es s tique dit il S Un unit s gar on g d une trentaine d Jean Passepartout un surnom qui m est rest et que justif FIGURE 6 64 Exemple de comparaison de concordances concordance est affich e dans une fen
454. ure 7 13 montre le r sultat de l application de cette grammaire sur la phrase Feras tu cela bient t On peut voir sur l automate du bas que le chemin correspondant tu participe pass a t limin 7 3 LEV E D AMBIGUI T S LEXICALES AVEC ELAG 173 A gt 3 sentences Feras tu cela bient t 7 Sentence Reset Sentence Graph Rebuild FST Text close elag frame Explode Implode Feras faire V z1 F2s Apply Elag Rule ES Explode 4 PRO PpviIL Implode Replace FIGURE 7 13 R sultat de l application de la grammaire de la figure 7 12 Point de synchronisation Les parties si et alors d une grammaire ELAG sont divis es en deux par le deuxi me symbole lt gt dans la partie si et par le deuxi me symbole lt gt dans la partie alors Ces symboles forment un point de synchronisation Cela permet d crire des r gles dans lesquelles les contraintes si et alors ne sont pas n cessairement align es comme c est par exemple le cas sur la figure 7 14 Cette grammaire s interprete de la mani re suivante si on trouve un tiret suivi par il elle ou on alors ce tiret doit tre pr c d par un verbe ventuellement suivi de t Ainsi si l on consid re la phrase de la figure 7 15 commen ant par Est il on peut voir que toutes les interpr tations non verbales de Est ont t supprim es 174 CHAPITRE 7 AUTOMATE DU TEXTE a dash followed by il elle or on
455. usuels Code Signification Exemple z1 langage courant blague 22 langage sp cialis s pulcre 23 langage tr s sp cialis houer Abst abstrait bon go t Anl animal cheval de race AnlColl animal collectif troupeau Cone concret abbaye ConcColl concret collectif d combres Hum humain diplomate HumColl humain collectif vieille garde ja verbe transitif foudroyer i verbe intransitif fraterniser en particule pr verbale PPV obligatoire en imposer se verbe pronominal se marier ne verbe n gation obligatoire ne pas cesser de TABLE 3 2 Quelques codes s mantiques NOTE les descriptions des temps du tableau 3 3 correspondent au francais N anmoins la plupart de ces d finitions se retrouvent dans plusieurs langues infinitif pr sent participe pass etc 50 CHAPITRE 3 DICTIONNAIRES Malgr une base commune la plupart des langues les dictionnaires contiennent des par ticularit s de codage propres chaque langue Ainsi les codes de flexion variant beaucoup d une langue une autre n ont pas t d crits ici Pour une description exhaustive de tous les codes utilis s dans un dictionnaire nous vous recommandons de vous adresser directe ment l auteur du dictionnaire Code Signification masculin f minin neutre singulier pluriel 1st 2nd 3rd personne pr sent de l indicatif imparfait de l indicatif pr sent du subjonctif imparfait du subjonctif pr sent de l imp rati
456. utiliser cette option plusieurs reprises e debug compile les graphes en mode debug e v check_variables v rifier la validit de sortie afin d viter des expres sions avec variables malform es Le r sultat est un fichier portant le m me nom que le graphe pass en param tre mais avec l extension fst2 Ce fichier est sauvegard dans le m me r pertoire que lt grf gt 13 24 GrfDiff GrfDiff lt grfl gt lt grf2 gt fichier fichiers grfacomparer OPTIONS e output X sauve le r sultat ventuel dans X au lieu de l afficher Compare les fichier grf et affiche leurs diff rence sur la sortie standard Renvoie 0 s il sont identiques modulo le r ordonnancement des bo tes et des transitions 1 si ils sont diff rents 2 en cas d erreur Voici les indications que GrfDiff peut mettre e P name pr sentation d une propri t a chang name nom propri t name SIZE FONT e M a b une bo te est d plac e a num ro de bo te dans lt grf1 gt b num ro de bo te dans lt grf2 gt e C a b le contenu d une bo te a chang a num ro de bo te dans lt grf1 gt b num ro de bo te dans lt grf2 gt e A x une bo te a t ajout e x num ro de bo te dans lt grf2 gt e R x une bo te a t supprim e x num ro de bo te dans lt grf1 gt e T ab x y unetransition a t ajout e a b src et dst num ros de bo tes dans lt grf1 gt x y src et dst num ros de bo tes dans
457. uting the Library or any work based on the Library you indicate your acceptance of this License to do so and all its terms and conditions for copying distributing or modifying the Library or works based on it 10 Each time you redistribute the Library or any work based on the Library the recipient automatically receives a license from the original licensor to copy dis tribute link with or modify the Library subject to these terms and conditions You may not impose any further restrictions on the recipients exercise of the rights granted herein You are not responsible for enforcing compliance by third parties with this License 11 If as a consequence of a court judgment or allegation of patent infringement or for any other reason not limited to patent issues conditions are imposed on you whether by court order agreement or otherwise that contradict the conditions of this License they do not excuse you from the conditions of this License If you cannot distribute so as to satisfy simultaneously your obligations under this License and any other pertinent obligations then as a consequence you may not distribute the Library at all For example if a patent license would not permit royalty free redistribution of the Library by all those who receive copies directly or indirectly through you then the only way you could satisfy both it and this License would be to refrain entirely from distribution of the Library If any portion of thi
458. variable de dictionnaire habituelle de la fa on d crite ci dessus on peut obtenir la forme fl chie la forme canonique et les codes donn s dans l entr e sa cat gorie grammaticale ses codes s mantiques ses codes flexionnels et la valeur zzz de l attribut yyy s il y figure un code s mantique de la forme yyy zzz 6 5 Exploration des chemins d une grammaire Il est possible de g n rer les chemins reconnus par une grammaire par exemple pour v rifier qu elle engendre correctement les formes attendues Pour cela ouvrez le graphe principal de votre grammaire et assurez vous que la fen tre du graphe est bien la fen tre active la fen tre active poss de une barre de titre bleu tandis que les fen tres inactives ont une barre de titre grise Allez ensuite dans le menu FSGraph puis dans le sous menu Tools et cliquez sur Explore graph paths La fen tre de la figure 6 37 appara t alors S Explore graph paths Graph BOULOTRechercheimanuelunitetresourcesigmiglace grf 8 Ignore outputs Separate inputs and outputs O Merge inputs and outputs lv Maximum number of sequences 100 Cancel a Ontypaths Do not explore subgraphs recursively FIGURE 6 37 Exploration des chemins d une grammaire Le cadre sup rieur contient le nom du graphe principal de la grammaire a explorer Les 142 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES options suivantes concernent la gestion des sorties d
459. vary auteure de MultiFlex e Gilles Vollant auteur de UnitexTool a optimis beaucoup d aspects du code d U nitex m moire vitesse compatibilit multi compilateur etc e Patrick Watrin auteur de XMLi zer a travaill sur l int gration de XAlign Unitex e Anthony Sigogne auteur de Tagger et de TrainingTagger e Nathalie Friburger auteure de CaSsys Il faut ajouter que Unitex serait inutile sans les pr cieuses ressources linguistiques qu il ren ferme Toutes ces ressources sont le fruit d un norme et difficile travail effectu par des personnes qui ne doivent pas tre oubli es Certaines sont cit es dans les avertissements qui sont fournis avec les dictionnaires une information compl te est disponible sur http igm univ mlv fr unitex linguistic_data_bib html 18 TABLE DES MATI RES Si vous utilisez Unitex dans des projets de recherche Unitex a t utlis dans plusieurs projets de recherche Certains sont list s dans la sec tion Related works de la page d accueil d Unitex Si vous avez effectuer des travaux de recherche avec Unitex ressources projet article these et si vous d sirez qu ils soient r f renc s sur le site envoyez un mail unitex univ mlv fr Chapitre 1 Installation d Unitex Unitex est un systeme multi plateformes capable de fonctionner aussi bien sous Win dows que sous Linux ou MacOS Ce chapitre d crit l installation et le lancement d Unitex pour chacun
460. vous trouverez uniquement des s quences pr sentes dans le cor pus de s quences original Des s quences proches de celles du corpus original peuvent tre pr sentes dans le texte et tre ignor es parce qu elles ne figurent pas dans ce cor pus Ces s quences devraient tre incluses dans l automate de s quences Afin d inclure ces s quences vous devez appliquer les trois sortes de jokers et produire ainsi un graphe qui reconna t toutes les s quences du corpus et les nouvelles s quences Chaque joker permet d appliquer une op ration pour g n rer de nouvelles s quences e insertion pour chaque s quence ajouter l automate toutes les s quences o lt TOKEN gt a t ins r entre deux mots de la s quence originale e remplacement pour chaque s quence ajouter l automate toutes les s quences o i tokens ont t remplac s par lt TOKEN gt e suppression pour chaque s quence ajouter l automate toutes les s quences o un token a t supprim Chacune de ces op rations peut tre appliqu e plusieurs fois aux s quences originales L ap plication de cette grammaire un texte permet d introduire des approximations dans la recherche des s quences du texte Si les jokers sont utilis s les graphes produits suivent les r gles suivantes e les s quences originales et les s quences d riv es sont incluses dans l automate e aucune s quence vide ni une s quence compos e uniquement de
461. vuk AC_A3XN2 p7mgea hungry as a wolf gladnim kao vuci gladan kao vuk AC_A3XN2 p7mgea hungry as a wolf gladnim kao vukovi gladan kao vuk AC_A3XN2 p7mgea hungry as a wolf gladnima kao vuk gladan kao vuk AC_A3XN2 p7fgea hungry as a wolf gladnima kao vuci gladan kao vuk AC_A3XN2 p7fgea hungry as a wolf gladnima kao vukovi gladan kao vuk AC_A3XN2 p7fgea hungry as a wolf gladnim kao vuk gladan kao vuk AC_A3XN2 p7fgea hungry as a wolf gladnim kao vuci gladan kao vuk AC_A3XN2 p7fgea hungry as a wolf gladnim kao vukovi gladan kao vuk AC_A3XN2 p7fgea hungry as a wolf gladnima kao vuk gladan kao vuk AC_A3XN2 p7ngea hungry as a wolf gladnima kao vuci gladan kao vuk AC_A3XN2 p7ngea hungry as a wolf gladnima kao vukovi gladan kao vuk AC_A3XN2 p7ngea hungry as a wolf gladnim kao vuk gladan kao vuk AC_A3XN2 p7ngea hungry as a wolf gladnim kao vuci gladan kao vuk AC_A3XN2 p7ngea hungry as a wolf gladnim kao vukovi gladan kao vuk AC_A3XN2 p7ngea hungry as a wolf gladna kao vuk gladan kao vuk AC_A3XN2 w2mgea hungry as a wolf gladna kao vuci gladan kao vuk AC_A3XN2 w2mgea hungry as a wolf gladna kao vukovi gladan kao vuk AC_A3XN2 w2mgea hungry as a wolf gladne kao vuk gladan kao vuk AC_A3XN2 w2fgea hungry as a wolf gladne kao vuci gladan kao vuk AC_A3XN2 w2fgea hungry as a wolf gladne kao vukovi gladan kao vuk AC_A3XN2 w2fgea hungry as a wolf gladna kao vuk gladan kao vuk AC_A3XN2 w2ngea hungry as a wolf gladna kao vuci gladan kao vuk AC_A3XN2 w2ngea
462. x istants ne sont pas modifi s Ainsi si vous avez choisi de modifier le texte courant les mod ifications sont imm diatement effectives Vous pouvez alors lancer de nouvelles recherches sur le texte ATTENTION si vous avez choisi d appliquer votre graphe en ignorant les sorties toutes les occurrences seront effac es du texte 6 10 5 Extraction des occurrences Vous pouvez extraire toutes les phrases du texte qui contiennent ou non des occurrences Pour cela choisissez un nom de fichier de sortie gr ce au bouton Set File dans le cadre Extract units figure 6 62 Cliquez ensuite sur un des boutons Extract matching units ou 6 10 APPLICATION DES GRAPHES AUX TEXTES 159 4 AB D My Unitex English Corpus anhoe snt 2343 sentence delimiters 186612 9300 diff tokens 83774 9274 simple forms 25 9 di 81970 occurrences 13284 DLF entries simple words 273 occurrences 274 DLC entries 5 IN THAT PLEASANT DISTRICT of merry England which is watered by the river Don there extended in ancient times a large forest covering the greater part of the beautiful hills and valleys which lie between Sheffield and the pleasant town of Doncaster 5 The remains of this extensive wood are still to be seen at the noble seats of Wentworth of Varncliffe Park and around Rotherham S Here haunted of yore the fabulous Dragon of Wantley 3 here were fought many of the most desverate battles during the Civil Wars of the
463. y correspond deux entr es dans le dictionnaire Le mot Sir correspond galement deux entr es du diction naire mais comme la forme canonique de ces entr es est sir elle est affich e puisqu elle diff re de la forme fl chie par une minuscule FIGURE 7 27 Automate de la premi re phrase Ivanhoe 7 5 2 Modifier manuellement l automate du texte Il est possible de modifier manuellement les automates de phrase sauf ceux qui appa raissent dans le cadre r serv ELAG cadre du bas Vous pouvez ajouter ou supprimer des bo tes ou des transitions Lorsqu un graphe est modifi il est sauvegard dans le r pertoire du texte sous le nom sentenceN grf o N repr sente le num ro de la phrase 190 CHAPITRE 7 AUTOMATE DU TEXTE Lorsque vous s lectionnez une phrase si un graphe modifi existe pour cette phrase celui ci est affich Vous pouvez alors r initialiser l automate de cette phrase en cliquant sur le bouton Reset Sentence Graph voir figure 7 28 2344 sentences Ivanhoe by Sir Walter Scott Sentence Y Reset Sentence Graph Rebuild FST Text close elag frame N ProperNoun PREP N ProperNoun Apply Elag Rule FIGURE 7 28 Automate de phrase modifi Lors de la construction de l automate d un texte tous les graphes de phrase modifi s pr sents dans le r pertoire du texte sont effac s NOTE vous pouvez reconstruire l automate du texte en prenant en compte vos
464. y together with other library facilities not covered by this License and distribute such a combined library provided that the separate distribu 14 13 PLUSIEURS AUTRES FICHIERS 353 tion of the work based on the Library and of the other library facilities is otherwise permitted and provided that you do these two things a Accompany the combined library with a copy of the same work based on the Library uncombined with any other library facilities This must be distributed under the terms of the Sections above b Give prominent notice with the combined library of the fact that part of it is a work based on the Library and explaining where to find the accompanying uncombined form of the same work 8 You may not copy modify sublicense link with or distribute the Library ex cept as expressly provided under this License Any attempt otherwise to copy mod ify sublicense link with or distribute the Library is void and will automatically ter minate your rights under this License However parties who have received copies or rights from you under this License will not have their licenses terminated so long as such parties remain in full compliance 9 You are not required to accept this License since you have not signed it How ever nothing else grants you permission to modify or distribute the Library or its derivative works These actions are prohibited by law if you do not accept this Li cense Therefore by modifying or distrib
465. ymboles qui ne peuvent pas tre r crits par des r gles sont ap pel s symboles terminaux Les membres droits des r gles sont des suites de symboles non terminaux et terminaux Le symbole epsilon not e d signe le mot vide Dans la grammaire ci dessus S est un symbole non terminal et a un terminal S peut se r crire soit en un a suivi d un S soit en mot vide L op ration de r criture par l application d une r gle est appel e d rivation On dit qu une grammaire reconna t un mot s il existe une suite de d riva tions qui produit ce mot Le non terminal qui sert de point de d part la premi re d rivation est appel axiome La grammaire ci dessus reconna t ainsi le mot aa car on peut obtenir ce mot depuis l axiome S en effectuant les d rivations suivantes D rivation 1 r criture de l axiome en aS So aS D rivation 2 r criture du S du membre droit en aS 93 94 CHAPITRE 5 GRAMMAIRES LOCALES S gt as gt aas D rivation 3 r criture du S to e S aS a gt aa On appelle langage d une grammaire l ensemble des mots reconnus par celle ci Les langages reconnus par les grammaires alg briques sont appel s Languages alg briques ou Langages hors contexte 5 1 2 Grammaires alg briques tendues Les grammaires alg briques tendues sont des grammaires alg briques o les membres droits des r gles ne sont plus des suites de symboles mais des expressions rationnelles Ainsi
466. ystems and issue tracking systems that are managed by or on behalf of the Licensor for the purpose of discussing and improving the Work but excluding communication that is conspicuously marked or otherwise designated in writing by the copyright owner as Not a Contribution Contributor shall mean Licensor and any individual or Legal Entity on behalf of whom a Contribution has been received by Licensor and subsequently incorporated within the Work 2 Grant of Copyright License Subject to the terms and conditions of this License each Contributor hereby grants to You a perpetual worldwide non exclusive no charge royalty free irrevocable copyright license to reproduce prepare Derivative Works of publicly display publicly perform sublicense and distribute the Work and such Derivative Works in Source or Object form 3 Grant of Patent License Subject to the terms and conditions of this License each Contributor hereby grants to You a perpetual worldwide non exclusive no charge royalty free irrevocable except as stated in this section patent license to make have made use offer to sell sell import and otherwise transfer the Work where such license applies only to those patent claims licensable by such Contributor that are necessarily infringed by their Contribution s alone or by combination of their Contribution s with the Work to which such Contribution s was submitted If You institute patent litigation against any enti

Download Pdf Manuals

image

Related Search

Related Contents

A1 User Mannuel-0219_EN    DEWALT DW03201  RD-960D    Bedienungsanleitung Aquila T 200_070810b    Hunde- und Katzenschreck  取扱説明書 - 山田照明  5 - American Standard  

Copyright © All rights reserved.
Failed to retrieve file