Home

Grammaires locales pour l`analyse automatique de textes

image

Contents

1. E S S 2 E 3 a o el E E E E E Z S E 5 El a ii GNmesure longueur Metre Mile Mille Metre _abr Mile abr Dnumbletre precis OnumMile precis 15 m tres GNmesure masse Gramme Livre Tonne Grarame_abreLive_abr Tonne_abr DrumGramme precis 15 grammes GNmesure temperature DegreCelsius Kelvin DegreCelsius_abr Kelvin_abr 15 C GNmesure force Newton Newton_abr T3 kN GNmesure population Habitant mile habitanta Ghmesure energie Joule Calorie Electronolt_ Joule_abr Calorie_abr Electron Wolt_abr 124 kJ GNmesure intensite elec Ampere Ampere_abr 024 GNmesure informatique Bit Octet Bit_abr Octet_abr 56 ko Gimesure temps Seconde Ndi temps Seconde_abr Ndi temps_abr Dnumblmesure temps precis deux minutes GNmesure tension Molt Wolt_abr S TO Y GNmesure monetalre Nmonnaie Nmonnaie_abr DnumMonnaie precis cing dollars G Nmesure vitesse Nmesure vitesse 120 knvh GNmesure surface Nmesure surface Nmesure surface_abr DnumNmesure surface precis 10 hectares GNmesure volume Nmesure volume Nimesure volume_abr 43 m3 GNmesure densite pop Nmesure densite pop 10 habitants au KMZ GNmesure frequence Nmesure frequence Hertz_abr 50 Hz GNmesure angle Nmesure angle Nmesure angle_abr dix radians Table 2 classes d unit s La plupart du temps les graphes s lectionn s correspondent des unit s simples d crites dans la section pr
2. Loc Dete Nprc a E al Els sl BK o PEE EE NN Z EI o Jaiguille 1H archipel 2 avenue 3l bale 43 j J j boulevard 68l bourg 44l bourgade 67 butte 45 j canton 46 jete AF cit 48 cal 4j Lk J J j colline 49 j Commonwealth 5l l commune 5D l comt 51 rt conf d ration El Lk Cordil re F l c te 52 Lk J J Lk c te 53 j j d partement Bl l d partement d outre mer 71 d sert gj mirat UNE ltr tang 54 tat 11 rt tat E3 Etats unis 12 J toile tal j b f d ration EIB feuve 15 J gave 55 J ltr ghetto 56 glacier Di rt golfe 58 It j j grand duch 16 e 17 rt impasse 59 llac 18 Table 18 chantillon de la table PNNpr On remarquera que Commonwealth et Etats Unis sont des classifieurs car on a Le Commonwealth de les Bahamas la Dominique Les Etats Unis de Am rique le Mexique La pr position pose souvent des probl mes d acceptabilit car elle est tr s fr quemment utilis e dans le discours p
3. Vpp num PreDnumPrep Figure 53 VentDeDnumNmesure vitesse La troisi me structure c peut galement tre sujette une r duction un groupe nominal La partie droite du verbe support tre devient alors un modifieur adjectival de NO Max veut escalader une falaise qui est E haute de 120 m La derni re structure d peut aussi tre r duite m me si cela para t peu naturel La hauteur de la falaise est de 100 m La hauteur de la falaise de 100 m 44 E SE Ce nom peut tre accept si on imagine que l on a un homme d guis en voiture 80 La pronominalisation du NO la rend plus naturelle Sa hauteur de 100 m m effraie Nous proposons ci dessous le graphe param tr d crivant l ensemble des formes r duites de notre phrase de base Ces formes r duites sont toutes des groupes nominaux Pour l entr e largeur nous g n rons le graphe associ La variable ED est remplac e par l entr e lexicale largeur La variable EL correspondant la propri t de permutation entre Dnum Unit et Ng est remplac e par le mot vide lt E gt car cette propri t est autoris e pour cette entr e Par contre la bo te contenant U est supprim e car la structure correspondante NO tre Dnum Unit est interdite symbole etc 81 Figure 54 graphe patron d crivant les r ductions de NO avoir un Ng de Dnum Unite 82 largeur Figure 55 graphe
4. 0000 0 95 3 5 Application des textes nr ee Nr veste eee 97 3 5 1 TEE Re eher eege nee eeh E 97 3 3 2 Evaluation des grammMalres noce era aeea e a EN E aE EaR 98 3 5 3 Op rations utilisant les grammaires 102 3 6 CONCIUSION NEE 106 Chapitre 4 Analyse et repr sentation d adverbes locatifs ses 108 4 1 Modu HOM e a de 108 4 2 Pr liminaires linguistiques 110 4 2 1 AdVerb s 2 N rAlIS S fes hrs rehen E e telnet teintes tele 110 4 2 2 Les compl ments pr positionnels locatifs 112 4 2 3 Les pr positions locatives menni eea a E aE Ee 115 4 3 Grammaires locales de noms propres compos s de lieu 126 4 3 1 Remarques pr liminaires eeperebent ensein nenne iea a a a Ep e EOE eaaa 126 4 3 2 Crit res de d finition des Ne 128 4 3 3 Statut syntaxique des Nprc taa n a e a a A E e 129 4 3 4 Composition syntaxique des formes longues et classification 133 4 3 5 R duction des formes longues et figement 138 4 3 6 Les noms propres compos s dans les groupes nominaux 141 4 3 7 Codage des contraintes internes oooooooconnccnnnnononanonoconnnonannnnnncnonnnnannnnnncncnnnns 144 4 4 Description de groupes pr positiomnels oooonoococonnncnonoo
5. poids SS GNmesure force E a HUE pointure de lt pied de chaussure gt lt E gt E b population Es GNmesure population _ l J Lt b peuplier ELE SE pression atmosph rique GNmesure pression profondeur lt E gt GNmesure longueur profond fond f T puissance nerg tique GM mesure puissance puissant A rayon lt E gt GNmesure longueur SC super cie Ex GNmesure surface r surface SS GNmesure surface taille lt E gt GNmesure longueur Ir taille de lt pied de chaussures E z temp rature E gt GNmesure temperature tension lectrique GNmesure tension E Je F _ Jtension art rielle BS l vitesse E gt GhHmesure vitesse volume Es GNmesure volume volumineux tt d EEE Table 3 ANMesure 3 3 5 Les pr d terminants Nous regardons maintenant le comportement de certains pr d terminants dans notre phrase de base Nous reprenons la liste des pr d terminants fournie dans M Gross 1977 et tudions syst matiquement ceux qui peuvent appara tre dans les structures tudi es A travers cette liste de taille modeste nous montrons la difficult de traiter ces composants localement Notre liste de pr d terminants est la suivante comme d abo
6. Figure 23 DetNnumDe 7 Ce graphe n est pas cyclique contrairement ce que l on aurait pu penser En effet nous d cidons de limiter le nombre de r p titions de la s quence Nnum de car les s quences trop longues sont difficilement compr hensibles par les lecteurs Par ailleurs certaines informations comme les fractions ne sont pas repr sent es 46 Remarque g n rale sur les nombres Nous regroupons tous les graphes repr sentant des d terminants num riques dans le graphe Dnum Formules cientifique DnumEnChiffres DnumEnLettres DetNnumDe Figure 24 Dnum Il existe des combinaisons de ces d terminants num riques formant par exemple des approximations sous la forme d intervalles entre 2 et 3 m tres de 7 9 kg Cependant comme nous le verrons ult rieurement leur comportement ne peut tre tudi de mani re locale mais dans le cadre d une phrase l mentaire 3 2 2 4 Les pr d terminants num riques Dans les textes on constate la pr sence de pr d terminants num riques M Gross 1977 qui se trouvent avant ou apr s la s quence Dnum N dans notre cas Dnum Unit comme presque environ exactement peu pr s Il y a 45 enfants environ Max a mang peu pr s 30 fruits Marie a presque environ exactement 10 ans Marie a 10 ans environ tr s exactement Ces mots modifient l interpr tation de la valeur du d terminant num rique La distribution des pr d
7. est naturellement ambigu Son interpr tation d pend du verbe de la phrase l mentaire dans laquelle elle se trouve En effet elle peut exprimer une volution et non une approximation sous la forme d un intervalle comme avec le verbe passer Le prix du pain est pass de 65 70 centimes Dans cette phrase le prix initial du pain est de 65 centimes l tat final il est de 70 centimes Dans beaucoup de cas cette ambigu t est localement impossible lever comme avec le verbe augmenter La tension entre ces deux points de la ligne a augment de 10 E V 15 V Il existe deux analyses La tension entre ces deux points de la ligne a augment d une valeur de 10 E V une valeur de 15 V La tension entre ces deux points de la ligne a augment d une valeur de JOE V 15 V 3 2 4 2 4 Le tiret Il existe par ailleurs d autres structures combinant des nombres exacts et d signant une approximation de valeur sous la forme d un intervalle La plus simple est l emploi du tiret entre deux nombres L intensit du courant sur cette ligne est de 150 200 amp res Ces phrases paraissent plut t orales qu crites Il peut exister des probl mes d interpr tation car le nom unit amp res est effac entre 150 et le tiret L intensit du courant sur cette ligne est de 150 amp res 200 amp res Cela est confirm par la phrase Ce chemin fait 800 m tres kilom tre 3 2 4 2 5 Remarques
8. la longueur est de 30 m qui est commun aux deux structures de mesure que nous allons tudier Cette tude va nous permettre de construire des graphes l mentaires de mesure partir des graphes d unit s 26 Des travaux ont aussi t r alis s par A Borillo 1985 1998 42 3 2 2 Graphes des d terminants num riques 3 2 2 1 Les d terminants num riques cardinaux crits en lettres Nous traitons bri vement ce point car les d terminants num riques cardinaux crits en lettres ont d j t tudi s et d crits sous la forme de graphes par M Silberztein 1993 pour le fran ais et A Chrobot 2000 pour l anglais Dans cette section nous reprenons les points importants de l tude sur le fran ais Nous notons DnumEnLettres ce type de d terminants num riques i e les nombres entiers crits en toutes lettres borne sup rieure un billiard L utilisation des sous graphes a un avantage ind niable car certaines s quences peuvent appara tre plusieurs fois dans un nombre ex douze dans douze cent douze Certains termes comme cent mille quatre vingts posent quelques probl mes orthographiques car mille est invariable cent est au pluriel lorsqu il est multipli deux cents mais il reste invariable lorsqu il est suivi d un autre nombre ou qu il est utilis comme centi me Larousse 2002 trois cent vingt deux mille deux cent Quatre vingt est au singulier lorsqu il est suivi d un nomb
9. tats am ricains on observe que la combinaison des formes courtes avec la pr position est g n ralement possible lorsque le Npr prend le comme Det Cette insurrection populaire a eu lieu au Texas Wyoming Nc tat Max se trouve au Qu bec Nc province Pourtant la combinaison entre et Vermont r duction d tat du Vermont n est pas accept e Cette insurrection populaire a eu lieu au Vermont Nc tat Ainsi bien que l on constate certaines tendances g n rales pour chaque classifieur ces quelques exemples montrent clairement que la distribution pr positionnelle des formes courtes des noms propres compos s n est pas toujours pr dictible 158 Les noms propres compos s Nprc peuvent tre divis s en deux cat gories disjointes ceux dont la distribution pr positionnelle des formes courtes d pend uniquement de leur classifieur cat gorie 1 et ceux dont la distribution pr positionnelle des formes courtes n est pas pr dictible partir du classifieur cat gorie 2 Nous reprenons chaque table de noms propres Toutes les tables qui comportent des noms propres de la deuxi me cat gorie sont reprises On y ajoute des colonnes repr sentant la distribution pr positionnelle de notre ensemble de pr positions locatives C est le cas pour la table NNpr le pour laquelle nous ajoutons trois colonnes la premi re correspondant la pr position en colonne P la deuxi me la pr positio
10. amp e sols EI E jojojo E o ol da ol ml o sl el 2El ojolojolo lololo z z z Z E 2 Sparel apa E A E e EAA EA A A ge E Ghimesure temps LL g SE le LISE ER de Eriin seni tE f aire E gt GNmesure surface LIRE allure SES GhHmesure vitesse JL capacit Er GNmesure volume eat E gt GNmesure monetaire E co ter J J SEL densit d mographique GNmesure densite pop f diam tre Es GMmesure longueur dur e E gt GNmesure temps 3 durer L x nergie Ex GNmesure energie z paisseur E gt GNmesure longueur LL pais Je ES force E gt GHmesure force E gt fr quence Es GNmesure frequence hauteur E gt GNmesure longueur haut J j l intensit lectrique GNmesure intensite elec E E largeur E gt GNmesure longueur LL large Je j longueur lt E gt GNmesure longueur long l LL longueur Ex GNmesure temps long Lt masse E gt GNmesure masse m moire vive viduelle cache GNmesure informatique p rim tre DS GMmesure longueur I EIK p rimetre E gt GNmesure surface poids Er GNmesure masse le FE H peser
11. 1 Nous n avons pas pris la repr sentation d E Roche 1993 qui repr sente une entr e au moyen d un automate o chaque code est plac sur une transition Nous avons pr fer utiliser une repr sentation plus objet mieux adapt e au langage JAVA 125 Comme indiqu pr c demment nous ne traitons pas les m ta tiquettes Leur normalisation consiste uniquement rajouter une information indiquant le num ro du m ta 190 chaque ligne correspond un champ la premi re colonne contient leurs intitul s la deuxi me les donn es Le signe indique que le champ correspondant est vide Forme graphique FG 1 Forme canonique FC Code grammatical CG Traits Tr Flexions Fl Table 25 tiquette normalis e de 1 les suites de lettres les mots graphiques Un mot graphique repr sente un ensemble relativement limit d unit s linguistiques ou entr es lexicales La consultation des dictionnaires donne explicitement cet ensemble Une proc dure simple d analyse du r sultat de la consultation permet de construire les tiquettes Par exemple le mot graphique donne est quivalent l ensemble des trois tiquettes ci dessous cf l chantillon de dictionnaire dans la section pr c dente FG donne Donne donne FC donne Donna donner CG N N V Tr z1 23 z1 El fs fp 1 P s 3
12. Adr app distmcel d Figure 62 graphe g n r pour distance 3 4 4 Les expressions de pourcentage Dans cette partie nous nous concentrons sur les pourcentages Nous montrons qu ils entrent eux aussi dans le sch ma de phrase NO Vsup Pr p un Ng de Dnum Unit de N1 exprimant une mesure relative et tudions leur comportement syntaxique Nous faisons une br ve synth se de notre tude r alis e en collaboration avec T Nakamura T Nakamura et M Constant 2001 Cette tude montre que les expressions de pourcentages rentrent dans les structures suivantes NO repr senter Dnum de NI Les tudiants de Jussieu repr sentent 19 des tudiants parisiens NO comporter Dnum de N1 Les tudiants parisiens comportent 19 d tudiants de Jussieu Ces structures sont en quelque sorte une forme r duite des structures th oriques suivantes Dri 47 contenant le pr dicat pourcentage NO repr senter un pourcentage de Dnum de N1 Les tudiants de Jussieu repr sentent un pourcentage de 19 des tudiants parisiens NO comporter un pourcentage de Dnum de NI Les tudiants parisiens comportent un pourcentage de 19 d tudiants de Jussieu Ainsi nous retombons bien sur notre structure de base repr sentant une mesure relative Le pr dicat pourcentage admet deux arguments NO et N1 et utilise les verbes supports de pourcentage repr senter et comporter L unit s lectionn e est ou pour cent en toutes
13. Comment g rer le nombre et l parpillement de ces composants Au premier probl me nous avons propos un ensemble de m thodes Notre d marche est avant tout empirique Nous avons expos des processus d analyse linguistique et de repr sentation pour deux ph nom nes linguistiques expressions de mesure et adverbes de lieu contenant un nom propre locatif Dans la directe lign e de M Gross 1975 nous avons ramen chaque ph nom ne une phrase l mentaire Ceci nous a permis de classer s mantiquement certains ph nom nes au moyen de crit res formels Par exemple les expressions de mesure sont divis es en deux classes s mantiques les mesures absolues Max a un poids de 78 kg et les mesures relatives Max est 10 km de Luc Nous avons syst matiquement tudi le comportement de ces phrases selon les valeurs lexicales de ses l ments Par exemple la distribution pr positionnelle d un adverbe form d une pr position locative et d une forme nominale compos e d un nom propre de lieu M diterran e et de son nom classifieur associ mer d pend de la valeur lexicale du classifieur Les faits observ s ont ensuite t repr sent s formellement soit directement dans des graphes l aide d un diteur soit par l interm diaire de tables syntaxiques ensuite converties semi automatiquement en graphes La m thode standard de conversion est due E Roche 1993 Au cours de notre travail nous avons t
14. Envoi des requ tes R ception des r ponses Internet i R ception des requ tes Envoi des r ponses Construction des r ponses Moteur de GRAAL a Figure 92 fonctionnement g n ral de GraAL Illustrons ce fonctionnement g n ral au moyen d un exemple Lors de la session d ouverture d une connexion l utilisateur saisit son nom user et son mot de passe password dans deux champs de l interface Ces deux s quences sont captur es par le constructeur de requ tes qui confectionne le flux suivant CONN user password Ce flux est form de trois cha nes de caract res s par es de tabulations La premi re cha ne indique le nom de la requ te la deuxi me correspond au nom d utilisateur et la troisi me d signe le mot de passe Chaque type de requ te a un format particulier Ce flux est ensuite envoy au serveur Le serveur analyse la requ te et la traite tout en interdisant le traitement simultan d autres requ tes Il renvoie alors au client le r sultat de la requ te connexion accept e ou non plus des donn es g n rales concernant la biblioth que langues utilisateurs arborescence g n rale etc dans un flux de prototype suivant CONN lt r sultat gt lt rapport gt lt donn es g n rales gt lt r sultat gt 0 connexion non accept e ou 1 connexion accept e lt rapport gt une cha ne de caract res indiquant les erreurs ou avertissements lt donn es g n rale
15. L eau est une temp rature de 50 degr s L eau est 50 degr s L eau 50 degr s Comme on l a d j not le nom vitesse a un comportement particulier Il n accepte pas d effacement sauf pour les NO de la classe des vents un bus de 40 km h un vent courant de 30 n uds 79 Les phrases en tre g n rent des groupes pr positionnels adverbiaux 10 km h Ce verbe support a pour variantes certains verbes qui d pendent du sujet utilis La voiture Max Le vent roule une vitesse de E 17 km h La voiture Max Le vent court une vitesse de E 17 km h La voiture Max Le vent souffle une vitesse de E 60 noeuds Comme on l indiqu pr c demment nous construisons une grammaire sp cifique la classe des vents Nous ajoutons aussi la possibilit de reconna tre les expressions Un vent de force 8 Un vent de force 8 9 Le graphe repr sentant ces expressions est donn ci dessous Un VentDeDnumNmesure vitesse Les expressions reconnues par ce graphe sont semi fig es car la variation lexicale est faible pour NO et la structure est fig e DnumEnChiffres DnumEnLettres lt bise gt lt blizzard gt lt bourrasque gt lt brise gt lt courant gt lt cyclone gt lt mistral gt lt ouragan gt lt rafale gt lt simoun gt lt temp te gt lt tomade gt lt tourbillon gt lt tramontane gt lt trombe gt lt typhon gt lt vent gt
16. Les pr positions locatives peuvent aussi appartenir des adverbes fig s locatifs cf L Danlos 1980 M Gross 1986 1996 Dans ce cas l l analyse est plus simple car le sens est rattachable la s quence enti re et non repr sentable par la composition des diff rents sens des constituants de l adverbe Max est sur la route O est Max sur la route Max est l asile O est Max l asile Marie est l air du grand large M Gross 1996 O est Marie A l air du grand large En g n ral les compl ments locatifs sont libres et la distribution des pr positions d pend en gros de la g om trie et des propri t s physiques des arguments cf C Vandeloise 1985 118 Cependant comment peut on expliquer les diff rences de distribution des pr positions dans les phrases suivantes o les arguments sont des pi ces d un b timent M Garrigues 1995 Luc est la dans la en cuisine Luc est la dans la en chambre Luc est la dans la en salle de bains Luc est la dans la en salle d op ration L utilisation de la pr position en peut s expliquer pour cuisine et salle d op ration car les phrases impliquent que Luc est l acteur d un proc s Luc travaille dans la cuisine et Luc subit ou pratique une op ration dans la salle d op ration Par contre la distribution de est difficilement explicable Il en est de m me pour les noms rue et place Pourquoi obs
17. Nouvelle notation 64 Dor navant dans les graphes pour d crire la s quence Dnum Unit nous employons les termes GNmesure et GNmesureFinal qui sont aussi les noms g n riques des graphes que nous utilisons Dans GNmesure l unit est optionnelle alors qu elle est obligatoire dans GNmesureFinal ex entre GNmesure et GNmesureFinal Probl mes stylistiques de la s quence Dnum Unit Comme nous l avons mentionn un nombre en lettres ne peut pas tre suivi d une unit sous la forme d un symbole alors qu un nombre en chiffres peut tre suivi par n importe quel type d unit s deux m tres deux m 2 m 2 m tres Par ailleurs les combinaisons complexes requi rent une certaine homog n it dans le choix des types de d terminants num riques et d unit s Par exemple il semble difficilement concevable d avoir la s quence suivante entre 4 et cinq m tres Nos graphes ne tiennent pas compte de cette derni re r gle par souci de clart et de simplicit Ce choix peut causer quelques rares erreurs de reconnaissance dans les textes Ambigu it des combinaisons complexes Il y a une ambigu t dont nous n avons pas tenu compte dans nos graphes En effet la s quence entre 4 et 3 millions de dollars est interpr t e comme entre 4 dollars et 5 millions de dollars Mais il existe une autre interpr tation qui est dans la quasi totalit des cas la bonne cause du point pr c dent homog n it
18. a pas une organisation rigoureuse Les tables de lexique grammaire demandent un temps d adaptation pour comprendre leur m canisme ce qui peut tre vu comme un frein au premier abord Cependant elles permettent de repr senter clairement de grands ensembles de structures syntaxiques Ce type de repr sentation est utile pour viter la r p titivit des t ches comme nous le verrons ult rieurement Le choix d une ou l autre des deux m thodes d pend essentiellement du go t du linguiste m me si dans certains cas le choix est vident pour tous Notre d marche tant essentiellement empirique nous souhaitons avant tout donner des exemples concrets et originaux en n entrant pas dans un d bat th orique qui ne cadrerait pas avec notre travail Les grammaires locales sont appel es moyen terme tre appliqu es sur l automate du texte ou une structure tenant compte de l ambiguit de la langue Leur application provoquera du bruit surtout quand les s quences reconnues sont courtes Par exemple le samedi est soit un adverbe reconnu par une grammaire locale lexicalis e de dates soit un groupe nominal Le samedi est un jour de repos Le samedi Max chante dans une chorale Elles ont l avantage que chaque l ment des s quences reconnues peut tre d sambigu s en interne Par exemple si l on reconna t le d but de la soir e par une grammaire de date on est s r dans le cas o la s quence est un adver
19. avec ce m me d terminant Det ex la Il est vident que les noms de villes ont un graphe simple du fait de leur comportement syntaxique homog ne Pour les autres classifieurs les grammaires construites deviennent rapidement complexes 152 la h eN T opt YH DetLa gt jH la h lt N ToptPViHDetLa gt lt HN TopHPViHDetLe gt lt N Top PYiDetLe gt ee hr kb de lt N Top PVibtDetZ gt lt N Top PVitDetz gt les H lt N Top PVilHDetLes gt les H lt N Top PYiHDetLes gt Figure 79 coordination de villes La difficult de cette approche r side dans l tape a que nous n avons pas impl ment e Pour chaque ligne d une table il faut g n rer une entr e de dictionnaire contenant les informations suivantes une forme fl chie forme canonique cat gorie traits syntaxiques et s mantiques nom propre locatif classe de lieu d terminants etc informations flexionnelles Les formes fl chies et canoniques correspondent Npr il suffit donc d indiquer dans quelle colonne il est cod La cat gorie est clairement un nom N La difficult r side dans l extraction automatique des traits syntaxiques et lexicaux des tables pour les ins rer dans l entr e du dictionnaire Il faut d abord associer un nom compact coh rent et unique chacun de ces traits puis trouver des proc dures
20. d une interface au moyen de laquelle l utilisateur envoie ses requ tes au serveur L interface permet Putilisateur de visionner les r sultats de ses requ tes Les requ tes sont essentiellement de deux ordres mise jour des donn es et acc s aux donn es Cette biblioth que en ligne o seront accumul es l ensemble des grammaires locales servira de plate forme d change de donn es pour la communaut RELEX L acc s des utilisateurs au catalogue des grammaires locales existantes permettra d viter de la redondance dans les 110 A 2 He d Nous traitons seulement des grammaires o l unit minimale est le mot et non le caract re 180 travaux Par ailleurs le formalisme des grammaires locales encourage la r utilisation de grammaires d ja existantes chaque chercheur peut incorporer dans ses graphes les briques des autres Ainsi il est n cessaire que chaque utilisateur puisse acc der l information et t l charger les graphes de la biblioth que le plus facilement possible 5 2 1 Sp cifications 5 2 1 1 Mise jour des donn es Chaque utilisateur du syst me peut ins rer de nouvelles grammaires dans la biblioth que Cette proc dure est simple Pour cela le nombre de champs remplir est limit afin de ne pas rendre la t che p nible Des proc dures d analyse automatique des grammaires ont galement t mises en place ex calcul de la liste des graphes pr sents dans une grammaire donn
21. des d terminants num riques Il faut consid rer que c est la s quence millions de dollars qui a t factoris e et non dollars La s quence pr c dente doit alors tre analys e comme entre 4 millions de dollars et 5 millions de dollars R cursivit dans les combinaisons complexes Les combinaisons complexes en entre et et de sont th oriquement r cursives En effet la r gle r cursive suivante semble pouvoir s appliquer Dnum entre Dnum et Dnum Cependant le nombre de niveaux est tr s troitement limit l effacement du N valeur est interdit La tension est entre de 10 V 31 V et de 4 kV 5 kV La tension est entre une valeur de 10 30 V et une valeur de 4 5 kV Notre choix de ne pas d crire r cursivement ce type de s quences para t donc fond Notre repr sentation est donc quivalente un automate fini 65 3 3 Repr sentation des mesures absolues 3 3 1 G n ralit s La structure l mentaire qui nous int resse repr sente expression de la mesure absolue d une caract ristique ou propri t intrins que d sign e par Ng d un l ment M NO avoir un Ng de Dnum Unit Le bateau a une longueur de 15 m tres La premi re phrase indique que le bateau a une longueur i e NO a une caract ristique No et puis que cette longueur est de 15 m tres i e mesure de la caract ristique Ng Nous avons tendu les r sultats de J Giry Schnei
22. marge retrait p riph rie profonde suface travers t te Figure 74 EnNDe_Loc nord est sud ouest etc Notre grammaire ne reconna t pas des expressions telles que dans la zone n erlandaise de la ville o n erlandaise n est pas une caract ristique spatiale mais une caract ristique d mographique de la ville 121 lt amont gt lt ant reur gt lt am r gt lt austral gt lt aval gt lt avant gt lt bas gt lt bordier gt lt central gt Adj_ direction lt droit gt lt excentrique gt lt ext reur gt lt exteme gt lt face gt lt faitie gt lt final gt lt frontal gt lt frontalier gt lt gaucte gt e lt haut gt OR cans laj E lt horizantal gt sr partis lt inf riur gt lt int rkur gt lt interne gt lt lat ral gt lt longitudinal gt lt margmal gt lt m dian gt moer lt occidntal gt lt orienal gt lt p riph rique lt post riem gt lt profend gt lt radial gt E O lt superficiel lt sup rem gt lt transrersal gt lt vertical gt Figure 75 DansLaZoneAdjDe 4 2 3 3 Quelques statistiques Nous avons montr dans l absolu que la localisation d un compl ment locatif ne peut se r sumer au rep rage d une pr position locative et d un groupe nominal du fait de l ambigu t des pr positions Dans cette section nous mesurons quantitativement le taux d erreur qu un tel processus
23. par exemple Det N Adj un pantalon bleu libre un cordon bleu nom compos Nos couples Nc Npr ont clairement la m me constitution qu un groupe nominal libre DetN de Npr la vall e d Aspe compos la maison de Luc libre Der N de Det Npr le col du Somport compos la pente du Vignemale libre Det N Npr la mer M diterran e compos le colonel Dupond libre etc Par contre les constituants syntaxiques d un nom compos pr sentent un certain figement Dans le meilleur des cas le sens global du mot compos n est pas compositionnel il ne peut pas tre calcul simplement l aide du sens des diff rents constituants Cela appara t tr s clairement avec le nom cordon bleu excellent cuisinier Mais ce n est pas toujours le cas vin blanc peut notamment tre partiellement analys l aide de la phrase classificatrice suivante Un vin blanc est un vin Cette interpr tation n est pas valable pour cordon bleu excellent cuisinier ou panier perc d pensier Un cordon bleu est un cordon Un panier perc est un panier Traditionnellement les noms compos s du type vin blanc sont appel s noms compos s endocentriques et ceux du type cordon bleu sont appel s noms compos s exocentriques Les couples Npr Nc entrent clairement dans la premi re cat gorie La mer du Nord M diterran e est une mer Le mont des Oliviers Ventoux est un mont Dans certains
24. 1993 1994 sur les d terminants nominaux 3 2 Les composants l mentaires 3 2 1 G n ralit s Nous avons d fini une expression de mesure comme une s quence comportant la s quence Dnum Unit o Dnum d signe un d terminant num rique et Unit une unit de mesure Nous souhaitons dans un premier temps d crire de mani re d taill e chaque composant simple de cette s quence Les d terminants num riques sont les plus vari s et nous utilisons une typologie formelle Il peut s agir de d terminants ind finis au pluriel Dind pl comme des plusieurs quelques etc d terminants num riques cardinaux simples ou compos s crits en lettres ex douze quarante trois s quences de chiffres arabes d crivant des nombres r els dans un format standard ex 1 905 1 78 ou dans un format scientifique ex 1 54 10 5 d terminants nominaux de la forme Det Nnum de des milliers de o Nnum est un nom que l on qualifiera de num rique comme milliers dizaines etc Nous tudions sp cifiquement les trois derniers types Apr s avoir examin les diff rentes classes d unit s simples que nous utilisons nous voquons le cas des pr d terminants num riques qui sont essentiels pour une reconnaissance fine des mesures car ils introduisent de l g res modifications s mantiques ex peu pr s dix amp res exactement dix amp res Nous analysons galement le sch ma de phrase Det Ng tre de Dnum Unit
25. 38 0 Figure 98 Sg La d finition de B ci dessus n est valable que si les bijections associant les automates aux non terminaux s tendent en une m me bijection pour tout X e N et pour tout Y e N si X Y alors auti X aut Y De mani re informelle cela revient dire que si deux symboles non terminaux de deux grammaires diff rentes sont les m mes alors les r gles automates 117 Nous repr sentons les automates d une mani re un peu sp ciale M Silberztein 1993 Les graphes se lisent de gauche droite Les transitions tiquet es se trouvent dans les bo tes Les tiquettes non terminales sont gris es et repr sentent des appels des sous graphes de m me nom Les tats ne sont pas repr sent s sauf l tat initial et l tat final 186 associ es sont les m mes Nous verrons plus tard que lors de la proc dure d insertion de grammaires dans la biblioth que ce n est plus forc ment le cas Remarque importante Jusqu ce chapitre nous avions utilis le mot graphe pour ce que nous appelons maintenant automate Ces deux notions sont habituellement utilis es de fagon quivalente par les utilisateurs d Intex et d Unitex mais dor navant nous ne parlerons plus que d automates pour ce qui concerne les r gles des grammaires locales car un peu plus tard nous utiliserons le terme de graphe pour d noter d autres types de donn es 5 3 2 Normalisation des grammaires en pratiq
26. 77 NI qu avoir de NO le ballon qu a de Max Ainsi on a La corde a une longueur de 10 cm la longueur de 10 cm de la corde r duction La salle a une temp rature de 10 C La temp rature de 10 C de la salle r duction Cette propri t a un diam tre de 14 km Le diam tre de 14 km de la propri t r duction Le spectacle a une dur e de 10 min La dur e de 10 min du spectacle r duction Lorsque le nom Ng est effac cf pr c demment le d terminant est toujours les les E 10 cm de la corde les E 10 C de la salle les E 14 km de la propri t les SEI 10 min du spectacle Pour certains Ng les deux d terminants peuvent tre ind finis une longueur de 10 cm de E la corde une temp rature de 10 C de E la salle Le nom Ng peut souvent s effacer dans ce cas le premier d terminant peut tre d fini les E 10 cm de E la corde De plus dans cette construction Det Ng de Dnum Unit de a le statut des d terminants nominaux tudi s par P A Buvet 1993 1994 Le nombre de classes de noms pr dicatifs Ng rentrant dans cette structure est limit volume capacit GNmesure volume longueur GNmesure longueur dur e longueur GNmesure temps co t prix GNmesure monnaie surface superficie aire GNmesure surface poids masse GNmesure masse Du fait de diff rences de sens qui peuvent tre importantes nous repr sentons ces s q
27. 80 Figure 54 graphe patron d crivant les r ductions de NO avoir un Ng de Dnum Unite 82 Figure 55 graphe g n r pour l entr e largeur ss 83 Figure 56 N tbtreADnumMetrel och 89 Figure 57 N ObtreADnumhtempsl och 89 Figure 58 Adv app distancel ses 89 Figure 59 5 Adv app distance fist nine tiers lisse 89 Figure 60 Prep1 N1 fig pour le nom altitude Prep1Nl altitude 91 Figure 61 graphe patron des structures adverbiales d riv es de NO Vsup Prep un Ng de Dnum Unite Prep Nee ti ge 91 Figure 62 graphe g n r pour distance ses 92 Figure 63 NO repr senter Dnum de N1 94 Figure 64 graphe patron des mesures comparatives d riv es de NO Etre Dnum Unite plus Adj GUENT EE 96 Figure 65 graphe g n r pour surface sise 97 Figure 66 localisation de d terminants nominaux de mesure 104 Figure 67 analyse transformationnelle de groupes nominaux de mesure 104 Figure 68 normalisation du graphe Mere 105 Figure 69 normalisation ses 106 Figure At sur plateau table aires rene interested 117 Figure 71 Sur branche SOU stades nn anti nt ile 118 Figure 72 sur alpiniste falaise ss 118 Figure 73 ALeOuestDe A der een Re Re de 121 Figure 74 ENNDE Loc gege Eessen EEN dee reed et 121 Figure 75 DansLaZoneAdjDe ses 122 Figure
28. A UunIsuadsy ON xapul 241 NhNpr Ve e E tE Ne de Mpr Prep Mpr a Kouriles mass 7 maldivien Madagascar SS SSC Mad re Malouines Malta TEE Marquises Mariannes pp lr ______ l Martinique Maures f fe f Fame D in CITE PT PTT Rene zer E FE EEEO lt gt FortoRiea SOS portoricain ER El f l a Det Mgr HE r unionais 242 MR IS a a o a E ET PT E E ICI IE E A E ECHO oa ef ep f eier 63 IE IE E EE IET E O ES ET PE E IN IS E E A SIS IS IN A CO ES AT E EA AAA AA AA apa ep EPL RE PER IN II EE CO ES AT E A CSC a A me at au AAA AA AAA es ap EIRE A RE EL RE TEE RME as EE TT A EE adi ON 37 A0N aR IN 37 aund 2480 4 adfy xapu E AN 129 ap sde 37 SI 10NN 243 NNpr mer E FAR EE EEN SEENEN IN UP 3418 LN 180 24dh all oo ana LI AAA nE Ea JON SSIUEUE A Canoa oU 011 180 ere E UUpDO0p ZM Up D 3 BEJE al EF Barentz Blanche Baltique EE gt TE i SE EE 2130 2 1 me 11 TSfmer_ P E ei A P ENE e e poi fene DA PREFE FHI aal us de Chinemt ridionale Ce dele Sud SE E Pa eme fe fes Coraes kO o FE HH H al tsfmer o E E fiters e beh H az t fmer fe e E enge e le f lt E 24 t fmer e fe fje Wapn boo jr tb E el A AAA AER AE HFH 18 t fmer fe fue
29. Concrete Mathematics a foundation for computer science Addison Wesley Publishing second edition Grass T D Maurel O Piton 2002 Description of a Multilingual Database of Proper Names In E Ranchhod N Mamede eds Advances in Natural Language Processing Lecture Notes in Artificial Intelligence LNAI 2389 Springer Grevisse M 1975 Le bon usage 10e d rev Gembloux Duculot Gross G 1989 Etude syntaxique de constructions converses Droz Gen ve Paris Gross G 1991 Syntaxe du compl ment de nom Linguisticae Investigationes XV 2 John Benjamins Amsterdam Gross G 1994 Classes d objets et description des verbes Langages 115 Larousse Paris Gross G 1996 les expressions fig es en francais noms compos s et autres locutions Ophrys Gross M 1975 M thodes en syntaxe Hermann Paris Gross M 1977 Grammaire transformationelle du francais Vol 2 Syntaxe du nom Cantil ne Paris 226 Gross M 1984 Une classification des phrases fig es du francais In P Attal C Muller eds De la syntaxe la pragmatique Lingvisticae Investigationes Supplementa John Benjamins Amsterdam Gross M 1986 Grammaire transformationnelle du francais Vol 3 Syntaxe de l adverbe Paris ASSTRIL Universit Paris 7 Gross M 1989 The Use of Finite Automata in the Lexical Representation of Natural Language In M Gross D Perrin eds Electronic Dictionaries and Automata in Computational Lingui
30. E Maldives Max est sur dans l avenue de E les Champs lys es Le coureur cycliste se trouve dans sur le col de E le Tourmalet Ce ph nom ne naturel et logique n est pas une g n ralit Il existe de nombreux exemples montrant une disparit dans les distributions entre les formes longues et leurs formes courtes associ es comme le montrent les quelques exemples ci dessous Paul est la ville de E Paris Marie est l le de la E Cr te L a est en tat de E Californie Max est en principaut de E Monaco Le pr sident est avenue de les les E Champs lys es Pour certains classifieurs comme d partement le tat province etc la s quence dans la parfois tendance se contracter dans la pr position en mais seulement lorsque le classifieur est absent Luc est dans le d partement de E la Meurthe et Moselle Luc est en Meurthe et Moselle Luc est en d partement de la Meurthe et Moselle L argent se trouve dans l le de E la Martinique L argent se trouve en Martinique L argent se trouve en le de la Martinique Marie est dans l tat de la Caroline du Nord Marie est en Caroline du Nord Marie est en tat de Caroline du Nord Mais ce ph nom ne n est pas une r gle g n rale car pour certains noms propres la pr position en est interdite L argent se trouve dans l le de E la R union D argent est en R
31. Fairon 1999 A 31 Dister 2000 Par ailleurs il existe un service de veille de corpus journalistiques sur Internet Glossanet tr s utile pour les linguistes C Fairon 2000 2 4 4 R flexions et perspectives 2 4 4 1 Les apports du lexique grammaire Les formalismes utilis s dans le cadre du lexique grammaire sont loin d tre nouveaux dans le domaine du TAL L int r t des m thodes tats finis pour l analyse des textes a t montr il y a bien longtemps par l quipe dirig e par Z S Harris l Universit de Pennsylvanie en 1958 1959 cf A Joshi et K Hopely 1999 Il existe par ailleurs de nombreuses quipes travaillant avec la technologie tats finis M Mohri 1997 E Roche et Y Schabes 1997 L Karttunen 2001 Par contre M Gross et son quipe ont mis en vidence depuis des ann es certains points linguistiques qui ressurgissent dans les travaux actuels du domaine du TAL et qui apparaissent d sormais comme cruciaux Par exemple le r le fondamental du lexique est reconnu par beaucoup A Abeill et P Blache 2000 T Briscoe et A Copestake 1999 notent qu il est tr s difficile de trouver deux verbes pouvant entrer dans une m me classe Les mots compos s sont l objet de nouvelles tudes A Copestake et al 2002 Au niveau applicatif il est de plus en plus fr quent de voir des applications dites hybrides int grant de la linguistique aux m thodes statistiques Ces techni
32. Il est g n ralement admis que dans un compl ment essentiel le choix de la pr position d pend en large partie du pr dicat et que dans un adverbe la pr position d pend avant tout du groupe nominal Les adverbes et les objets des verbes sont g n ralement distingu s l aide de quelques crit res traditionnels D abord les compl ments essentiels r pondent aux questions en Prep que qui quoi ce qui n est pas le cas des compl ments circonstanciels qui r pondent aux questions en quand o comment etc Les adverbes sont mobiles dans la phrase ce qui est moins vrai avec les objets M Gross 1986 montre l aide de quelques exemples que ces crit res ne sont pas toujours valables Ils ne sont ni n cessaires ni suffisants M Gross est sceptique quant leur utilisation car cela fait perdre toute coh rence au domaine complexe des adverbes M Gross 1986 p 22 Il faut traiter les adverbes au cas par cas 110 4 2 1 3 La port e des adverbes Il est tr s souvent possible d expliciter la relation entre un adverbe Adv et une phrase P dans laquelle il peut tre ins r Elle s exprime l aide de phrases simples qui mettent en vidence la port e de l adverbe Ces constructions utilisent des verbes supports Vsup comme tre avoir lieu se passer etc Il existe deux cas bien distincts Le cas o l adverbe porte sur la phrase Dans cette situation la relation entre Adv et P peut s explic
33. Il est possible de faire des analyses avec des arbres indiquant plus d informations les noms t tes des groupes nominaux par exemple L aussi tout d pend de la pr cision d analyse que l on souhaite avoir L analyse syntaxique peut jouer un r le dans la lev e d ambiguit lorsque deux mots identiques ont la m me cat gorie grammaticale mais deux sens diff rents par exemple le verbe voler to steal ou to fly L analyse syntaxique de la phrase dans laquelle il se trouve permet de trouver son sens Paul vole un bijou L a gt to steal L oiseau vole gt to fly L analyse syntaxique est primordiale mais n est pas suffisante terme une analyse s mantique sera n cessaire L analyse s mantique des phrases n en est qu ses balbutiements cf G Sabah 2000 Les ambigu t s s mantiques lexicales sont parfois trait es au moyen de r gles construites automatiquement partir de corpus ex C Brun 2000 o le corpus est un dictionnaire Certains construisent des lexiques g n raux sous la forme de classes d objets G Gross 1994 de r seaux s mantiques ex Wordnet par G A Miller et al 1990 etc Des formalisations s mantiques paraissent coh rentes mais elles sont limit es des ph nom nes bien particuliers d placements ou localisation par exemple Notons que la r solution 2 Pour plus de d tails voir A Abeill 1993 ou A Abeill et P Blache 2000 27 d anaphores jou
34. Lecl re C 2002 remarque publique au colloque Grammaires et Lexiques compar s Bari Le Pesant D 2002 Quelques remarques sur les constructions locatives colloque Grammaires et Lexiques compar s Bari Le Pesant D 2003 Les phrases compl ment locatif divers probl mes de syntaxe s minaire du LADL Paris Marcus M P Santorini B Marcinkiewiecz M A 1993 Building a large annotated corpus of English the Penn TreeBank Computational Linguistics 19 Mathet Y 2002 Traitement automatique des relations spatiales un mod le des entit s spatio temporelles et de leurs relations La mod lisation de l espace Cahiers de la Maison de la Recherche en Sciences Humaines 30 Maurel D 1990 Adverbes de date tude pr liminaire leur traitement automatique Lingvisticae Investigationes XIV 1 John Benjamins Amsterdam Maurel D Leduc B Courtois B 1995 Vers la constitution d un dictionnaire lectronique des noms propres Lingvisticae Investigationes XIX 2 John Benjamins Amsterdam Maurel D Piton O 1998 Un dictionnaire de noms propres pour INTEX les noms propres g ographiques In C Fairon ed Analyse lexicale et syntaxique le syst me INTEX Lingvisticae Investigationes John Benjamins Amsterdam Mel cuk LA 1988 Dependency syntax theory and practice State University Press of New York Albany Meunier A 1981 Nominalisation d adjectifs par verbes supports Th se de 3
35. Les nombres avec plus de trois chiffres ne rentrent pas dans ce sch ma par exemple en fran ais dans 7 298 il existe un espace blanc obligatoire entre le troisi me chiffre en partant de la droite et le dernier chiffre gauche en anglais l espace blanc est remplac par une virgule 1 298 D une mani re g n rale un espace blanc une virgule en anglais appara t obligatoirement dans la s quence de chiffres tous les trois chiffres en partant de la droite En fran ais l ensemble des entiers naturels crits en chiffres arabes peut donc tre repr sent par le graphe NombreEntierEnChiffres ci dessous Le graphe 3Chiffres d crit une suite de trois chiffres soud s et le graphe Chiffre l ensemble des chiffres arabes Le symbole indique que l l ment sa gauche et celui sa droite sont soud s l un l autre autrement dit tout espace blanc est interdit entre ces deux l ments Cette description pr cise permet de lever dans certains cas l ambigu t qui existe naturellement entre un d terminant num rique et une date d signant une ann e crite en chiffres En effet ce type de date est une 2 Les nombres d cimaux ne semblent pas pouvoir tre crits en toutes lettres 2 Parfois c est un point qui appara t la place de l espace 43 suite de chiffres coll s Ainsi 2003 ne sera pas reconnu comme un d terminant num rique par notre grammaire Par ailleurs il est usuel d utiliser des
36. SO r publique j dominicaine LL 124 30 r publique _ socialiste de le Vietnam l vietnamien Jle 1 3Olr publique de Afrique de le Sud j j sud africain acht fs Je 2 3O r publique de Albanie j albanais ela SSR 107 30 r publique _ f d rale de Allemagne alemand gt sa jo l d 3O r publique de Angola j J amgolais Uecht le le 95 3O r publique Argentine j argentin acht e e 5 3Olr publique de Arm nie LL arm nien laH D 20fr publique de Autriche lo j autrichien llar kb Jo 2 30O r publique de Azerba djan DRE Uecht SEN Eet 17 30 r publique populaire de le Bangladesh Fee bl a SE 53 MOlr publique de le B larus Belarus h fe j l Jle vi e L 7 3Ofr publique de Bela h j l LE WORSIE Fi 3O r publique de le B nin Jle D 3O r publique de le Bhoutan j j J Jle j D 3O r publique de Bi lorussie j bi lorusse la SEH Es 9 30O r publique de Bolivie j bolivien la me Jee 10 30O r publique de Bosnie Herz govine l bosniaque la zl D I 3O r publique de le Botswana SN jle nl CES 118 20lr n blous F d rative de lle Br sil j br silien le G
37. Xtag TAG Universit de Pennsylvanie Intex 103 et Unitex Dictionnaires morphologiques et tables syntaxiques FSTs RTN AT amp T s FSM XRCE FS Tool FSA Utilities transducteurs finis etc composants linguistiques dictionnaires Frantext syst me DELA etc r seaux s mantiques Wordnet corpus Frantext 9 etc L existence d une association sp cialis e dans la distribution de telles ressources ELRA ELDA est une preuve suppl mentaire Des projets financ s par l tat comme Outilex 2002 ont pour objectif de rassembler et distribuer librement ces ressources Certains chercheurs proposent des solutions innovantes Par exemple L Romary 2000 d crit un syst me de serveur permettant de faire des liens entre diff rents serveurs contenant des ressources linguistiques permettant en quelque sorte de rassembler ces ressources Nous nous int ressons pr cis ment la gestion des composants ou donn es linguistiques Il est bien vident que leur parpillement et la multiplication de projets de construction 12 http lingo stanford edu index html 1 http www nyu edu pages linguistics intex 104 http www igm univ mlv fr unitex 105 http www research att com sw tools fsm 106 http www xrce xerox com competencies content analysis fssoft docs fst 97 xfst97 html 19 http odur let rug nl vannoord Fsa 108 http www cogsci princeton edu wn 10 http zeus inalf fr frantext htm 179
38. analyse syntaxique compl te de textes Pour cela il est n cessaire de trouver en tenant compte de l norme ambigu t de la langue 37 de nouveaux formalismes et des algorithmes associ s Des travaux sont en cours l universit de Marne la Vall e extraction Un des sujets la mode actuellement est l extraction d information Le plus br lant d entre eux est l extraction de noms propres De nombreuses tudes ont t men es et sont en cours J Senellart 1998 extrait automatiquement des noms de personnalit s en leur associant une fonction politique ou professionnelle l aide de grammaires sous forme de graphes N Friburger et al 2001 extraient des noms propres de personne l aide de cascades de transducteurs D autres sujets ont aussi t abord s comme l extraction de noms de g nes dans les corpus en g nomique T Poibeau 2001 Une application directe de l extraction sont les syst mes de questions r ponses automatiques par exemple C Fairon et P Waitrin 2003 filtrage Le filtrage d information est aussi un sujet majeur de ces derni res ann es notamment pour la distribution personnalis e des d p ches AFP A Balvet 2000 montre l int r t d utiliser des graphes linguistiques pour rep rer les textes ad quats une requ te donn e ambigu t La lev e d ambiguit des textes est fondamentale pour le traitement automatique De nombreuses tudes pointues ont montr l in
39. c dente D autres repr sentent des combinaisons d unit s comme pour le nom vitesse qui s lectionne des unit s complesxes combinant des unit s m triques et de temps En physique une unit de vitesse est la division d une unit m trique par une unit de temps centim tres par heure km s Dans le langage courant il existe des variations moins rigoureuses telles que kilom tres l heure ou kilom tres heure Le premier exemple peut m me tre r duit l heure comme dans l exemple suivant Max roule une vitesse de 80 kilom tres l heure Max roule une vitesse de 80 l heure Mais cela n est valable qu avec le nom heure Ce m t orite a une vitesse de 1 2 km la seconde Ce m t orite a une vitesse de 1 2 la seconde Nous donnons ci dessous le graphe Nmesure vitesse repr sentant ce type d unit s Dans ce graphe nous autorisons des expressions plus exotiques telles que miles par an Nous ne divisons pas cette unit en deux comme auparavant unit en toutes lettres symboles Le graphe Nmesure longueur est l union des graphes Metre Metre_abr Mile Mile abr et Mille Le graphe Nmesure temps est l union des graphes Ndiv temps Ndiv temps_abr Seconde et Secondes 55 nent Figure 38 Nmesure vitesse Les noms d signant une surface aire surface superficie s lectionnent deux types d unit s la combinaison d une unit m trique de longueur accompag
40. comprise entre 90 cm et 1 10m Comme pour les coordinations Unit et Unit peuvent tre factoris es si Unit Unit Det Ng tre compris E entre Dnum E Unit et Dnum Unit la longueur est comprise E entre 90 E m et 110 m 62 La r duction un groupe nominal par relativation puis r duction de la relative donne des s quences telles que Une longueur E comprise entre 90 E m et 110 m Lorsque l on utilise une variante de tre de comme tre sup rieur cf section pr c dente on observe un comportement un peu diff rent cause de la pr sence de la pr position la pr position est obligatoirement effac e Les phrases obtenues ne sont pas tr s naturelles La temp rature est sup rieure dix degr s Celsius La temp rature est sup rieure E entre dix et quinze degr s Celsius Par ailleurs la variante en tre PreDnumPrep est peu naturelle La tension est de l ordre de dans les hauteur de 15 V La tension est de l ordre d dans les hauteur d entre 14 et 15 V Pour les variantes avec des verbes tels que atteindre on a La diam tre atteint comprise E entre 90 E m et 110m Les structures entre Dnum et Dnum Unit sont beaucoup plus fr quentes que entre Dnum Unit et Dnum Unit Ne tenir compte que des expressions trouv es dans les corpus aussi grands soient ils n est pas suffisant La premi re intuition partir de
41. confront des syst mes relationnels de tables syntaxiques pour lesquels la m thode standard de conversion ne fonctionnait plus Nous avons donc labor une nouvelle m thode avec des formalismes et des algorithmes tendus tenant compte que les informations peuvent se trouver dans plusieurs tables Au deuxi me probl me nous avons propos et implant un syst me de gestion de grammaires locales une biblioth que en ligne de graphes Le but est de centraliser les grammaires locales construites au sein du r seau RELEX Nous avons con u un ensemble d outils permettant la fois de stocker de nouveaux graphes et de rechercher des graphes suivant diff rents crit res Les syst mes traditionnels de bases de donn es relationnelles ne permettent pas g rer une telle biblioth que car les composants stock s sont des objets complexes r seaux r cursifs de transitions De ce fait les fonctionnalit s de stockage que sont l insertion et la suppression de nouveaux graphes ne sont pas triviales implanter L impl mentation d un moteur de 219 recherche de grammaires nous a permis de nous pencher sur un nouveau champ d investigation dans le domaine de la recherche d information la recherche d informations linguistiques dans des grammaires locales De nouveaux algorithmes ont donc t con us Notre travail apporte une contribution trois domaines scientifiques linguistique linguistique informatique et informatique D
42. de longueur la piscine fait 50 m tres 3 3 3 4 Nominalisation et adjectivation Notre phrase de base est galement sujette une adjectivation NO Vsup Prep un Ng de Dnum Unit NO tre Ng a de Dnum Unit La cour est large de 50 m Le bassin est volumineux de 40 litres Tous les Ng ne poss dent pas de Ng a associ tension temp rature etc Notre phrase de base peut aussi tre transform e en une phrase pr dicat verbal Ng v o Ng v est le verbe morphologiquement associ Ng NO Vsup Prep un Ng de Dnum Unit NO Ng v Dnum Unit Max a un poids de 30 kg Max p se 30 kg la chaise a un co t de trente euros la chaise co te trente euros Le nom population a un comportement diff rent car le sujet de Ng v est Dnum Unit et son objet est NO NO Vsup Prep un Ng de Dnum Unit Dnum Unit Ng v NO 4l Ng a est l adjectif morphologiquement li N 70 Le village a une population de 300 habitants 300 habitants peuplent le village Nous remarquons apr s une analyse quasi exhaustive que l intersection entre l ensemble de nos Ng qui entrent dans une structure adjectivale et l ensemble de nos Ng qui entrent dans une structure verbale est vide 3 3 3 5 Effacement du nom pr dicatif Dans notre structure de base le nom Ng peut tre effac mais cela d pend d abord du Ng et du Vsup NO Vsup Prep un Ng de Dnum Unit NO Vsup Prep Dnum Unit Cette corde fait
43. de G est le graphe G lt V E gt o V x1 x2 avec x 1 3 4 et x2 2 et E1 x2 x1 car 2 x2 1 x et 2 1 A G est donn dans la figure ci dessous 3 113 9 Figure 102 graphe condens de G 5 4 2 2 La notion de graphe de d pendance On dit qu un automate X d une grammaire G lt N T Aut S gt est directement d pendant d un autre automate Y de cette m me grammaire si et seulement si l automate Y est un sous automate directement invoqu par une des transitions de X Un graphe de d pendance d une grammaire repr sente les d pendances directes entre les automates de cette grammaire Chaque sommet du graphe de d pendance d une grammaire G correspond un symbole non terminal X soit un automate Chaque sommet X est reli un autre sommet Y par un arc sens d orientation X Y si et seulement si X est directement d pendant de Y On dit que X est d pendant de Y s il existe un chemin partant du sommet X qui va au sommet Y Si une grammaire est strictement r cursive son graphe de d pendance est cyclique Par exemple prenons la grammaire suivante l alphabet terminal est a b l alphabet non terminal S X Y l axiome de d part S et l ensemble des r gles automates est donn ci dessous Figure 104 X H 2 HD Figure 105 Y Figure 103 S Le graphe de d pendance correspondant cette grammaire est le suivant Figure 106 graphe de
44. dures de lib ration d objets on conna t les objets qui sont encore concr tement utilis s dans le programme plac s dans des tas ou heaps Les objets encore vivants sont l ensemble des objets accessibles partir de l ensemble des objets dans le tas Il existe diff rentes m thodes utilis es par les JVM par exemple stop and copy qui consiste suspendre temporairement lPex cution du programme et copier les objets vivants au fur et mesure que l on parcourt le graphe des objets vivants mark and sweep qui consiste marquer les objets vivants puis lib rer les objets non marqu s cf B Eckel 1998 Dans notre probl me de suppression de grammaires ce que l on sait en entr e est que l on veut lib rer l objet Z axiome de la grammaire G et tous ses sous automates strictement internes suivant les contraintes nonc es ci dessus On peut essayer de se ramener au probl me pr c dent Pour cela il faut conna tre l ensemble H des automates de B desquels aucun automate principal ne soit d pendant cf d finition d une grammaire locale et l ensemble 7 des automates principaux de B On v rifie pr alablement que Z est strictement interne G Soit J l ensemble des automates utilis s par Z Z inclus et qui se trouvent dans Hu Puis partir de l ensemble HuUD J qui est l quivalent du tas ou heap dans la JVM on marque tous les automates vivants de B en parcourant Gd puis o
45. e Ainsi une salle est plac dans GN et 10 C est plac dans nU En sortie de l application de ce graphe les variables sont remplac es par leur contenu 3 5 3 3 Extraction et normalisation d information A l aide des grammaires construites nous pouvons r aliser des normalisations En effet il a t montr plusieurs reprises A Chrobot 2000 L Karttunen 2003 que les d terminants num riques cardinaux en toutes lettres pouvaient tr s facilement tre normalis s sous la forme de nombres crits en chiffres l aide de transducteurs facilitant ainsi le travail de traduction de ces s quences fran ais formel amp anglais 104 dix sept amp 17 amp seventeen Cependant nous avons vu que la syntaxe des nombres en chiffres pouvait d pendre de la langue Deux mille trois cent douze amp 2 312 Two thousand three hundred and twelve amp 2 312 Mais cela n est pas un probl me si l on utilise une repr sentation num rique ind pendante de la langue Nous pourrions tendre cette application aux mesures En effet il existe un symbole standard international pour chaque unit crite en lettres Ainsi on a fran ais gt formel lt gt anglais m tre me meter Le formalisme du transducteur tats finis est parfaitement adapt Il suffit donc de reprendre nos grammaires d unit s et leur ajouter une sortie comme ci dessous avec le graphe Metre Figure 68 normalisation du
46. entre Ng GNmesure et Adj relatif Nous pr sentons ci dessous le graphe patron repr sentant l ensemble des expressions r duites d riv es de la structure comparative et le graphe g n r pour surface Figure 64 graphe patron des mesures comparatives d riv es de NO Etre Dnum Unite plus Adj que NI 96 GNmesure surfacefinal Figure 65 graphe g n r pour surface 3 5 Application a des textes 3 5 1 G n ralit s L tude linguistique que nous avons r alis e a pour but ultime de confronter des textes les contraintes locales cod es sous la forme de graphes Nous disposons d un ensemble de grammaires important Pour chaque type de phrase tudi e nous associons un ensemble de grammaires compos de la grammaire d crivant la phrase de base et l ensemble de ses transform es souvent peu fr quentes dans les textes la grammaire d crivant les r ductions g n r es partir de la phrase de base c est dire des groupes nominaux les grammaires repr sentant des expressions d riv es et partielles de la phrase groupes nominaux adverbes pr positions d terminants modifieurs Ces grammaires sont construites en g n ral l aide de graphes param tr s et de la m thode d E Roche 1993 Nous synth tisons ci dessous l ensemble des grammaires construites Det Ng tre de Dnum Unit e phrase cette longueur est sup rieure 14 miles e GN une longueur poust
47. exemple les adverbes compos s de dates D Maurel 1990 M Gross 2002 Certaines expressions fig es combinent plusieurs propri t s rendant leur description par dictionnaires lectroniques du type DELACF impensable insertion possible variation lexicale et syntaxique Paul a perdu la boule t te raison Paul perdit lentement apr s trente ans de mariage la boule t te raison 30 Les grammaires locales sont d s lors requises J Senellart 19994 M Gross et J Senellart 1998 estiment qu il pourrait tre int ressant de r duire les expressions fig es et semi fig es mots compos s phrases fig es etc une unit de comptage dans les syst mes de traitement statistique pour am liorer les r sultats Par ailleurs l indexation de documents par de telles expressions pourraient affiner les recherches documentaires en tenant compte du poids s mantique form par l ensemble et non seulement par ses diff rents constituants 2 4 2 4 analyse syntaxique L analyse syntaxique consiste regrouper des s quences de mots en syntagmes qui s organisent autour d un pr dicat verbe nom ou adjectif et leur donner des fonctions Les travaux du lexique grammaire y ont montr le r le fondamental du lexique et implicitement l obligation d utiliser des dictionnaires syntaxiques pour l analyse syntaxique automatique E Roche 1993 1999 a con u un analyseur syntaxique et transformat
48. fas E ES ES ES ES E as 19 lmer e e po Hera KKK F 27 veluer p CE CS CN CCE e t fmer LL m dieran e fe f le tr EE ne F 25 t fmer E jue le Mod EE EE PS ES ES 20 18fmer er de Noen EE Fa Se 19 mer 3 mer 1 14 15 Cr te 19 mer Rouge 19 mer Trancuilit 10 26 244 Hhpr cgion JON Ua JON od zlztazlizkzizlziziazlziazizlzliazlztaziazlzlzlzlz Bi Slip bi EES FC Je francien Cat leen de Je Languedoc Roussiion Ea lena Cas KK TH z 5 E D 5 E e Elo dg z aola IE EE la clelc 2 12 2 mala DD EE 215367 e Ces Jue fe centre Lt 20 2afr gion de Chempagne Ardenne ee 19 2alr gion de Bretagne 16 29fr gion de Corse 22 29 r gion de Franche Comt 23 2alr gion de Haute Mormandie 3 2afr gion de le de France _ 5 29 r gion de le Limousin BER fe lorrain fe DI r gion LL MiP KLEK BEER ERR DI 2alr gion t Pea LKE Te af Ar son Jus fes Pasen FEFE picard de Aur Alpes Frovence Apes te Oe Poitou Charentes Picardie FH de Is de le EE 29 r gion 6 2ofr gion de fa Lorraine a 2alr gion 13 245 ndex NG NNpr r publique LE Nc Ad de Det Mpr LE NC SO de Npr LE MC de Det Nor LE Nc de Npr LE Nc Npt a Variante Det Variante Mpr dans Det p
49. ge car la premi re structure d signe un glacier et pas une mer Dans le m me temps nous tudions certaines caract ristiques linguistiques des classifieurs et des noms propres utilis s d terminants modifieurs etc Enfin nous d crivons la distribution pr positionnelle des groupes pr positionnels locatifs rentrant dans la structure NO Vsup Loc Det N Modif lorsque N prend trois formes N Nprc N Npr N Nc Nos descriptions sous la forme de tables syntaxiques vont aboutir un syst me relationnel de tables syntaxiques non compatible avec la m thode de conversion des tables en grammaires locales d E Roche 1993 Pour confronter nos repr sentations linguistiques des textes nous implantons de nouveaux formalismes et algorithmes de conversion 109 4 2 Pr liminaires linguistiques 4 2 1 Adverbes g n ralis s 4 2 1 1 Notions d adverbes g n ralis s et d objets Un adverbe dans la litt rature traditionnelle est un mot invariable l mentaire ex hier ou d riv ex doucement Dans le cadre du lexique grammaire C Molinier 1990 a r alis une classification des adverbes en ment au moyen de crit res formels M Gross 1986 va plus loin et d finit la notion d adverbe g n ralis qui est soit un adverbe traditionnel ici couramment soit un groupe nominal pr positionnel o la pr position est parfois z ro dans trois jours sur l tag re en train soit une subordonn e com
50. l application des r gles Au niveau linguistique les travaux r alis s jusqu pr sent avaient pour cadre la phrase simple Si l on reste dans ce cadre le comportement des constructions pr dicats nominaux lorsqu elles sont r duites en GN devrait tre examin car les pr dicats nominaux se retrouvent tr s fr quemment dans des groupes nominaux Par ailleurs les contraintes propres aux phrases complexes n ont pas ou tr s peu t examin es Des travaux sont en cours dans la suite de M Mohri 1993 Diffusion libre des donn es Pour finir la diffusion des donn es est un nouveau d fi relever Unitex est un logiciel libre et les dictionnaires le sont partiellement Une tape importante et obligatoire est la diffusion des biblioth ques de grammaires locales accumul es dans le cadre du r seau RELEX cf ce pr sent ouvrage 2 5 Grammaires locales un tat des lieux Dans cette section nous regardons en d tail un type de donn es linguistiques les grammaires locales Nous tablissons un tat des lieux dans le cadre du r seau RELEX D abord nous d crivons formellement les grammaires locales Puis nous regardons leurs diff rents niveaux d analyse Enfin nous montrons diff rentes applications les utilisant Nous parlons essentiellement des travaux r alis s sur la langue fran aise car c est la langue qui a le niveau le plus avanc Pour des pr cisions sp cifiques sur d autres langues les lecteu
51. la mise en correspondance Tag matching de deux symboles terminaux est directe car ce sont des symboles l mentaires La proc dure peut se r sumer par les quelques lignes triviales ci dessous 12 L emplacement des formes canoniques et des formes fl chies est permut dans ce cas l cf S Paumier 2002 192 Fonction match a b si a b alors r sultat vrai sinon r sultat lt faux finSi finFonction En pratique dans nos grammaires la mise en correspondance de deux symboles terminaux normalis es n est pas directe car les symboles ne sont pas forc ment atomiques comme on Pa vu dans la section pr c dente Dans cette partie nous impl mentons une proc dure de mise en correspondance de deux symboles terminaux normalis s Cette proc dure est sym trique en a et b Nous d finissons des proc dures de mise en correspondance pour chaque type de champ Il en existe trois un pour FG FC et CG un autre pour Tr un autre pour FI Nous implantons donc trois proc dures matchChampSimple x y pour FG FC et CG matchEnsemble x y grammatical Autom pour Tr et matchFlexions x y grammatical Autom pour FI Chacune de ces proc dures prend en arguments deux champs plus d autres param tres et renvoie un bool en Nous d finissons nos proc dures de telles mani re que si l une des proc dures de mise en correspondance des champs renvoie faux alors la fonction match A B renvoie faux Elle renvoie vrai dans
52. re spectaculaire serait d utiliser comme ressource le dictionnaire Prolintex qui contient pour certains types de noms 88 http www culture fr culture delf ressources pays FRANCAIS HTM 148 de lieu les villes par exemple toutes les informations syntaxiques n cessaires En effet les noms de ville ont un comportement syntaxique stable ils ont tous pour forme la ville de Det Npr avec Det le la les E La seule information n cessaire pour les coder est de conna tre le d terminant associ au nom propre et cette information est cod e dans Prolintex comme le montrent les les exemples ci dessous Laval Laval N PR Top Ville DetZ ms fs Pir e Pir e N PR Top Ville DetLe ms A chaque nom de ville est associ un certain nombre d informations la cat gorie grammaticale N le type nom propre PR toponyme Top la classe locative Ville un trait syntaxique d terminant DetZ DetLe etc et des informations flexionnelles ms pour masculin singulier Pour ajouter dans nos tables les noms de villes il suffit d extraire dans Prolintex les entr es candidates par exemple l aide de l expression r guli re NWPRWTopWVilleW DetZ DetLe DetLa DetLes DetL Puis connaissant le format de la table des noms de ville on ajoute l entr e en compl tant automatiquement ses colonnes Ce travail est difficilement r alisable par un linguiste car il faut des notions informatiques La premi re applicat
53. tant que la file n est pas vide 204 Critique de l algorithme Cet algorithme est co teux cause de la proc dure qui recherche si X est strictement interne G Cette proc dure consiste parcourir Gdg en inverse ve jusqu atteindre un sommet n appartenant pas G Si l on atteint un tel sommet cela signifie que X n est pas strictement interne G Dans l exemple pr c dent X8 n est pas strictement interne G car son pr d cesseur X77 n est pas strictement interne E7 d pend de X77 Ainsi au pire la proc dure a un temps non lin aire de l ordre de O p avec p le nombre d arcs du graphe de d pendance de la grammaire G 5 4 5 Un algorithme avanc de suppression de grammaires La complexit algorithmique de la proc dure na ve parcourant le graphe de d pendance de G not Gd ne permet pas de rivaliser avec l algorithme bas sur l exploration totale du graphe de d pendance de la biblioth que bien que la diff rence de taille des graphes trait s soit cons quente L am lioration de l algorithme doit porter sur un point la proc dure qui d termine si un sommet X est strictement interne G Notre objectif est que cette proc dure soit directe Pour cela avant de traiter tout sommet X c est dire d terminer si on l ins re dans A ou non il faut tre s r que chaque pr d cesseur de X a d j t trait si on sait que chacun des pr d cesseurs de X est strictement interne
54. terminants situ s avant la s quence Dnum N PreDnum et des pr d terminants situ s apr s la s quence Dnum N PreDnumPost n est pas la m me Luc poss de peu pr s environ ou presque presque 30 voiliers Luc poss de 30 voiliers peu pr s environ ou presque presque Les pr d terminants PreDnumPost ne peuvent appara tre entre le d terminant et le nom Il y a 45 environ tr s exactement enfants Marie a 10 environ tr s exactement ans Cette contrainte n est cependant pas toujours vrai comme le montre la phrase suivante pas tr s naturelle Il y a quelques dizaines environ de voitures boites automatiques Il est possible d avoir la fois un pr d terminant PreDnum et un pr d terminant PreDnumPost comme dans la phrase Paul a couch avec environ mille femmes au total Le symbole signifie que la phrase qu il pr c de n est pas tr s naturelle 47 Il est tr s facile de repr senter ces deux ensembles sous la forme de graphes comme montr ci dessous graphes PreDnum et PreDnumPost puis de les incorporer dans notre structure de base miar pit mois p plus peine total nue de reg epsi Op i peu il quelquel chose ae mi Apr s poil nl epsilu cheval appro Chat fueren SANTO exactement grosso modo uste m me pas Figure 25 PreDnum 34 Le La base de ces graphes nous a t fournie par M Gross 48
55. tre un Ne de Dnum Metre Loc N1 Marie est 20 m sous l eau Marie est une profondeur de 20 m sous l eau Luc est suspendu 2 m au dessus du sol Luc est suspendu une hauteur de 2 m au dessus du sol L avion est 10 000 m au dessus du niveau de la mer L avion est une altitude de 10 000 m au dessus du niveau de la mer On peut retrouver le Ng effac partir de la pr position locative qui indique une direction Par exemple sous indique une direction verticale vers le bas et ainsi on d duit que l on a une profondeur Le N1 rev t une importance certaine En effet la pr position locative au dessus de indique une direction verticale vers le haut ce qui peut correspondre soit une hauteur soit une altitude Le nom altitude s lectionnant clairement un ensemble restreint d expressions quasi fig es de la forme Loc NI comme au dessus du niveau de la mer il est facile de choisir entre les deux possibilit s Cette analyse est faisable mais ne nous para t pas tr s convaincante car elle est restreinte un petit ensemble de pr positions En effet comment analyser la phrase suivante La piste est 10 km en aval de Val d Is re Nous d cidons d analyser la structure NO tre Dnum Metre Loc N1 l aide des deux sch mas de phrase suivants NO tre une distance de Dnum Metre de N1 NO tre Loc N1 Si Loc de Par ce moyen on distingue clairement distance et direction la premi
56. tre km millim tre mm Nous divisons chaque classe en deux les unit s crites en toutes lettres millim tre 49 centim tre et les symboles des unit s mm cm Nous donnons ci dessous les graphes Metre et Metre_abr Chaque unit crite en toutes lettres est mise entre angles par exemple lt millim tre gt est l ensemble millim tre millim tres Cela signifie que l on consid re que les unit s ont t d crites dans les dictionnaires que nous allons utiliser pour appliquer nos grammaires Les symboles sont quant eux crits entre guillemets car ils doivent tre reconnus tels quels dans les textes la s quence cm interdit les variantes en majuscules c est dire CM cM Cm lt attom tre gt am lt centim tre gt om lt d cam tre gt dam lt d cim tre gt dm lt exam tre gt Em lt femtom tre gt ngm lt hectom tre gt Det lt kilom tre gt hm E lt megam tre gt ngm LED lt m gam tre gt nm lt m tre gt Hu unt lt microm tre gt pim lt milim tre gt mm nanome tre gt nym lt petam tre gt Pip RA pm lt t ram tre gt Tm Figure 27 Metre Figure 28 Metre_abr Nous r pertorions ci dessous les 20 graphes que nous avons construits l aide du dictionnaire Larousse Ampere Are Bit Calorie DegreCelsius Electron Volt Gramme Hertz Joule Kelvin Litre Livre Metre Mile Mille Newton Oc
57. trente volts d NO V Pr p N1 la fr quence atteint 55 Hz La structure a contient des adjectifs appropri s aux mesures tels que gal et sup rieur Ils sont d crits dans le graphe Adj numA 59 inf rieurs trop lt sup ricur gt tellement Figure 48 Adj numA La structure b comprend des pr positions compos es pour la plupart qui peuvent aussi tre vues comme des pr d terminants ex jusqu a cf M Gross 1977 Ces pr positions sont d crites dans le graphe PreDnumPrep Figure 49 PreDnumPrep La structure c comporte des verbes au participe pass Vpp la tension est limit e trente volts Cette derni re phrase est la forme passive de On limite la tension trente volts Ces passifs ont un sens statif m me avec agent Nous d crivons quelques Vpp de ce type dans le graphe Vpp numA 60 lt valuer VK lt estimer VK lt mesurer NK lt limiter VK lt etabiiser VE lt r duire Y K gt maintenir HK p O lt appr cier VE lt chuffrer UE lt calculer NK lt expertiser NK lt epprocmer VE Figure 50 Vpp numA Enfin il existe quelques verbes appropri s aux mesures Ils ont tous un aspect statique avec quelques nuances s mantiques atteindre s lever se monter 3 2 4 2 Quelques variantes complexes Dans cette section nous nous int ressons des combinaisons plus complexes que dans les sections pr c dentes Nous regardons d abord le
58. 10 minutes de Paris Cette distance est ZE parcourue en voiture pied Par ailleurs l analyse de de marche est impossible par ce moyen ce qui n est pas tonnant du fait que 10 minutes de marche est quivalent une marche de 10 minutes Cette distance est de marche Cette distance correspond une marche d une dur e de 10 minutes Les graphes NOEtreADnumMetreLocN1 et NOEtreADnumNtempsLocN1 d crivent ces structures avec le Ng effac Dans le premier les unit s s lectionn es appartiennent la classe GNmesure longueur dans le deuxi me elles appartiennent GNmesure temps Les adverbes appropri s au nom distance sont repr sent s dans les graphes Adv app distancel et Adv app distance2 le premier concerne les unit s de mesure de longueur et le deuxi me concerne les unit s de mesure de temps entre p GNmesure longueur de GNmesure longueur Adv app distancel lt E gt A 3 7 de No lt tre gt GNmesure longueurFinal N1 PreDnumPrep En Figure 56 NOEtreADnumMetreLocN1 entre H GNmesure temps p et de GNmesure temps Adv app distance2 lt E gt NO b lt tre gt GNmesure tempsFinal S N1 PreDnumPrep es lt V Figure 58 Adv app distancel Figure 59 Adv app distance2 La
59. 7 Le nom proportion semble galement bien marcher Les tudiants de Jussieu repr sentent une proportion de 19 des tudiants parisiens 92 lettres Etant donn que ces phrases sont th oriques nous travaillons dor navant sur les structures r duites Ces phrases apparaissent comme les phrases l mentaires permettant d analyser un pourcentage Soit la phrase 40 de E les Fran ais regardent la t l chaque soir Cette phrase s analyse comme suit l aide de deux phrases Des Fran ais regardent la t l vision chaque soir Les Fran ais qui regardent la t l vision chaque soir Ces Fran ais repr sentent 40 des Fran ais Une analyse l aide du verbe comporter est galement possible La deuxi me phrase deviendrait alors Les fran ais comportent 40 de personnes qui regardent la t l vision chaque soir Mais cette analyse n est pas toujours valable Cela d pend essentiellement de la nature s mantique notamment le trait humain collectif du nom t te du groupe nominal suivant la s quence Dnum de 40 de la population regarde la t l chaque soir De la population regarde la t l vision chaque soir Cette population repr sente 40 de la population Dans ces cas l l utilisation du d terminant nominal une partie de est pr f rable Une partie de la population regarde la t l vision chaque soir Cette partie de la population repr sente 40 de la population Mais nous n entrons
60. 76 m ta graphe patron ss 151 Figure 77 graphe patron de la table NNpr le ss 151 Figure 75 entr e tlede Born o vecinita eie OE EERE ns tentent inicias etorri 152 Figure 79 coordination de villes 153 Figure 80 EPC O CA EE 164 Figure 81 Npr o n rioue ses 167 Figure 82 graphe patron de PNNpr approximation ss 167 Figure 83 entr e ei A ads 167 Figure S4 Systeme e Le UE 170 Figure 85 Automate Ateles A is 170 Figure 86 graphe de r f rence volu 171 Figure 87 entr e d partement du Nord ss 173 Fiour 88 meta table serge e 174 Figure 89 m ta graphe param tr PNNpr sienne 175 Figure 90 graphe param tr pour NNpr le ss 176 Figure 91 le de Born o dans un adverbe de lieu oooneeeeneeeeeeeeeeeeseeresserersssrressrsresssreses 177 Figure 92 fonctionnement g n ral de GraAL ss 183 Figure 93 base de donn es ss 185 Figure RE 186 A EX nr RU D nn tente tee eur ete Manettes aa e tete idees 186 Figure 96 Sins eme tale en dd e e Se o a an 186 10 Foure OTAN EE 186 Figure 98 5 SB Soi riiintean EE EE A EAEE EEEE EEES OEE EEEN aS 186 Figure 99 exemple automate pour les traits de l entr e Tours 194 Figure 100 exemple de graphe ss 197 Figure 101 graphe au format Unite Xio mene a e a ss 197 Figure 102 graphe condens de Cen 198 Figure 108 TE 198 Figure 104 Ai 198 FOUT LOS EN WEE 198 Figure 106 graphe de d pendance ss 198 Figure 107 ensemble A en c
61. DG EE 2 E Slip Slel e Z E 2 2 2 2 2 2 nr Z E 2 ARALAR AAA 8 2 Sl E SE IS ES NHpr ile lQElSEl DI E F G H kb b Ala Laa Tote 1 0 NHpr departement cj DI El F J l G l Hl l j I Ej a NN pr mer lo El F Gj Hj j l t ok 1 J L am NNpr ocean j tt Jet E keb b l F G NMpr republique Jo Joo Ier ez OH ell elek Joelle N 0l r To NMpr region J C l JODE SF j b b Igel el j l K gl Hipr lac cj JODE SF Jj b BEA l j a Table 17 m ta table NNpr Nous construisons ensuite le graphe g n rique qui est le graphe param tr de toutes les tables avec toutes les propri t s d crites dans les colonnes B X de la m ta table Nous donnons ce graphe ci dessous Chaque variable i o est l identifiant d une colonne de la m ta table fait r f rence la propri t correspondante L application du m ta graphe patron la m ta table g n re les graphes patrons de nos tables de type NNpr Pour chaque ligne un graphe dont le nom est l l ment de la colonne A est g n r On utilise la m thode de conversion montr e dans le chapitre sur les expressions de mesure Cette m thode limine les chemins repr sentant des propri t s non accept es par l entr e signe garde ceux qui d crivent des propri t s autoris es et ajoute les informations que l on util
62. E AMAR Ei Zi gt Cl Z 121512 dla 1 Omer Adriatique Vila 21 9 mer e les Antilles S GE Eet S 2 Omer Baltique fla 1 9 mer CNE Barentz S EE 3 9 mer S E E Blanche E EE S 22 9 mer e Jles Cara bes EEE 2 9 mer e Chine 3 9 mer OE Chine M ridionale Chine de le Sud E 4 almer e Cor e j 5 9 mer e Cr te 4 almer Eg e gt HESE 23 Omer e erf Est bH G 9 mer e CNE Glace gt ANSE E 5 Omer nt rieure T 9 mer e rlande zb len Jet e S 24 Omer e e Japon Lt 6 9 mer F gt Jaune S SAR la 5 3 9 mer El Java 9 9 mer E ara A EE S 27 9 mer Manche ed jla F 9 mer a E E M diterran e E 07 EM 3 almer Morte Ir 9 Omer oire Ir 25 9 mer E de lle ord En EE Table 14 chantillon de la table NNpr mer Quelques remarques de lecture de la table Lorsque la case correspondant Prep est cela signifie que la structure LE Nc Prep Det Npr est interdite Il en est de m me avec les l ments de la colonnes Det forme longue 146 4 3 7 5 Table NNpr ile La table NNpr le est un peu plus compliqu e La colonne Detc pluriel indique si le nom propre compos est au pluriel les les Bahamas l le Bahamas La colonne intitul e LE archipel d
63. Gd X peut tre ajout A autrement on ne fait rien Pour que cette approche soit faisable il faut que le graphe de d pendance manipul soit acyclique En effet supposons que le sommet de d part Z fasse partie d un cycle et qu il n ait pas de pr d cesseur ext rieur Gd Tous ses pr d cesseurs appartiennent au cycle donc Gd et n ont pas t trait s Par cons quent la proc dure s arr te sans avoir fait quoi que ce soit L objectif est donc de travailler sur des graphes acycliques Si l on travaille sur le graphe Gd tel quel c est th oriquement impossible car il existe des grammaires locales strictement r cursives Une solution consiste travailler sur le graphe condens associ Gd not Gd Ce graphe a la propri t d tre acyclique Mais surtout chaque sommet de ce graphe correspond une composante fortement connexe CFC de Gd L ensemble des sommets appartenant une CFC X de Gd a une propri t fondamentale pour la suite s il n existe pas de sommet ext rieur Gd atteignant l un des sommets de X alors tous les sommets de X peuvent tre ajout s A Dans le cas contraire l ajout est impossible Ainsi le fait de regrouper les sommets appartenant la m me CFC dans un graphe condens et de travailler sur ce graphe revient travailler sur le graphe Gd car lorsque l on ajoute un sommet de Gd dans A cela revient ajouter l ensemble des sommets d une CFC So
64. Jd ap pv an 37 e 1dpy190 ap Up aN 37 E a enfuoy suo idy suene E ady El oje Eee E anGuo uno ep E 2 8 cke Aaa E dela ee ue er el GIG Gi Hp Zei Abol i e S n o felelj zk Gielen Gi 11019 2420 lei Gi Janus mag 23 al agi E Zi la SIS el i 28 i GGG z 2 2 2 Figure 88 m ta table 174 ALADA MAA ILAT TE Dong ka LIT UNSS aa TES eng raro LE fa dre are d TAHOT WAO Figure 89 m ta graphe param tr PNNpr 175 d aq uos gt lt 210 gt 141 d za deed Figure 90 graphe param tr pour NNpr le 176 Ensuite nous construisons une autre table qui va nous permettre de d finir chacun des syst mes relationnels Chaque ligne de cette table correspond un syst me relationnel Chaque colonne contient une information sur le syst me Les colonnes s organisent cons cutivement comme suit nombre de tables du syst me pour chacune des tables nom de la table colonne primaire nombre de relations pour chacune des relations table de d part colonne secondaire de table de la table de d part table cible nom du graphe patron associ au syst me Ainsi on construit manuellement la table suivante II 2 GEES 2INNprmer pel z 1 af 2 2lPNNpemer 2 PNNpr republique 2 PNNpr region Table 24 table de d finition des syst mes relationnels La premi re ligne signifie que le syst me comporte
65. Loc Det N de par rapport au nombre de Loc emploi locatif dans le texte 125 Loc NO INCL NCL1 NCL2 simple 3059 L 6 1 1 6 1455 0 7 m Table 10 proportion de pr positions compos es par rapport aux pr positions simples 4 3 Grammaires locales de noms propres compos s de lieu 4 3 1 Remarques pr liminaires L objectif principal de ce chapitre est d tudier le comportement syntaxique d un ensemble de noms N au sein de la construction locative NO Vsup Loc Det N Modif Nous limitons cet ensemble aux noms propres de lieux g ographiques La f te se passe Paris sur la Seine Marie se trouve en Californie Luc est dans la mer M diterran e Cette tude pr sente beaucoup d int r t car elle compl te les travaux effectu s sur les expressions en tre Prep X Elle est galement un s rieux apport pour l analyse automatique de textes du fait de la haute fr quence des noms propres de lieu dans certains types de corpus tels que les textes journalistiques Avant toute tude sur ces constructions il est n cessaire de comprendre le comportement interne des noms propres de lieu Nous proposons une description enti rement lexicale et syntaxique bas e sur la m thodologie du lexique grammaire Des tudes linguistiques ont t consacr es aux noms propres depuis longtemps comme le montre le volume de Langages J Molino 1982 consacr ce sujet Mais depuis quelques ann es elles ont pris une
66. P s 1 5 5 3 5 5 2 Y 5 Table 26 normalisation de l tiquette graphique donne Le remplissage des champs FG FC et CG est imm diat car ce sont de simples cha nes de caract res Le champ Tr est l ensemble tri des traits Le champ FI est plus compliqu car c est un ensemble tri d ensembles tri s de flexions Il arrive parfois qu un mot ne soit pas reconnu par le dictionnaire c est un mot inconnu Un mot inconnu est alors cod comme un mot sans cat gorie grammaticale sans information flexionnelle ou s mantique juste avec une forme graphique les unit s l mentaires non ambigu s La normalisation des tiquettes de ce type est aussi imm diate les symboles ensemblistes lexicaux ex lt manger gt lt bleu N f gt Un symbole ensembliste lexical doit contenir obligatoirement la forme canonique X de laquelle d rivent toutes les unit s l mentaires contenues dans l ensemble associ Ce symbole peut optionnellement comporter un code grammatical des traits et des informations flexionnelles Ces informations optionnelles servent filtrer l ensemble des unit s linguistiques qui ont pour forme canonique X La premi re tape du processus de normalisation consiste consulter le dictionnaire de type DELA Cette consultation fournit la liste des entr es du dictionnaire ayant X pour forme canonique Ensuite on r alise le filtrage de cette liste partir des informations optionnelles pui
67. Ville Il convient donc de pr calculer l ensemble des s quences possibles de traits se trouvant dans les dictionnaires en tenant compte que chaque s quence est tri e Cet ensemble est repr sent sous la forme d un automate minimal Autom La construction de cet automate est tr s simple pour chaque entr e lexicale du dictionnaire on construit l automate reconnaissant l ensemble des s quences de traits possibles puis on r alise l union de ces automates et on minimise Par exemple si l on prend l entr e lexicale ci dessus Tours l automate non minimal associ cette entr e est le suivant 128 Les champs Tr des deux tiquettes sont respectivement les ensembles tri s Top et NPR Leur union donne un ensemble tri NPR Top 193 NFR a A Ville Figure 99 exemple d automate pour les traits de l entr e Tours Il suffira ensuite d appliquer Autom la s quence d l ments de l ensemble form lors de l union de x et y Par exemple si l on reprend nos deux champs pr c dents leur union forme l ensemble tri NPR Top soit la s quence NPR Top qui est reconnue par l automate pr c dent Cependant cette proc dure n est pertinente que lorsque les deux tiquettes contenant x et y sont ensemblistes et grammaticales grammatical vrai dans ce cas faux autrement En effet les tiquettes ensemblistes lexicales normalis es sont quivalent
68. Xn8 S aupa AA a wepj aulag aE aulaa BIOAES 8JN EL past se a HA T T OH T PERRA 00 00 09 09 OS do 09 do po os od co os ds OS os fos co cojos CS co LD E F LL 5 Da Lis ba STI 3107 18 2 UQES AH e ame o A NE ZORSE SaELUauO Saa ail saaualig samey sanbque py s8sualk y SAA ENEE Ee juswWayeda pad awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap awapedap uawapedap uawapedap uawapedap uawapedap uawapedap uawapedap uawapedap uawapedap uawapedap e 96 a re co 00 E m CS 00 CS OS 00 05 j oa Or ID ee Ee E IDDIE lolo Rp Fe 00 09 OS aa aa 09 09 00 EG OS an a m o e en t ED ED F F F Ie f ON Xapul ad sapu 239 MNpr tat 69 Alabama Alaska Arizona Arkansas alitornie aroline de le Mord aroline de le Sud olorado califomien o RUE LE Npr dans Det Mor cles onnecticut akota de le Nord akota de le Sud elamare Floride E Elle All sic Ina mer lis G orgie aval aho lingis ndiana anza entuck y Maine ebraska evada ewHampshire ew Jerse ew York ow eaud exigue hio klahoma regon ennslvanie hode Island ennessee EXE emm ont wirginie Asa ao lelol l S EEES 2 Ger
69. a t oubli dans le graphe des d terminants num riques crits en lettres e Istrana une base situ e soixante kilom tres le nord est de Vicence Italie de La pr sence d un adjectif entre le d terminant num rique et l unit est galement une source de silence comme toute sa longueur actuelle un petit kilom tre_ que vingt huit ans apr s sa naissance Les reconnaissances partielles sont d abord dues des expressions auxquelles nous n avions pas pens dans un premier temps comme J enfonce dans le terrain deux pieux vingt et un pieds environ l un de Toure AT Je Certaines expressions num riques peu courantes n cessitent une conversion en une mesure avec une unit plus courante pour qu elle puisse tre compr hensible pour le lecteur Cette conversion peut tre ins r e en plein milieu de l expression 5 milles nautiques environ 9 kilom tres le sud de Brest Plusieurs occurrences partiellement reconnues sont les cons quences d oublis dans la description des pr positions locatives Loc cf les deux premi res phrases ci dessous ou d erreurs de codage dans les tables cf la derni re phrase heures et son rayon de action 40 km autour de l h tel de Manhattan o se tenait la enfin l am nagement 15 m tres sous terre de la station Tolbiac Mass na de le grand circuit ce est dire 40 kilom tres de p rim tre de temples entretenus S Notons que nous n avo
70. abord nos tudes ont port sur des champs linguistiques peu tudi s Elles ont montr que le lexique grammaire est une m thode tr s adapt e pour d crire simplement et avec pr cision des expressions de mesure et des adverbes locatifs Les composants linguistiques con us sont des nouvelles briques dans l ensemble des descriptions formelles de la langue Par ailleurs les expressions num riques et les noms propres sont actuellement au centre de nombreux probl mes du domaine du TAL Nos formalisations simples de ces ph nom nes linguistiques peuvent apporter un certain nombre de r ponses Enfin nous avons con u une nouvelle application qui utilise des proc dures complexes de mise jour de donn es et de recherche d information L originalit vient surtout des objets trait s qui sont des composants linguistiques Les informations ne sont plus extraites de champs classiques des bases de donn es mais des objets linguistiques eux m mes L implantation d un tel outil est d ailleurs une tape obligatoire pour une collaboration scientifique accrue et b n fique dans le domaine de l informatique linguistique Les perspectives de nos travaux sont nombreuses La description des expressions de mesure n est pas achev e Il faudrait examiner les expressions indiquant une volution de mesure et les pr dicats appropri s Par ailleurs notre tude des adverbes locatifs contenant un nom propre de lieu g ographique pourrait tre prolo
71. avons confront nos r sultats des textes en appliquant cet automate une ann e du journal Le Monde 1994 Bien que nous ne puissions obtenir des r sultats satisfaisant du fait de la non exhaustivit de nos lexiques ce test permet surtout de mettre en vidence les erreurs de codage par exemple une restriction trop forte ou simplement un oubli ou une erreur d tourderie etc Par ce moyen nous avons pu corriger un certain nombre de fautes Cette m thode de reconnaissance des groupes nominaux par transformation des tables en graphes pose des probl mes pour certains types de ph nom nes linguistiques comme les coordonn es les villes de Paris et de Lyon les tats de Californie et du Texas Ces expressions ne peuvent pas tre repr sent es l aide de notre m thode car elles mettent en jeu diff rentes entr es lexicales dans un m me graphe suppos correspondre une seule entr e Ce probl me est r solu si l on change de strat gie en agissant en deux tapes a on transforme les tables en dictionnaire type Prolintex b on construit des grammaires l aide de graphes utilisant les informations cod es dans le dictionnaire Par exemple si l on veut construire des grammaires reconnaissant des groupes nominaux avec des noms de villes coordonn s il suffit de construire le graphe ci dessous o l on combine chaque classe de noms de villes qui prend un d terminant donn Det ex lt N Top Pvil DetLa gt
72. base de donn es ou d acc der aux informations contenues par celle ci Dans son aspect g n ral notre syst me ne diff re pas des autres syst mes d information Le fonctionnement g n ral de ce syst me est galement tr s classique cf sch ma ci dessous Un utilisateur situ du c t client montre son d sir d envoyer une requ te via l interface Les donn es n cessaires au traitement de cette requ te sont alors r unies et le client construit la requ te d sir e au bon format l aide d un module de construction de requ tes Puis le client se charge d envoyer cette requ te au serveur via Internet L un module de r ception de requ tes g re le flux des requ tes entrantes en n en laissant passer qu une seule la fois les autres sont mises en attente Le gestionnaire des requ tes pr analyse la requ te et la distribue la proc dure ad quate du moteur qui modifie ou extrait des informations de la base de donn es Le r sultat du traitement est ensuite envoy au constructeur de r ponses sur le serveur Celui ci labore une r ponse format e qui est envoy e via Internet au client Ce dernier r ceptionne la r ponse et l envoie au gestionnaire des r ponses qui en fonction de la requ te repr sente d une certaine mani re le r sultat sur l interface 12 Remarque de C Fairon aux Journ es Intex 2002 182 Interface Constructeur de requ tes Gestion des r ponses
73. comme tat nous pr cisons l indice associ cet emploi Par exemple nous aurons la table NNpr tat 69 pour tat au sens de r gion administrative 69 est l indice associ cet emploi La table Npr est la table d crivant l ensemble des noms propres de lieu n ayant pas de forme longue et dont le classifieur ne peut tre exactement pr cis Jusqu pr sent nous avons entam le codage d une soixantaine de tables Certaines comme les d partements fran ais les tats am ricains les provinces canadiennes ou les r gions fran aises sont compl tes Dans la suite nous expliquons le contenu de quelques tables cod es Avant tout nous expliquons les intitul s des colonnes utilis s Les noms ont t choisis de telle mani re qu ils soient explicites pour le lecteur Les principaux intitul s sont synth tis s et expliqu s dans le tableau ci dessous Intitul Propri t ou information lexicale Nc Classifieur Npr Nom propre associ au classifieur Detc pluriel Le nom propre compos est au pluriel ex les les Marshall Prep Pr position Det D terminant d fini associ Npr Npr a Adjectif morphologiquement li Npr Adjl Adj2 Adj3 Adjectifs de Npr Nc Certains intitul s sont des structures dans lesquels les noms propres peuvent rentrer LE Nc de Npr LE Nc Npr a etc Par ailleurs chaque entr e lexicale nous associons un num ro dans la colonne
74. comportement de nos phrases de mesure lorsqu on leur applique des coordinations Nous examinons aussi en d tail les structures de a et entre et qui dans notre cas d signent des approximations de mesures sous la forme d intervalles Nous montrons qu elles ne peuvent tre d crites localement de mani re compl te le contexte minimal est une phrase 3 2 4 2 1 Les coordinations Prenons les deux phrases simples de mesure suivantes Max a une taille de 1 70 m Luc a une taille de 1 80 m Ces phrases peuvent tre coordonn es l aide de la conjonction ef Max a une taille de 1 70 m et Luc a une taille de 1 80 m Nous r duisons cette phrase complexe une forme factoris e en plusieurs tapes l aide de l adverbe respectivement regroupement des sujets Max et Luc ont respectivement une taille de 1 70 m et une taille de 1 80 m factorisation de faille N et de la pr position de Max et Luc ont respectivement une taille de 1 70 m et de E 1 80 m factorisation de l unit lorsqu elle est similaire Max et Luc ont respectivement une taille de 1 70 et 1 80 m Cette derni re tape n est pas r alisable lorsque les unit s ne sont pas les m mes 61 La premi re et la deuxi me ont respectivement une tension de 30mV et 3V Cette analyse est aussi valable pour les noms entrant dans la deuxi me structure tudi e Nous avons les deux cas suivants Pierre est une distance de
75. correspondant aux informations flexionnelles Notons qu il faudrait aussi rajouter un champ pour les m tas qui requi rent des proc dures particuli res Ce champ pourrait simplement indiquer la m ta tiquette utilis e Cependant les m tas sont clairement d pendantes d autres champs par exemple l tiquette lt MOT gt implique que la forme graphique soit une suite de caract res Nous d cidons de traiter les m tas s par ment Un symbole terminal peut ainsi tre consid r comme l intersection de ses diff rents champs J Senellart 1999b A A DA2MA3N MA dans notre cas n lt 5 Par exemple un nom au f minin singulier est bien l intersection de l ensemble des noms et de l ensemble des mots au f minin singulier Nous proc dons la normalisation des tiquettes terminales au moyen des dictionnaires de type DELA et des outils de consultation du logiciel Unitex S Paumier 2003 Nous examinons maintenant chaque cas les caract res qui ne sont pas des lettres La normalisation de ce type d tiquettes est imm diate comme le montre le tableau ci dessous qui repr sente l tiquette normalis e du chiffre 7 Celle ci est d coup e en cinq champs 12 Sauf si l on d cide de m langer le niveau morphologique et lexical Dans ce cas lt MOT gt peut tre repr sent par l expression r guli re lt L gt lt L gt repr sentant une s quence de lettres quelconques d au moins un l ment
76. d extraction Comme ce type de travail n est pas facilement accessible aux linguistes il est n cessaire de pr d finir des proc dures d extraction et donc de normaliser le codage des tables ce qui n entre pas dans le cadre de notre travail Par ailleurs pour impl menter cette approche il faudrait aussi coder des informations flexionnelles dans les tables Le gros inconv nient de cette approche est que les entr es du dictionnaire risquent de devenir illisibles du fait du grand nombre de propri t s Par ailleurs le ph nom ne de la coordination est g n ral Il existe le m me probl me avec les verbes par exemple Marie chante et danse Comme la repr sentation par grammaires des phrases simples au sein du lexique grammaire est toujours en cours et loin d tre achev e le traitement des coordonn es n est pas d actualit 4 4 Description de groupes pr positionnels 4 4 1 Formes longues et variation pr positionnelle Nous tudions la distribution pr positionnelle des noms propres compos s Nprc Npr Nc qui entrent dans la construction verbe support Que P NO Vsup Loc Detc Nprc Nous limitons notre ensemble des verbes supports au verbe tre Le verbe support tre est un verbe neutre statique Parfois pour am liorer certaines acceptabilit s nous utilisons la place les verbes se passer se d rouler ou se trouver ayant un sens plus marqu De m me nous limitons l ensemble des pr positions
77. d insertion est demand e Proc dure InsertionGrammaire principal N T WeNnN MiseAJourDesVues W suppression Ng E Ng uN Te lt Te UT Pour chaque X e N autg X aut X finPour si principal est vrai alors aute Sg ajouterTransition qo Sg S f avec f e F Sg finSi MiseAJourDesVues N ajout finProc dure 200 Proc dure InsertionGrammaireMain principal option si option grammaire enti re alors InsertionGrammaire principal N T finSi si option automate seul alors si un des sous automates directs de aut S n existe pas dans B alors print ERREUR sinon T lt ensemble des terminaux utilis s dans aut S InsertionGrammaire principal S T finSi finSi finProc dure La proc dure de mise jour des vues concerne les diff rents index Jude et le graphe de d pendance de B not Gdg Nous insistons sur la mise jour du graphe de d pendance La phase de suppression des donn es relatives un ensemble Ens de non terminaux dans les faits les non terminaux de G d j existants dans B est tr s simple Il suffit de supprimer pour chaque l ment X de Ens tous les arcs partant du sommet correspondant Ainsi on supprime toutes les d pendances directes des vieilles versions des automates d j existants La phase d ajout des donn es relatives un ensemble Ens de non terminaux N est un peu plus complexe Elle consiste d abord cr er un sommet dans Gdg pour chaque symbo
78. d pendance Dans ce graphe il y a trois sommets S X Y et trois arcs S X S X X Le couple S X indique qu il existe un arc entre le sommet S et le sommet X et donc que aut X et un sous automate de aut S La grammaire d exemple est strictement r cursive donc le graphe de d pendance est cyclique 198 Une application directe de ce graphe de d pendance est tant donn un automate X de la grammaire de calculer rapidement l ensemble des sous automates qu il utilise dont il est d pendant Si l on code aussi les arcs inverses il est possible de calculer l ensemble des automates qui utilisent l automate X Nous verrons dans les deux prochaines parties que l utilisation des graphes de d pendance est intensive dans notre syst me Remarque importante Par la suite pour simplifier les notations si X est un symbole non terminal d une grammaire G alors on appellera X son sommet associ dans le graphe de d pendance de G Soit X un non terminal d une grammaire G nous notons succ X l ensemble des non terminaux dont X est directement d pendant 5 4 2 3 Quelques remarques Les deux entr es fondamentales des proc dures de stockage des grammaires sont la biblioth que B et une grammaire G ins rer ou supprimer La biblioth que B est quivalente une grammaire locale union de grammaires et d finie par un 4 uplet lt Np Tp Autp Ass Soit Gdg che Eg gt son graphe de d pendance La grammaire
79. dans la biblioth que lors de l insertion d une grammaire il est n cessaire avant de l ins rer de supprimer toutes les informations dans les vues concernant son ancienne version proc dure MiseAJourDesVues option suppression Apr s l insertion effective il conviendra de mettre jour les vues partielles proc dure MiseAJourDesVues option ajout On suppose G B Gdg Gd et les index nd donn s Afin de faire une proc dure g n rale pour les deux m thodes a et b nous ajoutons deux entr es N et T respectivement l ensemble des symboles non terminaux associ s aux automates ins rer et l ensemble des symboles terminaux r ellement utilis s dans les automates ins rer Ces informations sont redondantes pour la m thode b car N est quivalent N et T est quivalent T Par contre pour la m thode a comme on n ins re qu un seul automate de G ces informations sont diff rentes N est compos du seul symbole S axiome de d part de G et T est compos de l ensemble des terminaux utilis s dans aut S Il existe une autre diff rence entre les deux m thodes On pose une condition pr alable pour le cas a alors qu il n y en a pas pour b Dans a les automates desquels l automate ins rer est directement d pendant doivent d j exister dans la biblioth que C est dire si l un des sous automates directs de aut S ne se trouve pas dans B alors on refuse l ins
80. de Npr la ville de Paris Le Havre Cette analyse est possible m me si certains noms de villes poss dent des d terminants ex Le Havre La Havane Les Saisies ces derniers ayant souvent leur premi re lettre en majuscule l ensemble peut tre vu comme un Npr Ainsi la reconnaissance de la forme longue compos e requiert seulement une bonne grammaire de Npr cf applications On retrouve aussi ces d terminants crits sans majuscule Lorsque le d terminant Le est pr c d de la pr position ou de la s quence est contract e en au ou en du quivalent avec le ou de le Le Havre au Havre le Havre Par cons quent il est pr f rable de consid rer le d terminant en dehors de Npr Ainsi nous avons la structure La ville de Det E Npr Linguistiquement le choix de consid rer Det comme inclus ou non dans Npr est arbitraire ce choix peut tre guid par des consid rations sur les applications Il est alors absolument n cessaire de regarder chaque nom de ville et lui assigner quand cela est n cessaire un d terminant C est ce qui a t r alis dans Prolintex Pour certains classifieurs comme fat tat am ricain les couples Nc Npr semblent ob ir quelques r gles approximatives Etant donn le d terminant Det utilis il est possible de produire la forme longue associ e si le d terminant Det est le le couple Npr Nc accepte la construction nominale l tat de Det Np
81. deux sous automates A et A reconnaissant respectivement lundi mardi dimanche et matin apr s midi soir etc L utilisateur entre l ensemble u suivant soir mercredi Les op rations pr c dentes produiraient la table H d finie comme suit H soir A2 H mercredi A L intersection des deux ensembles est vide Donc aucune grammaire n est s lectionn e Or contient r cursivement ces deux mots il convient donc d am liorer notre proc dure comme suit Pour chaque u il suffit d augmenter l ensemble A u des grammaires d pendantes des grammaires de l ensemble Pour obtenir la liste des grammaires s lectionn es par tous les u il suffit de faire 142 241 En pratique on recherche tous les automates qui contiennent une tiquette correspondant u 213 l intersection de tous les ensembles de grammaires de H Soit E l ensemble des grammaires r pondant la requ te Alors E H u H u2 A H un 5 5 3 4 Recherche par rapport une s quence de mots L utilisateur peut vouloir obtenir le catalogue des grammaires qui reconnaissent une s quence qui est facteur d une s quence u de mots La proc dure de recherche est tr s simple car il suffit d utiliser la fonction Locate Pattern d Unitex cf S Paumier 2002 afin d appliquer chaque grammaire de B la s quence ordonn e u Si le r sultat est non vide alors on ajoute g au r sultat de la requ te Il est possible d ef
82. e Chaque utilisateur est responsable de ses propres grammaires qu il modifie ou supprime sa discr tion Les autres utilisateurs n ont pas acc s en criture ces graphes Un utilisateur poss de un compte personnel auquel il acc de au moyen d un nom d utilisateur et d un mot de passe Il l organise au moyen d une arborescence de r pertoires Dans le futur nous souhaiterions autoriser le fait que plusieurs utilisateurs puissent partager l acc s en criture un m me graphe La politique adopt e pour le stockage des graphes est la suivante L utilisateur a le choix entre ins rer ou supprimer un graphe seul c est dire sans ses sous graphes ou une grammaire compl te un graphe principal et r cursivement tous ses sous graphes Il est n cessaire de tenir compte de la d pendance entre les graphes quel graphe utilise quel graphe Par exemple on d cide que l on ne peut supprimer un graphe s il est utilis dans un graphe que l on ne veut pas supprimer Par ailleurs nous avons une politique de duplication des graphes qui peut tre co teuse en espace m moire mais qui nous semble indispensable Supposons que la biblioth que comporte un graphe G4 construit par un utilisateur Ur Supposons maintenant qu un utilisateur U2 veuille ins rer sur son compte un graphe Gg dont Ga est un sous graphe Une premi re solution consisterait stocker physiquement Gz et l appel G4 serait symbolis par un pointeur ve
83. entre elles M NNpr et M2 PNNpr Leurs colonnes primaires sont les colonnes 1 des deux tables La table principale est NNpr Une cl primaire d une table M permet de r f rer directement n importe quelle ligne de MIT On adopte une num rotation absolue au sein du syst me pour chaque colonne cl de toutes les tables Dans notre exemple M aura la colonne 1 indice absolu K pour colonne primaire et la colonne 2 indice absolu K2 pour colonne secondaire M aura la colonne 1 indice absolu K3 pour colonne primaire On a obligatoirement K K2 K2 K3 et K K3 A chaque colonne secondaire K on associe sa table cible R est l ensemble de tels couples Dans notre exemple les cl s secondaires dans la colonne K2 pointent sur les lignes de la table M2 et ainsi R K2 M Pour chaque ligne u de la table principale il existe un automate 4 sur l alphabet des indices absolus des colonnes secondaires fig 85 Un tat correspond une ligne d une table et est repr sent par un couple r m o r est l indice d une ligne dans la table M Soient q rg mq et p rp mp deux tats de l automate et K une colonne secondaire qui est la colonne k dans la matrice Mm Une transition q K p signifie que l l ment de M situ l intersection de la ligne rq et de la colonne k s lectionne la ligne rp dans M c est dire K Mmp JER et Hmp Mma rq k rp L automate A comporte un tat initial qui corres
84. entreprise a embauch des trois cents ing nieurs La variation lexicale des modifieurs des d terminants nominaux est bien plus tendue avec la ville de La ville surpeupl e pollu e am ricaine de Mexico G Gross 1991 parle de construction inverse et place les constructions du type la ville de Paris sur le m me plan qu une s quence du type ce salaud de Ce Le salaud de Luc m a crach la figure En effet 1l montre que les s quences ce salaud de et la ville de proviennent d un m me type de phrase classificatrice Boston est une ville Max est un salaud Notons que la r duction de la phrase classificatrice contenant le nom salaud interdit la pr sence du d terminant du sujet Le facteur est un salaud il a couch avec ma femme Ce salaud de E le facteur a couch avec ma femme 72 Un d terminant nominal tr s particulier qui pourrait s appeler d terminant nominal locatif 7 La classe des noms appartenant cette s quence est facilement listable connard ignorant nergum ne etc 130 Ce n est pas le cas avec tous les noms propres de lieu Le Nord est un d partement il est connu pour son climat froid le d partement de ZE le Nord est connu pour son p trole On peut galement se demander si les objets que nous tudions sont des noms compos s D apr s G Gross 1996 un nom compos a g n ralement la constitution syntaxique d un groupe nominal libre
85. est facultative Les les E de les Canaries Le d sert de E Mojave Dans certains cas comme pour le couple Ile de France r gion les trois structures internes sont possibles 7 http www culture fr culture dglf ressources pays pays htm 78 La forme tat de Vermont trouv e dans le Monde 1994 1 occurrence 7 La forme surprenante tat du Washington aussi trouv e dans le Monde 1994 2 occurrences 0 La forme d sert Mojave a t trouv e dans le Monde 1994 1 occurrence 134 La r gion de la de E Ile de France Certains noms propres n ont pas de forme longue associ e Npr c est le cas de Manche et Canada La Manche est une mer Ja mer E de de la Manche Le Canada est un pays un tat l tat du Canada Pour certains on peut facilement associer un classifieur la Manche est clairement une mer le Canada est la fois un pays un tat etc et il est tr s difficile de faire un choix clair Ces premi res constatations g n rales convergent d j vers la difficult voire l impossibilit de pr voir la composition syntaxique de la forme longue d un nom propre tant donn son couple Npr Nc Une tude syst matique est donc n cessaire Etant donn la quantit astronomique de noms propres de lieu r pertorier il est n cessaire de les classer Une premi re solution consiste regrouper les noms propres selon leur structure interne et plus exactement
86. fr f r nion l Kik fr publique Pp e Easoesst LH commune jaa 236 E gt HK Ze EB SE ANA ant we LL MAA AA EM d St Loc Dete Mpre a e e E fe station baln aire e fe fe l fatationdesi es p Pf f feutat Let E Ka erritoire ropique fe E p pio a fe fe fe f frall e oe e fe f Weg a e e e p be gt ep El l P f f ocan d H 237 d parte ment NN prd parterne mt Gers parternent partement partement Gironde H rault Ile et Milaine partement partement partement jig ma Indre et Loire et Loire ls re partement partement partement partement partement parte ment Jura jurassien Landes jejje Ee a for t ee Wl partement partement partement partement partement parternent parternent Loiret Mamme Haute Marne ayenne d partement eurthe et Moselle else Placa CR orbihan morbihannais oselle mosellan CR d parte ment 63 Sld partement 64 G d partment Ni vre nivernais Mord bs 238 ES l l E l l E ES l l Ei l EEk l l E 3 l l l l ES E D 5 Di 3 E S 110189 ap ang 9510 PEA 0 SUBS ape AA os EE E TO AA AA CEE JE SUUDI c a UE LUE 8 UOS a 1195
87. gt cd Lasch lt E gt Er HANE lt DET fp gt ass H fol Figure 15 GN A partir de l tape pr c dente il est possible de d crire des phrases simples libres contenant un pr dicat verbe nom adjectif et des arguments comme l a fait E Roche 1993 1999 l aide de tables de lexique grammaire et de transducteurs tats finis Un travail de grande envergure dans la continuit de cette tude est actuellement men au sein de l universit de Marne la Vall e J Senellart 1999a a d crit l aide de graphes les expressions fig es du fran ais partir des tables de M Gross 1984 et montr par la m me occasion leur pr sence en grand nombre dans les textes fran ais peu pr s dans une phrase sur trois dans des textes journalistiques Les phrases simples avec pr dicats nominaux et adjectivaux peuvent tre r duites en groupe nominal GN ou groupe adjectival Leur description permet d affiner celle des GN g n raux La reconnaissance de phrases complexes combinaisons de phrases simples sous toutes les formes d adverbes de temps M Gross 2002 de lieux M Constant 2002b d incises C Fairon 2000 et de conjonctions est un objectif majeur du r seau RELEX Enfin quelques tudes ont t men es dans le domaine sp cifique de la bourse M Gross 1997 T Nakamura para tre et ont montr la limitation du lexique et des structures syntaxiques employ
88. interpr tation particuli re Max aime parler de son le de la Guadeloupe Max aime parler de sa maison Cette distribution est similaire pour les formes fig es Sophie aime parler de la sa cette une mer du Nord Morte Sophie a vu une mer Morte d chain e par les vents tourbillonnants Sophie d plore une triste mer du Nord 4 3 6 2 D termination les emplois pluriels Il existe deux cas d emplois pluriels Tout d abord nous examinons celui o le couple Nc Npr rentre dans la construction E Det Npr tre UN des Nc Les Shetland sont une des les Nous retrouvons alors la m me distribution de Def transpos es au pluriel dans les groupes nominaux Max d crit les ses ces des les Canaries Luc me casse les pieds avec les ses ces des les Shetland Dans ces exemples nous avons affaire des regroupements d les qui s identifient par leur emploi pluriel Les noms compos s tels que les les Marshall fonctionnent de la m me mani re Le deuxi me cas correspond la coordination de couples Nc Npr Le groupe nominal pluriel les villes de Paris de E Lyon et de E Marseille est en fait la factorisation de trois groupes nominaux singuliers la ville de Paris la ville de Lyon la ville de Marseille Par ailleurs nous constatons l apparition dans les textes de groupes nominaux pluriels comme les villes Paris Lyon et Marseille ont conclu u
89. intitul e Index Npr De m me chaque classifieur poss de un num ro unique colonne Index Nc Dans la suite nous d crivons quelques tables qui sont ordonn es selon le degr de complexit Nous donnons des extraits de chacune d elles Dans les extraits de tables que nous proposons les classifieurs peuvent appara tre redondants mais leur pr sence rend la lecture plus facile 144 4 3 7 2 Table Npr La table Npr est la plus simple et elle contient les noms propres qui ne poss dent pas de forme longue et de classifieur clair tels que le Canada Cette table comprend surtout des noms de pays Ka D CH ur Variantes Npr Det Nor lt E gt Antigua et Barbuda 5 a l Australie a Barbade Belize Burkina Faso Burkina Canada Grande Bretagne 14 la Grenade 15 la lande 29 la Irlande de le Nord 16 la Jamaique Ile Japon S 18 lt E gt Kiribati e Labrador a Malaisie a Mongolie 31 le Negara Brunei Darussalam Brun i Darussalam Brunel a a E elen en index Npr Nouvelle Ze londe Papouasie Nouvelle Guin e Papouasie Pays basque S 30 la Roumanie 23 lt E gt Sainte Lucie 24 lt E gt Saint Vincent et les Grenadines 33 lt E gt ere Neuve 25 le Turkm nistan 26 lt E gt Tuvalu 27 la l Ukraine Table 12 chantillon de la table Npr 4 3 7 3 Table NNPr d pa
90. j J cr tois jla j 40l le e Cuba cubain O lt E gt 59 Fife e le Diable essen ETIS 5 e 2 3 E gt 41l le e Elbe SE j F E j le F ro l es j Tadili 9 le Frot j fden les j ES 60 Fife e Jla Grenade grenadien Jla 61 le e Jla Guadeloupe lguadeloup el la j j 42 le e Guernesey l Er J 43 le e Ha ti rt haften SES Ir 10 Ce J S gt Hawa SEKR ES SES Table 19 reprise de NNpr le Pour la table NNpr r publique nous ajoutons m me une quatri me colonne repr sentant la s quence Npr diff rente de Det Npr Cette derni re colonne est n cessaire pour coder les propri t s du nom propre r publique du Panama car ce nom appara t dans deux types de groupes pr positionnels Max se trouve E le Panama 159 D w o a m TI a I E Pas UN z z a TU a 0 ul EN a alalla 5 y m 5 E pa E E 5 H El ela l a o a l 23 4 lt 5 2 Eis EEN zl x EEN EE oi 5 Si pt Sg El y z Bis Set Eet Ee SZ al lz 3 2133 Zi 3 a amp Ee li 2315 8 s S 6 0 106
91. les situations suivantes Luc est en vall e E fertile Luc est en vall e de Aspe la Tarentaise Luc est en vall e de Aspe la Tarentaise fertile On a le m me ph nom ne avec cole d ing nieur qui est clairement un nom compos Max est en cole E c l bre mixte Max est en cole d ing nieur Max est en cole d ing nieur c l bre Cette discussion est moins int ressante par son c t terminologique que par le fait qu elle montre les particularit s linguistiques des expressions que l on traite Il faut retenir de cette section l existence claire de figements diff rents niveaux composition interne et d termination Nous parlerons dor navant de noms propres compos s tendus que nous abr gerons en noms propres compos s 4 3 4 Composition syntaxique des formes longues et classification Nous proposons maintenant d examiner la structure interne des noms propres compos s De mani re g n rale la composition interne des noms compos s est extr mement vari e Adjectif Nom AN faux cul rouge gorge etc Nom Adjectif NA cordon bleu carte bleue etc Nom de Nom NDN acte de foi gardien de but etc Nom Nom NAN panier pain moulin vent etc Nom Adjectif de Nom NADN offre publique d achat etc Etc Il en est de m me pour les noms propres compos s pour lesquels nous utilisons une notation similaire N pour nom pour adjectif P pour pr posi
92. locale ins rer G est un 4 uplet lt N T Aut S gt On suppose que le graphe de d pendance de G not Gd lt V E gt a t pr calcul Les proc dures de stockage mettent jour tous les l ments de la biblioth que l alphabet non terminal Ng l alphabet terminal Tg l ensemble des r gles automates Autg les vues partielles de la biblioth que les index not s Indy et le graphe de d pendance Gdg Par ailleurs dans les algorithmes que nous donnons nous n indiquons pas les mises jour de certaines donn es telles que qui est l auteur quel est le dictionnaire sp cifique associ ou quel est la table syntaxique associ e Ceci a pour but de faciliter la compr hension du lecteur 5 4 3 Insertion de grammaires locales Nous souhaitons ins rer une grammaire dans B Nous proposons deux mani res de r aliser cette op ration a soit on ins re uniquement un automate sans ses sous automates b soit on ins re un automate et r cursivement tous ses sous automates Si la nouvelle grammaire G comporte un non terminal X qui existe d j dans B on souhaite que l automate aut X prenne la place de autg X en tant que nouvelle version du m me automate Dans les deux cas on suppose que l automate ins rer est l automate principal d une grammaire G En fait le cas a est un cas particulier quelques exceptions pr s de la m thode b L insertion d une grammaire ressemble beauco
93. localisation interne indiquent que NO est localis au contact ou l int rieur de N1 ex l extr mit de en haut de sur le coin de etc Les noms de localisation externe permettent de localiser NO par rapport N1 mais il n y a ni contact l extr mit de la tige ni inclusion l int rieur du combin entre les deux arguments c t de droite de etc A Borillo note galement la combinaison d adjectifs de localisation interne central sup rieur etc avec des noms qui d signent des partitions de l objet N1 partie zone etc La fourmi se trouve sur la zone ext rieure du mur Marie est dans la partie nord de l le Elle a syst matiquement examin chaque nom et chaque adjectif puis cod leurs distributions lexicales dans des tables dont nous nous sommes servi pour construire manuellement des graphes d crivant des pr positions locatives compos es Nous compl tons ces listes par celles de M Gross 1996 Nous prenons notamment les pr positions compos es r pertori es dans la Luc est dans la place a un autre sens E Laporte 2002 a aussi r alis une tude sur ces adjectifs en se servant de cette liste 119 table EPCDN de M Gross qui traite des noms C fig s dans la construction NO tre Prep C de N1 Ces expressions ne sont pas uniquement locatives celles qui le sont sont m me minoritaires environ 36 des entr es ont un emploi locatif 337 sur 933 entr es L e
94. majorit des approches propos es utilisent des mod les statistiques qui ont rapidement donn des r sultats tr s prometteurs et faible co t Cependant de plus en plus de chercheurs estiment que de telles approches pourraient rapidement atteindre leurs limites car elles ne prennent pas ou peu en compte le contenu linguistique des donn es trait es A Abeill et P Blache 2000 M Gross et J Senellart 1998 Ils marquent l importance de la linguistique dans ce domaine surtout du lexique pour l analyse syntaxique pr alable incontournable toute analyse s mantique Ils pr conisent la construction de larges bases de descriptions linguistiques compos es de lexiques et de grammaires quitte terme tre utilis es dans des mod les statistiques A nsi nous avons assist au d veloppement de grandes bases de donn es linguistiques pouvant s ins rer diff rents niveaux de l analyse automatique morphologique syntaxique s mantique et discursif des dictionnaires lectroniques ont t construits des ph nom nes linguistiques tr s pr cis sont d crits sous la forme de grammaires locales les constructions de pr dicats sont formalis es dans des tables syntaxiques M Gross 1975 ou autres formalismes plus complexes par exemple A Abeill 1991 des r seaux s mantiques voient le jour etc De telles bases de donn es sont le fruit de travaux collectifs concert s dans un cadre formel pr cis et coh ren
95. matiser anesth sier apostropher FERRIERE ET E E PS TI ETA TS E TE 7 7 7 i i Tele lee Tele ee Te Te TT Te TE Te a 4 aux avoir lt OPT gt V n NO lt OPT gt V n N1 lt OPT gt Exemple La chancegabandonnegMax Le bruit a amp abasourdi amp Max La police agabattugle truand Le peuplegabattrasle tyran Max agabord gune dame dans la rue Le ministre a accolad amp le h ros MaxgaccompagnegL a Max agaccost gune dame dans la rue Jean agaccroch gune nana dans la rue Les guerilleros ontgaccroch gles soldats dans le d fil Max a amp achet Sun d put Ce fonctionnaire amp administre amp un grand nombre d employ s Paul agadopt Sun petit Hindou Ce raseur agagraf gMax dans la rue Max aSagress gune passante Max aimeSlda Jo agalarm sles pompiers Max agalit gLuc Loc N litl Max agallum SLuc la carabine La police a amp alpagu Max MaSalphab tiseSles immigr s Max agamorc sSles truites la veille Sigmund amp analyse Flora Ma amp anath matise les femmes Le chirurgien a amp anesth si SMax Max agapostroph gLuc Table 1 extrait de la table 32H J P Boons A Guillet C Lecl re 1976b Certaines expressions fig es ou semi fig es telles que les dates sont plus ad quatement d crites sous la forme d automates finis plus commun ment appel s graphes dans la communaut du lexique grammaire Cette repr sentation est tr s naturelle et sa lecture imm dia
96. millioni me de centim tre d autres termes millier s centaine s cinquantaine s douzaine s dizaine s etc Marie attend une vingtaine d amis cette semaine Il est possible d ins rer un ensemble restreint de modifieurs dans notre s quence comme dans Paul a perdu une E bonne petite dizaine de kilos Par ailleurs on peut combiner les structures Det Nnum de afin de former des structures plus complexes de la forme Det Nnum de Nnum de C est le cas dans les exemples ci dessous 1 67 milliardi me de milliardi me de milliardi me de kg revue Science et Vie l I est galement possible d utiliser des fractions du type deux tiers Ce robot a une pr cision de deux tiers de centim tre 45 La derni re phrase ci dessus montre que l on peut combiner diff rents types de Nnum D autre part il existe des variantes semi fig es de ces s quences qui ont la structure des N et des N de Marie a gagn des centaines et des centaines d amis dans cette affaire Notons que la contraction de la pr position des en de est galement possible La galaxie est constitu e de millions et de millions d toiles Les deux noms de la structure doivent tre identiques et les d terminants sont obligatoirement des L a a achet des dizaines et des centaines de chiens L a a achet plusieurs dizaines et plusieurs dizaines de chiens 2 2 Nous avons rassembl toutes ces expressions dans le graphe DetNnumDe
97. modifieurs 4 3 6 1 D termination les emplois singuliers Lorsqu ils poss dent une forme courte les couples ayant un emploi singulier entrent dans la construction E Det Npr tre UN des Nc Paris est une ville Paris sont E des villes La R union est une le la R union sont E des les Dans le groupe nominal issu de la phrase on notera Det le d terminant de Nc Det Nc Npr Det Nc de Npr Det Nc de Det Npr etc La distribution de Det dans les constructions nominales d riv es est complexe Le d terminant le plus naturel est le d terminant d fini LE le la la ville de Pau m a toujours fascin la r gion E de le Nord Pas de Calais attire beaucoup de touristes belges Le d terminant ind fini UN et le d terminant d monstratif ce sont quant eux interdits Marie appr cie de revoir une cette ville de Paris Marie adore un cet tat de la Californie Les d terminants d monstratifs un et ce avec un modifieur sont acceptables Max a pu observer une ville de Paris E d vast e par les bombes 141 J appr cie de revoir cette bonne vieille E ville de Paris E que j aime tant Le d monstratif ce sans modifieur semble acceptable dans quelques rares cas mais produit l impression d une ellipse Marie me casse les pieds avec cette E satan e avenue des Champs Elys es Notons que le d terminant possessif est parfaitement acceptable mais avec une
98. nouvelle ampleur du fait du d veloppement du TAL et de la fr quence des noms propres dans les textes Pour toutes les r f rences sur ce sujet nous conseillons au lecteur de se r f rer K Jonasson 1995 De mani re g n rale les tudes sur ce sujet ont cherch donner un sens aux noms propres car leur syntaxe para t limit e Dans cette tude nous regardons les noms propres de lieu d un autre point de vue En effet nous consid rons ces objets linguistiques comme des formes compos es comprenant un classifieur de lieu et nous remettons la syntaxe au centre de la discussion Par exemple M diterran e est la forme r duite de mer M diterran e et a un comportement syntaxique diff rent de mer du Nord Par une tude syst matique nous montrons que la m thodologie du lexique grammaire est parfaitement adapt e au traitement de ces objets Dans le domaine du TAL les principaux travaux r alis s jusqu pr sent consistent localiser les noms propres dans les textes et leur assigner des classes s mantiques T Wakao et al 1996 J Senellart 1998 A Cucchiarelli et al 1999 N Fourour et al 2002 N Friburger 2002 etc Les m thodes utilis es consistent essentiellement exploiter la pr sence de classifieurs par exemple un nom propre pr c d du nom Monsieur Monsieur Chirac est class comme un nom de personne Les syst mes de r ponses automatiques des questions sont une des applications de ces cl
99. o quoi Max est il en butte des probl mes O Max est il en butte des probl mes Le figement est possible avec d autres pr positions que en comme Il existe par exemple plusieurs variantes fig es ayant le m me sens qui utilisent le classifieur montagne Marie est en la montagne 162 Nous d cidons d largir le champ d investigation d autres classifieurs de lieu tels que campagne qui est ambigu campagne oppos ville sens locatif et campagne comme campagne lectorale publicitaire etc sens non locatif Ces deux emplois se distinguent par leur distribution pr positionnelle l emploi locatif interdit la pr position en mais accepte la pr position l emploi non locatif ne se combine pas avec tre mais avec tre en Marie est en la campagne Luc est en la campagne E lectorale Regardons maintenant le classifieur territoire On observe dans ce cas l un ph nom ne particulier la pr position en n est accept e que si territoire est suivi d un adjectif L a est en territoire L a est en territoire fran ais contamin ennemi L a est en territoire de la France qui appartient la France Par contre l utilisation de la pr position sur n est pas contrainte m me si certains cas sont limites Luc est sur le territoire E fran ais de la France qui appartient la France Le nom classifieur banlieue ac
100. phrase parser for unrestricted text Proceedings of the Second Conference on Applied Natural Language Processing Austin Collins M Brooks J 1995 Prepositional Phrase Attachment through a Backed Off Model Proceedings of the Third Workshop on Very Large Corpora Constant M 2000 Description d expressions num riques en fran ais In A Dister ed Actes des Troisiemes Journ es Intex Revue Informatique et Statistique dans les Sciences Humaines Li ge Universit de Li ge Constant M 2001 Biblioth ques d automates finis et grammaires context free de nouveaux traitements informatiques 5 Rencontre des tudiants chercheurs en informatique pour traitement automatique des langues R cital Tours Constant M 2002a Methods for constructing lexicon grammar resources the example of S d measure expressions Proceedings of the 3 conference Language Resources and Evaluation Conference Las Palmas 223 Constant M 2002b On the analysis of locative phrases with graphs and lexicon grammar the classifier proper noun pairing In E Ranchhod N Mamede eds Advances in Natural Language Processing Lecture Notes in Artificial Intelligence LNAD 2389 Springer Constant M 2003 Converting linguistic systems of relational matrices into Finite State Transducers EACL Workshop on Finite State Methods in Natural Language Processing Budapest Constant M Nakamura T Paumier S 2002 L h ritage des g nes MG L
101. pluriel Un mot linguistique doit contenir explicitement ces informations On s aper oit rapidement que le d coupage des textes en mots simples n est pas forc ment toujours adapt au traitement linguistique En effet il est bien connu que la s quence aujourd hui contenant un s parateur de mot doit tre consid r e comme une unit car aujourd n est pas un mot autonome qui peut s employer seul du fran ais Ce type d unit s complexes contenant au moins un s parateur est appel mot compos Certains s parateurs sont assez productifs en terme de mots compos s comme le tiret rez de chauss e Mais il en existe des milliers contenant d autres s parateurs comme l espace en fran ais pomme de terre carte de visite fibre optique Dans la quasi totalit des cas ces mots compos s sont form s de mots autonomes du fran ais et ont la m me structure de surface que les groupes nominaux libres Ils se distinguent cependant de ces derniers par leur figement s mantique syntaxique et lexical Pour des explications compl tes le lecteur est invit se r f rer G Gross 1996 Pour beaucoup d entre eux le sens global du mot compos n est pas calculable ou tr s difficilement partir du sens des mots simples qui la composent par exemple un cordon bleu au sens d excellent cuisinier n a rien voir avec les mots autonomes qui le composent Leur traduction peut parfois donner une indicati
102. pomme par la Max mange la puis d placer la pour former la phrase Max la mange Ces op rations tant r versibles les transformations sont non orient es Les deux phrases pr c dentes sont dites quivalentes et sont mises en relation par le signe Max mange une pomme Max la mange Dans la grande majorit des cas ces transformations n introduisent pas de changements s mantiques significatifs m me s il peut exister quelques nuances comme la n gation qui g n ralement donne un sens oppos la phrase d origine Max mange une pomme Max ne mange pas une de pomme 20 On dira que ces deux phrases sont peu pr s quivalentes Il existe deux grands types de transformations les transformations unaires et les transformations binaires Les transformations unaires les plus connues sont la passivation la pronominalisation l extraposition M Gross 1990 Max a achet beaucoup d engrais Il a achet beaucoup d engrais pronominalisation du sujet l en a achet beaucoup pronominalisation en du compl ment d inclusion Max a achet beaucoup d engrais Beaucoup d engrais a t achet par Max passif Il a t achet beaucoup d engrais par Max extraposition Il en a t achet beaucoup par Max pronominalisation en du compl ment d inclusion Cet ensemble de phrases constitue une classe d quivalence Les classes d quivalences peuvent tre tendues l
103. positionnel ex les noms de mer de lac etc pour les autres ils utilisent les informations cod es dans la table 1 ex les noms d les Nous associons cette table un m ta graphe param tr au format standard i e un seul param tre par variable d crivant l ensemble des structures d une entr e fictive qui rentre dans toutes les propri t s se trouvant dans les colonnes Les variables correspondent aux propri t s de la table g n rique Si l on applique l algorithme de conversion standard de la m ta table au m ta graphe param tr on obtient pour chaque ligne chaque table de noms propres le graphe param tr associ Nous donnons ci dessous le graphe de r f rence associ la table NNpr le g n r partir de ce processus automatique 173 AF AA AB AC AD AE a E om a dE EN lei dn ue Le z i El GI Idi 20 E L z aa Gi E adr 180 suep E d G EE E sas EE E ady ue El sde Sje EN ady ae lala SS Sje En odiy 37 Sue feu ei Li li En E aunoa awo 1dpy SUENE adi 11 aunoa ao yag SUENE annos ao 180 St 1df4180 Sp eduaie 37 EI Nun ang dp 189 o1dpy 9190 rudy oN I7 E o Gi e El Edy ei e El Gi dusnaTl le o les ei eil ee E ES Kr Eee eee JN 180 Sp ON 371 afele PEE ARE E
104. pr positionnelle des noms propres de lieu g ographique au sein d adverbes locatifs Ce domaine n est pas facile traiter du fait de la sp cificit des noms propres Le travail que nous avons r alis est une bauche m thodologique dans le cadre du lexique grammaire et m riterait d tre continu par des experts du domaine des lieux g ographiques Nous avons galement mis au point une nouvelle m thode de conversion des tables en graphes s appliquant des syst mes de tables relationnelles M Constant 2003 Cette repr sentation relationnelle ne se limite pas seulement notre probl me particulier adverbes locatifs En effet les adjectifs avec noms appropri s semblent pouvoir tre formalis s de cette mani re E Laporte 1995 II en est de m me pour certaines grammaires de dates D Maurel communication personnelle 178 Chapitre 5 Un syst me de gestion de grammaires locales 5 1 Introduction La quantit de ressources linguistiques augmente sensiblement Ces ressources sont des composants linguistiques parfois indissociables de certains outils linguistiques Un des grands d fis actuels et futurs est de construire des outils permettant de g rer ces ressources Une des tendances est de mettre ces ressources la disposition du public ou de la communaut scientifique sous la forme de logiciels libres ou de donn es librement accessibles via Internet outils informatiques Lingo formalisme HPSG
105. processus aux r seaux r cursifs de transitions Nous n avons pour l instant pas implant cette fonctionnalit dans notre syst me Il est clair qu elle pourrait tre utile pour v rifier qu une grammaire n existe pas d j dans la biblioth que Cependant il existe des probl mes Il est d abord n cessaire de r aliser des approximations suffisamment pr cises pour que le langage reconnu se rapproche le plus possible du langage 217 de d part ce qui est tr s difficile valuer du fait que les langages reconnus sont souvent infinis J M Nederhof 2000 Un deuxi me probl me est la taille m moire J M Nederhof 2000 une grammaire est une forme compact e pour la transformer en automate il faut dupliquer les automates r gles Nous avons r alis une exp rience d montrant que c est un probl me critique surtout avec des grammaires locales lexicalis es M Constant 2001 Il conviendra d laguer les grammaires selon le vocabulaire avant de contruire les automates quivalents Par ailleurs comme l intersection d une grammaire avec un automate est co teuse cf J Berstel 1979 et que le nombre de grammaires dans la biblioth que est potentiellement grand il conviendra de filtrer les grammaires selon leur vocabulaire L intersection de deux grammaires n est pas suffisante pour comparer deux grammaires En effet imaginons que l on ait deux grammaires qui reconnaissent respectivement abcde et abd
106. provoquent in vitablement un probl me d h t rog n it m me s il existe de nombreux projets de normalisation comme la standardisation des lexiques EAGLES 1996 Pour r sumer les trois grandes tendances actuelles sont la normalisation la distribution libre et le rassemblement des donn es Plus les donn es sont normalis es et libres plus il est facile de les rassembler et les distribuer Au sein du r seau RELEX on observe galement ces trois tendances Normalisation des donn es D s le d but de la construction des donn es linguistiques les notions fondamentales et les m thodes ont t communes l ensemble du r seau L utilisation des plates formes Intex puis Unitex ont tendu cette standardisation aux formats utilis s dans les donn es Distribution libre Unitex S Paumier 2003 est totalement libre et open source les dictionnaires sont partiellement accessibles Intex M Silberztein 1993 est gratuit pour les chercheurs Regroupement des donn es Les dictionnaires sont construits par diff rentes quipes Comme ils sont les fondements des logiciels ils sont centralis s par les auteurs de ces derniers il existe un travail en cours pour les tables de lexique grammaire Nous avons cr un prototype de syst me de gestion de grammaires locales 10 La construction de telles grammaires est facile et rapide si elle respecte une m thode rigoureuse et syst matique cf pr c dents chapitres Ains
107. r duite Ng effac Cet achat a fait un co t de 30 euros Cet achat a fait 30 euros Certains noms comme vitesse ne sont effa ables que si l on rajoute le d terminant partitif du Le bus fait E du 35 km h Les deux structures avec et sans d terminant partitif sont acceptables avec les noms intensit lectrique et tension lectrique La ligne fait E du 220V La ligne fait E du 2A Par contre l ajout du d terminant partitif du n est pas valable pour tous les noms La corde fait du 10 m Le verbe mesurer peut aussi tre utilis la place du verbe support l acceptabilit de la structure engendr e d pend aussi du Ng effac La corde fait mesure 10 m La ligne fait mesure 220 V Il est parfois possible d ajouter un adjectif non pr dicatif entre Dnum et Unit pour nuancer une mesure objective Cet adjectif a un peu le m me r le s mantique qu un pr d terminant La corde fait cinq petits m tres m tres qui sont petits 3 3 3 6 Autres Revenons maintenant notre phrase de base NO avoir un Ng de Dnum Unit Comme nous l avons dit au d but de la section elle peut s analyser partir de deux phrases l mentaires NO avoir un Ng et Ce Ng tre de Dnum Unit En r duisant la premi re phrase au groupe nominal le Ng de NO la longueur de la piscine que nous substituons ce Ng dans la deuxi me phrase nous obtenons une autre structure quivalente not
108. re phrase indique la distance entre NO et N1 La deuxi me phrase donne la direction optionnellement le sens ou une autre information g om trique pour retrouver math matiquement la position de NO par rapport N1 Soit la phrase Bordeaux est 550 km au sud ouest de Paris Elle s analyse par Bordeaux est une distance de 550 km de Paris d Bordeaux Paris 550 km 4 d x y d signe la distance entre le point x et le point y 87 Bordeaux est au sud ouest de Paris lt direction sud ouest Dans les phrases en tre l effacement de la pr position est possible lorsque le Ng a d j t effac et que la pr position est autre que de Max est E 100 m sous terre L avion est E 10 000 m au dessus du niveau de la mer Marie est E a 100 km au nord de Marseille Marie est E 100 km de Marseille Max est E a 100 m du sol Max est E une distance de 200 m de la maison En anglais on observe une structure de phrase quivalente la diff rence pr s que l on n a pas de pr position apr s le verbe support NO be Dnum Unit Loc NI John is 30 miles in the north of from London On constate que la pr position locative in the north of peut tre r duite north of dans la phrase ce qui rend l expression plus compacte qu en fran ais John is 30 miles north of London Jean est 50 km nord de Paris Le nom distance accepte des modifieurs adverbiaux dans sa s
109. relativement simples type mots compos s sont tr s naturellement d crites la main dans des graphes par exemple les d terminants num riques La construction des graphes GNmesure bien que simple n cessite la duplication syst matique de morceaux de graphes pour chaque classe d unit s Il est donc pr f rable d automatiser ces op rations l aide de la m thode d E Roche Pour l ensemble des unit s de mesure nous aurions pu automatiser une grande partie des op rations de construction car chaque unit a le m me ensemble de pr fixes milli centi d ci d ca hecto kilo etc Cependant les duplications dans ce cas l ne sont pas tr s contraignantes Pour les structures de phrase qui s lectionnent un ensemble de pr dicats il est tr s souvent pr f rable de construire des tables syntaxiques En effet chaque pr dicat rentre dans un certain nombre de structures appartenant un sur ensemble commun Cependant leur comportement diff re dans le d tail ce qui est tr s difficile coder manuellement sous la forme de graphes Il est plus facile de coder les informations syntaxiques dans une table l aide de valeurs bool ennes Par contre si le nombre d entr es est tr s r duit il est peut tre pr f rable de le faire directement sous la forme de graphes car la gestion des variables dans les graphes patrons n est pas toujours facile Notons que les structures NO Vsup Prep un Ng de Dnum Unit Pr
110. rofondeur GMmesure longueur l l lt tre gt altitude Ghimesure longueur Prep1N1 altitude lt trez dans p rim tre Ghmesure lonqueur j j lt tres dans p rim tre GNmesure surface Le trez dans rayon Ghimesure lonqueur J Table 6 NO Vsup Prep un Ng de Dnum Unit Prep1 N1 90 dessus HE en dessous fa 2 42 Figure 60 Prep1 N1 fig pour le nom altitude Prep1Nl altitude Nous pr sentons ci dessous le graphe param tr associ la table ci dessus repr sentant l ensemble des structures adverbiales d riv es de notre structure ex 10 m de profondeur dans un rayon de trente kilom tres autour de Paris ou une distance inf rieure 2m de la maison Juste en dessous nous donnons le graphe g n r pour l entr e distance ax h ac H am jH D k Jesk Loc a permutation GE am lie arp amour e P Figure 61 graphe patron des structures adverbiales d riv es de NO Vsup Prep un Ng de Dnum Unite Prep1 N1 4 Dans le cas de l adverbe le graphe g n r pour angle n a pas lieu d tre Nous le supprimons simplement la main 91 entre Cimesure longueur am H distance de E GNmesure lmgueurfmal t ou GNmesure longueur voire Loc
111. s il correspond avec un symbole f de l index Si c est le cas u s lectionne les automates associ s l entr e 1 de l index A la vol e nous construisons la table de hachage qui chaque automate s lectionn associe l ensemble des u l ayant s lectionn A partir de l les deux proc dures fonctionnent diff remment proc dure OU La proc dure OU ne requiert aucune autre op ration Il faut juste trier les grammaires s lectionn es Nous proposons de noter chaque grammaire en fonction du nombre de u qui Pont s lectionn e Le notes vont donc de n La liste des grammaires sera ordonn e en fonction de cette note la grammaire de note la plus haute sera plac e au d but de la liste Si l utilisateur souhaite recevoir la liste de toutes les grammaires contenant r cursivement au moins un symbole de u il suffira de donner la liste des grammaires qui d pendent des grammaires s lectionn es en parcourant en profondeur le graphe de d pendance de B par ses arcs inverses proc dure ET Soit H la table de hachage qui pour chaque u associe l ensemble des automates qu il s lectionne Intuitivement l op ration suivante devrait tre de r aliser l intersection de ces ensembles Malheureusement le r sultat obtenu contient des silences En effet supposons que l on ait une grammaire qui reconnaisse des dates du type le mardi matin le mercredi soir etc Supposons que l automate principal A contienne
112. s Des grammaires enti rement lexicalis es ont ainsi pu tre construites 2 5 3 Les applications Nous d crivons dans cette section quelques applications qui ont t d velopp es par les membres de la communaut RELEX Elles sont nombreuses nous listons les principales d coupage Une des premi res tapes du traitement automatique des textes est la segmentation de ces derniers en phrases l aide de la ponctuation Des transducteurs ont t construits cet effet ins rant la fin des phrases un symbole comme S N Friburger et al 2000 Les r sultats sont encourageants et d pendent beaucoup des corpus morphologie Un probl me crucial dans la construction de dictionnaires large couverture est la g n ration automatique de toutes les formes fl chies d un lemme A chaque lemme est associ une classe de flexion repr sent e par un transducteur L application de ce transducteur permet de r soudre une grande majorit des probl mes rencontr s M Silberztein 1997 tiquetage La consultation des dictionnaires permet de faire un tiquetage lexical des textes Le r sultat est repr sent sous la forme d un transducteur permettant par la m me occasion de montr l impressionnante ambigu t de la langue M Silberztein 1997 Les grammaires lexicalis es permettent de reconna tre des s quences compos es et d tiqueter ces derni res de mani re tr s satisfaisante La prochaine tape est l
113. s mesurant la temp rature n apparaissent quant elles pas 4 T ambiguit des symboles des unit s n cessite un filtrage manuel important ex a pour are ou s pour seconde Nous appliquons nos grammaires sur un texte pr trait l aide du logiciel Unitex avec la r gle du longest match 99 plus d une centaine de fois Les unit s que l on retrouvent les plus fr quemment sont les unit s de mesure de temps ex mois de longueur ex m tre et de masse ex kilogramme et les monnaies ex dollar Une valuation globale est donc difficile Il faut regarder chaque unit s par ment Cependant il est clair que les classes d unit s n apparaissant que quelques fois ne peuvent tre valu es de mani re repr sentative comme pour la famille de volt Nous d cidons de nous consacrer aux expressions contenant des unit s de longueur et de masse Les expressions temporelles sont trop ambigu s et tr s complexes pour pouvoir tre correctement trait es par nos grammaires et elles m ritent des tudes approfondies D Maurel 1990 M Gross 2002 Par ailleurs nous avons utilis des groupes nominaux libres extr mement simples se r sumant l expression rationnelle lt DET gt lt E gt lt A gt lt N gt lt E gt lt A gt car autrement cela am ne trop d erreurs du fait de l ambigu t naturelle de la langue La description de ce type d expressions tant fondamentale et difficile nous d c
114. s se retrouvent dans les textes sous une forme simple r sultant d un effacement d un ou plusieurs composants du mot compos En g n ral c est la partie droite du premier nom qui est effac e comme par exemple dans Max a une tension art rielle E de 10 Paris a une densit d mographique E de 10 000 hab km2 Luc a une pointure de pieds E de 43 Certains noms compos s du domaine de l informatique ex faille de m moire vive ont des formes ambigu s particuli res La pr position de peut tre effac e si l on supprime l adjectif Cette machine a une taille de m moire vive de 128 Mo Cette machine a une taille m moire E vive de 128 Mo 66 Le nom de t te faille peut aussi dispara tre dans la s quence d origine l effacement de l adjectif y est toujours possible Cette machine a une m moire E vive de 128 Mo Notons pour finir que loyer mensuel se comporte diff remment et ne peut tre trait qu au niveau de la phrase et non localement comme pour les pr c dents En effet l adjectif mensuel peut la fois tre effac et transform en adverbe mensuellement pouvant s ins rer n importe o dans la phrase Marie a un loyer mensuel E de 1 000 euros Mensuellement Marie a un loyer de 1 000 euros Il en est de m me pour d autres noms d notant des flux journaliers mensuels annuels etc d bit flux Ce comportement est impossible pour les autres noms compos s
115. statistiques a des chances d approcher la r alit linguistique 14 quivalentes des r seaux r cursifs de transitions RTN W Woods 1970 Elles ont le grand avantage de pouvoir tre appliqu es directement et efficacement des textes M Silberztein 1993 S Paumier 2000 D abord nous montrons dans leur totalit deux processus de construction de GL repr sentant respectivement des expressions de mesure et des adverbes locatifs Nous verrons que ces exemples particuliers couvrent de tr s nombreux champs de difficult s notre travail a donc un int r t m thodologique certain La construction de GL est toujours pr c d e d une analyse linguistique d taill e du ph nom ne que l on souhaite repr senter Il existe en gros deux m thodes Construction directe et artisanale l aide d un diteur de graphes Construction indirecte l aide de tables syntaxiques cod es la main et d une m thode semi automatique de conversion des tables en GL Dans la plupart des cas lorsque l on utilise la m thode indirecte le ph nom ne tudi est cod dans une simple table syntaxique mais nous verrons qu il est parfois pr f rable de repr senter les contraintes dans des syst mes de tables relationnelles Enfin nous abordons le th me de la gestion de larges biblioth ques de grammaires locales Le nombre de GL augmente vertigineusement Par ailleurs le formalisme tr s modulaire des GL re
116. type de pr position et examin manuellement les 1 000 premi res occurrences Nous constatons que 529 d entre elles sont correctement analys es et ont un emploi locatif soit environ 53 Nous donnons ci dessous quelques exemples d emplois non locatifs trouv s 65 Te 2 A C est un calcul assez approximatif car nous avons regard les 200 premi res occurrences de chacune des pr positions Mais notre but est de donner une vague tendance 124 pr positions non locatives Luc a t gentil l endroit de Marie l endroit de envers L argent est la base des malheurs de Paul la base du fait que P c t de la crise de septembre celle ci est mineure c t du fait que P adverbes fig s non locatifs Au bout du compte L a est tr s accueillante phrases fig es non locatives Max est pass c t de quelque chose de grand modifieurs du nom L engagement droite de cet historien n est pas pass inaper u D autres pr positions ont un emploi locatif mais sont mal analys es du fait de l ambigu t du nom N Le lieutenant Martin a t affect la base de Pau N base E militaire Dans une perspective d une analyse s mantique la reconnaissance des pr positions compos es augmente la pr cision de la localisation car le nom N dans ces pr positions indique une information suppl mentaire de localisation La reconnaissance des compl ments locatifs avec des pr positions c
117. une longueur de trente m tres Cette corde fait trente m tres Cette ligne a fait une tension de 220V Cette ligne fait 220V Cette transformation est difficilement r alisable avec le verbe support avoir except pour quelques noms comme ge Cette corde a une longueur de trente m tres Cette corde a trente m tres Max a un ge de 10 ans Max a 10 ans Le verbe support faire est souvent le plus naturel mais le verbe tre est aussi possible La salle de classe fait est une temp rature de 20 C La salle de classe est 20 C la salle de classe fait 20 C Certains Ng ne s effacent pas ou tr s difficilement comme p rim tre La piscine a un p rim tre de 30 m La piscine fait 30 m On s aper oit que la propri t d pend aussi de la nature de NO On ne comprend la phrase la corde fait 30 m que parce qu une corde a la propri t d tre longiligne et on en d duit que la caract ristique mesur e est la longueur Pour la vitesse on observe un ph nom ne particulier l effacement de vitesse dans la phrase de base est interdit sauf dans le cas exceptionnel o NO vent ou tornade courant etc Comme l explique J Giry Schneider 1991 ceci semble tre d la nature dynamique du vent Cette voiture fait tre de 10 km h Ce vent fait tre de 20 km h 71 Certains noms comme co t n entrent pas dans le sch ma de phrase de base en faire mais sont accept s dans une forme
118. union Luc est dans le d partement de E la C te d Or Luc est en C te D or Cette contraction est galement observ e pour les noms propres Npr commen ant par une voyelle Luc est dans le d partement de E l Is re Luc est en Is re Marie est dans la province de E l Alberta Marie est en Alberta 157 L encore il existe des contre exemples comme pour Yonne d partement Luc est dans le d partement de E l Yonne Luc est en Yonne De m me du fait de la pr sence du nom je l int rieur de Npr la pr position en ne se combine pas avec le couple lle du Prince Edouard province Mon fils est retenu dans la province de l Ile du Prince Edouard Mon fils est retenu l en Ile du Prince Edouard On notera cependant que Ile de France se combine avec la pr position en Mon fils est retenu en Ile de France Par ailleurs les noms propres Npr prenant pour d terminant le et ne commen ant pas par une voyelle peuvent ne pas autoriser cette contraction Luc est dans le d partement de E le Cher Luc est en Cher L a est dans l tat de E le Texas L a est en Texas Cependant ce n est pas toujours vrai L lection est dans le d partement de E le Loir et Cher Val de Marne Indre et Loire L lection est en Loir et Cher Val de Marne Indre et Loire L a est dans l tat de E le Wyoming L a est en Wyoming Pour les noms de provinces canadiennes et d
119. utiliser des grammaires alg briques il conviendra de convertir ces derni res dans le bon formalisme par exemple au moyen de l algorithme de Nederhof 2000 La normalisation des grammaires d pend enti rement de ce que nous voulons en faire Notre syst me doit contenir des outils de recherche d information dans ces grammaires et plus exactement sur leur contenu linguistique La repr sentation graphique n a aucune utilit pour ces outils Elle peut donc tre supprim e Par ailleurs les grammaires que nous traitons sont des grammaires d analyse linguistique dont les automates n ont pas de sortie Ainsi nous d cidons d enlever toutes les informations de sortie des grammaires qui en contiendraient L information de l existence de telles sorties est extraite automatiquement partir de l analyse automatique des grammaires ins rer et plac es dans des champs sp ciaux de la table contenant les informations sur les grammaires Les diteurs d automates offrent une grande libert aux auteurs des automates Par exemple les auteurs peuvent construire des transitions dont l tiquette comprend plusieurs symboles cons cutivement Pour faciliter les traitements informatiques chaque transition comprenant une s quence de n symboles simples est d coup e en n transitions d l ments simples Il existe de multiples op rations de normalisation des transitions Certaines tiquettes apportent peu d informations par rapport l
120. voir K Jonasson 1995 La r duction des formes longues en formes courtes n est pas r guli re Il arrive que la forme courte de certains couples soit diff rente de Npr Par exemple la forme courte de r publique d mocratique populaire de Cor e est Cor e du Nord et non Cor e Ce ph nom ne est limit car il ne touche quasiment que les noms de pays Ensuite et surtout certaines formes longues tres fig es ne peuvent tre r duites Nous donnons ci dessous quelques d exemples la mer de SEI le Nord la mer de la Cor e la mer la Noire le pic de SEI le Midi l le de E la Tortue Notons que dans certains textes on trouve le classifieur de certaines formes longues fig es 139 avec la premi re lettre en majuscule la Vall e de la Mort Le figement peut servir notamment distinguer des emplois ambigus de Npr Par exemple Nord est soit un d partement soit une mer Ces deux entr es se distinguent non seulement par leur classifieur donc ils sont dans deux tables diff rentes mais aussi par leur comportement syntaxique En effet la mer du Nord n a pas de forme courte alors que le d partement du Nord est clairement r ductible la forme courte le Nord Nous nous attachons maintenant montrer les diff rents degr s de figement dans Nprc D abord le figement peut tre distributionnel comme pour le nom ville Tous les noms de villes entrent dans la construction nominale suivante La ville
121. 0 km s S La masse est une forme de Un cas de d terminant nominal n a pas t r pertori le dixi me de d passant peine le dixi me de mm en longueur pour une paisseur de 4 Om S Avec certaines unit s dans nos grammaires ne se trouvent pas dans le dictionnaire lectronique ex m ga lectrons volts Certaines expressions reconnues sont du bruit pur du fait de ambigu t naturelle de la langue et d une analyse trop locale un indice de c tane am lior S De 50 52 l heure actuelle ils ne d sesperent pas s de la peau S L activation de le VIH 1 a ainsi t reproduite chez un animal entier la GT 31 s apparente certaines expressions n ont pas t r pertori es 10 m pr s de la couche de ozone constat e entre 30 et 645 de latitude nord entre 1969 et 1986 ne Les r sultats obtenus sont tout fait satisfaisants Cependant cette valuation n est valable que pour un instant et un corpus bien pr cis Nos grammaires sont mises jour en permanence les oublis et les petites erreurs de codage disparaissent au fur et mesure Ainsi nos taux de silence tendent de plus en plus vers 0 le bruit n est d qu l ambigu t naturelle de la langue et ne peut tre supprim qu au prix d une analyse plus contextuelle 3 5 3 Op rations utilisant les grammaires Certaines op rations que nous proposons ci dessous sont pour l instant th oriques car elles n cessite
122. 30 km de Paris et Pierre est une distance de 50 km de ta ville Pierre est une distance de 30 et 50 km respectivement de Paris et de ta ville Pierre est une distance de 200 km de Paris et Paul est une distance de 45 km de Paris Pierre et Paul sont respectivement une distance de 200 et 45 km de Paris La conjonction ou marque une approximation de la valeur num rique du d terminant sous la forme d un choix entre plusieurs valeurs Max a cing ou six ans Nous pouvons interpr ter cing ou six comme un d terminant compos mais cela peut poser des probl mes En effet la phrase ci dessus est quivalente aux deux phrases suivantes Max a cing ans ou six ans Max a cing ans ou Max a six ans On peut aussi avoir des phrases du type Le tuyau est une distance de 90 cm ou 1 m du mur Le tuyau est une distance de 90 cm du mur ou le tuyau est une distance de 1 m du mur Pour plus de d tails sur la coordination dans les groupes nominaux nous sugg rons au lecteur de se r f rer C Domingues 2001 3 2 4 2 2 La structure entre et Revenons notre phrase de base Det Ng tre de Dnum Unit Cette longueur est de 15 m Il est possible d exprimer une approximation en utilisant un intervalle de mesures gr ce la structure tre compris entre et On remarque que compris peut tre effac Ce Ng tre E compris entre Dnum Unit et Dnum2 Unit cette longueur est E
123. 5 On regarde alors son successeur qui est X9 On soustrait 1 son compteur qui passe 1 tape 6 On ne peut donc pas l ajouter A Si l on regarde le graphe on constate qu aucun sommet de Gd que l on n a pas encore trait n atteint X9 Ainsi son compteur n atteindra jamais O et il ne sera jamais ajout A ainsi que les sommets desquels X9 est d pendant ici X 0 X10 On retourne ensuite l examen des successeurs de X2 le suivant tant X4 Et ainsi de suite jusqu ce que le processus r cursif s arr te 207 X11 X8 X10 Figure 109 graphe de d part El 0 1 1 2 El zk ch xe 1 2 z 1 Ein Figure 111 1 tape DO 0 1 1 2 xa ESO x zx kale TF 0 0 x3 xo x10 0 E Figure 113 5 tape 208 1 1 2 Sch zk ESA zech bz e 1 2 2 1 x xo x10 E2 Figure 110 graphe condens apr s initialisation D 0 1 1 2 El xe h h xe ED NT o 2 2 1 x xo b x10 1 T Figure 112 2 tape DO 0 1 1 2 El xa ESO x DE i 1 0 y x3 zech x10 0 Re Figure 114 6 tape L algorithme pr sent s ex cute en temps lin aire car toutes les proc dures mises en uvre s quentielle
124. 93 L algorithme est donn ci dessous proc dure r cursive EnsembleASupprimer Fonction EnsembleASupprimer X Gd A R sultat un ensemble de sommets si X compteur 0 alors retourner A finSi res U X pour chaque Y e X successeurs Y compteur Y compteur 1 res EnsembleASupprimer Y Gd res finPour retourner res finFonction Une fois que l ensemble des sommets supprimer est calcul on peut supprimer les automates associ s chacun d eux Cette proc dure ne pose pas de probl me mise jour des vues par la proc dure MiseAJourDesVuesBis suppression des symboles non terminaux correspondants suppression des automates associ s etc L algorithme pr cis est donn ci dessous proc dure SupprimerAutomates proc dure SupprimerAutomates Ens Ens un ensemble de sommets de non terminaux MiseAJourDesVuesBis Ens pour chaque X de Ens Ns Ne supprimer X Autg Auts supprimer auts X si auts X est principal alors qO Se supprimerTransition X finSi finPour finProc dure Enfin la proc dure principale SupprimerGrammaire fonctionne s quentiellement comme suit phase d initialisation d termination de l ensemble des automates de B supprimer et suppression des automates Dans les proc dures ci dessous B et Gd3 sont consid r es comme globales Proc dure initialisation X r sultats graphe condens Gd lt Vd Ed gt sommet X de Gd Gd Gds constr
125. AN T de arme eV ll e Universit de Marne La Vall e Institut Gaspard Monge Ecole Doctorale Information Communication Mod lisation et Simulation Institut Gaspard Monge laboratoire d informatique TH SE pour obtenir le grade de Docteur de l Universit de Marne La Vall e Discipline informatique linguistique pr sent e et soutenue publiquement par Matthieu CONSTANT le 8 septembre 2003 Grammaires locales pour l analyse automatique de textes m thodes de construction et outils de gestion Local grammars for text parsing construction methods and management tools Directeurs de th se Maurice GROSS Eric LAPORTE Jury Maxime CROCHEMORE Jacqueline GIRY SCHNEIDER Franz GUENTHNER Rapporteur ric LAPORTE Denis MAUREL Rapporteur UMLV Remerciements La th se pr sent e dans cet ouvrage n aurait jamais vu le jour sans ma rencontre avec Maurice Gross qui je souhaite rendre hommage J esp re que ce travail permettra d apporter un t moignage suppl mentaire de l extraordinaire richesse de son uvre scientifique Je souhaite exprimer tous mes remerciements aux membres du jury tout d abord mon directeur Eric Laporte qui a eu le courage de prendre la suite de Maurice Gross et dont les remarques corrections et conseils ont apport un nouvel clairage mon travail ensuite aux rapporteurs Franz Guenthner et Denis Maurel pour leurs commentaires et remarques pertinentes
126. C Ad de Npr LE Mc de Det Pujar Index Npr Indon sie a a IT Lee ets mor 0 Iran 3O r publique LL LI me 30 r publique de le Kazakhstan HKazakstan 3Olr publique fee fie 30 Liban E 30 Liberia Lib ria 30 Lituanie Mac doine R LE Nc Mpr a zo ja t o mac donien Di m Madagascar Malgache Malami Mauritanie Moldavie iioldowa Mozambique Mamibie Micaragua Miger Migeria nig ria EE a E PP PT TT heno an ve verre Miue Miou Ouganda 248 open papumi en E enbandal de Se E opbau MIC e EERE AAA E amas L ET E RE aun aun ne a 7 abigndajoge JEOL anbigndajoe 06 abigndajoe et DE ab ane gg anbijanidas ELITE ATEN ge ENT ap uUBpnos ap ap anbyenowgp anbiandgj gE anbignda ge anbrandas ge Signal E 249 au 8 48 13 2U08 TE 4Uals ap enbijandas os Ch EE ap ablando os Seet el ee emo eppes ptr aomneln Te ainda os ELITE de Le ELEMENT CITT ES AE RE A CC MAMI IRMA E OS E IE FS E UE le sa cea DE DE anal E AC A ME je pa tema q A ET CE AAA ce al a ados AEF EUE d ap ankand ge BLEUE g ap akanda ge QA e al a aos es
127. Cependant l emploi absolu et l emploi relatif sont bien distincts Paul est une hauteur de 10 m E au dessus du sol Paul a une hauteur de 10 m L immeuble a une hauteur de 100 m E au dessus du sol L immeuble est une hauteur de 100 m Dans le premier ensemble de phrases le nom hauteur d signe la distance verticale entre Paul et le sol Dans le deuxi me ensemble de phrases il d signe une caract ristique intrins que de l immeuble du m me type que largeur ou longueur Nous pouvons diviser cet ensemble de noms en trois En effet ils entrent dans trois structures bien distinctes a NO avoir un Ng de Dnum Unit avec N1 le crayon a un angle de 45 avec le livre b NO tre un Ng de Dnum Unit de Loc N1 Le plongeur est une profondeur de 10 m sous l eau Marie est une distance de trois kilom tres de Paris c NO tre dans un Ne de Dnum Unit autour de N1 Les soldats sont dans un rayon de 100 km autour de la ville Le seul nom pr dicatif Ng rentrant dans le sch ma de phrase a est angle Les phrases en tre sont interdites et les verbes supports les plus naturels sont faire et former Le livre a fait forme est un angle de 45 avec le crayon Dans le cas g n ral la structure NO avoir un Ng avec N1 est sym trique et se r duit la forme nominale en entre et comme dans l exemple ci dessous La France a une fronti re avec la Belgique La Belgique
128. EMS fe e l Elbe SSES lt gt 8 le S S F ro E ES les l Table 15 chantillon de la table NNpr ile 4 3 7 6 Table NNpr r publique 147 r D Iw D m ul D Kg A Es Z CS el 0 D 3 BEE 8335 S E A 55 9 27 5 2 l 2 oj o z EJES e tla 2 D El gl SES EEZ Eez H 2 2 243 Y 4 Zi s gt 106 30 r publique J dominicaine DA r publique socialiste de le Vietnam vietnamien S e 1 20r publique de Afrique de le Sud sud africain last 2 30 r publique de Albanie j j albanais ela 107 30 r publigue f d rale de Allemagne j allemand ela A 30 r publique de Angola l Jamgolais le 95 20 r publique Argentine IL argentin laH D 30 r publique de Arm nie j arm nien Jla D 30 r publigue de Autriche j autrichien llar 3 30 r publique de Azerba djan jh ES e l T 30 r publique populaire de e Bangladesh j l Jle 53 30 r publigue de jle larus Belarus p l jle 7 30 r publique de Belau h f l lt E gt Ei 30 r publique de lle B nin Le j l e 52 30 r publique de le Ehouta
129. Gd le graphe de d pendance associ G On suppose DIER La recherche de l ensemble des grammaires ayant pour facteur u n est pas facile La recherche des automates ayant un facteur u donn est plus simple On appelle tat d clencheur d un automate X tout tat d arriv e d une transition tiquet e par uy V rifier qu une s quence est facteur dans un automate consiste trouver l ensemble de ses tats d clencheurs puis pour chaque tat q de cet ensemble reconna tre la s quence u u2 Un partir de q La reconnaissance de u partir de q revient v rifier s il existe un chemin tiquet u de l tat q un tat quelconque de X Malheureusement il n est pas possible d appliquer la m me proc dure aux grammaires pour deux raisons a chaque automate peut poss der des sous automates b il peut tre lui m me sous automate d un autre automate Imaginons que pour chaque automate X de G on ait trouv ses tats d clencheurs q pour la s quence u Nous appelons X l automate de base Nous regardons si u est un facteur de X Lors de la proc dure de reconnaissance de u partir de q si l on rencontre un appel un sous automate remarque a avant d avoir reconnu enti rement u il faut continuer la reconnaissance de u dans le sous automate en d marrant l tat initial de ce dernier Si l on se trouve dans un sous automate de l automate de base sous auto
130. HAE ase 83 13 5 Geif E T d a T I e be OU a T EI Fi 3 E 2 J T E Washington wisconsin ZA 5 E 69 69 ES 69 69 55 ES 65 65 69 ES 69 _6al 69 69 69 69 69 69 69 55 69 69 69 69 69 63 63 69 69 ET 69 63 69 69 ET 69 69 69 69 55 69 69 69 69 E 63 E E E E ES E E E E E e Modit M2 ala ala ala coco coco mo Frep 5 Fr FT T FT HA AF FFF ZTZTZIZIZTI E LE Mc de Mpr rte Aaa EUR EUR aa a EUR EUR EUR EUR EUR EUR EUR aa a a 2 22 US EUR ES EE EUR 2 2 2 2 2 2 2 22 EI ER EUR EUR EUR EUR EUR GER ER EU UL MC TETE EEE EE TEE revers A ee aaa aaa EEE AG TEE Ou ELSA sel RIRE RE Eco coco ca hs co baka ra ES TES TEST ES TES Troll Oj aaa a ca Eco ra E 00 40 cr Eta rta Slot foca El ca pa O 00 co 4 0 on 240 F F F Det Npr tE A Wi 3 a Sp WE S Sg GES EE EE e El ednojapens El apeua Jo DT si C sai AAA E CA Ma al AO IO Sai SEQIEIE 5 panden as SE io o pat E JE O E E oee ee E E E AAA nad EE e os l ady 49 Eet adi 180 SUER ds mm E Kal SE adn 120 faynas so ya dt SAM ON 27 E apequeg saleajeg
131. Kyj v i E A appliquerAutomate K K finSi val M i j si n gation logique dans a si M i j alors val finSi si M i j alors val finSi finSi si val alors T modifierEtiquette t e Sinon Si val alors T supprimerTransition t Sinon T modifierEtiquette t val FinSi FinSi finSi finPour finPour TL application de cet algorithme notre syst me form de deux tables fonctionne comme suit Le programme commence la premi re ligne de M entr e d partement du Nord Il r alise une copie du graphe de r f rence To et l assigne 77 A est automatiquement construit partir des donn es g n rales sur le syst me entr es par le linguiste tables colonnes cl s relations La table de hachage PH est ensuite construite Chaque transition de T est alors examin e et transform e si n cessaire si l tiquette contient une variable les transitions contenant 2 2 2 4 et 2 5 sont supprim es car M 1 2 M 1 4 et M 1 5 ont la valeur les transitions contenant 1 8 et 1 9 sont galement supprim es les tiquettes 2 3 et 1 7 sont remplac es par lt E gt car M2 1 3 et M 1 7 ont la valeur les tiquettes 1 3 1 4 1 5 et 1 6 sont respectivement remplac es par le nom d partement la pr position de le d terminant le et le nom propre Nord Ainsi cette premi re tape du processus produit le graphe T ci dessous Puis le m me
132. Lettres NombreEntierEnChiffres Figure 33 Non connexit des d terminants Enfin une s quence Dnum Unit peut parfois commuter avec une suite de plusieurs Dnum Unit Cette suite a une syntaxe qui lui est propre car elle d pend de la classe d unit s utilis e Cette forme sert essentiellement ajouter une pr cision la mesure L a a eu droit trois heures dix minutes et douze secondes de sueurs froides Luc a exactement parcouru 10 kilom tres et 30 m tres 30 secondes Nous repr sentons un exemple tr s partiel de telles s quences dans le graphe suivant Le graphe pr sent est partiel car il ne contient pas compte d expressions telles que trois m tres et demi 32 Pastas Figure 34 exemple de syntaxe propre une unit Ainsi pour chaque classe d unit s il est n cessaire de regrouper la s quence Dnum Unit en un seul graphe GNmesure unite en tenant compte des remarques pr c dentes et de la pr sence potentielle de pr d terminants Nous donnons ci dessous un exemple d un tel graphe pour la classe d unit s Metre Le graphe DnumMetre precis reconna t des suites Dnum Metre selon une syntaxe sp cifique ex 10 kilom tres et 300 m tres Ce dernier graphe a t con u de telle mani re qu il ne reconnaisse pas des s quences comme 0 kilom tres et 3000 m tres cf graphe ci dessous Les graphes DnumEnLettres1 99 et DnumEnLettres1 999 repr sentent des
133. Loc aux pr positions dans en et E pr position vide Plus exactement nous regardons les constructions suivantes Que P NO tre dans le en E Nprc Nous ne regardons pas la pr position sur car son interpr tation s mantique d pend trop du classifieur utilis et du contexte 153 Contrairement aux groupes nominaux le comportement syntaxique de ces constructions ne d pend pas des deux l ments du couple Npr Nc mais uniquement du classifieur Nc Cela ne parait pas illogique car la nature et la forme du lieu sont explicit es par Nc Par contre l encore un examen syst matique est n cessaire car le comportement distributionnel des classifieurs est difficilement pr dictible Max est dans l l en SEI tat de le Texas la Californie Oregon Luc est dans la la en E mer du Nord Noire M diterran e Marie est dans la la en E ville de Paris Le Havre La Havane L a est dans la la en E rue de la Paix Monge Le randonneur est dans le le Zen SEI pic du Midi du Vignemale Il existe pourtant un cas particulier avec le classifieur le M Garrigues 1995 En effet l emploi des pr positions et dans n est pas tr s naturel avec Corse le et Sardaigne le alors qu il l est avec les autres couples Max est dans l le de Corse Sardaigne Max est dans l le de Cr te R la Martiniq
134. M Pierrel ed Ing nierie des Langues Hermes Science Paris Viv s R 1983 avoir prendre perdre constructions verbe support et extensions aspectuelles Th se de 3 cycle Universit Paris VIII 232 Voorhees E M 1999 Natural Language Processing and Information retrieval Lecture Notes in Computer Science Springer Verlag Wakao T Gaizauskas R Wilks Y 1996 Evaluation of an algorithm for the recognition and classification of proper names Proceedings of the 16 International Conference on Computational Linguistics COLING96 Copenhagen Woods W A 1970 Transition Network Grammars for Natural Language Analysis Communications of the ACM 13 10 Zavrel J Daelemans W Veenstra J 1997 Resolving PP attachment ambiguities with memory based learning Proceedings of Computational Natural Language Learning Madrid 233 234 Annexe Nous fournissons en annexe quelques tables reli es la partie consacr e aux adverbes locatifs Table PNNpr Table NNpr d partement Table NNpr tat 69 Table NNpr le Table NNpr mer extrait Table NNpr r gion Table NNpr r publique 235 5 50 ER E f f P ET 1 D ESC COS E EE TT SC E E F Lela ARRAN ON apa m e c te c te ENEN d partement d outre mer tats unis SE d partement AARAR Loc Dete pre f gt f f d ration 14 fleuve KI Vorgt re f fe f f province fe
135. Mathematical Structures of Language John Wiley and sons New York Hindle D Rooth R 1994 Structural Ambiguity and Lexical Relations Computational Linguistics 19 1 227 Jelinek F Lafferty J D Mercer R L 1992 Basic methods of probabilistic context free grammars In P Laface R De Mori eds Speech Recognition and Understanding Recent Advances Trends and Applications volume F75 of NATO Advanced Sciences Institute Series Jonasson K 1995 Le nom propre constructions et interpr tations Champs linguistiques Editions Duculot Joshi A 1987 Introduction to Tree Adjoining Grammar In A Manaster Ramer ed The mathematics of Language John Benjamins Philadelphie Joshi A Hopely K 1999 A Parser From Antiquity Extended Finite State Models of Language In A Kornai ed Cambridge University Press Karttunen L 2001 Applications of Finite State Transducers in Natural Language Processing In S Yu A Paun eds Implementation and Application of Automata Lecture Notes in Computer Science 2088 Springer Verlag Heidelberg Karttunen L 2003 From numbers to numerals Proceedings of the EACL workshop on Finite State Methods in Natural Language Processing Budapest Koskenniemi K 1983 Two level morphology a general computational model for word form recognition and production Publication 11 Department of General Linguistics University of Helsinki Koskenniemi K 1990 Finite state parsing and di
136. Nous avons vu dans les exemples que cela pouvait tre un autre type d identifiant A B Z AA AB etc 165 pour chaque ligne i de M Te To copie pour chaque transition t q a q e si a A Il a Ier val M i j si a Ion alors si M i j alors val amp finSi si M i j alors val finSi finSi si val alors T modifierEtiquette t e sinon si val alors T supprimerTransition t sinon T modifierEtiquette t val finSi finSi finSi finPour finPour Nous avons utilis cette m thode pour convertir nos tables de groupes pr positionnels locatifs de mani re approximative L approximation est d au fait que nous ne tenons pas compte des tables des noms propres car nous r alisons une description g n rale de ces derniers dans le graphe patron Le constituant Npr est d crit graphiquement dans le graphe Npr l aide des m ta tiquettes lt PRE gt et lt MOT gt qui d signent respectivement tout mot commen ant par une majuscule et tout mot graphique s quence de caract res Le graphe patron PNNprApprox repr sente l ensemble des structures de la table PNNpr avec toutes les pr positions Il est param tr par les variables ob EC ED EE qui correspondent respectivement aux pr positions colonne B dans colonne C en colonne D et E colonne E et qui prennent une valeur lorsqu on choisit une entr e de la table La variable OF d signe le classifieur c
137. OmO A k V Kc A K4 A Se LR AS loza K d X Figure 85 automate Au On dit que la ligne v de la table M est s lectionn e par la ligne u s il existe un chemin dans l automate partant de l tat initial l tat v i On dit aussi qu une table est m s lectionn e si elle contient m lignes s lectionn es 4 5 2 2 Un graphe de r f rence avanc Comme dans la m thode pr c dente de conversion nous utilisons un graphe de r f rence ou graphe param tr Le format des variables utilis es est diff rent car on traite un syst me avec n tables et non plus avec une unique table Intuitivement il est au moins n cessaire que les variables contiennent un indice de colonne et un indice de table Comme les syst mes r els ne comprennent pas de relations complexes impliquant des tables m s lectionn es avec m gt 1 ces informations dans les variables devraient suffire dans la plupart des cas Cependant th oriquement les graphes de r f rence requi rent plus d informations dans les variables C est ce que nous allons montrer par la suite 170 Comment atteindre un l ment d information Pour chaque ligne u de M nous souhaitons construire un graphe qui repr sente toutes les structures syntaxiques cod es dans u et r cursivement dans toutes ses sous lignes Chaque l ment d information se trouve dans un l ment M v j Une m thode simple pour atteindre cet l ment partir de l
138. P u i 2 W finPour finPour sinon on est dans un sous automate R lt P copie dR Y R d piler res lt res U rechercheFacteurRec qn Y R u i H W finSi finSi pour chaque transition q a q de X si a est terminal alors si MatchEtiqEns o ui est vrai alors res lt res U rechercheFacteurRec q X P u i 1 H W finSi sinon a est non terminal R lt P copie R empiler q X res res u rechercheFacteurRec qo a a R u i H W finSi finPour retourner res finFonction Par cet algorithme on n obtient qu une partie de l ensemble E des grammaires de G qui acceptent u comme facteur On compl te cet ensemble en l augmentant des grammaires de G qui utilisent ces grammaires au moyen d un parcours inverse du graphe de d pendance de Gd Cette proc dure est synth tis e dans la fonction suivante fonction augmentedGrammarSet qui renvoie l ensemble augment de grammaires recherch es fonction Gd parcourirlnverse X si X marque est vrai alors retourner Y finSi X marque vrai res X pour chaque arc Y X de Ed res res U parcouririnverse Y finPour retourner res finFonction 216 fonction augmentedGrammarSet E Gd pour chaque X de Vd X marque faux FinPour res Y pour chaque X de E res res U Gd parcouririnverse X finPour retourner res finFonction 5 5 4 Intersection approximative de grammaires Un utilisateur peut tre int ress par savoir si une grammaire qu il est en tr
139. Pe a panda ezt Es PEE A AC EL CC JAHE alk EE Aa a a 3 SIS 2 ala ls la z 18 5 lo 515 R E SS S 18 Z ala E S la zZ Z S T z o 5 ZS E EN SIDD la lu ID bad E ds z 5 an bi qnd as 190NN NNpr r pub ligue Index MC LE Mc AO de Det Npr LE Mc Ad de Nor LE Mc de Det Npr M tte Det Yarane Nor dans Det Mpr Det Npr hptr orientale 5 E 1 mn Ea ER 3 an ha GA CH T kel SS fazi vanuatu Venezuela Y men Yougoslavie zambie Zimbabwe LE Nc de Mpr LE MC Mpr a 250 Index adverbe 110 ambiguit 29 s mantique 116 120 analyse automatique de textes 26 33 analyse lexicale 28 analyse syntaxique 27 31 application de grammaires locales 37 compl ments pr positionnels locatifs 173 77 expressions de mesure 98 107 noms propres g ographiques 148 53 arbre syntaxique 27 argument 17 ASCII 187 automate du texte 29 39 base de donn es 184 classification 22 compl ment circonstanciel 110 compl ment pr positionnel 110 locatif 112 port e 111 verbe support 111 compl ment pr positionnel locatif codage 154 159 figement 160 64 interpr tation 115 pr position locative 115 26 153 60 156 verbe support 153 construction inverse 130 conversion de tables en graphes 36 165 77 algorithme 165 171 expressions de mesure 58 81 83 graphe param tr avanc 170 syst me re
140. Table 14 chantillon de la table NNpr mer ss 146 Table 15 chantillon de la table NNpr le ss 147 Table 16 chantillon de la table NNpr r publique ooooconnnonccccnonoconononocnccconancncononanccnnnnnnnos 148 Table 17 lt m ta table E 150 Table 18 chantillon de la table DNNpr ss 155 Fable 19 r prise d pre ege eege ERKENNEN 159 Table 20 reprise de NNpr r publique ss 160 Table 21 table A il Re nine eee e 167 E Ur Ir 168 Table e DC E 168 Table 24 table de d finition des syst mes relationnels 177 Table 25 tiquette normalis e de 1 n a e a a r aai 191 Table 26 normalisation de l tiquette graphique donne 191 Table 27 normalisation de l tiquette lt bleu N f gt ss 192 Table 28 normalisation de lt N z1 Hum ms gt ss 192 12 Chapitre 1 Introduction Ces derni res ann es le Traitement Automatique des Langues TAL est devenu une discipline incontournable En effet l explosion du nombre de documents disponibles notamment sur Internet et de services propos s a rendu n cessaire l implantation d outils manipulant des donn es crites et orales Ces outils servent notamment am liorer l acc s l information comme la recherche de documents la traduction ou le r sum de textes etc J M Pierrel 2000 La grande
141. a complexit qu elles g n rent dans les op rations Elles sont alors modifi es Par exemple l tiquette qui interdit l espace entre deux symboles est 18 Th oriquement il existe des repr sentations formelles plus puissantes pour d crire le langage naturel Mais nous nous pla ons dans le cadre th orique du lexique grammaire qui repr sente les faits linguistiques de mani re tr s simple 187 remplac e par 1 tiquette vide indispensables Des proc dures classiques de synchronisation des automates permettent de supprimer les transitions tiquet es par le mot vide des r gles automates L mondation supprime les tats inutiles et la minimisation rend notre repr sentation optimale cf T Sudkamp 1997 Pour se rapprocher de la repr sentation th orique il convient d extraire des automates les deux alphabets La distinction entre les symboles non terminaux et les symboles terminaux est imm diate le symbole sert de pr fixe chaque symbole non terminal c est dire une cha ne de caract re qui d signe le nom d un sous automate Un point cependant pose probl me L alphabet des l ments terminaux ne comporte pas que des symboles l mentaires En effet si l on se place au niveau linguistique on constate que la grande majorit des tiquettes employ es ne sont pas atomiques c est dire qu elles repr sentent un ensemble de symboles l mentaires Nous examinons chaque typ
142. a corde a une longueur de 20 m 3 3 3 2 Verbes supports D abord le sch ma de phrase pr c dent est un cas particulier du sch ma de phrase ci dessous NO Vsup Pr p un Ng de Dnum Unit Le verbe support et la pr position associ e peuvent conna tre des variations lexicales avoir faire tre de compter contenir etc Cet immeuble a une hauteur de 150 m tres Cet immeuble fait une hauteur de 150 m tres Vsup faire La salle des f tes a une temp rature de 30 C la salle des f tes est une temp rature de 30 C Vsup tre Ce spectacle a une longueur de deux heures Ce spectacle est d une longueur de deux heures Vsup tre de L agglom ration parisienne a une population de dix millions d habitants L agglom ration parisienne compte une population de dix millions d habitants Vsup compter Ces aliments ont une nergie de 10 kJ Ces aliments contiennent une nergie de 10 kJ Vsup contenir Cependant cette variation d pend du Ng Une tude syst matique est n cessaire Max a fait est de Seet comporte une taille de 2 m Cette propri t a fait est de est comporte une surface de 2 hectares Cette salle a fait est de est comporte une temp rature de 17 C Ces aliments ont font sont de sont comportent une nergie de 10 kJ Ce bus a fait est de est comporte une vitesse de 100 km h Notons que l ut
143. a ligne u de la table principale est d avoir la s quence des colonnes secondaires successives utilis es pour s lectionner la ligne v Si l on applique l automate d terministe A cette s quence l tat r sultant est v i correspondant la ligne v de M Ainsi les variables du graphe de r f rence repr sentant des l ments d information doivent contenir une s quence d indices absolus de colonnes secondaires et la colonne d signant la propri t souhait e Comme le format de cette variable comporte une certaine complexit pas forc ment la port e des linguistes nous avons simplifi cette repr sentation En fait la principale difficult consiste surtout d terminer une ligne parmi plusieurs lignes s lectionn es dans une table m s lectionn e avec m gt 1 Cependant le cas m gt 1 ne devrait pas tre une situation tr s fr quente car les ph nom nes linguistiques sont relativement simples Etant donn cette remarque nous proposons d utiliser le format suivant pour les i est l indice de la table o l information se trouve la s quence K K2 K est la s quence des indices des colonnes secondaires pour atteindre la ligne s lectionn e dans la table i Si M est 1 s lectionn e K K est optionnelle en pr calculant une table de hachage PH associant chaque table 1 s lectionn e leur ligne s lectionn e on acc de directement l information Autrement si M est m s lectionn e a
144. a pile cela signifie que l automate courant X est un sous automate de Z et qu il a t appel dans Z par une transition dont l tat d arriv e est gr Ainsi pour revenir l automate Z apr s avoir atteint un tat final de X on d pile et on sait alors d o l on doit continuer la reconnaissance de u Inversement si l on passe par une transition dont l tat d arriv e est a et qui est tiquet e par un non terminal Y on empile alors le couple q X et l on continue la reconnaissance dans le sous automate Y Si l on passe par une transition tiquet e par un symbole terminal o et dont l tat d arriv e est q on v rifie que u correspond Oo par la fonction TagMatchingEns S il y a correspondance on continue la reconnaissance pour l indice i 1 partir de q Si l on atteint la fin de la s quence u u est un facteur de l automate de base fonction rechercheFacteur G W u ESQ pour chaque automate X de G D clencheurs D tecter les tats d clencheurs de X pour chaque tat q e D clencheurs P nouvellePile E amp E u rechercheFacteurRec q X P u 2 X W finPour finPour retourner E finF onction 215 fonction rechercheFacteurRec q X P u i H W si i gt longueur de u alors retourner H finSi res Y si q est final dans X si P est vide alors on est dans l automate de base pour chaque automate Z d pendant de X pour chaque q e W Z X res res U rechercheFacteurRec q Z
145. a plupart des m thodes utilis es en TAL qui dans la majorit des cas utilisent des approches statistiques passant par des phases d apprentissage sur des corpus Par d finition les r sultats sont des approximations et donnent invariablement des erreurs Le but est d valuer quantitativement le mod le statistique utilis Par notre m thode nous d crivons tous les cas possibles et non pas seulement ceux qui apparaissent dans les corpus Ainsi les expressions retrouv es dans les corpus ne repr sentent qu une infime proportion des expressions r ellement repr sent es dans les grammaires Ainsi une valuation ne porte que sur une toute petite partie de la grammaire Cependant ces valuations permettent de compl ter nos descriptions au fur et mesure au moyen des expressions non trouv es car une grammaire est toujours en volution Une valuation n est donc valable qu un instant t Dans notre tude sp cifique nous constatons que les expressions de mesure dans les corpus journalistiques g n raux ou dans les corpus scientifiques de vulgarisation n apparaissent que tr s rarement et leur fr quence selon les types d unit s est tr s h t rog ne En effet alors que le mot kilom tre s appara t 2 645 fois dans une ann e du Monde 1994 environ 100 millions de mots il n existe que 19 s quences appartenant aux classes Volt et Volt_abr Les unit s Newton et lectron volt n apparaissent m me pas les unit
146. a une fronti re avec la France La France et la Belgique ont une fronti re E commune gt la fronti re de la France avec la Belgique r duction 85 la fronti re entre la France et la Belgique r duction Dans notre cas angle se comporte de la m me mani re m me si math matiquement la sym trie n est pas v rifi e car un angle est sign En effet on peut analyser a comme deux phrases Le livre a un angle de 45 avec le crayon Le livre a un certain angle avec le crayon cet angle est de 45 Ainsi on retrouve le cas g n ral dans la premi re phrase que l on peut r duire angle entre le livre et le crayon On obtient les phrases quivalentes suivantes Le livre a un angle de 45 avec le crayon L angle du crayon avec le livre est de 45 L angle entre le crayon et le livre est de 45 L emploi du verbe support avoir est galement possible avec le nom altitude L avion a une altitude E de croisi re de 10 000 m E au dessus de la mer Cependant altitude ne rentre pas dans la m me structure de base que angle Ce pic a une altitude de 3 290 m avec le niveau de la mer Nous examinons maintenant la structure b en tre Les noms entrant dans ce sch ma de phrase sont altitude distance hauteur profondeur Ces quatre entr es ont toutes un comportement propre Tout d abord seuls les noms distance et hauteur ont un comportement sym trique bien qu ils n entrent pas dans l
147. aaa Ti 3O r publique de Bulgarie bulgare Jla 55 MOlr publique de jle Burundi j fe j l jle anse D I 30 r publique de lle Cameroun j camerounais jle Salle 57 30O r publique de le Cap Wert cap verdien Jle 102 30 r publigue Centrafrique j centrafricaine le E D 30 r publique de le Chili j chilien jle Gei Sa Es 108 30 r publique _ populaire de_ Chine chinoise la E 12 30O r publique de Chypre j ehupriote LE B 3O r publique de Colombie j colombien Jla 59 3O r publique de le Congo l congolais Jle HI 30 r publigue d rmocratique de le Congo CASNI CES jle Zaire j l 30 r publique de Cor e j sud cor en Jla Cor e du Sud Table 20 reprise de NNpr r publique Les tables dont les noms propres font partie de la cat gorie 1 ne sont pas modifi es Les rares exceptions sont enlev es de la table et cod es dans une table s par e En l tat actuel des travaux nous n avons pas rencontr de tels cas Nous ne codons pas dans la table NNpr ville le fait que la pr position ne soit accept e qu avec les formes courtes des noms de ville nous le ferons lors de la transformation des tables en graphes cf derni re section du chapitre 4 4 3 Des adverbes
148. age Cambridge Press MA Roche E Schabes Y 1997 Finite State Language Processing The MIT Press Cambridge MA Romary L 2000 Outils d acc s des ressources linguistiques In J M Pierrel ed Ing nierie des Langues Hermes Science Paris Rothenberg M non dat Encore quelques remarques sur l apposition en fran ais Sabah G 2000 Sens et traitements automatiques des langues In J M Pierrel ed Ing nierie des Langues Hermes Science Paris Salkoff M 1973 Une grammaire en cha ne du fran ais Analyse distributionnelle Dunod Paris Senellart J 1998 Locating noun phrases with finite state transducers Proceedings of the 17 International Conference on Computational Linguistics COLING98 Montr al 231 Senellart J 1999a Reconnaissance automatique des entr es du lexique grammaire des expressions fig es In B Lamiroy ed Le lexique grammaire Travaux de linguistique Bruxelles Senellart J 1999b Outils de reconnaissance d expressions linguistiques complexes dans de grands corpus Th se de doctorat Universit Paris 7 Sharir M 1981 A strong connectivity algorithm and its application in data flow analysis Computers and Mathematics with Applications 7 Silberztein M 1993 Dictionnaires lectroniques et analyse automatique de textes Le syst me INTEX Masson Paris Silberztein M 1994 INTEX a corpus processing system Proceedings of the 15 International Conferenc
149. aide de transformations entre diff rentes parties du discours Par exemple il existe une relation d quivalence entre la classe du verbe injurier et celle du nom injure par la transformation de nominalisation J Giry Schneider 1978 Max injurie L a Max fait des injures L a Meunier 1981 a tudi les transformations d adjectivation entre les noms et les adjectifs Max est soucieux de ce que L a r ussisse son examen Max a le souci de ce que L a r ussisse son examen Les transformations binaires op rent sur deux phrases simples Ce sont par exemple la coordination Max travaille et Luc joue Max travaille Luc joue la subordination circonstancielle Max travaille pendant que Luc joue la relativation Luc aime la femme que Paul a d nonc e la police En fait les phrases simples servent g n rer des phrases complexes au moyen des transformations Elles sont combin es entre elles l aide des transformations binaires La r duction de constructions pr dicats nominaux ou adjectivaux permet de compacter les informations d une phrase simple en structures nominales et de les ins rer dans des phrases Le livre de Max sur Paul est un gros travail 21 Max fait un livre sur Paul cela est un gros travail Cet homme gentil va se faire exploiter Cet homme est gentil il va se faire exploiter 2 3 4 Une d marche exp rimentale L un des buts de la linguistique est de classer les
150. ain de construire mw existe pas d j dans la biblioth que La comparaison de deux grammaires revient faire une intersection Or il est bien connu que les langages alg briques ne sont pas ferm s par intersection Il est donc n cessaire de faire des approximations Une premi re approximation consiste transformer la grammaire locale examiner en grammaire r guli re quivalente un automate car l intersection d un langage alg brique la biblioth que et d un langage r gulier est un langage alg brique J Berstel 1979 Le formalisme des grammaires alg briques est tr s usuel en traitement automatique des langues Cependant alors que leurs tailles augmentent le non d terminisme des grammaires posent des probl mes d efficacit lors de leur application des textes L approximation des grammaires alg briques en automates d terministes est un sujet tr s la mode car elle peut tre extr mement b n fique au niveau du temps de calcul elle supprime le probl me du retour en arri re ou backtracking Les algorithmes les plus connus sont ceux de F Pereira et R Wright 1991 1997 M Morhi et F Pereira 1998 qui traitent avant tout des grammaires alg briques pond r es pour le traitement de la parole M Morhi et J M Nederhof 2001 montrent l int r t de d abord transformer une grammaire alg brique en un automate sous forme compact e syst me d appel des sous automates Cette forme compact
151. airement des villes ex Paris Bordeaux le Pir e La Havane 4 3 2 Crit res de d finition des Nprc Des crit res formels sont n cessaires pour distinguer les diff rents types de s quences de la forme Detc Nc de E Det Npr a Une ville de France b La ville de Pagnol c La ville de Paris Nous distinguons formellement ces trois cas en examinant les phrases l mentaires de base partir desquels sont form s les groupes nominaux a NO tre situ Loc NI Nc nom t te de NO et Npr celui de N1 UN Nc qui tre situ Loc E Det Npr une ville qui est situ e en France UN Nc de Loc E Det Npr une ville de en France M Gross 1986 UN Nc de E Det Npr une ville de France b NO vivre Loc NI Pagnol vit dans une ville la ville o vit de Pagnol c E Det Npr tre UN Nc Paris est une ville la ville qu est E Paris On suppose que Paris est un nom de ville et non un nom de personne par exemple 70 1 existe bien d autres interpr tations pour ce type de groupe nominal 128 Dor navant la structure que nous tudions est la structure c 4 3 3 Statut syntaxique des Nprc Quel est le statut syntaxique des s quences que nous traitons Une premi re approche consisterait consid rer ces s quences comme des appositions M Rothenberg non dat Les s quences la mer M diterran e la ville de Paris l tat de Californie et l le d Ouessant peuvent t
152. ais le comportement du nom verre n est pas exclusif et ce dernier peut tr s bien appartenir un compl ment locatif La fourmi a bu dans deux verres De m me comment d terminer localement la classe laquelle appartient l adverbe comprenant le nom facteur dans les phrases suivantes Max est pass apr s le facteur Max est pass apr s que le facteur soit pass temps Sur cette image Max est assis apr s le facteur 3 lieu Il existe galement un probl me avec les noms humains collectifs qui d signent la fois un lieu et un ensemble de personnes A la course de voile Centrale a coup la ligne avant cette cole temps Pour aller la maison tu dois tourner avant cette cole lieu Les noms pr dicatifs d signant un v nement se retrouvent plus facilement dans des adverbes de temps apr s leur rencontre Cependant rien n est moins s r avec la phrase suivante o 58 Se Zo on considere le facteur comme un objet inerte 116 Pon est incapable de dire si l on a un adverbe de temps ou un adverbe de lieu sans doute les deux Au concert de Johnny Marie a rencontr Luc O Marie a t elle rencontr Luc au concert de Johnny dans le lieu o Johnny a fait son concert Quand Marie a t elle rencontr Luc au concert de Johnny Par ailleurs pour une m me pr position locative il existe plusieurs emplois locatifs C est le cas de la pr position sur L interpr tation s mantique
153. ans des sous graphes Dinar pour les diff rents types de dinars Dollar pour les diff rents types de dollars Franc LivreSterling etc Nous donnons le graphe Dollar dans la figure ci dessous lt E gt Sam rnicain gt lt canadien gt lt australen gt lt jamaicamn gt lt bb rien gt lt n oz landais gt de les Cara bes Bahamas la Barbade Belize Guyana ae Hongkong Malaisie Singapour Taiwan Trinit et Tobago Zimbabwe lt E gt de l Est lt dellar gt ka Eermudes E Salomon lt cents Figure 30 Dollar Nous avons galement construit le m me genre de graphes pour les unit s en anglais pour lesquelles nous avons utilis le dictionnaire en ligne se trouvant PURL www unc edu rowlett units Nous donnons ci dessous le graphe d crivant la classe des unit s dont l unit de base est gram gramme Les symboles de monnaies ont un comportement diff rent des autres unit s car ils sont toujours situ s avant Dnum ex 10 lt gram gt gigagram gt lt megagram gt lt kilogram gt lt hectogram gt lt delagram gt A lt centigram gt lt milligram gt lt microgram gt lt nanogram gt lt picogram gt lt fembogram gt Figure 31 Gram 51 3 2 3 2 Les contraintes internes a Dnum Unit La s quence Dnum Unit comprenant deux composants ind pend
154. ant respectivement aux colonnes B D E de la table NNpr le Le symbole B est la n gation logique de OB Ce symbole utilis dans Unitex permet de d crire de mani re simple une instruction du type if then else En effet la colonne B indique si le classifieur est au pluriel signe ou au singulier signe Ainsi le graphe patron doit contenir les deux possibilit s Les symboles B et B permettent de s lectionner une des deux L tiquette lt D N s gt indique que le classifieur sous forme lemmatis e symbolis par ED est un nom au singulier lt D N p gt indique qu il est au pluriel Le sous graphe Modif est un graphe d crivant un modifieur adjectival quelconque quivalent l expression r guli re lt ADV gt lt E gt lt A gt avec lt A gt adjectif et lt ADV gt 151 adverbe En r solvant les r f rences du graphe patron ci dessus la table NNpr ile pour l entr e le de Born o on obtient par exemple le graphe ci dessous le D I sz lt son DET s lt le D I ms lt son DET ms l Mor lt archip eLN ms AH Mo h F Figure 78 entr e le de Born o A partir de chacun des graphes patrons g n r s nous g n rons les graphes associ es leurs entr es lexicales Apr s union de ces graphes nous obtenons un automate fini Cet automate est en quelque sorte un mini dictionnaire syntaxique de groupes nominaux simples Nous
155. ants est une facilit th orique d criture que Pon s est donn Dans les faits bien que cette ind pendance se v rifie souvent elle n est pas toujours vraie En effet plusieurs points remettent en cause cette repr sentation Tout d abord il semble exister des contraintes stylistiques entre Dnum et Unit Par exemple la combinaison DnumEnLettres DetNnumDe Unit _Abr n est pas naturelle alors que les autres sont tout fait acceptables dix quelques dizaines de m 10 m m tres dix quelques dizaines de m tres Nous illustrons cette r gle sous la forme d un graphe repr sentant la s quence form e d un d terminant num rique et d une unit m trique DnumEnLettres DetNnumDe DnumEnChiffres FormuleScientifique Figure 32 R gle stylistique Ensuite les d terminants num riques ne sont pas toujours connexes et peuvent se diviser en deux parties entre lesquelles vient se greffer l unit comme le montrent les exemples ci dessous Max a un retard de huit minutes trente et demi par rapport son emploi du temps Marie a saut 5 m 60 Cette contrainte est repr sent e par le graphe ci dessous 5 On utilise le graphe NombreEntierEnChiffres car tout nombre d cimal est interdit 2 5 m 12 Notons que l espace blanc entre l unit et le nombre entier en chiffres qui la suit est respect pour viter la confusion avec les m tres carr s m2 ou m tres cubes m3 DnumEn
156. art l arc est attach droite E Figure 100 exemple de graphe Figure 101 graphe au format Unitex Un chemin dans un graphe est une s quence d arcs ay az a o pour chaque i e 1l n a X Xj 1 avec pour chaque j e 1 n x e V On peut simplement dire qu un chemin est une s quence d arcs cons cutifs Par exemple dans le graphe G7 la s quence d arcs 2 1 1 4 4 3 3 1 est un chemin allant du sommet 2 au sommet 1 Il n existe pas de chemin allant du sommet 2 lui m me Un graphe G est cyclique si et seulement si il existe au moins un sommet u de G tel qu il existe un chemin allant de u lui m me Par exemple le graphe G est cyclique car il existe un chemin allant du sommet 1 au sommet 1 L ensemble des sommets accessibles partir d un sommet x comprend x plus tous les sommets y tels qu il existe un chemin allant de x y Pour la suite on note cet ensemble 7 x Par exemple dans le graphe G 7 1 1 3 4 T 2 1 2 3 4 1 3 1 3 4 T 4 1 3 4 L ensemble des sommets co accessibles d un sommet x comprend x plus tous les sommets y tels qu il existe un chemin allant de y x Pour la suite on note cet ensemble fx Dans Gi B 1 1 2 3 4 2 2 P 3 1 2 3 4 P 4 1 2 3 4 Nous donnons maintenant la d finition d une composante fortement connexe notion fondamentale pour la suppression d une grammaire dans la biblioth que La composante fort
157. as explicitement dans la forme longue le d terminant Det est ajout gauche de cette nouvelle s quence Ce d terminant peut tre vide Det E le d partement de les Pyr n es Atlantiques les Pyr n es Atlantiques d terminant les explicite 7 La s quence de signifie que de est optionnel Le symbole est le symbole de Kleene a d signe l expression r guli re E a aa aaa 138 la ville de Paris Paris la r publique de Hongrie Hongrie la Hongrie le Mont Ventoux Ventoux le Ventoux le fleuve Seine Seine la Seine Les jugements d acceptabilit dans les exemples ci dessus se r f rent des phrases du type Ceci est Nprc Ceci est la ville de Paris Paris Les d terminants d finis ne sont pas les seuls tre autoris s avec les formes courtes On trouve galement des d terminants possessifs avec un sens affectif tr s expressif sa r publique du Mali gt son Mali sa mer M diterran e gt sa M diterran e son mont Ventoux gt son Ventoux son fleuve Seine gt sa Seine Les noms propres Npr ayant le d terminant Det vide acceptent sans difficult particuli re les d terminants possessifs K Jonasson 1995 D Maurel et O Piton 1998 sa ville de Paris gt son Paris son le de Tahiti gt son Tahiti De m me ces s quences acceptent des modifieurs sa belle ville de Paris devient son beau Paris Ces variantes sont tr s connues
158. assifications automatiques O Ferret et al 2001 C Fairon et P Watrin 2003 etc amp Calcul par la formule suivante NCL2 NCL NOL NO avec NOL tant le pourcentage des pr positions simples Loc ayant un emploi locatif exemple pour NCL2 56 30 100 3059 126 Du fait que les noms propres en g n ral sont en nombre quasi infini et varient norm ment au cours du temps il est impossible de tous les r pertorier dans des dictionnaires d o l int r t d outils automatiques d extraction et de classification Certaines classes sont un peu plus ferm es et plus stables c est le cas des toponymes Ainsi D Maurel et O Piton 1998 se sont lanc s dans la construction d un dictionnaire de toponymes pr cis ment les noms de r gions de pays et de villes et d hydronymes le dictionnaire lectronique Prolintex Ce projet est clairement gigantesque mais son int r t est ind niable pour le TAL Chaque entr e du dictionnaire contient plusieurs types d informations d ordre linguistique identification de la classe information flexionnelle information syntaxique sur les d terminants pour certains toponymes comme les villes d ordre extra linguistique positionnement g ographique par exemple Paris est une ville de France Par exemple l entr e Tours N PR DetZ Toponyme Ville ms fs provenant de la deuxi me version sans information d ordre extra linguistique signifie que Tours a
159. atique de textes In J M Pierrel ed Ing nierie des Langues Hermes Science Paris De N groni Peyre D 1978 Nominalisation par tre en et r flexivation Linguisticae Investigationes II John Benjamins Amsterdam Dermatas E Kokkinakis G 1995 Automatic stochastic tagging of natural language texts Computational Linguistics 21 2 Dister A 1999 Construire des grammaires de lev e d ambiguit s pour INTEX In C Fairon ed Analyse syntaxique et lexicale Le syst me INTEX Lingvistic Investigationes John Benjamins Amsterdam Dister A 2000 Actes des Troisi mes Journ es Intex Revue Informatique et Statistique dans les Sciences Humaines Li ge Universit de Li ge 224 Domingues C 2001 Etude d outils informatiques et linguistiques pour l aide la recherche d information dans un corpus documentaire Th se de doctorat en informatique Universit de Marne la Vall e EAGLES 1996 http www ilc cnr it EAGLES home html Eckel B 1998 Thinking in Java Prentice Hall PTR Upper Saddle River NJ Fabre C Fr rot C 2002 Groupes pr positionnels arguments ou circonstants vers un rep rage automatique en corpus Actes de la 9 conf rence sur le Traitement Automatique des Langues Naturelles Nancy Fairon C 1999 Analyse lexicale et syntaxique le syst me INTEX Lingvisticae Investigationes John Benjamins Amsterdam Fairon C 2000 Structures non connexes Grammaires des incises e
160. au moins un mot simple appartenant la classe d un mot de U GOU U U Un U UV U avec Vj ET pour chaque U resp Vy il doit exister dans le texte un mot appartenant la classe d un mot de U resp Mal Ces op rations ne posent pas de probl me Les recherches sont effectu es sur l index Les r sultats obtenus sont ensuite class s selon deux crit res Premier crit re pour chaque texte on compte le nombre de mots simples et compos s de la s quence qui ont au moins un mot quivalent dans le texte note entre 1 et n p avec p le nombre de classes de mots compos s Deuxi me crit re possible le nombre total de mots simples et compos s du texte qui ont un mot quivalent se trouvant dans u 14 T est aussi possible de classer les r sultats suivant la proximit des mots cl s dans le texte C est une m thode classique pour les moteurs de recherche qui indirectement donne un poids plus important aux mots compos s 211 Cette m thode de classement des r sultats donne un poids important aux mots compos s Cela se justifie par le fait que si un utilisateur rentre un mot compos dans sa requ te cela peut vouloir dire qu il tient ce que ce dernier soit pr sent tel quel dans le texte Il faut donc donner un poids plus fort un document contenant ce mot compos qu un document contenant l ensemble de ses constituants mais parpill s 5 5 3 Recherche en fonction du contenu lexical
161. avaux de M Gross et de son quipe r side dans sa d marche formelle exp rimentale et syst matique En effet il consid re qu l instar des autres sciences c est partir d exp riences que l on con oit les th ories La m thodologie du lexique grammaire part des faits linguistiques observables pour trouver un mod le linguistique tout en s appuyant sur les transformations et op rations formelles harrissiennes Par exemple chaque pr dicat est plac dans une construction simple et est syst matiquement soumis des exp riences Ces exp riences consistent appliquer la phrase diff rentes transformations et d cider l acceptabilit de la phrase obtenue Le fait d utiliser des outils formels rend ces exp riences reproductibles Les travaux effectu s ont notamment permis de d couvrir qu il n existe 22 pratiquement pas de verbes ayant exactement le m me comportement syntaxique Les pr dicats de m me construction d finitionnelle poss dent des propri t s syntaxiques communes mais pr sentent aussi des diff rences de comportement vis vis des transformations Par exemple les contraintes distributionnelles des sujets peuvent diverger Cet v nement Luc r v le Paul que sa femme le trompe Cet v nement Luc crit Paul que sa femme le trompe Certains verbes prenant un compl ment d objet direct n acceptent pas la transformation de passivation Le pont co te beaucoup d argen
162. avec la pr position alors que ce n est pas vrai pour le nom cit au sens de ville Max habite se trouve la Cit des Ulis Sapins quartier Luc habite se trouve la cit E m di vale de Carcassonne ville De m me le nom c te au sens pente accepte sans difficult la pr position dans ce qui n est pas le cas du nom c te au sens bord de mer Max habite se trouve dans la c te Saint Martin pente Max habite se trouve dans la c te d Azur bord de mer Remarque Dans le cas hypoth tique o la distribution pr positionnelle d pendrait des deux l ments du couple Npr Nc il suffit de d crire ces couples s par ment des autres dans des tables d crivant la fois le comportement interne et la distribution pr positionnelle de la forme longue 4 4 2 Formes courtes et variation pr positionnelle Pour l instant nous avons tudi le comportement distributionnel des formes longues des noms propres dans des groupes pr positionnels Il est int ressant de le comparer avec celui de leurs formes courtes associ es Les formes courtes sont des formes r duites des formes longues Il est donc logique que leur distributions pr positionnelles soient identiques comme dans 156 La croisi re se d roule dans la sur la en mer E M diterran e Max est perdu dans le d sert de E le Sahara La rencontre a lieu dans sur les les
163. avre et ne rentre pas dans notre tude la seconde d signe la r gion administrative du Nord Pas de Calais et rentre dans notre tude Un premier moyen de les distinguer syntaxiquement est d utiliser la phrase classificatrice Le Havre est une r gion Le Nord Pas de Calais est une r gion Le nom r gion du premier cas pourrait tre rattach aux noms de localisation spatiale au sens d A Borillo 1989 cf section sur les pr positions locatives compos es En effet l expression la r gion de peut tre remplac e par les alentours de o alentour est un nom de localisation externe Max a bien connu la r gion du Havre Max a bien connu les alentours du Havre Ainsi si l on pousse l analyse plus loin on peut consid rer l expression dans la r gion de comme une pr position locative dans la phrase suivante car elle peut galement tre remplac e par la pr position locative compos e pr s de Marie habite dans la r gion de dans les alentours de pr s de la ville du Le Havre L analyse pr c dente n est clairement pas valable pour le deuxi me cas Marie a bien connu la r gion du Limousin Marie a bien connu les alentours du Limousin 4 3 5 R duction des formes longues et figement Les formes longues des noms propres Nprc peuvent tre r duites en formes courtes Npr par le processus suivant Tout d abord la s quence LE Adj Nc Adj de est effac e dans Nprc Puis s il ne se trouve p
164. be de date que est une pr position le un d terminant d but un nom etc A terme il sera donc n cessaire d ajouter des informations internes dans les grammaires pour permettre cette lev e d ambiguit conditionnelle comme montr dans le graphe ci dessous lt d but N gt Figure 16 informations internes Dans ce m moire nous commen ons par un exemple simple que nous qualifierons de standard dans le cadre du lexique grammaire les expressions de mesure Nous verrons que m me des cas aussi simples n cessitent une attention particuli re et des descriptions fines Puis nous regardons un cas linguistique un peu plus complexe les adverbes locatifs Nous montrons le processus complet n cessaire leur analyse linguistique et leur repr sentation informatique Nous verrons que certaines formes n cessitent des repr sentations un peu plus volu es que celles utilis es traditionnellement au sein du lexique grammaire des syst mes de tables relationnelles Nous pr senterons les extensions formelles et algorithmiques qu induisent ces ph nom nes linguistiques Les m thodes que nous d crirons permettent de construire facilement et rapidement de nombreuses grammaires locales La perpective d une explosion de leur nombre nous incite 2 Tout est relatif La complexit du formalisme HPSG par exemple est nettement plus importante 2 Si apr s analyse compl te de la phrase l analyse de la gram
165. beaucoup de bruit du fait de lPambiguit naturelle de la langue qui doit tre prise en compte L limination des ambiguit s grammaticales syntaxiques et s mantique par des m thodes exactes n en est qu ses balbutiements De gros efforts sont faits pour estomper les d fauts des m thodes linguistiques D abord des m thodes formelles et syst matiques de description bas es sur l observation taxonomique des faits linguistiques ont t labor es par exemple la m thodologie du lexique grammaire de M Gross 1975 On assiste par ailleurs la naissance d outils informatiques facilitant le rep rage de ph nom nes linguistiques complexes dans les textes par exemple Intex M Silberztein 1993 Unitex S Paumier 2003 etc Ensuite de vastes corpus annot s ou non sont constitu s afin d offrir un champ d investigation et d valuation plus grand J Veronis 2000 par exemple le Brown Corpus LOB corpus British National Corpus Garside et al 1987 Penn Treebank M P Marcus et al 1993 pour l anglais Frantext P Bernard et al 2002 Abeill et al 2001 pour le fran ais Enfin des tudes sur la normalisation et la diffusion des ressources construites corpus dictionnaires etc sont en cours Romary 2000 Ces diff rents efforts doivent aboutir une meilleure collaboration et des changes de donn es C est un secteur cl en devenir de l informatique linguistique Pour constru
166. bigu t peut tre amplifi e Une 140 e ds de k Il n existe pas dans le dictionnaire 210 solution pour r gler ce probl me consiste donc lever l ambiguit de tels mots Une future indexation pourrait rassembler dans une classe les mots morphologiquement et s mantiquement li s rep rer lt gt rep rage etc Pour cela il faut coder la liste de ces quivalences par exemple partir des listes de J Giry Schneider 1978 Toutes ces techniques avanc es sont parfaitement connues des chercheurs dans le domaine Certains utilisent m me des dictionnaires de synonymes pour agrandir les classes d quivalences Par ailleurs certains mots vides comme la pr position de la conjonction ef etc sont extr mement fr quents dans les textes et bruitent donc l index Une m thode consiste liminer ces mots et m me des mots fr quents qui n apportent rien comme certains d terminants e certains pronoms le etc Certains de ces mots sont ambigus avec des mots pleins ex or il convient donc de lever l ambigu t Nos outils ne permettant pas encore de r aliser une telle op ration Pour l instant nous n liminons pas les mots vides de notre index Il faut donc pr ciser l utilisateur d viter d utiliser des mots vides dans ses requ tes Une technique compl mentaire moins connue consiste indexer les textes selon leurs mots compos s qui forment des unit s de sens Le fait qu une s quence de mo
167. ble de d finir des tiquettes non ambigu s Ce sont des s quences entre accolades qui d finissent avec pr cision une entr e lexicale comme dans un dictionnaire Par exemple l tiquette fdanse danse N fs indique clairement que Pon a la forme graphique danse qui provient de la forme canonique danse et qui est un nom au f minin singulier les tiquettes ensemblistes lexico syntaxiques Certaines tiquettes sont des abr viations d ensembles d unit s linguistiques l mentaires Elles sont crites dans Intex et Unitex entre angles On distingue parmi celles ci les tiquettes ensemblistes lexicales et grammaticales Les tiquettes lexicales doivent obligatoirement contenir une forme canonique Par exemple lt tendre gt d signe tous les mots dont la forme canonique est tendre lt bleu N gt d signe tous les noms N dont la forme canonique est bleu Les tiquettes grammaticales d signent des ensembles partir de codes grammaticaux de codes flexionnels et de traits syntaxiques et s mantiques Par exemple lt A fp gt d signe tous les adjectifs A au f minin pluriel fp lt N Hum gt d signe tous les noms qui ont le trait s mantique humain Hum les m ta tiquettes Les m tas d signent galement des ensembles de mots Les caract ristiques sont plut t graphiques lt MOT gt d signe tous les mots cha ne de caract res entre deux s parateurs lt PRE gt d signe tous les mots commengant par
168. c E Phrase Verbe Verbe support Ensemble des compl ments essentiels d un pr dicat Groupes nominaux arguments d un pr dicat Groupe Nominal libre Groupe nominal locatif Nom Nom classifieur de lieu Nom propre Adjectif Modifieur D terminant D terminant num rique Pr position Pr position locative Mot vide 2 2 Introduction Notre travail s inscrit dans le cadre th orique du lexique grammaire Le lexique grammaire est d abord une approche formelle transformationnelle et empirique de la linguistique qui met en avant le caract re fondamental du lexique L objectif est de recenser exhaustivement et syst matiquement l ensemble des comportements syntaxiques des phrases simples Elle se d marque notamment de la tr s populaire grammaire g n rative de N Chomsky 1957 dont le but est de trouver un syst me abstrait et coh rent d crivant une grammaire universelle 16 Gr ce ses caract ristiques le lexique grammaire a montr son int r t certain pour quelques domaines de l analyse automatique des textes comme l analyse lexicale ou l analyse syntaxique du fait de l accumulation syst matique de composants linguistiques La d marche adopt e est l oppos des approches statistiques majoritairement utilis es dans ce domaine Nous insisterons notamment sur un type particulier de composant les grammaires locales qui d crivent des ph nom nes linguistiques locaux de mani re compacte et pr ci
169. cas la phrase classificatrice n est pas valide la mer de Glace est une mer En effet Putilisation du classifieur mer est ici une m taphore lexicalis e On peut galement noter le cas d le de France dont le classifieur est r gion et non ile Plle de France est une le lIle de France est une r gion 131 Le figement de certaines s quences est clair comme pour les expressions mer du Nord et le du Diable Par ailleurs la composition interne d pend de chaque couple et n est pas toujours pr dictible renfor ant alors l impression de figement de ces s quences la mer E d Adriatique la mer E d Aral gt l Aral Adriatique est une mer l le E de la R union l le E de Maurice gt la R union Maurice est une le D autre part certains couples Npr Nc sont obligatoirement au pluriel a Les les L ile de les Canaries gt Les Canaries sont des les Pour certains classifieurs Nc le figement des couples Npr Nc est moins net Par exemple les couples ayant pour classifieur ville ont un comportement pr dictible si l on conna t les propri t s syntaxiques propres Npr En effet certains prennent des d terminants dont la premi re lettre est une majuscule comme Le Havre La Havane ou Les Saisies Ces informations sont cod es dans Prolintex sous la forme d un trait syntaxique DetLe pour Le Havre DetLa pour La Havane DetLes pour Les Saisies Les
170. cation d une grammaire locale un texte implique la consultation des dictionnaires lorsque ses tiquettes symbolisent un ensemble de mots lt N gt pour tous les noms Si le graphe utilise des mots techniques qui ne se trouvent pas dans le dictionnaire du syst me alors il pourra tre utile d ajouter le dictionnaire associ la grammaire lors de l insertion de cette derni re dans la biblioth que 7 Par ailleurs les grammaires servent aussi appliquer le contenu de tables syntaxiques il faudra donc donner la possibilit d ins rer des tables syntaxiques Nous pourrions galement r aliser des recherches approximatives de s quences l aide des outils de l quipe de F Guenthner CIS Universit de Munich Par ailleurs on pourrait imaginer qu un utilisateur ayant entam une description sous la forme d un graphe veuille savoir s il n existe pas dans la biblioth que un graphe similaire cf section sur l intersection de grammaires 5 2 2 Fonctionnement g n ral Notre syst me a une architecture distribu e client serveur cf Gardarin 1999 permettant d accumuler dans un m me lieu des grammaires locales construites divers endroits g ographiques Ce syst me permet par ailleurs aux chercheurs du domaine de r cup rer les informations et donn es qui les int ressent Il contient une base de donn es des composants linguistiques un moteur et un syst me de requ tes permettant de mettre jour la
171. cepte aussi la pr sence de la pr position en au sein d une expression fig e Les troubles sont en banlieue Ce nom peut aussi appara tre comme un nom de localisation sp cialis la ville dans la phrase ci dessous le sujet Luc est situ par rapport Paris Luc est dans la banlieue de Paris parisienne L emploi de la pr position en est autoris e m me si elle est plus naturelle avec l adjectif parisienne que le compl ment de nom de Paris Luc est en banlieue de Paris parisienne Il est facile de faire le parall le avec r gion dont nous avons montr pr c demment qu il pouvait tre consid r comme un nom de localisation spatiale dans certains cas Luc est dans la r gion de Lyon lyonnaise L emploi de la pr position en est difficile si le nom r gion n est pas suivi d un adjectif Luc est en r gion de Paris parisienne Nous avons r pertori manuellement les adverbes fig s locatifs Ils pourraient tr s bien tre int gr s la table EPC de M Gross mais pour une meilleure lisibilit du lecteur nous les repr sentons dans un graphe car ils sont en petit nombre Notons que nous avons ins r des expressions utilisant la pr position dans comme dans les les dans la rue dans le d sert ou dans la r gion car elles paraissent relativement fig es 163 cit mer principaut dl lt a gt tres Figure 80 EPC locatif Si l on appliq
172. cl re 1992 montrent que l instar des phrases contenant un adverbe les phrases constructions locatives 1 e dans lesquelles il existe un compl ment essentiel locatif peuvent aussi tre analys es l aide de constructions verbes supports Il est notamment possible d employer les arguments dans des phrases qui expriment une localisation avant et ou apr s le proc s Le verbe support neutre tre est parfaitement adapt dans ce cas l Nous utilisons les notations E et Ef pour repr senter respectivement l tat initial et l tat final d un proc s Les exemples suivants n ont pas besoin d tre expliqu s Max met l assiette dans l armoire Es l assiette est dans l armoire Max revient de la plage E Max est la plage 114 Max va de Paris Marseille en voiture E Max est Paris Ey Max est Marseille Ainsi dans l exemple pr c dent contenant deux locatifs on a aussi l interpr tation Marie a saut dans un lac gel en Suisse Ey Marie est dans un lac gel Les mouvements des diff rents arguments nominaux peuvent aussi tre explicit s l aide de verbes supports de mouvement comme aller venir passer etc il en existe quelques autres Max plonge le savon dans l vier Proc s Le savon va dans l vier Er le savon est dans l vier Marie prend un fruit de dans de dedans la corbeille E le fruit est de dans dedans la corbeille Proc s
173. comportement des noms propres m me ceux poss dant le m me classifieur Cette constatation est vraie pour un certain nombre de classifieurs comme mer le ou r publique La mer de le de E Nord La mer de le de E Barentz La mer de la de E M diterran e L le de E Maurice L le de E Malte L le E de la de Martinique Les les E de les de Canaries Le mont de de le E Ventoux Le mont de de les E Oliviers La r publique francaise de France La r publique islamique de Iran La r publique d mocratique et populaire de Cor e Cependant except pour quelques classifieurs comme fat au sens de pays ou r publique l ensemble des structures possibles des formes longues est limit NNpr NPNpr et NPDNpr voire NNpr a ce qui ne pose pas de probl me de repr sentation dans une table syntaxique Par ailleurs pour quelques classifieurs tels que ville d partement tat partie administrative d un pays le nombre de structures est clairement limit Par exemple le classifieur ville n accepte que les formes longues comprenant la pr position de NPNpr et NPDNpr la ville Paris Le Havre est un haut lieu touristique La ville de Paris Le Havre est un haut lieu touristique la ville parisienne havraise est un haut lieu touristique Pour le type NNpr a il semble que si l on remplace le nom ville par cit alors la derni re phrase devi
174. cycle Universit Paris 7 Miller G A Beckwith R Fellbaum C Gross D Miller K J 1990 Introduction to WordNet an on line lexical database Journal of Lexicography 3 Mitkov R 2002 Automatic Anaphora Resolution Limits Impediments and Ways Forward In E Ranchhod N Mamede eds Advances in Natural Language Processing Lecture Notes in Artificial Intelligence LNAI 2389 Springer Mohri M 1993 Analyse et repr sentation par automates de structures syntaxiques compos es application aux compl tives These de doctorat en Informatique Universit Paris 7 229 Mohri M 1997 Finite State Transducers in Language and Speech Processing Computational Linguistics 23 2 Mohri M Nederhof M J 2001 Regular Approximation of Context Free Grammars through Transformation In J C Junqua G van Noord eds Robustness in Language and Speech Technology Kluwer Academic Publishers Mohri M Pereira F 1998 Dynamic compilation of weighted context free grammars Proceedings of COLING ACL 98 Montreal Molinier C 1990 Une classification des adverbes en ment Langue Francaise 88 Larousse Paris J Molino 1982 Le nom propre Langages 66 Nakamura T para tre Analysing texts in a specific domain with local grammars the case of stock exchange reports Nakamura T Constant M 2001 Les expressions de pourcentage Flambeau 27 Section fran aise de l Universit de langues trang res de Tok
175. d pend de la nature aspect g om trie etc du nom W suivant la pr position cf C Vandeloise 1986 Le plateau est sur la table Le plateau est pos sur la table La branche est sur l eau La branche flotte sur l eau L alpiniste est sur la falaise Luc est accroch la falaise Luc est actuellement sur Paris Luc est actuellement Paris On distingue diff rents sens pour ces quatre phrases La premi re phrase indique un contact de surface entre le plateau et la table dans une position horizontale le plateau tant au dessus de la table cf dessin ci dessous Plateau 0 He a Figure 70 sur plateau table Pour la deuxi me phrase le contact est diff rent En effet la branche est partiellement immerg e dans l eau 117 branche Eau Top T H See e Sj o a LA GE Ap Ss 1 mmer e a E B T E l Rs a ra n n Mar 3 E mes 2 a E nm Figure 71 sur branche eau La troisi me phrase indique un contact de surface entre la falaise et l alpiniste dans une position verticale 1 alpiniste est accroch alpiniste Es Q H falaise Cer Figure 72 sur alpiniste falaise En l absence d un mod le formel du sens ces distinctions ne sont pas syst matisables Il existe d ailleurs des interm diaires entre ces trois situations Enfin la quatri me phrase est quivalente Luc est Paris mais avec une nuance s mantique
176. de la classe NA Max a une tension art rielle E de 10 Art riellement Max a une tension de 10 Paris a une densit d mographique E de 10 000 hab km2 D mographiquement Paris a une densit de 10 000 hab km2 Par la suite nous d cidons de ne pas traiter les noms tels que loyer 3 3 3 Propri t s distributionnelles lexicales et transformationnelles Nous tudions maintenant les variations lexicales et les transformations que peut subir notre phrase de base NO avoir un Ng de Dnum Unit 3 3 3 1 Distribution du sujet La distribution du sujet d pend du nom Nous distinguons trois types de sujets les groupes nominaux humains Nhum les groupes nominaux concrets Nconc et les groupes nominaux pr dicatifs Npred Par exemple le nom dur e ne s lectionne ni les sujets humains et ni les sujets concrets Le spectacle Paul La corde a une dur e de dix minutes Le nom compos tension art rielle ne s lectionne que les noms humains alors que faille interdit les noms pr dicatifs Le spectacle Paul la corde a une tension de 12 Le spectacle Paul la corde a une taille de 2 m La distribution du sujet permet de lever l ambigu t du nom longueur En effet l une des deux entr es a la m me distribution du sujet que dur e alors que l autre a la m me distribution que faille Le spectacle Paul la corde a une longueur de dix minutes 67 Le spectacle La baleine l
177. de m me avec les noms pr dicatifs le nom f te par exemple a plusieurs emplois ou sens qui se distinguent par la phrase l mentaire dans laquelle ils rentrent Marie fait la f te Marie fait sa f te Luc etc A un niveau plus s mantique si l on prend le verbe couvrir par exemple qui comporte deux compl ments essentiels le compl ment d objet indirect peut tre omis Cependant il est toujours sous entendu que l on couvre quelque chose de quelque chose comme dans Max couvre le toit de feuilles Le postulat de M Gross semble premi re vue ne pas se v rifier pour les mots non pr dicatifs Mais en les ins rant dans des phrases on observe que leur interpr tation d pend du contexte Luc aime le cheval manger de la viande de cheval faire du cheval Ces mots constituent la majorit des mots et sont souvent des noms voiture cheval table main Paul La voiture percute le cheval Certains adjectifs sont galement non pr dicatifs car ils ne rentrent pas dans des constructions en tre Max a gravi la face nord de l Everest La face de l Everest est nord 2 3 3 Transformations et g n ration de phrases complexes Les phrases simples sont sujettes des transformations qui consistent en une succession d op rations l mentaires ex effacement substitution d placement etc Par exemple la pronominalisation du compl ment d objet de Max mange une pomme consiste substituer une
178. del moyenn tout tout et pour to moyenne gros peine peu pr s quelque chose pr s epsilon pr s un cheval pr s un poil pr s une unit pr s quelques unit s pr vue de nez plus moins maxima minimum total pif lt presque gt approximativern environ exactement grosso modo juste maximum mintraua pile pratiquement pr cis ment seulement tout au plus tout juste tr s exactement Figure 26 PreDnumPost Cependant le comportement syntaxique des pr d terminants est plus complexe que cela et ils ne peuvent tre uniquement tudi s de mani re locale Il faut les consid rer dans des phrases simples comme dans M Gross 1977 Par exemple ils peuvent jouer le r le d adverbes car certains peuvent s ins rer n importe o dans les phrases Max a au total un poil pr s environ d pens 400 euros Au total un poil pr s Environ Max a d pens 400 euros Nous reviendrons sur ce ph nom ne ult rieurement lorsque nous examinerons nos diff rents sch mas de phrase repr sentant des mesures 3 2 3 Graphes l mentaires de mesure 3 2 3 1 Les unit s Dans cette section nous r pertorions les unit s de mesure Nous utilisons la classification scientifique tant donn une unit de base m tre m nous regroupons dans une m me classe ou graphe ses multiples et sous multiples ex kilom
179. der 1991 un plus grand nombre de noms et de propri t s syntaxiques associ es Nous regardons aussi l application de cette analyse la reconnaissance automatique de ce type d expressions dans des textes 3 3 2 Ng compos s Dans un premier temps nous avons s lectionn un ensemble de caract ristiques Ng qui entrent dans cette structure de phrase Nous prenons les plus courantes longueur poids co t temp rature etc Au total nous en avons s lectionn une quarantaine Nous regardons galement quelques noms du domaine conomique comme loyer pour l exemple mais ceci aurait n cessit une tude bien plus approfondie Nous renvoyons aux travaux de M Gross 1997 et de T Nakamura para tre sur le domaine de la bourse Les noms simples sont par exemple les noms longueur poids vitesse force co t etc Plus des deux tiers ont cette forme D autres sont des mots compos s Nous pouvons les classer en plusieurs classes selon leur structure interne G Gross 1996 une classe NA nom suivi d un adjectif tension lectrique tension art rielle densit d mographique pression atmosph rique intensit lumineuse intensit lectrique puissance nerg tique loyer mensuel une classe NDN nom suivi de la pr position de puis d un nom faille de chaussure pointure de pied s une classe complexe NDNA faille de m moire vive cache virtuelle La quasi totalit de ces noms compos
180. des grammaires 5 5 3 1 Indexation par symboles terminaux L indexation des grammaires par symboles terminaux est ais e car ces derniers ont t normalis s lors du processus de normalisation des grammaires Il convient d associer chaque terminal un ensemble d automates o il appara t Pour l instant l acc s aux l ments terminaux n est pas direct du fait de leur nature ensembliste et de la proc dure complexe de mise en correspondance Etant donn un symbole normalis x si l on veut acc der un symbole de l alphabet terminal normalis de la biblioth que 7 qui lui correspond il est n cessaire de parcourir la liste des terminaux Il s agit de comparer chaque symbole y de Tg avec x au moyen de la proc dure tagMatching x y Dans notre application cet acc s au prix d un parcours n est pas un gros probl me car tagMatching est tr s efficace et surtout le nombre de symboles comparer avec les symboles terminaux de Tg est limit moins d une dizaine de symboles La proc dure globale est d une complexit de n avec n le cardinal de Tg sans doute terme n sera gal quelques centaines de milliers de symboles Un probl me pourra survenir lorsque l on voudra comparer les alphabets terminaux de deux grammaires afin de calculer leur proximit Il conviendra alors de trouver une repr sentation ad quate d ensembles de terminaux Sachant que les symboles terminaux peuvent tre repr sent s par un
181. des occurrences nous n avons gard que 1 240 d entre elles car certaines unit s sont ambigu s comme m ambigu avec le m de Max m a dit que a allait et d autres appartiennent d autres types de mesure telles que les mesures de surface ou de volume un volume de 10 m3 Apr s examen des 1 240 occurrences pertinentes nous obtenons les r sultats suivants Silence pur Reconnaissance partielle Bruit pur 7 56 9 La colonne silence pur indique le nombre d expressions de mesure de longueur qui n ont pas t trouv es automatiquement m me partiellement La colonne reconnaissance partielle donne le nombre de s quences qui n ont t reconnues que partiellement La colonne bruit pur indique le nombre d occurrences qui n auraient pas d tre reconnue du tout Nous calculons le taux de silence de deux mani res soit sans tenir compte des s quences reconnues partiellement soit en en tenant compte On agit de la m me mani re pour le taux de bruit Taux de silence 0 6 5 1 Taux de bruit 0 7 5 3 50 ei S K d Le premier r sultat est calcul en consid rant les occurrences partielles comme correctes alors que le r sultat entre parenth ses est calcul en les consid rant comme incorrectes 100 Pour la plupart des s quences qui n apparaissent pas cela est d de simples oublis dans la construction des graphes comme soixante qui malencontreusement
182. deux tables M NNpr ile table principale et M2 PNNpr L indice de la colonne primaire de la premi re est 1 et celui de la seconde est 7 Il existe une relation qui relie M M par la colonne secondaire 3 de M Le graphe patron associ ce syst me est le graphe PNNpr ile voir ci dessus Nous impl mentons une proc dure g n rale permettant d extraire pour chaque ligne toutes les informations du syst me associ et puis appliquer le nouvel algorithme afin de g n rer les graphes de groupes pr positionnels locatifs pour chaque nom propre r pertori dans le syst me courant Pour l entr e lexicale le de Born o de NNpr ile nous obtenons le graphe suivant le DEI sz Ka son DEI is Modi ls DETP gt E gt som DET p Modi Eom o le D I mer K zeon DET me SS ento E H Figure 91 le de Born o dans un adverbe de lieu 101 T est clair que pour chaque ligne le nombre de colonnes utiles varient selon le syst me d fini nombre de tables nombre de relations 177 4 6 Conclusion L analyse automatique des adverbes locatifs ne peut se r sumer un simple rep rage des pr positions locatives et des groupes nominaux L tude des contraintes syntaxiques entre les constituants des adverbes est un premier moyen de r gler le probl me M Gross 1986 1996 C est ce que nous avons cherch faire en nous attaquant la distribution
183. deux tables diff rentes Il existe un cas tr s difficile traiter les lieux qui ont le m me nom et le m me classifieur comme Paris ville qui est la fois une ville de France et une ville des Etats Unis et peut tre m me ailleurs Il n est malheureusement pas possible de distinguer ces deux entr es dans nos tables sauf si l on ajoute des propri t s extra linguistiques reli es la position g ographique des lieux que l on traite et l on sort de notre cadre de travail Il existe galement diff rents emplois pour les noms classifieurs Certains d entre eux sont ambigus Il existe deux types d ambiguit s le classifieur ambigu peut avoir deux emplois du type Nc faisant partie d un nom propre Nprc par exemple tat pays 8 Il existe des centaines de milliers de ville dans le monde et seulement quatre oc ans 86 Cf galement O Piton et D Maurel 2001 137 ou r gion administrative ou c te bord de mer ou pente un emploi de type Nc et un emploi n entrant pas dans notre tude ex r gion zone administrative ou zone approximative Les premiers cas sont distingu s par des crit res syntaxiques ex c te cf section sur la distribution pr positionnelle ou simplement par notre connaissance du monde ex tat Examinons maintenant le deuxi me cas et prenons l exemple de r gion la r gion du Havre la r gion du Nord Pas de Calais Le premier exemple d signe la r gion autour du H
184. dictionnaires DELA implant s dans le syst me Unitex permettent de r aliser une telle op ration La consultation du dictionnaire de mots simples pour le texte T renvoie la liste suivante o chaque ligne correspond une entr e lexicale trouv e PREP z1 aident aider V z1 P3p S3p compos s compos A z1 mp compos s compos N z1 mp compos s composer V z1 Kmp de DET z1 de PREP z1 de Sitz grammaires grammaire N z1 fp les le DET z1 mp fp les le PRO z1 3mp 3fp locales local A z1 fp locales locale N 23 fp mots N 23 mp mots mot N z1 mp rep rer V z1 W Ainsi au moyen d une petite proc dure d analyse de cette liste on lemmatise chaque mot du texte Si un mot est inconnu on le laisse tel quel dans l index On obtient alors l index suivant pour T T aider T1 compos T1 composer Ti de T2 des T2 dur e T2 est T2 tre T2 grammaire Ti T2 la T2 le T T2 locales T5 local T mots Tr mot T1 rep rer Ti un T2 Le d faut majeur et bien connu de cette indexation est qu elle peut amplifier le ph nom ne de lambiguit naturelle En effet compos s trois fois ambigu a t d coup en deux lemmes compos et composer La classe associ e compos contient 4 mots et celle de composer une vingtaine La premi re classe est la bonne interpr tation pour compos s dans nos textes Ainsi comme sa taille est plus petite que la deuxi me l am
185. dictionnaires phon tiques DELAP E Laporte 1988 10 4 2 CERN Seat Les mots compos s sont des s quences de mots simples qui forment une unit linguistique cf section suivante 25 2 4 Lexique grammaire et analyse automatique de textes Les composants linguistiques accumul s dans le cadre du lexique grammaire sont sous la forme de repr sentations formelles simples listes tables automates finis et r seaux r cursifs de transitions Leur int gration dans des applications du domaine du Traitement Automatique des Langues TAL est donc naturelle Dans cette section nous r alisons un bref panorama du domaine de l analyse automatique de textes Puis nous montrons ce que peuvent apporter les composants linguistiques accumul s dans le cadre du lexique grammaire 2 4 1 L analyse automatique de textes Le Traitement Automatique des Langues TAL traite deux types d objets linguistiques des flux textuels et des flux de paroles Ces objets servent d entr es sorties des syst mes d analyse et des syst mes de g n ration Un processus d analyse re oit en entr e un objet linguistique et son but est de donner en sortie une repr sentation formelle de cet objet cat gories grammaticales des mots structure syntaxique des phrases repr sentation du sens etc l oppos un processus de g n ration prend en entr e une repr sentation formelle abstraite et construit partir de celui ci un objet linguistiq
186. e la relation UtilEstAuteurDeDico indique les auteurs des dictionnaires la relation UtilEstAuteurDeGram indique les auteurs des graphes la relation UtilEstAuteurDeT able indique les auteurs des tables la relation TableUtiliseGram indique les tables utilis es par les grammaires la relation DicoUtiliseGram indique les dictionnaires utilis s par les grammaires la relation UtilEstInterresseParGram indique les utilisateurs int ress s par les grammaires et qui souhaitent recevoir un courrier lectronique quand elles sont modifi es Notons que la relation entre une grammaire et une langue est r alis e par transitivit car il existe toujours un dictionnaire associ une grammaire Les dictionnaires par d faut sont les dictionnaires du syst me dictionnaires DELA 13 Pour plus de d tails sur les bases de donn es se r f rer G Gardarin 1999 184 GramUtiliseTable UtilEstAuteurDeTable Figure 93 base de donn es 5 3 Normalisation des grammaires locales 5 3 1 Repr sentation th orique des grammaires Les grammaires locales sont th oriquement quivalentes des r seaux r cursifs de transitions RTN W A Woods 1970 Les grammaires peuvent donc tre d finies comme des 4 uplets lt N T aut S gt o N est un alphabet de symboles non terminaux T un alphabet de symboles terminaux aut un ensemble de r gle automates sur NUT S l axiome de d part ou l automate principal Pour t
187. e G alors il ne peut tre supprim contrainte pr alable et il en est de m me pour tous les automates desquels il est d pendant Sinon on est s r que peut l tre et donc ajout A On cherche introduire de nouveaux automates dans A jusqu tre s r d avoir trouv tous les automates inclus dans G qui puissent tre supprim s Tllustrons cela par un exemple Soit une grammaire G dont l automate principal est nomm Z G comporte 12 automates nomm s Z XI X2 X11 Leurs relations de d pendance sont repr sent es dans le graphe ci dessous Les automates nomm s El et E2 sont ext rieurs G La partie gris e dans la figure de gauche d signe un ensemble A d automates de G que l on peut supprimer Celle de la figure de droite d signe l ensemble maximis Notre algorithme 135 Cette m thode est tr s efficace lorsque le nombre d objets lib rer est limit 156 Par automate principal dans B on entend chaque automate de B dont le non terminal associ soit contenu dans l automate autg Sg 203 de suppression consiste partir d une partie gris e r duite Z et l agrandir jusqu atteindre une limite xi1 xX E lt lt Ed X10 xy E2 Figure 107 ensemble A en cours de traitement Figure 108 automates strictement internes G Nous commen ons par un algorithme na f qui n a d autre in
188. e On note que l ambiguit avec les dates est toujours aussi r currente Notre empereur pr f r est n la fin du 18 si cle date Luc a pous L a au d but de l ann e derni re date Nous organisons nos graphes de la mani re suivante Nous repr sentons 8 formes de pr positions compos es Det Nde l ouest de la fronti re de en Nde en amont de sur Det N de sur le bord de dans Det N de dans le centre de dans la zone Adj de dans la zone ouest sup rieure de Le graphe associ est ADetNDe Pour clarifier le graphe nous repr sentons les directions du type l ouest de dans un graphe diff rent ALeOuestDe Le graphe associ est EnNDe Loc Le graphe associ est DansLaZoneAdjDe Les adjectifs r pertori s ont des caract ristiques purement g om triques dans l espace sup rieur gauche ext rieur etc Le sous graphe Adj direction d crit les adjectifs 120 Dnum Metre de 10 km E vol d oiseau de Paris 20 kilom tres au nord de un N de Dnum Metre de une hauteur de 30 m de r siduels face hors de ET plus moins JH sud sud d Ba nord Figure 73 ALeOuestDe amont touf en am re aval bord bordure bout ceinture contrebas lisi re
189. e Ces deux grammaires sont proches donc l utilisateur pourrait tre int ress Cependant l intersection des deux grammaires est vide Il est donc n cessaire de r aliser des modifications Ce probl me ressemble aux recherches approximatives de motifs recherche documentaire ou g nomique qu il conviendra d adapter notre formalisme les r seaux r cursifs de transitions Le probl me reste ouvert 5 6 Conclusion L avenir de l analyse automatique des textes au moyen d approches linguistiques passe par la construction de gigantesques ensembles de grammaires locales et une collaboration troite entre les diff rents chercheurs du domaine L outil de gestion que nous avons implant est donc une tape fondamentale et obligatoire Cet outil est pour l instant sous la forme d un prototype test par un nombre limit de personnes Une des retomb es imm diates de ce travail de recherche sera l exploitation pratique de cet outil dans le r seau RELEX A long terme la biblioth que constituera un tat des lieux complet et d taill des grammaires locales et pourra servir de base pour l laboration pratique d outils automatiques d analyse de textes 218 Chapitre 6 Conclusion Les grammaires locales sous la forme de graphes ont montr leur utilit dans le domaine du TAL M Gross 1997 Cependant deux questions fondamentales se posent Comment construire efficacement des grammaires pr cises et compl tes
190. e d tiquettes au cas par cas On perd dans ce cas des informations mais elles ne sont pas les chiffres et les caract res non alphab tiques Ces symboles sont par d finition minimaux donc ils ne posent pas de probl mes Exemples ll 2 lt gt les s quences de lettres Une s quence de lettres d limit e par deux s parateurs forme un mot graphique D un point de vue non linguistique une telle s quence peut former une unit atomique Cependant d un point de vue linguistique un mot sous sa forme graphique peut tre consid r comme un ensemble de mots ou d tiquettes lexicales ayant la m me forme graphique fl chie dans les dictionnaires Par exemple si l on prend le mot donne il y a deux analyses possibles soit c est un nom qui a pour forme canonique donne soit c est un verbe qui a pour forme canonique donner Le nombre d l ments ou cardinal de cet ensemble d pend de la finesse de codage du dictionnaire Dans un dictionnaire o chaque entr e n est associ e qu une cat gorie grammaticale le cardinal du mot danse not card danse serait gal 2 Dans un dictionnaire contenant aussi des informations flexionnelles comme le DELAF card donne est plus lev et est gal 7 comme le montre le petit chantillon de dictionnaire ci dessous donne N z1 fs donne donna N z3 fp donne donner V z1 P1s P3s S1s S3s Y25 120 Dans cet chantillon chaque l
191. e pr sente l avantage d avoir un graphe de d pendance acyclique autorisant des traitements que le cyclisme des graphes rendait impossibles substitution des symboles non terminaux par leurs automates par exemple Les automates complets peuvent donc tre construits la demande Le processus marche comme suit Soit G la grammaire convertir Il suffit de construire le graphe de d pendance Gd de G puis d en calculer le graphe condens G Chaque sommet X de G correspond une r gle non r cursive ou un ensemble de r gles mutuellement r cursives Le but de l algorithme est d associer chaque sommet de X un automate non r cursif Si l on a une r gle non r cursive on la garde telle quelle Si l on a un ensemble de r gles mutuellement r cursives alors pour chaque non terminal X associ s aux sommets de X on construit un automate compact quivalent non r cursif Il existe diff rents cas si la grammaire alg brique dont l axiome est X est strictement r guli re on peut utiliser l algorithme de d r cursivation de A V Aho et J D Ullman 1973 Si cette grammaire est strictement alg brique on peut utiliser l algorithme d approximation de J M Nederhof 2000 La proc dure de M Mohri et J M Nederhof est tr s int ressante car elle permet de r aliser des approximations adapt es aux besoins et rend l approximation plus r aliste Dans le cas de notre biblioth que il conviendra d adapter ce
192. e Det Npr indique si le nom propre compos a une variante de cette forme Les les Bermudes l archipel des Bermudes Cette propri t est valable dans les cas o le classifieur est fle et o le nom propre est obligatoirement au pluriel ce qui n est pas une surprise car un archipel est un ensemble de plusieurs les PB RES ADE SO RARES la MN D 5 E D T gt 5 sl 2 el E Ok z 3 d o eS g Saa E EJ a D oi ol ol 2 2 o Sl ala zS Sal d E Kei pe je Ela El 2 SIE zH dla TER File J Al outiennes j j Jles 56 ie e o Ascension e A n S a z 2 File ES S Bahamas E bahamien les 3 File e les Bal ares r les 57 HUE e lla Barbade pbarbadien J Jla 34 ie e Beaut a ES ES en E 3 4 ie Bermudes l les 35 File e Born o ol l o lt E gt 5 File e les Canaries les lb le e lle Cap Vert j cap verdien Jle Dit 7 ile Caraibes l les HA ie C l bes l les 36 le p ele Ceylan kt Letz In 37 le SJ Chypre chypriote lt E gt 38 File es Je Corse LL corse Jla 39 File e Cr te cr tois la 40 le e Cuba f cubain RIRES 59 fe e le Diable lo Hl ze le E
193. e certaine coh rence dans la biblioth que Soit Z le symbole non terminal associ l automate supprimer La contrainte est facilement v rifi e en examinant les arcs inverses partant du sommet Z de Gdg La suppression de type a est tr s simple Il suffit de supprimer Z de Ng et donc autg Z de Autg Si autg Z est principal on supprime dans autg Sp la transition tiquet e Z partant de l tat initial On ne fait rien avec les terminaux car le bruit n est pas d rangeant Par contre la mise jour des vues partielles est toujours aussi importante Elle change un peu de celle utilis e pr c demment nous l appelons MiseAJourDesVuesBis Elle ne concerne plus que l option suppression ce qui para t logique vu la proc dure globale dans laquelle nous nous trouvons La mise jour des index Ind est la m me Mais celle du graphe de d pendance Gdg est un peu diff rente En effet il faut maintenant supprimer les sommets 77 correspondant chacun des symboles de l ensemble des non terminaux supprimer Ens et pas seulement les arcs partant de ces sommets comme pr c demment Proc dure MiseAJourDesVuesBis Ens Ens ensemble de non terminaux Ind miseAJour Ens suppression Gds miseAJourBis Ens FinProc dure proc dure crite pour n importe quel graphe de d pendance Proc dure Gd miseAJourBis Ens pour chaque X e Ens Gd supprimerSommet X finPour finProc dure 5 4 4 2 Un algorithme manip
194. e cha ne de caract re unique il est possible pour chaque symbole x de Tg de construire un transducteur repr sentant l ensemble des symboles qui peuvent tre mis en correspondance avec x En sortie du transducteur il conviendra d associer x chacun des chemins reconnus en entr e par le transducteur 7 serait alors l union de ces transducteurs Cette proc dure potentielle est purement intuitive Cette perspective m rite d tre tudi e de plus pr s afin de trouver une repr sentation optimale des ensembles de symboles terminaux linguistiques 5 5 3 2 D finitions pr liminaires Avant de d crire les diff rentes proc dures utilis es pour rechercher des grammaires selon leur contenu lexical nous donnons quelques d finitions Soit la biblioth que de grammaires B che Tp autg Sg gt Soient X un symbole de Net G lt N T aut X gt la grammaire incluse dans B symbolis e par son axiome de d part X On a donc N c Npe T C Tg aut C autg pour tout X e aut autg X aut OI On dit qu un symbole terminal v est contenu dans un automate X de B si v est une tiquette de ce dernier On dit qu un symbole terminal v est r cursivement contenu dans la grammaire symbolis e par X i e G s il existe un automate Y de G tel que v en soit une tiquette Les proc dures de recherche que nous d crivons prennent en entr e un ensemble de mots u ujz Un ou une s quence ordonn e de mots uy Un Une op ration
195. e d pendant l automate de base change et devient l automate courant En effet u ne pourra plus tre facteur du pr c dent automate de base car il n aura reconnu la s quence u que partiellement On d crit ci dessous le processus permettant de trouver l ensemble E des grammaires de G acceptant u comme facteur Notons que l algorithme que nous donnons n est pas valable dans le cas o les grammaires sont r cursives gauche Il est donc n cessaire de v rifier au pr alable cette condition sur les grammaires Comme pr c demment on suppose que B et Gdg donc Gd sont des variables globales On utilise un ensemble de tables de hachage W W X est une table de hachage associ e l automate X Ses cl s sont les sous automates directs de X et chaque cl Y est associ e l ensemble WO Y des tats d arriv e des transitions de X tiquet es par Y La fonction rechercheFacteur part d un ensemble vide Puis pour chaque automate X de G pour chacun de ses tats d clencheurs on ajoute E le r sultat de la recherche dans X fonction r cursive rechercheFacteurRec Cette fonction r cursive prend en entr e l tat courant q l automate courant X la s quence u une pile P l indice i courant dans w un ensemble H et les tables de hachage W H est un ensemble de taille 1 comprenant l automate de base La pile P contient des couples gr 2 o gr est un tat de l automate Z Si ce couple se trouve au sommet de l
196. e eae a ZEN e 45 Figure 23 2 D tNn mDe esetnsnesstn mine ees Ee tee EE E ee 46 Figure 24 Figure 25 Figure 26 Figure 27 Figure 28 Figure 29 Figure 30 tute e Eed ageet dee Nee 51 Figure 32 R gle stylistique sus 52 Figure 33 Non connexit des d terminants 52 Figure 34 exemple de syntaxe propre une unit 53 Figure 35 DnumMetre precis cnn nnncnnnnnnccnnnnnss 53 Figure 36 NombreEnChiffres1 999 eee 53 Figure 37 GNmestre metr EE 54 Figure 38 Nmes re AUEREN iria 56 Figure 39 EE 56 Figure 40 Nmesure surface_abr ss 56 Figure 41 DnumNmesure surface precis 56 Figure 42 Nmesure volume ses 57 Figure 43 Nmesure volume_abr ss 57 Figure 44 Nmesure densite Pop ss Sg Figure 45 EE UE 57 Figure 46 Graphe patron pour g n rer les graphes du type GNmesure 59 Figure 47 GNmestur Viless ee ee A 59 Figure 48 Figure 49 Erem MP tica 60 Figur 50 Vpp NUMA E 61 Figure 51 NOAvoirUnNDeDnumUnite ss 73 Figure 52 DnumUnit D See DEE ERKENNEN 79 Figure 53 VentDeDnumNmesure vitesse
197. e la g ographie politique internationale colloque Franche Comt Traitement automatique des langues FRACTAL 97 Bulag Besan on Piton O Maurel D 2001 Les Noms Propres G ographiques et le Dictionnaire Prolintex Quatriemes journ es Intex Bordeaux Poibeau T 2001 Extraction d information dans les bases de donn es textuelles en g nomique au moyen de transducteurs tats finis Actes de la SITT conf rence sur le Traitement Automatique des Langues Naturelles Tours Pollard C Sag LA 1987 Information based Syntax and Semantics Volume I Fundamentals CSLI Stanford Pollard C Sag I A 1994 Head Driven Phrase Structure Grammar U Chicago Press Chicago Ranchhod E 1989 Lexique grammaire du portugais pr dicats nominaux support s par estar Lingvisticae Investigationes 13 2 John Benjamins Amsterdam Revuz D 1991 Dictionnaires et lexiques m thode et algorithmes Th se de doctorat en informatique Universit Paris 7 Roche E 1993 Une repr sentation par automate fini des textes et des propri t s transformationnelles des verbes Lingvisticae Investigationes XVII 1 John Benjamins Amsterdam Roche E 1993 Analyse syntaxique transformationnelle du fran ais par transducteurs et lexique grammaire Th se de doctorat en informatique Universit Paris 7 Roche E 1999 Finite state transducers parsing free and frozen sentences In A Kornai ed Extended finite state models of langu
198. e nous associons un ensemble d unit s appropri es sous la forme d un nom de graphe pr c d de Si l unit est vide nous ins rons le mot vide lt E gt Variation lexicale du verbe support Les colonnes G H et I correspondent respectivement aux emplois de avoir faire et comporter comme verbes supports Nous codons aussi la propri t il faire un Ng de Dnum Unit Loc NO dans la colonne J Remarque nous n avons cod qu un certain nombre de verbes supports seulement pour montrer que leur variation d pendait de Ng comme l avait fait J Giry Schneider sur un nombre de Ng plus r duit Un codage complet n est pas forc ment int ressant pour l instant car nous sommes dans un cadre assez th orique cf partie r duction de la structure de base La permutation de la s quence Dnum Unit et le nom Ng L adjectif d riv de Ne est donn dans la colonne K Le nom Ng accident morphologique du Ng lors de la permutation est mis dans la colonne N Les trois structures engendr es par les permutations sont dans les colonnes L M et O Nominalisation et adjectivation Le verbe morphologiquement et s mantiquement li Ng est donn dans la colonne Q La possibilit d avoir des structures pr dicat adjectival et verbal est cod e dans la colonne P R et S Effacement du pr dicat nominal N Nous avons cod la possibilit d effacer Ng en faisant varier le verbe support et sa pr position associ e tre de T
199. e on Computational Linguistics COLING94 Kyoto Silberztein M 1997 The Lexical Analysis of Natural Languages In E Roche Y Schabes eds Finite State Language Processing The MIT Press Cambridge MA Silberztein M 1999 Transducteurs pour le traitement automatique des textes In B Lamiroy ed Le lexique grammaire Travaux de linguistique Bruxelles Smeaton A 1999 Using NLP or NLP resources for Information Retrieval Tasks In T Strzalkowski ed Natural Language Information Retrieval Kluwer Strzalkowski T Lin F Perez Carballo J 1999 Evaluating Natural Language Processing Techniques in Information Retrieval In T Strzalkowski ed Natural Language Information Retrieval Kluwer Sudkamp T A 1997 Languages and machines an introduction to the theory of Computer Science second edition Addison Wesley Tarjan R E 1972 Depth first search and linear graph algorithms SIAM Journal on Computing 1 2 Tesni re L 1959 El ments de la syntaxe structurale Klincksieck Paris Ullman J D 1979 Principles of Database Systems Computer Science Press Rockville Maryland Vandeloise C 1985 Au del des descriptions g om triques et logiques de l espace une description fonctionnelle Lingvisticae Investigationes IX 1 John Benjamins Amsterdam Vandeloise C 1986 L espace en fran ais Seuil Paris Veronis J 2000 Annotation automatique de corpus panorama et tat de la technique In J
200. e que cette derni re est interdite 18 des noms ils sont toujours accompagn s d un verbe support s mantiquement neutre comme faire J Giry Schneider 1978 1987 ou avoir J Labelle 1974 etc Max fait une injure L a Max fait un livre sur Paul Luc a une correspondance avec L a Les adjectifs peuvent tre des pr dicats comme soucieux joli Ils entrent dans des constructions en tre A Meunier 1981 E Laporte 2002 Max est soucieux de ce que L a r ussisse son examen Marie est jolie Les adverbes traditionnels sont quant eux un peu part dans les phrases car ils sont g n ralement syntaxiquement ind pendants du reste Cependant ils s interpr tent aussi l aide d une phrase l mentaire verbe support d adverbe Hier Max a tu un l phant Max a tu un l phant cela s est produit hier Les adverbes au sens de M Gross 1986 rentrent galement dans des constructions verbes supports comme nous l avons bri vement voqu ci dessus L Danlos 1980 M Gross 1986 1996 La d tonation s est produite sur le coup de minuit Ces recherches sont la pointe du progr s Les derni res expressions ci dessus sont fig es Elles ne pr sentent aucune diff rence en surface avec des expressions dites libres si ce n est que certains de leurs l ments sont contraints au niveau lexical syntaxique ou s mantique Les adverbes ne sont pas les seuls rentrer dans des co
201. e sch ma d quivalence suivant NO repr senter Dnum de LE N1 NI comporter Dnum de NO Notons que chacun des deux verbes est le verbe repr sentatif d un ensemble de verbes ayant le m me comportement syntaxique dans notre sch ma de phrase repr senter pour l ensemble repr senter constituer etc et comporter pour comporter contenir avoir etc Pour plus de d tails se r f rer T Nakamura et M Constant 2001 Nous donnons ci dessous les graphes repr sentant ces phrases Les graphes NOdef N1def et NODetZ repr sentent des groupes nominaux les deux premiers comportent un d terminant d fini et le dernier a un d terminant vide GNmesure pourcentage contient des unit s de pourcentage pour cent en toutes lettres et le symbole de GNmesure pourcentage entre HGNmesure pourcentage Het lt repr senter gt lt E gt lt constituer gt PreDnumPrep GNmesure pourcentageFinal de H Nidef t GNmesure pourcentage Ge voire w de jH GNmesure pourcentage entre h GNmesure pourcentage H et lt comporter gt lt avoit gt lt contenir gt GNmesure pourcentageFinal H de H NODetZ GNmesure pourcentage de H GNmesure pourcentage H entre k GNmesure pourcentage H et il H y li ao Nies lt E gt PreDnumPrep GN
202. e sch ma de phrase a Cela n est pas tonnant pour distance du fait de sa d finition math matique Pour le nom hauteur c est moins net comme le montrent les phrases un peu bancales ci dessous Max a est une distance de 10 m de avec Marie Max et Marie sont une distance de 10 m l un de l autre E La distance entre Max et Marie est de 10 m La hauteur entre l avion et le toit de la maison est de 15 m Pavion et le toit de la maison sont une hauteur de 15 m l un de l autre E H Seul le nom distance peut tre sujet une transformation d adjectivation L adjectif morphologiquement li Ng a distance est distant Paul est distant de 15 m de Max Paul et Max sont distants de 15m E l un de l autre M me des noms comme profondeur et hauteur poss dant un Ng a ne sont pas sujets cette transformation Paul est haut de 15 m du sol Le plongeur est profond de 50 m sous l eau 86 Pour tous les noms rentrant dans b la s quence Dnum Unit peut tre permut e avec Ng de m me la s quence de N1 est effa able selon le contexte Max est deux m tres de distance E du mur Marie est 2 m de hauteur E du sol L explorateur est 200 metres de profondeur E du niveau du sol L avion est 10 000 m d altitude E au dessus du niveau de la mer On observe couramment dans des textes la pr sence de formes r duites de la structure tr s th orique NO
203. e sra l Bl tat de Californie H 2 mer la M diterran e 10 3 r gion de les Pays de la Loire Table 22 NNpr Table 23 PNNpr Soit M une table qui contient des l ments lexicaux et des bool ens pour vrai et pour faux Chaque entr e lexicale est une cl primaire La colonne contenant les entr es lexicales est appel e colonne primaire de la table On appelle l ments secondaires les autres l ments lexicaux de la table par exemple dans NNpr la ligne 4 d partement de le etc sont des l ments secondaires alors que Oise est l entr e lexicale Le comportement syntaxique de certains l ments secondaires est parfois repr sent ind pendamment dans d autres tables Dans notre exemple c est le cas des Nc dont la distribution des pr positions est repr sent e dans la table PNNpr lorsqu ils sont associ s aux noms propres Npr Pour chaque ligne d une table M de tels l ments s lectionnent une ligne d une autre table M Informellement on peut consid rer cela comme un appel une sous ligne qui contient les informations syntaxiques sur ces l ments Par exemple le classifieur ie de l entr e le d Ol ron de NNpr s lectionne la ligne 4 de PNNpr o fle est la cl primaire De tels l ments sont appel s cl s secondaires Les colonnes les contenant sont des colonnes secondaires Une colonne cl est soit une colonne secondaire soit une colonne primaire 168 Quelqu
204. ement connexe contenant le sommet x d un graphe G est d finie par l ensemble CFC x ye Vlye Ilx et y Q x Cet ensemble contient tous les sommets qui sont la fois accessibles et co accessibles du sommet x A partir de la d finition pr c dente CFC x peut clairement s interpr ter comme l intersection de l ensemble des sommets accessibles de x avec l ensemble des sommets co accessibles de x CFC x Ix N Hx Son calcul est donc tr s facile mettre en uvre La relation y fl N Ax est une relation d quivalence et elle d finit des classes appel es composantes fortement connexes Il existe par ailleurs des algorithmes qui calculent toutes les composantes fortement connexes d un graphe en temps lin aire Le plus connu d entre eux est l algorithme de Tarjan 1972 mais il en existe d autres M Sharir 1981 E Nuutila 1993 etc 197 On peut associer chaque sommet d un graphe une composante fortement connexe Dans le graphe G par exemple il existe deux composantes fortement connexes 1 3 4 et 2 Si on le souhaite on peut m me construire ce que l on appelle le graphe condens du graphe G Dans ce graphe G lt V E gt chaque sommet de V est une composante fortement connexe de G et un arc x y existe E si et seulement si il existe un arc x y dans G pour lequel x x et ye y avec x y Ce nouveau graphe n est pas cyclique Par exemple le graphe condens
205. en faire il para t clair que la finesse d analyse pour la traduction doit tre infiniment plus grande que pour la recherche documentaire Ensuite un autre probl me de l analyse est qu il n existe pas de repr sentation standard m me si certains standards existent comme EAGLES 1996 mais cela ne va pas beaucoup plus loin que la syntaxe L analyse des mots est la plus ais e car les cat gories grammaticales existent et sont admises depuis l antiquit Cependant il existe un probl me de taille l ambigu t de la langue En effet chaque mot en moyenne peut tre interpr t de deux fa ons diff rentes L analyse d un texte passe obligatoirement par la lev e des ces ambiguit s Les processus de d sambigu sation permettent d associer chaque mot une tiquette Il existe de nombreuses m thodes qui consistent examiner le contexte proche du mot trait soit l aide de calculs statistiques K Church 1988 E Dermatas et al 1995 soit l aide d indices ou de r gles linguistiques K Koskenniemi 1983 M Silberztein 1993 K Oflazer 1996 E Laporte et al 1999 Certaines applications m langent les deux approches E Brill 1995 La comparaison des m thodes utilis es est tr s difficile car les jeux d tiquettes employ s sont tr s diff rents tout d pend de la finesse d analyse que l on souhaite avoir E Laporte 2000 cf Fluhr 2000 T Strzalkowski et al 2000 E Voorhee
206. enfin Maxime Crochemore et Jacqueline Giry Schneider pour leurs conseils enrichissants durant la soutenance Je voudrais sp cialement remercier mon coll gue et ami Takuya Nakamura pour son soutien permanent et les longues conversations linguistiques que nous avons eues ensemble Je voudrais galement exprimer ma gratitude S bastien Paumier mon premier secours technique pour sa pr cieuse collaboration scientifique Je tiens exprimer toute ma reconnaissance tous les membres de l quipe d informatique linguistique de Marne la Vall e dont le soutien et la gentillesse ont jou un r le fondamental dans l accomplissement de cette th se Je voudrais galement remercier C drick Fairon et Max Silberztein pour leur remarques sur mon travail informatique Je tiens exprimer mes remerciements sinc res Anastasia Yannacopoulou pour sa collaboration et son soutien administratif Je voudrais aussi dire un grand merci Anne Dister pour sa collaboration dans l v nementiel Merci galement l quipe portugaise pour son accueil exceptionnel lors de mes s jours Lisbonne Je ne pourrai terminer cette s rie de remerciements sans avoir une pens e pour tous ceux que je n ai pas cit et qui n ont pas besoin de l tre pour savoir qu ils comptent R sum L explosion du nombre de documents disponibles notamment sur Internet a rendu le domaine du Traitement Automatique des Langues TAL et ses outils incontournabl
207. ent plus naturelle La cit parisienne est un haut lieu touristique 8t Le nom propre R publique de France bien qu il nous paraisse interdit a t trouv sur Internet via le moteur de recherche Google 136 Nous donnons ci dessous un tableau montrant les restrictions sur les structures syntaxiques dans lesquelles peuvent appara tre les classifieurs ville tat et d partement Nc NNpr NPNpr NPDNpr NNpr a ville tat d partement Table 11 comportement de classifieurs Nous proposons donc de classer les noms propres selon leur nom classifieur Cette m thode pr sente de nombreux avantages La classification d un nom propre est imm diate et n est pas sujette un risque d erreur La distribution des noms propres est mieux r partie m me s il existe des classes comme les noms d oc ans qui sont tr s petites par rapport d autres telles que celle des villes Le nombre de colonnes des tables sera exactement adapt aux besoins vitant ainsi d avoir des parties creuses dans les tables comme cela aurait pu tre le cas dans des tables class es selon la structure syntaxique interne des noms propres donc s mantiquement moins sp cifiques Jusqu pr sent nous avons travaill sur une soixantaine de classifieurs On pourrait reprocher cette m thode de g n rer un tr s grand nombre de tables Mais vu le nombre d entr es potentielles ce n
208. ep1 N1 sont cod es dans une table bien que le nombre d entr es soit faible du fait de la r p titivit des duplications Le gros d savantage de ces deux m thodes est que le codage des comportements syntaxiques est manuel donc tr s co teux en temps Cependant cette approche est n cessaire pour d crire 98 des ph nom nes tr s pr cis car chaque entr e lexicale a un comportement propre qui ne peut tre pr dit automatiquement Cela n emp che pas l utilisation de certains processus automatiques qui att nuent cet inconv nient Ils permettent d extraire rapidement des informations linguistiques de grands corpus Par exemple il est int ressant de chercher tous les noms pr dicatifs Ng dans les textes afin d examiner les contextes droits et gauches et ainsi de compl ter nos grammaires par les s quences trouv es dans le texte mais manquantes dans les grammaires exemple 5 metres en largeur une largeur de 3 m tres Une fois les unit s simples d crites l aide de dictionnaires de mani re quasi exhaustive il est possible de les chercher dans les textes et ainsi trouver des am liorations la description des d terminants et pr d terminants num riques Au cours de telles op rations de maintenance l utilisation de tables syntaxiques comme repr sentation interm diaire permet d viter certaines duplications de graphes la main comme nous l avons montr ci dessus L application des graphes GNmesure per
209. er une normalisation math matique Le spectacle a une dur e comprise entre 45 min et 1 h dur e spectacle 45 min 1h Nous n entrons pas dans les d tails mais il est clair que cette application m riterait une tude compl te 3 6 conclusion Nous avons proc d la description syst matique de certaines expressions de mesure sous la forme de grammaires locales Par cette tude notre but principal tait d exposer le processus complet de repr sentation d un ph nom ne linguistique relativement simple mais peu tudi jusque l en m langeant deux m thodes diff rentes mais compl mentaires soit une construction directe en graphes soit une construction par l interm diaire de tables syntaxiques Nous avons galement montr l int r t d une telle tude pour le TAL Clairement nous n avons pas examin tous les types d expressions de mesure notamment les phrases d crivant une volution o existent des contraintes lexicales fortes comme dans Paul a augment son poids de 10 kg par rapport il y a deux mois Paul a pris 10 kg Paul a grossi maigri grandi de 10 kg 53 T est le symbole de temp rature d est le symbole de distance 106 Par ailleurs nous ne sommes pas all tr s loin dans l examen des expressions fig es ou semi fig es contenant une mesure Nous nous sommes simplement content du cas vent de 45 n uds 107 Chapitre 4 Analyse et repr sentation d adverbes l
210. era certainement un r le tr s pr cieux pour relier les phrases entre elles R Mitkov 2002 2 4 2 Les solutions du lexique grammaire 2 4 2 1 La notion de mot La notion de mot est centrale dans l analyse de textes Il est fondamental d en distinguer deux types le mot typographique et le mot linguistique Le mot typographique ou informatique est une s quence de lettres de l alphabet de la langue d limit e par des s parateurs en francais les espaces les ponctuations etc D ailleurs ces mots servent le plus souvent comme base d indexation d un texte car cette derni re demande peu d effort du fait de leur d finition purement formelle La quasi totalit de ces mots sont des mots autonomes que l on trouve dans les dictionnaires on les appelle des mots simples Le rep rage de tels mots par des proc dures de d coupage formel n apporte pas ou tr s peu d information linguistique On distingue donc ces mots des mots linguistiques Les mots que l on trouve dans les textes sont ce que l on appelle des formes fl chies de formes canoniques ou lemmes outils et chantaient proviennent respectivement des lemmes outil et chanter Par ailleurs ils appartiennent une partie du discours ou cat gorie grammaticale ont un genre et nombre et un cas dans certaines langues pour les noms et les adjectifs etc outils est un nom au masculin pluriel et chantaient est un verbe l imparfait la troisi me personne de
211. ertion C est la premi re condition que l on doit tester avant toute op ration On notera que cette condition interdit d ins rer aut S s il s appelle lui m me c est dire s il est lui m me un de ses propres sous automates directs La proc dure g n rale marche alors comme suit On calcule l ensemble des symboles non terminaux ins rer d j existants dans la biblioth que not W on r alise l intersection entre Ng et N On met ensuite jour les vues partielles de B en supprimant toutes les donn es relatives W Puis on ajoute l ensemble N dans l alphabet des non terminaux de B et l ensemble T dans l alphabet des terminaux de B On ajoute aussi les automates associ s aux l ments de N dans B crasement s ils existent d j Si l auteur de G souhaite que l automate principal de G soit un automate principal dans B variable bool enne principal en entr e de la proc dure on ajoute dans l automate d union de B autg Sg une transition tiquet e S allant de l tat initial un tat final Enfin on met jour les vues partielles de B en ajoutant toutes les donn es relatives N Nous synth tisons cette proc dure par l algorithme suivant proc dure principale InsertionGrammaireMain Dans ces proc dures les variables G Gd B Gdg et Indg sont suppos es globales pour all ger le param trage des fonctions La variable d entr e option indique quelle m thode
212. erve t on une diff rence de distribution entre ces deux noms pourtant proches Luc est dans sur la rue Luc est dans sur la place On peut imaginer que l utilisation de la pr position dans avec le nom rue s expliquerait par le fait qu une rue peut tre vue comme une bo te ouverte les c t s ferm s tant la route et les b timents longeant cette route Il ne semble pas exister d explication pour place la ressemblance avec un plateau serait une explication bien fantaisiste A nsi il n est pas vident de pr dire exactement la distribution pr positionnelle partir d une analyse s mantique bas e sur la g om trie et diff rentes propri t s physiques des arguments Une solution consisterait tudier syst matiquement le comportement de chaque nom M Garrigues 1995 et de coder pour chacun leur distribution pr positionnelle 4 2 3 2 Pr positions compos es Nous nous appuyons ici sur les travaux d A Borillo 1989 et M Gross 1996 Nous regardons de plus pr s les pr positions locatives compos es dont la grande majorit ont la forme interne Prep Det N de l int rieur de en amont de etc On travaille ainsi sur la construction NO Vsup Prep Det N de N1 A Borillo 1989 explique que le nom N sert localiser NO par rapport N1 Il ajoute une pr cision suppl mentaire par rapport aux pr positions simples Il exprime soit une localisation interne soit une localisation externe Les noms de
213. es des lignes de dictionnaire qui contiennent toutes les informations Supposons que u soit une telle tiquette Lors de la mise en correspondance avec une tiquette v si un des champs de v ne se trouve pas dans u alors u et v ne correspondent pas Par exemple l tiquette lt Paul gt est normalis e en une ligne de dictionnaire Paul N NPR ms Si on la met en correspondance avec l tiquette lt N Top gt le r sultat de la proc dure doit donner un r sultat n gatif m me si dans le dictionnaire il est possible d avoir une autre ligne contenant les traits Top et NPR Nous r sumons cette proc dure par l algorithme ci dessous Fonction matchEnsembles x y grammatical Autom si x ou y est vide alors retourner vrai finSi si x est inclus dans y alors retourner vrai finSi si y est inclus dans x alors retourner vrai finSi si grammatical est vrai et xy est reconnu par Autom alors retourner vrai finSi retourner faux finFonction Le champ comprenant les codes flexionnels est tr s particulier car il comprend un ensemble tri de codes flexionnels un code flexionnel tant lui m me un ensemble tri de caract res Deux champs de type FI correspondent lorsque l on trouve deux codes flexionnels qui correspondent cela correspond un OU logique Par exemple les tiquettes lt V PIs P2s 11s gt et lt V J1p J2p 115 gt ont le code flexionnel Ise en commun La mise en correspondance de deux codes flexionnels c ex p
214. es De nombreux chercheurs marquent l importance de la linguistique dans ce domaine Ils pr conisent la construction de larges bases de descriptions linguistiques compos es de lexiques et de grammaires Cette d marche a un gros inconv nient elle n cessite un investissement lourd qui s inscrit sur le long terme Pour palier ce probl me il est n cessaire de mettre au point des m thodes et des outils informatiques d aide la construction de composants linguistiques fins et directement applicables des textes Nous nous sommes pench sur le probl me des grammaires locales qui d crivent des contraintes pr cises et locales sous la forme de graphes Deux questions fondamentales se posent Comment construire efficacement des grammaires pr cises compl tes et applicables des textes Comment g rer leur nombre et leur parpillement Comme solution au premier probl me nous avons propos un ensemble de m thodes simples et empiriques Nous avons expos des processus d analyse linguistique et de repr sentation travers deux ph nom nes les expressions de mesure un immeuble d une hauteur de 20 m tres et les adverbes de lieu contenant un nom propre locatif l le de la R union deux points critiques du TAL Sur la base de M Gross 1975 nous avons ramen chaque ph nom ne une phrase l mentaire Ceci nous a permis de classer s mantiquement certains ph nom nes au moyen de crit res formels Nous a
215. es d tails techniques Notons qu une cl est suppos e unique dans la tradition des syst mes relationnels de bases de donn es J D Ullman 1979 G Gardarin 1999 Or en r alit nous avons vu que les entr es lexicales sont ambigu s Par exemple le nom tat est ambigu dans la table PNNpr c est soit un classifieur de pays l tat d Isra l soit une partition administrative d un pays l tat de Californie Dans la table NNpr l entr e lexicale Nord d signe soit une mer soit un d partement fran ais Il est donc impossible que ces l ments utilis s tels quels soient des cl s primaires Pour r gler ce probl me nous ajoutons dans nos tables une colonne dans laquelle pour chaque entr e lexicale nous associons un entier unique Ainsi chaque entr e a un identifiant unique qui permet de la diff rencier des autres 6 est l identifiant du classifieur tat d signant un pays et 7 est celui correspondant au classifieur tat d signant une partie administrative d un pays 4 5 2 Mod lisation et algorithme 4 5 2 1 Un nouveau mod le Notre syst me comprend un ensemble de n tables syntaxiques M M2 M3 Mn un ensemble de relations entre elles et une table principale On suppose d sormais que M est la table principale Chaque table comporte une colonne primaire et peut comporter un certain nombre de colonnes secondaires Par exemple dans notre syst me nous avons deux tables syntaxiques reli es
216. est pas un probl me plut t un avantage Nous avons d nombr deux gros d fauts cette approche Tout d abord il existe des noms propres qui n ont pas de formes longues et dont le classifieur n est pas clair Canada Roumanie etc La solution est de construire une table r siduelle contenant ce genre d entr es Ensuite quelques noms propres comme mer de Glace ne rentre pas dans la phrase classificatrice Detc Nprc tre UN des Nc comme le font la quasi totalit des noms propres de lieu La mer de Glace est une mer La mer de Cor e est une mer Dans cet exemple la mer de Glace n est pas une mer mais plut t un glacier dans les Alpes Cet emploi est uniquement m taphorique Si l on place cette entr e dans la m me classe il y a une h t rog n it s mantique Mais cela n est pas tr s d rangeant car il suffit de rajouter une colonne dans la table des noms de mers d signant cette d viation s mantique De mani re g n rale le processus de classification et d tude syst matique d objets linguistiques est frein par les diff rents emplois que peuvent avoir certains mots de la langue Notre tude ne fait pas exception la r gle D abord il existe diff rents emplois pour certains noms propres Nor Par exemple Nord est soit une mer soit un d partement fran ais Dans ce cas l la distinction est vidente car ils n ont pas le m me classifieur mer et d partement et sont class s dans
217. et c2 ex m p revient appliquer la fonction matchEnsemble En effet l inclusion de c dans c gt ou l inclusion de cz dans c indique que les deux codes correspondent De m me que pr c demment si l union des deux Ls Rappel le code mp ms est un ensemble tri de codes flexionnels m p m s 194 codes se trouve dans le dictionnaire alors il y a correspondance par exemple les tiquettes lt N m gt et lt N s gt correspondent car le code ms se trouve dans le dictionnaire homme N z1 ms Nous r sumons cette proc dure par l algorithme ci dessous Fonction matchFlexions x y grammatical Autom pour chaque l ment a de x pour chaque l ment b de y si matchEnsembles a b grammatical Autom retourner vrai finPour finPour retourner faux finFonction Nous ne rentrons pas dans les d tails pour le cas du tag matching mettant aux prises un m ta symbole et un symbole quelconque x Nous donnons juste deux exemples Supposons d abord que l on souhaite comparer lt MOT gt avec un symbole non m ta Il suffit simplement de regarder si le champ FG est une cha ne de caract re Si ce champ est vide il y a obligatoirement correspondance Ensuite supposons que l on ait les m tas lt DIC gt et lt PRE gt nous supposerons alors qu il y a correspondance car le dictionnaire comprend des mots commen ant par une majuscule Il existe un cas que nous n avons pas trait Les mots compos s pour
218. et de d crire la phrase Paul est 10 km de la ville et de l interpr ter s mantiquement la distance d entre Paul et la ville est gale 10 km ou dr Poul Jo ville 10 km En effet les s quences reconnues par les morceaux de graphes entre parenth ses index s par l identifiant i i entier sont stock es dans les variables i et sont r crites en sortie de l application du graphe quand elles apparaissent en sortie dans le transducteur av ee ss es Val av 0 2 U L 3 2 Figure 11 Interpr tation s mantique Enfin les graphes patrons repr sentent des graphes param tr s qui d crivent le m ta ensemble des structures dans lesquels peuvent rentrer les entr es lexicales d une table E Roche 1993 J Senellart 1999a Ils permettent de transformer automatiquement les informations cod es sous la forme de tables de lexique grammaire en graphes Pour chaque entr e lexicale ou chaque ligne on cr e automatiquement un graphe associ partir des informations de la table Nous utilisons un syst me de variables qui sont plac es dans les boites des graphes Soient i et j deux entiers TLG une table de lexique grammaire et g le graphe patron associ TLG Etant donn une ligne i de TLG la variable j se trouvant dans g correspond au contenu de l intersection de la ligne i et de la colonne j de TLG Ainsi chaque variable correspond une colonne des tables soit une propri t c est dire un e
219. ette liste ont syst matiquement regard leur comportement dans un texte journalistique Nous examinons pour l instant les formes LE Nc de Det Npr o les s quences entre parenth ses sont optionnelles Ces s quences sont tr s largement majoritaires dans l ensemble des noms propres de lieu Comme nous l avons mentionn pr c demment la plupart des noms propres rentrent dans au moins l une de ces structures mont Ventoux mer M diterran e le Maurice NPDNpr le de Malte col de Splandelle mer de Barentz NPNpr d partement de la Gironde col de le Tourmalet NPDNpr Les d terminants Det de la forme longue de type NPDNpr sont limit s aux d terminants d finis suivants le la et les Nous donnons ci dessous quelques exemples l le de la Barbade le Diable l tat de le Texas la Californie le col de le Tourmalet la Colombi re le mont de les Oliviers Les autres d terminants sont exclus Par exemple les s quences suivantes sont clairement interdites L le de cette sa une Barbade l tat de ce son un Texas le mont de ces ses des Oliviers Certains couples rentrent dans plusieurs structures quivalentes Dans plusieurs noms propres dont la forme longue comprend la pr position de le d terminant Det est optionnel La principaut de E le Liechtenstein L tat de le E Vermont L tat de le E Washington Parfois c est la pr position de qui
220. ette repr sentation acc l re les consultations en effet les temps de recherche ne d pendent plus du nombre de mots dans le dictionnaire mais du nombre de lettres du mot analyser Une analyse lexicale aussi pr cise fait surtout prendre conscience de l importance de l ambigu t de la langue M me des formes tr s fr quemment utilis es comme avions sont ambigu s soit nom avion soit verbe avoir En moyenne chaque mot d un texte du fran ais a deux interpr tations Ainsi le nombre d interpr tations d une phrase est exponentielle par rapport au nombre de mots de cette phrase Si la phrase fait 10 mots elle aura en moyenne 21 1 024 interpr tations possibles Dans les logiciels Intex et Unitex le r sultat de l analyse lexicale est repr sent au moyen d un automate afin de compacter la liste des interpr tations possibles des phrases L analyse de la phrase les enfants pr f rent les avions la voiture est sous la forme de l automate ci dessous avions avion N zl mp a voiture N 21 fs mp fp enfants pr f rent enfant pr f rer N zl mp fp V 21 P3p 53p Ho voiture wvoiturer V 22 Pls P35 815 835 Y2s avions avoir FRO 21 3mp 34p V zl Ilp PRO 21 3mp 3fp PRO 21 3f5 Figure 3 analyse lexicale de les enfants pr f rent les avions la voiture La consultation des dictionnaires de mo
221. fectuer au pr alable un filtrage des grammaires afin de diminuer le nombre de grammaires tester Par exemple si l on avait l arbre des pr fixes de B de longueur inf rieure un nombre k donn cf T A Sudkamp 1997 on pourrait lui appliquer la s quence u et ainsi obtenir toutes les grammaires dont le langage poss de au moins une s quence qui est facteur de longueur inf rieur k de u Les contraintes de filtrage tant forte la taille de l ensemble des grammaires tester diminuerait Un autre filtrage peut consister appliquer la proc dure OU d finie ci dessus u L efficacit de ces filtrages doit tre v rifi e empiriquement L utilisateur peut vouloir que la s quence u soit un facteur de la grammaire qu il recherche c est dire que est facteur d au moins une s quence du langage reconnu par la grammaire Cette proc dure est bien plus complexe que la pr c dente qui utilise des outils pr programm s dans Unitex On peut r aliser un premier filtrage en utilisant la proc dure ET avec u en entr e car tous les lements de doivent tre contenus r cursivement dans les grammaires candidates Soit G l ensemble des grammaires ayant franchi l tape du filtrage Pour chaque grammaire il convient de v rifier si la s quence u en est un facteur Soit Aut l ensemble des automates de B inclus dans au moins une grammaire de G Aut est donc Punion des ensembles de r gles automates des grammaires de G Soit
222. fig s locatifs Les compl ments pr positionnels examin s jusqu pr sent comprennent obligatoirement le constituant Npr Mais que se passerait il si l on effa ait Npr Regardons la phrase ci dessous Max est dans la vall e de la Maurienne Max est dans la vall e Il peut s agir d un effacement avec cor f rence Max habite dans la vall e de la Maurienne Marie esp re un jour lui rendre visite dans la vall e Cependant intuitivement dans la vall e peut aussi r f rer une vall e non nomm e identifiable de fa on unique gr ce au contexte 7 Pour quelques noms de ville comme Avignon ou Arles la pr sence de la pr position en est autoris e en Avignon Ce ph nom ne est difficilement explicable peut tre le fait que ces villes taient des tats pontificaux certains parlent m me de snobisme notre source a souhait garder l anonymat 160 Luc a ski toute la journ e Courchevel il va redescendre dans la vall e en voiture Dans cette phrase la vall e dont on parle est celle qui se trouve en contrebas de Courchevel Ce ph nom ne est tr s courant comme le montrent les exemples ci dessous Paul est dans la maison Par la fen tre il voit que Paul est dans la rue Devant cette difficult d interpr tation s mantique nous ne traitons pas ces cas et nous regardons plut t les constructions fig es locatives de la forme NO tre Loc Det Nc Paul est en montagne Ces cons
223. g n r pour l entr e 3 4 Repr sentation des mesures relatives 3 4 1 G n ralit s Dans cette section nous regardons des structures mesurant une caract ristique ou propri t Ng d un l ment NO par rapport un autre N1 Les sch mas de phrase tudi s sont de la forme NO Vsup Pr p un Ng de Dnum Unit Pr p N1 Paris est une distance de quelques milliers de kilom tres de New York Max est dans un rayon de 50 km autour de Reims Le stylo forme un angle de 90 avec la r gle Nous regardons d abord le comportement syntaxique des pr dicats nominaux Ng rentrant dans cette structure Puis nous montrons que les expressions de pourcentage peuvent aussi tre class es dans cette cat gorie et nous examinons leurs propri t s distributionnelles Enfin nous tudions certaines expressions exprimant une comparaison relative de mesure 3 4 2 Etude de la structure NO Vsup Pr p un Ng de Dnum Unit Pr p N1 L ensemble des pr dicats Ng rentrant dans cette structure est restreint altitude angle distance hauteur p rim tre profondeur rayon Nous constatons qu ils d signent tous des caract ristiques g om triques Le nom altitude semble particulier car la phrase ci dessous est un peu bancale L avion est une altitude de 10 000 m au dessus du niveau de la mer En effet on ressent une certaine redondance avec l utilisation de au dessus de la mer car cette s quence se trouve impliciteme
224. graphe Metre Nous pourrions m me aller plus loin dans la normalisation en convertissant chaque unit ex kilom tre en son unit de base ex m tre On aurait une conversion comme suit kilom tre amp 1 000 m 105 Il est alors tr s facile de combiner les normalisations des d terminants num riques et des unit s pour normaliser les phrases de mesure ou leurs r ductions de la mani re suivante cette salle 17 C T cette salle 17 C Paul est 18 km de Paris d Paul Paris 18 km Les transducteurs variables sont extr mement efficaces comme le montre le graphe th orique ci dessous Lors de l application de ce graphe Paul est 18 km de Paris la s quence reconnue par NO Paul est stock e dans la variable 0 18km est stock e dans nU et Paris est stock e dans 1 Ainsi en sortie on obtient en rempla ant les variables par leur contenu d Paul Paris 18km ED E 040 0 e a d 0 1 SnU Figure 69 normalisation Cependant des variantes lexicales introduisent des modifications s mantiques C est le cas pour la longueur de la corde est inf rieure dix m tres amp longueur la corde lt 10 m une longueur de corde d a peu pr s dix m tres amp longueur la corde 10 m Par ailleurs il existe des expressions de mesure sous la Se Eeer comme nous l avons montr pr c demment avec les structures entre etde L aussi il y a moyen d utilis
225. graphes Sous Intex ou Unitex ces noms sont toujours pr c d s du caract re non repr sent sur les graphes ce sont en quelque sorte des appels des sous graphes Les symboles terminaux repr sentent dans la majorit des cas des mots au sens linguistique et sont donc tr s vari s Afin de limiter le nombre de transitions dans les graphes nous utilisons des abr viations pour d signer des ensembles d l ments terminaux Par exemple lt station gt d signe toutes les formes fl chies de la forme canonique station station stations lt V gt d signe n importe quel verbe cod dans nos dictionnaires c est quivalent au OU logique de tous les verbes cod s dans le dictionnaire lt N ms gt d signe n importe quel nom masculin singulier du dictionnaire noms simples et compos s lt NB gt d signe n importe quel nombre repr sent par l expression r guli re 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 06 7 8 9 o le symbole repr sente le symbole de Kleene et le signe symbolise le OU logique Ainsi l exemple 8 repr sente une classe de mots compos s s mantiquement proches de station de ski et reconna t des expressions telles que station de sports d hiver ou station de haute montagne Dans certains cas l alphabet des symboles terminaux n est pas compos de mots linguistiques mais des caract res typographiques de la langue de travail L exemple 9 repr sente les diff rentes variantes ortho
226. graphique de population et reconnaissant des expressions telles que habitants au km2 Habitant_abr Figure 44 Nmesure densite pop L unit scientifique traditionnellement associ e la fr quence est le hertz Ainsi fr quence s lectionne les unit s d crites par le graphe Hertz Cependant dans le langage courant c est beaucoup plus libre et cela peut tre n importe quel groupe nominal comptable sans d terminant suivi par une pr position ou le symbole un d terminant optionnel et une unit de temps Le moteur a une fr quence de trois tours par seconde La machine a une fr quence de trente poulets la minute Ainsi nous avons besoin d une description compl te d un groupe nominal Cependant pour des raisons videntes de clart ce groupe nominal ne peut tre trop long car il doit tre suivi d une s quence exprimant le temps Ainsi nous limitons notre groupe nominal sans d terminant la s quence maximale suivante Adj N Adj de Det N Les unit s associ es fr quence sont repr sent es dans le graphe Nmesure frequence o les symboles lt A gt lt N gt et lt DET gt d signent respectivement un adjectif un nom et un d terminant Figure 45 Nmesure frequence Le graphe Nmesure angle contient les unit s radian degr et leurs sous multiples comme minute Les symboles sont dans Nmesure angle_abr rad etc Certains Ng sont ambigus comme fension qui d signe soi
227. graphiques du toponyme Vietnam O Piton et D Maurel 1997 Notons galement qu un m lange des deux niveaux est possible notamment pour des formes telles que re lt V gt o est un symbole qui interdit l espace entre le pr fixe re et le verbe lt V gt Ex lt station gt Figure 8 Station cf T Sudkamp 1997 pour des d tails pr cis sur les expressions r guli res Pour information a reconna t des suites de O ou plus d l ments a L l ment vide est donc reconnu 34 nf Figure 9 Vietnam Il est possible d ajouter des informations en sortie des graphes Ainsi nos grammaires peuvent se comporter comme des transducteurs tats finis J Berstel 1979 M Silberztein 1999 Par exemple le graphe 10 qui d crit des adverbes de temps tels que l aube ou en fin de matin e peut servir tiqueter les expressions qu il reconna t comme des adverbes de temps l aide des informations de sortie crites en gras sous les boites du graphe Lorsqu elles ne sont pas repr sent es les sorties sont vides Ainsi apr s application de cette grammaire le texte Marie est arriv e en fin de matin e peut tre tiquet Marie est arriv e lt ADV Time gt en fin de matin e lt ADV Time gt Figure 10 Adverbes de temps Par ailleurs il est possible de construire des graphes d crivant des r gles de r criture ce sont des graphes variables Le graphe 11 perm
228. guge Corpora with Unification Based Grammars Computational Linguistics 19 1 Briscoe T Copestake A 1999 Lexical rules in constraint based grammar Computational Linguistics 25 4 Brun C 2000 A Client Server Architecture for Word Sense Disambiguation Xerox Buvet P A 1993 Les d terminants nominaux quantifieurs Th se de doctorat Universit Paris XIII Villetaneuse Buvet P A 1994 Les d terminants nominaux Lingvisticae Investigationes XVIII 1 John Benjamins Amsterdam Carvalho P Mota C Ranchhod E 2002 Complex lexical units and automata In E Ranchhod N Mamede eds Advances in Natural Language Processing Lecture Notes in Artificial Intelligence LNAD 2389 Springer Carvalho P Ranchhod E 2003 Analysis and Disambiguation of Nouns and Adjectives in Portuguese by EST Proceedings of the EACL workshop on Finite State Methods in Natural Language Processing Budapest Charniak E 1997 Statistical techniques for natural language parsing AI Magazine Chomsky N 1957 Syntactic Structures Mouton The Hague Christofides N 1975 Graph Theory an algorithmic approach Academic Press London Chrobot A 2000 Description des d terminants num raux anglais par automates et transducteurs finis In A Dister ed Actes des Troisi mes Journ es Intex Revue Informatique et Statistique dans les Sciences Humaines Li ge Universit de Li ge Church K 1988 A stochastic parts program and noun
229. i leur nombre augmente de fa on vertigineuse De plus leur formalisme permet leur r utilisation dans d autres grammaires Nous avons donc un ensemble de briques parpill es au sein du r seau RELEX Actuellement il n existe pas de gestion commune des grammaires ce qui provoque parfois une certaine redondance dans les travaux Les seuls moyens de s informer ou d informer de l existence d une grammaire sont les articles les communications aux diff rents colloques ou les discussions orales ou crites courrier lectronique Une fa on de rem dier ce probl me est de centraliser les grammaires locales et de les mettre en libre acc s via Internet aux chercheurs de la communaut Ce travail est d abord un travail d ing nieur car il consiste construire concr tement une biblioth que de graphes en ligne Mais il a aussi un int r t fondamental car nous traitons des objets qui ne sont pas habituellement utilis s dans de tels syst mes Ceci implique la conception d algorithmes de stockage insertion et suppression et de recherche d information dans des objets complexes 5 2 Sp cifications et organisation du syst me Le syst me que nous proposons est un syst me client serveur distribu Le serveur dispose d une base de donn es relationnelle form e principalement de grammaires locales et autres informations utilisateurs etc Il comporte galement un module traitant les requ tes arrivant du client Le client est constitu
230. idons de ne pas la faire par manque de temps mat riel Ainsi nous avons des expressions de mesure souvent tronqu es mais contenant beaucoup d information des groupes nominaux lexicalis s une altitude de 10 000 m 10 000 m d altitude des modifieurs d une longueur de dix m tres sup rieurs 30 kg des pr positions locatives 1 km au nord de et des d terminants compos s trente litres de Les unit s de mesure que nous valuons ne sont pas extr mement fr quentes il existe seulement 1 240 unit s de mesure de longueur sur les vingt premiers millions de mots du corpus Pour les unit s massiques c est encore plus difficile valuer du fait de l ambigu t de certains symboles avec des mots extr mement fr quents dans la langue comme f ambigu avec le t de Max a t il mang livre est aussi ambigu avec la monnaie livre sterling et l objet que l on lit Si l on applique la grammaire d crivant les unit s massiques seules 142 occurrences sur 2 000 appartiennent des expressions de mesure de masse 7 ce qui n est pas suffisant pour faire un calcul repr sentatif Pour les expressions mettant en jeu des unit s de mesure de longueur notre d marche a t la suivante nous avons appliqu en m me temps nos grammaires repr sentant des expressions de mesure de longueur avec celles des unit s de mesure de longueur Nous avons arr t l application apr s 2 000 occurrences trouv es Apr s examen
231. ifs les compl ments de lieu leurs crit res leurs valeurs aspectuelles Lingvisticae Investigationes IX 2 John Benjamins Amsterdam Boons J P Guillet A Lecl re C 1976a La structure des phrases simples en francais constructions intransitives Droz Gen ve Paris Boons J P Guillet A Lecl re C 1976b La structure des phrases simples en francais classes de constructions transitives Rapport de Recherches n 6 Laboratoire Documentaire et Linguistique Borillo A 1985 Trois jours de cong un cong de trois jours Cahiers de Grammaire 9 Universit de Toulouse Le Mirail Borillo A 1989 le lexique et l espace les noms et les adjectifs de localisation interne Cahiers de grammaire 13 Universit de Toulouse Le Mirail Borillo A 1998 L espace et son expression en francais L essentiel Ophrys Bresnan J Kaplan R M 1982 Lexical Functional Grammar A formal system for grammatical representation In J Bresnan ed The Mental Representation of Grammatical Relations The MIT Press Cambridge MA Brill E 1995 Transformation based error driven learning and natural language processing a case study in part of speech tagging Computational Linguistics 21 4 Brill E Resnik P 1994 A transformation based approach to prepositional phrase attachment disambiguation Proceedings of COLING 94 Kyoto Japan 222 Briscoe T Carrol J 1993 Generalized Probabilistic LR Parsing of Natural Lan
232. igne d signe une entr e lexicale La premi re s quence de caract res d limit e droite par une virgule est la forme fl chie La deuxi me d limit e gauche par la virgule et droite par un point est la forme canonique Quand cette s quence est vide cela signifie que la forme canonique est la m me que la forme fl chie Le code juste apr s le point est le code grammatical associ l entr e lexicale ex N pour nom V pour verbe Les s quences de lettres et de chiffres apr s un sont des traits de diverses valeurs ici z1 indique que l entr e lexicale fait partie du langage courant Les s quences de lettres et de chiffres apr s un sont des informations flexionnelles par exemple Die signifie que l entr e est la premi re personne du singulier du pr sent de l indicatif Notons 12 Un travail diff rent mais proche a t r alis dans M Constant 2001 pour construire le compilateur du logiciel AGLAE S Paumier 2000 120 23 est un trait indiquant que ce mot fait partie d un discours tr s sp cialis 188 que plusieurs entr es lexicales peuvent tre cod es sur une seule ligne si le seul champ qui les distingue est le code flexionnel comme c est le cas pour la derni re ligne de l exemple ci dessus Dor navant nous utilisons comme dictionnaires de r f rence les dictionnaires de type DELAF les unit s linguistiques non ambigu s Dans Intex et Unitex il est possi
233. ilisation de temp rature avec le verbe support faire est autoris e dans une phrase au sujet impersonnel de la forme Il faire Dnum Unit Loc NO Il fait 10 C dans cette salle Ce ph nom ne semble marcher pour pression et hygrom trie mais il n existe pas pour les autres noms JI fait une longueur de 100 m sur dans le bateau JI fait une tension de 50 kV sur dans cette ligne 32 Il existe un emploi de tre qui fonctionne dans ce cas mais il d note un tat temporaire dans une volution Dans sa phase de croissance Max est d j E une taille de 1 70 m 68 3 3 3 3 Permutations Nous regardons maintenant les transformations que peuvent subir les phrases dont la structure est NO Vsup Pr p un Ng de Dnum Unit Tout d abord les s quences Dnum Unit et Ng peuvent tre permut es le d terminant un tant effac Cette permutation ne fonctionne pas pour tous les Ng L immeuble fait une hauteur de 100 m l immeuble fait 100 m de hauteur Le courant a fait une fr quence de 500 Hz Le courant a fait 500 Hz de fr quence Cette propri t est un autre moyen de distinguer les deux emplois de tension car ils n ont pas le m me comportement Max a une tension de 12 Max a 12 de tension La ligne fait a une tension de 220V La ligne fait a 220 V de tension Notons que l utilisation de certains Vsup est plus naturelle que pour d autres c est le cas de fai
234. imativement_ pas tout fait Table 4 Pred Ainsi pour d crire pr cis ment les phrases de mesure en tenant compte des pr d terminants il faut construire un graphe de pr d terminants pour chaque point potentiel d insertion dans la structure l aide de notre table syntaxique Notre liste ne contenant qu une petite partie des pr d terminants notre travail est incomplet et ne permet pas de d crire pr cis ment le comportement de tous les pr d terminants dans les phrases de mesure Il confirme que l on ne peut pas tenir compte des pr d terminants dans les phrases de mesure si l on ne regarde pas la phrase compl te cf M Gross 1977 3 3 6 R duction de la phrase l mentaire Les phrases que nous avons tudi es dans la partie pr c dente sont tr s th oriques car elles apparaissent tr s peu telles quelles dans les textes En fait elles se retrouvent sous la forme de groupes nominaux qui sont des r ductions de ces phrases Dans cette partie nous d crivons les processus linguistiques permettant de passer des phrases de base ces s quences Nous partons de quatre sch mas de phrases quivalents NO avoir un Ng de Dnum Unit a NO avoir un Ng de Dnum Unit b NO tre Prep un Ng de Dnum Unit c NO tre Ng a de Dnum Unit d Le Ng de NO tre de Dnum Unit Tout d abord on peut voir la structure a comme quivalente NO avoir N1 Max a un ballon qui se r duit en
235. introduirait en supposant que la reconnaissance du groupe nominal soit parfaite Nous prenons une ann e du journal Le Monde 1994 et regardons manuellement le comportement des 1 000 premi res pr positions appartenant l ensemble dans avant devant sur contre apr s derri re sous Au total 413 occurrences de ces pr positions ont un emploi locatif soit 41 3 La proportion d emplois locatifs la plus lev e est de 81 avec la pr position dans ce qui tres insuffisant Par ailleurs nous constatons que certaines pr positions comme avant ou apr s appartiennent quasiment toujours des adverbes de temps respectivement 90 et 86 des cas Sur l ensemble des pr positions trouv es nous n avons que 31 pr positions appartenant des adverbes fig s ou semi fig s de temps facilement rep rables par des grammaires locales de temps existantes soit 3 1 de l ensemble des pr positions comme dans l apr s midi dans la soir e de jeudi avant le 18 mars Ceci montre bien la difficult qu il y aura distinguer emplois locatifs et temporels de mani re fiable A terme le meilleur moyen sera de regarder le groupe nominal du 6 Ce qui est clairement impossible dans l tat actuel des recherches en linguistique appliqu e 122 compl ment locatif Par exemple si le nom t te est un pr dicat la probabilit d avoir un adverbe de temps sera tr s grande par ailleurs si c est un nom concret la probabilit d a
236. ion d expressions de Mesure seen 41 3 1 rie ere 41 3 2 Les composants El MENtAlTES sisses orrn ne aE AE PNE en EEEE O osas 42 3 2 1 G n ralit s oniinn i aana i a eaa a amet hi ne 42 32 2 Graphes des d terminants num riques 43 3 2 3 Graphes l mentaires de mesure 49 3 2 4 Quelques Variante Siseron innen ien ea EE usage gege 59 3 3 Repr sentation des mesures absolues esesseeesesessesreessesrrsseressssretsserresesresessreesses 66 3 3 1 G N TAM S Eesen Deeg E a Pen Ne eee ne 66 3 3 2 No COMPOS ES Aster ennemi Ed 66 3 3 3 Propri t s distributionnelles lexicales et transformationnelles 67 3 3 4 Codage d s Propri t s oser meer nine den ter adi did 73 3 3 5 l espr d terminants stars aida 75 3 3 6 R duction de la phrase l mentaire oeeeeeeeeeeeeeeeeeerereeserersesresssresesrreesseeres 77 34 Repr sentation des mesures relatives ooooooccccnonoccccnonocncnononnnnnnonnononnnrnnccrannnccnonnss 84 3 4 1 A ee et Re ER ee 84 3 4 2 Etude de la structure NO Vsup Pr p un Ng de Dnum Unit Pr p N1 84 3 4 3 Codage des propri t s dans une table syntaxique 90 3 4 4 Les expressions de pourcentage occcooocccncnoooccccnonnnnnnnnnnnnnnnnnnnnncnnnnnnccnnnnananonns 92 3 4 5 Comparaisons quelques remarques sur les variations lexicales
237. ion du codage de nos tables consiste reconna tre des groupes nominaux ayant pour t te un nom propre compos de lieu g ographique Il suffit de convertir les tables en graphes de la m me mani re qu avec les expressions de mesure Pour chaque table il convient de construire un graphe patron ou graphe param tr Mais tant donn le nombre important de tables une telle d marche serait fastidieuse Une solution plus pratique est de construire automatiquement l ensemble des graphes patrons partir d une table g n rique ou m ta table et d un graphe g n rique ou un m ta graphe patron comme l a fait S Paumier 2003 pour transformer les tables syntaxiques des verbes du fran ais en graphes Dans la table g n rique chaque ligne correspond une des tables syntaxiques Les colonnes correspondent l ensemble des propri t s syntaxiques r pertori es dans notre tude Etant donn une ligne soit une table chaque colonne indique si la propri t associ e celle ci est cod e dans la table Si c est le cas il suffit d indiquer dans quelle colonne de la table s lectionn e se trouve la propri t par exemple si la propri t se trouve dans la colonne D on inscrit D dans la colonne correspondant cette propri t dans la m ta table Si cette propri t n est pas cod e dans la table cela signifie que pour toutes les entr es de la table cette propri t est implicitement vraie ou fausse Si la pro
238. ionale contre la violence la t l vision conjonctions de coordination sept a huit heures de avion de Tokyo contre onze de Los Angeles conjonctions de subordination fig es dans la mesure o des enfants meurent les phrases fig es Somm e de balayer devant sa porte l industrie Max a du pain sur la planche La jeune indienne a t tu e sur le coup Parmi les phrases fig es donn es ci dessus aucune ne r pond la question en o O l industrie est elle somm e de balayer devant sa porte O Max a t il du pain sur la planche O la jeune indienne a t elle t tu e sur le coup Notons que nous avons trait les pr positions et en s par ment car elles sont tr s fr quentes par rapport aux autres Nous avons trouv 30 de pr positions qui ont un emploi locatif dans le texte 40 pour en Pour les emplois locatifs la tr s grande majorit de ces pr positions appartiennent des adverbes contenant un nom propre de lieu Paris en France Ainsi un bon moyen d am liorer le rep rage local des adverbes locatifs est d tudier le comportement des noms propres de lieu dans ces adverbes cf sections suivantes D autre part nous avons voulu mesurer quantitativement l apport de la reconnaissance des pr positions locatives compos es dans le rep rage des compl ments locatifs Nous regardons les pr positions du type Loc Det N de Nous avons appliqu les grammaires de ce
239. ionnel bas sur un dictionnaire syntaxique o pour chaque entr e lexicale pr dicat est associ l ensemble des constructions dans laquelle elle peut appara tre Ce dictionnaire a la forme d un transducteur qui permet de reconna tre directement les constructions dans les textes et d tiqueter ces derni res Le transducteur est appliqu plusieurs fois jusqu ce que l analyse de la phrase ait atteint un point fixe Le dictionnaire syntaxique a t construit semi automatiquement partir des tables de lexique grammaire accumul es jusque l A chaque table E Roche associe un transducteur param tr appel aussi transducteur de r f rence ou tranducteur patron construit manuellement Ce dernier repr sente une entr e fictive de la table qui accepterait toutes les propri t s Chaque param tre correspond une propri t de la table L objectif est d ajuster automatiquement les param tres en fonction du contenu de la table pour chaque entr e La proc dure marche comme suit Pour chaque entr e e de la table on copie le transducteur de r f rence Puis pour chaque param tre p trouv on regarde le contenu de l l ment de la table situ l intersection de la ligne correspondant e et de la colonne correspondant p Si cet l ment est vrai alors la propri t associ e est conserv e dans le transducteur si l l ment est faux alors la propri t associ e est supprim e autrement on
240. ire leurs propres briques les linguistes ont souvent besoin de celles des autres Notre travail s inscrit dans une approche linguistique du TAL et plus particuli rement de l analyse automatique des textes Nous nous pla ons dans le cadre m thodologique du lexique grammaire M Gross 1975 Nous souhaitons apporter notre contribution sur deux points La description de processus complets de construction de composants linguistiques directement applicables des textes La conception d outils informatiques de gestion et de diffusion de larges biblioth ques de donn es linguistiques Nous nous consacrons essentiellement un type pr cis de donn es les grammaires locales GL Elles servent localiser des ph nom nes locaux de mani re tr s pr cise dans les textes comme les dates D Maurel 1990 les d terminants num raux M Silberztein 1993 A Chrobot 2000 les incises C Fairon 2000 Ces grammaires sont des graphes lexicalis s M Silberztein 1993 M Gross 1997 qui font appel des dictionnaires de mots simples B Courtois et M Silberztein 1990 et de mots compos s B Courtois et al 1997 Elles sont Elles sont opposer aux m thodes approximatives ou statistiques qui g n rent des erreurs La constitution de corpus est aussi d un grand recours pour les approches statistiques pour la phase d apprentissage Plus les corpus sont grands vari s et de qualit plus la pr cision des
241. ise dans les propri t s Par exemple pour la premi re ligne le graphe patron associ la table NNpr le sera automatiquement g n r en laguant et en ajoutant les informations n cessaires une copie du m ta graphe patron La variable GI sera remplac e par information H qui dans le graphe patron associ NNpr le identifie la colonne Npr de NNpr le La variable EL qui symbolise la structure LE Nc Adj de Npr sera supprim e du graphe patron EN qui symbolise la structure LE Nc de Npr sera quant elle remplac e par l tiquette vide ce qui autorisera automatiquement l utilisation de la structure associ e cette variable Pour cette entr e nous obtenons le graphe patron ci dessous sous le m ta graphe patron 150 ar EZE FORME LONGUE Npr ar le DET E gt CR A ETE lt le DET p gt lt E gt S lec lt son DET p Modi lt ODN p gt ar V Nc L a Variante Npr Ze D I ms a z gt ios ka lt archipel H mea a F G GK HOH V CH Adji Prep De em j QU EM rege N pr se Variante Det Variante Npr FORME COURTE Figure 76 m ta graphe patron en Es as Le V l or jme jes h ime y Han je DET E Y fax Lech lech lt le ps lt ech ee Ze gel le D I mes 7 E H enp i A d p Figure 77 graphe patron de la table NNpr le Le graphe fait r f rence aux colonnes par l interm diaire des variables OB OD CE correspond
242. it X un sommet de Gd Pour v rifier que l on peut traiter X on utilise un compteur associ chaque sommet de Gd qui indique le nombre de ses pr d cesseurs qui n ont pas encore t trait s Ce compteur a t initialis au nombre de pr d cesseurs de X Notons que dans la terminologie usuelle le nombre de pr d cesseurs du sommet X est appel degr entrant de X Si le compteur not X compteur n est pas gal 0 cela signifie que X poss de des pr d cesseurs qui n ont pas encore t trait s On termine l le traitement de ce sommet sans explorer les sommets desquels il d pend Par cons quent ces derniers ne peuvent pour le moment tre ajout s ARE Si ce compteur est gal O cela signifie que tous les pr d cesseurs de X ont t trait s et qu ils sont strictement internes Gd les sommets de X peuvent donc tre ajout s dans A ensuite on examine chaque successeur Y de X On d cr mente son compteur de 1 car X vient d tre trait et on refait r cursivement le m me 17 Rappel les arcs inverses sont galement cod s dans nos graphes 138 Si la fin du parcours de Gd le compteur d un sommet est toujours diff rent de O cela montre que ce sommet n est pas strictement interne Gd 205 processus sur Y La proc dure utilis e est quasi similaire celle du tri topologique d un graphe acyclique qui tient compte du degr entrant des sommets R Ahuja et al 19
243. iter l aide de la construction E Le fait que P Vsup Adv Par exemple la phrase Max boit du champagne r guli rement peut tre interpr t e comme Max boit du champagne Que Max boive du champagne se passe r guli rement Cette construction est souvent consid r e comme th orique car stylistiquement difficile Il est souvent plus naturel d utiliser le pronom cela portant sur P P cela Vsup Adv Max boit du champagne cela se passe r guli rement La nominalisation de P est parfois plus naturelle comme dans Max arrive lundi prochain Max arrive l arriv e de Max a lieu lundi prochain La relation entre Adv et P n est pas toujours facile mettre en vidence et m me pas toujours possible L exemple suivant est tir de M Gross 1986 l tonnement de Paul Max a r ussi son examen La relation entre l adverbe l tonnement de Paul et la phrase simple Max a r ussi son examen s explicite l aide de la phrase ci dessous o l adverbe est pr sent sous la forme d une phrase verbe Que Max a r ussi son examen tonne Paul Car la structure combinant Adv et P n est pas tr s naturelle Que Max a r ussi son examen se passe l tonnement de Paul Le cas o l adverbe porte sur un argument de la phrase 5 A Guillet et C Lecl re 1992 pr f rent utiliser le terme sous phrase 111 Parfois un adverbe ne porte pas sur la phrase mais simplement sur
244. ja R K Magnati T L Orlin J B 1993 Network Flows theory algorithms and applications Prentice Hall New Jersey Allen J 1995 Natural Language Understanding The Benjamin Cummings publishing Company Redwood City CA 221 Balvet A 2000 Evaluation de strat gies linguistiques pour le filtrage d information In A Dister ed Actes des Troisiemes Journ es Intex Revue Informatique et Statistique dans les Sciences Humaines Li ge Universit de Li ge Balvet A 2001 Filtrage d information par analyse partielle Actes de la 5 Rencontre des tudiants chercheurs en traitement automatique des langues R cital Tours Baptista J 1999 Manh Tarde Noite analysis of temporal adverbs using local grammars Seminarios de Linguistica 3 Faro Universidade do Algarve Baptista J Catala D 2002 Compound temporal adverbs in Portuguese and in Spanish In E Ranchhod N Mamede eds Advances in Natural Language Processing Lecture Notes in Artificial Intelligence LNAI 2389 Springer Bernard P Lecomte J Dendien J Pierrel J M 2002 Computerized linguistic resources of the research laboratory ATILF for lexical and textual analysis Frantext TLFi and the software Stella Proceedings of the 3 conference Language Resources and Evaluation Conference Las Palmas Berstel J 1979 Transductions and Context free Languages Teubner Verlag Boons J P 1985 Pr liminaires la classification des verbes locat
245. l mentaire utilis e par ces proc dures est de faire correspondre chacun de ces mots avec les symboles contenus dans les automates de B Il est donc n cessaire de pr traiter u l aide des dictionnaires Chaque u est une tiquette quelconque qui d signe un ensemble d unit s linguistiques Apr s consultation des dictionnaires de mots simples on peut associer un ensemble normalis U chaque u Soit x un symbole terminal normalis de la biblioth que Pour comparer u x il faut comparer chaque l ment de U x proc dure TagMatching Si l un des l ments 212 correspond x alors u co ncide avec x Dans le cas contraire il n y a pas de correspondance Nous appelons cette proc dure TagMatchingEns fonction TagMatchingEns x V pour chaque v e V si TagMatching x v alors retourner vrai finSi finPour retourner faux finFonction 5 5 3 3 Recherche par rapport un sac de mots Nous avons implant deux proc dures simples de recherche de grammaires partir d un sac de mots ou symboles terminaux u uj Un qu a entr Putilisateur La premi re consiste rechercher tous les automates qui contiennent au moins un mot de ul c est la proc dure OU La deuxi me consiste rechercher les grammaires qui contiennent r cursivement tous les mots de c est la proc dure ET On suppose que u a t normalis en U U Un U est la forme normalis e de u Pour chaque U on regarde
246. l re 1992 et J P Boons 1985 La plupart des travaux de TAL r alis s sur le sujet cherchent avant tout d crire des contraintes s mantiques dans ces compl ments Par exemple certains cherchent construire des mod les g om triques dans l espace utilisant notamment des d placements l mentaires pour d crire les mouvements Y Mathet 2002 Ce sujet est sensible dans le domaine du TAL et quelques projets ont t mis en place pour traiter ces objets linguistiques en particulier le projet GeoSem laboratoires GREYC ESO ERSS et MEDIA EPFL dont une des composantes consiste rep rer des s quences locatives g ographiques et leur assigner un marquage s mantique fin 108 La forme g n rale d un compl ment locatif peut tre d crite comme la forme nominale pr positionnelle Loc GN o Loc correspond une pr position locative et GN un groupe nominal Notre objectif est de trouver un certain nombre de contraintes locales d pendant du lexique permettant d am liorer la description de tels compl ments locatifs Nous consid rons que nos compl ments rentrent dans la construction verbe support NO Vsup Loc Det N Modif Des tudes sur les structures tre Prep X L Danlos 1980 M Gross 1996 ont montr les fortes contraintes qui existent entre les diff rents constituants Nous d cidons d examiner un ensemble limit de noms N et particuli rement de s quences nominales form es de noms propres de lieux g og
247. lationnel 168 table g n rique 149 coordination 61 d terminant nominal 42 45 78 130 num rique 42 43 dictionnaire lectronique 25 29 193 210 dictionnaire syntaxique 31 emploi 20 expressions de mesure 41 facteur 214 figement 19 120 forme canonique 28 forme fl chie 28 grammaire locale adverbes locatifs fig s 164 formalisme 33 185 graphe 24 30 graphe de d pendance 198 intersection 217 normalisation 187 90 r criture 35 sous graphe 34 graphe composante fortement connexe 197 205 graphe condens 198 205 th orie 196 tri topologique 206 graphe de r f rence voir graphe param tr graphe param tr 35 58 81 graphe patron voir graphe param tr groupe nominal 37 de mesure 98 noms propres g ographiques 141 148 indexation 195 209 11 212 lemmatisation 210 lexique grammaire 17 logiciel libre 179 mesure absolue 41 66 83 adjectivation 70 codage 73 effacement 71 nominalisation 70 permutation 69 mesure relative 41 84 97 codage 90 comparaison de grandeurs 95 pourcentage 92 95 pr position locative 87 m ta table voir table g n rique modeles statistiques 13 mot compos 28 211 mot simple 28 nom classifieur de lieu 127 de grandeur 41 66 de localisation 119 138 propre 126 nom propre g ographique 127 apposition 129 classification 133 137 codage 144 composition syntaxique 133 forme courte 127 138 156 forme longue 127 133 153 no
248. le a une dur e de trente minutes Les mesures relatives mesurent une caract ristique ou propri t Ne de NO par rapport N1 comme la distance 7 Des outils statistiques d extraction d expressions de mesures existent R Agrawal et R Srikant 2002 Nous n tudions pas les discours techniques 23 Pr p peut tre vide 41 Paris est une distance de 600 km de Bordeaux Nous int grons galement les expressions de pourcentage dans cette derni re cat gorie qui mesure l inclusion d un ensemble NO dans un autre N1 Les tudiants repr sentent 10 de la population Nous faisons aussi quelques remarques sur des s quences qui expriment une comparaison relative telles que dans la phrase suivante Max est deux centim tres plus grand que Luc Dans cette section nous d crivons en d tail le comportement syntaxique de ces expressions dans des phrases l mentaires puis dans les formes r duites de ces phrases Nous en donnons des repr sentations simples sous la forme de grammaires locales et de tables syntaxiques Cette tude a t r alis e sur le fran ais et partiellement sur l anglais Nous attachons une grande importance la r alit linguistique du contenu des textes Notre travail est bas sur les tudes de M Silberztein 1993 et A Chrobot 2000 sur les d terminants num riques de J Giry Schneider 1991 sur les phrases l mentaires repr sentant une mesure absolue et de P A Buvet
249. le fruit vient de la corbeille Luc jette une balle par la fen tre J P Boons 1985 E la balle est de ce c t ci de la fen tre Proc s la balle passe par la fen tre Ey la balle est de ce c t l de la fen tre Notons que J P Boons 1985 va plus loin dans l interpr tation s mantique Il estime qu il peut exister plusieurs tats finaux dans le proc s Dans la phrase suivante Les Russes lancent une bombe sur Paris Le premier tat final pourrait tre que la bombe atteint sa trajectoire Il peut tre explicit par la phrase La bombe est lanc e sur Paris Ce premier tat final induit lui m me un deuxi me tat final La bombe est sur Paris 4 2 3 Les pr positions locatives 4 2 3 1 Pr positions simples L une des caract ristiques d un compl ment locatif est la pr sence d une pr position locative avant le groupe nominal Pour certains linguistes dont D Le Pesant 2003 la pr position locative est un pr dicat Cette discussion n est pas pertinente notre propos cf C Lecl re et A Guillet pour plus de d tails 7 M me si cela n est pas toujours le cas Luc met les couteaux avec les fourchettes o avec les fourchettes est locatif O Luc met il les couteaux avec les fourchettes alors que la pr position avec ne l est pas 115 Il est facile de faire une liste exhaustive des pr positions locatives simples dans avant devant sur contre apr s derri re s
250. le non terminal dont le sommet correspondant n existe pas d j Enfin pour chaque sommet correspondant aux symboles dans Ens on fait une copie dans Gdg des arcs partant du sommet correspondant dans Gd Les algorithmes sont donn es ci dessous Proc dure MiseAJourDesVues Ens option Ens ensemble de non terminaux Inds miseAJour Ens option miseAJour Ens option Gde Gd FinProc dure Proc dure miseAJour Ens option Gdg Gd si option suppression alors pour chaque X e Ens Gds supprimerTousLesArcs X on supprime tous les arcs partant du sommet X finPour finSi si option ajout alors pour chaque X e Ens si X e Vs alors Gd creerSommet X finSi finPour pour chaque X e Ens pour cr er les arcs il faut d abord cr er les sommets pour chaque arc X Y e E Gdg creerArc X Y finPour finPour finSi finProcedure 201 5 4 4 Algorithmes naifs de suppression de grammaires 5 4 4 1 Pr liminaires Comme pour l insertion d une grammaire il existe deux types de suppressions de grammaires dans B a suppression d un automate sans ses sous automates b suppression d un automate plus r cursivement tous ses sous automates Nous imposons une contrainte pr alable pour le cas a il est interdit de supprimer un automate duquel d pend un autre automate En effet une telle suppression est risqu e car elle peut briser des cha nes de d pendance entre automates Nous donnons cette contrainte afin de garder un
251. le type avec ou sans sorties avec ou sans variables etc Ce filtrage est une op ration classique dans les bases de donn es relationnelles traditionnelles ni e Ku Sat Nous ne serions pas surpris de recueillir des dizaines de milliers de graphes 181 Nous avons galement impl ment une proc dure de recherche de graphes partir d une description par mots cl s de la grammaire recherch e Pour cela une documentation des graphes du moins des plus importants d entre eux est n cessaire Pour viter de rebuter les auteurs nous avons mis en place un diteur de documentation La proc dure de recherche revient alors une proc dure classique de recherche documentaire dans une base de donn es textuelles cf moteurs de recherche Google Yahoo etc recherche de pages Web Enfin on peut effectuer des recherches de grammaires partir de leur contenu lexical Un utilisateur peut donner un ensemble de mots ou tiquettes qu il souhaite voir appara tre dans la grammaire qu il cherche Il peut galement trouver toutes les grammaires de la biblioth que qui contiennent ou reconnaissent les s quences qu il d sire La visualisation du r sultat des recherches est fondamentale Il convenait de trouver une repr sentation simple mais qui contient des informations n cessaires A partir de la liste trouv e l utilisateur peut t l charger les graphes qui l int ressent 5 2 1 3 Quelques perspectives L appli
252. les autres cas La fonction matchChampSimple x y est une simple comparaison des cha nes de caract res x et y Si les cha nes correspondent le r sultat est vrai sinon il est faux Le seul point d licat est lorsque l un des champs ou les deux sont vides ou nuls x ou y Dans ce cas le r sultat est vrai On notera Ou avec cet algorithme CG vide est mis en correspondance avec lt N gt FG vide Pour viter cela il suffira de v rifier au pr alable si l on n a pas ce type de cas particuliers La fonction matchEnsemble x y grammatical Autom sert comparer deux champs correspondant aux traits et sera galement utilis e comme sous proc dure de la comparaison de l ensemble des codes de flexions Si au moins l un des deux arguments x ou y est vide alors on retourne vrai Les symboles x et y repr sentent des ensembles tri s respectivement Dit tal et y1 y2 Ym Si l un des deux est inclus dans l autre on retourne galement vrai par exemple si on a un champ Hum z1 et un champ z1 alors on retourne vrai Si les conditions pr c dentes ne sont pas remplies les deux champs correspondent si l union des deux ensembles forme une suite d informations qui se trouve dans le dictionnaire Par exemple si l on a une tiquette lt N Top gt et une tiquette lt N NPR gt alors ces deux tiquettes correspondent car les deux traits peuvent se trouver dans une m me entr e du dictionnaire Tours N NPR Top
253. les caract ristiques suivantes c est un nom propre N PR toponymique Toponyme d signant une ville Ville qui n a pas de d terminant obligatoire DefZ qui peut s accorder au masculin singulier et au f minin singulier ms fs Le premier int r t de ce dictionnaire est de reconna tre avec une grande pr cision les noms propres de lieu Ensuite il est une premi re base solide pour un syst me de traduction des toponymes T Grass et al 2002 Les outils d extraction automatique des noms propres peuvent servir trouver de nouvelles entr es candidates ce dictionnaire Dans cette partie nous tudions le comportement syntaxique de noms propres compos s not s Nprc En g n ral les noms propres de lieu que nous utilisons sont des formes r duites ou courtes de s quences compos es En effet chaque lieu a un nom Npr qui peut tre complexe Pas de Calais Los Angeles etc et appartient une classe de lieu d finie par un ou plusieurs classifieurs Nc r gion Pas de Calais ville de Los Angeles Dans certains cas le nom du lieu est suffisant pour d signer ce lieu comme Pyr n es Atlantique ou M diterran e Ce sont en fait des formes r duites de noms propres compos s comprenant un classifieur Nc et un nom Npr Pyr n es Atlantiques est la forme courte de d partement de les Pyr n es Atlantiques M diterran e est la forme courte de mer M diterran e D sormais nous d signons ces noms propres c
254. leur structure interne la plus longue Par exemple les couples R union le Ile de France r gion Vermont tat et Pir e ville seraient ins r s dans la classe NPDNpr car leurs formes les plus longues sont de ce type L le de la R union La r gion de l de E Ile de France L tat de le de Vermont La ville de le Pir e Le couple Iran r publique serait int gr la classe NAPNpr car sa forme la plus longue contient l adjectif appropri islamique la r publique islamique d Iran Le gros avantage de cette classification est qu elle est tr s facile mettre en place construction d une table par structure syntaxique Ainsi la classification de formes rares comme Jamahiriya arabe libyenne populaire et socialiste ne pose pas de probl me Etant donn un couple et sa forme la plus longue l ajout est imm diat Cependant cette m thode pr sente de multiples inconv nients Tout d abord l intuition linguistique sur les noms propres de lieu n est pas toujours tr s fiable L acceptabilit de certaines structures peu connues est surtout bas e sur les tendances g n rales sur des attestations trouv es dans les corpus de travail ou sur des intuitions phonologiques Ainsi la classification pour beaucoup de noms propres serait bas e sur une sorte d approximation 2 D autre part certaines structures dans lesquelles rentrent certains noms propres sont plut t marginales dans l e
255. m compos 131 nombre 43 45 objet 110 phrase classificatrice 129 pr d terminant num rique 42 47 49 75 77 pr dicat 17 adjectival 19 nominal 19 pr position locative 87 112 compos e 119 22 simple 115 19 statistiques 122 26 protocole 183 recherche d information contenu de la documentation 211 contenu lexical 213 17 RELEX 31 r seau r cursif de transitions 33 185 stockage de grammaires insertion 199 202 suppression 202 9 252 symbole terminal mise en correspondance 192 95 normalisation 190 92 r alit linguistique 188 table de lexique grammaire voir table syntaxique table g n rique 149 table syntaxique 23 36 compl ments pr positionnels 154 159 mesures absolues 73 mesures relatives 90 noms propres g ographiques 144 pr d terminants num riques 77 transducteur tats finis 29 transformation adjectivation 21 70 binaire 21 nominalisation 21 70 111 unaire 21 Unicode 187 unit de mesure 42 49 58 symbole 50 unit complexe 54 57 vent 80 locatifs
256. maire locale est conserv e alors les l ments internes sont d sambi guis s 39 d ailleurs dans une derni re partie laborer des outils de gestion d une biblioth que de grammaires locales 40 Chapitre 3 Analyse et repr sentation d expressions de mesure 3 1 Introduction Dans cette partie nous d crivons et repr sentons des expressions num riques et plus particuli rement des expressions de mesure dans le but de les reconna tre automatiquement dans les textes de langue g n rale quotidiens d informations comme Le Monde et journaux de vulgarisation scientifique type Science et Vie De pr c dentes versions de ce travail ont t publi es dans M Constant 2000 2002a Nous employons le terme expression de mesure pour toute s quence linguistique contenant la sous s quence de base Dnum Unit ex 10 m o Dnum est un d terminant num rique cardinal Nous distinguons deux types de mesure les mesures absolues et les mesures relatives qui entrent respectivement dans les structures suivantes o le symbole Ng d signe un nom de grandeur 1 NO avoir un Ng de Dnum Unit la corde a une longueur de 10 m 2 NO Vsup Pr p un Ng de Dnum Unit Pr p1 N1 le couteau forme un angle de 10 avec la fourchette Les mesures absolues sont des mesures de caract ristiques ou propri t s Ng propres l argument NO comme la taille ou la dur e Max a une taille de 1 71 m Le spectac
257. mate direct ou non et que l on atteint un tat final il faut revenir l automate qui a appel le sous automate et continuer la reconnaissance de u partir de l tat d arriv e de la transition faisant appel au sous 1 Soit un alphabet T On dit que la s quence u est facteur de la s quence v si v xuy avec v u x y T 14 Cet arbre serait un nouvel index que l on ajouterait la biblioth que 14 Plut t par une tiquette correspondant u 214 automate Il est donc fondamental d avoir m moris dans une pile les informations n cessaires pour reprendre du bon endroit tat et automate la reconnaissance dans un automate de niveau sup rieur ou d pendant Si la pile est vide cela signifie que l automate courant est l automate de base Le probl me d b survient lorsque l on atteint un tat final de X et que u n a pas t enti rement reconnue En effet il est possible que le reste de la s quence u soit reconnu partir d un tat q d un automate Y q tant d fini comme l tat d arriv e d une transition tiquet e par X L id e est donc de continuer la reconnaissance dans les automates qui d pendent de X calcul s directement l aide du graphe de d pendance Gd Les quivalents des tats d clencheurs dans les automates d pendants sont les tats d arriv e des transitions tiquet es par X Par ailleurs d s que l on monte dans un automat
258. matique de textes journalistiques Th se de doctorat d informatique Tours Friburger N Maurel D 2001 Elaboration d une cascade de transducteurs pour l extraction de motifs exemple des noms de personnes Actes de la conf rence sur le Traitement Automatique des Langues Naturelles Tours 225 Friburger N Dister A Maurel D 2000 Am liorer le d coupage des phrases sous INTEX In A Dister ed Actes des Troisi mes Journ es Intex Revue Informatique et Statistique dans les Sciences Humaines Li ge Universit de Li ge FSMNLP 2003 Proceedings of the EACL workshop on Finite State Methods in Natural Language Processing Budapest Gardarin G 1999 Bases de donn es objet et relationnel Editions Eyrolles Garrigues M 1995 Prepositions and the names of countries and islands a local grammar for the automatic analysis of texts Language Research 31 2 Seoul Language Research Institute Seoul National University Garside R Leech G Sampson G 1987 The computational analysis of English a corpus based approach Longman London Giry Schneider J 1978 Les nominalisations en fran ais Droz Gen ve Paris Giry Schneider J 1987 Les pr dicats nominaux en fran ais les phrases simples verbe support Droz Gen ve Paris Giry Schneider J 1991 Noms de grandeurs en avoir et noms d unit s Cahiers de grammaire Universit de Toulouse Le Mirail Graham R L Knuth D E Patashnik O 1994
259. melle est valable dans un grand nombre de cas O part Max Paris O sont coll es les affiches sur le mur D o revient Luc de la plage Par o passe la balle par la fen tre Il existe cependant des contre exemples qui rendent ce crit re non valable pour tous les compl ments locatifs J P Boons 1985 estime que la question en o est un crit re suffisant mais pas n cessaire En effet les phrases suivantes sont interdites O revient Luc de la plage O Hannibal marche t il J P Boons 1985 Sur Rome On peut m me se demander si c est un crit re suffisant M Gross 1975 avait d j entam la discussion en montrant que certaines infinitives dont il n est pas clair qu elles soient locatives r pondaient la question en o O va Paul Acheter du pain Certains diront que la r ponse cette question n est pas acheter du pain mais le locatif la boulangerie qui est le lieu sous entendu par le proc s d aller acheter du pain C Lecl re 2002 O va Paul A la boulangerie pour acheter du pain La question en Prep o est quant elle clairement non suffisante comme le montre la phrase Par o Max va t il commencer Par le montage des roues o par le montage des roues ne d note pas un lieu 113 Pour conclure sur ce sujet J P Boons 1985 estime que l on ne peut pas couvrir exactement le champ s mantique du lieu l aide de crit res formels On peut seule
260. ment s en approcher 4 2 2 2 Compl ments locatifs et verbes supports Pr c demment nous avons tent de distinguer adverbes et compl ments essentiels Pour les locatifs un m me compl ment peut tre soit un adverbe soit un argument Prenons les exemples suivants Max chante dans sa chambre Max va dans sa chambre En essayant de relier le compl ment au reste de la phrase ces deux constructions r agissent diff remment Que Max chante se passe dans sa chambre Que Max aille se passe dans sa chambre Bien que la premi re construction soit d une acceptabilit difficile nous l acceptons alors que la deuxi me est clairement inacceptable Nous en concluons que dans la premi re phrase dans sa chambre est un adverbe Il est clair que dans le deuxi me exemple dans sa chambre est un compl ment essentiel et m me obligatoire la phrase suivante tant interdite Max va Soit la phrase suivante Marie a saut dans un lac gel en Suisse Elle poss de deux compl ments locatifs dans un lac et en Suisse Nous montrons qu ils n ont pas le m me r le dans cette phrase en Suisse joue le r le d un adverbe portant sur la phrase l mentaire c est le lieu du proc s alors que dans un lac est un compl ment essentiel du verbe sauter Que Marie a ait saut dans un lac s est pass en Suisse Que Marie a ait saut E en Suisse s est pass dans un lac J P Boons 1985 et A Guillet et C Le
261. ment sont d ordre p o p est le nombre d arcs du graphe de d pendance de la grammaire supprimer La complexit de la proc dure de calcul de l ensemble des automates supprimer est devenue lin aire gr ce nos am liorations M me la proc dure de construction du graphe condens est d ordre lin aire si l on utilise l algorithme de Tarjan Ainsi l algorithme d coulant de celui de la lib ration d objets dans un programme et notre nouvel algorithme ont tous deux une complexit lin aire Cependant le deuxi me est plus int ressant que le premier car il est cens traiter un graphe de taille relativement n gligeable par rapport l autre la taille de la biblioth que versus la taille de la grammaire supprimer 5 5 Recherche d information 5 5 1 Pr liminaires Vue sa taille potentielle une biblioth que de grammaires locales doit comporter un moteur de recherche de grammaires robuste afin d offrir un catalogue pr cis de grammaires aux utilisateurs partir d une requ te donn e Ces requ tes peuvent porter sur des crit res simples tels que l auteur de la grammaire la langue le type etc Ces informations sont cod es dans des champs classiques de bases de donn es relationnelles et font donc appel des techniques tr s peu originales de traitement de requ tes de type SQL par exemple Cependant la recherche de grammaires partir de tels crit res g n raux ne pr sente pas forc ment beaucoup d in
262. mesure pourcentageFinal H de H NODetZ H dans H Nidef GNmesure pourcentage voire Figure 63 NO repr senter Dnum de N1 94 3 4 5 Comparaisons quelques remarques sur les variations lexicales Nous faisons maintenant quelques remarques sur la variation lexicale d un nouveau type de phrases qui peuvent tre consid r es comme des mesures relatives Prenons les deux phrases suivante Max a une taille de 178 cm Luc a une taille de 174 cm Il est possible d interpr ter ces phrases l aide d une phrase comparative La taille de Max est 4 cm plus lev e grande que celle de Luc La taille de Max d passe de 4 cm celle de Luc Nous nous int ressons un autre type de structure mais qui est s mantiquement quivalente celle ci La propri t mesur e n y est plus explicite sous la forme d un nom Ng ex faille mais sous la forme implicite d un adjectif comme dans la phrase ci dessous quivalente la phrase pr c dente Max est 4 cm plus grand que Luc Ainsi nous tudions la structure NO tre Dnum Unit plus moins Adj que N1 Elle appara t bien comme une mesure relative car elle met en jeu une mesure Dnum Unit et deux arguments VO et N1 Nous nous attachons surtout montrer les contraintes lexicales Nous partons des listes de noms pr dicatifs Ng utilis es pr c demment et nous regardons l ensemble des adjectifs pouvant tre utilis s dans chacun des cas Chaque
263. met de compl ter la liste des Ng exemple ge etc D autre part notre formalisme n impose pas de co t suppl mentaire en temps lors de la mise jour des donn es En effet dans les graphes l insertion d une nouvelle s quence linguistique est une op ration tr s simple l ajout de nouvelles transitions dans le graphe La modification des tables est galement tr s simple et tr s conomique Par exemple l ajout d une nouvelle propri t ne requiert que l ajout d une colonne dans la table la modification du graphe patron et la g n ration automatique des graphes associ s chaque entr e lexicale 3 5 2 2 Bruit et silence Traditionnellement pour valuer l efficacit des grammaires on effectue des valuations quantitatives en les appliquant sur un corpus de taille moyenne que l on d cortique ensuite manuellement Deux crit res d valuation sont alors calcul s le silence et le bruit Le silence est la quantit d expressions pertinentes non trouv es par la grammaire Le bruit est la quantit d occurences reconnues par la grammaire mais qui sont incorrectes En g n ral ces deux crit res sont donn s sous la forme de pourcentages de ces quantit s par rapport au nombre d occurences correctes trouv es manuellement Avant de r aliser ce type d valuation nous faisons quelques remarques Tout d abord d un point de vue g n ral notre approche purement linguistique se distingue de l
264. n j l e D 30 r publique de Bi lorussie j bi lorusse la OI 30 r publique de Bolivie j j bolivien la TD 30 r publique de Bosnie Herz govine j bozniaque a 54 30 r publique de le Eotswana J l e T6 30 r publique f d rative de fle Br sil br silien ie TI 30 r publigue de Bulgarie j j bulgare la D I 3O r publique de jle Burundi Le jl l e D I 20lr publique de le Cameroun j camerounais e b i 30 r publique de le Cap Vert cap verdien 5 e 102 30 r publique Centrafrique centrafricaine jle D I 30 r publique de jle Chili j chilien jle 108 30 r publique populaire de Chine chinoise a ID 30 r publique de Chypre chypriote LEs 30 r publique de Colombie j colombien Jla D 30 r publique de jle Congo j congolais jle 19 30 r publique d mocratique de jle Congo Re en e Zaire 14 30 r publique de Cor e l sud cor en a Cor e du Sud Table 16 chantillon de la table NNpr r publique On peut noter que Vietnam fait appel un graphe du m me nom qui d crit toutes les variantes orthographiques 4 3 7 7 Vers une reconnaissance automatique de groupes nominaux Le lexique accumul jusqu pr
265. n e soit d un 2 soud si l on a un symbole soit du modifieur carr si l unit le pr c dant est crite en toutes lettres ex m2 m tre carr des unit s de surface simples comme are hectare symbolis es par a et ha Dans ce cas on s pare les symboles des unit s crites en toutes lettres et on construit les deux graphes Nmesure surface et Nmesure surface _abr suivants Figure 39 Nmesure surface Figure 40 Nmesure surface_abr A cette classe on associe galement le graphe DnumNmesure surface precis En effet on peut exprimer une mesure de surface l aide de la multiplication de deux mesures de longueurs GNmesure longueur comme suit Marie a achet un champ d une surface de 70 m x 120 m cent m tres sur trente x lt E 1 Drum H Nmesure longueur Drum Me O Figure 41 DnumNmesure surface precis Il en est de m me pour les unit s s lectionn es par volume Le graphe form est l union de deux types d unit s des s quences comprenant une unit m trique de longueur suivie d un 3 coll ou du modifieur cube Les unit s d riv es de litre se trouvant dans les graphes Litre et Litre_abr 56 Nous synth tisons ces unit s dans les graphes Nmesure volume et Nmesure volume_abr Figure 42 Nmesure volume Figure 43 Nmesure volume_abr Ci dessous nous donnons le graphe Nmesure densite pop d crivant les unit s s lectionn es par le nom densit d mo
266. n s en d tail la repr sentation formelle du r sultat et les descriptions linguistiques encore r aliser D abord l ambiguit n est pas seulement pr sente au niveau lexical mais aussi au niveau syntaxique En effet la s quence Prep GN Prep GN Prep GN est extr mement ambigu Prep GN est soit un adverbe soit un argument d un pr dicat verbal nominal ou adjectival Le nombre d interpr tations possibles est de l ordre de la factorielle n avec n nombre de 14 cf F Jelinek et al 1992 15 A Smeaton 1999 T Strzalkowski et al 1999 E Voorhees 1999 16 Soit n le nombres de mots d une phrase le nombre d interpr tations possibles de celle ci est d environ 2 32 s quences Prep GN Or ce type de s quences est extr mement fr quent dans les textes Si l on souhaite tenir compte de l ambiguit le plus loin possible dans le processus afin de ne n gliger aucune piste il est n cessaire de trouver une repr sentation adapt e Le r sultat non ambigu de l analyse syntaxique est tr s souvent repr sent sous la forme d un arbre Ainsi il serait logique de repr senter l ensemble des interpr tations possibles par une for t d arbres Cependant l ambigu t serait telle qu une telle repr sentation serait trop co teuse Une repr sentation factoris e de cette for t pourrait tre un automate particulier Ensuite il est n cessaire de trouver des algorithmes peu co teux associ s
267. n accord commercial alors que l emploi singulier est exclu 142 La ville Paris est candidate l organisation des JO Ces coordinations sont tr s naturelles dans les constructions nominales contenant la pr position de Les royaumes de Belgique et du Danemark ne sont pas tr s loign s l un de l autre Les les de Sardaigne et de Sicile attirent beaucoup de touristes Les coordinations de formes nominales sans pr position de sont aussi possible Max aime survoler les mers M diterran e et Adriatique Par contre la coordination entre constructions de diff rentes structures est plus difficile Max d teste les les Maurice et de la R union La factorisation du classifieur dans une coordination de noms propres compos s fig s est acceptable m me si elle n est pas tr s naturelle Luc a d j affront les mers de Cor e et du Nord Luc a d j affront les mers Morte et Noire Marie a travers les vall es de la Mort et des Rois Ces constructions sont plus naturelles avec des noms propres moins fig s Marie a travers les vall es de Chevreuse et de la Maurienne 4 3 6 3 Les modifieurs autour de Nc Nous examinons la distribution des modifieurs dans les groupes nominaux tudi s pr c demment Les groupes nominaux peuvent avoir les formes suivantes o M1 M2 et M3 sont trois positions de modifieurs Det M1 Nc M2 de E Det Npr M3 Det M1 Nc Npr M3 Le d partement tr s montagneu
268. n dans colonne Q et la troisi me la pr position colonne R En effet le comportement pr positionnel des Nprc ayant le nom ile pour classifieur est difficilement pr dictible Max est la en Cr te Corse Det la Max est la en R union Det la L a est en Ha ti Det E L a est en Born o Maurice Det E de AR E D E E G H MAILER P M N DARE RA a Z 2 o e 5 _ o Le A a by m E a E ia Si 2 MES ES o CH D de a AR A ele SE Ee alel 5 SCH a LIz zls T zZ i zZ EAN 50 T alas S u ulu Sju 3 8 s S S5 UE le Al outiennes t Ir es a 56 le e Jla Ascension Lt IL a 2 le Bahamas bahamien les PE 3 le e les Bal ares Euler S es Je 57 Ce e la Barbade LL barbadien la El E 34 le e Beaut j k Air le Bermudes j l es j e 35 le e Born o ol k 2 lt E gt j 5 le e es Canaries es EG Es 58 le e je Cap Vert cap verdien le j 6 Ce a e Cara bes ES es A ii 7 Ce A E Celebes ETA SE es AS 36 le e j Ceylan h l SE 37 Fife e j Chypre j J chypriote lt E gt 38 le e Corse j corse jla ER SEH 39 le e Cr te
269. n fran ais description linguistique et outils informatiques Th se de doctorat en informatique Universit de Marne la Vall e Fairon C 2001 INTEX dans un syst me de g n ration automatique de tests de raisonnement analytique http www nyu edu pages linguistics intex Fairon C Senellart J 1999 Classes d expressions bilingues g r es par des transducteurs finis dates et titres de personnalit anglais fran ais Linguistique contrastive et traduction Approches empiriques Louvain la Neuve Fairon C Watrin P 2003 From extraction to indexation Collecting new indexation keys by means of IE techniques Proceedings of the EACL workshop on Finite State Methods in Natural Language Processing Budapest Ferret O Grau B Hurault Plantet M Mlouz G Jacquemin C 2001 Utilisation des entit s nomm es et des variantes terminologiques dans un syst me de question r ponse Actes de la 8 conf rence sur le Traitement Automatique des Langues Naturelles Tours Fluhr C 2000 Indexation et recherche d information textuelle In J M Pierrel ed Ing nierie des Langues Hermes Science Paris Fourour N Morin E Daille B 2002 Incremental recognition and referential categorization of french proper names Proceedings of the Third International Conference on Language Ressources and Evaluation Las Palmas Friburger N 2002 Reconnaissance automatique des noms propres application la classification auto
270. n supprime l ensemble des automates non marqu s Cette m thode implique que l ensemble A soit mis jour chaque insertion de grammaire ou que l on pr calcule H avant la proc dure de suppression Le temps de calcul de cette proc dure est lin aire par rapport p le nombre de d pendances de B Cette m thode a le grand d savantage de d pendre de la taille de B Plus la biblioth que grossit et plus cette m thode sera co teuse L id al serait de travailler sur la grammaire G qui a une taille beaucoup plus restreinte que B 5 4 4 3 Un algorithme na f manipulant le graphe de d pendance de la grammaire supprimer Nous proposons maintenant une autre m thode o le raisonnement est inverse on part des objets que l on sait morts ou plut t qui sont supprimer et non des objets vivants comme pr c demment Notre donn e de d part est le symbole non terminal Z qui d finit une grammaire G incluse dans B Soit un ensemble d automates inclus dans G comprenant autg Z et un certain nombre d automates desquels aufs Z est d pendant Supposons que chaque automate de A soit strictement interne G A nsi chacun d entre eux peut tre supprim par application directe de notre contrainte Soit un automate inclus dans G qui n appartient pas cet ensemble mais duquel au moins un automate de A est directement d pendant Examinons les diff rents cas qui s offrent nous Si A n est pas strictement intern
271. nd possible leur r utilisation dans d autres GL ce qui facilite le travail en quipe Nous proposons d implanter un syst me centralis de stockage et de diffusion ad quat Nous verrons que cela n est pas vident car les grammaires sont des objets relativement complexes Les probl mes algorithmiques sont plus difficiles qu ils n en ont l air premi re vue Les algorithmes de stockage ajout et suppression de grammaires dans une biblioth que manipulent la th orie des graphes Les outils de recherche d information n utilisent pas des requ tes standards pour les bases de donn es car on veut pouvoir rechercher des informations pr cises sur le contenu linguistique des GL de la biblioth que Alors que la communaut TAL commence juste s int resser la construction d outils de gestion de ressources linguistiques les tudes et projets sont limit s quelques types de ressources logiciels corpus ou dictionnaires L int r t de notre travail appara t donc clairement Le plus souvent on peut construire des automates finis partir de ces RTN En pratique les GL sont des graphes qui ont la propri t de pouvoir appeler des sous graphes ind pendants formalisme des RTN 15 Chapitre 2 Lexique grammaire et grammaires locales 2 1 Notations Les notations ci dessous serviront tout au long de ce m moire P V Vsup W NO N1 N2 GN GNloc N Nc Npr Adj Modif Det Dnum Prep Lo
272. ndexer la biblioth que par plusieurs types d informations Lors des proc dures de stockage ou de recherche nous aurons besoin d acc der rapidement divers l ments dans la biblioth que Par exemple il sera utile d avoir une vue des grammaires sous la forme de graphes d crivant les d pendances entre leurs 15 lt DIC gt d signe tout mot se trouvant dans le dictionnaire lt PRE gt d signe tout mot commen ant par une majuscule 195 automates tant donn un automate le calcul de la liste des sous automates qu il utilise est alors tr s peu co teux Les symboles terminaux doivent tre associ s l ensemble des automates dans lesquels ils apparaissent Ceci permet par exemple de d terminer imm diatement l ensemble des grammaires qui contiennent un mot donn Les automates doivent galement tre index es selon les mots contenus dans leurs documentations mots cl s textes de description cela permet par exemple d acc der imm diatement aux automates dont la documentation comprend certains mots cl s Nous fournirons plus de d tails sur ces index lors des descriptions des diff rentes proc dures o elles sont utiles Pour la suite nous consid rons que notre biblioth que est form e d un ensemble d index qu il faut mettre jour lorsque la biblioth que est modifi e 5 4 Stockage des grammaires 5 4 1 G n ralit s Les op rations de stockage des grammaires locales dans la biblioth que pe
273. ne ou environ dans A peine Environ Luc a une taille de 1 50 m Luc a une taille peine environ de 1 50 m La structure non connexe ne que s emploie sans difficult sauf dans les cas clairs suivants Que son spectacle n a une dur e de dix minutes Son spectacle n a une dur e de que dix minutes Son spectacle n a une dur e de dix minutes que D autres ne s emploient jamais tels que seul et demi Nous construisons une table syntaxique repr sentant les comportements des pr d terminants Chaque ligne correspond un pr d terminant de notre lexique La premi re colonne contient les pr d terminants Les sept autres colonnes correspondent aux sept structures ci dessus Le signe dans une case signifie que l entr e correspondant la ligne de cette case rentre dans la structure associ e sa colonne Le signe signifie le contraire 76 ES SC el E c e 5 an 53 3 35 E E EJE 3 Les bai es pa E 5 CE E a 3 ojaja ra Ue E m ol o mis E e e i ia a Oo l2 o ml als lal Ehz Sels lna A cit eil gt E Z Ei Ele IE 2138 2 IKEA ali sleja e 2 3 5 SI l E 5 5 Ploloclosloltlsls olz 2 2 2 o 2 comme LL d abord encore ensuite environ jusqu m me ne que plut t presque quelque seul a demi peine au mieux approx
274. ng e pour constituer un lexique cons quent et significatif Enfin nous esp rons que la future mise en place effective de notre bilioth que en ligne de graphes pourra faciliter les changes au sein de la communaut RELEX et que plus long terme elle servira de base linguistique des outils d analyse automatique 220 Chapitre 7 R f rences Abeill A 1991 Une grammaire lexicalis e d arbres adjoints pour le francais Th se de doctorat Universit Paris 7 Abeill A 1993 Les Nouvelles Syntaxes Grammaires d unification et analyse du fran ais Collection linguistique Armand Collin Paris Abeill A Blache P 2000 Grammaires et analyseurs syntaxiques In J M Pierrel ed Ing nierie des langues Herm s science Paris Abeill A Cl ment L Kinyon A Toussenel F 2001 Un corpus francais arbor des interrogations Actes de la STT conf rence sur le Traitement Automatique des Langues Naturelles Tours Abney S 1996 Statistical Methods and Linguistics In J Klavans P Resnik eds The Balancing Act Combining Symbolic and Statistical Approaches to Language The MIT Press Cambridge MA Agrawal R Srikant R 2002 Searching with numbers WWW2002 Hawaii Aho A V Hopcroft J E Ullman J D 1983 Data Structures and Algorithms Addison Wesley Reading MA Aho A V Ullman J D 1973 The Theory of Parsing Translation and Compiling Vol II Compiling Prentice Hall New Jersey Ahu
275. ngueurFinal GNmesure surfaceFinal GNmesure masseFinal GNmesure volumeFinal GNmesure monetaireFinal GNmesure tempsFinal umPrep DET Dnom Mesure La GNmesure longueur GNmesure surface GNmesure masse GNmesure volume GNmesure monetaire GNmesure temps GNmesure longueur GNmesure surface GNmesure masse GNmesure volume GNmesure monetaire GNmesure temps Figure 66 localisation de d terminants nominaux de mesure 3 5 3 2 Analyse transformationnelle A plus long terme nous pourrions utiliser les techniques d E Roche pour une analyse transformationnelle d expressions de mesure l aide de transducteurs variables En effet le groupe nominal une salle 10 C peut s analyser par la s quence suivante une salle 10 C une salle avoir une temp rature de 10 C GN mesure Cette s quence signifie que l expression reconnue une salle 10 C est un groupe nominal qui est le r sultat de la r duction de la phrase l mentaire la salle a une temp rature de 10 C Le graphe utilis pourrait tre le suivant de me j temmpiranre pe A A GN nU nU e GN avoir une temp rature de nU GN mesure Figure 67 analyse transformationnelle de groupes nominaux de mesure Les s quences GN et nU sont des variables Lors de l application de ce graphe la s quence ci dessus chaque partie reconnue par les chemins entre parenth ses du graphe est stock e dans la variable associ
276. nom Ng s lectionne un ensemble d adjectifs appropri s tr s restreint que nous pouvons facilement r pertorier Par exemple pour le nom poids s lectionnant les unit s de mesure de masse Nmesure masse et pour le nom longueur s lectionnant les unit s Nmesure longueur ona Paul est 10 kg plus l ger lourd grand chaud que Luc Ta barque est 10 m plus petite grande longue courte lourde chaude que mon voilier Les noms morphologiquement d riv s de ces adjectifs quand ils existent ne rentrent pas dans la plupart des cas dans une phrase de la forme NO avoir un Ng de Dnum Unit Paul a une l g ret de 75 kg Ta barque a une grandeur de 3 m Un m me adjectif peut tre s lectionn par plusieurs Ng comme grand s lectionn par aire hauteur taille etc Dans ces cas c est la nature s mantique des arguments NO et N1 qui permet de lever l ambigu t Nous n entrons pas dans la discussion Si Pon regarde les Ng du type distance on constate le m me ph nom ne de s lection d adjectifs pour deux d entre eux distance et hauteur Ng distance Paris est 300 km plus loin proche distant de Bordeaux que de Tours 95 Ng hauteur Dans l ascension du pic du Midi Paul est 30 m plus haut bas que Max Dans la plupart des textes on retrouve ces expressions sous la forme r duite d un adverbe 100 km plus loin haut des soldats ont tir sur des manifestants Nous don
277. nombres crits en toutes lettres respectivement de un quatre vingt dix neuf et de un neuf cent quatre vingt dix neuf Les graphes NombreEntierEnChiffre1 99 et NombreEntierEnChiffre1 999 d crivent des nombres entiers crits en chiffres allant respectivement de 99 et de 7 999 plus 0 DaumEnLetiras PE i DnumEnLettres1 999 NombreEntiertaChires some a A ones DnumEnLetires z y DnumEnLettres1 99 NombreEntierEnChifites emere der Hamas DnumEnLettres1 999 NombreEntierEnChiffres1 999 NombreEntierEnChifies km A NombreEntierEnChifires1 999 j m m a gt NombreEntierEnChifires m NombreEntierEnChi ies1 99 h NombreEntietEnChiffres1 999 gt mm Figure 35 DnumMetre precis Figure 36 NombreEnChiffres1 999 36 Di EE 4 D une mani re g n rale ce type de graphe est nomm selon le mod le suivant DnumUnite precis 53 DnumEnLettres Figure 37 GNmesure metre Dans la suite nous emploierons le terme g n rique GNmesure pour repr senter la s quence Dnum Unit 3 2 3 3 Contraintes entre Ng et Unit Dans le sch ma de phrase Det Ng tre de Dnum Unit la longueur est de 30 m chaque Ng s lectionne un ensemble restreint d unit s homog nes soit des unit s simples comme la
278. nombres d cimaux crits en chiffres En fran ais la partie enti re est s par e de la partie d cimale par une virgule 72 7 ou 3 896 En anglais c est un point qui fait office de s parateur 12 7 ou 3 896 Dans ce cas la partie d cimale est une simple s quence de chiffres coll s d au moins un l ment et est repr sent e par le graphe PartieDecimale Un nombre quelconque crit en chiffres arabes est alors reconnu par le graphe DnumEnChiffres regroupant les graphes NombreEntierEnChiffres et PartieDecimale Notons que ces deux parties enti re et d cimale sont obligatoirement coll es la virgule les s parant Cela vite par exemple de reconna tre 70 11 dans l expression coordonn e 0 11 ou 12 chaises Par ailleurs les nombres peuvent tre sign s ils peuvent avoir un ou un plac au d but gauche h Chiftre gt j CERE gt CE 0 10000051 la A RO Figure 17 Chiffre Figure 18 3Chiffres Figure 20 PartieDecimale Figure 21 DnumEnChiffres Les nombres en notation scientifique poss dent aussi une syntaxe bien particuli re La partie enti re ne comprend qu un seul chiffre La partie d cimale est plus libre en fonction de la pr cision que l on souhaite avoir On ajuste ensuite ce nombre l aide d une puissance de 10 soit n gative soit positive 1 23 10E5 ou 1 23x10 5 4 8x10 6 dans Science et Vie No
279. noms de villes ne prenant pas de d terminant comme Toulouse ont le trait syntaxique DetZ la ville de E Det Npr la ville de La Havane Toulouse Les Saisies Dans ces exemples Npr s lectionne un type de classifieur ville et non un autre mer est interdit Mais cette s lection lexicale est elle suffisante pour consid rer ces s quences comme des noms compos s Le fait que l on puisse ins rer des modifieurs entre le nom ville et la pr position de fragilise cette th se La ville musulmane de T h ran La ville francophone de Qu bec De plus ce type de comportement est habituellement d crit comme un figement mais avec la notion de nom appropri Pour finir cette discussion nous voquons un dernier point pouvant laisser penser que les objets que l on traite sont des noms compos s En effet il est bien connu que la pr sence d un modifeur est interdite dans la s quence suivante Max est en mer E d chain e Par contre la phrase suivante est parfaitement naturelle Max est en mer M diterran e du Nord 74 P i ji A Pour les les ces s quences au pluriel d signent des ensembles d les 75 S z i 3 On trouve des textes o ces d terminants n ont pas de majuscule 132 Cela montre que M diterran e et du Nord ne sont pas des modifieurs classiques et que mer M diterran e et mer du Nord pourraient former une unit Par ailleurs si l on prend la vall e d Aspe on observe
280. nonccnnnnnonnonannoncncnononnnnnnos 153 4 4 1 Formes longues et variation pr positionnelle 153 4 4 2 Formes courtes et variation pr positionnelle 156 4 4 3 Des adverbes fig s locatifs 160 4 5 Un nouveau syst me de conversion des tables en graphes 165 4 5 1 Laien EE 165 4 5 2 Mod lisation et algorithme cooonnnococonnnninnoonancnnnnnnonnonanononocnonnonannnnnncncnnnns 169 4 5 3 Application Ea E nation Dada 173 40 NEE 178 Chapitre 5 Un syst me de gestion de grammaires locales 179 5 1 TAFOdUCHON eege ees Ree en Eege EE ete ees 179 5 2 Sp cifications et organisation du syst me 180 5 2 1 SD CLICATIONS EE 181 5 2 2 Fonctionnement g n ral 182 5 2 3 Base de donn es sentis tr dns solidaria 184 5 3 Normalisation des grammaires locales 185 5 3 1 Repr sentation th orique des grammaires 185 5 3 2 Normalisation des grammaires en pratique 187 5 3 3 Les SymboleS terminaux AAA ebe 190 5 34 Quelques mots sur l indexation 195 5 4 Stockage des AMM cid 196 5 4 1 G n ralit s A A A AA 196 5 4 2 ere 196 5 4 3 Insertion de grammaires locales seseneeeeseeeseseeeeseresserresserersssrresserresssrese 199 5 4 4 Algorithmes na fs de suppression de grammaires ooococonooccco
281. nons dans les deux tableaux ci dessous les adjectifs Adj lorsqu ils existent associ s chaque Ng entrant respectivement dans la structure NO avoir un Ng de Dnum Unit et dans la structure NO Vsup Prep un Ng de Dnum Unit Prep NI A B C 2 g E y ZS 5 S longueur GNmesure longueur lt longa grands peht gt e cours profondeur GHNmesure longueur lt profond gt hauteur GNmesure longueur chauts lt petts lt bass largeur GNmesure longueur lt large gt taille GNmesure longueur lt grand gt petit gt surface GNmesure surface lt grand gt lt petit gt vaste gt lt tendu gt vitesse GHmesure vitesse lt vite gt rapide gt lent gt poids GHNmesure masse lt gros gt maigre gt lourd gt lt l ger gt paisseur Gmesure longueur c pais gt temp rature Gmesure temperature Schaud gt lt froid gt ti de gt nergie Chloe anre energie lt calorifique gt lt nerg tique gt co t GN mesure monetaire Scoliteuz gt lt cher gt conomique gt dur e GNmesure temps lt rapide lent gt long gt court gt volume GNmesure volume lt volumineuz gt grand gt petit gt puissance GNmesure puissance Spussant gt fable gt Table 7 entre Ng GNmesure et Adj absolu g E SEN F 5 E distance GN mesure longueur lt lom gt Sproche gt Spr s gt hauteur GNmesure longueur lt haut gt bas gt Table 8
282. noonnccnononnnanannnonos 202 5 4 5 Un algorithme avanc de suppression de grammaires 205 5 5 Recherched information ciedad sien tiennent inst te rs trente dal 209 5 5 1 PLE sii 209 5 5 2 Recherche en fonction du contenu de la documentaton 209 5 5 3 Recherche en fonction du contenu lexical des grammaires ooococonnnncccnnnncnno 212 5 5 4 Intersection approximative de grammaires 217 5 6 CONCIUSION ester a ira dejes 218 Chapitre 6 NS EE 219 Chapitre 7 Redee ii AA e dadas ANNEXE ss rss E EE EA E E es see roses eee nue tee este eege ENEE cena te Liste des figures Figure 1 exemple de grammaire locale de dates en anglais 25 Figure 2 arbre Ee UE 27 Figure 3 analyse lexicale de les enfants pr f rent les avions la voiture 29 Figure 4 Analyse lexicale de la phrase le chef recouvre la pomme de terre nocc 30 Figure EE 33 ELIO ol Te to do o Tara tr st 34 Figure TL ina iaa 34 Fiure gi Station E 34 Figure VIO A it 35 Figure 10 Adverbes de temps se 35 Figure 11 Interpr tation s mantique 35 Figure A A NO 36 Figure 13 Figure 14 Figure 15 Figure 16 FAA A A MS Ne ae An 44 Figure te CO tl ner nl tn ne ne ere 44 Figure 19 NombreEntierEnChiffres ss 44 Figure 20 ParueDecimal 55hsutet sn tt PAG de sn ger nge slot ee 44 Figure 21 DnumMEnChIFIT S lidia 44 Figure 22 Formul SCientifiqu s s 55 tre sent heanens rites
283. ns les bois La notion de phrase l mentaire est une notion plus empirique que th orique Au fur et mesure de l examen des pr dicats on s aper oit que cette notion ne peut tre totalement fix e A Guillet et C Lecl re 1992 consid rent que certains compl ments locatifs sont compl ments de pr dicats verbaux dans leur cas En effet la construction locative suivante est quivalente une phrase simple Luc charge les caisses dans le camion Luc charge le camion de caisses Par analogie ils consid rent certaines constructions locatives de m me surface comme des phrases simples bien qu elles n aient pas de phrases simples traditionnelles quivalentes Luc plonge les l gumes dans l vier Luc plonge vier de l gumes Ces derni res constructions sont consid r es comme l mentaires car le compl ment locatif d pend du verbe et non de la phrase comme pour les compl ments circonstanciels On illustre cela avec la phrase Marie danse dans le salon Que Marie danse la danse que fait Marie se d roule dans le salon Que Max plonge les l gumes se d roule dans l vier Comme l indique B Lamiroy 1999 les travaux les plus pouss s ont t r alis s sur les verbes car les constructions simples pr dicat verbal sont les plus naturelles Mais de nombreuses tudes ont t men es sur d autres parties du discours Lorsque les pr dicats sont Le symbole devant une s quence indiqu
284. ns les graphes de type GNmesure associ s notre table Nous utilisons le graphe patron ci dessous La variable B correspond aux informations contenues Cette table ne contient pas de les signifient qu il n existe pas de graphes du type d fini par la colonne 58 dans la colonne B la variable C correspond aux informations contenues dans la colonne C etc Pour chaque entr e le graphe g n r a pour nom le contenu de la colonne A OA DnumEnChiffres FormuleScientifique H DnumEnLettres li DetNnumDe lt E gt A PreDnumPost Figure 46 Graphe patron pour g n rer les graphes du type GNmesure Pour l entr e GNmesure vitesse nous obtenons le graphe GNmesure vitesse ci dessous La variable B est remplac e par l information lexicale Nmesure vitesse nom du graphe pr c d de Les bo tes contenant les variables C et D sont supprim es liminant ainsi les chemins reconnaissant des structures interdites DnumEnChiffres DnumEnLettres Nmesure vitesse DnumEnLettres Figure 47 GNmesure vitesse 3 2 4 Quelques variantes 3 2 4 1 Quelques variantes simples On constate que nos phrases peuvent tre tendues d autres sch mas de phrase a NO tre Adj N1 la longueur est sup rieure 10 m tres b NO tre Pr p N1 le poids est de l ordre de 10 kilos c NO tre Vpp N1 la tension est limit e
285. ns pas essay de reconna tre les adverbes lorsque la s quence Loc N1 a t transform e en adverbe Il est pr vu d ajouter ce type de donn es ult rieurement passe la piste qui m ne Tadjourah 12 kilom tres plus l ouest S Les Les erreurs proviennent parfois du corpus lui m me qui contient des fautes d orthographes aurait coul dans le lac par 160 m de fonds le 24 janvier dernier apr s un amerrissa Dans une revue scientifique telle que Science et Vie la distribution entre les unit s est plus homog ne que dans Le Monde m me si les expressions temporelles sont toujours largement majoritaires Nous d cidons de r aliser une valuation quantitative globale sur ce type de corpus Nous avons assembl un ensemble d articles de Science et Vie datant de l ann e 1992 pour former notre corpus environ 100 000 mots Nous avons d faire quelques modifications dans nos grammaires par exemple nous avons supprim la r gle du blanc intercal tous les trois chiffres dans les DnumEnChiffres car elle n tait respect e que partiellement par les journalistes 101 Nombre total d occurrences 334 Silence pur 4 Bruit pur 21 Reconnaissance partielle 12 Taux de silence 1 2 4 8 Taux de bruit 6 3 9 9 Les 4 expressions non reconnues silence sont dues trois facteurs diff rents Des fautes typographiques sont pr sentes dans le corpus approchant celle de la lumi re S 300 000
286. nsemble de s quences ou et des informations lexicales Pour chaque ligne i si TLG i j alors on supprime la boite contenant Ej on supprime un ensemble de s quences non d sir es Si TLG ij on remplace Oj par l l ment vide Par d faut on remplace j par le 35 contenu de TLG i j Par exemple partir de la table 12 et de son graphe patron associ figure 13 on g n re automatiquement les deux graphes de la figure 14 Cl C2 X Y Figure 12 Table Figure 14 Graphes g n r s partir de la table 12 et du graphe 13 2 5 2 Les diff rents niveaux d analyse Le gros avantage des grammaires sous la forme de graphes est qu elles permettent diff rents niveaux d analyse des textes Dans la pr c dente section nous avons d j distingu deux niveaux selon l unit minimale utilis e caract re ou mot Lorsque l unit minimale est le caract re nous pouvons parler de traitement morphologique Dans ce cas les graphes utilis s servent d crire des variantes orthographiques de mani re compacte et donc alimenter les dictionnaires lectroniques Nous nous int ressons maintenant au cas o l unit minimale est le mot Les niveaux d analyse y sont plus nombreux Tout d abord les graphes peuvent tre assimil s des extensions des dictionnaires des mots compos s Par exemple la description des dates sous la forme d automates factorise de fa on significative
287. nsemble des noms propres mais sp cifiques de certains classifieurs Tout d abord les noms des oc ans ont tous la structure NNpr oc an Atlantique oc an Pacifique oc an Indien sauf un qui comprend un adjectif appropri facultatif entre le classifieur oc an et Npr oc an glacial E Arctique Ensuite certains classifieurs comme d partement r publique ou fat sont tr s enclins accepter des 8 Une occurrence d une expression dans un texte peut tre une erreur de l auteur l absence d une expression dans un texte ne prouve pas son inacceptabilit 8 On peut remarquer que ces probl mes pist mologiques sont g n raux et non sp cifiques cette classification Cependant ils sont amplifi s par la sp cificit du domaine des noms propres Pour les oc ans le choix de cat goriser Atlantique comme Adj ou Npr est arbitraire 133 structures adjectivales ce qui n est pas le cas de la tr s grande majorit des classifieurs Le d partement landais des Landes L tat de Californie californien La r gion de l Ile de France francilienne La r publique fran aise de France Puis un classifieur tel que le poss de une particularit un ensemble d les est souvent consid r comme un archipel et l on observe des formes telles que L archipel de les les de E les A ores Les observations g n rales pr c dentes mettent en vidence la grande h t rog n it du
288. nstructions fig es ou semi fig es M Gross 1984 J Giry Schneider 1978 Luc fait face un probl me Luc a les yeux en compote Marie prend la poudre d escampette Il fait chaud 2 3 2 La phrase simple comme unit l mentaire de sens Inspir par Z S Harris M Gross consid re la phrase simple comme l unit l mentaire de sens une phrase simple tant form e d un pr dicat et de ses arguments obligatoires Cette affirmation para t premi re vue exag r e mais elle se v rifie dans la plupart des cas Tout d abord un type de phrase satisfait parfaitement cette affirmation ce sont les phrases fig es Par exemple l emploi figur de Max prend la porte ne peut tre interpr t s mantiquement qu en prenant la phrase dans son ensemble Pour les phrases libres cela semble aussi se v rifier Par exemple prenons le verbe voler qui a deux emplois l un quivalent au verbe fo steal en anglais l autre quivalent to fly Le premier emploi entre dans une structure simple sans compl ment L oiseau vole Le Cf D de Negroni Peyre 1978 A Meunier 1981 R Viv s 1983 G Gross 1989 19 deuxi me emploi entre dans une construction simple avec un compl ment d objet direct et un compl ment d objet indirect Max vole une montre L a Ainsi le sens d une occurrence du verbe voler ne peut tre calcul que si l on examine la phrase l mentaire dans laquelle il rentre Il en est
289. nt dans le nom altitude qui est la distance verticale entre le niveau de la mer et l l ment dont on veut mesurer l altitude Cependant l effacement de altitude force la pr sence de cette s quence L avion est 10 000 m E au dessus du niveau de la mer Comme dans la structure pr c dente exprimant une mesure absolue chaque Ng s lectionne un ensemble d unit s comme montr dans le tableau ci dessous altitude GNmesure longueur D metres angle GNmesure distance GHmesure l trois kilom tres Ghmesure douze secondes hauteur CNmesure 13cm p rim tre Ghmesure 1 centim tre GNmesure profondeur GNmesure longueur die m tres rayon GhHmesure longueur 5 km Table 5 contrainte entre Ng et Unit 84 On constate l apparition d une nouvelle classe d unit s GNmesure angle qui comporte les unit s mesurant un angle tels que radian degr rad Notons le cas particulier de distance qui s lectionne la fois des unit s de mesure de longueur Nmesure longueur et des unit s de mesure de temps Nmesure temps Paul est une distance de 10 min 10 km de la maison Cette forme est peu naturelle avec les unit s de temps mais l emploi de ces unit s le devient tout fait lorsque l on efface le pr dicat distance Paul est 10 min 10 km de la maison Les noms hauteur et profondeur entrent aussi dans le sch ma de phrase exprimant une mesure absolue
290. nt une grammaire compl te et pr cise des groupes nominaux 3 5 3 1 Localisation de constituants syntaxiques La seule op ration directement utilisable ce jour est la localisation automatique de constituants syntaxiques tels que 102 des groupes nominaux une longueur de 10 m 10 m de long des groupes adjectivaux g de 10 ans distant de 10 m des groupes pr positionnels modifieurs un camion d un poids de dix tonnes des pr positions locatives compos es deux cents m tres en amont de la station des adverbes 10 m de hauteur des d terminants nominaux trois tonnes de p trole Pour r aliser une telle op ration il faut ajouter des informations de sortie aux graphes Dans le cas o nous gardons le format du DELAF et du DELACF nous obtenons le graphe ci dessous pour les d terminants nominaux de mesure Si l on applique ce graphe la phrase Max a mang 200 grammes de frites la s quence 200 grammes de DET Dnom Mesure est g n r e en mode fusion et peut donc tre rajout e au dictionnaire du texte car elle est compatible avec le format 5 Rappel le DELAF et le DELACF sont les dictionnaires lectroniques que nous utilisons Dans le mode fusion les informations de sortie sont ins r es dans la s quence reconnue par le graphe 103 GNmesure longueur GNmesure surface GNmesure masse GNmesure volume GNmesure monetaire GNmesure temps GNmesure lo
291. objets linguistiques notamment les pr dicats Dans la plupart des tudes les pr dicats sont class s selon des concepts s mantiques tr s difficiles d finir l aide de crit res formels M Gross a fait le choix de regrouper les verbes selon leur structure d finitionnelle cf M Gross 1975 c est dire selon leur forme de surface Verbes NO V W NO V Paul pleure NO V NI Marie aime le golf NO V NI N2 Luc offre des fleurs L a NO V NI Loc N2 Max plonge sa main dans une casserole d eau fra che Que P V N1 Que Luc parte intrigue Marie NO V que P N1 Max r p te qu il n est pas content Luc Noms NO Vsup Prep Det N W NO avoir Det N Max a du pouvoir NO faire Det N Luc fait du stop un aller simple NO faire Det N Prep1 N1 Luc fait des investigations sur L a NO tre Prep Det N Paul est son avantage NO tre Prep N Prep1 N1 Marie est en avance sur Max Dans sa conclusion M Gross 1975 estime que certaines classes sont s mantiquement homog nes comme la table 2 dont les verbes sugg rent une id e de mouvement arriver courir couler etc NO V V inf W la table 9 qui contient les verbes de communication annoncer confier dire rapporter vocif rer etc NO V que P a N2 la table 12 dont les verbes d notent une id e de jugement de valeur adorer critiquer r primander soutenir etc NO V N1 du fait que P L originalit des tr
292. ocalisation d auxiliaires en francais colloque Grammaires et Lexiques compar s Bari Constant M Yannacopoulou A 2002 Le dictionnaire lectronique du grec moderne conception et d veloppement d outils pour son enrichissement et sa validation Studies in Greek Linguistics Proceedings of the 23rd annual meeting of the Department of Linguistics Faculty of Philosophy Aristote University of Thessaloniki Copestake A Lambeau F Villavicencio A Bond F Baldwin T Sag I Flickinger D 2002 Multiword Expressions Linguistic Precision and Reusability Proceedings of the Third International Conference on Language Resources and Evaluation Las Palmas Courtois B Garrigues M Gross G Gross M Jung R Mathieu Colas M Silberztein M Viv s R 1997 Dictionnaire lectronique des noms compos s DELAC les composants NA et NN Rapport Technique du LADL n 55 Paris Universit Paris 7 Courtois B Silberztein M 1990 Les dictionnaires lectroniques du fran ais Langue Fran aise 87 Larousse Paris Cucchiarelli A Luzi D Velardi P 1999 Semantic tagging of unknown proper nouns Natural Language Engineering 5 2 Cambridge University Press Danlos L 1980 Repr sentation d informations linguistiques les constructions N tre Prep X Th se de 3 cycle Universit Paris 7 Danlos L 1985 G n ration automatique de textes en langues naturelles Masson Paris Danlos L 2000 G n ration autom
293. ocatifs 4 1 Introduction L analyse automatique des groupes pr positionnels Prep GN dans les textes est un probl me bien connu et difficile du domaine du TAL L une des principales difficult s consiste distinguer les groupes pr positionnels arguments des compl ments circonstanciels ou adverbes Le gouvernement donne une subvention Rome Rome compl ment essentiel Luc se repose Rome compl ment circonstanciel Les principales m thodes de r solution sont statistiques D Hindle et M Rooth 1994 E Brill et P Resnik 1994 M Collins et J Brooks 1995 J Zavrel et al 1997 etc Il existe des m thodes utilisant des indices linguistiques C Fabre et al 2002 Une autre difficult consiste rep rer la classe s mantique laquelle ils appartiennent temps lieu mani re etc Les chercheurs lexique grammairiens ont montr que certaines classes de compl ments circonstanciels sont facilement repr sentables l aide d automates finis lexicalis s comme les dates et les dur es D Maurel 1990 M Gross 2002 pour le fran ais J Baptista 2002 2003 pour le portugais Dans ce chapitre nous d crivons un type particulier de compl ments pr positionnels les compl ments locatifs en fran ais Il existe d j de nombreux travaux linguistiques g n raux sur les constructions locatives C Vandeloise 1986 A Borillo 1998 Dans le cadre du lexique grammaire nous citons A Guillet et C Lec
294. olonne F Pour chaque entr e de PNNpr on peut alors construire automatiquement une version du graphe reconnaissant les groupes pr positionnels locatifs dans lesquels elle peut rentrer Pour l entr e le par exemple les variables OB et EC sont remplac es par le mot vide lt E gt Les bo tes contenant OD et OE sont supprim es Enfin OF est remplac e par l entr e lexicale le se trouvant la colonne F 1 signifie que le symbole est optionnel e est le symbole vide la proc dure modifierEtiquette modifie l tiquette de la transition de T par Ceci est une reprise de M Constant 2002 166 ABE OE F E 2 15 slu le ER EH EE z il d partement 2j mer 3 RS r gion A lile Du oc an Gj tat Ti tat Table 21 table PNNpr Figure 83 entr e le 4 5 1 2 Un syst me relationnel Dans la section pr c dente cf 4 4 nous avons construit un ensemble cons quent de tables Les tables labor es sont diff rentes de celles que l on a l habitude de construire En effet il 167 existe des relations entre elles particuli rement entre la table des classifieurs et chacune des tables du type NNpr Pour chaque table de noms propres chaque ligne ayant pour classifieur Nc pointe sur la ligne de PNNpr qui d crit l entr e de Nc En fait comme dans chaque table tous les noms propres ont le m me classifieur toutes
295. ompos es est un peu plus facile que celle des compl ments locatifs avec des pr positions simples cart approximatif de 10 Le comportement des pr positions est tr s h t rog ne En effet dans beaucoup de cas soit toutes les occurrences sont locatives l ouest de au c ur de etc soit aucune occurrence ou presque n est locative au d but de la fin de etc En utilisant une approche statistique ce r sultat revient consid rer que les pr positions du deuxi me cas ex au d but de ne peuvent tre locatives ce qui n est pas vrai dans l absolu Par contre certaines ont un comportement relativement quilibr au milieu de avec 51 de locatifs Des formules statistiques simples pourraient largement am liorer les r sultats gr ce aux comportements extr mes Cependant les pr positions compos es sont tr s peu fr quentes par rapport aux pr positions simples comme le montre le tableau ci dessous Ainsi il n est pas possible d am liorer les r sultats g n raux de mani re significative en am liorant l analyse des compl ments locatifs pr position compos e NO nombre d occurrences de Loc NCL nombre d occurrences de Loc dans une pr position compos e locative de la forme Loc E Det N de ZNCL1 pourcentage de pr positions compos es locatives Loc Det N de par rapport au nombre de Loc emploi locatif ou pas dans le texte ZNCL2 pourcentage de pr positions compos es locatives
296. ompos s par le couple Npr Nc nous notons la forme longue Nprc et la forme courte Npr Notre approche consiste regarder la composition interne de tels noms compos s et constituer des lexiques en s appuyant sur les travaux de D Maurel et O Piton Notre travail se distingue de ce dernier par le fait notamment que nous ne nous int ressons pas aux propri t s extra linguistiques et nous codons dans nos lexiques de nouvelles contraintes lexicales et syntaxiques qui foisonnent dans ce type de noms Ce travail sert de base notre tude sur la distribution pr positionnelle dans les adverbes locatifs Dans un premier temps nous justifions le terme de nom compos utilis pour le couple Npr Nc l aide d arguments linguistiques Dans ce cas nous parlerons plut t de noms propres compos s tendus Ensuite nous effectuons une classification formelle des noms propres compos s de lieu Puis nous examinons les contraintes syntaxiques internes auxquels ils sont soumis Par la suite nous regardons leur comportement dans des groupes nominaux simples d terminants et modifieurs Enfin nous 6 cf aussi D Maurel et al 1995 6 La deuxi me version sortie en 2003 ne contient plus ce genre d information et se trouve URL suivante http www li univ tours fr BdTIn Prolintex html 127 codons toutes les contraintes trouv es sous la forme de tables syntaxiques et de grammaires locales Notons que nous n avons pas la pr ten
297. on sur leur figement par exemple pomme de terre ne se traduit pas par apple of ground ou ground apple en anglais mais par patatoe Notons qu un mot compos comporte aussi des informations linguistiques pommes de terre provient du lemme pomme de terre et est un nom au f minin pluriel Ainsi le rep rage de ce type de mot linguistique est n cessaire pour r aliser une analyse lexicale pr cise des textes 2 4 2 2 Analyse lexicale et ambigu t Les dictionnaires de mots simples du type DELA B Courtois et al 1990 et de mots compos s du type DELAC B Courtois et al 1997 labor s dans le cadre du lexique grammaire sont donc d une utilit remarquable pour ce type d analyse En effet chaque mot du texte peut tre associ explicitement toutes ses informations linguistiques au moyen de 13 7 ee 2 gt sed A contrario la s quence s il doit tre d coup e en deux mots autonomes si il 28 proc dures automatiques de consultation des dictionnaires M Gross 1989 M Silberztein 1997 Les logiciels Intex M Silberztein 1993 et Unitex S Paumier 2003 ont t con us cet effet Au d part sous la forme de simples listes les dictionnaires sont compress s sous la forme de transducteurs tats finis minimaux D Revuz 1991 Par exemple le DELAF fran ais comprenant 900 000 mots a une taille d environ 1 MO dans sa forme compress e En plus d une r duction significative de l espace m moire c
298. onne D l ensemble des graphes du type DnumUnite precis s ils existent Chaque l ment de la table est soit un l ment lexical noms des graphes soit un bool en pour vrai pour faux Pour chaque entr e lexicale de la table le but est de construire un graphe qui d crit tous les groupes nominaux de mesure de type GNmesure dans lesquelles rentrent cette entr e Nous utilisons la m thode d E Roche 1993 1994 qui consiste utiliser un graphe patron qui repr sente l ensemble des structures potentielles des entr es de la table Un graphe patron est associ une classe d l ments lexicaux il est param tr de fa on pouvoir tre adapt chaque l ment lexical en fixant la valeur des param tres Chaque l ment d information des tables c est dire une propri t ou plus simplement une colonne de la table est repr sent par une variable dans le graphe patron Pour chaque ligne i de la table convertir T on r alise une copie du graphe patron Puis pour chaque transition ou bo te de ce graphe nous effectuons les op rations suivantes pour chacune des variables Ej contenues dans cette transition si 7 i j on remplace Oj par le mot vide lt E gt si 7 i j on supprime la transition coupant ainsi le chemin reconnaissant la structure correspondant la colonne j sinon on remplace j par l information lexicale contenue dans 7 i j Par cette m thode nous g n ro
299. ontaining geographical proper names l le de la R union Each phenomenon has been narrowed to elementary sentences This enables semantically classify them according to formal criteria The syntactical behavior of these sentences has been systematically studied according to the lexical value of their elements Then the observed properties have been encoded either directly in the form of graphs with an editor or in the form of syntactical matrices then semi automatically converted into graphs according to E Roche 1993 These studies led to develop new conversion algorithms in the case of matrix systems where linguistic information is encoded in several matrices For the second issue a prototype on line library of local grammars have been designed and implemented The objective is to centralize and distribute local grammars constructed within the RELEX network of laboratories We developed a set of tools allowing users to both store new graphs and search for graphs according to different criteria The implementation of a grammar search engine led to an investigation into a new field of information retrieval searching of linguistic information into sets of local grammars Keywords conversion of syntactical matrices into graphs expression of measurement geographical proper noun graph lexicon grammar linguistic information retrieval local grammar locative prepositional phrase management of local grammars recursive transition network syn
300. opulaire et il est difficile de trouver une limite entre ce qui est acceptable ou pas Dans notre cas les phrases suivantes sont peu naturelles Le rendez vous est la rue Monge de la Paix Le rendez vous est l avenue des Champs Elys es 2 La pr position est un gros sujet d tude cf B Lamiroy 2002 155 Nous sommes confront s un autre cas litigieux lorsque la pr position est combin e avec le classifieur c te au sens de pente En effet la phrase suivante parait peu naturelle sans contexte Le cycliste est la c te Saint Martin Elle l est plus si la c te Saint Martin est consid r e comme un point parmi un itin raire de difficult s pr tablies On peut noter d autre part que la pr position dans est tr s peu naturelle avec le classifieur avenue ou boulevard alors qu elle l est avec le nom rue alors qu ils appartiennent tous trois la m me notion s mantique La course a lieu dans l avenue des Champs Elys es Montmarte La course a lieu dans le boulevard Haussmann La course a lieu dans la rue Monge Ces classifieurs s lectionnent pr f rentiellement la pr position sur Luc est sur l avenue des Champs Elys es Montmarte Luc est sur le boulevard Haussmann L tude de la distribution pr positionnelle des classifieurs permet de distinguer clairement plusieurs emplois ambigus D abord le nom cit au sens de quartier se combine naturellement
301. ormel pour distinguer les compl ments locatifs des autres compl ments pourrait tre le choix de la pr position En effet certaines pr positions comme dans sur contre de par ont un caract re locatif et leur pr sence dans un compl ment pourrait justifier l utilisation du qualificatif locatif Par exemple dans les phrases ci dessous les compl ments commen ant par les pr positions cit es ci dessus sont tous locatifs Le loup se cache dans la for t Max part Paris L a pose le stylo sur la table Les affiches sont coll es sur le mur Luc revient de la plage La balle passe par la fen tre 112 Cependant ces pr positions sont ambigu s et ont des emplois non locatifs Ainsi leur pr sence dans un compl ment ne garantit pas le caract re locatif de celui ci Par exemple dans les phrases suivantes les compl ments utilis s ne sont pas locatifs La temp rature de l eau est dans les vingt degr s celsius Max m a rendu visite l improviste Max porte son choix sur L a Georges veut faire la guerre contre tout le monde Par ailleurs intuitivement certaines pr positions telles que avec sont consid r es comme non locatives Cependant il existe des cas o malgr la pr sence de ces pr positions les compl ments sont locatifs comme dans Max range les fourchettes avec les couteaux Traditionnellement on associe les questions en o et Pr p o la notion de lieu En effet cette propri t for
302. orrespond une entr e lexicale ou un pr dicat Chaque colonne correspond une propri t Toutes les propri t s ne sont pas repr sent es car certaines sont communes toutes les entr es de la table A l intersection d une ligne une entr e et d une colonne propri t il y a un signe si l entr e lexicale accepte cette propri t un signe si elle ne l accepte pas une information lexicale si besoin est Ces tables sont appel es commun ment tables de lexique grammaire parfois tables ou dictionnaires syntaxiques Les chercheurs du lexique grammaire ont ainsi cod 12 000 emplois de verbes M Gross 1975 J P Boons A Guillet et C Lecl re 1976 A Guillet et C Lecl re 1992 10 000 emplois de noms pr dicatifs J Giry Schneider 1978 1987 J Labelle 1974 A Meunier 1981 R Vives 1983 D de Negroni 1978 G Gross 1989 Les tables des adjectifs sont en cours de construction Il existe galement des tables de phrases fig es M Gross 1984 comprenant une vingtaine de 23 milliers d entr es Ces tables servent de base un travail de comparaison entre diff rentes variantes du fran ais BFQS Belge Fran ais Qu b cois Suisse lt ENT gt EEN abasourdir abattre abattre aborder accolader accompagner accoster accrocher accrocher acheter administrer adopter agrafer agresser aimer alarmer aliter allumer alpaguer alphab tiser amorcer analyser anath
303. ouflante de 130 m 130 m de longueur NO avoir un Ng de Dnum Unit phrase Le camion a un poids de dix tonnes GN Le camion d un poids de dix tonnes d terminants compos s 10 tonnes de plutonium modifieurs haut de 120 m adjectival d une hauteur de 120 m nominal NO Vsup Prep un Ne de Dnum Unit Prep1 NI e phrase Paul est une distance de trente kilom tres de Paris ON la distance de trente kilom tres entre Paul et Paris adverbes une distance de trente kilom tres de Paris pr positions une distance de trente kilom tres de NO tre Dnum Unit Adj que NI e phrase Paul est 10 kg plus lourd que Max e modifieur 10 kg plus lourd que Max E 97 Avant toute chose il est n cessaire d valuer les grammaires obtenues et leur int r t pour l analyse automatique de textes Nous illustrons ensuite comment elles peuvent tre utilis es 3 5 2 Evaluation des grammaires Nous souhaitons valuer nos grammaires en r pondant deux questions La construction et la mise jour des grammaires sont elles faciles mettre en oeuvre production et maintenance Les grammaires sont elles la fois compl tes et pr cises rappel et pr cision Ses questions sont l gitimes pour pouvoir pr tendre utiliser ces donn es pour l analyse automatique des textes 3 5 2 1 Production et maintenance Nous avons montr dans ce chapitre le processus complet de construction de grammaires d expres
304. ours de traitement ooooococnnnococcnonocncnnonaonanononnnccnonnnancnanancccnnnss 204 Figure 108 automates strictement internes G eesessseeesereresrrisssrrrssereerserressrrresseressssrees 204 Figure 109 raphe d d part tri nent instinct edd eet 208 Figure 110 graphe condens apr s initialisation oonnnnccconnnoccccnnnnaccnonnoncncncnnnncnonnnncnnnnrs 208 Piste LU KEE 208 Fig te 11242 A Eeer 208 A A 208 A LES ON pe O ES A et art 208 11 Liste des tables Table 1 extrait de la table 32H J P Boons A Guillet C Lecl re 1976b 24 Table 2 S Classe E 55 Table 3 ANMESHR SS nn A SE a Ea areak a aia iaaa 75 EU E A O E A OT E Ti Table 5 contrainte entre Ng et Unit 84 Table 6 NO Vsup Prep un Ng de Dnum Unit Prep1 NI 90 Table 7 entre Ng GNmesure et Adj absolu ooooooconococcconocacncnnonannanananncnonnonnncononanccronnnnnnnns 96 Table 8 entre Ng GNmesure et Adj relatif ss 96 Table 9 proportion d emplois locatifs des pr positions dans avant devant sur contre apr s derri re sous dans notre Corpus 123 Table 10 proportion de pr positions compos es par rapport aux pr positions simples 126 Table 11 comportement de clasetfteurs iess nep eana eae eei O EO EEEE NNS 137 Table 12 chantillon de la table Npr 145 Table 13 chantillon de la table NNpr d partement 146
305. ous etc Cependant comme le montre la section pr c dente chacune d elles a des emplois non locatifs L ambigu t avec le temps par exemple est r currente comme le montrent les ensembles de phrases suivants avec les pr positions avant dans et apr s Max s arr te avant la for t lieu Max s arr te avant la nuit temps Dans la ville la temp rature a augment lieu Dans l apres midi la temp rature a augment temps A Paris Marie rencontrera du monde lieu A huit heures Marie rencontrera du monde temps Max et Marie ont disparu apr s l tang lieu Max et Marie ont disparu apr s leur rencontre temps Lorsque la pr position fait partie d une expression fig e ou semi fig e qui peut tre d crite sous la forme de grammaire locale le probl me est r solu rapidement c est le cas de dans l apr s midi et huit heures qui sont reconnues par les grammaires de dates D Maurel 1990 M Gross 2002 Dans les autres cas il faut regarder le groupe nominal qui suit la pr position En g n ral si le nom t te de ce groupe nominal est concret alors on a tr s souvent affaire une pr position locative dans la for t apr s l tang etc Cependant ces constatations ne sont que des tendances Il existe de nombreux contre exemples Des noms concrets peuvent tre noms t tes de compl ments de temps Max partira apr s dans deux verres Max partira apr s qu il aura bu deux verres M
306. out X e N il existe dans l ensemble des r gles automates aut un automate IS aut X lt Q X qo X F X AX NUT gt o Q X est un ensemble d tats qo X l ensemble des tats initiaux F X l ensemble des tats finaux X O X x NUT x0Q X l ensemble des transitions Soit la grammaire G lt N T aut S gt Etant donn G chaque symbole non terminal X de N symbolise un sous automate de G mais aussi une grammaire incluse dans G dont X est l axiome de d part Par facilit d criture nous appelons X l automate aut X dans G Pour tout automate X de G si le symbole non terminal Y appartient son alphabet c est dire si l automate X contient le symbole non terminal Y alors l automate Y est un sous automate de X Nous parlerons aussi de sous automate direct Notons qu un symbole non terminal X de G peut tre consid r comme inutile lorsque aut X n est pas directement ou indirectement appel partir de S Soit une collection de n grammaires locales G avec G lt N T auti Ac Pour tout X e N aut X lt 0 X qi X F X 9 X Ni T gt Notre biblioth que de grammaires locales que 114 Les graphes variables ou de r criture ne sont pas des RTN Nous verrons que lors de la normalisation de ce type de grammaires locales nous supprimerons les sorties et nous nous ramenons un RTN 115 Un alphabet est un ensemble de symboles l mentaires ou atomiques H6 Pour plus de d
307. pas dans la discussion Nous souhaitons maintenant comparer les deux phrases de base des expressions de pourcentage Les produits laitiers repr sentent 80 de notre production Notre production comporte 80 de produits laitiers Ces deux phrases constituent une classe d quivalence s mantique En effet ces deux phrases qui ont exactement le m me sens ne diff rent que par le verbe et les positions des arguments des verbes Nous avons les quivalences suivantes NO repr senter N1 comporter M1 repr senter NO comporter Notons que ce sch ma peut tre tendu d autres phrases comme la phrase en il y a Il y a 80 de produits laitiers dans parmi notre production Nous appelons compl ment d inclusion d une phrase de pourcentage l argument N1 situ juste apr s la s quence Dnum de Le compl ment d inclusion de la phrase avec repr senter comprend obligatoirement un article d fini alors que celui du verbe comporter ne doit avoir 93 aucun article ce qui peut correspondre l article ind fini par la r gle de cacophonie Ainsi on a les quatre phrases suivantes les deux acceptables sont quivalentes Les tudiants de Jussieu repr sentent 19 des tudiants parisiens Les tudiants de Jussieu repr sentent 19 d tudiants parisiens Les tudiants parisiens comportent 19 d tudiants de Jussieu Les tudiants parisiens comportent 19 des tudiants de Jussieu Pour r sumer nous avons l
308. pas ou tr s peu d autres ph nom nes linguistiques ce qui est le cas d s que l on veut faire une tude sur l analyse d un ph nom ne dans l analyse syntaxique globale L accumulation et l h t rog n it des grammaires locales cf section pr c dente rendent n cessaire la mise en place de m thodes claires et pr cises de construction afin de faciliter la collaboration entre les quipes et au sein m me des quipes Les deux prochains chapitres mettent plat un ensemble de m thodes l aide d exemples originaux Nous en proposons quelques unes qui nous semblent simples et raisonnables Toute construction de grammaire lexicalis e n cessite auparavant une analyse linguistique fine et syst matique des ph nom nes locaux en fonction du lexique utilis comme le montre M Gross 1997 Cette premi re tape 38 franchie il existe deux m thodes de codage suivant la taille du lexique employ et les variations lexico syntaxiques des s quences d crites Sot directement l aide d un diteur de graphes Soit au moyen d une repr sentation temporaire des tables de lexique grammaire qui sont ensuite transform es semi automatiquement en grammaires locales La construction directe de grammaires locales est privil gi e car leur lecture et leur compr hension sont imm diates Par contre d s que le nombre de structures augmente les graphes ont tendance a rapidement devenir illisibles si l auteur n
309. pond la ligne u de la table principale M tat u 1 Tous les tats sont finaux Par construction comme les tiquettes sont des indices absolus i e non relatifs chaque table l automate est d terministe Th oriquement cet automate est susceptible de contenir des cycles Nous donnons ci dessous un exemple th orique avec quatre tables M M2 M3 et M4 et cinq relations R K M4 K2 M2 K3 M2 K4 M3 K5 M3 v w x y z et s sont les indices de 2 En g n ral dans le cas d un classifieur de pays tat a une majuscule initiale mais pas toujours Une table peut ne pas comporter de colonnes secondaires 1 au moyen d une table de hachage Hy qui associe un indice r el de ligne chaque entr e lexicale ou plut t cl primaire Par exemple Hpynnpr 2 3 quivalent de Hpynpr mer 3 car la premi re ligne r elle contient les intitul s des colonnes 169 lignes s lectionn es par l interm diaire des relations partir de la ligne u de la table principale On fournit galement l automate associ la ligne u de AM Si q est l tat v 2 et p l tat x 3 la transition q Ks5 p signifie que l l ment M2 v ks s lectionne la ligne x de M ks est l indice relatif dans M2 correspondant K5 M 1 M 3 Ki Ke Ma Figure 84 syst me th orique E FR e y FN x2 v HA Ge J e KA KA Hol XI LU 7 SX FO FA Za c
310. pos e d une conjonction de subordination suivie d une phrase d s que la pluie cessera Ainsi il regroupe sous un m me terme trois cat gories formelles bien distinctes dans la grammaire traditionnelle L un de ses arguments est que ces trois formes r pondent en g n ral aux questions en o quand comment pourquoi etc souvent associ es aux compl ments circonstanciels Il d finit m me la structure globale des adverbes par la formule classique d un groupe nominal pr positionnel Pr p D t N Modif o chaque l ment peut tre absent ou contract Il rappelle qu un modifieur peut prendre la forme compl tive qu P et que la conjonction de subordination est souvent de la forme Conjs Pr p E ce que D sormais nous adoptons ce principe et abr geons le terme adverbe g n ralis en adverbe Un compl ment essentiel de m me structure globale qu un adverbe est un argument essentiel d un pr dicat Par exemple le verbe donner poss de deux compl ments essentiels un objet direct avec la pr position z ro et un datif avec la pr position Max donne sa cl la gardienne 4 2 1 2 Distinction entre adverbes et objets La distinction entre adverbe et compl ment essentiel ou objet est un probl me important parce que ces deux l ments ont la m me structure de surface et que la d termination des arguments des pr dicats compl ments essentiels est une tape fondamentale de l analyse syntaxique
311. pr dicat verbe adjectif et par extension nom adverbe et d arguments Le pr dicat est l l ment central de la phrase Son premier argument est le sujet de la phrase Tout pr dicat a un sujet qui est soit un syntagme nominal not NO Max La soliste Il chante soit une compl tive not e que P ou une infinitive souvent r duction de la compl tive Que Max vienne d range L a soit un sujet impersonnel Il pleut Les autres arguments sont les compl ments essentiels du pr dicat en g n ral des compl ments d objets Ces compl ments d objets r pondent la question en de E quoi qui Max donne une pomme Marie 7 Le symbole est le symbole du OU logique 17 Que donne Max Marie une pomme A qui Max donne une pomme Marie On note N1 N2 les compl ments nominaux essentiels d un pr dicats respectivement objets directs et objets indirects Les compl ments essentiels peuvent tre des compl tives ou des infinitives qui r pondent aussi ces questions Luc dit Paul que Max pleure Que dit Luc Paul que Max pleure Marie veut se lever de bonne heure Que veut Marie se lever de bonne heure Ces r gles ne sont pas toujours valides il existe toujours des exceptions par exemple avec le verbe aller Max va courir dans les bois 8 Que va Max courir dans les bois Cet emploi du verbe aller r pond la question en o O va Max courir da
312. pri t est vrai on ins re le signe sinon on ins re le signe La m ta table contient donc des bool ens ou des indices de colonnes des entr es des tables Nous avons r pertori l ensemble des propri t s Puis pour chacune des tables nous avons tabli la correspondance entre ses propres propri t s et l ensemble des propri t s de la m ta table Nous donnons un extra t d une m ta table de notre ensemble de tables de type NNpr Npr le Npr d partement etc Nous n avons pas r pertori toutes les propri t s afin d obtenir une figure plus claire Par exemple la table NNpr republique est d crite la cinqui me ligne Si on la lit de gauche droite cette ligne indique que les formes longues sont implicitement au singulier et pas au pluriel Le classifieur Nc est cod dans la colonne C de NNpr republique Implicitement on ne peut pas ins rer de modifieur en position M2 la r publique surpeupl e de Croatie etc Le symbole reconna t le caract re le symbole est l op rateur d union des expressions r guli res le symbole est l op rateur de Kleene 149 A Br AG Da PES GE TRES RSR ET OM ON A PERTE O SET CL NE e Z El 5 T T gt 5 5 SIS 5 5 8 8 ARE IE SIS ae RE Ef E sl ZIZIZI IR el DI 2 8lz z 315 B2l l 3 2 ll sl oi z BIS a E 2132 7 2 8 2 a E E Md A EE ES mi O E Elululululu 5
313. probl me en appliquant des r gles concernant des contraintes locales des s quences limit es quelques mots Cette tape intervient juste avant l analyse syntaxique afin de faciliter cette derni re Un module de lev e d ambiguit a t implant dans Intex Le logiciel ELAG E Laporte et A Monceaux 1999 est en train d tre int gr Unitex Quelques travaux et de nombreuses r gles ont d j t r alis es cf A Dister 1999 2 4 2 3 Entre analyse lexicale et syntaxique Il est tr s tentant de consid rer certaines s quences de mots comme des mots compos s C est le cas pour les verbes conjugu s des temps compos s tels que a mang Cependant ce genre de s quences admettent des insertions de type adverbial Max a trop mang Max a hier soir mang comme quatre Ce ph nom ne n est pas observable pour les mots compos s carte E tr s bleue pomme E cuite de terre Les insertions tant libres il n est pas possible de les ins rer dans les dictionnaires de mots compos s Le meilleur moyen est d utiliser des grammaires locales M Gross 1999 a notamment r alis une grammaire reconnaissant les complexes verbaux en anglais du type is being constructed can eat etc Certaines classes de mots compos s sont directement repr sent es sous la forme d automates ou grammaires locales car cette description est mieux adapt e plus compacte et plus claire que la description par liste par
314. processus continue pour les autres lignes de Mi 172 Figure 87 entr e d partement du Nord 4 5 3 Application L analyse linguistique pr c dente cf 4 4 a conduit la construction d une table syntaxique de classifieurs repr sentant leur distribution pr positionnelle dans des groupes pr positionnels locatifs lorsqu ils sont utilis s l int rieur de noms propres compos s de lieu Nous avons galement labor des tables d crivant le comportement interne de diff rentes classes de noms propres Nous obtenons un ensemble de syst mes relationnels Nous proposons de convertir cet ensemble en graphes l aide d une table g n rique ou m ta table et de la m thode mise en place ci dessus Comme pr c demment nous utilisons une table g n rique afin de g n rer le graphe param tr pour chaque classe de noms propres Pour construire cette table nous reprenons la table g n rique labor e pour d crire le comportement interne des noms propres Les variables sont mises jour on transforme notamment les indices en entiers et l on ajoute l indice de la table Par exemple C est remplac en 1 3 On ajoute galement des colonnes correspondant la distribution pr positionnelle Comme c est indiqu dans la table ci dessous les noms propres dont la distribution de la forme courte d pend uniquement du classifieur utilisent les informations cod es dans la table 2 pour repr senter leur comportement pr
315. que de textes analyse syntaxique compl ment pr positionnel locatif conversion de tables syntaxiques en graphes expression de mesure gestion de grammaires locales grammaire locale graphe lexique grammaire nom propre g ographique recherche automatique d informations linguistiques r seau r cursif de transitions Abstract Many researchers in the field of Natural Language Processing have shown the significance of descriptive linguistics and especially the use of large scaled databases of fine grained linguistic components composed of lexicons and grammars This approach has a drawback it requires long term investment It is then necessary to develop methods and computational tools to help the construction of such data that are required to be directly applicable to texts This work focuses on a specific linguistic representation local grammars that describe precise and local constraints in the form of graphs Two issues arise How to efficiently build precise complete and text applicable grammars How to deal with their growing number and their dispersion To handle the first problem a set of simple and empirical methods have been exposed on the basis of M Gross 1975 s lexicon grammar methodology The whole process of linguistic analysis and formal representation has been described through the examples of two original phenomena expressions of measurement un immeuble d une hauteur de 20 m tres and locative prepositional phrases c
316. ques ont du mal faire leurs preuves 7 car elles utilisent des donn es linguistiques relativement restreintes et sommaires Il serait int ressant d tudier l apport d informations linguistiques plus fines dans les syst mes statistiques comme l ont sugg r M Gross et J Senellart 1998 E Laporte 2003 propose la constitution d un corpus tiquet utilisant les informations cod es dans le cadre du lexique grammaire codage grammatical flexionnel mots compos s tables de lexique grammaire utilis es etc Ce corpus pourrait servir de corpus d apprentissage des outils purement statistiques Un tel travail permettrait d valuer concr tement l apport d informations linguistiques fines aux applications du TAL 2 4 4 2 Les perspectives du lexique grammaire La lev e d ambigutt s L efficacit des outils de d sambigu sation partir de r gles linguistiques locales ad hoc est encore montrer Des travaux sont en cours Il para t cependant clair que ces outils ne pourront terme se passer d une analyse syntaxique et s mantique et probablement au bout du processus d analyse de choix arbitraires d interpr tation ex statistiques Analyse de ph nom nes locaux Comme nous le verrons dans la section suivante de nombreuses grammaires locales ont t accumul es et il reste encore beaucoup de ph nom nes d crire Analyse syntaxique Deux aspects de l analyse syntaxique m ritent d tre exami
317. r Npr 5 Index Mpr 30 r publique dominicaine 124 30 r publique 1 aolr publique socialiste vietnamien aud aficain albanais allen and Azerbaidjan E le Bangladesh le B tams setams bhh hhh pe a A Es al e ESTA E EA EA E AA le eroten e le te pp O _ Bi lorussie ala L Bolivie Bosnis Herz gowine br silien 55 Sofr pubiique bulgare Sp 30 r publique 30 r publique 102 30lr publique sel Sofr pubiique 108 20 r publique Cameroun camerounals Capet cap verdien Centrafrique centraficaine lle chili fe chilien Jem 12 30 r publique 13 30 r publique Chypre Colombie colom bien 246 ap E ap EMT e ness g 29U 9 083 8 29UI01 0 ap ajnopnba saung ap agung ap ER LAN ap La Bue Uofuoab asIevoqe ESE Sep UL TEN USOS EE BLEUS ap aopa ap aqueg ap uoge s SCOUEI 5 apud ap TE ap aung ap H ap di ajenb TRE ap prod ap POP ap SES ap SOALE S5192 ap EYE HO BOS ap ENS np 28400 EST ap BZ ra aaa aaa ker ouaz ap anbyenowap ouaz ap S JON 180 SUpp JON SUELE 10 UEL A B J0N ON 31 JON ap SN IT ap buopndai dpi dci ap Up aW 37 JON 180 ap Lio On 371 JON op D 247 NMpr r publique warante Mpr dans Det Nor LE M
318. r l tat de le Texas Si le d terminant Det est la ou s il est vide le couple forme un nom compos de la forme l tat de Npr l tat de New York Californie aile d terminant Det est l les deux sont possibles l tat de E l Npr l tat de E l Oregon Comme pr c demment la g n ration de telles formes compos es n cessite l association syst matique d un d terminant d fini chaque nom d tat 140 Californie gt la Or gon gt l Texas gt le New York gt E Ces r gles sont approximatives il existe des exceptions Par exemple la forme tat de le Vermont bien qu il s lectionne le d terminant le poss de une autre variante l tat de Vermont Par ailleurs un classifieur comme d partement restreint la structure des noms compos s LE Nc de Det Npr La seule variation vient du d terminant Def qui d pend de Npr le d partement de le Nord la Picardie les Landes Il existe cependant une exception avec le Territoire de Belfort dont la forme compos e para t douteuse Lundi dernier j ai visit le d partement du Territoire de Belfort 4 3 6 Les noms propres compos s dans les groupes nominaux Nous examinons comment se comportent les noms propres compos s locatifs dans les groupes nominaux Nous regardons d abord la d termination en distinguant les emplois singuliers des emplois pluriels puis nous tudions la distribution des
319. raient faire l objet d une tude plus pouss e En effet une tiquette lt N gt pourrait tr s bien correspondre un nom compos tel que cordon bleu de forme de surface Nom Adjectif Ainsi dans nos automates une transition tiquet e lt N gt pourrait correspondre deux transitions cons cutives respectivement tiquet es cordon et bleu ou m me lt N gt et lt A gt La r solution de tels ph nom nes est clairement non triviale et m riterait une tude approfondie Cependant nous estimons que son int r t pour notre application est limit car la mise en correspondance sert simplement faire des rapprochements entre des s quences d tiquettes et des grammaires Les proc dures de tag matching permettent donc certaines approximations Lorsque notre syst me rencontre des tiquettes lexicales se rapportant un mot compos ex lt cordon bleu gt la proc dure de normalisation reconna t cordon bleu comme un lemme consulte le dictionnaire et renvoie deux tiquettes normalis es quivalentes aux lignes de dictionnaire cordon bleu N ms cordons bleus cordon bleu N mp Par ailleurs notons que certaines applications cf J Senellart 1999b se servent d tiquettes quivalentes des intersections d ensembles lt N gt amp lt ms gt o amp est un ET logique et le NON logique Nous ne traitons pas ces cas 5 3 4 Quelques mots sur l indexation Pour acc l rer les processus il convient d i
320. raphiques et ou de leurs classifieurs locatifs associ s Paris a pour classifieur locatif ville Nous montrerons qu il existe un certain nombre de contraintes qui peuvent tre d crites dans des graphes ou des tables syntaxiques ensuite transform es en graphes Nous ferons d abord quelques rappels sur les adverbes et les groupes pr positionnels locatifs afin de rendre notre argumentation plus claire Nous tudierons galement les pr positions locatives simples et compos es dont nous construirons des grammaires locales L application de ces grammaires pointant clairement l ambigu t naturelle g n r e par la reconnaissance locale de telles structures nous nous consacrons la description de contraintes locales entre les constituants d un groupe pr positionnel ayant pour nom t te un nom propre simple ou compos de lieu g ographique Dans un premier temps nous regardons le comportement du couple Npr Nc dans un groupe nominal o Npr est un nom d un lieu g ographique ex Pas de Calais et Nc est son classifieur locatif associ ex r gion Ce couple forme un nom propre compos Nprc pic du Midi Npr Midi Nc pic mer M diterran e Npr M diterran e Nc mer r gion Pas de Calais Npr Pas de Calais Nc r gion le de Malte Npr Malte Nc le Le degr de figement est variable selon ses lements lexicaux Par exemple la s quence mer de Glace est plus fig e que mer de Norv
321. rd encore ensuite environ jusqu m me ne que plut t presque quelque seul demi peine au mieux approximativement et pas tout fait Nous avons travaill sur les structures NO avoir un Ng de Dnum Unit et NO faire Dnum Unit et nous avons essay d ins rer syst matiquement ces pr d terminants diff rents endroits Nous avons constat une grande variation de comportement selon les pr d terminants Nous avons test pour chaque pr d terminant Pr d l acceptabilit des sept structures suivantes 75 1 NO avoir un Ng de Pr d Dnum Unit Ce bateau a une longueur d environ 100 m 2 NO faire Pr d Dnum Unit Ses appartements font jusqu 50 m tres carr s 3 NO avoir un Ng de Dnum Unit Pr d Luc a un poids de 60kg peine 4 NO faire Dnum Unit Pr d Cette ligne fait 110 V approximativement 5 Pr d NO avoir un Ng de Dnum Unit Au mieux mon moteur a une fr quence de dix tours par minute 6 NO avoir Pr d un Ng de Dnum Unit Cette ville maudite a encore une population de 100 habitants 7 NO avoir un Ng Pr d de Dnum Unit Son spectacle n a une dur e que de dix minutes Apr s examen exhaustif nous constatons que seuls trois pr d terminants peuvent s ins rer n importe o dans la phrase approximativement au mieux et plut t Ils jouent clairement des r les d adverbes D autres ont quelques restrictions comme les pr d terminants pei
322. re Le bateau a fait une longueur de 110 m Le bateau a fait 100 m de longueur Ces permutations sont parfois accompagn es d accidents morphologiques Certains Ng sont parfois remplac s par des adjectifs morphologiquement associ s Ng a Ce n est d ailleurs le cas que pour les Ng s lectionnant une unit m trique La corde fait 10 m de long Le gratte ciel fait 200 m de haut La piscine fait 20 m de large Ce ph nom ne ne fonctionne pas pour paisseur Le mur a une paisseur de 30 cm Le mur a 30 cm d paisseur EEN Le mur a 30 cm d pais Le nom profondeur Ng a profond subit un accident plus trange encore car il peut tre remplac par le nom fond not Ng Le bassin a 3 m de profondeur 4 Cette derni re phrase est accept e en fran ais du Qu bec 69 Le bassin a 3 m de profond Le bassin a 3 m de fond Notons que le nom fond ne rentre pas dans la phrase de base quivalente Le bassin a un fond de 3 m Cette propri t permet galement de distinguer les deux emplois de longueur car ils n ont pas le m me comportement Le bateau fait 100 m de long Le spectacle fait 2 heures de long Notons qu il est possible de substituer la s quence en Ng la s quence de Ng lorsque l on a le verbe support faire Cette s quence a alors le comportement d un adverbe car elle peut s ins rer n importe o dans la phrase La piscine fait 50 m tres de en longueur En
323. re deux cent quatre vingt deux mais il est au pluriel autrement mille quatre vingts Grevisse 1975 paragraphe 406 Ainsi pour chaque type de nombres entiers nombres inf rieurs cent mille un million etc il est n cessaire de construire deux graphes l un d crivant ces nombres lorsqu ils se trouvent dans la partie droite ou finale d un nombre et l autre d crivant ces nombres lorsqu ils sont dans la partie gauche Par exemple quatre vingt s a deux comportements suivant qu il est droite quatre vingts ou gauche quatre vingt comme dans quatre vingt mille deux cent quatre vingts M Silberztein 1993 n a pas d crit les nombres se terminant par million s et milliard s Ces nombres sont suivis de la pr position de cent vingt millions de Ce type de nombres rentre donc dans une structure diff rente celle des d terminants nominaux Det N de d crits dans M Gross 1986 Notons que nous n avons pas trait le cas du d cimal un demi suivi d un tiret ex une demi heure 3 2 2 2 Nombres crits en chiffres arabes Nous notons ce type de d terminant DnumEnChiffres Les nombres crits sous la forme d une suite de chiffres ont une syntaxe bien particuli re qui diff re en fran ais et en anglais Une solution simple et na ve pour d crire les entiers naturels est de les repr senter comme une suite de chiffres soud s d au moins un l ment Cependant cette repr sentation est trop simpliste
324. re mises sur le m me plan que le roi Louis XIV o la s quence Louis XIV est traditionnellement consid r e comme une apposition La pr position de se trouvant entre Nc et Npr est le principal obstacle cette solution m me si elle est parfois consid r e comme une pr position neutre d apposition La s quence le roi Louis XIV est raprocher de la phrase classificatrice r flexive Louis XIV est un roi Ce roi est Louis XIV ce qui revient admettre l hypoth se d une transformation le roi qu est Louis XIV le roi Louis XIV On observe le m me comportement pour la ville de Paris et l le d Ouessant Paris est une ville Cette ville est Paris Ouessant est une le Cette le est Ouessant La ville qu est Paris la ville de Paris La s quence la mer m diterran e se comporte diff remment alors qu elle a la m me forme de base sans de que le roi Louis XIV le d terminant la pr c dant M diterran e est obligatoire dans la phrase classificatrice E la M diterran e est une mer Cette mer est E la M diterran e Il en est de m me pour l tat de Californie qui a obligatoirement besoin du d terminant la dans la phrase classificatrice E la Californie est un tat Cet tat est E la Californie L utilisation du d terminant ind fini un sans modifieur est interdite comme dans les appositions G Bush n appr cie pas le un pr sident Chirac Les francais n appr ciaient pa
325. re structure de base NO avoir un Ng ce Ng tre de Dnum Unit Le Ng de NO tre de Dnum Unit La longueur du chemin est de 100 m Sa longueur est de 100 m Pour finir si nous utilisons la notion d op rateur lien de M Gross 1981 nous avons une quivalence entre les phrases suivantes La longueur du chemin tre de 100 m Exemple La s ur de L a est malade L a a sa s ur qui est malade L a a sa s ur malade 72 Le chemin a sa longueur qui est de 100 m Par ailleurs on observe Le chemin a pour longueur 100 m Nous synth tisons toutes les structures quivalentes dans lesquelles peuvent rentrer les noms Ng dans le graphe th orique NOA voirUnNDeDnumUnite ci dessous Ne faire Deum Unit de Has avoir comporter Ng contenir A tre h Y UN j e pp kA ml Etre Nga ae p 0 lt lt P gt j Hee Drum h Unit son Ng de avoir pour Mg Dom Unit pout Ng LE Ng h de mo faire Se A mesurer Figure 51 NOA voirUnNDeDnumUnite 3 3 4 Codage des propri t s Notre analyse linguistique a montr l existence de nombreuses contraintes d pendant des noms Ng Nous souhaitons maintenant coder ces contraintes dans une table syntaxique Nous nous inspirons de J Giry Schneider 1991 Dans no
326. remplace le param tre par la valeur lexicale de l l ment Cette proc dure sera expliqu e plus tard dans ce m moire lors de l tude de ph nom nes linguistiques Les travaux d E Roche servent de point de d part une vaste entreprise de conversion totale des tables La premi re tape a t r alis e par S Paumier 2003 qui a converti une partie des tables des verbes Il a mis au point une m thode qui g n re semi automatiquement les transducteurs param tr s pour chaque table Nous reviendrons sur celle ci ult rieurement 2 4 3 Le r seau RELEX Le r seau RELEX est un ensemble informel de laboratoires europ ens travaillant dans les domaines de la linguistique et du traitement automatique des langues naturelles Les diff rentes quipes travaillent sur un nombre important de langues comme le fran ais l anglais le portugais l allemand l espagnol le norv gien le cor en le thai Elles utilisent une m thodologie commune le lexique grammaire Le lexique y occupe une place fondamentale ce qui se traduit par la construction de bases de donn es linguistiques large couverture Les logiciels Intex et Unitex servent de plates formes linguistiques communes pour appliquer ces ressources des textes Des r unions formelles sont organis es tous les ans sous la forme d une conf rence le Colloque international grammaires et lexiques compar s et sous la forme d un atelier de travail les journ es Intex C
327. rgeur qui s lectionne le m tre ses multiples kilom tre et ses sous multiples millim tre plus d autres unit s comme le mille nautique et le mile soit des unit s complexes des combinaisons d unit s simples comme vitesse qui s lectionne des combinaisons d unit s de mesure de longueur m tre mile et de temps heure kilom tres l heure Sur la base de l tude de J Giry Schneider 1991 nous avons syst matiquement examin les noms Ne entrant dans nos deux structures de base et nous avons associ chacun un ensemble de graphes repr sentant les unit s s lectionn es par Ng L tude nous a conduit d crire 17 classes d unit s qui sont explicit es dans le tableau ci dessous Chaque ligne correspond une classe La premi re colonne donne pour chaque classe le nom du graphe de type GNmesure qui sera automatiquement construit partir du contenu de la classe La deuxi me colonne correspond l ensemble des noms des graphes d crivant les unit s crites en toutes lettres d une classe graphes du type Unite La troisi me colonne correspond l ensemble des noms des graphes d crivant les symboles des unit s d une classe graphes du type Unite_abr La derni re colonne correspond l ensemble des noms de graphes du type DnumUnite precis associ s une classe d unit s 37 E PRET Par convention les noms des graphes sont toujours pr c d s du symbole 54
328. rs le graphe Ga dans le compte de U Cette solution para t premi re vue id ale car elle permet une forte conomie de m moire Cependant selon le contexte de la grammaire locale les deux graphes G4 peuvent voluer diff remment Nous citons par exemple le cas des grammaires du discours boursier de T Nakamura para tre qui utilise les graphes g n raux de dates de M Gross mais les a adapt s son contexte de travail Le syst me de pointeurs n autorise pas des volutions divergentes des grammaires Nous d cidons donc de dupliquer les graphes du type G4 Cette strat gie a plusieurs inconv nients D abord elle est co teuse en m moire Ensuite elle supprime le lien qui existait entre les deux graphes de type G4 Ainsi lorsque l un des deux est modifi l autre ne l est pas automatiquement Un bon moyen de r sorber les effets n fastes de la duplication des graphes est d avertir les auteurs lors de la modification d un graphe qui les int resse 5 2 1 2 Acc s aux donn es L un des buts de la biblioth que est de donner aux utilisateurs l acc s au catalogue des grammaires locales stock es Comme leur nombre risque d exploser il a t n cessaire d implanter un moteur de recherche Les crit res de recherche sont multiples Nous partons du plus simple au plus complexe Tout d abord il est possible de construire un filtre sur des caract ristiques simples des grammaires tels que l auteur la langue
329. rs sont pri s de se r f rer la bibliographie g n rale 2 5 1 Formalisme Les grammaires que nous consid rons ont la forme de r seaux r cursifs de transitions W A Woods 1970 M Silberztein 1993 Chaque grammaire g poss de un alphabet N d l ments non terminaux un alphabet T d l ments terminaux avec NAT un ensemble de r gles G sous la forme de graphes terme gauche nom du graphe soit un l ment de N termes droits factoris s sous la forme d un graphe sur NUT et un axiome de d part ou graphe principal go Les graphes sont construits l aide d un diteur et se lisent de gauche droite Les transitions tiquet es sont dans des boites Par exemple prenons N X Y Z T a b c d et X correspondant au nom de go G est repr sent par l ensemble des graphes ci dessous fig 5 6 et 7 o chaque tiquette gris e est un l ment non terminal soit un appel un sous graphe Ainsi notre grammaire reconna t des expressions telles que aaccbb ou bcdab di de D ck ek Figure 5 X 17 T Briscoe et J Caroll 1993 p 40 font le rapprochement avec les nombres de Catalan Site Internet www igm univ ml v fr infolingu 33 Figure 7 Z Pour l instant nous avons d fini les l ments des alphabets comme de simples symboles Nous pr cisons maintenant leur forme r elle dans nos grammaires linguistiques Les symboles non terminaux sont des noms arbitraires donn s des
330. rtement 145 A B C DE F G H 3 S 5 2 8 ZS zS al _ Z Plz E its zlo 4 ZS 1 Dide nartemen e Ueil Ain 2 6 d partemen e let Aisne _ 3 8 d partemerr e let Allier _ 4 S d patemen e les Alpes de Haute Provence 5 _6 d patemen e les Hautes Alpes G 8 d partemerr e les Alpes Maritimes F G d parttemern e leif Ard che jard chois D 8 d parttemer e les Ardennes ardennais J 6 d patement e letl Ari ge Jari geois D 8 d partemern e le Aube aubois 1 _Sld patement de lat Aude _ audois 2 Sld patement Jde le Aveyron Javeyronnais 3 8 d partemerr e les Bouches de le Rh ne 4 Sld patement de le Calvados J a 8 d partement de le Cantal cantalien cantalou 6 8 d partemerr e Jla Charente charentais T S d partement e Jla Charente Maritime D 8 d partemer e jle Cher 19 Bld patemen e Jla Corr ze corr zien 20 S d partemen e la Corse de le Sud 21 l d patemen e Jla Haute Corse 22 S d partemen e Jla C te de or Table 13 chantillon de la table NNpr d partement 4 3 7 4 Table NNpr mer A B C D E EE G H Jk L M o E 5 D 3 3 T AE 5 Gs a ei e 5 2 2121 16 e le o 3 Hl
331. s 1999 26 L analyse syntaxique des phrases est particuli rement probl matique car il existe un tr s grand nombre de mod les les grammaires d unification grammaire lexicale fonctionnelle LFG cf J Bresnan et R Kaplan 1982 grammaire syntagmatique guid e par les t tes HPSG cf C Pollard et I Sag 1987 1994 grammaire d arbres adjoints TAG cf A Joshi 1987 etc les grammaires de d pendance L Tesni re 1959 I Mel cuk 1988 etc etc Cependant il existe un certain nombre de points o les linguistes sont quasiment unanimement d accord on peut regrouper les mots en constituants qui eux m mes peuvent se regrouper en constituants On peut donc repr senter une phrase par un arbre syntaxique La nature pr cise des constituants dans une phrase donn e fait cependant l objet de controverses entre linguistes M Gross 1975 p 34 a notamment rejet la notion de groupe verbal GV La phrase Le petit homme mange du pain sec peut tre analys e l aide de l arbre ci dessous Les mots sont regroup s sous la forme de syntagmes le petit homme et du pain sec sont des groupes nominaux GN Le verbe manger est le pr dicat de la phrase qui a deux arguments un sujet le petit homme et un compl ment d objet direct du pain sec P GN GN E D Yy ii Ad Le petit homme mange du pain sec Figure 2 arbre syntaxique Nous avons donn dans cet exemple un arbre tr s simple
332. s le un roi Louis XIV Les touristes appr cient l Suel le de Ouessant Luc contemple la une mer M diterran e 71 Les cas d alternance entre la forme en de et la forme sans de sont rarissimes la r gion E du Nord Pas de Calais 129 Dans les s quences fig es telles que mer du Nord ile du Diable vall e de la Mort ou mer Noire les phrases classificatrices dissociant Nc et Npr ne sont pas autoris es Le Nord est une mer Le Diable est une le La Mort est une vall e E La Noire est une mer Ainsi les groupes nominaux qui nous int ressent pr sentent la fois des ressemblances et des diff rences avec les appositions Il en est de m me de certaines formes appositions sans de la s quence le b timent A ne peut tre rapproch e d une phrase classificatrice telle que A est un b timent Dans l une des derni res conversations que nous avons eue avec lui M Gross parlait de d terminant nominal pour la s quence la ville de ce qui pourrait sembler exact premi re vue Les touristes appr cient la ville de E Toulouse New York La Havane La possible insertion d adjectifs fragilise cette analyse En effet les d terminants nominaux acceptent peu pr s uniquement des adjectifs intensifs Cette entreprise a embauch une E belle grosse fourn e d ing nieurs Cette entreprise a embauch une fourn e E hallucinante importante d ing nieurs Cette
333. s puis les algorithmes de suppression d une grammaire locale On supposera les grammaires normalis es et la biblioth que index e 5 4 2 Pr liminaires 5 4 2 1 Rappels th oriques sur les graphes Nous pr sentons quelques bases sur la th orie des graphes Pour plus de d tails le lecteur est invit lire N Christofides 1975 A V Aho et al 1983 R K Ahuja et al 1993 ou T Sudkamp 1997 qui nous ont inspir m me si certaines notations nous sont personnelles Un graphe orient G est d fini par le 2 uplet lt V E gt avec V un ensemble de sommets et E un ensemble de relations entre ces sommets que l on appelle aussi arcs Soit a e E alors a est un couple ordonn 57 52 avec s V et s2 V D sormais nous abr geons le terme 131 V pour vertex en anglais 132 E pour edge en anglais 196 graphe orient en graphe Graphiquement un sommet correspond un petit cercle ou autre figure g om trique Un arc 57 52 est une fl che allant du sommet s au sommet s2 Illustrons cela par un exemple soit G lt V E gt un graphe avec V 1 2 3 4 et Ej 1 3 1 4 02 1 4 3 cf la figure ci dessous Nous donnons galement l quivalent de ce graphe au format Intex et Unitex les sommets sont des rectangles tiquet s Les arcs sont les traits qui relient ces sommets Leur sens d orientation est indiqu par la fa on dont l arc est reli aux sommets sur le sommet de d p
334. s d une partie administrative d un pays province du Nouveau Brunswick 161 Notons que le nom principaut rentre dans un adverbe locatif utilisant la pr position en Luc est en principaut Cette expression est une r duction de en principaut de Monaco Si Pon regarde le nom cit au sens de quartier il est relativement naturel de dire la phrase suivante Ma famille habite est en cit Ou habite ma famille en cit Par contre on n observe pas la m me construction avec cit au sens de ville Luc habite est en cit Luc est en ville Pour d autres classifieurs on observe galement un figement avec la pr position en mais l emploi est non locatif car les phrases ne r pondent pas la question en o La course est en c te Comment est la course en c te O est la course en c te Ce figement est quand m me un moyen de diff rencier les deux emplois de c te car on ne peut avoir ce comportement avec le nom c te au sens de bord de mer Le classifieur r publique rentre aussi dans un adverbe fig en r publique qui n a pas un sens locatif Nous sommes en r publique O est ce que nous sommes en r publique Le nom butte entre dans une construction non locative semi fig e du type tre Prep C Prep o C est un nom fig avec la pr position Max est en butte des probl mes Max est en butte L encore la construction ne r pond pas la question en
335. s expressions du corpus est de consid rer entre Dnum et Dnum comme l quivalent d un d terminant num rique comme montr dans l analyse ci dessous Le diam tre atteint entre 90 et 110 m Nos graphes permettent d analyser des formes plus rares telles que entre 90 cm et 1 10m L exemple ci dessus est analys comme suit Le diam tre atteint entre 90 et 110 m 3 2 4 2 3 La structure de 4 Il existe une autre structure permettant d exprimer une approximation de mesure sous la forme d un intervalle c est la s quence de Nous modifions notre phrase de d part en la rempla ant par Det Ng tre de Dnum Unit Dnum2 Unit cette temp rature est de 10 15 degr s Notre exemple ci dessus est r ductible au groupe nominal cette temp rature qui est E de 10 degr s 15 degr s Comme pour entre et lorsque l on utilise les variantes tre Adj la pr position est interdite N anmoins l exemple ci dessous montre que l utilisation de telles phrases n est pas tr s naturelle 63 La longueur est sup rieure E de 10 m 15 m Avec les PreDnumPrep on observe l effacement obligatoire de la pr position de La longueur est hauteur de de l ordre de vers les E de 10 15m Avec les verbes sans pr position la pr position de n est pas obligatoire La temp rature atteint de E 10 degr s 15 degr s La structure de
336. s gt un objet comprenant les donn es g n rales de la biblioth que Apr s r ception et analyse le client affiche le r sultat sur l interface et si la connexion est accept e rafra chit diff rents champs de l interface Chaque type de requ te a un protocole sp cifique compris la fois par le serveur et le client Notre syst me est implant en java et utilise le codage Unicode pour les caract res Nous utilisons galement certains modules d Unitex S Paumier 2003 183 5 2 3 Base de donn es Notre base de donn es relationnelle repr sent e dans la figure ci dessous contient cinq entit s repr sent es par des ellipses les dictionnaires les grammaires les tables les langues les utilisateurs L entit centrale est celle des grammaires qui contient un ensemble de graphes Chaque graphe poss de plusieurs champs un nom pointant vers un fichier le repr sentant explicitement extension grf et vers un fichier le documentant extension gdoc sl plus des caract ristiques si c est un graphe sorties variables etc L entit utilisateurs comprend l ensemble des utilisateurs inscrits les champs concernent des informations personnelles simples nom d utilisateur mot de passe nom pr nom courriel etc Les entit s sont li es entre elles aux moyens de relations repr sent es par des rectangles la relation LangueDeDico indique la langue associ e chaque dictionnair
337. s on construit les tiquettes normalis es partir du r sultat du filtrage Par exemple la normalisation de l tiquette lt bleu N f gt se d roule comme suit 126 Le fonctionnement du filtrage n est pas d taill ici il est expliqu un peu plus loin avec le tag matching 191 gt consultation du dictionnaire pour la forme canonique bleu bleu A zl ms bleu bleue A z1 f bleu bleus A z1 mp bleu bleues A z1 fp bleu N zl ms bleu bleue N z1 fs bleu bleus N z1 mp bleu bleues N z1 fp filtrage de la liste pr c dente suivant les informations optionnelles N f bleu bleue N 21 fs bleu bleues N 21 fp gt construction des tiquettes normalis es correspondantes chaque ligne de la liste ci dessus bleues bleue bleu bleu N N z1 z1 p al Table 27 normalisation de l tiquette lt bleu N f gt les symboles ensemblistes grammaticaux ex lt V z Hum ms gt lt V Pls gt Nous construisons une seule tiquette normalis e par tiquette ensembliste non lexicale Il suffit d extraire des tiquettes d origines les informations int grer dans les diff rents champs du symbole terminal normalis La normalisation de lt N z1 Hum ms gt donne le r sultat suivant N Hum zl m s Table 28 normalisation de lt V 21 Hum ms gt 5 3 3 2 Mise en correspondance d tiquettes Th oriquement
338. sambiguation Proceedings of COLING90 Labelle J 1974 Etude de constructions avec op rateur avoir nominalisations et extensions Th se de 3 cycle Universit Paris 7 Lamiroy B 1999 Le lexique grammaire Travaux de linguistique Bruxelles Lamiroy B 2002 la pr position s minaire du LADL Paris Laporte E 1988 M thodes algorithmiques et lexicales de phon tisation de textes applications au fran ais Th se de doctorat en informatique Universit Paris 7 Laporte E 1995 Appropriate nouns with obligatory modifiers Language Research 31 2 Language Research Institute Seoul National University Seoul Laporte E 2000 Mots et niveau lexical In J M Pierrel ed Ing nierie des Langues Hermes Science Paris Laporte E 2002 Le lexique grammaire des adjectifs du fran ais s minaire du LADL Paris Laporte E 2003 Applications du lexique grammaire l informatique colloque description linguistique pour l analyse automatique du fran ais congr s de l ACFAS Rimouski 228 Laporte E Monceaux A 1999 Elimination of lexical ambiguities by grammars the ELAG system In C Fairon ed Analyse lexicale et syntaxique le systeme INTEX Lingvisticae Investigationes John Benjamins Amsterdam Larousse 2002 Petit Dictionnaire Larousse Lecl re C Subirats R ggeberg C 1991 A bibliography of studies on lexicon grammar Lingvistic Investigationes XV 2 John Benjamins Amsterdam
339. se Dans ce chapitre nous d taillons les points fondamentaux du lexique grammaire la m thodologie de M Gross 1975 qui pr ne l accumulation syst matique des faits linguistiques les diff rents composants linguistiques accumul s depuis une trentaine d ann es dictionnaires morphologiques et syntaxiques grammaires locales Puis nous donnons quelques g n ralit s sur l analyse automatique des langues et nous r pertorions les applications du lexique grammaire dans ce domaine Enfin nous faisons un tat de l art sur les grammaires locales construites au sein de la communaut travaillant dans le cadre du lexique grammaire 2 3 Le lexique grammaire Le lexique grammaire est une m thodologie dont l ouvrage fondateur est M thodes en syntaxe de Maurice Gross 1975 Elle est en grande partie tir e des travaux sur les grammaires transformationnelles de Z S Harris 1951 1968 qui a introduit une approche math matique de la linguistique avec des d finitions rigoureuses et minimales M Gross a montr l importance du lexique souvent d pr ci au profit de la grammaire en montrant par l accumulation syst matique de faits linguistiques que les r gles de grammaire m me les plus simples ne sont pas aussi r guli res que l on a tendance le croire 2 3 1 L objet d tude les phrases simples Les travaux du lexique grammaire ont pour objet d tude les phrases simples ou l mentaires compos es d un
340. sent est de taille modeste au total nous avons cod manuellement environ 650 entr es r parties en 50 tables Nous avons d abord repris les r sultats de O Piton et al 1997 pour les noms de pays et constitu une liste des noms officiels des pays l aide de la liste diffus e par la D l gation Fran aise la langue fran aise Le travail r alis sur les noms d les par M Garrigues 1995 nous a permis de r pertorier les contraintes syntaxiques auxquelles ils sont soumis Nous avons galement list tous les d partements fran ais les r gions fran aises les tats am ricains et les provinces canadiennes Par ailleurs nous avons compl t nos listes l aide de savants dosages d autres types de lieu g ophysiques mer pic vall e etc Le lexique accumul est donc vou tre largement compl t Cependant d un point de vue linguistique ce petit ensemble nous a permis de mettre en lumi re un vaste ensemble de ph nom nes linguistiques facilement repr sentables dans des tables syntaxiques Il est probable dans le futur que d autres contraintes soient d couvertes et ajout es aux tables existantes En fait cette tude avait surtout pour but d ouvrir une voie dans le traitement linguistique des noms propres de lieu et de montrer que la m thodologie du lexique grammaire pouvait tre appliqu e avec succ s leur analyse syntaxique Un premier moyen de compl ter automatiquement nos tables de mani
341. ses lignes pointent vers la m me entr e de PNNpr Mais cela est d notre choix de classification pour les noms propres Si nous les avions class s selon leur structure interne toutes les lignes de la table de type NNpr ne pointeraient pas sur la m me ligne de PNNpr car il y aurait plusieurs classifieurs dans une m me table Ainsi on peut dire que nous avons construit plusieurs syst mes relationnels de tables syntaxiques compos s chacun de deux tables une table de type NNpr et la table PNNpr Il est donc n cessaire de r examiner la m thode standard de conversion des tables en graphes qui n est plus valable dans ce type de syst me Ce processus requiert des informations contenues dans les deus tables du syst me ce qui n est pas r alisable avec l approche traditionnelle Dans la suite nous d veloppons un mod le et un algorithme prenant en compte ces exigences Pour simplifier la compr hension du lecteur nous supposons que la table de type NNpr contient diff rents classifieurs Cet exemple sera utilis tout au long de cette partie A E C D E F ER Tl a E 3 EE F a a ui ajo 2 Bla Ss zZ R Ss ie 2 lp 5 sapu ZS Bl c lt AO GIE 2 2 Yu pyla GEIER D E A A Tak 1 1 d partement de Nord al almer de Nord S 1 d partement 2 3 r gion de Hord Pas de Calais d 1 d partement de 5 Alle de D Sjoc an Pacifique 7 Gl tat d
342. sions de mesure premi re vue la production de telles grammaires n est pas difficile En effet les formalismes utilis s sont extr mement simples et visuels tables et automates et donc facilement compr hensibles pour les linguistes Malgr cette simplicit apparente notre m thode bas e sur M Gross 1975 permet de d crire syst matiquement des ph nom nes tr s pr cis La grosse difficult r side dans la quantit astronomique de donn es accumuler Ainsi notre processus requiert une extr me rigueur dans l organisation des donn es qui peuvent rapidement devenir illisibles et donc incompr hensibles Nous avons vu que nous disposions de deux m thodes de production des grammaires partir d une analyse linguistique d taill e par construction manuelle ex les graphes DnumUniteDe et ADnumMetreDeN1 au moyen d une repr sentation interm diaire tables syntaxiques et d un m canisme semi automatique de conversion en graphes Ces deux m thodes se m langent les graphes patrons utilisent des sous graphes faits enti rement la main comme les d terminants num riques et les unit s Il n existe pas de crit res clairs pour choisir l une ou l autre Il faut simplement prendre la m thode la moins contraignante et la plus flexible La m thode par tables syntaxiques est extr mement int ressante si la description des expressions n cessite de nombreuses duplications de morceaux de graphes Les s quences
343. sterait remplacer cette tiquette par l ensemble de tous les noms Le cardinal de cet ensemble tant d une centaine de milliers la normalisation propos e est clairement co teuse en espace m moire Le ph nom ne est amplifi avec les m ta tiquettes En effet l ensemble des mots est gigantesque cause de la production infinie de nouveaux mots comme les noms propres La proc dure est alors impossible mettre en uvre Nous d cidons donc de laisser en l tat les symboles ensemblistes non lexicaux Ainsi les symboles terminaux de nos grammaires normalis es ne sont pas tous l mentaires ce qui pose des probl mes pour la comparaison entre les tiquettes des automates 5 3 3 Les symboles terminaux Le probl me est maintenant de repr senter et normaliser les symboles terminaux de mani re rendre efficace la proc dure de mise en correspondance entre deux tiquettes terminales tag matching 5 3 3 1 Normalisation des terminaux D abord un symbole terminal A peut tre repr sent au moyen d un d coupage de l information en n champs ind pendants Aj A2 A Si l on prend les dictionnaires de type DELA comme r f rence nous pouvons d couper chaque tiquette en cinq champs ind pendants un champ correspondant la forme graphique un champ correspondant la forme canonique un champ correspondant au code grammatical un champ correspondant aux traits autres que flexionnels un champ
344. stics Lecture Notes in Computer Science Springer Verlag Berlin New York Gross M 1990 Sur la notion harrissienne de transformation et son application au francais Langages 99 Larousse Paris Gross M 1992 Quelques r flexions sur le domaine de la traduction automatique TAL Paris Gross M 1996 Les formes tre Pr p X du fran ais Lingvisticae Investigationes XX 2 John Benjamins Amsterdam Gross M 1997 The Construction of Local Grammars In E Roche Y Schabes eds Finite State Language Processing The MIT Press Cambridge MA Gross M 1999 Lemmatization of compound tenses in English In Fairon C ed Analyse lexicale et syntaxique le syst me INTEX Lingvisticae Investigationes John Benjamins publishing company Amsterdam Philadelphia Gross M 2002 Les d terminants num raux un exemple les dates horaires Langages 145 Larousse Paris Gross M Lentin A 1967 Introduction to formal grammars Springer Verlag Berlin Heidelberg New York Gross M Senellart J 1998 Nouvelles bases statistiques pour les mots du francais 4 mes Journ es Internationales d Analyse Statistique des Donn es Textuelles Universit de Nice Sophia Antipolis Guillet A Lecl re C 1992 La structure des phrases simples en francais 2 les constructions transitives locatives Droz Gen ve Harris Z S 1951 Methods in Structural Linguistics The University of Chicago Press Chicago Harris Z S 1968
345. structure c diff re des deux autres par les pr positions Prep dans et prepl autour de Il existe deux noms rentrant dans cette structure p rim tre et rayon Ils ont deux 89 comportements diff rents Tout d abord p rim tre s lectionne deux types d unit s les unit s de mesure de longueur conform ment l emploi math matique et les unit s de mesure de surface emploi courant D autre part la phrase de base pour rayon est la r duction d une phrase plus longue ce qui n est pas le cas pour p rim tre Max est dans un rayon de 10 km autour de Lille Max est dans un cercle d un rayon de 10 km autour de Lille 3 4 3 Codage des propri t s dans une table syntaxique Bien que le nombre d entr es lexicales soit peu lev le nombre de phrases repr senter dans les graphes est tr s important Ainsi nous d cidons de coder les contraintes d crites pr c demment dans une table syntaxique Chaque ligne correspond une entr e lexicale La premi re colonne contient l information indiquant si le sujet peut tre un l ment pr dicatif La deuxi me colonne indique le verbe support employ alors que la troisi me colonne donne la pr position suivant Vsup La quatri me colonne comporte les entr es lexicales La colonne 5 indique les classes d unit s s lectionn es par les entr es Les colonnes 6 10 concernent la variation lexicale des pr positions Prep soit avec soit de soit au dess
346. t Beaucoup d argent est co t par le pont Le pont attire les touristes Les touristes sont attir s par le pont Certains verbes acceptent des d rivations morphologiques d autres pas L eau tourbillonne L eau fait des tourbillons L eau bouge L eau fait des bouges La distribution des d terminants est au centre des tudes sur les noms pr dicatifs Elle d pend de chaque substantif Luc fait un du des stop Luc fait une de la des vague s Luc fait un du des son testament s Cette m thodologie a permis de mettre en avant le r le fondamental du lexique Cette approche syst matique est un gros investissement et n cessite du temps et du travail d quipe Gr ce son caract re formel et exp rimental une telle m thode est reproductible dans d autres langues que le fran ais A nsi il existe un large r seau de laboratoires utilisant le lexique grammaire Cette communaut se r unit annuellement lors du colloque grammaires et lexiques compar es depuis plus de vingt ans 2 3 5 Des composants linguistiques de haute pr cision La constitution de composants linguistiques lexiques et grammaires est dans la nature m me du lexique grammaire L tude syst matique des pr dicats a conduit M Gross et son quipe repr senter le comportement syntaxique des pr dicats dans des tables syntaxiques Chaque table contient en gros les pr dicats de m me structure de surface Chaque ligne c
347. t r t L utilisateur voudra s rement trouver des grammaires qui ont un contenu linguistique bien pr cis Dans cette section nous implantons des algorithmes de recherche de grammaires dans un ensemble de grammaires en fonction de plusieurs crit res a la description de leur contenu textes mots cl s entr s par l auteur b leur contenu lexical Dans une premi re partie nous implantons les algorithmes qui manipulent les crit res de type a Nous nous inspirons de techniques classiques et avanc es en recherche d information dans des bases de donn es textuelles non structur es Dans une deuxi me partie nous impl mentons les algorithmes qui r pondent des crit res de type b 5 5 2 Recherche en fonction du contenu de la documentation 5 5 2 1 Indexation des documents La biblioth que B contient un ensemble de textes 7 Nous supposons qu ils sont en fran ais ou en anglais Chacun d entre eux documente un automate de B sur son contenu linguistique g n ral th me type d expressions reconnues motivations etc Lorsqu un utilisateur cherche une grammaire il peut tr s bien vouloir d crire cette grammaire de mani re g n rale l aide de quelques mots cl s Ce type de recherche est quivalent une recherche de documents dans une base de donn es textuelles non structur es Nous utilisons certaines techniques de ce domaine tr s en vogue actuellement du fait de l explosion de la quantit de textes sur In
348. t r t d utiliser des batteries de transducteurs M Silberztein 1997 A Dister 1999 P Carvalho et al 2002 2003 C est un sujet tr s important dans la communaut un module de lev e d ambigu t ELAG a m me t impl ment par E Laporte et al 1999 qui permet de supprimer les mauvais chemins dans le transducteur du texte traduction La traduction automatique des langues est s rement l objectif le plus difficile du TAL OM Gross 1992 Devant la difficult de la t che les tudes dans ce domaine s orientent vers l aide automatique la traduction C Fairon et J Senellart 1999 ont construit un ensemble de transducteurs lexicalis s traduisant des adverbes de temps du fran ais l anglais Dans le m me esprit J Baptista et D Catala 2002 ont r alis quelques grammaires permettant de traduire des adverbes de temps du portugais vers l espagnol et vice versa g n ration La g n ration n est pas un sujet tr s porteur dans la communaut RELEX plus attir e par l analyse Cependant il existe un projet de g n ration automatique de sujets d examen l aide de graphes variables ou graphes de r criture C Fairon 2001 2 5 4 Quelques remarques Comme l indique leur nom les grammaires locales repr sentent des ph nom nes locaux dans la tr s grande majorit des cas ind pendants du reste de la phrase Elles sont donc tr s int ressantes car leur construction ne d pend
349. t r t que de suivre pr cis ment l explication donn e ci dessus On v rifie que Z est strictement interne G Le processus d bute pour A Z et est d crit par l algorithme ci dessous proc dure EnsembleASupprimer On travaille sur le graphe de d pendance de B Les entr es sont donc Z et Gdg La premi re tape consiste calculer les sommets accessibles partir de Z L ensemble obtenu est not W Les sommets traiter sont mis dans une file On ex cute ensuite les instructions d crites plus haut tant que la file n est pas vide Proc dure EnsembleASupprimer Z Gdg R sultat ensemble A W lt Gds accessibilit Z A Z File enfiler Z Tant que file non vide faire courant file d filer Pour chaque X e succ courant SiXg A si X est strictement interne W alors A amp A U X file enfiler X finSi finSi finPour finTantQue finProc dure Appliquons cet algorithme exemple ci dessus Imaginons que l on soit l tape o A est quivalent l ensemble de la partie gris e de la figure de gauche Nous avons dans la file X3 et X4 On d file X3 et on regarde ses successeurs Il n y en a qu un X9 X9 n est pas strictement interne G car E2 en est d pendant On n ajoute donc pas X9 A et on n explore pas ses successeurs Ensuite on d file X4 X4 a deux successeurs X6 et X7 Ces deux l ments peuvent tre ajout s A et on les enfile Le processus continue de la m me mani re
350. t o chaque linguiste apporte sa pierre l difice Pour plus de d tails sur les techniques statistiques voir J Allen 1995 S Abney 1996 E Charniak 1997 etc Les mod les statistiques sont en fait des mod les linguistiques primaires et partiels S Abney 1996 car ils utilisent implicitement des ph nom nes r els de la langue Voorhees 1999 ils r alisent des mesures quantitatives de combinaisons de mots et m me de cat gories linguistiques grammaticales syntaxiques ou s mantiques dans des textes 13 Cette d marche a cependant un gros inconv nient elle n cessite un investissement lourd qui s inscrit sur le long terme D crire ou r pertorier pr cis ment tous les ph nom nes de la langue est une t che qui requiert du temps par exemple la construction des tables syntaxiques des pr dicats du fran ais a commenc au d but des ann es 1970 par M Gross 1975 et son quipe C Lecl re et al 1991 et n est pas achev e Par ailleurs ces approches purement linguistiques n ont pas d applications impressionnantes proposer court terme En effet bien qu il existe de grandes biblioth ques de descriptions formelles et lexicales le plus souvent elles ne sont pas exploitables directement et n cessitent de longues op rations de reformatage et de conversion en donn es applicables De plus les m thodes linguistiques tout en permettant de rep rer des ph nom nes tr s pr cis g n rent
351. t une fension lectrique soit une tension art rielle Cette ambigu t est lev e si l on regarde les unit s s lectionn es par 57 chacun Volt pour tension lectrique et lt E gt pour tension art rielle Par ailleurs longueur est aussi ambigu il peut d signer soit une dur e comme dans Ce spectacle a une longueur de 2 heures soit une mesure m trique comme dans Cette corde a une longueur de 25 m tres Il en est de m me pour poids qui est soit une force nom standard en physique soit une masse comme il est courant de l utiliser dans la vie de tous les jours La vie courante ne permet pas de distinguer les notions de force et de masse Les noms s lectionnant une unit mon taire ont un comportement particulier par rapport aux autres en ce sens qu ils autorisent l effacement de l unit Ce cadeau a une valeur de 2 50 euros E 3 2 3 4 Processus de g n ration des graphes GNmesure La table d crivant les classes d unit s peut tre vue comme une table syntaxique cf chapitre sur le lexique grammaire Chaque ligne correspond une entr e lexicale un nom de classe qui est donn e dans la premi re colonne ex GNmesure longueur pour la premi re ligne Les colonnes autres que la premi re contiennent certaines propri t s de la classe colonne B l ensemble des graphes d unit s en toutes lettres de la classe colonne C l ensemble des graphes des symboles s ils existent col
352. tactical analysis text parsing Sommaire RemeTCIEMen S s same ec nee adn 3 R SUM shirt ia ea 4 AO S 5 A E E IEEE EE 6 Liste des AAA NN 9 List des tables A ech edu 12 Chapitre 1 ger E 13 Chapitre 2 Lexique grammaire et grammaires locales 16 2 1 NOTATIONS hs nes TN ma Der lores praia tal 16 22 Introductions E 16 2 3 Le lexique crammaires 5 sans da 17 2 3 1 L objet d tude les phrases simples 17 2 3 2 La phrase simple comme unit l mentaire de sens 19 2 3 3 Transformations et g n ration de phrases complexes 20 2 3 4 Une d marche exp rimentale i eE EERS 22 2 3 5 Des composants linguistiques de haute pr cision 23 2 4 Lexique grammaire et analyse automatique de textes 26 2 4 1 L analyse automatique de textes oooooocccnnnoccccononcnnonononnnannnnanononnoncnccnanancanonnss 26 2 4 2 Les solutions du lexique grammaire 28 2 4 3 L r seau REEEX ociosos nitro deele Ee 31 2 4 4 R flexions et perspectives 32 2 5 Grammaires locales un tat des lieux 33 2 5 1 Formal MES ca ne nn e RE E E EEN 33 2 5 2 Les diff rents niveaux d analyse oooooocccnnoooccccnonccncnonncnnnnnnnnncncnnonancnnananccnonns 36 2 5 3 LES Oe e EE 37 2 5 4 Quelques remarques 38 Chapitre 3 Analyse et repr sentat
353. tails sur les automates le lecteur est invit se r f rer aux ouvrages suivants M Gross et A Lentin 1969 T Sudkamp 1997 185 l on note B est union d un ensemble de grammaires G3 Gn Ainsi comme les langages alg briques sont ferm s par union B est aussi un RTN On peut consid rer B comme le quadruplet Ne Te autg Ass tel que e Ne est l union des alphabets de non terminaux N auxquels on adjoint un nouveau symbole Se l axiome de B e Tyest l union des alphabets de terminaux T e Autgest l union des ensemble Aut plus la r gle automate associ e l axiome Sp La r gle automate autg Sg reconna t les axiomes S avec i 1 n ainsi ona L autg Sp Sili e L n L autg Sp est le langage reconnu par autg Sg Nous appellerons autg Sg l automate d union Nous gardons le terme d automates principaux de B pour Sy S2 Sn Exemple Soit une biblioth que B qui comprend deux grammaires locales G lt X Y fa b aut S gt et G2 lt f Y fa b c aut S7 gt avec aut et autz repr sent s dans les figures suivantes Figure 94 S1 2 0 ne Figure 96 S2 Figure 97 Y La s quence aXb appartient au langage L aut S La s quence abab est reconnue par la grammaire S et donc elle appartient L G langage sur a b reconnu par G3 Ainsi on a Ng Sp S1 S2 X Y Tp fa b c et l automate aut S g est repr sent par le graphe suivant si
354. te si les graphes sont bien con us Nous donnons un exemple de grammaire anglaise de dates ci dessous Elle reconna t des expressions telles que five in the afternoon 5 p m half past one Nous reviendrons sur ce type de donn es car c est le sujet central de ce m moire in the moming in the evening in the afternoon right Figure 1 exemple de grammaire locale de dates en anglais Dans un souci d exhaustivit les chercheurs du lexique grammaire ont galement construits des dictionnaires lectroniques de formes fl chies de mots simples DELAF et de mots compos s DELACF Ces formes fl chies sont automatiquement g n r es partir de leur forme canonique et d une classe flexionnelle associ e A chaque entr e lexicale est associ e un lemme un code grammatical des informations flexionnelles genre nombre des traits syntactico s mantiques et dans les versions les plus r centes le nom de la table de lexique grammaire laquelle elle se rattache Nous donnons ci dessous un exemple d une entr e ambigu du DELAF avions et d une entr e du DELACF pommes de terre avions avoir V 11p verbe avoir conjugu l imparfait la troisi me personne du pluriel avions avion N mp nom avion au masculin pluriel pommes de terre pomme de terre N NDN fp nom compos pomme de terre au f minin pluriel Nous notons qu il existe aussi des
355. ternet L indexation des documents par les mots employ s est une technique classique cf Fluhr 2000 pour des informations d taill es Une premi re m thode traditionnelle est d indexer les textes par mots graphiques trouv s 139 Cette technique est triviale implanter surtout si l on a un tokeniser disposition Unitex Par exemple soit T T T2 un ensemble de 2 textes T Les grammaires locales aident rep rer des mots compos s T La grammaire est une grammaire de dur e 1 Un mot graphique une s quence de lettres d limit e par des s parateurs 209 L indexation traditionnelle de ces textes donnerait le r sultat suivant Ti aident T compos s T de T2 des Tr dur e T2 est T2 grammaire T2 grammaires Ti La T2 Les Ti locales Ti mots T rep rer Ti une D Ce d coupage en mots est tr s basique car il ne tient pas compte des variantes flexionnelles que peuvent prendre ces mots En effet dans l exemple pr c dent grammaire et grammaires sont deux entr es distinctes de l index alors qu ils ont le m me sens Une solution avanc e de plus en plus utilis e dans les moteurs de recherche est de lemmatiser les mots index s afin d avoir des classes de mots quivalents Le mot d signant chaque classe est la forme canonique commune ses membres par exemple grammaire grammaire grammaires Les fonctions externes de consultation des
356. tet Seconde Volt Tonne A chacun de ces graphes nous associons le graphe des symboles des unit s correspondants dont le nom se termine par _abr La plupart des graphes ne pr sentent aucune difficult et leur contenu est facilement construit manuellement voire automatiquement sur le m me mod le que nos deux exemples Le graphe DegreCelsius d crit les diff rents types de degr s pour mesurer une temp rature degr Celsius degr Fahrenheit degr Kelvin Les symboles d crits dans DegreCelsius_abr sont C F et K Le graphe Mille correspond aux milles nautiques Il n existe pas de graphe _abr associ Nous avons consid r que les unit s de temps n taient pas suffisamment bien repr sent es par le graphe Seconde seconde milliseconde Nous avons donc construit un graphe Ndiv temps r pertoriant les noms d signant des divisions du temps an ann e trimestre mois jour heure minute etc lt E gt lt marin gt lt nautique gt lt terrestre gt lt E gt lt britannique gt lt internatiornal gt Figure 29 Mille Au vu de cette liste il est clair que nous n avons pas r pertori toutes les unit s simples existantes Mais nous consid rons que cela est suffisant pour notre tude 50 Nous d cidons quand m me d ajouter un graphe Nmonmnaie regroupant toutes les unit s de monnaie plus le graphe des symboles Nmonnaie_abr Certains noms de monnaies peuvent tre regroup s d
357. tion D pour d terminant Npr pour nom propre forme courte Npr a pour un adjectif morphologiquement d riv du nom propre Npr Jusqu pr sent nous avons r pertori les formes longues suivantes LE Nc Npr la mer M diterran e NNpr LE Nc Adj Npr l oc an glacial Arctique NANpr LE Nc Prep Npr l tat de Californie NPNpr LE Nc Prep Det Npr l le les Moines le pic de le Midi NPDNpr LE Nc Npr a la R publique francaise NNpr a Le Nc Adj de Npr la R publique arabe d gypte NAPNpr LE Nc Adj de Det Npr la R publique d mocratique de le Congo NAPDNpr Il existe des noms officiels de pays ayant des structures syntaxiques internes encore plus complexes LE Nc Adj et Adj de Npr la R publique populaire et d mocratique de Cor e 7 Npr a est l adjectif morphologiquement li Npr ex pour Npr France Npr a fran aise 133 LE Nc Adj Npr a Adj et Adj la Jamahiriya arabe libyenne populaire et socialiste La tr s grande majorit des noms propres de lieu rentrent dans au moins une des trois structures suivantes NNpr NPNpr ou NPDNpr Les structures contenant un adjectif concernent essentiellement les noms de pays dont les formes officielles courtes et longues sont r pertori es partir de la liste diffus e par la D l gation G n rale la Langue Fran aise Ils ont galement t tudi s par O Piton et al 1997 qui partir de c
358. tion de couvrir tous les noms propres compos s de lieu existants et loin de l Il existe trois raisons cela la liste exhaustive de tous les noms propres de lieu est immense cf la construction de Prolintex qui dure depuis huit ans le comportement syntaxique est souvent flou pour les noms de lieu peu connus nous avons consitu nos lexiques partir de nos connaissances g ographiques qui rel vent de la culture g n rale et nous verrons malgr tout que les donn es accumul es comprennent un grand nombre de contraintes syntaxiques notre objectif est surtout m thodologique montrer une m thode claire et rigoureuse d accumulation de noms propres de lieu Ce sujet pr sente une autre difficult Un nom propre peut admettre plusieurs classifieurs sans tre ambigu pour autant ainsi une ville peut aussi tre une station de ski la station de ski ville de Courchevel la station de ski ville de Paris Pour certains noms propres le classifieur n est pas clair comme pour les petites villes est ce un bourg un village une bourgade Il existe un autre cas o le classifieur n est pas clair les noms de massifs montagneux comme les Alpes En effet il est possible de dire massif cha ne des Alpes S il n existe pas de classifieur clair dans la forme longue d un nom propre r pertori nous ne tenons pas compte de ce nom propre Pour les villes nous ne traitons que les grosses villes qui sont cl
359. tomate fini est un 4 uplet lt Q I F Z d o O est un ensemble d tats Z est l ensemble des tats initiaux F est l ensemble des tats finaux Z est l alphabet et 9 OXZ XQ est l ensemble des transitions Pratiquement les automates finis sont repr sent s l aide de graphes o les transitions sont des boites et les tats ne sont pas repr sent s sauf l tat initial et l tat final On suppose que Y est un alphabet quelconque disjoint de l alphabet des bool ens Soit M une table avec n colonnes qui contient des bool ens et des l ments de 2 Le graphe de r f rence associ M est un automate fini dont l alphabet est ZU4 A est un alphabet auxiliaire disjoint de Z Chaque l ment de A est appel variable et correspond une colonne de M Pratiquement cet automate contient des variables Ej o l entier je 1 np correspond la colonne j de M Le symbole repr sente le NON logique et peut parfois tre plac avant la variable Nous montrons maintenant l utilisation de ce graphe de r f rence pour convertir la table M en graphes Soit T lt Q l F X amp gt une collection de graphes To est le graphe de r f rence ou param tr associ la table M Pour tout i gt 0 T sera le graphe associ la ligne i de M et sera automatiquement construit l aide de l algorithme suivant Nous supposons ici que le symbole j est un entier pour des raisons de facilit
360. tre U faire V et W contenir X et Y compter Z Pour les verbes faire et contenir nous avons regarder la possibilit d avoir le d terminant partitif du devant la s quence Dnum Unit 74 Remarque pour vitesse comme l effacement du Ng ne fonctionne que pour une classe s mantique de sujets extr mement r duite vent tornade etc nous mettons un signe dans la case correspondante cette propri t et cette entr e Nous construisons par ailleurs une grammaire locale pour cette classe l aide notamment du dictionnaire en ligne des synonymes de CRISCO http elsapl unicaen fr cherches html Nous reviendrons sur cette grammaire ult rieurement A BCE D E F G HI K Lom N oP a RS TOUVYOWX Y Z AA m EE Sis Laza sels E 2 315 5 E 2 5 E E gt alal Elm SISI E E w a 2 5 2 2 T 8 Ela SE El El 5532 E 213 5 8 el 5 5 5 5 2 E SS gt E Si z E o a 2 o FERESE E 33 Ze e SIAS 5 5 5 a 5 2 solis Sc DIE el El S 82 25 g o 5 Z Ala 53 8 85 ELEVE z clcl cel a 2 Elo ele 8 2lS slels z RRE 5 ARABE SP SE a 2 S 3 5 5 15 Ala ss sels Ej g E x 3 2 l l e e E E EIS Bolso T a E A E A EARE E wj wf u 3 6 Zlo o IS a z Z S 5 5
361. tre tude les entr es lexicales correspondent aux pr dicats nominaux Ng rentrant dans le sch ma de phrase NO avoir un Ng de Dnum Unit Les propri t s que nous voulons coder sont les suivantes Ja distribution du sujet la valeur lexicale des noms longueur tension art rielle la contrainte entre Ng ex largeur et Unit ex m tre la variation lexicale du verbe support avoir tre de comporter etc la permutation entre la s quence Dnum Unit et le nom Ng plus les accidents morphologiques les transformations de nominalisation et d adjectivation effacement du nom N La table syntaxique cod e est donn e plus bas et a le nom ANMesure Les structures cod es sont explicitement donn es dans l intitul des colonnes Ce graphe n est pas directement applicable un texte cf section application des textes 73 Distribution du sujet Les trois premi res colonnes contiennent le codage de la distribution du sujet Nhum Nconc et Npred Valeur des noms Nous indiquons la forme de base de nos pr dicats nominaux Ng Dans le cas des noms compos s le nom et l adjectif apparaissent dans deux colonnes s par es Remarque nous n avons cod que partiellement le comportement de faille de m moire vive pour viter d ajouter trop de colonnes notre table Nous n avons entr que la variante r duite m moire vive de type NA Contrainte Ng Unit Pour chaque entr
362. tructions ont t tr s peu tudi es dans le cadre des tudes sur les constructions tre Prep X au sein du lexique grammaire La pr position en est corr l e un fort degr de figement Par exemple elle ne peut pas se combiner avec les formes longues des noms propres de villes alors que la s quence sans Npr est tout fait naturelle Marie est en ville Marie est en ville de Paris Lorsque la forme longue accepte la pr position en comme pour les noms de mers la s quence sans Npr a un sens plus g n rique Luc est en mer M diterran e Luc est en mer sens g n rique Par ailleurs la r gle de pseudo effacement du Npr est loin d tre r guli re c est plut t une exception ce qui renforce le caract re fig de en mer Luc est en vall e d Aspe Luc est en vall e Max est en baie des Anges Max est en baie La pr sence de la pr position en est naturelle devant le nom r gion sans Npr mais ce dernier est au pluriel Les ministres sont en r gions Dans cette derni re phrase le nom r gion n est pas au sens de r gion administrative ex Aquitaine ou un nom de localisation autour d un lieu la r gion de Lyon car la phrase signifie que les ministres se trouvent en province D ailleurs si l on prend le nom province on observe un ph nom ne similaire Luc est en province Cette phrase signifie que Luc est en France mais n est pas Paris Le nom province n a donc pas le sen
363. tructure en fre tels que vol d oiseau la ronde Son insertion dans la phrase conserve la sym trie ce qui n est pas le cas lorsque l on a une pr position locative indiquant un sens et ou une direction Paris est 220 km vol d oiseau de Lille Lille est 220 km vol d oiseau de Paris Lille est 220 km au nord de Paris Paris est 220 km au nord de Paris Paris est 220 km au sud de Lille quivalence s mantique et non syntaxique Nous constatons galement une autre diff rence de comportement entre ces deux types de s quences si l on analyse la phrase de base comme deux phrases l mentaires Paris est une distance de 200 km vol d oiseau vol d oiseau de 10 km de Lille Paris est une distance de 200 km de Lille Cette distance est vol d oiseau E de Lille Paris est une distance de 220 km au sud de Lille Paris est une distance de 220 km de Lille Paris est au sud de Lille Le nom distance lorsqu il s lectionne des unit s de temps autorise l insertion de modifieurs adverbiaux appropri s comme dans Le centre ville est dix minutes en voiture pied de marche de Paris 88 Ils s analysent peu pr s de la m me mani re que vol d oiseau m me si l on constate que la phrase en tre est difficile Pour rendre cette derni re phrase plus naturelle il faut ajouter la forme passive du verbe parcourir Le centre ville est une distance de
364. ts cl s soit reconnue comme un mot compos qui se trouve dans l index augmente la finesse de la recherche car le poids s mantique de l unit form e par la suite des mots d un mot compos est tr s fort L index pr c dent de T devient alors T1 aider T compos T composer T1 de T2 des T2 dur e T2 est T2 tre T2 grammaire T1 T2 grammaire locale Tr la T2 le T1 T2 locales T local T mots T mot T mot compos Ti rep rer T1 un T2 La description linguistique des grammaires tant tr s sp cialis e il conviendra moyen terme de construire des dictionnaires sp cialis s du discours du lexique grammaire afin de reconna tre certains termes techniques tels que groupe nominal ou compl ment circonstanciel 5 5 2 2 Traitement de la requ te Avant tout traitement de la requ te les constituants simples de la s quence de mots cl s doivent tre lemmatis s afin de pouvoir tre compar s aux entr es de l index Soit u u u2 Un la S quence de mots cl s Apr s la phase de lemmatisation on associe chaque mot simple u l ensemble de ses lemmes U danses gt danse danser A chaque mot compos H H On associe l ensemble Vu de ses lemmes Etant donn e cet ensemble de classes U et V il existe diff rents modes de recherche OU ET A chacun d eux est associ un crit re de s lection du document OU il doit exister dans le texte
365. ts compos s m me si elle apporte une nouvelle analyse cr e de nouvelles ambiguit s En effet la phrase 1 est naturellement ambigu L analyse des mots simples pomme de et terre du mot compos pomme de terre doit tre conserv e car sinon on ne peut plus analyser 1 comme 1b Supprimer ces analyses revient faire un choix d interpr tation ex r gle de la s quence la plus longue qui est une approximation au m me titre qu une approche statistique J Senellart 1999b 1 Le chef recouvre la pomme de terre La Le chef recouvre la pomme de terre 1b Le chef recouvre la pomme de terre Dans l interpr tation a c est le l gume pomme de terre que l on recouvre L objet permettant de le recouvrir est omis Dans b c est le fruit pomme que l on recouvre avec de la terre L ambigu t ne peut tre lev e au niveau syntaxique il faut un contexte autour de cette phrase L analyse lexicale par consultation des dictionnaires engendre l automate suivant 29 recorre T COUVIEr V z21 P1s P35 815 83 Figure 4 Analyse lexicale de la phrase le chef recouvre la pomme de terre Comme le montre clairement les automates l analyse automatique de textes est rendue ardue du fait de l ambigu t colossale de la langue La lev e d ambigu t est donc fondamentale Certains chercheurs proposent de r soudre partiellement ce
366. ue Les grammaires locales susceptibles d tre stock es dans la biblioth que sont construites l aide des diteurs de graphes d Intex et d Unitex Les deux formats sont tr s proches mais leur syst me de codage des caract res est diff rent Unitex utilise le codage Unicode 3 0 standard UTF 16 Little Indian 1 caract re 2 octets et Intex utilise un codage ASCII 1 caract re 1 octet On peut aussi imaginer que l on veuille utiliser des grammaires d un autre type telles que les grammaires alg briques dans un format de fichier particulier Afin d avoir des proc dures de traitement les plus efficaces possibles nous d cidons de repr senter les grammaires de mani re standard dans notre syst me Nous gardons une copie de chaque grammaire dans sa version d origine pour que cette derni re puisse tre utilis e dans le logiciel pour lequel elle a t construite Cela tant dit il est n cessaire de normaliser les grammaires en se ramenant une repr sentation la plus proche possible de la th orie et en supprimant les informations inutiles Les formats choisis sont les plus puissants A nsi nous d cidons de coder les caract res en Unicode afin de pouvoir traiter toutes les langues Le processus de conversion d une grammaire ASCII en une grammaire Unicode ne pose pas de probl me majeur car il existe des proc dures tablies Les grammaires sont repr sent es sous la forme de RTN Dans le cas o l on veuille
367. ue la Guadeloupe Max est dans l le Maurice Cependant l interdiction n est pas nette et nous consid rons tous ces cas acceptables Le nom r gion a un comportement tr s sp cifique En effet la pr position en ne peut s employer avec toutes les structures nominales Les structures nominales comprenant la pr position de ne peuvent pas se combiner avec cette pr position locative alors qu elles autorisent la pr position dans L a est en r gion Nord Pas de Calais Midi Pyr n es Ile de France L a est en r gion de le Nord Pas de Calais le Midi Pyr n es Ile de France Cette restriction n est pas valable pour les autres classifieurs acceptant la pr position en Luc est en vall e d Aspe Luc est en mer de Cor e Concr tement nous avons extrait de nos tables de noms propres tous les classifeurs nous en comptons environ 70 en ajoutant quelques variations lexicales Pour chacun d entre eux nous avons syst matiquement regard et cod sa distribution pr positionnelle dans la table syntaxique PNNpr dont nous donnons un chantillon ci dessous 90 A terme le nombre de classifieurs va augmenter au fur et mesure que le nombre de noms propres augmentera 91 A A A gt A d e BE Par exemple la classe des villes est aussi s lectionn e par les classifieurs village commune station baln aire etc 154
368. ue Les applications du TAL telles que la traduction automatique la reconnaissance vocale et la synth se vocale combinent ces deux processus La g n ration est plus difficile car l entr e est abstraite et non standardis e donc difficile cerner L Danlos 1985 2000 L analyse part quant elle de donn es concr tes connues Notre travail se situe dans le domaine de l analyse automatique de textes qui malgr la relative facilit compar e la g n ration n est pas une mince affaire Une application typique de l analyse est la recherche automatique de documents dans une base de donn es textuelles Etant donn e une requ te soit une s quence de mots cl s le plus souvent des noms il s agit de trouver les documents les plus adapt s la requ te en tenant compte de r alit s linguistiques et des connaissances du monde La recherche documentaire utilise des techniques linguistiques comme l indexation des textes la lemmatisation des mots du texte ex remplacer une forme conjugu e par sa forme l infinitif l utilisation des synonymes la lev e d ambiguit Cette derni re permet par exemple d liminer des index les mots grammaticaux initialement ambigus avec des mots pleins ex or L analyse pr sente un probl me majeur comment repr senter le r sultat de mani re rigoureuse et formelle D abord l analyse et la repr sentation de son r sultat d pendent de l application que l on veut
369. ue ce graphe ou du moins la partie droite du verbe tre on constate que le bruit est tr s important car le contexte d analyse est tr s local Nous donnons ci dessous quelques exemples d erreurs que l on retrouve dans les textes pr positions s lectionn es par le verbe de la phrase entreprises avaient contribu en 1993 la campagne lectorale party de adieu dans une cabine adoss e la montagne analyse trop courte du groupe nominal un s jour dans l Ouest canadien dans la r gion de Cariboo Chilcotin jeudi 17 mars le petit matin dans la r gion toulonnaise ont t nombre de personnes inscrites l ANPE dans la r gion Ile de France ne collision sur le Rhin un naufrag n mer de le Nord et de les autre les enseignants a propos S De ville en ville et de cha ne en cha ne 164 4 5 Un nouveau systeme de conversion des tables en graphes 4 5 1 Pr liminaires 4 5 1 1 Rappels sur la m thode standard de conversion Nous rappelons bri vement la m thode standard de conversion Comme nous l avons d j utilis e pr c demment sous la forme d exemples nous la d crivons de mani re formelle pour tre coh rent avec la suite L objectif est de convertir une table en automates finis usuellement appel s graphes dans la communaut RELEX l aide d un automate ou graphe de r f rence ou automate param tr Formellement un au
370. uences dans une autre grammaire que celle d crivant les r ductions nominales de nos phrases de base Nous tenons compte uniquement des formes dans lesquelles le Ng est effac du type E les 10 cm de corde Nous donnons ci dessous le graphe DnumUniteDe r pertoriant l ensemble de ce type de d terminants nominaux 78 GNmesure longueur GNmesure surface GNmesure masse GNmesure volume GNmesure moneta re GNmesure temps GNmesure longueurFinal GNmesure surfaceFinal GNmesure masseFinal GNmesure volumeFinal GNmesure monetaireFinal GNmesure tempsFinal lt E gt PreDnumPrep GNmesure longueur GNmesure surface GNmesure masse GNmesure volume GNmesure monetaire GNmesure temps GNmesure longueur GNmesure surface GNmesure masse GNmesure volume GNmesure monetaire GNmesure temps Figure 52 DnumUniteDe La structure b qui correspond au sch ma de phrase NO tre Prep N1 donne lieu une relative sujette la r duction suivante NO qui tre E Prep N1 Ce projet qui est E de grande envergure Cet homme qui est E a la rue NO qui tre E Prep un Ng de Dnum Unit la corde qui est E d une longueur de 10 m tres L eau qui est E une temp rature de 100 C L effacement du nom pr dicatif Ng dans la forme r duite est possible lorsqu il est possible dans la phrase de base Son tuyau est d une longueur de 10 m Son tuyau est de 10m Son tuyau de 10 m
371. uireGrapheCondens X X lt Gd getCFC X pour chaque Y e Vd Y compteur lt card Y pr d cesseurs degr entrant de Y finPour retourner Gd X finProc dure Proc dure SupprimerGrammaire X Gd X Initialisation X A lt EnsembleASupprimer X Gd SupprimerAutomates A finProc dure 206 Nous illustrons cet algorithme lorsqu il est appliqu sur exemple pr c dent Le graphe de d pendance de d part est le m me que pr c demment Ensuite on passe par l tape d initialisation consistant calculer le graphe condens de Gd et le nombre de pr d cesseurs pour chacun de ses sommets D apr s la figure ci dessous on constate bien que Gd est acyclique La premi re tape est tr s simple Z compteur est gal O donc on peut ins rer Z soit Z dans A partie gris e Puis on parcourt ses successeurs Son premier successeur est XI On d cr mente X1 compteur de 1 il devient nul Puis on traite r cursivement X Son compteur est gal 0 donc on ajoute X X1 A tape 2 On analyse ensuite son successeur X2 On d cr mente son compteur qui passe de 2 1 puis on le traite r cursivement Comme le compteur de X2 est non nul on retourne l analyse des successeurs de Z Le suivant est X2 X2 X5 On d cr mente son compteur de 1 et celui ci passe 0 Ainsi on peut l ajouter A qui devient Z X1 X2 X5 Puis on passe X3 qui est aussi ajout A tape
372. ulant le graphe de d pendance de la bibliotheque Examinons le cas b qui est nettement plus complexe Soit G la grammaire supprimer dans B G est d finie par son axiome de d part Z On dit qu un automate autg X est inclus dans G si et seulement si Z est d pendant de X A contrario si un automate autg X n est pas inclus dans G on dit qu il est ext rieur G Si aucun automate ext rieur G n est d pendant de l automate associ X inclus dans G X est dit strictement interne G Notre objectif est de supprimer tous les automates de G qui sont strictement internes G Comme pr c demment notre but est de garder la coh rence des cha nes de d pendance de la biblioth que On peut faire le parall le avec les probl mes de lib ration automatique des objets morts 4 dans un programme cf Garbage Collector dans la machine virtuelle de Java JVM Les sommets du graphe de d pendance correspondent dans ce cas l aux objets utilis s dans le programme Les arcs sont des r f rences entre ces objets Comme les objets peuvent se r f rencer les uns les autres circulairement le graphe peut tre cyclique Cependant les 133 La suppression d un sommet s implique aussi la suppression des arcs partant de s et des arcs atteignant s 134 Objets morts objets qui n ont plus d utilit dans la suite du programme 202 donn es initiales de ce probl me sont diff rentes du n tre En effet en entr e des proc
373. un argument N de cette phrase Dans ce cas l la relation s exprime par la construction suivante plus naturelle que la pr c dente Ni Vsup Adv Par exemple dans la phrase ci dessous Max a demand de bonne foi le r sultat du match de football Max demande le r sultat du match de football 4 Max est de bonne foi l adverbe de bonne foi appara t comme un modifieur de Max permutable dans la phrase Ainsi pour r sumer la relation entre un Adv et une phrase P No V Prep N Prep N peut s expliciter par la construction Que P N Vsup Adv Ces constructions ont t abondamment tudi es dans le cadre du lexique grammaire essentiellement lorsqu il s agit de formes fig es ou semi fig es non seulement en fran ais L Danlos 1980 M Gross 1996 mais aussi dans d autres langues portugais E Ranchhod 1989 4 2 2 Les compl ments pr positionnels locatifs 4 2 2 1 Notion de compl ment locatif Nous rappelons la structure des compl ments locatifs Prep Det N Modif Prep peut tre z ro Intuitivement pour qu il soit consid r comme locatif le nom t te N doit d noter un lieu Cependant il existe des cas o N est un lieu mais le compl ment n est pas locatif comme dans la deuxi me phrase des exemples tir s de A Guillet et C Lecl re 1992 Les Gaulois ont envahi Rome Rome est un lieu Les Gaulois ont vaincu Rome Rome est pris pour les Romains et donc non locatif Un crit re f
374. un ensemble d expressions quasiment impossible traiter sous forme de listes D Maurel 1990 J Baptista 1999 Ensuite il est possible de d crire les contraintes locales autour d un mot de mani re tr s fine Ainsi nous pouvons constituer des classes de mots compos s ayant un sens proche comme le graphe Station fig 8 Ce dernier graphe est un moyen de repr senter explicitement une des deux entr es lexicales de station 1 station E de ski et 2 station E de m tro J Senellart 1998 a construit des grammaires pour des noms d activit s telles que ministre E de l int rieur L tape suivante est de construire des constituants de phrases comme les groupes nominaux ou les groupes verbaux comme le montre M Salkoff 1973 pour construire une grammaire en cha ne du fran ais Afin de reconna tre automatiquement des expressions fig es dans les corpus J Senellart 1999b a labor quelques grammaires de groupes nominaux simples comme montr dans le graphe 15 ci dessous C Domingu s 2001 a regard le comportement de groupes nominaux contenant une coordination La constitution de grammaires compl tes reconnaissant les GN est l un des futurs enjeux du r seau RELEX Par ailleurs il existe des grammaires de groupes verbaux 2 Le symbole lt E gt d signe le mot vide 36 compos s en anglais M Gross 1999 et en francais M Constant et al 2002 S Paumier 2003 gt lt E
375. une majuscule A noter cependant qu il existe une m ta tiquette qui utilise des informations linguistiques lt DIC gt qui d signe tous les mots qui se trouvent dans le ou les dictionnaire s courant s L tude de ces diff rents cas montre clairement que les symboles terminaux utilis es dans les grammaires ne sont pas l mentaires Th oriquement il est toujours possible de se ramener des symboles atomiques en rempla ant explicitement chaque symbole ensembliste par l ensemble des unit s linguistiques qu il d signe Les symboles ensemblistes lexicaux qui contiennent un l ment lexical dans leur d finition par exemple lt maison gt ne repr sentent qu un ensemble restreints d unit s lexicales au maximum une quarantaine d l ments les verbes La proc dure propos e consiste juste supprimer la transition contenant ce symbole et la remplacer par autant de transitions qu il y a d l ments dans l ensemble Les symboles ensemblistes grammaticaux posent des probl mes d ordre pratique En effet prenons le symbole lt N gt qui d signe tous les noms L application de la pr c dente proc dure 21 Le format est le m me que celui d une entr e lexicale au format DELA B Courtois et al 1990 1 Dans Unitex l tiquette lt N Hum gt qui d signe tous les noms qui n ont pas le trait humain est autoris e Notre syst me ne traite pas ce type d tiquettes pour l instant 189 consi
376. up l union de deux grammaires La diff rence principale est au niveau des r gles automates Si un non terminal X de G existe d j dans B l union classique conduirait l union des deux automates associ s X dans G et B Si les deux automates sont identiques on obtient le m me automate Mais s ils sont diff rents l union diff re de l insertion car dans notre syst me aut X est une nouvelle version de autg X On souhaite seulement que aut X remplace autg X dans la biblioth que Par ailleurs le fait que aut X crase autg X a des effets de bord sur l union des deux alphabets terminaux et sur l union des alphabets non terminaux En effet certains symboles terminaux utilis s dans l ancienne version autg X et non utilis s dans le reste de la biblioth que peuvent avoir disparu dans la nouvelle version aut X Il en est de m me pour les non terminaux Ainsi l union des alphabets g n re du bruit des symboles non utilis s dans la nouvelle version de la biblioth que Nous n en tenons pas compte car il n influence en rien les autres proc dures D ailleurs les automates associ s aux non terminaux inutiles dans la nouvelle version de B pourront toujours int resser certains utilisateurs du syst me Par contre il est fondamental de tenir compte de ces effets de bord dans les vues partielles de la biblioth que qui ont besoin 199 d informations pr cises Ainsi si un symbole non terminal X existe d j
377. us de soit autour de soit Loc qui d signe n importe quelle pr position locative simple ou compos cf Chapitre suivant La onzi me colonne concerne l effacement de Prep NI dans la phrase de base Le figement de la s quence Prep1 N1 est cod dans la colonne 12 Le graphe PrepiNl altitude repr sente l ensemble des s quences fig es Prep NI du nom altitude Les propri t s de sym trie et de permutation sont respectivement donn es dans les colonnes 13 et 14 Les adverbes appropri s sont indiqu s dans la colonne 15 Les colonnes 16 et 17 concernent les transformations d adjectivation pal A B C D E a El dk L MN OU P a E E E E E AE 2 z om T a a gt 2 Si E at E 2 3 a E ms gt A 213 E S 5 2 E Ei a om 0 e a a om TT 3 Li E O 3 5 a 3 T Ai lo D ol e F 2 3 o 5 ojo m o Djl a sels sa Taja 2 SL SE pipa pu SiS Es ajs D EEN En E Se ke x e Ela aj a oi ol zz aj E E EN mi bi D Dm pd ll E BET Ut 251 Ka gt lolo gt CO E Oljoja a aja ele Es efaire gt lt E gt angle GNmesure angle j LL Lt F AS z SCH lt tre gt distance GNmesure lonqueur cAderapp distancel lt distant gt lt tre gt distance GNmesure temps Aderapp distance2 lt distant gt lt tre gt auteur Ghimesure lonqueur E 3 lt tre gt
378. us repr sentons de tels nombres dans le graphe FormuleScientifique ci dessous Le symbole devant est un symbole de d sp cialisation Le symbole lt E gt est le mot vide 30 Nous ne regardons que des textes bruts sans tenir compte de l enrichissement typographique 1 23 10 6 serait plut t crit 1 23 10 44 e Chis i Chiffre CSS W Chiffre 4 4 PantieDecimale lt E gt Figure 22 FormuleScientifique 3 2 2 3 Les d terminants nominaux num riques Nous regardons maintenant les d terminants nominaux de la forme Det Nnum de o Nnum est un nom que l on qualifiera de num rique tel que milliers millions milliards Dix millions de personnes sont allergiques la poussi re Notons que le d terminant num rique dix avant millions peut aussi s crire en chiffres Det peut galement tre un d terminant ind fini pluriel 10 millions de personnes sont allergiques la poussi re Des millions de personnes sont allergiques la poussi re Il est galement possible d utiliser le modifieur num rique demi Un demi million de personnes sont allergiques la poussi re Nous d finissons les Nnum partir de sa possibilit d occurrence dans des multiples exacts de 10 million s milliard s billion s Cette plan te est 17 milliards d ann es lumi re de la Terre des sous multiples de 10 dixi me s centi me s milliardi me s Ce robot a une pr cision d un
379. uvent se r sumer deux op rations insertion d une grammaire locale G dans la biblioth que B la suppression d une grammaire locale G d finie par un symbole non terminal incluse dans B Contrairement aux bases de donn es classiques ces op rations ne sont pas triviales L insertion pose certains probl mes du fait que G et B peuvent avoir un symbole non terminal en commun mais qui n ont pas les m mes r gles automates associ es lorsqu il y a conflit de noms Dans ce cas l ces automates n ont pas forc ment le m me contenu nouvelle version La suppression quant elle est une op ration complexe du fait que G peut tre strictement r cursive et qu elle peut contenir un symbole non terminal lui m me contenu dans une autre grammaire non incluse dans G Ce probl me ressemble beaucoup un probl me de lib ration automatique d objets dans un programme Nous aurons besoin de concepts de la th orie des graphes Une grammaire locale G peut tre ajout e B ou supprim e de B de deux mani res soit partiellement pr cis ment on ins re ou supprime l automate principal de la grammaire G sans ses sous automates soit on ins re ou supprime son automate principal et r cursivement tous ses sous automates Dans cette partie nous revenons bri vement sur la th orie des graphes et la notion de graphe de d pendance d une grammaire Enfin nous donnons les algorithmes d insertion de grammaires locale
380. vec m gt 1 la s quence de colonnes secondaires est obligatoire et le symbole i est redondant car il peut tre d termin en appliquant l automate A K K Comme exemple nous donnons le graphe de r f rence associ au syst me compos des deux tables M NNpr et M2 PNNpr Ces deux tables sont respectivement 0 et 1 s lectionn es Les variables sont donc form es de deux param tres indice de table et indice de colonne Exemple la variable 1 6 correspond Npr colonne 6 de M et la variable 2 3 correspond l acceptabilit de la pr position locative dans colonne 3 dans M2 Notons que nous n utilisons plus les lettres majuscules A B Z AA pour les indices des colonnes Figure 86 graphe de r f rence volu 4 5 2 3 Un nouvel algorithme Nous proposons maintenant une extension de l algorithme standard de conversion des tables syntaxiques en graphes Soit T lt Q Sp Aj ZUA s une collection de graphes To est le graphe de r f rence Pour i gt 0 T est le graphe associ la ligne i de AM L algorithme suivant construit automatiquement T partir de To et le syst me de tables 3 171 Pour toute ligne u de M T lt To copie A X constructionAutomate u M PH lt 2 calculTableHachage u M Pour toute transition t q a q e Ou Siae A Si a Oi j Mi est 1 s lectionn e ve PH i sinon a J i K
381. voir un adverbe locatif sera aussi tr s grande Certaines pr positions comme contre ou sur sont souvent des pr positions attach es des pr dicats du type Max proteste contre l inflation Luc fait une enqu te sur la vie mouvement e de Max Dans ces cas l l ambigu t est r solue naturellement par l analyse syntaxique de la phrase Quelques r sultats d taill s sont donn s dans la table ci dessous qui utilise les notations suivantes NO Nombre d occurrences NOL Nombre d occurrences emploi locatif ZNOL pourcentage d occurrences emploi locatif simple avant 51 fo JO devant 18 9 Ian contre 67 O 0 apr s Joe 2 2 Table 9 proportion d emplois locatifs des pr positions dans avant devant sur contre apr s derri re sous dans notre corpus Ci dessous nous donnons un ensemble d exemples trouv s dans les textes o la pr position reconnue n a pas un emploi locatif Noms compos s apr s guerre apr s midi adverbes fig s ou semi fig s avant tout avant la fin de l ann e dans le m me temps dans les mois venir dans ces conditions 123 adverbes libres dans un h breu limpide pr d terminants dans la limite mensuelle de 1 000 francs pr positions d un argument d un pr dicat Furieux devant l ent tement de le jeune douanier un recours hi rarchique devant le garde de les sceaux contre le juge a lanc une croisade nat
382. vons syst matiquement tudi le comportement de ces phrases selon les valeurs lexicales de ses l ments Les faits observ s ont ensuite t repr sent s formellement soit directement dans des graphes l aide d un diteur soit par l interm diaire de tables syntaxiques ensuite converties semi automatiquement en graphes Au cours de notre travail nous avons t confront des syst mes relationnels de tables syntaxiques pour lesquels la m thode standard de conversion due E Roche 1993 ne fonctionnait plus Nous avons donc labor une nouvelle m thode adapt e avec des formalismes et des algorithmes permettant de g rer le cas o les informations sur les graphes construire se trouvent dans plusieurs tables En ce qui concerne le deuxi me probl me nous avons propos et implant un prototype de syst me de gestion de grammaires locales une biblioth que en ligne de graphes Le but terme est de centraliser et de diffuser les grammaires locales construites au sein du r seau RELEX Nous avons con u un ensemble d outils permettant la fois de stocker de nouveaux graphes et de rechercher des graphes suivant diff rents crit res L impl mentation d un moteur de recherche de grammaires nous a galement permis de nous pencher sur un nouveau champ d investigation dans le domaine de la recherche d information la recherche d informations linguistiques dans des grammaires locales Mots cl s analyse automati
383. x des Pyr n es Atlantiques La grande gare Montparnasse La position M2 dans le groupe nominal sans pr position de est interdite La mer tr s pollu e qu est la M diterran e la mer tr s pollu e M diterran e la tr s pollu e mer M diterran e La position M2 est stylistiquement r serv e des modifieurs tr s courts La ville o Marie a v cu toute son enfance de Venise La ville inoubliable de Venise 143 On retrouve les modifieurs longs la position M3 La ville de Venise o Marie a v cu toute son enfance Le cas des noms propres compos s fig s est quasiment similaire La seule diff rence r side dans le fait que l insertion d un modifieur en position M2 est la plupart du temps totalement interdite La mer E agit e du Nord attire beaucoup de touristes Max escalade le pic E dangereux du Midi 4 3 7 Codage des contraintes internes 4 3 7 1 Repr sentation sous la forme de tables Dans les sections pr c dentes nous avons montr un ensemble de contraintes au sein des noms propres compos s Nous les codons maintenant dans des tables syntaxiques o chaque ligne correspond une entr e lexicale i e un nom propre compos Nprc Nous construisons une table pour chaque classe de Nprc c est dire pour chaque classifieur Soit un classifieur X alors sa table syntaxique sera nomm e NNpr X Par exemple la table associ e au classifieur mer est la table NNpr mer Lorsque le classifieur est ambigu
384. xtraction des expressions locatives est facilit e par le fait qu une colonne de la table indique si l expression r pond la question en o Les entr es candidates sont donc celles qui ont un signe cette colonne Par ailleurs nous ajoutons les pr positions ne rentrant pas dans la construction Prep Det de comme face Les graphes construits dans la section sur les expressions de mesure et repr sentant des pr positions locatives sont galement int gr s l ensemble des graphes des pr positions compos es Par ailleurs une bonne proportion des pr positions compos es extraites de ces listes peuvent tre transform es en adverbes fig s par effacement du groupe nominal libre Max est l ouest de Paris E Luc est l int rieur c t de la maison E Certaines n acceptent pas cette transformation d effacement Max est en bord de fleuve E Cette propri t a t cod e par M Gross dans la table EPCDN dans une colonne Comme pr c demment nous extrayons manuellement les entr es candidates Nous compl tons nos listes par celles donn es par D Le Pesant 2002 Les pr positions compos es permettent de localiser pr cis ment NO par rapport N1 mais cela n emp che pas que certaines soient ambigues Max est au bord du suicide fleuve O est Max Au bord du suicide fleuve Cette sc ne est la limite du supportable O est cette sc ne la limite du supportabl
385. yo Nederhof M J 2000 Practical experiments with regular approximation of context free languages Computational Linguistics 26 1 Nuutila E Soisalon Soinninen A 1993 On finding the strong components in a Directed Graph TKK report Oflazer K 1996 Error tolerant finite state recognition with applications to morphological analysis and spelling correction Computational linguistics 22 1 Outilex 2002 http www telecom gouv fr rntl A AP2001 Fiches_Resume outilex htm Paumier S 2000 Nouvelles m thodes pour la recherche d expressions dans de grands corpus In A Dister ed Actes des Troisi mes Journ es Intex Revue Informatique et Statistique dans les Sciences Humaines Li ge Universit de Li ge Paumier S 2002 manuel d utilisation d Unitex http www igm univ mlv fr unitex Paumier S 2003 De la reconnaissance de formes linguistiques l analyse syntaxique Th se de doctorat en informatique Universit de Marne la Vall e Pereira F Wright R N 1991 Finite state approximation of phrase structure grammars 29fh Annual Meeting of the Association for Computational Linguistics Berkeley CA Pereira F Wright R N 1997 Finite state approximation of phrase structure grammars In E Roche Y Schabes eds FiniteState Language Processing MIT Press Cambridge MA Pierrel J M 2000 Ing nierie des langues Herm s science Paris 230 Piton O Maurel D 1997 Le traitement informatique d

Download Pdf Manuals

image

Related Search

Related Contents

User guide Bedienungsanleitung Guide d'utilisation - appro  Victor Enterprise 1260-3 User's Manual  CORTADORAS MEZCLADORAS CUTTERS  パワーコンディショナ  User Guide for SipXML2Score - Home page of Jan J. de Kloe  FCC ID: V3J-JL04  デウォルト電動工具 取扱説明書 DW341K 550W 電動式ジグソー  取扱説明書|お部屋を見守るライブカメラ HS3LC2(基本編):マスプロ電工  Instruction Manual 10234  

Copyright © All rights reserved.
Failed to retrieve file