Home
Grammaires Locales: Principes, Modélisation et Utilisation1
Contents
1. rase j Es i TER t lt virevolter Y K Loc virevolter WP35 C35 135J35 F35 gt FIG 4 1 Exemple de sous graphe g n r Unitex pour la table 31H 9 10 FLTR 2620 Grammaires Locales Pierre Lison 21 d cembre 2004 Bibliographie Constant 03 Matthieu Constant Grammaires locales pour l analyse automatique de textes PhD thesis Fairon 99 Fairon 04 Gross 75 Gross 84 Gross 96 Gross 97 Grune 02 Jurafsky 00 Klavans 96 Maurel 90 Paumier 03 Paumier 04 Russell 03 Watrin 03 Wolper 91 Woods 70 Universit de Marne la Vall e 2003 C Fairon amp J senellart Classes d expressions bilingues g r es par des transducteurs tats finis dates et titres de personnalit Linguistique contrastive et traduction 1999 C drick Fairon Anne Dister amp S bastien Paumier Notes et transparents du cours in troduction au traitement des langues naturelles Universit Catholique de Louvain 2004 Maurice Gross M thodes en syntaxe Hermann 1975 Maurice Gross Une classification des phrases fig es du fran ais In C Muller P Attal editeur De la syntaxe la pragmatique John Benjamins Amsterdam 1984 Gaston Gross Les expressions fig es en fran ais noms compos s et autres locutions Collection l essentiel fran ais Ophrys 1996 Maurice Gross The construction of local grammars In E Roche amp Y Schab s edi
2. autres cat gories grammaticales noms pr dicatifs adverbes adjectifs ainsi qu d autres langues italien espagnol portugais alle mand cor en malgache grec hongrois chinois Terminons ce tr s rapide survol du lexique grammaire par deux remarques g n rales L approche de Maurice Gross est essentiellement empirique il construit son mod le partir d exp riences linguistiques pr cises et rigoureuses en cherchant viter toute g n ralisation abu sive Elle ne peut videmment tre fructueuse que sur le long terme elle exige en effet un investisse ment consid rable de ressources humaines pour l laboration de tels inventaires linguis tiques 3 10 Grammaires Locales FLTR 2620 Pierre Lison 21 d cembre 2004 1 3 Grammaires locales Nous venons de parler des expressions fig es et du r le important qu elles occupent dans la langue On peut en effet observer des distributions contraintes sur de nombreux mots Prenons quelques exemples directeur de compagnie th se conscience chocolat pomme e verte de terre Le 13 Mars prochain 1995 ampoul Rappelons la d finition des expressions fig es de Gross 96 Unit s polylexicales pr sentant un caract re fig d finies selon deux types de contraintes syntaxiques libert restreinte et s mantique opacit Nous pouvons faire cet gard quelques commentaires Certain
3. ons notre discussion des grammaires locales par un rappel de quelques notions fon damentales des langages formels grammaires automates transducteurs Ensuite nous examinons l ad quation des mod les bas s soit sur des grammaires hors contexte soit sur des automates finis pour l analyse des langues naturelles et les probl mes qui peuvent se poser dans chaque cas Enfin nous d taillons la solution m diane choisie pour les grammaires locales les R seaux de Transitions R cursifs RTN Recursive Transition Networks 2 1 Types de grammaires formelles Formellement une grammaire est un quadruplet G V R S avec V est un alphabet ensemble fini de symboles X C V est l ensemble des symboles terminaux symboles faisant partie de l alphabet sur lequel le langage g n r est d fini Bien s r V X est alors l ensemble des symboles non terminaux RC V x V est un ensemble fini de r gles ou productions SE V X est le symbole de d part A partir de cette d finition les grammaires sont habituellement divis es en 4 types appel es hi rarchie de Chomsky voir notamment Jurafsky 00 ou Russell 03 Type 0 Aucun restriction sur les r gles grammaticales Type 1 Grammaires sensibles au contexte Les r gles a p doivent satisfaire la condition a lt Cela signifie intuitivement que le membre de droite doit contenir au moins autant de symboles que le membre de gauche Typ
4. Grammaires Locales Principes Mod lisation et Utilisation Pierre Lison tudiant plison student fsa ucl ac be Universit Catholique de Louvain Facult de Philosophie et Lettres Centre de Traitement Automatique du Langage 21 d cembre 2004 1Ce travail a t r alis dans le cadre du cours Introduction au Traitement du Langage Naturel FLTR 2620 du Prof C drick Fairon durant l ann e acad mique 2004 2005 Grammaires Locales FLTR 2620 Pierre Lison 21 d cembre 2004 Table des mati res 1 Introduction 2 1 1 Le Traitement Automatique des Langues ua deu fie FRS eee 2 1 2 Le lexique grammaire TS NO A E aE E T S AN E N a E 2 1 3 Grammaires locales L 4 2 Mod lisation 5 2 1 Types de grammaires formelles aoaaa aa a 5 2 2 Automates et transducteurs 5 2 3 Grammaires et r cursivit 4 444 4444 eee eee 6 2 4 R seaux de transition r cursifs 7 3 Impl mentation 8 4 Applications 9 4 1 Conversion des tables du lexique grammaire 9 1 10 Grammaires Locales FLTR 2620 Pierre Lison 21 d cembre 2004 1 Introduction 1 1 Le Traitement Automatique des Langues On peut cat goriser les recherches actuelles en Traitement Automatique des Langues suivant deux grandes tendances Les approches symboliques se basent sur des descriptions et des mod lisations explicites de la l
5. angue naturelle Les grammaires cat gorielles tats finis d unification de d pendance font ainsi partie de cette large cat gorie Elles partent d hypoth ses et de m thodologies tr s diverses depuis l utilisation de simples automates l impl mentation de mod les sophistiqu s mais ont toutes en commun le recours des ressources linguistiques plus ou moins fines Les approches statistiques n utilisent au contraire que peu ou pas d informations linguistiques explicites mais construisent leurs mod les par apprentissage automatique partir de donn es contenues dans des corpus Ceux ci sont tiquet s manuellement par des linguistes et le syst me est ensuit entra n de mani re supervis e ou non supervis e analyser des textes La disam biguation des unit s lexicales s op re en d terminant la plus probable des interpr tations pos sibles Ces algorithmes sont dit robustes car ils sont suppos s capables de fonctionner avec plus ou moins de succ s sur n importe quel texte Notons que des approches hybrides existent galement et semblent avoir quelque succ s Klavans 96 Un crit re de mesure important pour l valuation de ces approches du point de vue de la qualit de leur analyse syntaxique est la notion de couverture Jurafsky 00 il s agit du pourcentage d analyse selon des codes de cat gories grammaticales pr alablement d finis d unit s lexicales correctes pa
6. ar Q 0 1 2 3 4 I 0 4 E a b O2 c O1 I 0 4 F 3 4 et S 0 Quelques exemples de s quences recon nues et transform es ab O2 accb O10102 c 01 Notons que l analyse descendante des RTN n est garantie qu deux conditions La grammaire ne doit pas tre r cursive gauche La grammaire ne doit pas comporter de boucle sur le mot vide Dans Unitex voir chapitre suivant ces deux conditions sont v rifi es chaque passe et sig nal es corrig es le cas ch ant Formalisme extrait de Fairon 04 7 10 Grammaires Locales FLTR 2620 Pierre Lison 21 d cembre 2004 3 Impl mentation Un syst me de construction et d analyse des grammaires locales sous forme de RTN a t int gr dans Unitex Il est inutile de d crire ici l ensemble des fonctionnalit s de ce logiciel nous vous renvoyons Paumier 04 Contentons nous d en d gager l essentiel Unitex est un logiciel de traitement de corpus utilisant trois types de ressources linguistiques Des dictionnaires lectroniques des mots simples et compos s associant chaque entr e 1 un lemme et 2 des codes grammaticaux s mantiques et flexionnels Le formalisme DELA est utilis Des grammaires sous la forme de RTN Celles ci peuvent tre construites et modifi es graphique ment par un diteur de graphes Ces grammaires peuvent alors tre compil es et appliqu es des larges d
7. avaux sur la grammaire g n rative Chomsky a n ammoins point le probl me de la r cursivit du langage Celle ci se produit lorsque la d rivation d un non terminal contient le non terminal lui m me comme dans Nominal NominalPP En 1959 il a prouv qu un langage hors contexte L ne pouvait tre g n r par un automate fini que si et seulement si il existe une grammaire hors contexte g n rant L dont les r gles ne contiennent aucune r cursion centr e de type a Ap La pertinence de l argument de la r cursivit est discutable Ainsi on peut facilement observer qu une phrase utilisant plus d une ou deux imbrications devient rapidement incompr hensible La femme dont le portefeuille qui tait fourni a t vol est triste Pratiquement le langage ne serait donc pas infini Prenons l exemple de l analyse morphologique pour chaque mot reconnu par le transducteur celui ci produirait alors en sortie le lemme et la cat gorie grammaticale du mot 6 10 Grammaires Locales FLTR 2620 Pierre Lison 21 d cembre 2004 2 4 R seaux de transition r cursifs La solution utilis e par Paumier 03 pour r gler le probl me de la r cursivit est l utilisation d un mod le qui ressemble un mod le tats finis mais qui est isomorphiquement quivalent une grammaire hors contexte Ce mod le s appelle le r seau de transition r cursif RTN invent par Woods 70 Un RTN est d fi
8. c l impossibilit de g n raliser na ve ment ceux ci Gross 75 1On peut se convaincre intuitivement des probl mes li s une telle formalisation en examinant le r sultat des r gles transformationnelles passivation pronominalisation n gation appliqu es certaines phrases pourtant tr s simples l exemple provient de Watrin 03 1 Ce probl me concerne Luc pussivation Luc est concern par ce probl me 2 Ce probl me regarde Luc passivation LUC est regard par ce probl me 2 10 Grammaires Locales FLTR 2620 Pierre Lison 21 d cembre 2004 Un des travaux les plus connus de Maurice Gross concerne l tude de la syntaxe du verbe En r pertoriant les comportement syntaxiques sujet nombre et types de compl ments admis de 5 000 verbes simples du fran ais il obtient environ 15 000 emplois diff rents qu il encode dans des grandes matrices les fameuses tables du lexique grammaire regroup s selon leur structure d finitionnelle Les lignes de ces matrices sont les emplois de verbes et les colonnes les propri t s syntaxiques ex MVentreNietN Un signe indique que l unit lexicale accepte cette propri t et indique qu elle ne l accepte pas y z g a LETTRE F LE gE EIEEEI H EFRR RETTERE EET a ee LrLLZAN gt IEZZZZzZzZz ZT TA gt iE iiil gt prk kiir g z245 ZRLLzzz LzLZ2222 2z t accrocher Max a accroch une branche avec son hame
9. e 2 Grammaires hors contexte Toutes les r gles doivent avoir la forme p o V X Intuitivement cela signifie donc qu une grammaire est hors contexte si le membre de gauche de chaque r gle est constitu d un seul symbole non terminal Type 3 Grammaires r guli res Toutes les r gles doivent avoir une des deux formes suivantes A wB ou w avec A B V Yet w x La relation entre ces 4 types de grammaire est bien s r la suivante T ype3 C Type C T ypel C T ype0 2 1 2 2 Automates et transducteurs Un automate fini d terministe est d fini par le quintuplet M Q s F o Q est un ensemble fini d tats est un alphabet Q x 2 Q est la fonction de transition s Q est l tat initial F C Q est l ensemble des tats accepteurs Cette formalisation est tir e de Wolper 91 et de Grune 02 5 10 Grammaires Locales FLTR 2620 Pierre Lison 21 d cembre 2004 Un automate peut donc tre vu une machine qui r sout un probl me c est dire qui reconnait un certain langage Il peut tre repr sent par un graphe o chaque tat est repr sent par un sommet et chaque relation de trensition par un arc tiquet Ainsi pour tout p q Q et o X tel que p o q on trouve un arc tiquet par o reliant les sommets p et q FIG 2 1 Exemple d automate Ici Q q0 q1 q2 2 0 1 F q1 et qo est l tat initial Q
10. es expressions sont strictement fig es ex pomme de terre on peut en fait les classi fier comme mots compos s sans aucun perte de g n ralit Par contre d autres ne sont que partiellement fig es elles n acceptent pas n importe quel compl ment on voit clairement ap para tre des contraintes s mantiques mais offrent une certaine lattitude on pourrait ainsi parler du directeur de la petite compagnie du directeur de la th se de doctorat On les appellera expressions semi fig es Pour certaines expressions telles les dates voir notamment Maurel 90 il para t impossible de r pertorier individuellement l ensemble des constructions possibles la combinatoire rend en ef fet le nombre de celles ci trop important Une repr sentation sous forme d automates est bien plus efficace D autres ph nom nes linguistiques locaux gagneraient galement tre trait es via des auto mates plut t que par des listes d num ration et ce plusieurs niveaux Au niveau morphologique par exemple les formes fl chies des noms et verbes peuvent tre tr s ad quatement formul es avec des transducteurs Idem pour le d coupage du texte en phrase via l analyse locale de la ponctuation des majuscules et de quelques autres crit res Les grammaires locales permettent de r aliser ce genre de traitement Nous pouvons les d finir comme un formalisme simple permettant d analyser avec pr cision des ph nom n
11. es locaux flexion de mots fin de phrase expression fig es ou semi fig es Les grammaires locales sont aussi appel es grammaires lexicalis es dans le sens o elles font appel des ressources linguistiques telles que les dictionnaires lectroniques pour leur fonctionnement En combinant de mani re coh rente plusieurs d entre elles il devient possible d effectuer une anal yse syntaxique de haute pr cision sur de nombreux corpus Ceci peut tre utilis par exemple pour la difficile t che de lev e d ambiguit s en largissant le contexte du mot probl matique aux unit s lexicales qui l entourent on peut le d sambiguiser Il nous est impossible de discuter ici en d tail de toute l argumentation linguistique d ploy e par Maurice Gross pour d montrer la n cessit d utiliser de telles grammaires Le lecteur int ress pourra utilement se r f rer Gross 97 Notons aussi que Paumier 03 a montr qu il tait possible de convertir efficacement les tables du lexique grammaire en graphes param tr s offrant ainsi la possibilit d analyser des phrases libres et d en extraire le pr dicat et les arguments De nombreuses probl mes l analyse du GN pour ne citer qu un exemple doivent n ammoins tre r solus avant d envisager une analyse syntaxique compl te et exacte de toutes les phrases du fran ais 4 10 Grammaires Locales FLTR 2620 Pierre Lison 21 d cembre 2004 2 Mod lisation Nous commen
12. ni par ensemble de graphes semblables ceux d un automate fini o chaque arc contient un noeud terminal ou non terminal La diff rence par rapport un FSA se situe au niveau du traitement des non terminaux le RTN traite chaque non terminal comme une sous routine Cette approche permet notamment de sup primer les appels r cursifs se situant un trop grand ie humainement incompr hensible niveau de profondeur Les RTN sont donc utilis s pour prendre une expression de Jurafsky 00 comme une sorte de m taphore graphique de grammaires hors contexte Comme nous l avons fait pour les FSA nous pouvons galement tendre les RTN pour obtenir la possibilit de produire des symboles en sortie Nous les appelerons des transducteurs RTN On peut les d finir formellement par un n uplet M Q I s F o Q est un ensemble fini d tats I est l ensemble des tats sous initiaux tat qui tiquette au moins une transition du transduc teur RTN et repr sente donc un appel r cursif au sous RTN est un alphabet de symboles complexes Chaque symbole est constitu d une paire i o avec i un alphabet d entr e T et o un alphabet de sortie O Donc C I x O Q x UTU e gt Q est la fonction de transition s Q est l tat initial F C Q est l ensemble des tats accepteurs ue r cursif l tat 0 Axiome 3 FIG 2 2 Un transducteur RTN Il est d fini p
13. on agripper Paul aSagripp Sle bras de Marie ausculter t tte Max aSauscult Sles bronches de Luc baffer Max af baff SL a baiser ttt o ai ai is a en e Max baise la main d Ida battre S aE Le sabre bat les cuisses de Luc b coter t MaxSb coteSles joues de L a biser HE je tt Este sr els Max a bis Ida bouchonner Max aSbouchonn Sson cheval boxer t Maxa box Luc sur le nez branler Fee t tes ess Ida branle Luc branler E MaxS branleSla t te brutaliser Max SbrutaliseSIda caresser t Max caresse la peau d Ida chatouiller t t 4 Max chatouille Ida dans le dos chevaucher t Max chevauche une jument cingler t t 4 4 Max a cingl Luc E de trois coups de fouet claquer ttt Max aSclaqu SLuc au visage cogner Max a cogn Luc couper t 4 4 4 Le vent coupe le visage couper ttt t tt Max coupeSLuc au doigt couronner Sa chute a couronn les genoux de Max cravacher EE S E Max cravache son cheval embrasser 44 FEAE Max Sembrasse L a sur la bouche empoigner Max aSem
14. onn es textuelles pour l tablissement de condordances Des tables du lexique grammaire sous la forme de matrices cfr notre introduction La particu larit d Unitex est de pouvoir g n rer automatiquement des graphes param tr s partir de ces tables Logiciel libre sous licence GPL il est t l chargeable l adresse http www igm univ mlr fr unitex lequel angues lesquels auxaites aaj de les unes FIG 3 1 Exemple de graphe Uni tex utilis pour le pr traitement de textes 8 10 Grammaires Locales FLTR 2620 Pierre Lison 21 d cembre 2004 4 Applications On peut trouver dans Constant 03 un aper u des applications d velopp es par le r seau RELEX sur le formalisme des grammaires locales que nous r sumons ici D coupage du texte en phrase via l analyse de la ponctuation des majuscules et de quelques autres crit res locaux G n ration automatique de formes fl chies des noms verbes adjectifs via des r gles morphologiques simples tiquetage lexical de texte sur base de dictionnaires lectroniques DELA extraction d information tels que l extraction de noms propres ou la cr ation de patrons d extrac tion voir Watrin 03 filtrage d information sur la base de crit res pr alablement d finis Lev e d ambiguit via l utilisation de batteries de transducteurs voir le syst me ELAG int gr dans Unitex T
15. poign Sla bouteille par le goulot enlacer tta t Max enlace Ida dans ses bras peronner HAS D Luc peronneSson cheval pouser La robeS pousefles formes de L a treindre MaxS treintSlda dans ses bras triller TAE CRE 4 4 4 Mav trillaSenn rhaval FIG 1 1 extrait de la table 32CL du lexique grammaire De ces observations Maurice Gross tire une conclusion limpide les verbes du fran ais poss dent des comportements syntaxiques quasiment uniques et il devient donc impossible de les pr dire partir de r gles g n rales seule l accumulation syst matique au sein d un lexique des constructions syntaxiques possibles pour un pr dicat d termin est m me de rendre compte de la r alit de la langue et donc de permettre un traitement automatique pr cis de celle ci De plus il s aper oit galement de l importance essentielle qu y jouent les expressions fig es telles que y aller par quatres chemins ou tre mis la porte Il recense ainsi plus de 25 000 expressions verbales fig es Gross 84 et 20 000 expressions en tre et avoir Il en vient consid rer la phrase simple comme l unit lementaire de base non seulement au niveau syntaxique hypoth se d j pr sente chez Z Harris mais galement au niveau s mantique Toutes ces analyses ont t tendues avec le m me r sultat d
16. r rapport au jugement humain sur celles ci Les meilleurs taggeurs atteignent pour l instant des pourcentages de couvertures d environ 96 97 pour des codes grammaticaux simples Chiffre prendre avec des pincettes bien s r vu le nombre de facteurs externes pouvant influencer ce r sultat Dans le cadre de ce travail nous nous inscrirons dans une m thodologie appartenant la premi re cat gorie le lexique grammaire et nous pencherons sur un formalisme simple permettant de d crire avec pr cision certains ph nom nes linguistiques les grammaires locales 12 Le lexique grammaire Le lexique grammaire est une approche formelle transformationnelle et empirique de la linguis tique qui met en avant le caract re fondamental du lexique L objectif est de recenser exhaustivement et syst matiquement l ensemble des comportements syntaxiques des phrases simples Constant 03 Cette m thode labor e partir des ann es 70 au LADL Laboratoire d Automatique Documen taire et Linguistique CNRS par Maurice Gross et son quipe met donc l accent sur la n cessit d tablir des inventaires descriptifs syst matiques des faits linguistiques l oppos de la d marche chomskyienne d laboration d un mod le abstrait et universel du langage o la syntaxe se pose comme enti rement autonome de la lexicologie Les recherches de M Gross ont en effet d montr l irr gularit de nombreux ph nom nes linguistiques et don
17. raduction automatique vu l extraordinaire difficult de la t che les recherches actuelles s orien tent plut t vers des syst mes d aide la traduction voir par exemple Fairon 99 41 Conversion des tables du lexique grammaire Terminons ce travail par l examen du syst me de conversion des tables du lexique grammaire en grammaires locales int gr Unitex L impl mentation de celui ci est d taill e dans Paumier 03 et dans Paumier 04 La conversion d une table en graphes s effectue au moyen du m canisme des graphes param tr s Le principe est le suivant on construit un graphe qui d crit des constructions possibles Ce graphe fait r f rence aux colonnes de la table gr ce des variables On g n re ensuite pour chaque ligne de la tableune copie de ce graphe dans laquelle les variables sont remplac es en fonction du contenu des cellules situ es l intersection des colonnes correspondantes et de la ligne trait e Si une cellule de la table contient le signe la variable coresspondante est remplac e par lt E gt Si la cellule contient le signe la bo te contenant la variable correspondante est supprim e ce qui d truit du m me coup les chemins passant par cette bo te Dans tous les autres cas la variable est remplac e par le contenu de la cellule sn y iHa a E A CHIN virevolter 7 vecu Jon EA i pee O Loc LreervrCurE ejha cum Wami mee m ie 1e G
18. teurs Finite State Language Processing Language Speech and Communication chapitre 11 pages 329 354 MIT Press 1997 Dick Grune Henri E Bal Ceriel J H Jacobs amp Koen G Langendoen Compilateurs Dunod 2002 Daniel Jurafsky amp James H Martin Speech and language processing Prentice Hall 2000 Judith Klavans amp Philip Resnik The balancing act Combining symbolic and statistical approaches to language MIT Press 1996 D Maurel Adverbes de date tude pr liminaire leur traitement automatique Linguisticae Investigationes vol 14 no 1 pages 31 63 1990 S bastien Paumier De la reconnaissance des formes linguistiques l analyse syntaxique PhD thesis Universit de Marne la Vall e 2003 S bastien Paumier Unitex 1 2 Manuel d utilisation 2004 Stuart Russell amp Peter Norvig Artificial intelligence A modern approach Prentice Hall 2003 Patrick Watrin Entre lexique et syntaxe vers la cr ation de patrons d extraction Master s thesis Universit Catholique de Louvain 2003 Pierre Wolper Introduction la calculabilit Dunod 1991 W A Woods Transitive network grammars for natural language analysis Communica tions of the ACM vol 13 pages 591 606 1970 10 10
19. uant la fonction de transition elle est la suivante qo 0 q1 0 qo 1 qo 0 q1 0 q2 8 qi 1 q q2 0 q et 6 g2 1 q On peut facilement prouver voir par exemple Wolper 91 qu on peut faire correspondre chaque automate fini un langage r gulier ie g n r par une grammaire r guli re et invers ment Un automate tats finis finite state automaton ou FSA se contente de reconna tre les lements d un langage Un transducteur est un automate tendu permettant pour chaque tape de transi tion d galement produire un symbole en sortie Plusieurs formalismes existent prenons celui de la machine de Mealy Un transducteur tats finis est un quintuplet M Q s F o Q est un ensemble fini d tats est un alphabet de symboles complexes Chaque symbole est constitu d une paire i o avec i un alphabet d entr e T et o un alphabet de sortie O Donc C I x O Q x X Q est la fonction de transition s Q est l tat initial F C Q est l ensemble des tats accepteurs 2 3 Grammaires et r cursivit Quelle grammaire est la plus adapt au traitement syntaxique de la langue naturelle On peut ob server exp rimentalement que les transducteurs tats finis permettent de repr senter ad quatement de nombreux ph nom nes linguistiques flexion variantes phon tiques et lexicales ambiguit s Dans ses tr
Download Pdf Manuals
Related Search
Related Contents
Conditions générales d`accès et d`utilisation des Yamaha NAI48-ES Data Sheet 鋳鉄高送り用正面フライス FBP415型 取扱説明書 Room Air Conditioner Installation and Operation Manual CP Line Copyright © All rights reserved.
Failed to retrieve file