Home
Présenté par
Contents
1. Manuel d utilisation http intex univ fcomte fr downloads Manual pdf Unitex Logiciel http www igm univ mlv fr unitex download html Manuel d utilisation http www igm univ mlv fr 7Eunitex manuelunitex pdf Flemm http www univ nancy2 fr pers namer Telecharger Flemm htm TreeTagger Logiciel wWwWw ims uni stuttgart de projekte corplex TreeTagger DecisionTreeTagger ht ml Liste des Etiquettes Morphosyntaxiques http www ims uni stuttgart de schmid french tagset html Perl http www activestate com Products ActivePerl Rxp http www cogsci ed ac uk richard rxp html Page 105 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Annexes Page 106 Marie V ronique LEROI Glossaire Automate tat fini Type particulier de transducteur tat fini qui ne produit pas d information et qui ne consid re que les informations produites en entr e Actualisation L actualisation permet d inscrire un pr dicat dans son contexte Un verbe par exemple est actualis par sa conjugaison Un nom est actualis par l emploi d un verbe support Composition Proc d de formation de nouvelles unit s lexicales g n ralement oppos la d rivation partir d l ments lexicaux ayant une existence autonome dans la langue Mot compos mot contenant deux ou plus de deux morph mes lexicaux
2. A contrario 8000 constructions verbales seraient fig es L exemple suivant montre bien que le verbe l cher n est pas utilis avec le m me emploi que pr c demment Ex1 1 b Luc l che les bottes de Max M Gross estime donc qu ignorer ces constructions revient ignorer une bonne partie du langage Otto Jespersen a t l un des premiers linguistes aborder ce ph nom ne qu est le figement Dans son ouvrage Philosophy of Grammar 1924 il distingue deux principes dans les langues la libert combinatoire et le figement Cette mani re d aborder les langues conf re un caract re essentiel au processus de figement Weinrich 1969 accordait aussi une grande importance aux expressions fig es Il disait propos du figement Ce qui avait longtemps t consid r comme un ph nom ne marginal comme une s rie d exceptions se r v le tre en fait caract ristique des langues Page 10 Marie V ronique LEROI humaines naturelles Gaston Gross 198 1 surench rit en accordant la m me importance au ph nom ne des expressions fig es qu la double articulation d Andr Martinet 1967 A inverse certains auteurs ont tendance accorder une trop grande importance au ph nom ne en disant que tout est phras ologique Les nombreuses et diverses d finitions et d nominations qui ont t introduites par les diff rents auteurs et leurs ouvrages pour d crire ce m m
3. Ensemble des graphies repr sentant des mots autonomes bonheur 2 types d unit s Unit s appartenant Unit s n appartenant l ensemble A pas l ensemble A Majorit des unit s lexicales La plupart des mots compos s sur des mots simples Exemples Exemples Apr s midi Aujourd hui Porte bonheur Ex voto Page 49 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Figure 2 1 a Les diff rents types d unit s lexicales dans la conception des dictionnaires lectroniques du LADL Les diff rents dictionnaires lectroniques du LADL ou DELA sont au nombre de quatre Le DELAS d crit donc la morphologie et la flexion des mots simples le DELAC a pour objet la description des mots compos s le DELAF d crit les formes fl chies et les lexiques d riv s du fran ais le DELACF est g n r automatiquement partir du DELAC pour d crire les formes fl chies et compos es du lexique Ces diff rents dictionnaires lectroniques constituent les ressources sur lesquelles s appuient des logiciels tels que Intex ou Unitex dont nous d crirons le fonctionnement dans une prochaine section Ces dictionnaires que nous venons de d crire ne sont cependant pas les seuls disponibles En effet les versions num ris es des dictionnaires classiques initialement sur support papier re oivent galement l appellation de dictionnaires lectroniques La version informatis
4. s ries des unit s phras ologiques Les s ries phras ologiques sont des locutions o la coh sion des termes est relative C Bally les d finit comme suit Les l ments du groupe conservent leur autonomie tout en laissant voir une affinit vidente qui les rapproche de sorte que l ensemble pr sente des contours arr t s et donne l impression du d j vu Les unit s phras ologiques d signent des locutions o la coh sion des termes est absolue Une unit phras ologique est d finie de la mani re suivante par C Bally Page 12 Marie V ronique LEROI Une unit phras ologique repr sente un groupe de mots o les mots qui composent le groupe perdent toute signification et l ensemble seul en a un Cette signification doit tre nouvelle et non quivalente la somme des significations des l ments Il est possible de voir que le crit re intuitif est privil gi par Bally pour la distinction des locutions phras ologiques Henri Frei dans la Grammaire des Fautes publi en 1969 parle quant lui de brachys mie ou figement Ce terme est synonyme de bri vet s mantique Le m canisme de la brachys mie ou bri vet s mantique est le figement d un syntagme c est dire d un agencement de deux ou plusieurs signes en un signe simple La brachys mie bri vet s mantique se distingue de la brachylogie bri vet formelle Emi
5. Compositionnalit Compositionnel Une suite est dite compositionnelle si le sens de cette suite est d ductible partir des l ments composants reli s par une relation syntaxique sp cifique Concordance La concordance d une s quence est un index qui repr sente toutes les occurrences de cette s quence dans son contexte D figement Ce ph nom ne d signe la perte du caract re fig d une s quence donn e afin de cr er un effet humoristique Les d figements sont de deux sortes e Le d figement peut tre syntaxique ou s mantique la structure de la s quence fig e est modifi e de telle sorte que les lectures fig e et compositionnelle se superposent en cr ant une ambigu t e Le d figement peut se produire par contexte l emploi d une s quence fig e qui appara t dans un contexte inattendu cr e un d figement d l incidence du contexte sur cette s quence D limiteurs Signes ou symboles permettant de d limiter des unit s de base Les espaces les signes de ponctuation et les retours la ligne sont par exemple des d limiteurs Les d limiteurs utilis s par les programmes diff rent selon leurs besoins Etiquetage Op ration consistant attribuer une cat gorie morphosyntaxique tiquette une forme donn e d un corpus Page 107 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Figement e Le figement peut tre syntaxique
6. TAL N 2 pages 5 41 e HABERT B NAZARENKO A and SALEM A Les Linguistiques de corpus Armand Colin 1997 e HEID Ulrich FREIBOTT Gerhard Collocations dans une base de donn es terminologique et lexicale Meta 36 1 mars 1991 p 77 91 e LECLERE Christian Organisation du Lexique Grammaire des verbes fran ais Langue Fran aise 1990 N 87 Paris Larousse e LEHMAN Alise et MARTIN BERTHET Fran oise Introduction la lexicologie s mantique et morphologie 2000 Paris Collection Lettres Sup Nathan Universit e LE PESANT D MATHIEU COLAS M Introduction aux classes d objets Langages 1998 n 131 Larousse Paris e LINDBERG Lars Les Locutions verbales fig es dans la langue fran aise th se Upsal pour le doctorat par Lars Lindberg 1898 e MEL CUK Igor CLAS Andr POLGUERE Alain Introduction la lexicologie explicative et combinatoire 1995 Louvain la Neuve Editions Duculot Coll Universit s Francophones Page 100 Marie V ronique LEROI MEJRI Salah Le figement lexical descriptions linguistiques et structuration s mantique 1997 Publications de la Facult des lettres de la Manouba MISRI Georges Approches du figement linguistique crit res et tendances La Linguistique 1987 Vol 23 pages 72 85 Paris PIERREL Jean Marie Ing nierie des Langues ditions Hermes Science 2000 Collection Information Commande Communication 360 pag
7. Automatique des Langues TAL s av rent tre un obstacle non n gligeable pour les apprenants trangers du fran ais Le principal probl me pos par ce type d expressions est leur reconnaissance dans un corpus donn Un outil en traitement automatique doit tre en mesure de reconna tre ces s quences pour fournir une analyse correcte du texte Les crit res permettant de distinguer les s quences libres des s quences fig es varient autant que les diff rentes d nominations propos es par les auteurs Les locutions verbales que nous allons tudier plus pr cis ment dans ce travail posent davantage de probl mes car il est difficile de les reconna tre de mani re automatique dans la mesure o les verbes dans ces locutions connaissent les variations qui leur sont propres savoir la conjugaison l accord en genre et en nombre avec le sujet Les structures sp cifiques sont assez rares Un autre probl me qui se pose est celui de la discontinuit de ces locutions en effet certaines locutions verbales permettent l insertion de modifieurs et sont donc discontinues Nous verrons dans le cadre de ce travail que divers travaux men s pr c demment proposent des m thodes sp cifiques pour r soudre ces probl mes Nous tudierons plus pr cis ment le traitement propos par deux Page 7 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais outils qui permettent d analyser lexicalement et synta
8. Il ne s agit donc pas d une caract ristique propre aux locutions verbales Georges Bernard est un des premiers auteurs proposer des crit res de classement des locutions verbales L utilisation de deux principaux crit res permet d aboutir l mergence de quatre classes distinctes La possibilit ou non pour une construction donn e d avoir une expansion et la possibilit ou non pour cette construction de commuter avec une construction articul e constituent ces crit res de classement Ces diff rentes classes et les exemples donn s par Georges Bernard sont repr sent s dans le tableau ci dessous 2 3 b Exemples propos s par G Classes de Locution Verbales Bernard Porter plainte Locutions non commutables et satur es plier bagage l cher prise Donner lieu Locutions non commutables et non satur es faire main basse sur Locutions commutables et satur es Faire l appel 7 Locutions commutables et non satur es Faire l affaire de Tableau 2 3 b Classement des locutions verbales propos par Georges Bernard Le terme saturation est employ par Georges Bernard pour indiquer si la construction est m me de recevoir une expansion ou non Cette notion de saturation pourrait tre assimil e celle de transitivit En effet les constructions satur es sont constitu es du verbe et d un compl ment direct tandis que les constructions
9. cifique intitul Traitements Textuels Ce menu comme son nom l indique permet de proc der sp cifiques sur le fichier ouvert en entr e Le fichier ouvert en entr e figure sous l onglet Document Les menus Fichier Edition et Traitements Textuels se pr sentent donc de la mani re suivante Page 80 Marie V ronique LEROI Figure 1 2 a Verbalex Les menus Fichier Edition et Traitements Textuels Les ic nes qui apparaissent sur cette figure renvoient des fonctionnalit s disponibles dans les menus Les menus Fichier et Edition permettent respectivement de g rer l ouverture la fermeture et la sauvegarde de fichiers figurant sous l onglet Document et des fonctionnalit s classiques telles qu Annuler ou les fameux copier coller Figure 1 2 b i Verbalex Le menu Traitements Textuels Le menu Traitements Textuels est subdivis en deux sous parties La premi re partie comporte des op rations de recherche et de remplacement disponibles pour le Document La seconde partie permet de pr traiter le texte pour proc der au filtrage des locutions verbales Ce menu permet donc de proc der la recherche d un motif donn ou des remplacements Figure 1 2 b ii Verbalex Menu en cascade de l item Rechercher Les proc dures de recherche et de remplacement sont inclues dans la biblioth que de scripts Tk TextUndo disponible avec le module Tk Il n a don
10. e du TLF autrement dit le Tr sor de la langue Fran aise par exemple est un dictionnaire lectronique qui peut galement constituer une ressource pour des programmes en TAL Les dictionnaires lectroniques quels qu ils soient se pr sentent g n ralement sous la forme de documents balis s ayant pour cela recours des langages structure balisante tels que XML ou SGML afin d organiser et de hi rarchiser au mieux les informations selon leur pertinence Les dictionnaires issus de la pure tradition lexicographique aussi bien que les dictionnaires lectroniques poursuivent donc le m me objectif d crire au mieux les unit s lexicales d une langue Il s agit aussi du but vis par le Dictionnaire Explicatif et Combinatoire DEC 2 2 Le Dictionnaire Explicatif et Combinatoire DEC Le DEC ou Dictionnaire Explicatif et Combinatoire est un dictionnaire tout fait diff rent et particulier par rapport aux dictionnaires classiques Ce dictionnaire qui a pour auteur Igor Mel cuk avec la collaboration d Alain Polgu re et Andr Clas tente de concilier approche logique et formelle dans l tude des mots Ce DEC r sulte d une d marche purement lexicologique et se distingue des dictionnaires issus de la lexicographie Le DEC est le produit d une th orie part enti re il s agit de la th orie Sens Texte qui propose de partir d une repr sentation s mantique pour construire des arbres syntaxiques l aide du le
11. il est possible de pr dire le sens de la suite partir des l ments lexicaux qui la constituent Il ne s agit donc pas d une construction fig e Dans une s quence comme au parfum le sens n est pas compositionnel en effet rien ne pr dit que cette suite signifie tre au courant Il s agit donc l d un adjectif compos fig Les locutions adverbiales Les adverbes simples sont distinguer des adverbes complexes ou polylexicaux c est dire constitu s de plusieurs l ments lexicaux Ces adverbes complexes quand ils ont un fonctionnement r gulier peuvent tre reformul s par des paraphrases Ex 1 6 d Il marche rapidement Ex 1 6 e Il marche avec rapidit Les suites adverbiales fig es connaissent les restrictions communes aux expressions fig es la substitution synonymique est impossible ou limit e le l ments sont s mantiquement opaques C est le cas dans les exemples suivants Marcher reculons Boire tire larigot Les locutions pr positives et conjonctives Les pr positions introduisent des compl ments d un verbe transitif indirect Compl ment d objet indirect ou d un verbe deux compl ments Compl ment d objet second Les conjonctions introduisent des propositions compl tives Ces deux parties du discours ont donc un fonctionnement parall le Des expressions telles que au fur et mesure que locution conjonctive et l i
12. proc der l extraction Les informations morphosyntaxiques associ es chaque mot et fournies par l tiquetage sont donc essentielles pour proc der l extraction La lemmatisation permet de d finir des structures de base d nu es de toute variation pour chaque candidat Nous apporterons davantage de pr cisions sur ces op rations d tiquetage et de lemmatisation dans la section abordant la construction du programme Verbalex 1 2 3 3 LEXTER Didier Bourigault a d velopp en 1994 un logiciel visant l acquisition et l interpr tation de terminologie Cet outil nomm LEXTER a t construit la Direction des Etudes et Recherches d EDF afin de r pondre des besoins industriels bien pr cis Ce logiciel prend donc en entr e un corpus de langue fran aise D Bourigault consid re que les m thodes d extraction bas es sur des crit res de fr quence ne sont pas les plus appropri es et les plus efficaces pour l extraction de termes complexes En effet Bourigault estime que des m thodes caract re davantage linguistique seraient plus adapt es dans la mesure o elles font appel aux caract ristiques linguistiques et formelles du terme ce qui permet d obtenir les r sultats les plus pr cis possibles La m thode d extraction de terminologie utilis e par LEXTER se fonde donc sur une analyse syntaxique qui r pond divers principes Des calculs statistiques sont ensuite appliqu s aux r sultats pour davantage d
13. re de super h ros au service de la paix et de l harmonie entre les humains et les machines Dans le Japon de l re pr lectronique l image du robot au bon c amp 156 ur r pondait aux angoisses de la course la modernisation Elle recoupe aujourd hui les pr occupations des chercheurs nippons en qu te litt ralement d une robotique visage humain Un laboratoire de l universit des sciences de Tokyo tudie ainsi la restitution par un visage artificiel des expressions humaines Et celui de l universit de Waseda travaille sur les motions Les robots humano des font m me l objet d un programme du METI sur cinq ans qui a d but en 1998 et qui regroupe une douzaine de soci t s et autant d universit s Celles ci ont mis au point plusieurs robots capables de travailler dans des environnements dangereux pour l homme ou de piloter des engins de construction en tant manipul s distance Ces robots tel HRP 2 qui mesure 1 54 m et p se 58 kg qui est capable de se relever et d aider un tre humain transporter des objets pourraient servir de plates formes adaptables diverses applications industrielles Chez Sony l quipe de Toshitada Doi le cr ateur d A bo planche sur SDR 4XII un nouveau robot de divertissement de forme humano de qui pourrait bient t tre commercialis pour le prix d une voiture de luxe SDR est un petit robot 58 cm pour 7 kg qui fait office de compagnon de jeu Il est capable de chanter et de
14. www ling umontreal ca olst Fr DECFC html Informatisation du Dictionnaire Explicatif et Combiantoire Gilles S rasset GETA CLIP Actes de TALN 12 13 juin 1997 http www clips imag fr geta gilles serasset taln97 serasset pdf Biblioth ques d automates finis et grammaires context free de nouveaux traitements informatiques Mathieu Constant LADL RECITAL 2001 2 5 juillet 2001 http www 1li univ tours fr taln recital 2001 Actes tomel PDF partie4 p403 482 art3 p425 434 pdf Dictionnaire lectronique des mots compos s DELAC S bastien Paumier nt vi 1nt6lin u unis mlv fr DonneesLinguistiques Dictionnaires delac html Extraction terminologique avec Intex Ibekwe SanJuan Fidelia URI INIST 4 me Journ es Intex Bordeaux 11 12 juin 2001 http fidelial free fr intex01 paf Page 103 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais e Repr sentation et utilisation de connaissances dans un syst me d aide l apprentissage lexical Thierry Selva et Fabrice Issac http 1lifc unive fcomte fr RECHERCHE P7 pub JCSC96 JCSC936 html e Automates tats finis S Ratt http www seg etsmtl ca sylvie LO0G310 Cours Theme02 pdf e Grammaires r guli res http www univ nancy2 fr poincare perso rebuschi cours iup2 IUP coursOC 2 6 pdf e Automates finis et langage r gulier http www univ nancy2 fr poincare perso rebuschi cou
15. 1 PFREF4 LFCENez mwigine de D D co ren 1qu vcomonttaire hyper puissarr Irak Figures 3 2 c Unitex Dictionnaire des formes du texte int resse dans le cadre de ce travail produite par Unitex figure dans les Annexes Il est de nature nominale adjectivale ou adverbiale La liste des mots compos s qui apparaissent dans ce corpus cat gorie qui nous 9 possible de voir dans cette liste qu aucune locution verbale n appara t seules les suites fig es formes de ce texte ne comporte pas de locutions verbales La construction de l automate du texte pour ce corpus permet de voir que les Celle ci n aura sans doute pas lieu Teea PREP Pr p toist A A P hieer G h haa K j NHl Nr A 07 veu MO h ee ADY 1 AY PREP Propc aissd 7 N zlims Ne PR ea Top He Isart fs aus x Vous Val pps Sls s Y2s vos i VO vi AA PREP Pr pcosis 6 gt A feehi Aay P Ntrl ms mp PROH y 7 N rl ms mp Te A eiea LT PREP A es runs dete L PRON D sr al fs ADV CH Figure 5 3 2 d Unitex Automate du texte de la phrase Celle ci n aura sans doute pas lieu Page 76 Marie V ronique LEROI Il est possible de voir sur ce graphe que la suite adverbiale sans doute est bien consid r e comme une locution adverbiale par Unitex Cette locution appara t galement dans la liste des mots compos s en annexes Au travers de l application de ce co
16. Andr Dugas 1990 Dans le cas des dictionnaires lectroniques l utilisateur humain se substitue un ordinateur utilisateur Ces dictionnaires dans cette perspective ne constituent donc que des ressources d une utilit pr cieuse qui permettent l ex cution d un programme informatique Ces dictionnaires se pr sentent sous la forme de bases de donn es lexicales enti rement formalis es afin d viter toute ambigu t lors d un traitement automatique Les propri t s lexicales d finissant chaque entr e comportent les informations les plus pr cises et explicites possibles afin d viter l chec de la reconnaissance automatique Les dictionnaires lectroniques diff rent donc en de nombreux points des dictionnaires classiques N tant pas destin s tre utilis s par un tre humain ces dictionnaires doivent Page 47 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais donc tre aussi complets que possible Les informations donn es par ces dictionnaires doivent galement tre explicites les dictionnaires classiques n ont g n ralement pas la n cessit d tre explicites car ils font appel aux connaissances pragmatiques et l adaptabilit des utilisateurs Les informations fournies pas les dictionnaires lectroniques sont totalement cod es et exsangues d information d ordre s mantique savoir d indication de sens Ces informations sont en e
17. FST MERS wate r es Frerct erter e tot Let W Angi Tag Cet r estFrerct crit tx Set D Apoy FST in REPLADE mode roms French FRapiy e t Set Le Pr geacetorg rade wete le ete au loray INTE A l poque a hardana Part Care e wje Viage pas rodia l aq de t s de imde dara Le teste choa Du lit eut certe laut Que Garie bo fines Care gt ere E mar wn aaa pa Oppo A Are v Lec Png V Aspi AB Dietont Deinsa T Conshuet Taa FST Coca GO Figure 4 d Intex fen tre de pr traitement Un des transducteurs appliqu s au texte permet de segmenter le texte Il s agit du transducteur sentence fst Le graphe repr sent dans la figure ci dessous est au format grf Le transducteur replace fst permet de remplacer les d limiteurs superflus Cette proc dure permet d ins rer des caract res tels que S qui repr sentent un retour la ligne Page 59 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais ee a MAJ r gin no A PNC Le lt MIX gt PRE pi b NE J s S P Dupant k e 1 Dupon 14 vx Prof Dupane ds Fe l HLorreMai rh M Lettre htag pe MAI 1 MM h e reglenuuz Abo 17 IX Dr Abreviestinn ou sigle ex S NCJ lt PRE Ne pax pron s de final qui pout tre un s parations de p ratps r Lmtredaj LetunMag Muts Cumpases Aves Maj 2 i caract rei singulinr pt plurtel rogle na 3 l ments de doivent
18. Fran ois Rabelais http li univ tours fr taln re cital 2001 Actes tomel PDF partie2 p30 322 art09 p113 122 pdf D figements s mantiques en contexte Fran ois Rastier CNRS http www revue texto net Inedits Rastier Defigements html 0 e La cooccurrence en T A L Dis moi qui tu fr quentes et je te dirai qui tu es DelphineReymond DELIC Universit de Provence http www up univ mrs fr wpsycle ColloqueEcriture docinformatique reymond html e Localisation et analyse d expressions fig es dans de grands corpus Pierre Dupont C drick Fairon CENTAL http www info ucl ac be enseignement memoires 2003 2004 pdupont tall html e Acc der au sens culturel par le d contextualisation le cas des nonc s m diatiques Teta Simeonido Christido Universit de Thessalonique Gr ce colloque 10 et 11 Mars 1997 822 La force discursive de la locution phras ologique http crim inalco fr recomu colloque 07 phtml e Un mod le HMM pour la d tection des mots compos s dans un corpus textuel Lakhdar Remaki et Jean Guy Meunier LANCI Universit du Qu bec Montr al http www cavi univ paris3 fr lexicometrica jadt jadt2000 pdf 67 67 pdf e Les N grams de caract res pour l aide l extraction de connaissances dans des bases de donn es textuelles multilingues Ismail Biskri et Sylvain Delisle hitp vwuw li univ tours fr taln recital 2001 Actes tomel PDF partie2
19. Hussein Passer d un x V libre Eviter la crise X X X X X X X X V libre Sont d accord lt tre d accord gt Loc Vb Pr dire la remont e des X X XXI X X X X V libre indicateurs Mettrai t fin ds lt mettre fin gt 5 s a Loe Vb p riode A x x XIXI x x x X vibe descendre le Page 114 Marie V ronique LEROI barom tre Soulignent X X X X X X X X V libre Aura X X X IXI X X X X Vibre Ilya X X X X X IXI X X V libre Apparaissent X X X X X X X X V libre Minaient X X X X X X X X V libre Va permettre X X X X X X X X V libre Renouer avec X X X IXI X X X X Vibre Va stimuler X X X IXI X X X X V libre Je ne vois pas X X X X X X X X V libre Ne devrait pas X X X IXI X X X X V libre Reprendre de lt prendre de 5 l lan l lan gt EE FPE Ajoute X X X X X X X X V libre Serait X X X IXI X X X X Vibre Conna tre la lt conna tre la A f Z f t t t V Sup crise crise gt Subit X X X X X IXI X X V libre eSI pag x x x x x x x x Vlibre optimiste Ne tepleT eMAX xX X X X X X X X Vlibre probl mes Avo rat lt faire diversion gt 17 V Suap diversion Avait servi X X X X X X X X V libre Est tomb e X X X IXI X X X X Vibre Vont resurgir X X X IXI
20. Les divers r sultats produits par le LADL sont repr sent s sous la forme de tables Ces diff rentes tables repr sentent le lexique grammaire labor au LADL Les tables qui composent ce lexique grammaire regroupent tous les l ments du lexique Chacune de ces tables contient un ensemble de propri t s qui s tablissent en colonne En vis vis de ces colonnes un codage avec un signe positif ou n gatif permet de pr ciser si Page 40 Marie V ronique LEROI l l ment du lexique figurant dans la table peut tre d fini ou non par cette s propri t s Ces tables constituent actuellement des fichiers excel au format xls pour constituer des ressources lectroniques Nous pouvons donc constater que le LADL a une d marche morphologique quant au traitement des corpus En effet le filtrage des s quences complexes correspond la reconnaissance des propri t s syntaxiques d finies par les tables Silberztein 1987 pr cise donc que la reconnaissance purement lexicale n est plus de mise particuli rement dans le cas des locutions verbales car le verbe conna t de grandes variations qu elles soient flexionnelles ou transformationnelles 1 2 M thodologies La reconnaissance automatique des expressions fig es pose des probl mes tout fait sp cifiques Les derni res d cennies ont assist la naissance et l volution de diverses m thodes qui ont plus ou moins fait leurs preuves N
21. PC z1 sans pr c dent A EPC z1 sant financi re N NA z1 fs service de NDET Dnoml10 strat gie militaire N NA Z1 fs super h ros N AN Hum z3 ms mp super h ros N AN Hum ms mp taux de change N NDN ms mp un peu partout ADV PAC z1 un peu ADV PDETC Z1 une fois ADV PDETC z1 universit de NDET Dnom7 universit des universit de NDET Dnom7 voiture de luxe N NDN Conc z3 fs voiture de luxe N NDN Conc fs voiture de NDET Dnom7 zones g ographiques zone g ographique N NA Conc z1 fp Page 127 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Codes utilis s par les dictionnaires lectroniques DELA Codes grammaticaux Code Signification Exemple 21 langage courant blague 22 langage sp cialis 23 langage tr s sp cial houer Abst ahstrait bon go t Anl an _ cheval de race _ AniColl animal collectif troupeau Conc concret abba CoacColl concret collectif Hua bumair diplomate BusColl humain collectif vieille garde f t verbe transitif foudroyer i en se ne Codes s mantiques Page 128 Marie V ronique LEROI P pr sent de l indicatif I imparfait de l indicatif TS pr sent du subjonctif CT imparfait du subjonctif I presem 2 open Codes flexionnels Page 129 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Echan
22. PCDN z1 le plus ADV PCDN2 z1 long terme N AN 73 ms long terme N AN ms main des main de NDET Dnom10 main des main de NDET Dnom7 march des changes N NDN ms march des march de NDET Dnom7 march du travail N NDN z3 ms march du travail N NDN ms march du march de NDET Dnom7 mauvaise sant financi re N ANA 73 fs Page 125 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais milieux financiers N NA HumColl zl mp milliards de NDET Dnom6 milliards de milliard de NDET Dnom1 milliards de milliard de NDET Dnom6 optimisme b at N NA z1 ms partie du partie de NDET Dnom12b pas de NDET Dnom2 pays industrialis s pays industrialis N NA Conc HumColl zl mp p riode de NDET Dnom13 places boursi res place boursi re N NA Conc z1 fp plates formes plate forme N AN Conc 73 fp plates formes plate forme N AN Conc fp pour beaucoup ADV PC z1 pour demain A EPC z1 pression fiscale N NA 73 fs prix Nobel N NN Hum zl ms mp probl mes de fond probl me de fond N NDN mp ralentissement de la croissance N NDN ms r gime de NDET Dnom10 reprise conomique N NA z1 fs robot domestique N NA Conc z2 ms rythme de croissance N NDN 73 ms rythme de croissance N NDN ms s il y a ADV PF Z1 Page 126 Marie V ronique LEROI Saddam Hussein N Hum NPropre ms sans aucun doute ADV PAC Z1 sans doute ADV
23. V Cld r gle rien PRO NEG remont e remonter la pente V C1d de VITER LA CRISE Les analystes sont de accord entre eux pour pr dire la remont e remonter la pente V C1d de VITER LA CRISE Les analystes sont de accord entre eux pour pr dire la remont e remonter la pente V C1d de VITER LA CRISE Les analystes sont de accord entre eux pour pr dire la reprendre reprendre le dessus V C1d reprise reprendre le dessus V C1d actuellement dans le monde se transforme brusquement en une vigoureuse sont remont e remonter la pente V C1d de VITER LA CRISE Les analystes de accord entre eux pour pr dire la souhaite ne pas pas ADV NEG vois ne pas pas ADV NEG y a ne pas pas ADV NEG tete te te te te te te te ete ete tn Page 120 Marie V ronique LEROI Liste des mots compos s du corpus produite par Unitex distance A EPC z1 distance ADV PC z1 l conomie A EPDETC z1 l cran A EPDETC z1 l image de PREP EPCDN Z1 l origine de PREP EPCDN Zz1 l origine ADV PDETC Zz1 la d rive A EPDETC Zz1 mal A EPC z1 terre A EPC z1 visage humain A EPCA Z71 activit conomique N NA Zz1 fs alors que alors CONJS 4 alors que alors CONJS S ann es de ann e de NDET Dnom13 au cours ADV PCDN2 z1 aujourd hui ADV z1 autant que CONJS 8 autant que autant CONJS 4 autant que autant CONJS 8 Page 121 Le traitement automatique et lex
24. X X X X V libre S orienterait vers X X X IXI X X X X Vibre Wesi pen x x x Ix x x x X Vibre probable que nee x x X X XIX XX Vlibre i nee x x x Ix x x x X Vibre y lt mesurer Mesurer l impact l impact gt f 1 Loc Vb X x X X X X X X Vlibre d gager Ont contribu X X X X X V libre P X X X x x X X Vlibre partie du prestige Avaient enlev une partie du X X X IXI X X X X V libre prestige D x x x XI Xx X x X Vlibre impossible Aide X X X X X IXI X X V libre Page 115 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Faire oublier X X X X X XI X X V libre Permette X X X X X X X X V libre A augment de X X X X X X X X V libre Commen ait X X X IXI X X X X V libre Aurait mis mal lt mettre mal gt 2 Loc Vb Risque de X X X X X X X X V libre A suivi X X X X X X X X V libre ar xX xX X X XXIX X Vlibre confirmer Devrait tre de lt tre de courte f lo lalo bel Loc vb courte dur e dur e gt Stimuler son X X X X V libre conomie R duire le d ficit X V libre Ne souhaite pas une telle X X X X X X X X V libre volution Devrait aider X X X X X X X X V libre guider Miye guini X xX X
25. X X X X X Vliibre conviennent A sem une R N zizanie sans er l V Sup re Zizanie pr c dent erent epen x x x x Xx X X X Vlibre de riposter Dre idane g X XI XIXI XIX Viibre d clencher En fait le h ros X X X X X X X X V libre Porter l cran lt porter l cran gt VSup Deviendra X X X X X X X X V libre Est X X X X X X X X V libre Invente X X X X X X X X V libre L active X X X X X X X X V libre A donn lieu lt donner lieu gt el 2 Loc Vb S apparente X X X X X X X X Vlibre S occupent de X X X X X X X X V libre Il n y a pas X X X X X X X X V libre peui yen x x x xl x xl x X Viibre avoir Reoresr ume X xX XIXI XXIX X Vlibre forme humaine n xX xX X X XXIX X Vlibre Explique X X X X X X X X V libre Sera recueilli X X X X X X X X V libre Page 116 Marie V ronique LEROI Embrasser une lt embrasser une carri re de super nie de No Loc Vb h ros Ripondan aix x x x Ix x x x X Vibre angoisses Reconpe Ies xX x X X X X X X Vlibre preoccupations poor x x x x Xx X x x Vlibre restitution Travaille sur les oo X X X X X IX X X V libre Font Pobjet d un lt faire l objet de gt f Loc Vb programme A d but X X X X X IX X X V libre Regroupe une
26. alors apparaissent succinctement dans un dictionnaire classique Un article du dictionnaire qui d crit la lexie doit comprendre dix zones principales apportant chacune une information sur la lexie comme nous pouvons le voir dans le tableau ci dessous ARTICLE LEXIE Lexie vedette Zane vedette Variante orthographique Prononciation a Prosodie particuli re Partie du discours ou cat gorie Zone morphologique Type de d clinaison ou de conjugaison Formes irr guli res ou non r alisables Zone stylistique Marques d usage D finition Zone s mantique a Connotations Zone de combinatoire Restrictions sur la cooccurrence syntaxique syntaxique Zone de combinatoire i Restriction sur la cooccurrence lexicale lexicale restreinte Zone d exemples Exemples Zone phras ologique Emplois fig s Zone de Nota Bene Remarques diverses Figure 2 2 b Les diff rents zones de description constituant un article du DEC Ce dictionnaire d crit donc le lexique d une langue sous la forme d une num ration de lexies d crites selon les aspects d finis que nous venons de d finir Une locution verbale Page 51 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais telle que se mettre le doigt dans l il constitue une entr e de dictionnaire au m me titre que se fourre
27. chaque expression fig e sous forme de graphe Ce graphe d signe une expression fig e dans sa structure de base ainsi que toutes les variantes qu elle conna t Les fichiers qui ont une extension fst correspondent ces transducteurs Les tables r pertori es Cxxx correspondent au lexique grammaire des expressions fig es les noms de fichiers qui ont pour nom Cxxx correspondent donc aux noms des tables du lexique grammaire Intex a notamment recours la table du lexique grammaire not e C1d xsl Page 60 Marie V ronique LEROI Intex permet galement de proc der une analyse syntaxique dont l objectif premier est la d sambigu sation lexicale Une boite de dialogue Text gt Desambiguisation permet de proc der la d sambigu sation au moyen du dictionnaire lectronique disamb dic Intex a recours des grammaires locales pour liminer toute ambigu t lexicale Les grammaires locales sont des repr sentations par automate de structures linguistiques complexes qui ne sont pas formalisables par les tables du lexique grammaire ou les dictionnaires lectroniques Ces grammaires locales sont repr sent es par des transducteurs et se pr sentent visuellement sous la forme de graphes La construction du transducteur du texte Text gt ConstructFST Text permet de r aliser l analyse syntaxique du texte Cette fonctionnalit g n re la construction de transducteur pour chaque phrase du texte Le transduct
28. comprenant plusieurs mots int gr s la graphie et plus pr cis ment le trait d union permet de reconna tre une lexie compos e La lexie complexe d signe une s quence en voie de lexicalisation des degr s divers La lexie complexe est une s quence qui peut tre fig e ou non Le crit re de s parabilit permet de les reconna tre en effet il sera question d une lexie complexe si les l ments du groupe ne sont pas s parables et l inverse il s agira d un syntagme si les l ments du groupe sont s parables Maurice Gross 1985 parle de phrases fig es La phrase constitue dans ses travaux qui s inscrivent dans la th orie du lexique grammaire l unit s mantique de base les mots ou les morph mes ne sont donc pas dans le cadre de ses travaux les unit s minimales Page 14 Marie V ronique LEROI Il n est donc jamais question de locution pour d signer les s quences fig es tout comme il n est jamais question de syntagme pour se r f rer aux s quences libres Gaston Gross a introduit la notion de figement et d expressions fig es dans Les expressions fig es en fran ais noms compos s et autres locutions son ouvrage qui date de 1996 Deux principes ont leur importance dans la reconnaissance des expressions fig es il s agit de l opacit s mantique et la libert combinatoire Nous reviendrons dans les sections suivantes sur ces deux princip
29. consacr l tude des expressions fig es dans une perspective de traitement automatique Les travaux du LADL se proposent de fournir de mani re syst matique une description des expressions fig es aussi bien d un point de vue syntaxique que s mantique Ces travaux s inscrivent dans la lign e de ceux de Z S Harris qui portaient sur la th orie transformationnelle En effet Z S Harris 1988 consid rait les phrases l mentaires ou noyaux comme unit s de base de la composition syntaxique Les phrases l mentaires seraient s mantiquement invariantes par transformation Cette hypoth se issue des travaux de Harris a t int gr e la th orie du lexique grammaire initi e par le LADL Cette th orie consiste dans l tude syst matique pour tous les mots du lexique d une langue donn e de leurs propri t s syntaxiques Cela reviendrait plus pr cis ment tudier dans quelles constructions syntaxiques entre chaque mot d o l appellation lexique grammaire Cette th orie carte l approche s mantique jug e trop subjective et variante d un linguiste l autre Page 39 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais L int gration de l hypoth se transformationnelle la th orie du lexique grammaire suppose l mergence de deux questions devant aboutir deux faits pr cis Il faut dans un premier temps en arriver conclure que tout mot entre dan
30. constitutifs d un N gram positionnel L Expectative Mutuelle est bas e sur une notion essentielle l Expectative Normalis e Cette derni re notion permet de mesurer quel point la pr sence d un mot est essentielle pour garantir une interpr tation fig e dans un N gram positionnel Plus un N gram positionnel correspondant une s quence du texte est fig moins la perte d un l ment constituant sera tol r e la valeur de l Expectative Normalis e sera alors lev e Une s rie de calculs de probabilit s permettent d obtenir cette valeur Le calcul de l Expectative Mutuelle ne tient pas cependant pas compte de la fr quence d occurrence des s quences extraites mais permet de mesurer le fort degr de coh sion qui peut lier les l ments constituants d une expression fig e Page 44 Marie V ronique LEROI L algorithme de s lection GenLocalMaxs troisi me concept important du logiciel SENTA permet de ne retenir que les N grams positionnels les plus pertinents et les plus aptes constituer des s quences fig es Cet algorithme permet de s lectionner tout N gram positionnel dont le degr d association est un maximum local Aucun seuil n est donc pr d fini seul les calculs faits pr c demment ainsi qu un nouveau calcul de probabilit permettent de consigner une s quence dans la liste de candidats termes DicAssist est donc une interface qui met en place une cha ne de traitements partir de
31. danser mais aussi de converser en puisant dans une base de donn es de 60 000 mots Honda continue le d veloppement de son robot bip de Asimo Star nationale au Japon Asimo serre la main des chefs d Etat trangers et participe toutes sortes d v nements Le but affich du constructeur automobile est de familiariser le grand public avec les robots En l an un du robot domestique Astro Boy n est d j plus seul au monde B Pe Page 113 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Analyse du corpus Crit re Crit re formel s mantique syntaxique Nature z g E 21 151 der I ence ne Opacit Z 2 2 S So s quence a S mantique TE E E LOC V S 2 2 V Sup V libre N aura pas lieu lt avoir lieu gt LocVb Seront X X X X X X X X V libre Doivent X X X X X X X X V libre Revoir leurs lt revoir Poss g lo ll l4l Loc vw copies copie gt Avaient mis sur xX x x xl X x x X Viibre un enlisement N allait pas Du He X X X X X X xX X Vlibre cons quences Pr senter X X X X X X X X V libre Erau poor x x x xl x xl x X Viibre demain Avait voqu X X X X X X X X Vlibre a t invalid e X X X X X X X X V libre Ont suffi X X X X X X X X V libre Mettre terre le r gime de J llo loll Saddham lt mettre terre gt Loc Vb
32. des dictionnaires DELA La boite de dialogue indique en effet que seuls les dictionnaires DELAC et DELAF sont appliqu s La s quence perdre la raison n appara t pas dans une m me boite ce qui signifie que seule la lecture compositionnelle est permise Unitex dispose par ailleurs d un diteur de graphes qui permet l utilisateur de cr er ses propres ressources Il serait donc possible d envisager la cr ation de grammaires locales visant l extraction de certains types de s quences fig es Unitex offre de plus la possibilit d importer des graphes g n r s par Intex Cet outil malgr sa forte ressemblance avec les fonctionnalit s et l interface d Intex est tout de m me diff rent d Intex En effet seuls les termes compos s nominaux ou adverbiaux sont pris en compte Les locutions verbales ne peuvent donc pas tre analys es avec Unitex Nous pouvons voir au travers de l tude de ces deux outils qu Intex et Unitex proposent des fonctionnalit s similaires et efficaces pour le traitement de corpus La m thodologie utilis e par ces deux logiciels est fondamentalement la m me ainsi que les ressources utilis es Cette m thodologie diff re totalement de celles que nous avons d finies dans la section pr c dente mais ne s av re pas moins efficace 5 Application sur un corpus 5 1 Constitution d un corpus Le corpus qui a t utilis dans le cadre ce travail a t constitu partir de la
33. des entreprises Avec la flamb e annonc e des cours du p trole avec la rechute programm e des places boursi res la grande d pression tait pour demain Reflet du catastrophisme conomique ambiant le directeur g n ral du Fonds mon taire international FMI Horst K hler avait solennellement voqu fin mars la menace d une r cession mondiale en cas de guerre longue Celle ci n aura sans doute pas lieu Mais si l hypoth se militaire l origine de ce sc nario conomique noir a t invalid e par les faits si trois semaines seulement ont suffi la coalition am ricano britannique pour mettre terre le r gime de Saddam Hussein faut il pour autant en mati re d anticipation de croissance passer d un profond pessimisme un optimisme b at UNE CHANCE D VITER LA CRISE Les analystes sont d accord entre eux pour pr dire la remont e un peu partout au cours des prochaines semaines des indicateurs de confiance conomique qu il s agisse du moral des m nages ou du climat des affaires Ce rebond reflet du soulagement ressenti devant le d nouement rapide de la guerre en Irak mettrait fin une longue p riode de reflux ininterrompu qui avait fait descendre ces barom tres des records de faiblesse depuis quatre ans en France depuis dix ans aux Etats Unis Les conomistes soulignent aussi les effets positifs qu aura rapidement pour l activit conomique la baisse des prix nerg tiques Mais s il y a consensus s
34. des formes ayant qui r sultent d un processus de soudure Tenter de fournir une d finition pr cise et formelle se r v le donc tre une t che difficile Georges Bernard dans un article publi en 1974 mesurait d j l ampleur de cette difficult c est presque une gageure que de pr tendre d finir les caract ristiques formelles des locutions verbales Gaston Gross propose deux principaux crit res pour reconna tre une locution verbale le sens de la suite de mots doit tre non compositionnel c est dire opaque et syntaxiquement contrainte les modifications et transformations doivent donc tre impossibles Ces deux propri t s taient d j donn es par G Gross pour distinguer les s quences libres des s quences fig es Mais dans sa description des locutions verbales il est possible de trouver davantage de pr cisions En effet un des principaux probl mes qui se pose dans la d finition d une locution verbale r side dans les divergences th oriques des auteurs Nous avons effectivement vu dans la section consacr e aux verbes que les verbes supports bien que tr s ressemblants taient distinguer des verbes fig s cependant certains auteurs regroupent sous ce m me terme de locution verbale aussi bien des s quences fig es que des constructions verbe support Des auteurs comme Herv Curat ou David Gaatone ne font pas la distinction entre ces deux types de constructions Guilbert qui utilise le ter
35. des locutions verbales fig es en fran ais Fonctionnement Une fois que l on a d marr Intex la premi re tape de traitement d un corpus consiste charger un texte en passant par le menu Text gt Open Avant de pouvoir tre charg dans l application le texte doit tre pr trait et transform selon des normes propres Intex et d finies par des transducteurs sp cifiques Le chargement du texte s accompagne par l apparition d informations statistiques et formelles concernant ce texte A partir de ces informations il est donc possible de voir le nombre de phrases qui composent le texte et galement celui des tokens Il existe quatre sortes de tokens qui sont en fait des objets de base de l analyse par Intex Les tokens peuvent repr senter les formes simples qui apparaissent dans le texte Les formes simples sont distinguer des mots simples Les formes simples sont des s quences de lettres enclav es par deux d limiteurs Des tags qui sont un autre type de tokens repr sentent des donn es linguistiques et sont not es entre deux crochets Les digits troisi me type de tokens correspondent aux chiffres de O 9 Les d limiteurs dernier type de tokens repr sentent des caract res autres qu une lettre un chiffre ou un espace Ces informations statistiques sont archiv es dans un ficher nomm result rtf qui figure dans le r pertoire courant Outre ces informations statistiques il
36. distinctes r pondant chacun des mots y composants mais une image unique Ainsi les compos s h tel de ville bomme de terre arc de triomphe veillent chacun dans l esprit une image unique et non les images distinctes d h tel et de ville de pomme et de terre et d are et de triomphe Le second crit re propos est d ordre s mantique Ce crit re adopte ce postulat le sens du compos n est pas compositionnel Mais il s av re inefficace dans la mesure o il existe des exemples de compos s o le sens est compositionnel Dans une expression telle que faire chou blanc les l ments composants ne conservent pas leurs sens il n y a donc pas compositionnalit du sens En revanche dans un syntagme nominal tel que chaise longue ou mauvaise herbe nous retrouvons bien le sens des l ments composants qui contribuent au sens g n ral du syntagme et c est l ajout d autres sens que ceux des composants qui conf re au syntagme le statut de compos autrement dit de syntagme fig Le troisi me crit re est d ordre syntaxique une s quence fig e implique que les op rations syntaxiques normalement disponibles dans les s quences libres soient bloqu es pour les s quences fig es Par exemple il se peut que des modifications syntagmatiques comme l ajout d un modifieur soient impossibles Ex 1 4 2 a un
37. douzaine de X X X X X IX X X V libre soci t s Misao pomiaes lt mettre au point gt LocVb robots Travailler X X X X X IX X X V libre Piloter de engins X X X X X X X X V libre Mesure 1 54 m X X X X X IX X X V libre Ee capab Ides xX x x x x X x X Vlibre relever a t Aa aN xX xX X x X x x X Viibre transporter Pourraient servir x x XIX XIX XIX Vibre de plateforme Plangae surut X X X X X Xx X x Vlibre nouveau robot Pourrat ie x x x x x X x x Vlibre commercialis Est un petit robot X X X X X X X Vlibre De ae lt faire office de compagnon de N2 gt 1 I I Locvb jeu FERRER x x x xl x xl x x Viibre chanter Continue X X X XI X IX X X V libre BoTT A mai dgh X X X X X X X x Vlibre chefs d etats Participe X X X X X X X X V libre Familiariser le public avec les X X X X X IXI X X V libre robots Page 117 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais N est plus seul au monde V libre Page 118 Marie V ronique LEROI Liste des expressions fig es du corpus produite par Intex Abandonn abandonner la partie V C1d Abandonn abandonner la partie V C1d allait ne pas pas ADV NEG aura ne pas pas ADV NEG but boire le coup V C1d cours courir la gueuse V Cld Avec la flamb e annonc e des cours cou
38. en fournissant des informations sur ce texte par la construction d un dictionnaire de formes graphiques en proc dant l tiquetage et la lemmatisation du Document Le Dictionnaire de formes graphiques qui appara t dans l onglet Formes graphiques du fichier recensent toutes les formes qui apparaissent dans le texte et de trier ces formes selon l ordre alphab tique ou selon leur fr quence d apparition Tous les mots qui correspondent ces formes et qui apparaissent dans le document sont donc r pertori s dans ce dictionnaire Au terme mot correspond une d finition purement typographique savoir une cha ne de caract res enclav e par deux blancs ou espaces comme nous l avons vu L utilisateur peut choisir lui m me quel type de d limiteur il souhaite utiliser pour la constitution de ce dictionnaire Le sous onglet Dictionnaire de formes graphiques indique par ailleurs le nombre de lignes et de mots du fichier Les sous onglets Etiquetage et Lemmatisation permettent respectivement d tiqueter et de lemmatiser le Document et d afficher les fichiers obtenus dans les zones textuelles correspondantes Ces sous onglets sont plac s dans cet ordre pr cis car l tiquetage est une tape primordiale qui doit donc pr c der l tape de lemmatisation Toutefois si la lemmatisation est lanc e avant l tiquetage celui ci est r alis en arri re plan sans passer par le sous onglet Etiqu
39. entr e Il serait donc possible par exemple possible de filtrer toutes les d finitions des entr es ou tous leurs lemmes Ce dictionnaire tant donc un document XML une DTD Definition Type of Document a donc t cr e pour d finir la structure du document Cette DTD constitue une grammaire du document et stipule quel type de contenu peut avoir un l ment ou un attribut dans ce document Le dictionnaire doit donc pour tre valide avoir une structure conforme celle d finie par cette grammaire de document Le cadre gauche de l onglet Dictionnaire propose deux ic nes auxquelles sont associ es deux proc dures diff rentes permettant respectivement de v rifier que la syntaxe du document est correcte et de s assurer que le document est conforme sa DTD savoir s il est valide La mani re dont sont crites les balises et la mani re dont elles s encha nent sont d finies par une syntaxe propre au langage XML Ces deux ic nes sont les suivantes Page 91 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais V rifier la bonne formation du Document D Biblioth que de Script XML Parser U V rifier la validit du Document D Programme externe Rxp Le programme Rxp qui selon les options indiqu es en argument permet de v rifier ou la bonne formation ou la validit du document a t int gr au programme Verbalex afin de valider le Document par rapport sa DTD La DTD du d
40. est galement possible de sauvegarder le r sultat de la recherche dans un fichier de sortie Comme nous l avions fait en utilisant Intex nous avons saisi le motif de recherche lt aller gt pour s lectionner toutes les formes fl chies de ce verbe Cocos charme nr Me DC Oocumenis and Sofiings Vir onip Mes documents tetiustex i rench Co pasi a harma de TIEA veur ou veuL Op LLL STIS L bpa UM gt t 17 PF z Bs qu il st dans Les environs t oas allana l ttroguer 3 Excusez bon g n ral jle gen plus enbarrass e Que Curieuse 5 Dyas allons ar Caire Commalssente Don Cher COR reprit i r ponditrelle terre Quant nons Y Allana 5 et core he QUILL 3e Jamais b n b ri s levair quelque sinistre mysL re 5 Allons Abel s tEl La marquise e S4LSLSSANL wni b se Wi d s L lnl s presque fabuleuses 5 Allens dec plus vite mot p re disait la Jeune fille hoses l t Ou drois qu un anbessadenr Lin te Le dire 121 Ma s Crottat de n t ai Jamais va plaisirs 8 Moi s cria trelle Y 1Lal livrer ou Doenier fourbe qui Sware Jott La Com di adit H l ne Si vous me Le commandez 1Lalr 8 mails de perdrai L estine de mon p re F j vous soils sa0r r 2 Sinon WEE J ILAL Bowrir f Il me aut Le secret wi asile t d 1 J ai presque r pondu de voi 491 J 11a1 r pondit Julie 8 Le son de la voix l accent irruption 3 et pes utres atteintes ILALGAT e
41. et de la syntaxe il est possible de constater que l laboration d un dictionnaire fait appel ces deux descriptions qui sont finalement davantage li es que totalement oppos es Page 46 Marie V ronique LEROI L laboration de dictionnaires repose cependant fondamentalement sur la distinction entre le lexique et la syntaxe D apr s Gaston Gross l analyse syntaxique devrait pr c der toute d marche lexicographique Le but premier d un dictionnaire est la description des mots ou unit s lexicales qui composent une langue L objectif serait plus pr cis ment de donner le sens d un mot Le sens d un nonc constitu d un certain nombre de mots r sulterait donc de la somme des mots composant cet nonc Les dictionnaires ont g n ralement recours la syntaxe pour illustrer les acceptions des mots d crits Une notion importante dans les dictionnaires concerne les cat gories associ es aux mots du dictionnaire Gaston Gross dit par ailleurs que tout dictionnaire repose sur la notion de cat gorie La lexicographie n exclut donc pas totalement les informations d ordre syntaxique Cette question de la s paration lexique syntaxe se pose particuli rement pour la description des s quences fig es Dans le cas des locutions verbales la question peut effectivement se poser une locution verbale doit elle figurer dans un dictionnaire ou dans un ouvrage de grammaire En effet ces s quences se tr
42. expressions fig es du corpus produite par Intex EERE EEEEEEEEEEEEREEEEEREREEREREREEREREEREEEREREEEEE Erreur Signet non d fini Page 5 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Liste des mots compos s du corpus par Unitex Erreur Signet non d fini Codes utilis s par les dictionnaires lectroniques DELA ose ece Erreur Signet non d fini Echantillon d une table du lexique grammaire Erreur Signet non d fini Verbalex Images Ecrans Erreur Signet non d fini Page 6 Marie V ronique LEROI Introduction Mot compos locution idiotisme expression idiomatique phras ologisme clich proverbe dicton etc autant de termes souvent mal d finis pour d crire l extr me vari t des expressions fig es et consacr es par l usage Cette citation extraite de l article de Georges Misri intitul Approches du figement linguistique crit res et tendances publi en 1987 montre l ampleur du ph nom ne que constituent les expressions fig es Comme l a d montr Maurice Gross ce ph nom ne n a rien d exceptionnel et est m me tr s courant dans les langues naturelles Ces expressions fig es sont d sign es par un nombre important de d nominations usuelles et communes dans certains cas locutions expressions fig es noms compos s sp cifiques dans d autres cas synapsie synth me Diff rents
43. figure cette grille de validation reprend les crit res et les formalisations que nous avons propos s dans l analyse de corpus faite en 5 2 Analyse de corpus Le fait de cocher le trait Opacit S mantique et au moins trois traits formels implique que la pr sence d une locution verbale est fort possible Le fait de cocher ces diff rents traits revient dire que la suite correspondant l item de la liste est s mantiquement opaque et ou que les diff rentes transformations indiqu es sont impossibles pour cette suite Dans le cas o ces crit res ne seraient pas remplis un message appara t dans une boite de dialogue en indiquant que la s quence s lectionn e n est pas une locution verbale Page 90 Marie V ronique LEROI Si la pr sence d une locution est pr suppos e la validation de la grille entra nera l apparition d une boite de dialogue permettant de cr er une nouvelle entr e lexicale dans le dictionnaire de l application La s quence appara tra automatiquement dans la zone vedette de la fen tre de cr ation de l entr e Nous verrons dans la section suivante consacr e au dictionnaire des locutions verbales de Verbalex comment se pr sente cette boite de dialogue 1 3 Le dictionnaire des locutions verbales Pr sentation Tout dictionnaire comporte diff rentes entr es auxquelles correspondent des articles de dictionnaire Ce projet de conception d un outil ayant pour objet les locutions v
44. izai cepondit Julie Lila sen de ls j hbarrtez 1 1e FFF Pi last its rai bals 1e petdtai l e stlh de boa e ireuption 13 et ses autres atteintes ssaient en 2 affaiblinsant soit par notr FT Bois Le joitt Le ch re Koin ve PEP Il DETibe bel PRE ible pendant Ce voyage qui heuremsesment n bientot se terniner 31 Je ne aurais p seu TE ne te Loue Chope Te ant pi Jein Rieux encore tie y en je disant par un sine Enfin il dent s en aller 5 Bais pois ant quande coquette la pauvre m re ne va tamais 8 PPEP les le DETimpifpr Irt ous avez Chaud maman lti2se nous SOn Anget L DONELE Le s nel n AUIBMEANT 1 Heureusement rai t leur donner les trivi res JA si re de j tsat 11 Ron ani De y To pas 5 L e marquis passa dans j cree qui Les abandonne et Leur passion Pt LeRM QECONC de w venir qui Les eff 2 gt Figure 4 c Intex Filtrage de toutes les formes du verbe aller partir du motif de recherche lt aller gt La figure 4 c repr sente le r sultat produit par Intex pour la recherche des formes fl chies d un des verbes les plus irr guliers du fran ais le verbe aller Le seul motif lt aller gt permet donc de filtrer toutes les occurrences de ce verbe Ce type de recherche simplifi e est possible notamment gr ce l utilisation du dictionnaire lectronique DELAF Dictionnaire Electronique du LADL des Formes fl chies La possibilit de proc d
45. lecture fig e ou s mantiquement opaque de cette expression a pour sens mourir Page 18 Marie V ronique LEROI Nous allons donc confronter les propri t s transformationnelles de la construction libre et de la construction fig e pour cela nous allons prendre appui sur les deux phrases suivantes l Pierre a cass son stylo cette construction est libre le substantif pipe a t remplac par le substantif stylo pour mieux mettre en vidence les diff rences entre construction libre et construction fig e 2 Pierre a cass sa pipe cette construction est fig e et revient dire Pierre est mort Comme nous allons le voir l application des diverses transformations est possible sur la phrase 1 qui est une construction libre Phrase 1 Pierre a cass son stylo Transformations syntaxiques R sultats obtenus Son stylo a t cass par Pierre Passivation Le stylo de Pierre a t cass gt Pronominalisation Pierre l a cass D tachement Son stylo Pierre l a cass 7 p Extraction C est son stylo que Pierre a cass Relativation Le stylo que Pierre a cass Tableau 1 4 2 a Tests transformationnels appliqu s la phrase Pierre a cass son stylo Les diff rentes phrases obtenues sont grammaticales et donc possibles Le point d interrogation qui pr c de la phrase 1 apr s la passivation indique que c
46. les possibilit s combinatoires ou transformationnelles normalement disponibles pour les constructions libres sont interdites pour les constructions fig es e Le figement peut tre s mantique les sens de la suite est opaque c est dire non compositionnel Il existe des degr s de figement Grammaire Locale Repr sentation par automate de structures linguistiques complexes qui ne sont pas formalisables dans le lexique grammaire et les dictionnaires DELA Ces grammaires locales sont visuellement pr sent es sous forme de graphes Langage de programmation Un langage de programmation est fini et limit et permet de compiler un programme informatique chaque mot d un langage de programmation est associ ou associable une et une seule cat gorie tiquette qui correspondent un identifieur c est dire un index une variable un entier Lemmatisation Op ration consistant remplacer une forme fl chie par sa forme canonique ou son lemme Lexie e Unit de base de l tude lexicologique s inscrivant dans le cadre de la th orie Sens Texte Ces lexies sont d crites dans un dictionnaire qui correspond la structure initiale d un DEC Dictionnaire Explicatif et Combinatoire e Unit lexicale m moris e d apr s la terminologie de Bernard Pottier 1962 Une lexie peut tre simple compos e ou complexe Locution Etymologiquement mani re de dire S quences inf rieures au niveau
47. n est pas alt r et ne subit donc aucune modification lors de son traitement tiquetage lemmatisation L tiguetage Comme nous l avons vu dans la section consacr e la pr sentation d outils d acquisition de terminologie l tiquetage constitue une tape importante dans le traitement automatique de corpus Il s agit d une op ration de base qui vise tiqueter les formes pertinentes d un texte ayant le statut d unit s de base Cette tape permet de rem dier de nombreuses difficult s En effet les informations linguistiques ne sont pas d ductibles de leur forme Le s en fran ais par exemple ne permet pas toujours pr dire une forme plurielle Le nom glas ne correspond pas une forme plurielle Les ambigu t s lexicales constituent une autre difficult dans la mesure o la polys mie d une forme implique l association de plusieurs tiquettes une m me forme peut correspondre deux cat gories La forme porte renvoie aussi bien un verbe qu un nom pour d signer respectivement l action de Page 84 Marie V ronique LEROI porter et l objet porte comme une pore d entr e La principale cons quence que peut avoir le processus d tiquetage morphosyntaxique est la d sambigu sation dans le logiciel Intex cette tape d tiquetage morphosyntaxique se fait l aide du dictionnaire lectronique de d sambigu sation et pr sente le r su
48. non satur es se composent d un verbe de son compl ment et d une pr position pour introduire un second compl ment La notion de commutatibilit ou d articulation renvoie au fait que le compl ment du verbe de la locution est modifi par un article Les locutions non commutables et satur es qui ne permettent Page 32 Marie V ronique LEROI aucune modification ou insertion pourraient tre consid r es comme un mod le de figement maximum d apr s Georges Bernard Thun 1978 propose aussi de classer les s quences verbales selon qu elles soient s mantiquement transparentes ou s mantiquement opaques Parmi les s quences s mantiquement opaques il est possible de retrouver les locutions qui s opposent aux syntagmes libres Gaston Gross 1996 propose une d finition pr cise et caract ristique de la locution verbale dans son ouvrage consacr aux expressions fig es Le terme de locution verbale d signerait donc toute suite compos e d un verbe et de ses compl ments qui pr senterait une non compositionnalit du sens ou le figement des groupes nominaux c est dire que les groupes nominaux compl ments ne peuvent subir aucune modification La substitution des d terminants et l insertion de modifieurs adverbiaux sont donc impossibles La locution verbale s oppose un syntagme verbal libre dont la seule contrainte sera la s lection du domaine d argument par le verbe Les phrases enti rement fig es et les c
49. nonc s d j existants qu ils soient oraux ou crits ne sont pas utilis s car ils sont g n ralement trop longs et sources d ambigu t s multiples Les phrases sont tout d abord soumises un jugement d acceptabilit pour d terminer si la phrase l mentaire construite est grammaticale ou ne l est pas Les mots qui composent ces phrases sont ensuite analys s selon leur contexte et leurs cooccurrences L tude d un mot donn aboutit l mergence d un certain nombre de propri t s Des professionnels de la linguistique ont ensuite pour t che de valider les propri t s d finies pour chaque mot Les travaux du LADL ont ensuite naturellement volu vers une tude extensive des expressions fig es du fran ais naturellement car une tude de chaque mot du lexique ne pouvait que laisser pr sager une telle d marche En effet les expressions fig es sont constitu es de mots simples qui ont donc selon les contextes tant t un emploi libre tant t un emploi fig Il tait donc logique que les expressions fig es prennent davantage d importance dans l approche entam e par le LADL Le LADL a donc entrepris de recenser toutes les expressions fig es ce qui a permis de mesurer au sens propre le poids de ces expressions dont le nombre est nettement sup rieur celui des formes libres L ensemble des tudes men es par le LADL aura donc eu pour cons quence de faire du figement un objet linguistique autonome
50. o G Gross distingue les locutions verbales des constructions verbe support G Gross propose donc six tests transformationnels pour d terminer si une suite est syntaxiquement contrainte Le passif est le test formel le plus commun ment cit par les diff rents auteurs bien que ceux ci reconnaissent qu il s agit d un test d une efficacit relative et qu il est loin d tre suffisant pour reconna tre une locution verbale Ex 2 3 a Pierre a pris la tangente D La tangente a t prise par Pierre Une suite fig e ne peut pas tre transform e par la passivation Dans le cas des suites qui proposent une double lecture seule la suite proposant une lecture compositionnelle admettra le passif Ex 2 3 b prendre la mouche Lecture compositionnelle attraper Pierre pris la mouche la mouche a t prise par Pierre Lecture fig e se vexer Pierre pris la mouche 1la mouche t prise par Pierre Nous pourrions donc supposer que toute suite qui ne peut pas tre transform e par la passivation est fig e Mais les suites fig es ne sont pas les seules constructions qui ne peuvent pas tre passiv es Les constructions employant des verbes intransitifs ne tol rent pas le passif Ce test ne permet donc pas de reconna tre de mani re cat gorique une s quence fig e L extraction est le second test propos par G Gross Cette transformation consiste dans un changement de structure qui s app
51. p30 322 art07 p93 102 pdf e Dictionnaires distributionnels et tiquetage lexical de corpus Delphine Reymond EquipeDELIC http www 1li univ tours fr taln recital 2001 Actes tomel PDF partie4 p403 482 art8 p473 482 pdf e Un tiquetage morphologique pour une r solution des ambigu t s morphologique en anglais Ga lle Birocheau http www sciences univ nantes fr irin taln2003 articles birocheau pdf Page 102 Marie V ronique LEROI Unitex traitement de corpus par dictionnaires lectroniques et grammaires S bastien Paumier IGM Ecole d t de Corpus Caen 15 juin 2004 http www u grenoble3 fr lebarbe elc supports paumier pdf Probabilistic Part of speech Tagging Using Decision Trees Helmut Schmid IMS CL http www ims uni stuttgart de ftp pub corpora tree taggerl pdf Improvements In part of speech Tagging with an application to German Helmut Schmid IMS CL http www ims uni stuttgart de ftp pub corpora tree tagger2 pdf Locutions verbales pouvant tre automatis es facilement http www cs lth se home Pierre Nugues memoires christop he these source rul loc Introduction la lexicologie explicative et combinatoire Mel cuk 1995 Claire Gardent http webloria loria fr gardent teaching semLex melcuk4 PAr Recherches lexicographiques POLST Dictionnaire explicatif et combinatoire du fran ais DECFC Alain Polgu re 1 Septembre 2000 http
52. perdre la raison la seconde analyse repr sente la lecture compositionnelle Le fait de repr senter cette locution dans une m me boite permet de signifier l application que celle ci fonctionne comme un bloc Intex dispose par ailleurs d un diteur de graphes permettant de formaliser des motifs de recherches ou autres r gles Ces graphes sont g n r s au format grf Un module de conversion permet ensuite de transformer le graphe en transducteur tat fini qui porte l extension fst L utilisateur a donc la possibilit de cr er ses propres transducteurs afin d adapter les fonctionnalit s propos es par Intex pour le type d analyse qu il souhaite faire L utilisateur peut donc cr er ses propres ressources en fonction de ses besoins Intex propose donc de nombreuses fonctionnalit s et possibilit s en mati re de traitement de corpus en proc dant aussi bien une analyse lexicale qu une analyse syntaxique Cet outil est donc d autant plus puissant et performant qu il permet de filtrer et d analyser les expressions fig es Unitex Description Unitex est un logiciel permettant d analyser et de traiter des corpus d un volume important Ce logiciel a t d velopp par S bastien Paumier l Institut d Electronique et d Informatique Gaspard Monge de l Universit de Marne la Vall e Cette application est un ensemble de logiciels qui s appuie sur des ressources linguistiques pou
53. prend pas d importance Ce texte doit ensuite tre trait afin de proc der un filtrage des formes verbales Ces formes verbales une fois extraites constituent une liste dont les composants ou items doivent tre valid s manuellement par l utilisateur La validation d une s quence donn e conduit la cr ation d une entr e dans un dictionnaire lectronique L entr e du dictionnaire ainsi cr e est ensuite int gr e la structure du dictionnaire d j existante En effet un dictionnaire lectronique est construit partir des r sultats d extraction produits par l application La structure de ce dictionnaire est pr d finie Ce dictionnaire lectronique est disponible dans l application ind pendamment du ou des corpus trait s Le traitement des corpus ouverts en entr e permet l enrichissement du dictionnaire L architecture du logiciel pourrait tre repr sent e de la mani re suivante Page 78 Marie V ronique LEROI Has Traitements Textuels Filtrage des locutions verbales Liste de candidats termes TE 2 F Validation Cr ation d entr es du dictionnaire Figure 1 1 a Architecture du logiciel Verbalex Nous pouvons voir au travers de ce sch ma que l tape de filtrage est pr c d e par une tape de pr traitement du texte qui doit donc tre index tiquet et lemmatis Nous d crirons dans la section suivante en quoi consistent concr tement ces tapes L
54. s il s tait agi d une construction verbe support Parvenir faire automatiquement cette distinction entre un verbe fig et un verbe support constitue l une des contraintes li es au traitement des locutions verbales En effet un m me verbe peut avoir tour tour un emploi de verbe fig de verbe libre ou bien de verbe support Certains cas r v lent que seuls certains groupes nominaux compl ments sont fig s tandis que le verbe peut varier Quelle tiquette peut on attribuer ce type de s quences Avons nous affaire une locution verbale ou un nom compos Ex 3 c rater le coche Pierre a rat le coche manqu loup Dans cet exemple nous pouvons donc voir que le groupe nominal objet est fig Ex 3 c rater le coche Pierre a rat un coche Pierre a rat sa coche Pierre a rat le coche de sa vie Cet exemple comporte pourtant une locution verbale dans la mesure o m me s ils varient les verbes utilis s sont synonymes C est effectivement la combinaison du verbe qui a pour sens rater avec le groupe nominal objet le coche qui fait sens et qui permet d acc der Page 53 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais l interpr tation rater une opportunit Un nom peut en effet totalement changer de sens selon le verbe avec lequel il est employ Ainsi le nom connaissance produira un sens diff rent selo
55. textes en ligne pour constituer une base de donn es d expressions fig es la plus actualis e possible 1 2 3 2 ACABIT D autres outils visent l extraction d un type de termes correspondant une cat gorie syntaxique pr cise B atrice Daille 2001 s est ainsi int ress e l identification d adjectifs relationnels dans des corpus Un programme d extraction de terminologie nomm ACABIT Daille 1996 est utilis pour proc der cette recherche Ce programme proc de tout comme DicAssist l extraction de termes candidats Un score statistique est ensuite utilis pour classer ces termes candidats qui correspondent un profil particulier dans la mesure o le traitement concerne les adjectifs relationnels Les s quences recherch es et extraites se trouvent donc limit es deux unit s lexicales pleines qui correspondent au Nom suivi d un Adjectif Ces s quences peuvent tre plus longues quand le nom est galement modifi par un groupe pr positionnel Des patrons syntaxiques qui sont donc pr d finis partir d une analyse linguistique des propri t s caract ristiques des adjectifs relationnels favorisent l extraction des termes candidats la plus correcte et la plus efficace Le corpus ouvert en entr e doit avant tout traitement tre tiquet et lemmatis Apr s cette tape de pr traitement du corpus le programme a ensuite recours des grammaires locales base d expressions r guli res pour
56. total des axes paradigmatiques et syntagmatiques c est dire une impossibilit ou une r duction importante des possibilit s de commutation et ou d expansion partielle Dans la section suivante nous allons voir que les auteurs ont propos diff rents termes pour d crire le figement Ces divers termes permettent aux auteurs d exprimer des nuances dans leur th orie du figement 1 3 Une profusion terminologique Certains auteurs classiques ont propos diff rents termes pour d crire le figement ces diff rentes d nominations illustrent en fait des points de vue th oriques divergents et permettent de mettre en relief le fait que le figement est un ph nom ne irr gulier Ferdinand de Saussure a parl dans le Cours de Linguistique G n rale 1916 expression ou de locution toute faite Cette qualification laisse transpara tre le caract re immuable inh rent ce type d expressions Le propre de la parole c est la libert des combinaisons Il faut donc se demander si tous les syntagmes sont galement libres On rencontre un grand nombre d expressions qui appartiennent la langue ce sont les locutions toutes faites auxquelles l usage interdit de rien changer Ferdinand de Saussure Cours de Linguistique G n rale 1916 Charles Bally dans son Trait de Stylistique 1909 consacre un chapitre aux locutions phras ologiques Parmi ces locutions il distingue les
57. traitement de corpus sont enregistr es dans ce r pertoire L utilisateur est ensuite amen choisir la langue sur laquelle il souhaite travailler l anglais le fran ais le grec le norv gien l italien le portugais le russe et le tha Le chargement d un texte s accompagne dans ce logiciel d une boite de dialogue permettant de proc der un pr traitement du texte La fen tre de pr traitement portant l ent te Preprocessing And Lexical Parsing se pr sente sous la forme suivante Preprocessing E Lesicel parsing x Prep ces aie e App PSI a MEROE mod ur c tin sage Presro a JSt eCart hL Sat e App PSI ia REPLACE mia n rore hioripi Presro a fat vf ptate 4 Sat Tobin rag The tent is automne aiy tobcerezet This oper stion 5 language deper ant S0 thl Lex can handie languages wih special spacing rules Lexica Parsing r Appi Al defa D ctionertus Cancri bif lorma bd Cancel and chose tmd Consirucdi Ted Aiforrationn Figure 4 h Unitex Fen tre permettant de proc der au pr traitement du texte et l application des ressources linguistiques Comme nous pouvons le voir cette fen tre est proche de celle propos e par Intex La premi re option permet de segmenter le texte en phrases la seconde permet d effectuer des Page 63 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais remplacements dans le texte Ces remplacements consis
58. travail pour d crire un pr dicat et ses arguments Les verbes compos s M Gross utilise le terme de verbes compos s pour d signer les verbes qui apparaissent dans des expressions fig es Cet adjectif compos permet de signifier que les expressions dans lesquelles figure ce type de verbes sont non compositionnelles du point de vue s mantique c est dire que le sens de ces expressions n est pas pr dictible Il est donc aussi possible de parler de verbe fig Une propri t soulign e par de nombreux auteurs r side dans la possibilit pour un verbe fig d tre substitu par un verbe ordinaire En effet le verbe qui appara t dans une phrase fig e et le ou les compl ments avec lesquels il est employ peut tre substitu par un verbe morphologiquement simple et s mantiquement quivalent Ex Zara Max casse du sucre sur le dos de Luc x Max d nigre Luc Le verbe compos et ses compl ments casser du sucre sur le dos de peut tre substituer par le verbe simple d nigrer Page 25 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Les verbes supports Il s agit de verbes qui comme leur nom l indique servent de support des pr dicats nominaux Les verbes supports sont des verbes de sens g n ral qui n ont pas de fonction pr dicative et qui apportent un substantif pr dicatif les informations de temps de personne et de nombre et des i
59. version lectronique du quotidien Le Monde Ce fichier qui correspondait la version du 13 avril 2003 tait au format XML Ce fichier a ensuite t modifi afin de constituer un fichier texte au format brut Le choix d un corpus journalistique peut se r v ler p rilleux En effet ce choix implique un autre type de contrainte et de difficult les ph nom nes de d figement Les d figements peuvent tre s mantiques et ou syntaxiques Ce ph nom ne est assez courant et concerne autant la langue crite que la langue parl e La presse fran aise a tr s souvent pour ne pas dire syst matiquement recours au d figement pour produire les unes et les articles les plus accrocheurs possibles La superposition d une lecture fig e une lecture litt rale provoque g n ralement une ambigu t souvent recherch e par les m dias pour cr er un effet humoristique Ex 5 1 a Tyler Hamilton trahi par son sang L exemple 5 1 a est bien un exemple de d figement Tyler Hamilton cycliste a t contr l positif un test de dopage L expression trahi par son sang implique g n ralement un emploi au sens figur lecture fig e le mot sang fait dans cet emploi l r f rence aux liens familiaux Cette expression est ici employ e au sens propre lecture compositionnelle Selon Alain Rey 1997 le d figement suppose des modifications dans un arrangement stable suppos connu mais non pas dan
60. 70 Marie V ronique LEROI Ce tableau d analyse figurant en annexes indique si les s quences verbales figurant dans le texte sont des verbes libres des verbes supports ou des verbes entrant dans des s quences fig es Nous pouvons voir dans ce tableau que ce corpus compte pr s 13 de locutions verbales Il est aussi possible de voir que 5 verbes support figurent dans ce texte Cette classification peut tre contest e dans la mesure o d autres crit res sont applicables pour distinguer ces s quences Cette analyse a t particuli rement difficile en raison des diverses contraintes que nous avons vues dans la section 3 Contraintes li es aux locutions verbales En effet certaines constructions fig es emploient des verbes qui ne le sont pas la question s est alors pos e pour ces cas de d terminer si le verbe joue juste un r le de support ou s il peut tre consid r comme tant fig De m me que dire des verbes employ s avec des locutions adjectivales ou adverbiales Pour la construction du programme Verbalex nous avons adopt la d marche suivante toute suite verbe compl ment s est consid r e comme tant une locution verbale d s lors que le verbe ou l un des compl ments pr sentent un degr quelconque de figement 5 3 Traitement et r sultats produits par les logiciels Intex et Unitex 5 3 1 Intex Le chargement du corpus sous Intex ne n cessite pas un format d encodage pr cis pour le fich
61. Astro Boy et la passion des Nippons pour les humano des Yokohama de notre correspondant Cr en 1951 par Osamu Tezuka qui en fait d abord le h ros d une bande dessin e avant de porter l cran ce qui deviendra la premi re s rie anim e de la t l vision nippone en 1963 Astro Boy ou Tetsuwan Atom en japonais est l enfant robot le plus c l bre de l archipel Dans l histoire originale le professeur Tenma invente un robot l image de son fils mort et l active le 7 avril Depuis longtemps attendue par les fans de la s rie la journ e du 7 a donn lieu toutes sortes de c l brations d un d fil costum devant la gare de Takadanoba Tokyo site du laboratoire du professeur Tenma la naissance d un Astro Boy grandeur nature Robodex pilot e par nul autre que Macoto Tezca fils d Osamu Tezuka en passant par la diffusion d anciennes et nouvelles s ries par la t l nippone En v hiculant l image du robot gentil Astro Boy s apparente une sorte de mythe fondateur de la robotique humano de Page 112 Marie V ronique LEROI nipponne Tous ceux qui s occupent de robots ici ont en t te Astro Boy il n y a pas de tabou au Japon comme il peut y en avoir en Occident sur le fait de recr er une forme humaine et de vouloir rivaliser avec Dieu explique Junji Suzuki de Mitsubishi Abandonn par son cr ateur dans un cirque pour robots Astro Boy sera recueilli par un autre scientifique avant d embrasser une carri
62. Larry Wall en 1986 pour g rer un syst me de News entre deux r seaux PERL est un langage interpr t qui n est pas compil et qui est donc moins rapide qu un programme compil L interpr teur PERL est n cessaire pour ex cuter le programme Ce langage est traditionnellement utilis pour g rer des fichiers au format html notamment en ce qui concerne les scripts CGI Le module Tk aussi d nomm e Tool kit Tk propos par PERL permet de cr er et de g rer des interfaces graphiques Perl Tk utilise les caract ristiques orient es objet de PERL et n est pas uniquement destin aux utilisateurs de PERL mais convient aussi programmes crits en langage C Ada ou Python Le langage Perl Tk manipule des Widgets qui constituent des briques de base L criture d un programme en Perl Tk consiste donc dans la cr ation la manipulation et le placement des widgets Description de l interface L application Verbalex a dans un premier temps pris la forme d un diteur de texte classique du type Bloc Notes ou Notepad savoir une zone de texte encadr e par un menu Fichier et un menu Edition proposant leurs fonctionnalit s classiques respectives Cette interface graphique a ensuite t enrichie de divers autres menus mais galement d ic nes et d onglets Des proc dures permettant d effectuer des recherches ou des remplacements ont tout d abord figur sous le menu Edition puis ont t d plac es sous un menu sp
63. MA TRISE DES SCIENCES DU LANGAGE MENTION INDUSTRIES DE LA LANGUE MEMOIRE DE RECHERCHE Le Traitement automatique et lexicographique des locutions verbales fig es en fran ais Pr sent par Mare V ronique LEROI Sous la direction de Mr Fleury UNIVERSITE PARIS III SORBONNE NOUVELLE ILPGA Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Remerciements Je tiens remercier toutes les personnes qui ont pu m aider et qui sont intervenus d une mani re ou d une autre dans la r alisation de ce m moire notamment Monsieur Fleury pour sa disponibilit son coute et son aide Madame Samvelian pour ses pr cieux conseils et enfin Monsieur Salem qui m a permis de recentrer le sujet de ce travail pour son amabilit Je tiens galement remercier mes amis et amies qui m ont beaucoup encourag e tout au long de cette ann e Je d die ce m moire mes parents qui je dois tout Page 2 Marie V ronique LEROI Table des Mati res Tnirod uct iOn ee en ces es eia n E E a a ne On 10 Les propri t s linguistiques du figement et des locutions verbales 10 I Les locutions verbales fig es en fran ais 10 1 Le Figement scccmssnassascasosenennantnnmeensitaanesnaucsnenstss 10 1 1 Le figement une exception dans la langue 10 122 D finitions 2 nene ee ne den ee eo ee 11 1 3 Une profusion te
64. RMESTETER Ars ne Trait de la formation des mots compos s Paris Bouillon 1874 DUGAS Andr La cr ation lexicale et les dictionnaires lectroniques Langue Fran aise 1990 N 87 pp 23 329 GAATONE David Les locutions verbales pour quoi faire Revue Romane 1981 volume 16 Copenhague GAATONE David Les locutions verbales et les deux passifs du fran ais Langages 1993 N 109 pages 37 52 Page 99 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais e GIRY SCHNEIDER Jacqueline Les pr dicats nominaux en fran ais les phrases simples verbe support Gen ve Droz 1987 391 p e GROSS Gaston Les expressions fig es en fran ais noms compos s et autres locutions Paris Ophrys 1996 e GROSS Gaston Lexicographie et Grammaire Cahiers de lexicologie 1981 Vol 39 2 pages 35 46 e GROSS Maurice Les limites de la phrase fig e Langages 1988 n 90 p7 22 Larousse Paris e GROSS Maurice Sur les d terminants dans les expressions fig es Langages 1985 Vol 79 Larousse Paris e GUILLET Alain Reconnaissance des formes verbales avec un dictionnaire minimal Langue Fran aise 1990 Vol 87 Larousse Paris e HABERT Beno t JACQUEMIN Christian Noms compos s termes d nominations complexes probl matiques linguistiques et traitements automatiques 1993 Volume 34 Traitements automatiques de la composition nominale
65. Un programme temporis d nomm Webget permet de r cup rer tous les nouveaux documents dit s par un portail donn de la Toile Le Webget a t configur pour extraire tous les nouveaux articles d un quotidien en langue portugaise Ces textes sont enregistr s et r pertori s dans une base de donn es Chacun des textes est alors trait individuellement afin d extraire un ensemble de termes candidats Un serveur d nomm SENTA permet de proc der ce processus d extraction La liste de termes candidats est produite par SENTA est enregistr e dans une base de donn es comportant les expressions fig es potentielles qui seront ensuite valid es manuellement et enrichies linguistiquement La validation des expressions tient compte d informations contextuelles et statistiques La validation d une expression entra ne l enrichissement linguistique de celle ci Cette phase consiste associer chaque expression aux diff rents types d expressions fig es propos s par Gaston Gross 1996 c est dire cat goriser ces expressions en tant que noms compos s locutions verbales locutions adjectivales d terminants compos s locutions adverbiales ou locutions pr positives ou conjonctives Des informations morphosyntaxiques sont apport es gr ce au dictionnaire lectronique POLLUX de langue portugaise afin de constituer une base de donn es d expressions fig es tr s compl te Le logiciel SENTA charg d extraire les termes
66. a d termination tant contrainte la suite est consid r e comme tant fig e La compositionnalit ou plus pr cis ment la non compositionnalit a chez la plupart des auteurs constitu le crit re principal de reconnaissance des expressions fig es comme nous l avons d j dit dans la section pr c dente Robert Martin 1994 d finit la non compositionnalit comme un ph nom ne observable essentiellement en synchronie dans la mesure o historiquement la non compositionnalit n existe pas L opacit s mantique proviendrait de d motivations tymologiques L expression porter le chapeau aurait par exemple pour origine une coutume m di vale qui consistait faire porter un chapeau ridicule aux personnes condamn es et de les promener ensuite travers les cit s Gaatone par exemple parle de non calculabilit du sens le sens global d une locution en g n ral et d une locution verbale en particulier ne peut tre obtenu par l addition du sens des constituants individuels comme cela se ferait pour un syntagme verbal Chez Gaatone le terme syntagme d signe une suite libre alors que le terme locution verbale renvoie une suite fig e Comme nous l avons vu dans les sections pr c dentes une m me suite peut offrir deux lectures C est ce que nous pouvons remarquer dans un exemple propos et analys par Roy 1976 Mettre au pied du mur 1 lecture d po
67. a police ne prend pas arvldu tout en compte ces preuves Il est remarquer que cet exemple est particulier le groupe nominal objet peut tre d plac sans rendre la phrase agrammaticale Ex 3 b prendre en compte La police ne prend pas ces preuves en compte Cette variante est acceptable mais rel ve peut tre davantage de l oralit Nous pouvons aussi nous demander juste titre si la s quence prendre en compte constitue une locution verbale ou au contraire s il s agit d une construction verbe support Page 52 Marie V ronique LEROI La police ne prend pas en compte ces preuves La police ne prend pas vraiment en compte ces preuves Insertion de modifieurs La police ne prend pas en compte important ces preuves La police ne prend pas n est il pas vrai en compte ces preuves Relativation Le compte que prend Pierre de ces preuves G nitif Le compte de Pierre de ces preuves EEE D Locution Verbale Figure 3 a Tests de distinction entre locution verbale et construction verbe support pour la s quence prendre en compte Comme nous le montre la figure 3 a l insertion d un adverbe ou d une suite de type adverbiale est le seul type de modification tol r par la s quence prendre en compte D apr s ce que nous avons vu dans la premi re partie les diff rentes transformations op r es sur cette s quence auraient t permises
68. ait que la principale ressource lexicale en mati re d expressions fig es est la table Cld mais comme on pourra le voir en annexes cette table ne d crit que les expressions correspondant au patron syntaxique pr cis NO V DET N1 et l expression casser sa pipe ne figure pas dans cette table En effet s il ne fait aucun doute que cette expression est fig e celle ci est plus difficile formaliser dans la mesure o le possessif doit tre cor f rent au sujet Intex et Unitex sont donc des outils tr s puissants et tr s performants en mati re de traitement de corpus la condition de disposer des ressources linguistiques n cessaires En effet la construction de grammaires locales pour d crire avec pr cision les s quences verbales fig es permettrait de cr er des transducteurs dont l application pourrait aboutir la reconnaissance automatique de telles s quences Page 77 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais II Elaboration de l application Verbalex 1 L application Verbalex 1 1 Principes et Objectifs La conception du logiciel Verbalex a pour objectif de r unir des outils pour le traitement de s quences fig es et plus particuli rement des locutions verbales Le logiciel vise donc l extraction des s quences verbales pr sentant un caract re fig La m thodologie adopt e pour la r alisation de ce programme diff re totalement de celle adopt e par
69. alit du sens et elle ne fait que contraindre la libert de cooccurrence Une s quence comme cr er un fichier est un exemple de collocation Dans une perspective de Traitement Automatique une collocation pourrait se d finir comme des s quences de mots anormalement r currentes et qui correspondent des associations statistiques pr f rentielles Ce terme n est donc pas tout appropri pour d signer les s quences verbales fig es En effet le terme de locution verbale pr sente l avantage ou l inconv nient selon les points de vue de ne pas donner d indication sur le degr de figement de la s quence qu il repr sente et est donc g n rique Un terme dans le domaine linguistique de la terminologie repr sente un signe linguistique qui accompagne l apparition d un nouveau concept dans un domaine donn Le mot terme dans cette premi re partie n a pas t utilis dans son acception la plus neutre et Page 37 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais commune savoir l quivalent du mot Nous verrons que dans la seconde partie la notion de terme sera aussi bien utilis e dans son acception linguistique savoir en tant qu objet d tude de la terminologie que dans son acception classique Nous verrons que le figement et les locutions verbales posent des probl mes particuliers pour le traitement automatique Nous allons voir da
70. ani re conserver les signes de ponctuation TreeTagger permet aussi de proc der la lemmatisation du fichier apr s l avoir tiquet La lemmatisation La lemmatisation consiste remplacer une forme fl chie par son lemme Le lemme constitue la forme de base d un mot donn La lemmatisation pr sente donc cette forme de base sans aucune marque de flexion pluriel d sinence ou forme conjugu e d un verbe La lemmatisation permet de remplacer une forme actualis e par sa forme canonique Le lemme ou la forme canonique d un mot constitue une entr e de dictionnaire Le lemmatiseur Flemm a t int gr l application Verbalex pour proc der la lemmatisation du texte Flemm est un programme crit en Perl Ce lemmatiseur prend en entr e un fichier au pr alable tiquet morphosyntaxiquement Flemm lemmatise un fichier tiquet par les tiqueteurs Brill ou TreeTagger Ce lemmatiseur proc de une v rification TreeTagger www ims uni stuttgart de projekte corplex TreeTagger DecisionTreeTagger html Flemm http www univ nancy2 fr pers namer Telecharger_Flemm htm Page 85 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais des couples mot tiquette Flemm corrige si besoin les tiquettes pour calculer le lemme du mot Ce calcul se fait base d une centaine de r gles Ce syst me utilise un lexique r duit qui comporte diff rentes listes d exception
71. aract re non compositionnel du sens dans ces locutions a Page 28 Marie V ronique LEROI longtemps t l un des principaux crit res qui permettrait d identifier une s quence fig e Nous tudierons dans la section suivante quels sont les diff rents crit res propos s par les auteurs pour reconna tre les locutions verbales 2 3 Traits caract ristiques des locutions verbales fig es Il est possible de voir au travers des diff rents travaux produits par les diff rents auteurs que le terme de locution verbale ne d signe pas n cessairement les m mes s quences selon leurs th ories respectives Certains auteurs regroupent sous ce terme aussi bien des s quences fig es noyau verbal que des constructions verbe support Lars Lindberg 1898 d finit quant lui une locution verbale comme une proposition o le verbe s est affaibli ou a perdu son caract re de verbe et o tous les mots se sont rapproch s pour former ensemble une unit Il ajoute que ces locutions sont de sens g n ral et qu elles peuvent se figer graduellement ou subitement La diachronie prend donc une place importante dans son analyse Il est noter que d apr s sa d finition de la locution verbale fig e comme tant une locution contenant un verbe un mode personnel et qui a pris une forme fixe et perdu dans une certaine mesure son caract re primitif d signe aussi des s quences telles que voici ou voil qui sont
72. arch des changes d prime persistante des Bourses etc Alors que la perspective de la guerre en Irak avait depuis des mois fait diversion et servi d explication facile au ralentissement de la croissance toutes ces faiblesses maintenant que Bagdad est tomb e vont resurgir On s orienterait du coup vers des ann es de croissance lente molle C est l opinion exprim e mercredi 9 avril par l conomiste en chef du FMI Kenneth Rogoff pour qui il est peu probable que la croissance h sitante enregistr e actuellement dans le monde se transforme brusquement en une vigoureuse reprise conomique S il para t d licat de mesurer quel sera l impact r el du conflit irakien sur la croissance conomique mondiale du moins quelques enseignements d ordre g o conomique et g omon taire c est dire l quilibre des forces entre les diff rentes zones g ographiques semblent d ores et d j se d gager L avanc e rapide de leurs soldats les preuves donn es de leur sup riorit technologique en mati re d armements et de t l communications l efficacit de leur strat gie militaire ont probablement contribu redonner aux Etats Unis du moins dans les milieux financiers tr s sensibles aux symboles de puissance une partie du prestige que l explosion de la bulle boursi re le scandale Enron l explosion de leurs d ficits et le ralentissement de leur conomie leur avaient enlev Il n est pas impossible que l effondrement du r g
73. auteurs sont l origine de ces diverses d nominations Cette abondance est due aux divers domaines d tudes que touchent les expressions fig es Certains auteurs en effet proposent un traitement de nature strictement ou essentiellement syntaxique c est le cas de Maurice Gross d autres auteurs estiment qu il s agit d un ph nom ne d ordre lexicologique dans la mesure o les expressions fig es constituent des unit s lexicales proprement parler Ivan Fonagy a trait les expressions fig es dans un cadre d tudes phonologique et discursif Le domaine du TAL Traitement Automatique des Langues a consacr bon nombre d tudes aux expressions fig es En effet nombre de travaux du LADL Laboratoire d Automatique Documentaire et de Linguistique et du CERIL Centre d Etudes et de Recherches en Informatique et Linguistique ont trait les expressions fig es dans une perspective de traitement automatique Parmi l ensemble des s quences qui pr sentent un caract re fig il est possible de remarquer que les noms compos s et les locutions verbales sont les constructions qui ont fait l objet du plus grand nombre d tudes chez les linguistes Le travail pr sent ici porte sur le traitement automatique et lexicographique des locutions verbales fig es en fran ais et proc de donc une description du figement pour ce faire Ces locutions qui posent de nombreuses difficult s dans le domaine du Traitement
74. c ou remplac par une variante aspectuelle Ex 1 2 1 a tre bon public Pierre est bon public Pierre a des amis bons publics effacement Pierre est devenu bon public remplacement par une variante aspectuelle gt ETRE Verbe Support La reconnaissance de la zone fixe permettrait d aboutir la constitution d une base de donn es contenant les formes de diff rentes expressions fig es existantes ainsi que leurs propri t s Cette m thodologie permettrait de reconna tre automatiquement les expressions Page 41 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais fig es dans la mesure o les formes donn es par le dictionnaire apportent aussi des informations distributionnelles La zone fixe d une locution comme casser sa pipe serait donc d crite de la mani re suivante NO Casser Poss pipe NO est une variable d signant le groupe nominal Sujet Le possessif Poss est donc variable La zone fixe permet donc de reconna tre des s quences fig es m me lorsque ces derni res connaissent des variations Mais reconna tre cette zone fixe ne revient pas assurer la pr sence dans le corpus trait de la locution correspondante Dans certains cas rep rer la zone fixe d une expression fig e peut s av rer suffisant pour affirmer que cette expression figure dans le corpus c est le cas quand un mot n appara t que dans le cadre de la locuti
75. c pas t n cessaire de cr er des proc dures manuellement les proc dures propos es par ce package permettent de Page 81 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais rechercher un l ment donn occurrence par occurrence comme c est le cas dans le Bloc Notes il en est de m me pour les remplacements Une proc dure de recherche a toutefois t cr e manuellement afin de surligner simultan ment dans le document toutes les occurrences de la cha ne recherch e les lignes o apparaissent la forme recherch e sont aussi recens es dans une fen tre de type popup qui s ouvre quand la recherche est termin e et qui permet l utilisateur de sauvegarder le r sultat obtenu Les trois items composant la seconde partie de ce menu permettent d acc der l onglet Traitements Textuels et aux sous onglets correspondants La figure suivante repr sente ces trois sous onglets t Traitements Textuels Dictionnaire des locutions verbales fig es Feuille de Style XSL Formes Graphiques du fichier Etiquetage du Document Lemmatisation du Document D limiteurs AN gt AMUMNIMNSE Su ANA Figure 1 2 c Verbalex Les sous onglets de l onglet Traitements Textuels Il est donc possible par l interm diaire de ce menu de pr parer le corpus pour le filtrage des locutions verbales Les diff rents sous onglets permettent donc de pr traiter le texte
76. candidats joue donc un r le d importance dans cette cha ne de traitement SENTA acronyme de Software for the Extraction of N ary Textual Associations est un logiciel visant l extraction terminologique et qui a recours une m thode probabiliste pour ce faire Trois concepts essentiels participent au bon fonctionnement de ce logiciel les mod les N grams positionnels la mesure d association Expectative Mutuelle et un algorithme d extraction GenLocalMaxs L extraction est tout d abord bas e sur la construction de mod les N grams positionnels Un N gram positionnel est une s quence ordonn e de N unit s lexicales correspondant une s quence d un nonc d limit par la taille d un environnement Le mod le de N gram positionnel du logiciel SENTA a t calibr de mani re constituer un environnement de sept unit s lexicales Le calibrage a pour cons quence de ne construire que les N grams positionnels tels que N 1 7 Le second concept la mesure d association Expectative Mutuelle permet de mesurer si les s quences tablies par les mod les de N grams positionnels construits partir du texte constituent des expressions fig es En effet un nouveau mod le probabiliste a t con u afin de proc der au traitement statistique de s quences constitu es de plus de deux unit s lexicales Ce nouveau mod le intitul Expectative Mutuelle permet de mesurer le degr de coh sion qui lie entre eux les l ments
77. ction d information par l attribution de mots cl s des textes ou en g n ration automatique de textes Les analyses statistiques sont g n ralement r alis es sur des corpus quantitativement importants Les r sultats produits ne sont pas directement accessibles et appr ciables Des fonctions math matiques sp cifiques permettent de d celer dans les corpus des associations pr f rentielles Les m thodes statistiques pr sentent l avantage de mettre au m me plan diff rents niveaux d analyse Elles pr sentent cependant un inconv nient de taille les donn es manant des r sultats produits sont difficiles exploiter Contrairement aux m thodes statistiques les m thodes structurelles n cessitent des connaissances linguistiques les plus pr cises et les plus compl tes possibles avant de proc der au traitement du corpus La rencontre d un mot inconnu dans le corpus devient donc probl matique et fait chouer le traitement d autres niveaux d analyse sont alors n cessaires pour rem dier ces lacunes Les op rations de filtrages apr s ce traitement sont sensiblement r duites Les m thodes statistiques si elles ne font pas appel des connaissances linguistiques avant le traitement n cessite des op rations de filtrage plus importantes apr s ce traitement pour produire des r sultats plus probants De nombreux projets d outils d extraction d information terminologique ont recours l une ou l autr
78. d Insertion de medifieurs odverbiaux possible avoir tr s vraiment froid Intre loi nton de meme structure avec Le nom froid Fa Prendre froid Figure 1 3 f Format html du Dictionnaire de locutions verbales une entr e du dictionnaire Des polices et des styles diff rents ont t attribu aux diverses informations de l entr e du dictionnaire afin de les distinguer au mieux Page 96 Marie V ronique LEROI 2 Perspectives L laboration de ce programme relevait davantage d une tude exp rimentale que de l intention de trouver LA solution qui pourrait favoriser le traitement automatique des s quences fig es fortiori celui des locutions verbales Les am liorations qui pourraient tre apport es ce programme sont donc nombreuses La premi re am lioration qui n est pas la moindre r siderait dans le perfectionnement de la proc dure de filtrage Les expressions r guli res utilis es pour d crire les patrons syntaxiques potentiels des locutions doivent tre retravaill s pour affiner davantage le filtrage et parer aux ph nom nes de discontinuit Le corpus choisi dans le cadre de ce travail tant d une taille r duite l application de m thodes statistiques pour effectuer un tri pr f rentiel dans la liste de candidats termes n tait plus de mise L utilisation de telles m thodes bien qu efficaces uniquement sur des corpus de taille importante pourrait apporter une am lioration dan
79. de d taill e de l laboration de l application Verbalex Nous aborderons les diff rents principes et m thodes utilis es pour la cr ation du logiciel ainsi que les divers probl mes rencontr s dus l impl mentation du programme mais aussi aux contraintes li es au traitement des locutions verbales Page 9 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Partie A Les propri t s linguistiques du figement et des locutions verbales T Les locutions verbales fig es en fran ais Nous allons tenter dans cette partie de d terminer ce que d signe une locution verbale fig e Avant cela il nous faut d finir ce qui est entendu par l adjectif fig et donner une description du figement Nous aborderons ensuite les locutions avec plus de pr cision et en particulier les locutions verbales fig es 1 Le Figement 1 1 Le figement une exception dans la langue Le figement est un ph nom ne linguistique complexe longtemps consid r comme irr gulier et qui a donc un caract re marginal dans la langue Maurice Gross 1985 a pourtant d montr dans ses travaux que d un point de vue statistique ces sentiments d irr gularit et d exception n avaient pas lieu d tre En effet il existerait pr s de 1800 constructions verbales qui ne mettent pas en jeu un emploi sp cifique du verbe C est le cas d une phrase telle que Ex1 1 a Luc l che le plat
80. de faire voluer la situation au niveau du traitement automatique En effet la d marche descriptive exhaustive de toutes les formes du fran ais entreprise par le LADL a permis la conception d outils exploitant les ressources produites par leur tude Intex est l un de ces outils Bien que dans le cadre de cette tude cet outil ne se soit pas r v l fort efficace Intex pourrait produire des r sultats satisfaisants La condition pour parvenir ces r sultats serait donc de construire des ressources dont des transducteurs permettant de d crire chacune des s quences fig es et pour ce faire d exploiter au mieux les fonctionnalit s propos es par ce logiciel Le traitement automatique des expressions fig es s av re donc tre une t che rigoureuse et difficile La cr ation de l application Verbalex nous a notamment permis de prendre conscience de cette difficult Au del de la difficult due au traitement des locutions verbales nous avons galement pu constater que la cr ation d un outil quel que soit son but ou son champ d application doit tre m rement r fl chie afin d offrir l utilisateur l interface la plus coh rente accessible et efficace possible En effet quels que soient la m thodologie ou l outil utilis les connaissances et les aptitudes linguistiques de l utilisateur sont mises contribution pour proc der un traitement automatique de s quences fig es La conclusion qui s impo
81. de la phrase pr sentant un caract re fig Les auteurs parlent g n ralement de locutions adjectivales verbales adverbiales ou pr positives Mot Suite compos e d un ou de plusieurs morph mes et faisant sens Cha ne de caract res comprise entre deux espaces Mot simple Unit qui ne peut tre d compos e en plusieurs morph mes S oppose aux mots d riv s Une unit de texte d finie sur l alphabet des codes ASCII et ne comportant aucun s parateur ni trait d union ni blanc ni apostrophe d apr s les travaux du LADL S oppose au mot compos Page 108 Marie V ronique LEROI N Gram Un n gram de caract res correspond une suite de n caract res Un bi grams d signe une s quence de 2 caract res dans la mesure o n 2 Opacit Une suite est dite opaque quand le sens des l ments composants ne permet pas d obtenir le sens global de la suite Dire d une s quence qu elle est s mantiquement opaque quivaut dire qu elle est non compositionnelle Phras ologie Discipline linguistique ayant pour objet les lexies complexes qui sont constitu es de plusieurs mots graphiques et qui se comportent comme des lexies simples qui sont traditionnellement appel es mots compos s locutions verbales locutions adjectivales ou encore idiotisme Polylexicalit Polylexical Une suite est dite polylexicale quand elle est compos e de plusieurs l ments lexicaux qui ne jouent
82. e Pierre a pris les mouches Lecture fig e se vexer Pierre a pris la mouche Pierre a pris les mouches Des auteurs comme Rohrer 1967 ou Bj rkman 1978 ont propos dans leurs travaux respectifs des listes de tests formels tr s pr cis pour d terminer si une s quence donn e constitue un bloc fig ne permettant qu un nombre limit de transformations Page 36 Marie V ronique LEROI Il peut malgr ces diff rents indices tre difficile de reconna tre les locutions verbales car elles ne se r sument pas un verbe fig employ avec un compl ment quelconque En effet c est la combinaison form e par le verbe et son compl ment introduit ou non par un d terminant et fig e des degr s divers qui va constituer une locution verbale 3 La terminologie adopt e Comme nous l avons vu tout au long de cette partie les termes employ s pour d crire le figement et les locutions sont nombreuses et vari es et la terminologie employ e par les diff rents auteurs souligne des points de vue th oriques diff rents Dans le cadre de ce travail une expression fig e sera d sign e par le terme de s quence Nous parlerons donc plus pr cis ment de s quences verbales fig es Danielle Corbin a cependant soulign dans ses travaux que le terme de s quence supposait une continuit entre les formes or il est possible d observer une absence de continuit entre les formes simples mais morphologiq
83. e Une boite de dialogue qui appara t en cliquant sur l item Text gt Locate Pattern permet de param trer cette recherche d taill e selon un certain nombre d options comme nous pouvons le voir dans la figure ci dessous Locate Patera Locas pallan ia De fom of Regis ep ession Grap Gi amma MAMAS Shoriesi matches Ave mi ikon mio actou Met qe wih ierd ted Search imt yio Sipan _ matches brabex ai umer arc es in ted Figure 4 j Unitex Boite de dialogue permettant de proc der une recherche Les r sultats produits sont pr sent s sous la forme de concordance dans un fichier nomm concord html qui est ouvert dans une autre fen tre que celle o figure le texte La figure ci dessous repr sente la boite de dialogue qui permet d afficher les occurrences recherch es et de construire la concordance du motif recherch Page 65 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Sant Fou 60 Como dance pi esant ation Use web browser to view De concordance Figure 4 k Unitex Boite de dialogue permettant de construire la concordance du motif recherch Nous pouvons voir sur cette figure que cette boite de dialogue est tr s ressemblante avec celle propos e par Intex Cette fen tre propose cependant quelques options suppl mentaires comme une optimisation de l affichage des concordances en utilisant un navigateur web Il
84. e feuille de style au dictionnaire permet donc de transformer ce document au format xml en page Web au format html Cette feuille de style a donc t crite avec le langage XSL eXtensible Style Language qui est un langage de formatage et de transformation Le document xsl a donc t construit en fonction des informations contenues dans le dictionnaire et en fonction de la mani re dont elles s organisent Cette feuille de style tablit Page 95 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais donc des r gles qui s appliquent des n uds bien pr cis de l arborescence du dictionnaire pour d finir des mod les Ces mod les d finissent les l ments de style qui caract risent les n uds auxquels ils s appliquent Dictionnaire des Locutions Verbales fig es du fran ais VERBALEX Figure 1 3 e Format html du Dictionnaire de locutions verbales l ent te du dictionnaire Des r gles sp cifiques ont t d finies afin de formater l ent te du dictionnaire comme il est possible de le voir sur cette figure Des ancres ont notamment t d finies afin de cr er des liens vers chaque lettre pour permettre un acc s rapide aux donn es L application de la feuille de style au dictionnaire des locutions verbales produit donc le r sultat suivant au niveau de l entr e du dictionnaire Avoir froid V Ni Eprouver une sensation de froid souffrir du froi
85. e chaise longue Ex 1 4 2 b une chaise inexorablement longue Ex 1 4 2 c une chaise tr s longue Dans les exemples Ex 1 4 2 betEx 1 4 2 0c il n est pas possible d interpr ter ces groupes nominaux comme des syntagmes fig s M me s ils permettent de se faire une id e de ce qui caract rise principalement le figement ces crit res restent tout de m me g n riques et devraient tre plus pr cis Page 17 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Crit res propos s par Gaston Gross Pour Gaston Gross une s quence fig e est une suite de mots ayant une existence autonome Cette d finition permet d opposer le figement la d rivation Une s quence fig e peut donc offrir deux lectures Prenons l exemple suivant Ex 1 4 2 d Les carottes sont cuites Cette phrase peut avoir pour interpr tation Ex 1 4 2 d i Les carottes sont cuites Les l gumes sont pr ts Dans cette interpr tation le sens est compositionnel La seconde interpr tation not e ii n est pas pr dictible partir des l ments constituant la s quence Ex 1 4 2 d ii Les carottes sont cuites La situation est d sesp r e Dans cette derni re phrase le sens est donc non compositionnel Gaston Gross introduit la notion d opacit s mantique pour d crire la phrase ii L opacit s mantique est un des crit res
86. e de ces m thodes ou des m thodes hybrides 1 2 3 L acquisition de termes en terminologie pr sentation de quelques outils De nombreuses applications ont pour objectif l extraction d information d ordre terminologique Ces applications sont connues dans le domaine du TAL et font g n ralement r f rence Des outils tels que ACABIT Daille 1994 LEXTER Bourigault 1994 et DicAssist permettent l acquisition de termes Nous allons donc voir quel type de m thode utilisent ces outils et quel est leur mode de fonctionnement 1 2 3 1 DicAssist DicAssist est un syst me visant la construction et l acc s une base de donn es d expressions fig es partir des ressources de la Toile Ce syst me s appuie sur les ressources de l Internet pour s adapter l volution constante et rapide du langage Les diff rents corpus pass s en traitement dans les outils terminologiques ne tiennent pas compte de ce dynamisme permanent et font preuve de statisme L architecture du syst me DicAssist permet de contr ler toutes les tapes de traitement n cessaires la constitution et la gestion d une base de donn es de ce type Page 43 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais DicAssist pr sente donc une architecture dite modulaire dans la mesure o elle fait appel diff rents serveurs bases de donn es et programmes qui cr ent une unique cha ne de traitement
87. e document Figure 1 2 j Verbalex Ic ne pour lancer le filtrage Ce filtrage est bas sur la d finition de patrons syntaxiques Ces diff rents patrons syntaxiques repr sentent les diverses structures morphologiques que peuvent pr senter les locutions verbales le tableau ci dessous repr sente deux de ces patrons syntaxiques Patron Syntaxique Exemple Verbe D terminant ind fini Nom Prendre la tangente V Det N1 Prendre le large Verbe Nom Avoir froid VNI Avoir lieu Figure 1 2 k Verbalex Patrons Syntaxiques de locutions verbales pris en compte par Verbalex Ces patrons syntaxiques d apr s l tude que nous avons faite dans la premi re partie repr sentent les structures morphosyntaxiques courantes de locutions verbales Il existe bien entendu des structures beaucoup plus complexes telle que V Prep Det pluriel Ni pluriel qui correspondrait la locution envoyer sur les roses Nous avons choisi de proc der uniquement au filtrage des patrons syntaxiques d crits dans la figure 1 2 a Ces deux patrons syntaxiques ont donc t formalis s sous forme de grammaire locale base d expression r guli re Cette m thode de filtrage s apparente donc celle adopt e par Daille pour la construction du programme ACABIT dans sa d marche d acquisition de terminologie portant sur les adjectifs relationnels voir la section 1 2 3 2 ACABIT Nous avons donc
88. e et des th mes abord s 5 2 Analyse du corpus Avant de proc der une analyse du corpus par des outils r guli rement utilis s par le TAL tels que Intex ou Unitex nous avons proc d une analyse manuelle Nous avons donc analys les formes verbales une une Les crit res que nous avions d crits et illustr s en 2 3 Traits caract ristiques des locutions verbales ont t repris pour analyser ce corpus Les tableaux ci dessous r capitulent et illustrent ces crit res Ex Prendre la tangente Pierre a pris la tangente Transformation Exemples Passif La tangente a t prise par Pierre Extraction C est la tangente que Pierre a prise D tachement La tangente Pierre l a prise Pronominalisation Pierre l a prise la tangente Relativation La tangente que Pierre prise Int ti Qu est ce que Pierre a pris La nterrogation tangente Figure 5 2 a Tableau r capitulatif des Crit res transformationnels appliqu s la phrase comportant la locution verbale Pierre a pris la tangente Page 69 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Groupe Nominal Sujet Groupe Nominal Objet Groupe Nominal Objet Second Verbe ou participe pass Auxiliaire Figure 5 2 b Abr viation employ e pour formaliser les structures syntaxiques d apr s Maurice Gross Le tableau ci dessus d
89. e ph nom ne ont contribu apporter au figement un caract re marginal et irr gulier 1 2 D finitions Les d finitions propos es pour le nom figement ou l adjectif fig sont tr s vari es L adjectif fig est d fini de la mani re suivante dans divers dictionnaires et ouvrages Lexis Fig se dit d un mot d une construction qui cessent de subir dans la langue une volution Petit Robert Expression locution fig e dont on ne peut changer les termes et qu on analyse g n ralement mal Ces d finitions sont pour le moins laconiques et se contentent de souligner l existence du ph nom ne tout en supposant que celui ci est irr gulier La remarque faite sur les expressions fig es donn e par Alain Rey et Sophie Chantreau dans leur Dictionnaire d expressions et locutions 1997 fournit davantage de pr cision Dictionnaire d expressions et locutions 1997 Un lexique ne se d finit pas seulement par des mots simples et complexes mais aussi par des suites de mots convenues fix es dont le sens n est gu re pr visible Ces s quences on les appelle en g n ral des locutions ou des expressions Les dictionnaires de linguistique se veulent plus pr cises et d taill es Le Dictionnaire de linguistique 1973 donne donc une d finition un peu moins vague et s appuie sur des exemples Dictionnaire de Linguistique Larou
90. e pr cision Ces calculs Page 45 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais permettent donc d effectuer un filtrage sur la liste des candidats termes pour ne retenir que les termes complexes les plus pertinents Les trois outils que nous venons de pr senter ont donc pour objectif l extraction de terminologie ou de motifs pr cis partir d un corpus donn Ces trois outils qui visent plus ou moins le m me but ont cependant recours des m thodes diff rentes qui ne s inscrivent pas tout fait dans le cadre strict des m thodologies soit statistiques soit structurelles Comme nous l avons vu l extraction de candidats termes avec DicAssist se fait ind pendamment de toute information linguistique ces informations sont apport es en aval du traitement A l inverse ACABIT et LEXTER fonde leur fonctionnement sur le traitement linguistique du corpus savoir l tiquetage la lemmatisation ou encore l analyse syntaxique du corpus pour proc der ensuite des traitements statistiques pour affiner les r sultats de l extraction Il n existe donc pas une m thode unique pour la reconnaissance automatique des s quences complexes La m thode de reconnaissance consistant dans le rep rage de la zone fixe d une expression fig e propos e par Eric Laporte s appuie sur les dictionnaires lectroniques regroupant les diverses tables constitu es par le lexique grammai
91. e que si le d terminant n est pas fig Une grande majorit des expressions fig es sont non compositionnelles du point de vue s mantique les d terminants employ s dans ces s quences n ont donc aucune contribution s mantique L absence d article pr sage que le substantif qui appara t dans la s quence fig e ne fait pas r f rence et ne renvoie aucun objet de la r alit Gougenheim 1971 fait partie Page 31 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais de ces auteurs qui estiment qu une s quence donn e est fig e d s lors que le substantif qui appara t dans cette s quence n est pas introduit par un d terminant il consid re en effet que l absence de d terminant est le seul crit re n cessaire pour d finir une locution verbale Guilbert 1961 nuance cette hypoth se en pr cisant que l absence de d terminant ne constitue jamais qu un indice de figement et ne permet pas de d finir une locution verbale Ce crit re est aussi celui choisi par Kayne 1975 ou Ruwet 1975 Maurice Gross 1985 pr cise toutefois que l absence de d terminant constitue seulement une marque de figement en se basant sur des donn es statistiques En effet le nombre de locutions sans d terminant serait assez r duit et se limiterait 1800 constructions sur les 8000 s quences verbales fig es d nombr es De plus certaines constructions libres tol rent l absence de d terminant
92. er ce type de recherche permet de filtrer des formes correspondant des patrons morphosyntaxiques pr cis et de construire leur concordance respective l issue de la recherche Cette fonctionnalit permettrait donc de rechercher de mani re simplifi e des locutions verbales dans un corpus donn Il est galement possible de voir certains caract res tels que S qui r sultent de l op ration de pr traitement du texte Le fait de cocher la case Display tags permet d afficher ces caract res Ce type de recherche qui offre pourtant de nombreuses possibilit s ne fait pas appel l utilisation de transducteurs du moins cette utilisation se fait en arri re plan Le recours des transducteurs s imposera pour la recherche de motifs complexes Intex offre donc un outil tr s Page 58 Marie V ronique LEROI performant et puissant pour ce qui est de la recherche d informations dans un texte Une autre fonctionnalit d Intex tout aussi utile consiste dans le traitement de corpus La phase de traitement est pr c d e par une phase de pr paration du texte qui s op re par l interm diaire d une fen tre qui porte l ent te Preprocessing a Text lors du chargement du texte Cette fen tre permet d appliquer les transducteurs correspondant la langue du texte et les diverses ressources linguistiques telles que les dictionnaires lectroniques DELA Detoutt Processtngs Pepiocerng w Aao
93. erbales les entr es du dictionnaire correspondent des s quences verbales dont le premier l ment sera un verbe Ce dictionnaire des locutions verbales est donc construit par le traitement d un corpus mais peut galement tre enrichi ind pendamment de tout traitement de corpus Ce dictionnaire est accessible en dehors de l application dans la mesure o il s agit d un fichier au format xml XML eXtensible Markup Language est une version simplifi e de SGML un autre langage structure balisante En effet nous avons choisi ce format de fichier afin de pouvoir structurer et hi rarchiser au mieux les informations d crivant les diff rentes entr es du dictionnaire Le choix de ce format permet notamment d acc der des fonctionnalit s sp cifiques ce langage Le standard XPATH s est notamment r v l utile pour permettre un affichage du dictionnaire par lettre de sorte que toutes les entr es correspondant une m me initiale apparaissent dans le m me sous onglet correspondant cette initiale XPATH est un langage de requ tes pour les documents XML XPATH pourrait galement permettre de filtrer les entr es en fonction des informations d crites dans leur article l utilisation de ce langage est donc parfaitement adapt e dans le cadre de ce travail dans la mesure o il offre l utilisateur la possibilit de d finir des requ tes sur la forme des entr es ou sur les diff rents l ments de cette
94. erbalex Acc der l onglet Traitements Textuels et au sous onglet Lemmatisation Lancer le filtrage des locutions verbales une fois qu un fichier a t charg Charger le dictionnaire des locutions verbales et acc der l onglet correspondant Ajouter manuellement une entr e au dictionnaire Charger la feuille de style du dictionnaire et acc der l onglet correspondant Figure 1 2 f i Verbalex Fonctionnalit s de ces ic nes Les onglets et les sous onglets permettent d afficher le texte ainsi que les versions tiquet es et lemmatis es du texte le dictionnaire lectronique des locutions verbales dans sa totalit ou par lettre ainsi que la feuille de style du dictionnaire Le dernier onglet permet de voir l arborescence des fichiers sur l ordinateur sur lequel l utilisateur travaille Outre l affichage de ces divers fichiers des options de recherche et d enregistrement ainsi que d autres fonctionnalit s sont disponibles dans ces onglets et ces sous onglets Des images crans de ces diff rents onglets et de l interface graphique de Verbalex sont pr sent es en Annexes Cette pr sentation de l interface graphique de Verbalex utilisant des onglets et des sous onglets s av re judicieuse pour l acc s par l utilisateur aux diff rents tats du fichier et autres ressources De plus le fichier ouvert en entr e qui se pr sente donc sous l onglet Document
95. erre a faim Pierre a froid Pierre a tr s faim Pierre a tr s froid Insertion de 7 f modifienrs Pierre a plus faim qu hier Pierre a plus froid qu hier Pierre a une faim de loup Pierre a un froid de canard Relativation La faim que Pierre a Le froid que Pierre a G nitif La faim de Pierre Le froid de Pierre Construction verbe Support Locution Verbale Tableau 2 3 a Tableau comparatif d une locution verbale et d une construction verbe support Le test de la relativation est d terminant pour savoir si une suite est fig e ou s il s agit d une construction verbe support G Gross ajoute que la relativation n est g n ralement pas possible quand la d termination est fig e La phrase Pierre a pris la fuite est justement un exemple de phrase o le d terminant est fig Apr s relativation cette phrase devient la fuite que Pierre a prise La phrase obtenue est agrammaticale parce que la d termination est fig e comme le montrent les tests ci dessous Prendre la fuite Prendre une fuite Prendre sa fuite Prendrel des fuites Il semblerait donc qu il ne s agisse pas d une construction verbe support mais d une locution verbale fig e Cela peut sembler trange dans la mesure o le sens de la suite est Page 30 Marie V ronique LEROI compositionnel et non opaque de plus le verbe est de sens g n ral mais l
96. es 1 4 Caract ristiques g n rales du figement Les manuels classiques de lexicologie abordent le figement dans la partie traitant de la composition Nous allons donc dans un premier temps tenter de d finir quels sont les liens entre le figement et la composition puis d couvrir les caract ristiques g n rales des expressions fig es 1 4 1 Figement et Composition Gaston Gross taye sa description du figement en utilisant un certain nombre de termes et de d finitions sp cifiques qu il est possible de retrouver chez d autres auteurs Un groupe ou un syntagme est dit libre s il correspond une s quence g n r e par les r gles combinatoires mettant en jeu la fois des propri t s syntaxiques et s mantiques l adjectif libre s oppose donc l adjectif fig Un idiotisme gallicisme anglicisme ou germanisme est une s quence que l on ne peut pas traduire terme terme dans une autre langue Un mot racine ou un mot simple d signe toute unit qui n est susceptible d aucune d composition Un mot qui n est pas un mot simple est alors dit construit Les mots construits sont donc des mots compos s de diff rents morph mes autonomes G Gross fait ressortir deux types de mots construits 1 Les mots d riv s que l on obtient par l affixation d un pr fixe ou d un suffixe une base donn e 2 Les mots polylexicaux ou mots complexes qu
97. es ISBM 2 7462 0113 5 REY Alain et CHANTREAU Sophie Dictionnaire d Expressions et Locutions Paris collection Les Usuels 1989 Dictionnaires Le Robert SILBERTZEIN Max Le dictionnaire lectronique des mots compos s Langue Fran aise 1990 Vol 87 pages 71 83 Larousse Paris LIENS INTERNET Construire et acc der une base de donn es d expressions fig es partir des ressources de la toile Ga l Dias Ludovina Carapinha Rosa Trinidade Susana Mota Marco Ribeiro et Jorge Dias Universit de la Beira Interior Portugal http www di ubi pt ddg publications tia2003 pdf M thodologie pour la cr ation d un dictionnaire distributionnel dans une perspective d tiquetage lexical semi automatique Delphine Reymond quipe DELIC Universit de Provence http loria fr projets TALN actes Recital pleniere reymon RL La description des collocations et leur traitement dans les dictionnaires Marleen Laurens http www Kuleuven ac be vlr 994colloc htm Les expressions idiomatiques de la marginalit la reconnaissance Claudia Maria Xatara Universit de l Etat de Sao Paulo Br sil http fdlm org fle article 319 idiomatique php3 Page 101 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais e L interrogation de bases de donn es comme application des classes d objets B atrice Bouchou Julien Lerat Denis Maurel LI Universit
98. es correspondant aux mots qui constituent une phrase du texte Ces trois objets dictionnaires texte et grammaires ont donc recours au m me mode de repr sentation ce qui facilite donc l impl mentation du programme La notion de transducteur et d automate est donc essentielle pour comprendre le fonctionnement d Intex Le fonctionnement d Intex s appuie justement sur l exploitation de trois types de ressources linguistiques Parmi ces ressources nous retrouvons donc les dictionnaires DELA labor s par le LADL que nous avons d crits dans la section consacr e aux dictionnaires lectroniques Ces dictionnaires comme nous l avons donc vu recensent aussi bien les mots simples que les mots compos s Les graphes produits par Intex correspondant donc aux dictionnaires aux grammaires ou aux textes constituent galement une de ces ressources linguistiques et pr sentent l avantage de pr senter de mani re compacte des ph nom nes linguistiques tant au niveau orthographique morphologique que syntagmatique ou syntaxique transformationnel Le troisi me type de ressource linguistique sur laquelle repose le fonctionnement d Intex est constitu par les tables du lexique grammaire qui sont comme nous l avons vu des bases de donn es qui fournissent une description d taill e des ph nom nes linguistiques qui sont la fronti re des disciplines de la syntaxe et du lexique Page 55 Le traitement automatique et lexicographique
99. es est des locutions verbales enintaan a aaaea a 1 Le traitement informatique des S quences Fig es 39 1 1 Les travaux du LADI lt o usa diese dha eane noni ss 39 1 2 M th d lo ie Sei osu eiee E due E ing E nee dut 41 1 2 1 La Zone Fixe des expressions fig es ssssssss1111111111111111111111111 41 1 2 2 Les m thodes statistiques et ou structurelles 000000000000000000 42 1 2 3 L acquisition de termes en terminologie pr sentation de quelques OUTRE E EEN E E E E 43 b231 DICA SSSR Teener NN 43 1 2 3 2 ACAB npaenponnu nnn a a aO 45 EA A PI DA M D E RE dE AO DOS A 45 2 Les dictionnaires lectroniques 46 2 1 Lexicographie vs Dictionnaires lectroniques 46 2 2 Le Dictionnaire Explicatif et Combinato ire DEC 50 8 Contraintes sp cifiques li es aux locutions verbales 52 4 Une pr sentation de deux outils disponibles pour le traitement de s quences fig es sesssessssesssessssssssesssessssesssessosssssessssssosee 54 Tantek 353 an ea di MANN Sa A Le ns a LAN A ae Na nur 54 DESCRIPTION Sn nn nf a ane anus fe nt abandon 54 Fonctionnement SENS n IS e E aaa Eas agi ea 56 Unitex siennes E a a A ie does a aE a E DS 62 D scriptiON ie errsirireirsisiseseiesuriierrirstiter ki rvutt ENEE NEEESE E ESEESE EiS 62 FONCTIONNEMENT End Sen 63 5 Application sur un Corpus 5 5 desde nsen ntessce 68 5 1 C n stit ti n d un COFPUS sesei rari i
100. esquels sont bas s les analyses ou les grammaires locales utilis es sont repr sent es un moment donn du traitement par des transducteurs tats finis Les transducteurs tats finis sont des graphes qui repr sentent un ensemble de s quences en entr e et leur associe des s quences produites en sortie Un transducteur est un automate tat fini Un automate tat fini dit aussi automate fini est un type particulier de transducteur tat fini La principale diff rence qui distingue ces deux proc d s consiste dans le fait que le transducteur comporte aussi bien une bande de lecture qu une bande d criture tandis que l automate tat fini comporte uniquement une bande de lecture et ne permet donc pas de production Intex a recours des expressions r guli res pour proc der la recherche de motifs dans les corpus ouverts en entr e Les graphes qui repr sentent visuellement les transducteurs tat fini permettent de pr senter de mani re plus compacte des expressions r guli res visant la recherche de motifs complexes Le transducteur d une grammaire repr sente des s quences de mots du texte et fournit des informations linguistiques d ordre syntaxique sur ces s quences Le transducteur d un dictionnaire repr sente des s quences de lettres qui correspondent aux entr es des unit s lexicales et fournit des informations lexicales sur ces s quences Le transducteur du texte repr sente des s quenc
101. est aussi possible d obtenir des informations d ordre linguistique sur la nature des formes qui composent le texte Intex reconna t en effet quatre types d unit s lexicales les affixes qui sont des morph mes d rivationnels ou flexionnels pr fixes ou suffixes pour le fran ais les mots simples les mots compos s autrement dit les s quences constitu es de plusieurs mots simples et des expressions fig es Dans le cadre o apparaissent ces informations figure aussi une indication sur la notion d ambigu t Une forme sera effectivement consid r e comme tant ambigu quand deux entr es des dictionnaires DELA correspondent cette m me forme La notion de token permet justement d claircir ce point Le token correspond la forme graphique que prend un mot simple qui figure dans le dictionnaire DELAS Au mot simple the correspondent les trois tokens suivants the The et THE Mais seule une entr e de dictionnaire repr sentent ces trois tokens savoir l entr e the determiner Cette distinction entre les diff rentes unit s d analyse d Intex est importante dans la mesure o les transducteurs ont recours ces donn es du texte Une fois que le texte a t charg il est possible de proc der une recherche dans ce texte La fen tre qui appara t en cliquant sur la fonctionnalit Locate Pattern Menu Text permet de prendre en compte plusieurs param tres qui permette
102. et par la construction de l automate du texte indique qu une des analyses possibles de cette phrase inclurait l expression fig e abandonner la partie 5 3 2 Unitex Les corpus pris en entr e par Unitex doivent tre enregistr s au format Unicode Little Endian Text Le corpus nomm CorpusUnitex txt a donc t enregistr au format unicode L tape de pr traitement qui suit le chargement du texte permet d indiquer les informations d ordre statistiques et linguistiques Page 74 Marie V ronique LEROI TE Ma i _ 2 CDecunents and Settings Ver orme Mes documents Cor pusLrties sia 56 sentence doter 2526 775 Am tokens 1506 748 simpe farms 58 10 chats 1532 1066 d simpie words 244 150 compound words 57 445 unkaowa tokens Apr s la guerre la r cession mondiale n aura pas lieu S Apr s La Querre la r cessice moadiale n aura pas Lieu Quelles sera guerre n Irak BiLes experts comtmiques AOiveEL AMjJouEd AU FEVOLE Leurs copies 5 5e fiant aux analyses de leurs Lomcloqguen militaires ila avaient x niisement du conflit S Une telle volution n allait pas manquer selon eux d avoir des co poyes industrialis s er de pr senter des efferse d vastareurs eur Le oon m nages et Sur l inrestissenment des entreprises ShAves Le flamb e anonce des cours du p trole avec la rechute prog Figure 5 3 2 a Ouverture du texte apr s chargement et pr traitement On
103. etage pour proc der ensuite la lemmatisation Page 82 Marie V ronique LEROI Figure 1 2 d Verbalex Le menu Dictionnaire Le menu qui appara t ensuite est le menu Dictionnaire aussi subdivis en deux parties Le premier item permet de lancer le filtrage des locutions verbales La seconde partie de ce menu porte essentiellement sur le dictionnaire des locutions verbales lui m me et offre donc la possibilit de charger le dictionnaire de rechercher une forme dans le dictionnaire d ajouter une entr e et de charger sa feuille de style Le dernier item permet d ouvrir la feuille de style du dictionnaire qui est accessible dans l onglet Feuille de Style Figure 1 2 e Verbalex Le menu Outils Le menu Outils offre des fonctionnalit s suppl mentaires concernant des fichiers au format html XML ou XSL Le dernier menu permet d obtenir des informations sur l application et d ouvrir une fen tre comportant l aide pour le fonctionnement du logiciel Les diff rentes ic nes apparaissant sous les menus renvoient aux fonctionnalit s propos es par les items des menus en permettant donc un acc s plus rapide Figure 1 2 f i Verbalex Les ic nes Page 83 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Les ic nes repr sent es sur cette figure permettent d acc der plus rapidement aux fonctionnalit s propos es par V
104. ette phrase est grammaticale mais est difficilement acceptable pour un locuteur natif et peu courante dans la langue n anmoins ce signe n interdit pas cette phrase Ces m mes transformations op r es sur la phrase fig e sont impossibles ou ne sont pas naturelles Phrase 2 Pierre a cass sa pipe Pierre est mort Transformations syntaxiques R sultats obtenus Page 19 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Sa pipe a t cass e par Pierre PONSIANO La pipe de Pierre a t cass e Pronominalisation Pierre Ifa cass e D tachement Sa pipe Pierre l a cass e Extraction C est sa pipe que Pierre a cass e Relativation La pipe que Pierre a cass e Tableau 1 4 2 b Tests transformationnels appliqu s la phrase Pierre a cass sa pipe Le signe indique que ces phrases ne sont pas correctes Les structures obtenues apr s les transformations peuvent tre consid r es comme tant grammaticales c est dire correspondant aux r gles syntaxiques communes mais elles interdisent la lecture fig e seule la lecture compositionnelle est tol r e Mais si l on consid re uniquement la lecture fig e alors ces phrases sont impossibles Seule l op ration syntaxique du d tachement conserve la lecture fig e de la phrase 2 Il est toutefois possible de constater que certaines constructions n ad
105. etu parie ee rura 68 5 2 Analyse du COrpUS 4 asies s veu sde sue esoun 69 Page 4 Marie V ronique LEROI 5 3 Traitement et r sultats produits par les logiciels Intex et Unitek i aAa ee i a M M M ne ner st na ie seit 71 LS ES A UE LA 12 IAEA PR N ANAPATA SEATA ERTEN ASIA EASIEST EEIEIEE EREI AAA 71 STe AO LA 120 EEE EEEE EEEE AEE EEE 74 II Elaboration de l application Verbalex 78 1 L application V rpalex 5 sectes seen n tiens 78 1 1 Principes et Objectifs vroes pete ee ee re ne tte 78 1 2 Construction du programme 80 atale e LE ARR TR EE EE EE EAE A EEO 80 Description de l iInt riite sssss sise 80 Eie ARE EEE ns 84 La lemmatisation Te 85 Le filtrage des locutions verbales mode d emploi 86 1 3 Le dictionnaire des locutions verbales 91 Pr Se O e a Eh 91 L entr e dUICHONNAIPEES SES ee ee de 93 La feuille de style du dictionnaire 95 2 Perspective Ssss nee a done di ne ne anne EOIS EDEA Ensa 97 Covel istol ninen D NAN Nr ee a Le nor 0 Bibliographie Erreur Signet non d fini OUVRAGES Siren en ne Test en ten ANT Rte a RSCTeS Eie 99 LIENS INTERNET nn net detass ne ebsos esens senei 101 OUTILS RE RS PRE RE RS 105 ANNEXES RSR Ni sa 106 Glossaire Erreur Signet non d fini Le COTpUS anse Erreur Signet non d fini Analyse du Corpus Erreur Signet non d fini Liste des
106. eur de texte d une phrase comportant une expression fig e telle que Pierre a perdu la raison repr sente donc sous forme de graphe l analyse syntaxique de cette phrase Les diff rents dictionnaires et transducteurs sont appliqu s afin de normaliser d sambigu ser et analyser lexicalement le texte Construct the Text FST Movie dur J App he Homsoson FST Pen Pot Marne JOa koca terme Ure Folowng Dcionse Dco bot Sape e te A A Daora los aa a A v Cuctaorusey ioa Compare Wod Ide J Cure dos Foose E apesaomne de Lie the tolomang iba conan ex rt r gt E Cancel oraaa F5 1 Figure 4 f Intex Boite de dialogue pr c dant la construction de l automate du texte Cette bo te de dialogue permet donc l utilisateur de choisir quelles ressources appliquer pour construire l automate du texte Le dictionnaire des expressions fig es qui correspond au DELAE est aussi appliqu au texte ainsi que le dictionnaire de d sambigu sation Page 61 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais k verrer NPr Hamis Figure 4 g Intex Graphe repr sentant le transducteur correspondant l analyse de la phrase Pierre a perdu la raison Il est possible de voir sur ce graphe que deux analyses sont possibles pour cette m me phrase La premi re analyse correspond une lecture fig e dans la mesure o le verbe correspond
107. ffet destin es tre exploit es par des programmes informatiques afin de proc der des traitements dans les divers secteurs du TAL Les caract ristiques que nous venons de d finir s appliquent particuli rement pour les travaux du LADL Comme nous l avons vu dans la section pr c dente les r sultats manant des travaux du LADL sont repr sent s sous forme de tables qui repr sentent le lexique grammaire par ailleurs des dictionnaires lectroniques ont aussi t labor s par le TAL Ces dictionnaires lectroniques constituent des ressources sur lesquelles s appuient des outils d analyse ou d acquisition de termes Les divers dictionnaires du LADL renvoient plus exactement aux dictionnaires DELA Dictionnaire Electronique du LADL La construction de ces dictionnaires est bas e sur une d finition purement formelle du mot simple qui diff re totalement de la description morphologique que nous avons donn e dans la premi re partie 1 4 1 Un mot simple se r duit donc une unit de texte d finie sur l alphabet des codes ASCII et ne comportant aucun s parateur ni trait d union ni blanc ni apostrophe Cette d finition tient donc fortement compte de la graphie des unit s L alphabet des codes ASCII compte plus de vingt six lettres dans la mesure o il comprend galement les divers caract res accentu s disponibles en fran ais Quarante et un caract res composent donc cet alphabet abcdefghijkimn
108. finit quelles sont les abr viations que nous allons utiliser pour formaliser ces structures syntaxiques fig es Nous avons tent dans la figure repr sent e ci dessous une formalisation de ces crit res pour appliquer ces transformations diverses phrases Passif N1 Aux V par NO Extraction C est N1 que NO D tachement N1 NO PRON N1 V Pronominalisation NO PRON N1 V Relativation N1 QUE NO V Interrogation Qu est ce que NO V N1 Figure 5 2 c Formalisation des structures syntaxiques produites par l application des crit res transformationnels Nous avons d cid de pr senter les r sultats de cette analyse sous la forme d un tableau fortement inspir par les tables du lexique grammaire Les s quences du corpus apparaissent dans les lignes le lemme qui pourrait correspondre la structure de base de cette s quence appara t dans la colonne suivante Quand une s quence est s mantiquement opaque le signe figure dans la colonne correspondante Le signe figurant dans les colonnes correspondant au crit re formel indique que la transformation correspondante n est pas possible Le point d interrogation indique que le r sultat produit par la transformation ne parait pas naturel mais n est pas agrammatical pour autant Les X indiquent que les s quences d crites n ont pas t analys es en d tail tant donn qu il s agit de verbes libres Page
109. he permet galement d indiquer que la pr sence d un point n est pas n cessairement le signe d une fin de phrase dans la mesure o le point sert aussi marquer des initiales et des abr viations comme dans l exemple suivant M Dupont Page 64 Marie V ronique LEROI Unitex distingue pour le fran ais trois types d unit s lexicales qui sont donc le s parateur de phrase not S une suite de lettres ou tout caract re qui n est ni une lettre ni un s parateur de phrase Le dernier type d unit lexicale peut donc d signer un espace Une fois que le texte est charg et pr trait il est possible d obtenir des informations statistiques et linguistiques dans la m me fen tre que le texte Deux autres fen tres dans lesquelles les diff rentes formes qui apparaissent dans le texte sont tri es et r pertori es Une de ces fen tres o sont visibles trois zones distinctes permet notamment de voir dans chacune de ces zones une liste de mots simples une liste de mots compos s ainsi qu une liste de mots simples inconnus qui figurent dans le texte La pr sence de ces deux fen tres r sulte de l application des dictionnaires et des ressources linguistiques Parmi la liste des mots inconnus figureront donc les noms propres car ils ne figurent ni dans le dictionnaire lectronique de mots simples ni dans celui des mots compos s Unitex permet galement de proc der des recherches pouss es sur le text
110. i d signent toute unit compos e de deux ou plusieurs mots simples ou d riv s pr existants Ces mots peuvent tre soud s et donc ne pas comporter de s parateurs Le sch ma suivant pourrait repr senter les diff rents types d unit s lexicales Page 15 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Mets Dabt s Lecicales Boot conetralt Mot racine ou mot simple Figure 1 4 1 a Les diff rents types d unit s lexicales selon Gaston Gross La composition comme le montre la figurel 4 1 a ci dessus est donc un des moyens de formation de nouvelles unit s lexicales disponibles en fran ais La composition est traditionnellement oppos e la d rivation La d rivation est un proc d r cursif la base laquelle est affix e un pr fixe ou un suffixe peut elle m me tre un mot d riv La composition est donc moins productive que la d rivation quant la formation des nouveaux mots en fran ais Figement et composition sont souvent amalgam s et consid r s comme des synonymes Mais cela n est pas av r en effet une suite compos e n est pas n cessairement fig e Les suites compos es peuvent tre s mantiquement transparentes et cet gard ne seront donc pas consid r es comme fig es Gaston Gross met en vidence deux types de contraintes qui interviennent dans sa description du figement une contrainte d ordre synta
111. icographique des locutions verbales fig es en fran ais avant de avant PREP Pr pconjs s baisse des prix N NDN z3 fs baisse des prix N NDN fs bande dessin e N NA Conc zl fs base de donn es N NDN Conc z3 fs billet vert N NA Conc zl ms cas de guerre N NDN 73 ms mp cas de guerre N NDN ms mp celle ci celui ci PRON D m zl fs celles ci celui ci PRON D m z1 fp ceux ci celui ci PRON D m z1 mp consommation des m nages N NDN fs constructeur automobile N NA Hum z1 ms cours des NDET Dnom10 cours des cour de NDET Dnom7 cours des cours de NDET Dnom10 cours du cour de NDET Dnom 7 court terme N AN 73 ms court terme N AN ms croissance conomique N NA 71 fs d abord ADV PC z1 dans l histoire ADV PCDN z1 dans la mesure ADV PCDN z1 dans le monde ADV PDETC z1 Page 122 Marie V ronique LEROI de confiance ADV PC z1 de courte dur e A EPAC Z1 de la maison A EPDETC z1 de l ADV PC z1 d fil costum N NA 72 ms depuis longtemps ADV PC z1 directeur g n ral N NA Hum zl ms douzaine de NDET Dnoml douzaine de NDET Dnom10 du moins ADV PDETC z1 conomie am ricaine N NA z1 fs conomie mondiale N NA z1 fs conomies occidentales conomie occidentale N NA z1 fp effets d vastateurs effet d vastateur N NA E01 z1 mp en cas de PREP PCDN z1 en cas de PREP PCDNI1 z1 en cas de en cas PREP Pr pconjs 6 en cas ADV Advconjs 6 en cas ADV PCDN z1 e
112. ictionnaire construit par Verbalex se pr sente de la mani re suivante 3 pe n i LLERMENT 4 rer TLTATNT tit a F rey T e K Lra g LLIRINT ee creer st e ief iis emar que ELZETN erer 4 ATA ELZEN 2 re a ATA rrr tet 4 ATA Tr tt Li a FA TE rra o a LTA a a 3 r ATA SPEL P e ie ATA S u Cr erhe 114 S d LILERMIN titre sr ATA LEIT 55 he i ATA ILLMEINT iniciale SPCDATA Figure 1 3 a Verbalex DTD du Dictionnaire Le fichier Dictionnaire xml est donc constitu par un l ment racine lt dictionnaire gt cet l ment a deux l ments fils lt entete gt et lt corps gt L l ment lt entete gt fournit des informations sur le dictionnaire telles que le titre du document ou le nom de l application L l ment lt corps gt comprend vingt six l ments qui correspondent aux lettres de l alphabet Les l ments lt lettre gt peuvent contenir plusieurs entr es ou ne pas en contenir La DTD permet donc de d finir quelles seront les informations qui constitueront l article de dictionnaire savoir quels sont les l ments et les contenus que re oivent les entr es de ce dictionnaire Nous allons voir dans la section suivante quelles sont ces informations Rxp http www cogsci ed ac uk richard rxp html Page 92 Marie V ronique LEROI L entr e du dictionnaire A une entr e du dictionnaire correspond un article de dictionnaire Les informati
113. ier ouvert en entr e 12 Imex Current Language k Francis lat DEA Fat Leoriema r Et Wida Die D Tert Cote tronc hiCer pan Corpa tini Dspip isg Tad undi se delmbed terterce 20 deleted uts 1910 UES dioere 1557 17 34 omgis iomas 48 121 tag S0 100 dois T ma EFT opie meh 1 arbre kearn D wagon onari Agcets La querre La c cension mondiale ne wira pas Lieu Agces La querre La r cession sondiale ne ita pas Lieu Quelles rercet Les ns Le gueri Les experts concsiques doivent au cd hui revoir leurs pies CL Les Wnaiyses de leu AL mes titres 1 vale mise jans m enlirement du n sit ne telle ition ne allait l manquez 221 eux de t es sequezre Jamie ingust alin e er de pr penter d s effets C vVaRTATEU Le i nscamatice des n neges et ur l investisrenent des entreprises ve l flasb e ar ce der 1e Ou p trole avec l rectrate programm e des tait pour demain peflez da catsstroghitme concaique aabiant le directeur g n ral de F le M hler tait polermmellenent voque Lin mar Le menerte de une r cession relle c1 ne purta pans doute pas Lie Figure 5 3 1 a Intex Ouverture du texte apr s chargement et pr traitement Page 71 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Il est donc possible de voir appara tre les informations d ordre statistiques et linguistiques Il est noter que le nombre de mots compo
114. ime Saddam Hussein aide faire oublier celui du Nasdaq et permette l conomie am ricaine de retrouver sa pr minence des ann es 1990 Si cette derni re n est pas vraiment contest e dans les chiffres le PIB am ricain a augment de 2 4 en 2003 trois fois plus vite que dans la zone euro elle commen ait l tre dans les esprits Autant un enlisement du conflit aurait mis mal l image d hyperpuissance conomique des Etats Unis autant une guerre courte risque de la renforcer INFLUENCE ACCRUE DE LA MAISON BLANCHE La hausse du dollar qui a suivi la prise de Bagdad semble confirmer cette analyse Le renforcement du billet vert devrait toutefois tre de courte dur e dans la mesure o Washington d sireux de stimuler son conomie et de r duire le d ficit de ses comptes ext rieurs ne souhaite pas une telle volution L encore la victoire am ricaine en Irak en augmentant le pouvoir d influence de la Maison Blanche sur les march s devrait aider cette derni re guider le dollar vers les niveaux qui lui conviennent D autant que le conflit a en parall le sem une zizanie sans pr c dent en Europe Les dirigeants de la zone euro seraient aujourd hui bien en peine de riposter aux Etats Unis si ceux ci d cidaient en guise de repr sailles mon taires contre la France et l Allemagne de d clencher une vraie guerre des taux de change Pierre Antoine Delhommais Astro Boy et la passion des Nippons pour les humano des
115. ind finis d adjectifs possessifs ou d monstratifs La d termination complexe aussi dite polylexicale est discontinue et met en jeu plusieurs mots La cat gorie des d terminants compos s comprend aussi les modifieurs fig s Il s agit en g n ral de compl ment de nom exprimant l intensit ou un trait qualificatif Ex 1 6 a elle a une peau sp de b b Dans cet exemple le modifieur c est dire le syntagme pr positionnel est fig Les locutions adjectivales Ce terme de locution d signe des adjectifs compos s dits aussi adjectivaux Comme nous l avons vu dans la partie 7 4 1 Figement et composition le figement et la composition ne sont pas synonymes et ne d signent pas le m me ph nom ne Dans l exemple suivant la locution adjectivale est constitu e par un adjectif compos Ex 1 6 b Ce travail est faire Au premier abord il peut sembler trange que le groupe de mots faire forme une locution adjectivale dans la mesure o la tendance g n rale parlerait plut t d un syntagme Page 23 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais pr positionnel Mais le fait que cette suite soit pronominalisable par le pronom le plut t que par le pronom en indique que la suite est de nature adjectivale Ex 1 6 c Ce travail est faire et le sera encore demain Dans cette construction adjectivale le sens est compositionnel
116. le Benveniste a propos dans les ouvrages Probl mes de linguistique G n rale et Formes nouvelles de la composition nominale 1966 distingue trois types de formes complexes qui sont repr sent es dans le tableau ci dessous Termes D finitions exemples 1 Compos s Unit s deux termes identifiables par le locuteur portefeuille A Va nu pieds 2 Conglom rats Unit s nouvelles form es de syntagmes complexes comportant plus de deux l ments Meurt de faim Groupe entier de lex mes reli s par divers sc 3 Synapsie proc d s et formant une d signation constante et hs sp cifique Tableau 1 3 a Les trois diff rents types d unit s complexes selon E Benveniste E Benveniste propose donc le terme de synapsie pour d signer des s quences de mots pr sentant un caract re fig Selon sa d finition une synapsie repr senterait une unit de signification compos e de plusieurs morph mes lexicaux Benveniste utilise ce terme pour mettre en vidence le fait qu il s agit d un mod le de construction diff rent de celui de la composition classique La synapsie est donc diff rente du mot compos et du mot d riv comme le montrent les exemples ci dessous Terme exemples Synapsie machine coudre Page 13 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Mot co
117. les logiciels Intex et Unitex Ces outils utilisent en effet des ressources d j existantes pour produire une analyse lexicale et syntaxique apr s avoir identifi les l ments du texte Ces ressources comme nous l avons vu se pr sentent sous la forme de dictionnaires lectroniques auxquels l utilisateur n a pas acc s dans la mesure o ils sont destin s permettre les traitements propos s par le logiciel La m thodologie adopt e pour la construction du programme Verbalex se rapproche davantage de celle employ e par B atrice Daille pour le fonctionnement de l outil ACABIT qui vise l extraction de terminologie La seule ressource utilis e pour proc der au traitement d un corpus est ce corpus lui m me ainsi que les diff rentes informations linguistiques apport es par une op ration d tiquetage et de lemmatisation La construction d un dictionnaire lectronique est le but vis par ce programme Verbalex devrait donc permettre terme de constituer un dictionnaire lectronique des locutions verbales apparaissant dans un corpus ce dictionnaire serait ensuite accessible et modifiable par l utilisateur La construction de ce programme s inscrit donc dans une conception totalement diff rente de celle adopt e par le LADL Verbalex prend donc en entr e un texte au format brut txt et non balis l insertion de cl ou tout marquage sp cifique ne sont pas n cessaires de m me que l encodage du fichier ne
118. lique un argument sujet ou objet pour opposer deux l ments dans un paradigme donn EX 2 3 c S quence non fig e prendre la route Pierre pris la route C est la route que Pierre a prise S quence fig e prendre la tangente Pierre a pris la tangente C est la tangente que Pierre a prise Comme nous pouvons le voir dans ces exemples la deuxi me phrase comportant une locution verbale ne permet pas l extraction du compl ment En effet le fait que les positions argumentales dans une locution verbale ne soient pas remplies par des classes paradigmatiques rend l extraction impossible Un autre test qui permet de reconna tre les locutions verbales est le d tachement qui permet de mettre en vidence un l ment dans une suite donn e Le d tachement est donc une transformation tr s proche de la focalisation Il est possible de remarquer que le d tachement Page 34 Marie V ronique LEROI n est possible que si le d terminant est d fini ceci est valable aussi bien pour les suites fig es que les suites libres EX AE EN D S quence non fig e acheter un manteau Pierre a achet un manteau Un manteau Pierre l a achet S quence fig e prendre la tangente Pierre a pris la tangente la tangente Pierre l a prise Les locutions verbales ne permettent pas cette transformation comme le montre la phrase ci dessus le d tachement est donc impossible pour les suites
119. ltat produit sous forme de graphes La r solution des probl mes d ambigu t s suppose l attribution de plusieurs tiquettes morphosyntaxiques pour les formes pr sentant plusieurs cat gories L exemple classique utilis pour illustrer ces probl mes d ambigu t s est le suivant Ex 1 a La petite brise la glace Selon l tiquetage morphosyntaxique appliqu produira deux interpr tations diff rentes La pet peti Ce Adj brise 1 afPron glace La pet peti tern briser 1 apet glace L tiquetage morphosyntaxique consiste donc dans l affectation automatique d tiquettes morphosyntaxiques en fonction du contexte L tiqueteur utilis dans cette application est l tiqueteur TreeTagger TreeTagger est un tiqueteur probabiliste qui se distingue des tiqueteurs basant leur fonctionnement sur des r gles TreeTagger contrairement aux tiqueteurs qui ont recours au mod le des cha nes de Markov cach es pour calculer les tiquettes des formes proc de la construction d un arbre de d cision pour tiqueter un fichier TreeTagger prend en entr e un fichier de texte brut qui ne comporte aucun balisage ou marquage Ce fichier doit n anmoins tre format de mani re un pr senter un mot par ligne pour que TreeTagger puisse proc der l tiquetage Des proc dures plus pr cis ment des scripts Perl ont donc t cr es pour r aliser ce formatage Ces scripts ont t crits de m
120. me d unit syntaxique verbale pour d signer des s quences verbales fig es d crit le verbe comme tant une sorte d op rateur servant la transformation d un nom en verbe Les unit s syntaxiques verbales d apr s cette d finition d signeraient donc des constructions verbe support et non des s quences verbales fig es Il r serve en effet le terme de locution verbale des unit s phras ologiques des mani res de parler incrust es dans le lexique de la langue par l usage constant D apr s G Gross le fait de ne pas discriminer ces deux types de constructions a d importantes implications th oriques Il tudie plus particuli rement deux phrases dont les structures paraissent identiques 1 Pierre a faim Page 29 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais 2 Pierre a froid Dans ces deux phrases le sujet est un tre humain anim et le nom qui suit le verbe est abstrait Le verbe employ dans ces constructions est le verbe avoir qui est souvent utilis en tant que support permettant d actualiser pr dicat nominal A premi re vue nous pourrions donc supposer qu il s agit de deux constructions verbe support Mais quelques tests vont nous permettre de constater que ces deux constructions sont diff rentes Ces tests et les r sultats produits sur chacune des deux phrases sont repr sent s dans le tableau 2 3 4 Pi
121. mettent pas certaines transformations mais que ces constructions ne soient pas fig es pour autant G Gross prend pour exemple le mot regarder dans le sens synonyme de concerner pour souligner cette id e Les exemples pr sent s ci dessous sont ceux propos s par G Gross Actif Cette affaire nous concerne tous concerner Nous sommes tous concern s par cette Passif affaire Actif Cette affaire nous regarde tous regarder Nous sommes tous regard s par cette Passif affaire Tableau 1 4 2 c Diff rence structurelle entre deux verbes synonymes concerner et regarder Gaston Gross met en parall le ces deux constructions dont les verbes sont synonymes Nous pouvons alors voir que la construction avec le verbe regarder n admet pas la passivation mais il s agit bien de constructions libres G Gross en vient donc conclure et insiste sur le fait que l opacit s mantique et les restriction syntaxiques vont de pair Ces crit res ne doivent donc pas tre consid r s s par ment Un dernier crit re prolonge l opacit s mantique et le blocage des propri t s transformationnelles il s agit de la non actualisation des l ments Ce crit re pose le principe Page 20 Marie V ronique LEROI suivant une suite est compos e quand aucun des l ments lexicaux constitutifs ne peut tre actualis L actualisation permet d insc
122. mpos timbre poste Mot d riv ferblanterie Tableau 1 3 b Exemples propos s par Benveniste pour la distinction de la synapsie des autres mots construits Andr Martinet dans un article intitul Syntagme et Synth me paru en 1967 introduit le terme de synth me Martinet se place du point de vue syntaxique fonctionnaliste pour d finir le synth me Ce terme d signerait donc les unit s linguistiques dont le comportement syntaxique est strictement identique celui des mon mes avec lesquels ils commutent mais qui peuvent tre con us comme form s d l ments s mantiquement identifiables D apr s cette d finition le synth me repr senterait donc une s quence form e de plusieurs mon mes lexicaux fonctionnant comme une unit syntaxique minimale Les mots d riv s sont consid r s comme des synth mes Bernard Pottier dans son ouvrage Linguistique G n rales et Introduction l tude des Structures grammaticales fondamentales 1962 utilise le terme de lexie pour d signer les unit s lexicales Une lexie est une unit lexicale m moris e Il distingue trois types de lexies Terme Exemples Lexie Simple Cheval Lexie Compos e Cheval vapeur Lexie Complexe Cheval marin Tableau 1 3 c Les trois diff rents types d unit s lexicales selon B Pottier La lexie compos e est un ensemble
123. n d argument peuvent tre des classes d objets D apr s Maurice Gross 1998 repr sentent des classes s mantiques construites partir de crit res syntaxiques Un exemple de classe d objet est la nourriture qui constitue le domaine d argument du verbe manger Un pr dicat donn s lectionne donc son argument dans une classe d objet donn e Pour les locutions verbales en revanche les positions d argument sont remplies par des l ments isol s et non par des classes d objet De m me contrairement aux syntagmes libres l actualisation des compl ments n est pas possible L actualisation concerne principalement la d termination comme nous l avons vu Dans la plupart des locutions verbales il est possible d observer que la d termination est fig e Le crit re suivant qui permet de diff rencier les locutions verbales des syntagmes verbaux est un crit re formel Le crit re formel est g n ralement celui que les auteurs privil gient dans leurs th ories En effet des s ries de tests qui diff rent selon les auteurs sont propos es pour reconna tre les locutions verbales Les tests de transformation propos s ici Page 33 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais sont ceux d crits dans les travaux de Gaston Gross repris des travaux de Maurice Gross Ces tests nous paraissent plus pertinents que ceux propos s par d autres auteurs dans la mesure
124. n fait d en fait de PREP PCDN z1 en fait d en fait de PREP PCDNI z1 en fait ADV PC z1 en fait ADV PCDN z1 en guise de PREP EPCDN z1 Page 123 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais en guise de PREP PCDN z1 en guise de PREP PCDN1 z1 en guise ADV PCDN z1 en mati re ADV PCDN Zz1 en Occident A EPC z1 en parall le ADV PC z1 en passant par ADV PV z1 en passant ADV PV z1 en peine de PREP EPCPQ z1 engins de construction engin de construction N NDN Conc z3 mp entre eux A EPC z1 quipe de NDET Dnom10 Etats Unis N NA HumColl 73 mp Etats Unis N PR Top Ppays IsoUs mp Etats Unis Etats Unis d Am rique N Loc mp tre humain N NA Hum zl ms experts conomiques expert conomique N NA Hum 72 mp finances publiques N NA z1 fp fonds mon taire N NA z1 ms forme humaine N NA z1 fs gare de NDET Dnom7 grand public N AN HumColl z3 ms grand public N AN HumColl ms grandeur nature ADV PCA z1 Page 124 Marie V ronique LEROI grandeur nature N NN z1 fs grands pays industrialis s grand pays industrialis N ANA Conc mp indicateurs de indicateur de NDET Dnom9 l encore ADV PCA z1 la journ e ADV PDETC z1 la main GN A1 z1 la paix GN A1 z1 la t l GN A1 z1 la t l vision GN A1 z1 laboratoire de NDET Dnom7 laboratoire du laboratoire de NDET Dnom7 le long ADV PCDN z1 le plus ADV
125. n le verbe avec lequel il sera combin Ex 3 d connaissance o gt Prendre connaissance D S informer Connaissance D Perdre connaissance D S vanouir La d termination est fig e dans cet exemple propos par Gougenheim 1971 la pr sence de tout article est interdite De plus une s quence ne doit pas tre n cessairement enti rement fig e pour tre d sign e par le terme de locution verbale Il faut tenir compte des degr s de figement des locutions Une autre contrainte r side dans le choix des crit res de reconnaissance faut il recourir un crit re purement formel blocage des propri t s syntaxiques un crit re essentiellement s mantique ou un crit re typographique Lequel de ces crit res faut il privil gier Et surtout lequel est applicable et peut tre d terminant dans une perspective de TAL D apr s le traitement propos par les diff rents outils que nous avons vu le crit re formel semble tre celui auquel ces derniers ont recours dans la mesure o 1l peut tre ais ment formalis Le crit re typographique peut se r v ler utile dans la mesure o les propositions incises sont g n ralement plac es imm diatement apr s le verbe le crit re s mantique joue quant lui un r le d terminant lors de la phase de validation Les deux outils que nous allons maintenant pr senter utilisent une m thodologie toute autre que celles que nous avons d finies pr c demment Ce
126. n s affaibliissant Pit p r DOTEE COUTURE tds 3 _ Vous avez chaud basan J _ Va Llaisse nous non ange p pondit Le marquise J L ne peprochais de lui tre infid le 212 Ya Ua treuverais mon Port bien peu sirable si tu ve est au Dois 15 Le moir l ch re Noina va au bal ou aux Bouffes 18 Mais il ent vroi que Mae Une grande coquette Le pauvre p re Le UE Jamais eux Italiens 11 Me de Ssinc H reen dirai seal conmu 1 Sans doute chaque chore ya dans pon Pein O Dieux encore elle y tetona 3 p ve disant per un signe 1 Enfin il va donc s en aller 3 Mais point 11 C tait ten cauc esre qui les bandome t leur passion ya Le renfor ant d un svemir qui Les effraie 3 J ais bo ent Ce soir Pour plusieurs jours t ya venir dans un moment 1 Oh j y p rirsi 53 Je eus pel en musaurant J Meureuresent Souir va leur donner Lens crivi res 1 10uand Le prisonnier Figure 4 1 Unitex Concordance du motif de recherche lt aller gt Nous pouvons donc voir que les r sultats produits sont similaires ceux produits par Intex Page 66 Marie V ronique LEROI Nous pouvons galement voir sur cette figure qu Unitex n a pas recours aux m mes tags lors de l application du transducteur de remplacement au moment du pr traitement du texte Un automate du texte peut tre g n r en cliquant sur Construct FST Text dans le menu Text ce qui permet de proc der l analyse sy
127. nformations aspectuelles Le verbe support et le pr dicat nominal avec lequel il est construit peuvent galement tre paraphras s par un verbe simple s mantiquement quivalent Ex 2 1 b Faire un voyage D Voyager Donner l autorisation D Autoriser D apr s Gaston Gross le verbe support permet d actualiser le pr dicat tout comme le fait la d sinence verbale avec le pr dicat verbal G Gross par voie de cons quence parle aussi de noms supports Ex 2 1 c Douanier Agent des douanes Des verbes comme le verbe tre avoir ou faire ont g n ralement un emploi de verbe support D autres verbes peuvent tre connot s s mantiquement et apportent aux substantifs une actualisation mais aussi une contribution s mantique EX Zelaa s Max d borde d affection pour Marie Le verbe d border semble avoir un emploi de verbe support Maurice Gross ajoute d ailleurs que les nominalisations sont des transformations qui transforment des phrases verbes ordinaires en phrases verbes supports Ex 2 1 e Max juge s v rement Luc Max porte un jugement s v re sur Luc Les verbes supports ne pr sentent pas de restriction de s lection sur l ensemble des noms comme c est le cas des verbes ordinaires Gaston Gross dans un article consacr la lexicographie 1981 utilise le terme de verbes op rateurs pour faire allusion aux verbes supports Il dit donc qu un verbe simple est traduit
128. nonc e des cours courir les honneurs V C1d PREP le DET ms cours courir les honneurs V C1d Avec la flamb e annonc e des cours courir les honneurs V C1d PREP fle DET ms cours courir les jupons V Cld Avec la flamb e annonc e des cours courir les jupons V Cld PREP le DET ms cours courir les jupons V Cl1d Avec la flamb e annonc e des cours courir les jupons V Cld PREP le DET ms court courir la gueuse V Cid sur le court courir la gueuse V C1d sur le court courir la pr tentaine V Cld sur le court courir la pr tentaine V C1d sur le tete te te te te te te te te te te te te ete te te te te te te te te te te te te te te te te te te ete te ete Page 119 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais court courir le cotillon V Cld sur le court courir le cotillon V C1d sur le court courir le guilledou V Cl1d sur le court courir le guilledou V C1d sur le court courir les filles V C1d sur le court courir les filles V C1d sur le court courir les gar ons V Cld sur le court courir les gar ons V C1d sur le court courir les honneurs V Cld sur le court courir les honneurs V C1d sur le court courir les jupons V C1d sur le court courir les jupons V Cld sur le devrait ne pas pas ADV NEG est ne pas pas ADV NEG forces forcer la mesure V C1d forces forcer la note
129. ns la seconde partie plus en d tail la construction de l application Verbalex proprement parler Page 38 Marie V ronique LEROI Partie B Les expressions fig es et les locutions verbales du point de vue du Traitement Automatique des Langues I TAL m thodologies et outils pour l analyse automatique des expressions fig es est des locutions verbales Nous avons vu pr c demment les traits linguistiques du figement et des locutions verbales Nous allons tudier dans cette partie les m thodes et deux diff rents outils qui proposent un traitement des expressions fig es dans une perspective d analyse automatique Nous verrons galement d une mani re plus d taill e les diff rentes tapes de construction du logiciel Verbalex 1 Le traitement informatique des S quences Fig es Si la litt rature est plut t abondante et h sitante en ce qui concerne le traitement linguistique des expressions fig es les choses sont tout autres dans le domaine du traitement automatique Nous verrons donc dans un premier temps que les travaux du LADL ont fortement contribu donner aux expressions fig es l importance qui leur tait due Nous tudierons ensuite quelques m thodologies possibles pour reconna tre automatiquement les expressions fig es 1 1 Les travaux du LADL Le LADL Laboratoire d Automatique Documentaire et de Linguistique a t fond en 1967 par Maurice Gross Ce centre d tudes s est ensuite
130. nstar de locution pr positive sont consid r es comme tant fig es Les locutions verbales que nous allons tudier plus en d tail dans la section suivante sont le dernier type d expressions fig es qu il nous reste pr senter Page 24 Marie V ronique LEROI 2 Les verbes et les Locutions Verbales 2 1 Les verbes Maurice Gross 1988 dans un article intitul Les limites de la phrase fig e met jour une tripartition des verbes Cette tripartition correspond en fait aux diff rentes natures s mantiques de la fonction verbale Les trois types de verbes qu il est donc possible de distinguer sont les verbes usuels les verbes compos s et les verbes supports Les verbes usuels Les verbes usuels regroupent des verbes classiques tels que manger ou donner Les verbes sont des pr dicats qui peuvent tre actualis s par leur conjugaison et par leurs compl ments Le verbe manger suppose que le sujet du verbe soit un humain et le compl ment du verbe soit un nom appartenant la classe s mantique de la nourriture Cette relation combinatoire entre le verbe et son compl ment peut tre repr sent e ainsi MANGER h n h humain n nourriture Le verbe op re une s lection sur l ensemble des noms et cette s lection est restreinte dans la mesure o n importe nom ne peut pas se combiner avec n importe quel verbe Ce type de notation sera utilis dor navant dans ce
131. nt d affiner la recherche Page 56 Marie V ronique LEROI Locale paliers n the fora ot m Regis esgremion Ge Al Tags amp Flecograred Sm ie Wod C Fecogared Compound C Flecogared Frooen Eges som bte FST output C Shortert matches le Lee not then rio socourt Longit maiches CO Merge wah roat test C Aimsiches C Regisce recogred heure Serd idon M inde ai tenace n hat T 1 ampie per mach M Use Ted ide START Figure 4 a Intex Boite de dialogue pour la recherche de motifs Le motif de recherche appara t sous la forme de lien hypertexte dans la fen tre contenant le texte une fois que la recherche a t lanc e Une bo te de dialogue appara t galement la fin de la recherche cette bo te de dialogue qui porte l ent te Display indexed sequences permet de construire une concordance du motif de recherche La construction d une concordance pour une s quence donn e consiste laborer une liste des occurrences de cette s quence en affichant galement son contexte Display inde d sequences EJ Show Machno Sequences in Cortet Lengths of Contests Sot According Ta Lelt Col 40 chars Certes Right Col Right Cot 55 chars Bu d concordance Figure 4 b Intex Bo te de dialogue permettant de construire la concordance du motif recherch Comme nous pouvons le voir sur cette figure cette bo te de dialogue offre la possibilit de param trer le nomb
132. ntaxique du texte Comme nous avions proc d dans la section consacr e l tude d Intex nous avons construit l automate du texte pour la phrase Pierre a perdu la raison qui est une locution verbale Comstruct the Text FST E Normat ation e hpp ha Monnaie ation gamma ice fs e Oean Tea FST Use Fofowiag Dictionaries puede const uchod The program w l construct the hmd FST accorde Lo the DAF ari DEC Mes proviousiy Consiracte fon De Current wext Cancel Constrect FST Figure 4 m Unitex Boite de dialogue permettant de construire l automate du texte Un transducteur de normalisation est appliqu afin de construire le transducteur du texte ul 0 A e en Ntal ins mp N al aisimp ZA perds f J he A Atalsms fs Lu V rl Ps LR Y DET l fs N al fs N PR Detl at Top PV HoFr mx fs Ntal ms x I ne perds PE y Univers Cd perdre La N4PR Det 4 Top PC ap PV IseUs ms fs V al Kms PRO z1 3fs Piare A7 pare N zl fs a VA puas VI PlsPheSls Sie Y2s Figure 4 n Unitex Automate du texte de la phrase Pierre a perdu la raison Nous pouvons donc voir sur ce graphe que la s quence perdre la raison n est pas consid r e comme une s quence compos e ou comme une expression fig e malgr Page 67 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais l application des tables du lexique grammaire et
133. on de cette entr e va permettre l criture de ces informations dans le dictionnaire Le r sultat produit sera le suivant i Dictionnaire des Locutions Verbales Mqbes du fran ais itre LU IDONS VERHALE X ef gt entet ottr j y u A naik tire ettr Lg vitre vben miles C lt initia entres vutiaies vertes Cosser me Castor sa pipes lomne tructur gt v Poss NO N1 lt stucture gt jofniton gt Mourir lt dofini hsenbut Cor lf ronce du Possessif avec lo GN Sujet tribut cremant Lotion synonyme Passer l anne gauche lt remarau Figure 1 3 c Entr e du dictionnaire pour la locution casser sa pipe L utilisation du langage XML permet donc de structurer ces informations en fonction de leurs natures Compte tenu de ces diff rentes informations la structure arborescente de ce dictionnaire pourrait donc tre repr sent e ainsi Page 94 Marie V ronique LEROI Figure 1 3 d Structure arborescente du Dictionnaire La feuille de style du dictionnaire Une feuille de style a t associ e ce dictionnaire afin de mettre en forme ce dictionnaire des locutions verbales La feuille de style a t cr e afin d offrir une meilleure lisibilit des informations fournies par le dictionnaire Le document transform par la feuille sera plus accessible qu un document XML Cette feuille de style correspond un fichier au format xsl L association de cett
134. on et qu il n a pas d emploi libre comme c est le cas dans l exemple suivant Ex 1 2 1 b NO prendre la poudre d escampette Le mot escampette n existe pas en dehors de cette locution Mais ces exemples de locutions ne sont pas les plus r pandus et la simple reconnaissance de la zone fixe s av re donc insuffisante En effet certaines contraintes formelles p sent sur des structures de phrase afin de garantir une lecture fig e de la phrase en question Nous reprendrons pour illustrer ce point l exemple casser sa pipe Un locuteur ne privil giera l interpr tation fig e que si l adjectif possessif est cor f rent au sujet libre NO et si ces derniers s accordent en genre et en nombre De plus le contexte dans lequel appara t l expression joue un r le d importance dans la d limitation de la zone fixe de cette expression Mais cela n est en aucun cas d terminant pour savoir si l expression fig e figure dans le corpus En effet quand la zone fixe d une expression fig e est reconnue l hypoth se la plus plausible est que cette expression soit pr sente dans le corpus trait Mais il ne s agit pas l d une certitude une analyse est donc n cessaire pour confirmer ou infirmer la pr sence d une locution Eric Laporte conclut en pr cisant que la reconnaissance de la zone fixe d une expression fig e apporte la pr somption que celle ci figure dans le texte Mais cette pr sompti
135. on ne peut tre assimil e une information certaine 1 2 2 Les m thodes statistiques et ou structurelles Le traitement automatique met en avant l utilisation de deux principales m thodes dans l analyse des expressions fig es dans un corpus donn une approche statistique ou une approche structurelle La m thode statistique a la particularit de ne n cessiter qu un nombre limit de connaissances linguistiques L approche structurelle quant elle requiert davantage de connaissances linguistiques En effet un outil statistique n a recours qu un lexique de mots fl chis et leurs cat gories pour assigner des tiquettes grammaticales aux mots d un texte L outil structurel a au minimum besoin de grammaires locales de la langue du texte Nous fournirons plus avant une d finition aussi pr cise que possible des grammaires locales Page 42 Marie V ronique LEROI Les travaux r cents ont tendance allier ces deux m thodes statistique et structurelle pour produire des r sultats les plus efficaces possibles Ces nouvelles approches auront par exemple recours un analyseur statistique puis un tiqueteur structurel Les m thodes statistiques sont fr quemment utilis es dans le domaine du TAL dans de nombreux secteurs particuliers Les r sultats les plus satisfaisants se retrouvent notamment en acquisition lexicale par la recherche d associations r currentes entre mots voisins ou encore en extra
136. ons contenues dans cet article sont r parties dans diverses zones La constitution de ces zones a t inspir e par la structure d un article de DEC voir la figure 2 2 b dans la partie B 2 2 Le Dictionnaire Explicatif et Combinatoire Les dix zones d finies par celui ci n ont pas t reprises dans leur int gralit seules quelques unes de ces zones ont donc t retenues pour constituer un article dans ce dictionnaire des locutions verbales AO x Morphosyntaxique GN b Cor ference du Possessif avec le sujet Locution synonyme Passer l arme gauche Figure 1 3 b Verbalex Entr e du dictionnaire pour la locution casser sa pipe Cette figure repr sente la boite de dialogue propos e par Verbalex pour la cr ation d une nouvelle entr e de dictionnaire Nous pouvons voir que cinq zones principales apparaissent Ces cinq champs Vedette Structure Morphosyntaxique D finitions Acceptions Propri t s Distributionnelles et Remarques Nota Bene correspondent respectivement la zone vedette la zone morphologique la zone s mantique et la zone Nota Bene de l article type d un DEC Les champs correspondant ces zones ont t remplis sur cette figure en fonction des informations caract risant la locution verbale casser sa Page 93 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais pipe La validati
137. onstructions verbe support ne sont pas consid r es comme tant des locutions verbales par Gaston Gross Les locutions verbales pr sentent de nombreuses ressemblances avec les syntagmes verbaux libres Gaatone r fute pr cis ment pour cette raison l utilisation du terme de locution verbale et pr f re utiliser le terme de locution pour d signer des s quences fig es dont l l ment principal n est pas un verbe Le verbe aussi bien dans une locution verbale que dans un syntagme peut se construire avec un compl ment d objet direct ou un compl ment d objet indirect Les locutions verbales ont donc la m me structure interne que les syntagmes libres Les structures sp cifiques que pourraient pr senter les locutions verbales sont rares voir inexistantes Le verbe qui appara t dans une locution verbale conna t toutes les modifications morphologiques qui lui sont propres comme c est le cas dans un syntagme verbal libre La forme verbale peut donc tre fl chie normalement qu il s agisse d un verbe libre ou d un verbe fig Le degr de figement des locutions verbales n est pas le m me pour toutes les locutions verbales il y a donc un continuum entre les syntagmes libres et les locutions verbales fig es Malgr ces similitudes il existe tout de m me quelques diff rences entre les locutions verbales et les syntagmes libres En effet dans une construction libre les l ments qui apparaissent en positio
138. opqrstuvwxyz c e i n ou u Max Silberztein 1990 pr cise que certaines lettres d origine trang re sont issues d emprunts qui ont t int gr s au fran ais Cette d finition du mot simple aboutit la d finition suivante du mot compos un mot compos est une s quence de mots simples Les mots compos s sont distinguer des groupes libres de mots simples Silberztein prend pour illustrer ce point les deux exemples suivants Ex Cordon rouge et cordon bleu cordon rouge gt cordon de couleur rouge S Groupe libre de mots simples cordon bleu cordon de couleur bleue gt bon cuisinier NSS Mot compos Page 48 Marie V ronique LEROI Le principe permettant de dissocier ces deux types de mots est le suivant Une s quence de mots simples est fig e ou compos e si l une au moins de ses propri t s syntaxiques distributionnelles ou s mantiques ne peut tre d duite des propri t s de ses constituants De ces principes et d finitions r sulte une r partition des unit s lexicales totalement diff rente de celle d crite dans le paragraphe 7 4 1 Figement et Composition figure 1 4 1 a comme nous le montre le sch ma ci dessous MOTS SIMPLES DU FRAN AIS ou graphies simples Ensemble A Ensemble B 2 Ensembles non exclusifs Ensemble des graphies constituantes de mots compos s ANTE locutions expressions Ex Midi Tols
139. ourne de l il gauche il tourne d un seul il Mais il est cependant possible d ins rer un modifieur apr s le terme qui porte les marques de la flexion Page 21 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Il tourne vraiment de l il Le tableau suivant num re les diff rents crit res propos s par G Gross qui caract rise les expressions fig es Crit res principaux Opacit s mantique Blocage des propri t s transformationnelles Non actualisation des l ments constitutifs de l expression Substitution synonymique impossible Non insertion d l ments nouveaux Tableau 1 4 2 d Principaux crit res de reconnaissance des expressions fig es Ces diff rentes caract ristiques du figement que nous venons de passer en revue ne sont pourtant pas communes toutes les expressions fig es Il s agit l de quelques propri t s g n rales qui constituent des indices pour la reconnaissance d expressions fig es Mais les crit res permettant de reconna tre des locutions adjectivales fig es ne seront pas les m mes que ceux employ s pour reconna tre des locutions verbales fig es Une autre notion intervient dans la description du figement il s agit de la notion de degr de figement Salah Mejri dans son ouvrage consacr au Figement lexical 1997 remarque que le figement s inscrit dans
140. ous allons donc voir dans cette section les diverses approches possibles pour la reconnaissance automatique des s quences fig es 1 2 1 La Zone Fixe des expressions fig es Le traitement automatique d un corpus pr suppose que tous les mots qui figurent dans ce corpus soient connus et identifi s Une op ration d tiquetage a donc une grande importance dans le cadre d une analyse automatique Cette op ration consiste donc fournir des informations morphosyntaxiques sur les mots qui composent les diff rentes phrases d un corpus donn Les informations fournies par l tiquetage diff reront selon les buts vis s par l analyse Un m me mot peut aussi bien avoir un emploi libre qu un emploi fig tiquetage ne prend en compte que les mots simples Cette tape elle seule ne permet donc pas de reconna tre les locutions verbales Eric Laporte 1988 introduit la notion de zone fixe pour d crire un mode de reconnaissance automatique des expressions fig es La zone fixe d une expression fig e d signerait la partie de l expression qui admet un nombre de fixe mots simples m me si ces mots sont susceptibles de variations morphologiques Dans le cas des s quences verbales les verbes supports sont exclus de la zone fixe Dans une expression telle que tre bon public la zone fixe se limitera bon public dans la mesure o le verbe tre est un verbe support et qu il peut donc tre effa
141. ouvent la limite de ces deux disciplines dans la mesure o elles sont r gies par des r gles syntaxiques r guli rement mais qu elles sont s mantiquement quivalentes une unique unit lexicale Si une locution verbale est consign e dans un dictionnaire sous quelle entr e doit elle tre d crite Est ce sous l entr e correspondant au verbe ou celle correspondant au nom qui constitue la t te du groupe nominal objet G Gross 1987 estime que la solution adopt e par les dictionnaires n est pas satisfaisante dans la mesure o les expressions fig es figurent g n ralement en fin d article pour un souligner un emploi figur G Gross r pond cependant une de ces questions en indiquant que les expressions fig es n tant pas pr dictibles doivent tre d crites dans le dictionnaire le sens de ces s quences ne pouvant tre obtenu par celui des l ments constituants ces expressions doivent faire l objet d une m morisation comme lorsque l on apprend un nouveau mot Un dictionnaire d usage contient donc principalement des informations correspondant au lemme du mot sa cat gorie syntaxique sa d finition ses diff rentes acceptions et ventuellement quelques exemples Les dictionnaires lectroniques sont g n ralement constitu s d une mani re toute autre En effet les dictionnaires lectroniques ne sont normalement pas destin s tre utilis s par un utilisateur humain comme l affirme
142. par un verbe de sens g n ral d sign sous l appellation de verbe op rateur accompagn par un substantif de m me racine que le verbe simple Ex 2h Le juge a lu le verdict Le juge a donn lecture du verdict Chacun des trois types de verbes d crits ici pr sentent des caract ristiques particuli res Il est cependant impossible de proposer des classes de verbes parfaitement distinctes En effet ces trois classes de verbes sont tr s proches et peuvent se confondre dans la mesure o les trois types de constructions ont recours au m me lexique BEX 2 Lil Max porte une caisse Page 26 Marie V ronique LEROI EX 21 92 Max ne porte pas Luc dans son c ur Ex 2 1 G 3 Max porte de l affection Luc Le verbe porter est pr sent dans ces trois phrases mais il n a cependant pas le m me emploi Dans la phrase g 1 il s agit d un verbe ordinaire la phrase n est donc pas fig e et le verbe porter a un emploi libre Dans la phrase g 2 en revanche le verbe porter est un verbe compos employ dans une phrase fig e et la phrase g 3 emploie ce verbe en tant que support du nom affection Comme nous pouvons le voir un m me verbe pr sente les trois emplois d crits ci dessus Le contexte peut permettre de d terminer s il s agit d un verbe ordinaire d un verbe support ou d un verbe fig Maurice Gross souligne cependant que certaines expressions fig es ont recours un
143. pas de r le ext rieur la s quence Synapsie S quences de mots fig es d apr s la terminologie d Emile Benveniste unit de signification compos e de plusieurs morph mes lexicaux Synth me D apr s la terminologie d Andr Martinet 1967 unit s linguistiques dont le comportement syntaxique est strictement identique celui des mon mes avec lesquels ils commutent mais qui peuvent tre con us comme form s d l ments s mantiquement identifiables Transducteur tat fini Graphe repr sentant un ensemble de s quences en entr e et leur associant des s quences produites en sortie Un transducteur est un automate tat fini qui se distingue cependant de ce dernier dans la mesure o il comporte aussi bien une bande de lecture qu une bande d criture qui permettent de fournir des informations sur une forme du texte Un transducteur est constitu d un ensemble de n uds dont un n ud initial et un n ud terminal tous les autres n uds repr sentent les formes du texte Terme Objet d tude de la Terminologie au m me titre que le morph me constitue l objet d tude de la morphologie Un terme a pour fonction de repr senter une notion un concept dans un domaine de connaissance D Token Unit s d informations correspondant traditionnellement aux mots simples mais pouvant galement correspondre des n grams de caract res Page 109 Le traitement automatique et le
144. peut donc voir sur cette figure le nombre de tokens pr sents dans le texte il y a donc 3536 tokens 1532 mots simples 141 mots compos s Les sauts de ligne ont t remplac s par S Les remplacements ont t effectu s apr s la cr ation d un fichier nomm CorpusUnitex snt le fichier original n a donc pas t alt r L application des ressources lexicales permet d afficher et de lister les unit s lexicales selon qu il s agit de mots simples des mots compos s et des mots inconnus ainsi que les tokens du corpus La boite de dialogue qui permet d appliquer les ressources en dehors de l tape de pr traitement se pr sente ainsi FiguresS 3 2 b Unitex Application des ressources lexicales Cette figure nous montre quelles sont les ressources lexicales disponibles dans Unitex Page 75 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais de ressources disponibles est moins important que dan Intex L utilisateur peut en plus des ressources d j disponibles appliquer des ressources externes au programme ou qu il a lui m me cr es Nous pouvons d ores et d j constater que le nombre Me aliime tmp PREP421 avoir V 21 Ple andonne A 4z1 me andontm N zi pes vandontne Abandonner DOrTTepOR anTt De L h emme is listanre AEP ost distance ADV PC s 1 vorttmie AtEFPETC n 1 l cran A4EPDETC4 s1 l image de
145. propos s par G Gross pour distinguer les s quences libres des s quences fig es Ce crit re correspond au crit re de compositionnalit propos au d but de la section Une suite est dite opaque quand le sens n est pas compositionnel et l inverse cette suite est dite transparente quand le sens est compositionnel Pour Gaston Gross la phrase ii est donc opaque ou s mantiquement fig e et contrainte lexicalement Les s quences fig es permettent donc aux locuteurs d avoir une double lecture d un m me nonc En effet un nonc peut tre interpr t de mani re compositionnelle ou fig e Le contexte d nonciation permet aux locuteurs d interpr ter convenablement un nonc il n y a donc pas d ambigu t entre ces deux lectures G Gross propose un deuxi me crit re qui est le blocage des propri t s transformationnelles Ce crit re correspond au crit re syntaxique propos au d but de la section Les s quences libres tol rent en g n ral un certain nombre de transformations ou changements de structure Ainsi des transformations telles que la passivation la pronominalisation le d tachement l extraction ou la relativation qui sont des transformations courantes sont rendues impossibles Prenons par exemple l expression casser sa pipe Cette expression dans sa lecture compositionnelle ou s mantiquement transparente signifie briser l objet qui sert fumer et qui est une pipe La
146. r le doigt dans l il Un projet d informatisation du DEC est actuellement en cours afin de constituer un important dictionnaire lectronique rassemblant les quatre volumes du DEC La structure du DEC permet donc d int grer d une mani re plut t satisfaisante les locutions verbales et autres s quences fig es Nous verrons dans une prochaine section que le dictionnaire lectronique produit par Verbalex est fortement inspir par la structure du DEC 3 Contraintes sp cifiques li es aux locutions verbales Le traitement des expressions fig es et plus particuli rement celui des locutions verbales soul ve des probl matiques particuli res au TAL En effet de nombreuses contraintes sont li es aux locutions verbales notamment en raison des variations que conna t le verbe dans le cadre de ces locutions Il est galement possible de voir qu un probl me se pose pour la reconnaissance des locutions verbales il s agit de la discontinuit qui peut s observer dans la locution Certaines locutions tol rent en effet l insertion de modifieurs qui ne sont pas fig s Parmi ces modifieurs possibles figurent les propositions incises des adverbes des adjectifs ou encore des groupes pr positionnels L insertion d une proposition incise qui est g n ralement enclav e de deux virgules constitue le cas le plus simple de discontinuit qui peut donc facilement tre rep r e automatiquement Ex 3 a prendre en compte L
147. r traiter des textes dans des langues naturelles diff rentes Ces ressources se pr sentent sous la forme de dictionnaires lectroniques comme nous l avons vu dans la section qui leur tait consacr e Ces dictionnaires lectroniques recensent de mani re exhaustive les diff rentes formes Page 62 Marie V ronique LEROI linguistiques disponibles dans une langue Les Laboratoires RELEX qui constituent un r seau informel de laboratoires ont travaill dans la mise disposition de cet outil pour des langues d usage courant telles que le fran ais l anglais ou l espagnol mais galement pour des langues aussi exotiques ou peu courantes que le tha ou le norv gien Ce logiciel fonde galement son fonctionnement sur l exploitation de ressources linguistiques Unitex a donc galement recours l utilisation de transducteurs tat fini pour traiter les corpus ouverts en entr e Les dictionnaires lectroniques DELA et les tables du lexique grammaire labor es par le LADL sont galement utilis s par ce logiciel Tout comme le logiciel Intex Unitex utilise des tokens comme unit s d analyse nous retrouvons donc les formes simples les digits et les d limiteurs auxquels Intex a recours pour proc der son analyse Fonctionnement Au lancement du logiciel une boite de dialogue propose de choisir le r pertoire de travail dans lequel l utilisateur souhaite travailler Toutes les ressources r sultant du
148. re labor par le LADL Nous allons donc voir dans la section suivante quelles sont les caract ristiques des dictionnaires lectroniques et ce qui les distinguent des dictionnaires traditionnels 2 Les dictionnaires lectroniques Nous allons donc voir dans cette partie plus en d tail les dictionnaires lectroniques En premier lieu nous tudierons ce qui distingue la lexicographie traditionnelle des dictionnaires lectroniques Nous tudierons ensuite les principales propri t s du Dictionnaire Explicatif et Combinatoire DEC tabli par Igor Mel cuk et Alain Polgu re 1995 qui pr sente l avantage de tenir davantage compte des ph nom nes phras ologiques qu un dictionnaire classique 2 1 Lexicographie vs Dictionnaires lectroniques La tradition divise g n ralement le dictionnaire et la grammaire qui toujours dans la tradition sont des outils normatifs indispensables pour d crire la langue et le bon usage Le dictionnaire qui a pour objectif la description du lexique permet de recenser toutes les irr gularit s d une langue tandis que la grammaire tablirait des r gles d crivant la r gularit et la stabilit de cette m me langue Cette vision des choses cela va sans dire est archa que id alis e et donc tr s loign e de la r alit Le lexique n est donc pas destin consigner uniquement les irr gularit s et les idiosyncrasies de la langue Malgr cette s paration quelque peu radicale du lexique
149. re a pris un livre D Qu est ce que Pierre a pris Un livre S quence fig e prendre la tangente Pierre a pris la tangente D Qu est ce que Pierre a pris La tangente Le tableau ci dessous r capitule d une mani re plus sch matique les diff rents tests propos s par G Gross Transformation Locution Verbale S quences libres Passif Extraction D tachement Pronominalisation Relativation Interrogation Tableau 2 3 c Crit res propos s par Gaston Gross pour la reconnaissance des locutions verbales Les suites verbales pour lesquelles aucune transformation n est possible auront donc un sens opaque La possibilit ou non d op rer ces transformations permet d chelonner le degr de figement des locutions verbales en effet une suite est d autant plus fig e que le nombre de transformations syntaxiques possibles est r duit Au del de ces diff rents tests il est possible d observer quelques autres traits formels caract ristiques des locutions verbales Le fait que le nombre soit invariable dans les locutions constitue l un de ces traits En effet une grande majorit des expressions fig es emploient des groupes nominaux au singulier Le passage au pluriel rend g n ralement ces s quences agrammaticales ou leur fait perdre leur interpr tation fig e Ex 2 3 h prendre la mouche Lecture compositionnelle attraper Pierre a pris la mouch
150. re d l ments pouvant appara tre dans le contexte gauche ou le contexte droit du motif recherch Page 57 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Les diverses options de cette fen tre repr sent e par la figure 4 a permettent notamment de rechercher les formes fl chies d un mot avec un unique motif de recherche Il serait donc possible de filtrer toutes les formes fl chies d un verbe partir d un unique motif de recherche ce qui peut s av rer fort efficace dans le cas des verbes du troisi me groupe qui pr sentent de nombreuses irr gularit s 12 Imex Current Language k Fronch Comcordance CMterfronchiCes gent Jok s w t Met QRA ESGragh LeckoerGrommer Eit wke pio 2x E vV Dupi fag 169 matches lopg s jous 1c1 121 Pauvre petit pous allons sourir ensemble que elle as dit eea Cetle revue 11 En bien li All nousren Tu D almes pes tre Coral 35 s pondit alle tarte quand nous y alloms 3 et encore nea quitt e Jamais nifi e demarrte fine Ce Ninphen ble Allons Venet dit Me de AlGlemont F1 na et son fr re castaient imaobiles 5 allons venez non fils 11 faut vous cou J j l t Ui CE01S QUE uD eRbassadeur LA te le dite Hais Croutat l ne s cria t elle 12 PFO4NPV Las lfah izai livrer p PPEP le IET s2 presio sir QUVIEE 3 J PFO P PY Laan lts ral Aurii 11 b fut Le secret u toi 122 PFO4NPV las lfs
151. rir la gueuse V Cld PREP le DET ms cours courir la gueuse V Cl1d Avec la flamb e annonc e des cours courir la gueuse V C1d PREP le DET ms cours courir la pr tentaine V Cld Avec la flamb e annonc e des cours courir la pr tentaine V Cld PREP le DET ms cours courir la pr tentaine V Cld Avec la flamb e annonc e des cours courir la pr tentaine V C1d PREP f le DET ms cours courir le cotillon V Cld Avec la flamb e annonc e des cours courir le cotillon V C1d PREP fle DET ms cours courir le cotillon V Cl1d Avec la flamb e annonc e des cours courir le cotillon V C1d PREP f le DET ms cours courir le guilledou V C1d Avec la flamb e annonc e des cours courir le guilledou V Cld PREP le DET ms cours courir le guilledou V C1d Avec la flamb e annonc e des cours courir le guilledou V C1d PREP fle DET ms cours courir les filles V Cld Avec la flamb e annonc e des cours courir les filles V Cld PREP le DET ms cours courir les filles V Cl1d Avec la flamb e annonc e des cours courir les filles V C1d PREP le DET ms cours courir les gar ons V Cld Avec la flamb e annonc e des cours courir les gar ons V Cld PREP le DET ms cours courir les gar ons V C1d Avec la flamb e annonc e des cours courir les gar ons V C1d PREP le DET ms cours courir les honneurs V C1d Avec la flamb e an
152. rire un pr dicat dans son contexte Un verbe par exemple est actualis par sa conjugaison L actualisation des l ments est permise dans les s quences libres mais non dans les s quences fig es L exemple qui suit illustre ce crit re Lecture compositionnelle Ex 1 4 2 e Pierre a pris une veste Pierre a pris un v tement Pierre a pris sa veste Pierre a pris cette veste Lecture fig e Ex 1 4 2 e Pierre a pris une veste Pierre a t battu aux lections Pierre a pris sa veste Pierre a pris cette veste L actualisation du mot veste qui se fait au moyen de la d termination n est pas possible pour la s quence fig e Gross utilise le terme de locution pour d signer une suite de mots dont les l ments constitutifs ne sont pas actualis s Nous reviendrons plus longuement sur la d finition de ce terme L impossibilit de substituer un mot d une s quence par un autre mot appartenant la m me classe s mantique ou par un synonyme permet aussi de distinguer les s quences fig es des s quences libres Dans l expression casser sa pipe il n est pas possible de substituer le verbe casser par le verbe briser De m me les s quences fig es n acceptent pas en g n ral l insertion d l ments nouveaux Les modifieurs sont souvent interdits Par exemple l expression tourner de 1 1i1 n admet pas des s quences telles que il t
153. rminologique 12 1 4 Caract ristiques g n rales du figement 15 1 4 1 Figement et COR ssssessissisiscsrivisiisisiesicsiiisiisiiriiis 15 1 4 2 Les crit res de reconnaissance essssseesseesesseirsesssrsesssrrsesssrrsessrrreessss 17 Des crit res P R TIQUES Sn Ron 17 Crit res propos s par Gaston Gross ss seine 18 1 5 Les diff rents types d expressions fig es 22 Les NOMS CO tissieri siiip dierok iasota eerie tike toee EEE E 22 Les d terminants ComMpos sS sssssssssssssssssssssssssssssssssssssssssssssssssrsssrssrsrssrssssrsrsn 23 Les locutions AQIeCINqIeSS nn 23 Les locutions AVErDIQIeS anneau ans 24 Les locutions pr positives et conjonctives ssssssssssssssssssssssssssssssssssssssssss 24 2 Les verbes et les Locutions Verbales ss 25 2 4 Les Verbes 41 44 4444044 sat ads ennemies ss 25 Les verbes ES seisrrtsi n a 25 Les EC 25 Les verbes sUPPOrTS eener ree 26 2 2 La notion de locution 27 EETA EEEE E E EEEE E E E EE EE E E E E EE E E 29 Page 3 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais EF UD PR ET EEA TEAS Enas EA E TETEE ASTRES 39 Les expressions fig es et les locutions verbales du point de vue du Traitement Automatique des Langlies sssssssssssissssssssmsssss 39 I TAL m thodologies et outils pour l analyse automatique des expressions fig
154. rons dans la premi re partie le processus du figement et nous tenterons de d finir et d crire ce ph nom ne Nous d terminerons ensuite ce qu est une locution verbale fig e en fran ais en tudiant les principaux traits qui la caract risent Pour cela nous verrons les diff rentes acceptions propos es par les auteurs et celles que nous adopterons ainsi que les diff rents crit res de reconnaissance possibles au niveau linguistique Dans la deuxi me partie nous proc derons une tude du figement et plus particuli rement des locutions verbales du point de vue du traitement automatique Cette seconde partie est divis e en deux sous parties La premi re nous permettra d tudier et de Page 8 Marie V ronique LEROI d crire quels types de traitements sont possibles pour les expressions fig es et quelles sont les difficult s que ce traitement soul ve Nous d crirons galement diff rentes m thodes et outils qui proposent un traitement des expressions fig es Nous tudierons plus en avant deux outils qui permettent l analyse de gros corpus Intex et Unitex con us respectivement par le LADL et l Institut d Electronique et d Informatique Gaspard Monge Nous proc derons galement une application concr te de l utilisation de ces deux outils sur un corpus constitu de deux articles de l dition lectronique du Monde et tudierons les r sultats produits La seconde sous partie est consacr e l tu
155. rpus ces deux outils il appara t que l interface de ces outils int gre la notion d expressions fig es notamment Intex Le traitement propos par ces deux logiciels n est cependant pas assez efficace La construction de l automate du texte pour une phrase telle que Pierre a cass sa pipe comportant la locution verbale casser sa pipe aussi bien dans Intex que dans Unitex n est pas consid r e comme une locution verbale autrement dit comme une expression fig e D fps asset son N rfmipisas DETH fs K pape j j V rl P3s NPR Deza Tep PCa PV se sr N rl m PP Ts Pp y Vtl Y2s 53s S1s P3s P NPR DetLst Toht PVH IsoFr fms ueseslererls Atal ms Ve Ye S S le Pas Ple Figure 5 3 2 e Unitex Automate du texte de la phrase Pierre a cass sa pipe Intex produit le m me type d analyse pour cette phrase qui comporte pourtant une locution verbale La raison pour laquelle ces deux logiciels ne parviennent pas reconna tre cette suite comme tant fig e r side dans le fait qu Unitex n a pas recours la table du lexique grammaire des expressions fig es En effet cette table n appara t pas dans une forme quelconque dans les ressources disponibles dans l application De plus la zone consacr e aux mots compos s ne fait pas appara tre les s quences verbales En ce qui concerne Intex ce probl me pourrait s expliquer par le f
156. rr abarrdotuur t lime abandonn abandinn Nellumes abandonn abardonr N zl ms atord ecord MAbateel ns Vep Ea Vet rpeitEee ail 27 Ea OLE Mica armes Hands pays Lrmstrialises La teurnte la journ e ADY l core l ancore ADY Le plus le plus Arw i cag DI terke tAn arc des changes aarch desa Cag narch Qu travail barch Ou travail vavaise Jant financi re nauvaise milieux financiers milieux Cimmmcie grend za Lette 1 grandeus nature grandeur nature iDa Tert Yocabulary stored la CUntedf rench Corpus orpus_snt r a dgrtert eo g eret a E For Simple Words 7 c Use Ea DUM 2 snow bhen byserpai suce t Drt lecrromique lt La ERR 4 urbmonmm spie modi COL reporrtnt ptemcnitaire g c cormlque ur Ea DLE 67 bocen espresseore Abenderm abandonner la partie A Abantoant cbendonnezr Le partie allait ne pas pas ADVHELC sptinisne b ar cotinisme b at NsNA aura nt pes pes ADT NEG pare industrialis s paye industrial l bat boire Le coup Vec14 w ma 4 gt Figure 5 3 1 c Intex Analyse lexicale dictionnaire des formes du texte Nous pouvons voir sur cette derni re figure que le logiciel Intex consid re qu il y a 78 mots compos s il y aurait galement 67 expressions fig es La liste correspondant ces derni res s quences figure en annexes Ce nombre para t impor
157. rs iup2 IUP coursOC 2 45 DAT e Une biblioth que d op rateurs linguistiques pour la consultation de base de donn es en langue naturelle B atrice Bouchou et Denis Maurel Conf rence TALN 1999 Carg se 12 17 juillet 1999 http talana linguist jussieu fr taln99 ps AS AS5 pdf e R flexions sur l homographie et la d sambigu sation des formes les plus fr quentes Anne Dister JADT 2000 5 me Journ es Internationales d Analyse Statistique des donn es textuelles http www cavi univ paris3 fr lexicometrica jadt jadt2000 pdf 17 17 pdf e Commentaires sur Unitex http laseldi univ fcomte fr intex Unitex htm e D velopper des grammaires Locales de lev es d ambigu t s pour INTEX Aurore Ferret S verine Gedzelmann http www u grenoble3 fr idl cursus enseignants tutin Intex htm e Formation Unitex http www igm univ mlv fr laporte proj TP2003UnitexD1 htm e Grammaires Locales S bastien Paumier http www igm univ mlv fr paumier DEA Cours 209 20 620Grammaires 20locales pdf Page 104 Marie V ronique LEROI e Enjeux linguistiques et informatiques des expressions fig es http www limsi fr Individu habert Publications Fichiers habert91b BH C1 html e Analyse et filtrage http www limsi fr Individu habert Publications Fichiers habert91b BH C2 html OUTILS Intex Logiciel http intex univ fcomte fr downloads
158. ructurer au mieux ce dictionnaire Enfin nous avons tent de proc der ici un traitement des locutions verbales dont le verbe peut tre fig ou seulement figurer dans une expression fig e dont le groupe nominal objet serait fig Selon la position que nous avons adopt e les verbes qui entrent dans un groupement verbe compl ment s fig sans pour autant tre eux m mes fig s sont consid r s comme entrant dans des locutions verbales Les verbes qui entrent dans ces locutions peuvent aussi bien tre libre fig ou support Le champ d application de ce programme pourrait donc tre largi au traitement de verbes et de constructions aussi courantes que les constructions verbe support qui pr sentent une structure tr s ressemblante celle des locutions verbales Page 97 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Conclusion Nous avons tent de d crire tout au long de ce travail quelles taient les propri t s linguistiques des s quences fig es et plus particuli rement celles des locutions verbales Nous avons vu au travers de cette tude que les th ories et les termes pour d signer le figement taient tr s divergents et qu elles ont volu au cours du temps Les travaux actuels et notamment ceux men s par le LADL ont fortement contribu une meilleure description de ce ph nom ne propre aux langues naturelles Ces m mes travaux du LADL ont galement permis
159. s s n appara t pas dans le cadre Nous avons apr s avoir charg le texte appliqu les ressources lexicales Certains dictionnaires taient s lectionn s par d faut nous avons d cid cependant d appliquer toutes les ressources disponibles comme nous pouvons le voir dans la figure 5 3 1 b Figure 5 3 1 b Intex Application des ressources lexicales L application des ressources lexicales permet de proc der l analyse lexicale du texte Dans le cadre de ce travail qui porte sur les s quences fig es il est surtout important d appliquer toutes les ressources disponibles dans la zone correspondant aux expressions fig es La table du lexique grammaire qui d crit les expressions fig es du fran ais correspond au fichier Cld cfg L application de cette ressource en particulier devrait donc produire des r sultats satisfaisants L application des ressources lexicales Text gt Apply Lexical Resources permet d actualiser le dictionnaire des formes apparaissant dans le texte apr s le pr traitement L application de toutes les ressources disponibles dans Intex produit donc le dictionnaire de formes suivant Page 72 Marie V ronique LEROI t2 DUF 22034 sangle vend laca oriei savoir T P3s PPEPrEL bandoant abandonner abarr ceunr abarionntt sbandceant abandonner V t cl Kas abarntoeur abaricaner Ve Lt Kms sbandcent abandonn Atd z l ms abarrtoen
160. s cette d marche de filtrage Le programme Verbalex tel qu il est actuellement construit permet uniquement un acc s en criture du dictionnaire dans le processus d extraction des locutions verbales En effet une proc dure de consultation dans le dictionnaire devrait tre ajout e Le fait de v rifier que les items de la liste de termes candidats ne figurent pas d j dans le dictionnaire permettrait d affiner quelque peu le filtrage et de r duire la liste des candidats termes De m me si une expression figure plusieurs fois dans le corpus une proc dure de tri dans la liste de candidats termes r duirait le nombre de ces derniers La structure de l entr e du dictionnaire pourrait ventuellement tre enrichie par davantage d informations linguistiques telles que l ajout d une zone phonologique par exemple donnant des informations sur la prononciation ou la prosodie propre l entr e du dictionnaire Les entr es du dictionnaire sont regroup es dans celui ci en tant qu l ments fils de l l ment lettre dont la valeur correspond la premi re lettre du verbe de la locution verbale Les diff rentes entr es commen ant par la m me lettre ne sont pas tri es par ordre alphab tique tant donn que le programme a t crit de telle sorte que la derni re entr e saisie et valid e figure juste sous l initiale Une proc dure de tri par ordre alphab tique pourrait donc tre utile pour organiser et st
161. s deux outils ont notamment recours des ressources qui permettent de r soudre les probl matiques que nous venons de soulever dans cette section 4 Une pr sentation de deux outils disponibles pour le traitement de s quences fig es Intex Description Intex est un logiciel cr par le LADL afin de proc der l analyse de corpus d un volume important et langues diff rentes Ce logiciel a t d velopp par Max Silberztein en 1993 Intex est donc un environnement linguistique permettant d analyser morphologiquement et syntaxiquement un texte afin de proc der divers traitements Ces traitements peuvent consister rechercher des s quences de diverses natures telles que des lettres des lex mes ou des cat gories morphologiques Page 54 Marie V ronique LEROI Ce logiciel fournit galement des outils pour d crire la morphologie flexionnelle et d rivationnelle la variation orthographique et terminologique Le vocabulaire est galement d crit qu il s agisse de mots simples de mots compos s ou d expressions fig es Des ph nom nes dits semi fig s sont galement recens s dans le logiciel L indexation des mots ou d expressions fig es est possible dans le cadre de l application Intex permet galement l acc s des concordanciers ou des outils permettant l tude statistique des r sultats produits Les textes ou corpus ouverts en entr e les dictionnaires lectroniques sur l
162. s l effet global s mantique et Page 68 Marie V ronique LEROI pragmatique de l unit phras ologique consid r e Cette d finition du d figement sous entend que les modifications que conna t une s quence fig e pour subir un d figement sont minimes il est donc toujours possible de reconna tre la structure de base de la locution Fran ois Rastier 1997 pr cise quant lui que les d figements t moignent de l incidence du contexte sur la lexie et plus g n ralement du global sur le local les d figements dont parle Rastier sont des d figements par contexte Il existerait donc deux types de d figements dans le premier cas la modification de la structure de la locution provoque le d figement dans le second c est l emploi d une locution dans un contexte qui ne s y pr te pas qui cr e le d figement Ce corpus est donc constitu de deux articles extraits de cette dition lectronique du 13 avril 2003 Le premier article intitul Apr s la guerre la r cession mondiale n aura pas lieu qui traite des cons quences politiques et conomiques de la guerre en Irak Le second article intitul Astro Boy est la passion des Nippons pour les humano des aborde un sujet plus l ger qui est celui d un dessin anim japonais Astro Boy qui connut un grand succ s dans les ann es 1970 80 Ces deux articles ne figuraient pas en une et ont t choisis en fonction de leur longueur relativ
163. s qui comportent elles m mes pr s de 3000 mots L utilisation de ce lexique permet ce lemmatiseur de proc der une analyse flexionnelle du mot lemmatis sans avoir prendre en compte le contexte de celui ci TreeTagger ayant t param tr pour produire l tiquetage mais aussi la lemmatisation du fichier Flemm v rifie aussi bien l tiquette morphosyntaxique produite que le lemme qui lui est associ et corrige au besoin ces informations Les fichiers r sultant de ces tapes d tiquetage et de lemmatisation ont t retravaill s par l interm diaire de scripts Perl afin d offrir un meilleur affichage En effet le fichier tiquet et le fichier lemmatis produits se pr sentaient comme le fichier pris en entr e savoir avec un mot par ligne la forme tait suivie d une tabulation de son tiquette morphosyntaxique d une autre tabulation et de son lemme L criture de ces scripts int gr s Verbalex a donc consist remplacer ces tabulations par des underscores _ pour rendre les r sultats plus lisibles Le filtrage des locutions verbales mode d emploi L utilisateur doit dans un premier temps charger un corpus en cliquant sur la deuxi me ic ne ou en passant par le menu Fichier Le corpus appara t alors sous l onglet Document Une zone d information situ e juste en dessous des ic nes indique que le fichier a t ouvert Fichier Co Verbales Corpus ir charge EEE Trai
164. s une phrase l mentaire caract ristique et qu il n a donc aucune autonomie syntactico s mantique Dans un second temps la conclusion qui s impose consiste dans le fait que toute phrase complexe s analyse en terme de phrases l mentaires C est dans ces id es que r sidaient les principales pr occupations du LADL du moins son fondement Ces derni res ont ensuite volu es pour finalement s loigner totalement des fondements du cadre g n ratif transformationnel instaur par Chomsky et d autres auteurs La raison de cet loignement r side principalement dans le fait que les perspectives g n ratives transformationnelles tudient des ph nom nes syntaxiques ind pendamment d une tude du lexique pour aboutir une formalisation et des g n ralisations ces g n ralisations seraient bas es sur un nombre d exemples r duit ou plus pr cis ment insuffisant Le LADL a alors orient ses travaux dans une d marche de description du fonctionnement concret des mots du lexique Le LADL s est donc consacr une tude extensive et intensive du lexique du fran ais Cette tude est dite extensive dans la mesure o elle a pour objet la majeure partie du lexique et intensive car elle prend c ur de mettre jour le maximum de propri t s connues pour chaque item lexical qui compose le lexique Cette tude du lexique se base sur des phrases l mentaires construites pour tre analys es Les
165. se donc l issue de ce travail est que ce type de d marche ne peut se passer de la pr sence et de la participation d un linguiste Si les travaux et les recherches men s actuellement tendent automatiser le plus possible le traitement des s quences fig es un traitement enti rement automatis court terme n est pas envisageable Page 98 Marie V ronique LEROI Bibliographie OUVRAGES BERNARD Georges Les locutions verbales fran aises La Linguistique 1974 Vol 10 2 pages 5 17 BOURIGAULT Didier Analyse syntaxique locale pour le rep rage de termes complexes dans un texte TAL 1993 Volume 34 N 2 pages105 117 BRUN Carole JACQUEMIN Christian SEGOND Fr d rique Exploitation de dictionnaires lectroniques pour la d sambigu sation s mantique lexicale TAL 2001 Volume 42 Lexiques S mantiques n3 pages 667 690 COURTOIS Blandine Un syst me de dictionnaires lectroniques pour les mots simples du fran ais Langue Fran aise 1990 N 87 pages 11 22 CURAT Herv La Locution verbale en fran ais moderne essai d explication psycho syst matique Qu bec P U Laval 1986 P Vachon L Heureux DAILLE B atrice L identification en corpus d adjectifs relationnels une piste pour l extraction automatique de terminologie TAL 2001 Volume 42 Lexiques S mantiques n3 pages 815 832 DANLOS Laurence La morphosyntaxe des expressions fig es Langages 1981 n 63 DA
166. ser au pied du mur D Syntagme verbal 27 lecture forcer prendre parti D Locution Dans la premi re lecture le sens est obtenu par la combinaison des l ments lexicaux et d l ments grammaticaux et prosodiques Tandis que la deuxi me interpr tation r sulte d un emploi m taphorique Pour Gaatone la locution verbale constitue sur le plan s mantique un tout inanalysable Ce tout inanalysable parait supposer qu aucune r gle ne r git cet ensemble Georges Bernard pr cise cependant que l ensemble constitu par les locutions verbales n est aucunement un ensemble anarchique et al atoire En effet les locutions verbales pr sentent une structure interne et ne sont donc pas enti rement fig es Les constructions ne pr sentant pas de structure interne sont un stade de figement D apr s Gaatone ces constructions entreraient dans un tat proche de la soudure entre les mots Pendant longtemps et surtout dans les anciens travaux l absence de d terminant constituait le crit re essentiel dans la reconnaissance des locutions verbales C est le cas de Herv Curat qui pense donc que des s quences du type avoir peur ou prendre fin qui sont en fait des constructions verbe support seraient des locutions verbales dans la mesure o le verbe est directement suivi par son compl ment qui n est pas modifi par un d terminant L insertion de modifieurs n est permis
167. sse 1973 Figement Le figement est un processus linguistique qui d un syntagme dont les l ments sont libres fait un syntagme dont les l ments ne peuvent tre dissoci s Ainsi les mots compos s compte rendu pomme de terre etc sont des syntagmes fig s Nous verrons plus avant que la composition et le figement sont des ph nom nes distincts et que tous les mots compos s ne sont pas n cessairement fig s Dictionnaire de Linguistique et des Sciences du Langage 1994 Figement Le figement est le processus par lequel un groupe de mots dont les l ments sont libres devient Page 11 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais une expression dont les l ments sont indissociables Le figement se caract rise par la perte du sens propre des l ments constituant le groupe de mots qui appara t alors comme une nouvelle unit lexicale autonome et sens complet ind pendamment de ses composants Ces diff rentes d finitions tendent montrer que le figement est un ph nom ne hors norme et irr gulier J C Anscombre 1990 d finit le figement comme tant un processus au terme duquel le locuteur n est plus capable de d terminer le sens d une s quence partir de celui de ses constituants Georges Misri 1987 quant lui d signe sous le terme de figement tout groupe de mon mes qui pr sente un blocage total ou quasi
168. ssociables Les termes de mot compos ou locution renvoient g n ralement des notions sp cifiques chez certains auteurs Gaston Gross parle par exemple d unit s polylexicales pour d signer des unit s morphologiquement complexes Danielle Corbin 1997 quant elle parle d unit s polylex matiques pour d signer ces unit s lexicales complexes dans la mesure o elle estime que les termes unit s polylexicales et lexie sont inappropri s Ces unit s polylex matiques que d crit D Corbin selon deux propri t s principales sont traditionnellement rang es sous l tiquette locution ou mot compos L une des propri t s est d ordre syntaxique et r side dans le fait que l unit polylex matique peut occuper dans la phrase une position de constituant syntaxiquement minimal autonome Il est noter que D Corbin exclut les collocations de par cette propri t Nous verrons dans le paragraphe suivant quelle est la d finition de la collocation et ce qu elle repr sente par rapport aux expressions fig es Robert Martin pour sa part d finit simplement la locution comme tant un syntagme fig situ au del du mot et en de a de la phrase fig e Les locutions sont traditionnellement oppos es aux syntagmes libres Thun 1978 dit en effet que la locution est l aboutissement dans une synchronie donn e d un processus de figement de p trification de fossilisation Le c
169. tant apr s l analyse manuelle laquelle nous avons proc d Il est possible de remarquer que figurent sur cette liste les mots qui apparaissent dans la tables du lexique grammaire Cid si un mot qui figure dans une expression fig e qui est d crite dans la table appara t dans le texte alors ce mot et ses cooccurrences sont comptabilis s en tant qu expressions fig es Le mot abandonn n appara t qu une fois dans ce corpus en l occurrence au d but du second article qui constitue le second paragraphe de ce texte La construction de l automate du texte de la phrase Abandonn par son cr ateur dans un cirque pour robots Astro Boy sera accueilli par un autre scientifique avant de embrasser une carri re de super h ros le service de la paix et de l harmonie entre les humains et les machines produit le r sultat suivant Page 73 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais vVeCld a pup ttalrur PRIP Niri s Case a A Niri a DIET tx 1 hu 1 Uru Atel ms Figure 5 3 1 d Intex Automate du texte de la phrase contenant la s quence Abandonn Cette s quence appara t donc dans la zone consacr e aux expressions fig es car le mot abandonner ou une forme fl chie de ce verbe figure dans l expression fig e abandonner la partie Le graphe produit par l application du dictionnaire de d sambigu sation
170. tat du corpus r sultant de ces diverses op rations sert de base l op ration de filtrage Cette op ration va produire une liste de candidats termes qui seront ou non valid s afin de constituer une entr e du dictionnaire Cette entr e figurera ensuite dans le dictionnaire lectronique existant d j dans l application et auquel l utilisateur pourra apporter les modifications souhait es Page 79 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais 1 2 Construction du programme Langage Le programme Verbalex a t crit avec le langage de programmation Perl acronyme de Practical Extraction and Report Language que l on pourrait traduire dans les grandes lignes par Langage Pratique d Extraction et d Edition Un langage de programmation diff re en de nombreux points d une langue naturelle En effet le nombre d unit s composant une langue naturelle est potentiellement infini Un langage de programmation est fini et limit m me si des biblioth ques de scripts ou packages viennent l agr menter et le compl ter Les variations que connaissent un mot dans un langage de programmation sont limit es voir inexistantes A chaque mot d un langage de programmation est associ ou associable une et une seule cat gorie tiquette qui correspondent un identifieur c est dire un index une variable un entier Le langage de programmation PERL a t cr par
171. tements Textuels Dictionnaire des locutions verbales fig es Feuille d Figure 1 2 9 Verbalex Chargement du fichier Ce texte doit ensuite tre tiquet Le fait de cliquer l item Etiquetage du menu Traitements Textuels permettra de lancer l tiquetage et de mettre en relief le sous onglet correspondant Page 86 Marie V ronique LEROI Figure 1 2 h Verbalex Etiquetage du fichier Le mode d affichage choisi par d faut est l affichage texte en continu Le fichier ainsi obtenu doit ensuite tre lemmatis en passant par le menu Traitements Textuels ou par le sous onglet Comme nous l avons vu dans la description de l interface il est possible de lancer la lemmatisation sans avoir lancer l tiquetage Cette tape peut cependant s av rer utile pour s assurer que les tiquettes attribu es sont correctes Dictionnaire des locutions verbales fig es Feuille d Figure 1 2 i Verbalex Lemmatisation du fichier Une fois que la lemmatisation est termin e il faut s assurer que l affichage de la version lemmatis e est bien en texte continu avant de lancer le filtrage Page 87 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais L op ration de filtrage des locutions verbales est lanc e dans l application via le menu Dictionnaire ou l ic ne correspondante Lancer le filtrage des locutions verbales dans l
172. tent de d crire ces diff rents patrons syntaxiques par deux expressions r guli res distinctes afin de prendre en compte l insertion ventuelle de modifieurs Ces patrons peuvent correspondre de nombreuses phrases dont le verbe peut aussi bien tre libre fig ou support Une fois que le filtrage est termin le r sultat produit appara t dans une fen tre de type popup Cette fen tre comporte une liste de candidats termes autrement dit une liste de locutions verbales potentielles Page 88 Marie V ronique LEROI Figure 1 2 1 Verbalex Liste de candidats termes produite par Verbalex Les items de cette liste doivent donc tre valid s manuellement et individuellement pour s assurer qu il s agit bien d une locution verbale L item doit donc tre s lectionn et l utilisateur doit cliquer sur le bouton Valider pour lancer la validation d une locution Le bouton Enregistrer permet de sauvegarder la liste de candidats termes correspondant au Document pour la valider plus tard La proc dure de validation d un item de cette liste de candidats termes entra ne donc l apparition d une grille de validation La valeur de l item s lectionn est r cup r e pour figurer dans la grille de validation Page 89 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Figure 1 2 m Verbalex Grille de validation Comme nous pouvons le voir sur cette
173. tent essentiellement proc der une normalisation du texte Cette normalisation vise remplacer les s parateurs selon deux principes Ce premier principe implique que les suites de s parateurs comportant au moins un retour la ligne soient remplac es par un unique retour la ligne Le second principe sugg re que toute autre suite de s parateurs soit remplac e par un espace D apr s ces principes seuls les espaces et les retours la ligne constituent des s parateurs pertinents dans une analyse linguistique Cette gestion des s parateurs s explique par le fait que l importance occup e par ces derniers diff re selon les langues C est notamment le cas pour les langues asiatiques qui interdisent obligent ou rendent facultative la pr sence d espaces Il est noter que le fichier pr trait comporte une extension snt de sorte que le fichier original n est pas alt r Ce m me type d fichier est g n r par Intex lors du traitement de corpus Le fichier Sentence fst2 comporte la grammaire qui permet de segmenter le texte en fran ais hutniatn ea die me UE pe prune Le md que past deu ru ates de plu ne Le a T eut ongle fe rep at de plie me Figure 4 i Unitex Graphe repr sentant la grammaire de segmentation du fran ais Ce graphe permet donc de transcrire visuellement que la pr sence de signes de ponctuation sugg re que les s quences qui suivent constituent des phrases Ce grap
174. tillon d une table du Lexique Grammaire j n ZZ z PE E gt pere La fes E gt ete La m rge tE gt pere la t tanie lt E gt ere p cos E gt Here la parok b E gt ere la putir 4 E gt peser ia r aron L E gt lt perbe gt La t te t 2 E gt perdre La trarmoutare E gt pere la ne t lt E cherie ia vox QE E Herbe la vue QE lt E gt lt herke P innymi gt Er pere y pprtt KAS E gt pote ie contr le de Poce 0 voue g5 lt E seri t tait lt E gt pere y trpi i lt gt perde Le pgemert x tE poto ir read n lt E gt perde p utage de hi paride E gt erdt lrs taz Page 130
175. tion est unit fonctionnelle plus longue que le mot graphique et appartenant au code de la langue devant tre apprise en tant que forme stable et soumise aux r gles syntactiques L expression est cette m me r alit consid r e comme une mani re d exprimer quelque chose elle implique une rh torique et une stylistique Alain Rey exclut du champ de la phras ologie les dictons et les proverbes locutions phrases les mots complexes locutions fonctionnelles Page 27 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Les notions de locution et de mot compos sont des notions vagues et difficiles d finir avec pr cision Elles sont aussi souvent amalgam es La d finition du Dictionnaire de linguistique et des Sciences du Langage semble supposer que les deux termes sont synonymes et qu il est possible d employer l un ou l autre indiff remment Pour notre part nous consid rerons que le terme de locution ne s applique pas pour les constructions nominales fig es que nous appellerons noms compos s et non locution nominale Etymologiquement le mot locution signifie mani re de dire La tradition grammaticale attribue l appellation de locution des s quences inf rieures au niveau de la phrase En effet les phrases enti rement fig es sont g n ralement appel es expressions idiomatiques On parle donc de loc
176. tre prit en c mpte ensembles lettres caractere parues de clement de sous ensembles ensemhle variables Herre Leir Mg partie de sous ensemble cas paruculers pr variahlp oan i Nomhres ef x E E S J i ter 22 Le poan virgule pst toujours wn separatmer de pou as 181 Figure 4 e Intex Graphe sentence grf repr sentant le transducteur de segmentation du fran ais Ce graphe d crit donc le mode de segmentation d une phrase dans un texte donn en langue fran aise L item Apply lexical Resources dans le menu Text permet de proc der une analyse lexicale en appliquant donc les ressources lexicales disponibles dans l application La boite de dialogue qui appara t comporte trois zones distinctes d di es respectivement aux mots simples aux mots compos s et aux expressions fig es Dans ces zones apparaissent donc les outils dictionnaires et transducteurs permettant de proc der une analyse morphologique Les dictionnaires lectroniques DELAF ou DELACF sont ceux qui sont utilis s pour cette op ration les dictionnaires qui apparaissent dans les zones indiqu es ont une extension dic ou une extension bin les premiers fichiers peuvent tre modifi s les seconds ne le peuvent pas La zone qui nous int resse le plus est bien entendu celle qui concerne les expressions fig es Les transducteurs lexicaux qui figurent dans cette zone permettent donc de repr senter
177. uement complexes et les formes compos es de plusieurs mots cela est d autant plus vrai pour les locutions verbales Ce terme de s quence galement employ par S Mejri pr sente toutefois l avantage d tre un terme neutre qui montre bien que divers domaines d tudes entrent en jeu pour le traitement du figement Nous parlerons donc galement de locutions verbales malgr les r ticences d auteurs comme D Gaatone ou A Rey pour d signer les s quences verbales montrant un degr quelconque de figement L adjectif fig ne sera donc que tr s peu utilis avec le terme de locution verbale pour viter toute redondance La notion de mot sera aussi utilis e mais dans sa d finition la plus basique savoir dans sa d finition typographique Un mot repr sentera donc une unit enclav e par deux blancs ou espaces Comme nous l avons vu dans un paragraphe pr c dent les termes de collocation ou cooccurrence sont souvent utilis s pour d signer des s quences fig es Mais ces termes supposent un degr moindre de figement Hausmann 1985 d finit la collocation comme une combinaison polaire non arbitraire de deux lex mes qui a un caract re conventionnel l int rieur d un groupe linguistique La collocation se pr sente donc bel et bien comme une s quence fig e mais elle repr sente le degr le plus faible de figement dans la mesure o elle respecte la compositionn
178. ul type de s quence fig e b n ficier d un terme sp cifique tandis que les diff rents autres types de s quences fig es sont traditionnellement regroup s sous le terme g n rique de locution La composition constitue avec la d rivation une des principaux moyens de formation des nouveaux mots comme nous l avons vu pr c demment Le nom compos est donc un mot construit qui se range sous la cat gorie mot polylexical du sch ma cf figure 1 4 1 a et s oppose donc au mot d riv Le nom compos met en jeu des l ments lexicaux autonomes Il est commun ment admis que le trait d union permet de reconna tre les noms compos s c est le cas pour des mots tels que porte monnaie ou porte manteau mais ce crit re s av re inefficace La soudure est un des probl mes qui se pose pour la reconnaissance des noms compos s les l ments lexicaux constituants sont coll s les uns aux autres Le mot surench re par exemple est un mot compos alors qu au premier abord on pourrait d duire qu il s agit d un mot d riv La composition implique l opacit s mantique des groupes nominaux dont le sens serait compositionnel ne peuvent donc pas tre consid r s comme des compos s Les d terminants compos s Il est possible de distinguer deux types de d termination une d termination simple et une d termination complexe La d termination simple se fait au moyen d articles d finis ou
179. un continuum en effet le passage des S L S quences Libres s op re d une mani re graduelle et imperceptible aux S F S quences Fig es Une s quence dite fig e n est jamais totalement fig e ou a contrario enti rement libre Nous retrouvons chez Gaston Gross cette notion de degr de figement Les s quences noyau verbal que nous allons tudier illustrent tout fait cette notion en effet le figement n atteint pas les propri t s morphosyntaxiques du verbe Le verbe conna t donc toutes les variations qui lui sont propres dans le cadre de ces s quences Pour Maurice Gross la diff rence entre les S quences Fig es et les S quences Libres r side dans la saturation lexicale de certaines positions En effet les expressions fig es ne sont jamais enti rement fig es seuls certains l ments de ces expressions sont contraints 1 5 Les diff rents types d expressions fig es D apr s les diff rents travaux men s sur les expressions fig es il est possible de d nombrer six principaux types d expressions fig es les noms compos s les d terminants compos s les locutions adjectivales les locutions conjonctives et pr positives et enfin les locutions verbales Les noms compos s Page 22 Marie V ronique LEROI Il s agit l du type d expression fig e le plus courant dans la langue et le plus tudi par les linguistes Sa d nomination le prouve en effet le nom compos est le se
180. ur le court terme apparaissent des d saccords sur le long terme Pour les uns la fin des incertitudes g opolitiques qui minaient l conomie mondiale depuis plus d un an va permettre aux grands pays industrialis s de renouer durablement avec un rythme de croissance lev C est l avis exprim par le Prix Nobel d conomie Milton Friedman pour qui la guerre en Irak va sans aucun doute plut t stimuler la conjoncture Je ne vois pas pourquoi l conomie ne devrait pas reprendre de l lan une fois les incertitudes li es au conflit irakien disparues ajoute le p re de la th orie mon tariste De fa on plus cynique la victoire rapide des troupes am ricaines et britanniques en provoquant un lectrochoc puissant serait une chance unique pour les conomies occidentales de ne pas conna tre la crise que subit le Japon depuis treize ans et l clatement de sa bulle sp culative boursi re et immobili re Tout le monde n est pas aussi optimiste Pour beaucoup la chute de Saddam Hussein ne r gle rien aux probl mes de fond de l conomie mondiale mauvaise sant financi re des entreprises finances publiques la d rive d ficit des comptes ext rieurs am ricains 503 milliards de Page 111 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais dollars en 2003 rigidit du march du travail et pression fiscale trop lev e en Europe fragilit bancaire au Japon et en Allemagne instabilit du m
181. utions constituent une base de donn es dictionnairique disponible dans l application Ce dictionnaire lectronique serait enrichi manuellement en ce qui concerne les informations d ordre morphosyntaxique ou s mantique sur les locutions Le logiciel permettrait aussi l utilisateur de compl ter manuellement le dictionnaire lectronique constitu partir des corpus pass s en traitement Les diff rentes tapes de traitement des corpus ouverts dans l application seront visibles sans alt rer le fichier original Les principaux traitements op r s seront la constitution d un dictionnaire de formes graphiques autrement dit le recensement de toutes les cha nes de caract res qui apparaissent dans le corpus qui pourront tre affich es selon l ordre alphab tique ou selon leur fr quence d apparition Nous verrons galement que l application permet de proc der l tiquetage et la lemmatisation du fichier tapes qui sont primordiales dans toute d marche de traitement textuel Il sera galement possible de proc der des recherches dans les diff rents tats du corpus Le pr sent m moire de recherche va donc retracer les principes et les d marches qui ont pr c d la cr ation de cet outil Mais avant cela nous proc derons une tude d taill e du figement et des propri t s des locutions verbales Nous avons distingu deux parties dans le travail pr sent dans les pages suivantes Nous tudie
182. utions verbales adjectivales ou pr positionnelles David Gaatone 1991 estime que si elle se pr sente quantitativement comme une s quence de mots la locution appara t intuitivement comme l quivalent d un mot unique Puis il ajoute que le fait d attribuer ce terme sp cifique de locution permet justement d infirmer que ce groupe de mots n est pas assimilable un mot unique m me si la possibilit de lui trouver un quivalent plus ou moins approximatif sous forme de mot unique et qu on doive en outre la consid rer comme unit lexicale Certains auteurs utilisent le terme de coalescence pour souligner cette impression d quivalence entre une locution verbale et un verbe simple Herv Curat 1986 ajoute ce sujet que la locution verbale laisse une impression de verbes en deux mots En effet cette intuition d quivalence entre un l ment d une locution et un l ment simple aurait pour origine la coh sion particuli rement forte qui existe entre les mots composants de la locution coh sion que l on ne retrouve pas dans un syntagme ordinaire De plus les l ments qui apparaissent dans une locution donn e peuvent appara tre dans d autres contextes et avoir un emploi libre c est la raison pour laquelle les auteurs ont recours au terme de locution pour d signer ces groupes de mots qui pr sentent une tr s forte coh sion et dont les l ments constituants ne sont pas di
183. verbales fig es La pronominalisation ou reprise anaphorique n est pas permise pour les locutions verbales dans la mesure o les pronoms qui sont employ s dans ces s quences n observent pas le m me fonctionnement que les vrais pronoms EX 23 3 e S quence non fig e acheter un manteau Pierre a achet ce manteau dans un magasin chic D Ce manteau Pierre l a achet dans un magasin chic S quence fig e prendre le large Pierre a pris le large D Luc l a pris le large Les groupes nominaux dans les locutions verbales ne renvoyant pas pr cis ment des objets concrets la pronominalisation est impossible La relativation que nous avons vu dans un paragraphe pr c dent est fort utile pour diff rencier les locutions verbales des constructions verbe support La relativation n est pas possible pour les locutions verbales EX 2227 60 S quence non fig e prendre une d cision Pierre pris une d cision La d cision que Pierre prise S quence fig e prendre la tangente Pierre pris la tangente La tangente que Pierre prise Il est aussi possible de proc der au test de l interrogation pour reconna tre les locutions verbales En effet cette transformation ne peut s appliquer que sur des structures libres Page 35 Le traitement automatique et lexicographique des locutions verbales fig es en fran ais Ex 2 3 g S quence non fig e prendre un livre Pier
184. vocabulaire sp cifique c est dire des l ments lexicaux sp cifiques Le nom escampette par exemple appara t uniquement dans l expression prendre la poudre d escampette qui quivaut au verbe simple fuir Il est donc particuli rement difficile de distinguer clairement ces trois cat gories de verbes qui pr sentent de nombreux points communs c est la raison pour laquelle certains auteurs ne font pas de distinction particuli re entre ces verbes En effet certains auteurs comme Herv Curat ne prennent en consid ration que deux types de verbes les verbes ordinaires et les verbes compos s qui incluent aussi bien les verbes fig s que les verbes supports 2 2 La notion de locution La locution s apparente une formule d j construite pr fabriqu e d apr s Blanche No lle Grunig 1997 Le Dictionnaire de Linguistique et des Sciences du Langage 1994 donne la d finition suivante Locution la locution est un groupe de mots nominal verbal adjectival dont la syntaxe particuli re donne ces groupes le caract re d expression fig e et qui correspondent des mots uniques Ainsi faire gr ce est une locution verbale ou verbe compos correspondant gracier mise en jeu est une locution nominale ou nom compos Alain Rey 1977 donne une d finition de la locution dans une perspective lexicographique Locution la locu
185. xicographique des locutions verbales fig es en fran ais Verbe Support Verbe de sens g n ral qui n a pas de fonction pr dicative Les verbes supports sont aussi dits verbes op rateurs Les verbes supports apportent les informations de temps de personne de nombre et d aspect un pr dicat nominal La combinaison form e par le verbe support et le pr dicat nominal avec lequel il est construit peut tre paraphras e par un verbe simple s mantiquement quivalent Zone Fixe Partie d une expression fig e qui admet un nombre de fixe mots simples m me si ces mots sont susceptibles de variations morphologiques Page 110 Marie V ronique LEROI Corpus Extraits de l dition lectronique du journal Le MONDE du 13 avril 2003 Apr s la guerre la r cession mondiale n aura pas lieu Apr s la guerre la r cession mondiale n aura pas lieu Quelles seront les cons quences pour la croissance mondiale de la guerre en Irak Les experts conomiques doivent aujourd hui revoir leurs copies Se fiant aux analyses de leurs homologues militaires ils avaient mis dans leurs pr visions les plus r centes sur un enlisement du conflit Une telle volution n allait pas manquer selon eux d avoir des cons quences d sastreuses pour les conomies des grands pays industrialis s et de pr senter des effets d vastateurs sur la confiance des diff rents acteurs sur la consommation des m nages et sur l investissement
186. xique La lexie est l unit de base de cette tude lexicologique Le terme lexie peut aussi bien d signer un mot simple qu une locution Ce mot ou cette locution sont pris en compte dans une acception sp cifique Si un mot donn est polys mique le nombre de lexies disponibles pour ce m me mot correspondra au nombre d acceptions que ce mot re oit La lexie du DEC qui ne correspond pas tout fait la lexie de Bernard Pottier comporte trois principaux composants un sens une forme graphique et phonique et un ensemble de traits combinatoires Le dictionnaire est le produit final r sultant de l tude de l ensemble des lexies d une langue L Page 50 Marie V ronique LEROI Cette conception du lexique constitue une nouvelle approche et aura donc des cons quences importantes dans la conception des dictionnaires Le DEFC Dictionnaire Explicatif et Combinatoire du Fran ais Contemporain a donc t labor selon les principes tablis par la th orie Sens Texte Cette th orie consiste faire produire un DEC toutes les informations qui pourraient permettre un locuteur de construire toutes les expressions linguistiques correctes de n importe quelle pens e et ce dans n importe quel contexte Cette conception du DEC en fait essentiellement un dictionnaire de production Chaque lexie est d crite dans le DEC selon sa d finition ses connotations et d autres informations qui n apparaissent pas ou
187. xique une suite donn e est elle syntaxiquement libre une contrainte d ordre s mantique l opacit s mantique cette suite est elle s mantiquement transparente ou opaque D apr s ces indications une suite peut tre consid r e comme tant fig e quand celle ci n est pas libre syntaxiquement et est s mantiquement opaque Ces deux contraintes vont de pair Le terme polylexical utilis dans la figure 1 4 1 a peut se d finir de la mani re suivante une suite est dite polylexicale quand elle est compos e de plusieurs l ments lexicaux qui ne jouent pas de r le ext rieur la s quence Autrement dit les l ments lexicaux contribuent uniquement la constitution de la suite Page 16 Marie V ronique LEROI 1 4 2 Les crit res de reconnaissance Des crit res g n riques Dans l ouvrage intitul Introduction la lexicologie s mantique et morphologie LEHMAN Alise et MARTIN BERTHET Fran oise 2000 il est possible de discerner trois crit res qui permettent de distinguer les syntagmes libres des syntagmes fig s Le premier crit re est un crit re r f rentiel qui suppose qu une unit lexicale donn e correspond un r f rent unique Ce crit re peut prendre appui sur cette citation de M Grevisse 1964 dans Le Bon Usage Un mot quoique form d l ments graphiquement ind pendants est compos d s le moment o il voque dans l esprit non les images
188. xiquement de gros corpus et de proc der la recherche d information ou l extraction terminologique Ce projet de m moire a conduit la possibilit de cr ation d une application qui pourrait proposer un traitement pour ces expressions fig es et en particulier pour les locutions verbales Le projet a donc consist en l laboration d un logiciel pr sentant les caract ristiques d un diteur de texte classique au premier abord mais offrant des fonctionnalit s sp cifiques Ce logiciel d nomm Verbalex a t con u afin de r pondre certaines attentes quant au traitement automatique ou automatis des locutions verbales fig es en fran ais et de souligner les difficult s que peuvent pr senter la conception d un outil tout point de vue et plus particuli rement la conception d un outil visant le traitement de s quences fig es L application vise extraire les locutions verbales fig es du fran ais partir d un corpus pour cela nous proc dons l extraction des expressions verbales et nous tentons de d terminer si les formes extraites sont fig es ou non Ces expressions verbales seront d sign es dans le cadre de ce travail par le terme locutions verbales Nous verrons que ce terme ne re oit pas la m me acception selon les auteurs et nous donnerons une d finition qui correspond au mieux la perspective d tude que nous avons adopt e dans le cadre de ce travail Une fois extraites ces loc
Download Pdf Manuals
Related Search
Related Contents
CB Electronics RM-6 Synchroniser Getting Started Guide CHIMNEY JAWAR K — INSTALLATION MANUAL Meta35 User Guide Equipment List For GNSS Networks and Reference LogiLink DS0002 scanner User Manual - High End Systems Canyon CNR-CP12 webcam Please Click here to User Guide Copyright © All rights reserved.
Failed to retrieve file