Home

Intégration Structurale des points de vue componentiels

image

Contents

1. spec vers theme renard termes li s vers termes li s 7 glapir v i Figure 4 Une illusion d ontologie concernant renard La figure 4 pr sente une classification syst matique pour illustrer les emboitements classe th me une zoologie depuis renard Le mot cl est situ en bas de la figure La figure montre imm diatement un double h ritage chaque classe est pr sent e dans une autre classe h ritage 1 et dans un th me h ritage 2 De leur c t les th mes qui sont les concepts les plus larges ne sont pr sents que dans d autres th mes Il est possible de consid rer que les th mes autour de la zootaxie servent indiquer les propri t s sp cifiques de chaque classe Pour autant il ne s agit pas de diff rence sp cifique comme dans un arbre de Porphyre 234 305 de notre re nouveau genre genre proche diff rence mais seulement de l ajout progressif d information cr ant du contexte Dans le dictionnaire l intension de la zootaxie 17 utilis e n est malheureusement pas repr sent e En explorant le graphe de haut en bas nous verrons toutefois appara tre les contextes de cellule puis de os puis de colonne vert brale puis de reproduction sexu e puis de mamelles etc sans que ces contextes soient d crits comme des conditions bool ennes Avant de clore ce chapitre d crivant nos premiers travaux nous souhaitons r pondre la question su
2. gt personne gt humain gt animal gt tout truc qui mange manger vt En effet personne signifie tre humain consid r dans sa sp cificit Et cela s oppose pr cis ment la g n ricit de l humain con u en termes d ensemble d attributs g n riques Il y a rupture de point de vue Cette rupture est clairement marqu e dans le dictionnaire tre humain consid r dans tel point de vue Ainsi mangeur est une personne c est dire un humain consid r dans un certain point de vue ce qui ne peut se ramener seulement humain Nul locuteur fran ais ne peut accepter la d finition suivante de mangeur humain qui mange 3 Exp rimentalement 1 En mettant samoura l preuve de la prototypicit demander son entourage 50 mots proches de samoura Compter le nombre d occurrences de manger en dehors de la nourriture japonaise Le signal r sultant sera nul 3 Exp rimentalement 2 En comparant text mining les contextes de personne et de humain Mais je ne souhaiterais pas insister sur cette technique qui ne peut qu aboutir des indices et aucunement une preuve du fait par exemple de la note 8 page 7 et de la note 31 page 37 4 2 3 Effets sur une structure lexico componentielle de la non prise en compte du changement de point de vue Nous faisons l hypoth se que nous pla ons tout l ensemble personne ciasse dans mangeurlcasse pour obtenir une signal dans une comparaison d samoura manger Cela e
3. lt PersonsList gt lt Pe gt Tim Ross lt Pe gt lt Pe gt Tex Weaver lt Pe gt lt PersonsList gt lt ClustersList gt lt CL word bank value 2172 gt working 787 gang 1640 lt CL gt lt CL word gang value 1342 gt bank 1754 robbers 1426 killed 1437 marksman 1634 lt CL gt lt CL word robber value 1243 gt gang 1426 bank 1754 killed 855 marksman 1034 63 trap 711 lt CL word trap value 1330 gt robbers 711 marksman 1582 robber 1034 gang 1342 lt CL gt lt movie gt Comme nous l avons vu pour l activation plus le score est faible plus l l ment est proche d un autre l ment ou est au centre d un ensemble d autres l ments C est une histoire de robber CL value 1243 Le travail d extraction a t effectu automatiquement pour l ensemble des r sum s en anglais d IMDB Sur les 3 5 millions de tokens que comptait la base au d part nous avons soulign 170 000 tokens comme faisant partie d entit s nomm es et d termin es personnage diff rent de acteur etc et 370 000 candidats mot cl L ensemble de ces donn es ont t ensuite incluses un algorithme de profiling organisant les films les uns par rapport aux autres d une part et par rapport l utilisateur d autre part 5 1 2 5 Le d veloppement d Alexandria Avec le d veloppement du S miographe plusieurs applications sont r alisables En laissant aller notre penchant de collectionneur de mots et puis aussi parc
4. tre un soulagement pour nous de savoir que la Structure aura d sambiguis sur une tiquette de sens et limin du fait de blanc le sens cheval_ quitation Nous proposons finalement de dire la chose suivante puisque blanc asserte surface quels sens de cheval supportent ext riorit d un corps mat riel comme possession Cette question revient juste cr er un nouveau lieu qui fera appara tre un nouvel LCA et de nouvelles dissym tries potentielles a l interface des axes componentiels et informationnels Ce lieu limine quitation et ce n est peut tre pas si mal A ce jeu de l effeuillage il ne resterait plus que viande_cheval et cheval_animal si cela importe vraiment Pour cheval avoir couleur c est seulement permettre de r aliser couleur cette solution partant des faits est comme celle que nous avons donn e pour bras qui en se mariant grue ne sert en dehors de l idiome et de la chose qu r aliser une partie de son programme chose allong e Grue n y peut rien et s en moque Si nous disions de ce travail qu il est une grue nous ne devrions pas entendre qu il a un bras mais nous devrions entendre autre chose La relation que nous posons est accessoire et accidentelle du point de vue de cheval et absolument obligatoire du point de vue de couleur Pour couleur dans le vocabulaire d Aristote nous avons une puissance active Pour cheval dans le vocabulaire d Aristote nous avons une puissance passive Cette formu
5. 39 p 161 182 T Poibeau Adeline Nazarenko 1999 L extraction d information une nouvelle conception de la compr hension de texte T A L Traitement automatique du langage volume 40 num ro 2 pp 87 115 T Poibeau 2002 Extraction d information a base de connaissances hybrides th se de doctorat soutenue le 8 mars 2002 l Universit de Paris Nord H Poincar 7905 Les math matiques et la logique Premier article Article publi dans la Revue de M taphysique et de Morale p 815 835 H Poincar 1906 D Les math matiques et la logique Deuxi me article Article publi dans la Revue de M taphysique et de Morale p 17 38 H Poincar 1906 IT Les math matiques et la logique Troisi me article Article publi dans la Revue de M taphysique et de Morale p 294 317 Les articles sont disponibles sur www ac nancy metz fr enseign philo textesph LES_MATHEMATIQUES_ ET_LA_ LOGIQUE doc A Popescu Belis 1999 Evaluation num rique de la r solution de la r f rence critiques et proposition T A L Traitement automatique du langage volume 40 num ro 2 pp 117 146 C Poirier Y Mathet P Enjalbert 1998 La compositionnalit a l preuve des faits a travers un projet de compr hension automatique des constats d accidents B Pottier 1964 Vers une s mantique moderne Travaux de s mantique et de litt rature B Pottier 1992 Th orie et analyse en linguistique Coll Hachette Sup rieur
6. James Pustejovsky 1995 The generative lexicon Cambridge Mass MIT press Quillian 1968 Semantic Memory in M Minsky ed Semantic Information Processing pp 227 270 MIT Press F Rastier 1981 Le d veloppement du concept d isotopie postface de M Arriv contre notes de J Court s coll Actes s miotiques Document du Groupe de Recherche Semio Linguistiques E H E S S C N R S Institut National de la Langue Frangaise F Rastier 1987 S mantique Interpr tative coll Formes s miotiques PUF F Rastier 1990 Signification sens et r f rence du mot HERMES Aarhus F Rastier 1991 S mantique et recherches cognitives Paris PUF F Rastier M Cavazza A Abeill 1994 S mantique pour l analyse Paris MASSON F Rastier 1995 La s mantique des th mes ou le voyage sentimental parue dans L analyse th matique des donn es textuelles l exemple des sentiments Didier Erudition P Resnik 1995 Disambiguating Noun Groupings with Respect to WordNet Senses Proceeding of 2 Workshop on Very Large Corpora P Resnik D Yarowski 1997 A perspective on word sens disambiguation techniques and their evaluation Proceeding of the SIGLEX Workshop tagging text with lexical semantics what why and how pp 79 86 Washington D C A Rey 1976 Th orie du signe et du sens Paris Klincksieck 2 volumes Stephen D Richardson William B Dolan Lucy Vanderwende 1998 Mindnet acquiring and structur
7. Kilgariff 1998 SENSEVAL an exercice in evaluating WSD programs First International Conference on Language Resources and Evaluation ELREC G Kleiber 1997 Sens r f rence et existence que faire de l extra linguistique Langages n 127 page 9 37 G Kleiber 1994 Contexte interpr tation et m moire approche standard vs approche cognitive Langue frangaise 103 p 9 22 A Korzybski 1933 Science and sanity an Introduction to Non Aristotelician Systems and General Semantics Introduction dans Une carte n est pas le territoire prol gom ne aux syst mes Coll Premiers secours L clat S Kripke 1970 La logique des noms propres Les Editions de Minuit 1982 Trad Pierre Jacob et F Recanati Z Harris 1968 Mathematical Structures of Language Wiley New York C Lacl re 1990 Organisation du lexique grammaire des verbes fran ais Dictionnaires lectroniques du fran ais Langue Fran aise Larousse E Laporte 1990 Le dictionnaire phon mique DELAP Langue Fran aise Larousse Douglas B Lenat 1999 From 2001 to 2001 Common Sense and the Mind of HAL disponible a l adresse Internet http www cyc com halslegacy html Douglas B Lenat R Guha 1990 Building large knowledge based systems Reading Addison Wesley F LEVY 1994 Approches s mantiques TAL 35 1 2 A Lentin 1992 Naissance et premiers pas de l ATALA quelques souvenirs et quelques r flexions TAL 33 1 2 7 23 C
8. La figure suivante montre clairement la situation courante dans laquelle nous perdons des l ments de d finition vers th me vers theme vendre theme vers theme personne classe en vers theme g vers theme fleur th me vers theme personne qui vend classe vendre classe esclavage theme vers theme spec termes ies spec esclavage termes gen li s fleuriste n vendre vt termes li s fleur termes li s vendeur n n grier n Figure 7 Personne qui vend des fleurs versus personne qui vend des personnes 14 nous consid rons que le syst me comportant n cessairement des approximations doit toutefois tre capable de fonctionner 44 Dans les deux cas fleuriste et n grier ont deux ancrages dans le graphe fleuriste vendeur personne vendre fleur n grier vendeur personne vendre esclave En remontant jusqu aux anc tres pour chacun de ces deux mots ces ancrages devraient laisser une trace assez pr cise C est le cas de fleuriste qui permet vendeur fleur th me personne vendre heme fleur name personne commerce ineme fleur th me personne commerce ineme plante th me etc Mais ce n est pas le cas de n grier dont la trace s arr te a esclave th me puisque le reste est totalement subsum par commerce th me et personne theme qui s
9. La satisfaction du besoin est pass e par la production d une ressource multilingue obtenue par projection du Dictionnaire Int gral sur les vues choisies 57 les fonctions lexicales monolingues les fonctions multilingues les fonctions Interdep A est d fini par B et B est d fini par comme dans bananier banane Le r sultat est un dictionnaire multilingue organis selon les listes analogiques obtenues dans chaque langue avec une projection pour chaque lexie vers un ou plusieurs mots dans les autres langues Ce genre d application est suffisamment demand pour envisager un d veloppement parall le en d autres langues augmenter la taille de la ressource entretenir des liens troits avec les autres lexiques g n raux comme WordNet Fellbaum 1998 5 1 2 4 Aide a la navigation multimedia Le plus souvent les techniques de traitement de la langue sont utilis es pour comparer une requ te avec un index texte int gral Dans cette application nous avons tudi une hypoth se o un utilisateur ne peut pas saisir de requ te Ce contexte un peu d rangeant au d part nous a t fourni par le projet europ en ITEA EUREKA AMBIENCE 2000 2002 Ce projet g n ral tudie diff rents aspects de ce que pourrait tre une intelligence ambiante moyen terme L id e d Ambient Intelligence a t forg e par Philips Eindhoven Dans sa phase de r alisation de d monstrateur Ambience a t divis en quatre
10. Le lit de l arbitraire in La th orie d Antoine Culioli Ouvertures et incidences Ophrys J Fran ois 2007 Pour une cartographie de la polys mie verbale Soci t Linguistique de Paris Peeters Leuven Paris F L G Frege 1982 sens et d notation C Fuchs Laurence Danlos Anne Lacheret Dujour Daniel Luzatti B Victorri 1993 Linguistique et traitements automatique des langues Hachette sup rieur G et al 1979 Pragmatics Implicature presupposition and logical form New York Academic G et al 1979 Generalized Phrase Structure Grammar Cambridge MA Harvard University Press Genelex 1993 Rapport sur la couche s mantique rapport utilisateur 1994 1 Genelex 1994 Rapport sur le couche morphologique rapport utilisateur 1994 2 Genelex 1994 Rapport sur le multilinguisme rapport utilisateur 1994 3 Y Genthillomme 1994 Panorama sur le Dictionnaire Explicatif et Combinatoire retomb es p dagogiques In Dictionnaire Explicatif et Combinatoire du fran ais contemporain DEC Recherche Lexico s mantiques II Presses de l Universit de Montr al Qu bec R Ghiglione Agn s Landr Marcel Bromberg Pierre Molette 1998 L analyse automatique des documents DUNOD B Godart Wendling F Ildefonse J C Pariente I Rosier 1998 Penser le principe de compositionnalit l ments de r flexion historiques et pist mologiques T A L volume 39 G Grefenstette 1995 Comparing two Language Iden
11. Le tableau suivant d taille les principaux r sultats Libell Crit 1 Crit 2 Crit 3 Origine Vendeur 817 1 10 1 59 2 vend 333 3 fleurs 2000 Fleuriste 784 1 80 2 76 2 vend 818 3 fleurs 750 Bouquetier 784 2 01 2 76 2 vend 818 3 fleurs 750 Floriculteur 770 2 16 1 11 2 vend 818 3 fleurs 724 Horticulteur 784 2 23 3 2 2 vend 818 3 fleurs 750 Tableau 1 Les quatre meilleurs r sultats du dictionnaire l envers pour hortensia Le dictionnaire conna t environ 10 000 d nominations diff rentes de personne pour le fran ais Evidemment aucune de ces personnes n est connue comme vendant sp cifiquement des hortensias Pourtant le dictionnaire arrive ais ment produire cinq solutions augment es du mot vendeur pour lequel le S miographe prend un risque nul Dans le tableau 1 ci dessus quels que soient les crit res les scores bas sont les meilleurs Les valeurs dites d activation utilisent seulement les LCA Elles sont comprises entre 700 minimum et 2000 elles correspondent aux premi re et derni re colonnes Les crit res 2 et 3 utilisent les chemins et tablissent avec quelques variantes la proximit componentielle minimum 0 maximum 140 Les chelles sont semi logarithmiques Nous fournissons ci dessous d autres exemples fournir un aliment comme fournir un croissant produisent videmment alimenter ou nourrir Monnaie du Japon comme unit mon taire de Tokyo produisent yen Guerrier noble
12. Les marqueurs microsyntaxiques ne sont pas des natures ou des classes ils sont des actes qui causent l appartenance hypoth tique d instances des natures ou des classes Par exemple dans boisson de la vache boisson cause une hypoth se d appartenance Postulat principe d un syst me d ductif qu on ne peut prendre pour fondement d une d monstration sans l assentiment de l auditeur Robert Ici le postulat concerne notre fa on de voir la microsyntaxe 8 Nous donnons ici la note de Anne Nicolle il s appellerait acteur en langage de programmation Mais comme nous ne sommes pas dans un langage de programmation nous pr f rons viter cette d nomination 110 ponctuelle comme instance de vache la classe buveur Nous sommes ici tr s loin de m canismes de s lection bool ens de traits statiques tels que propos s par Rastier voir par exemple base de r gles Rastier 1994 p81 Le processus casuel et dynamique propos ici aboutit l mission d une simple hypoth se dans la Structure La figure suivante illustre d une fa on assez conceptuelle ce m canisme implicite implicite implicite instancier terme terme Patron phre e agentive 7 Patron GN g n tif possession possesseur classe classe verbe d action classe actant classe patient classe instancier instancier terme a terme terme identique terme impl
13. Par exemple nous avons argu qu un signe par ex samoura n est jamais tout fait lui m me quand il devient une occurrence cela signifie qu en tant que tel il comporte la fois un quilibre travers la d finition et un d s quilibre travers l occurrence Dutoit 2004 c est dire un d s quilibre entre sa d finition et son d veloppement extensionnel Par exemple supposons que nous voulions bien consid rer une r gle de jeu de jeu d checs par exemple comme une d finition en fait comme un ensemble de d finitions constituant un tout qui est le jeu Un tat particulier de d roulement d une partie peut aussi tre consid r comme une occurrence pourvu qu il soit historiquement atteignable par des tapes telles que chacune de ces tapes respecte les points de r gle concern s par l tape Mais en soi un d veloppement particulier une extension de la r gle du jeu dans une partie introduit deux d s quilibres 1 un tat d une partie peut correspondre un grand nombre d histoires du d roulement du jeu de plus dire que cet tat peut tre atteint par la r gle du jeu n implique pas que cette r gle de jeu pr cise ait t impliqu e dans le d roulement d une partie utilisant les pi ces que l on per oit Nous pourrons toujours douter de la r gle tout 73 Brisons l tous les d veloppements dialectiques qui pourraient prolonger cette introduction Nous reprendrons ces raisonnements ponctuellem
14. Proc of 14th International Joint Conference on Artificial Intelligence p 1362 p 137 Mickael Zoch 2006 Capitalisation d une ressource en or le dictionnaire TALN Leuven
15. diff rence componentielle dans 4 1 2 2 4 page 41 et le dictionnaire l envers dans 5 1 2 2 page 55 A l inverse si le texte comporte une information sur le cheval noir de Marie alors ce cheval arrivera en t te pour la m me raison B quelle est l apparence du cheval de Jean Du fait que couleur est consid r comme unifi avec le dictionnaire le g n rique apparence suppos ici ne modifie en rien le r sultat C quelle est la couleur du gentil cheval de Jean Blanc galement mais avec une moins saturation de la question voir A D quelle est la couleur de l quid la monture de Jean Dans cette situation la structure dynamique construite ne peut rien r pondre COULEUR EQUIDE JEAN ne donne rien du fait que l unification de l occurrence de cheval du texte avec les connaissances sur cheval du dictionnaire n est pas r alis e E quelle est la couleur du cheval de l homme M me situation que E mais cette fois ci pour Jean l occurrence Jean du texte n est pas encore unifi e avec l occurrence Jean du dictionnaire F quel est le cheval de Jean La requ te devient CHEVAL g n rique d instance ET Jean et la solution est double la solution retourne galement CHEVALI et CHEVAL3 123 Pouvions nous pr voir ces trois checs Il semble que oui puisque dans cette r ponse partielle que constitue la Figure 20 nous avons port atteinte CI l unit de la Structure perte de la r f rence
16. moins d en faire une amie de se contenter de programmer les parcours r cursifs de listes de telle mani re que ces derni res soient rompues une fois donn leur contenu Mais l poque la r ponse technique fournie par Dicologique convenait parfaitement et nous laissait du temps pour nous pr occuper d autres questions de s mantique lexicale partir de 1992 consid rant les faits que nous allons num rer d autres besoins sont apparus Nous avons introduit les fonctions lexicales les g n riques les liens potentiels le multilinguisme et les niveaux de langue la morphologie et les constructions Chacun de ces ajouts a t motiv par des probl matiques particuli res Pour chaque ajout Aujourd hui nous savons que loin d tre viter les circularit s pourraient tre dans un sch ma plus g n ral que la th orie des ensembles un moyen efficace pour engendrer une dynamique dialectique susceptible de conduire une description conomique de bien des ph nom nes Consid rant une circularit apparente comme celle de arbre fruit il faut arriver noter l information implicite pour nous que l arbre obtenu du fruit ne donne pas le fruit dont il est issu mais d autres fruits La th orie analytique des individus Pa A 3a gt 3rPx de Strawson 1959 fournit un cadre particuli rement bien d fini de toutes ces questions et en souligne l importance C est un l ment qui nous am nera nous int resser plus
17. par exemple en termes de d sambiguisation ou de constat sur le contenu du dictionnaire destin l homme de cet inventaire Ces deux objectifs ont t satisfaits l issue de la p riode puisque la p riode suivante verra appara tre une premi re diffusion de l inventaire et des hypoth ses de calcul s mantique Cependant nous notons des pertes d information dans le graphe Par exemple l observation de la Figure 1 page 14 fait appara tre certaines de ces pertes par rapport aux nonc s du dictionnaire Larousse Il s agit principalement de 1 la perte du lien relevant directement de l Empereur 2 la perte de la syntaxe des d finitions Ici le lien existant par exemple entre comte classe et Allemagne termes li s est perdu Pour l essentiel ces deux pertes ont pour origine commune la perte 2 que nous venons de signaler Soulignons cette anomalie importante le graphe orient d fini ne permet pas d enregistrer les liens syntaxiques D une fa on plus g n rale notons le probl me suivant aucun expression propositionnelle ni aucun concept structur ne peut tre enregistr dans le graphe Gardons finalement en m moire 19 Question 1 Comment enregistrer des concepts structur s dans le DAG Malgr cette limite la version du dictionnaire a t et reste la plus fine construction lexico s mantique de grande taille fond e sur des rapports de similitude entre des objets les signes Cette ressource const
18. pour Japon R ciproquement par structurant nous entendons qu un concept n a d int r t que s il est impliqu par d autres l ments comme par exemple le concept Tokyo ou le mot Tokyo n p pour Japon Libell d un Concept commentaire r dig en texte libre destin e renseigner l humain sur l usage dudit concept Mot sens mot de la langue dans une acception particuli re Une acception i d un mot apr s analyse lexicologique est d clar e l aide de l num ration des concepts A B et per us par le lexicographe au moment de l tude de i En 1989 le mot sens tait d fini par une simple num ration de concepts cette num ration s appelait quasi d finition Quasi d finition Pour un mot sens ensemble de ces concepts imm diats chacun de ces concepts jouant le r le de trait d finitoire Trait d finitoire concept componentiel dot d un type Nous donnons ci dessous quelques uns des types de traits s mantiques que nous avons utilis s Classe trait d finitoire groupant des mots semblables en termes de nature Par exemple renard classe Contient diff rentes nonciations du concept renard goupil isatis renardeau renard noir renard bleu renard polaire renard commun renard blond des sables renard gris argent renard crabier renard petites oreilles renard de la pampa renarde renard S d s qu il y a mental il faut inclure la notion de dur e dans le sens de la note
19. pourvu que ce n importe quoi d autre soit susceptible de supporter la pr dication aimer les femmes Du fait que par des figures courantes nous trouvons nombre de marques de produits et de services qui aiment les femmes ou les enfants ou les ados etc l avocat co d fini par ce_dont_je_parle pourrait tre celui ci HUILE D AVOCAT MELVITA 8 40 L avocat aime les femmes Excellente huile anti ride l huile d avocat principalement recommand e pour les peaux tr s s ches elle peut tre utilement pr conis e pour le contour des yeux et les soins du cou On la recommande galement pour la pr vention des vergetures en association avec le beurre de karit dont les insaponifiables sont remarquablement compl mentaires Elle pr sente parfois un d p t tout fait naturel Pour bien comprendre notre propos comparons l nonc amusant que nous venons de donner a quelque chose comme l avocat aime les sols argileux ou pour se pr ter encore moins d interpr tation l artichaut aime les sols sablonneux L important devrait maintenant mieux appara tre Le probl me n est pas un probl me de cat gorie ou de nature du type s agit il d un homme de loi d un fruit ou d un l gume Mais d un probl me voisin de selon quels points de vue avocat est il un homme de loi o un v g tal tant donn le co texte consid r Ce sera seulement partir de 1996 que nous commencerons avoir pour certains cas une hypoth se directrice vo
20. qui ne pr sente aucune difficult maintenant que nous avons born notre formule 1 la multiplication cr er un concept structur el e3 e2 avec el instance de nombre e3 instance de multiplication et autre e2 instance de nombre Emettre le r sultat comme un nombre occupant l ensemble des positions des tokens dont il est issu 2 l addition a cr er un concept structur el e2 e3 e4 es avec el lt TOUTFORMULE gt e2 instance de nombre e3 instance de ou e4 instance de nombre e5 instance de ou Puis calculer e2 e3 e4 pour de vrai mettre le r sultat comme un nombre occupant l ensemble des positions des tokens dont il est issu b cr er un concept structur el e2 e3 e4 es avec el lt TOUTFORMULE gt e2 instance de nombre e3 instance de ou e4 instance de nombre 97 e5 lt TOUTFORMULE gt puis calculer e2 e3 e4 pour de vrai mettre le r sultat comme un nombre occupant l ensemble des positions des tokens dont il est issu mettre a toutes fins utiles ce r sultat comme instance dans la classe r sultat du dictionnaire En observant que CALCULER FORMULE signifie CALCULER RESULTAT FORMULE laisser l ordinateur mettre ot il veut G n rique R sultat classe lt RESULTATS c est dire r sultat 2757 6 1 6 3 Quelques remarques sur l exemple Nous avons montr cet exemple pour rappeler le fonctionnement des LCA Il est impossible
21. re conclusion sur la r solution de cheval blanc Nous ne pouvons d tailler tous les l ments et tous les points de vue que la r solution de la question du cheval blanc implique chez nous En particulier il serait tout fait incoh rent de tenter une synth se d une pr sentation de la conjonction des points de vue qui s est form e dans la Structure Tout ce que nous pouvons faire se r duit une num ration d observations dans le genre de il existe forc ment puisque nous l avons d crit dans le graphe de telle instance X du point de vue d une autre instance prise de telle mani re particuli re un certain nombre de LCA 108 agent fond sur un but selon la terminologie de Russel 2000 120 Par contre il est possible de limiter cette pr sentation de la r solution en n abordant pas l impact d taill d objets que nous n avons pas encore introduit Nous faisons l impasse sur les reconnaissances et effets de certains mots comme pour notre exemple est la de le Henry et IV Concernant le et la il nous faudrait incorporer la note 73 page 86 qui est assez abstraite Concernant Henry IV il semble qu il existe une litt rature suffisamment abondante sur les entit s nomm es Concernant de nous avons observ une prise en compte fort locale dans la Figure 18 page 111 ci dessus Nous ne pouvons reprendre toutes ces questions Nous consid rons maintenant que nous disposons d un langage l mentaire et d un dictionnaire
22. sirables pour le locuteur elc Il faut noter au plan linguistique c est dire in fine au plan de la paraphrase que les diff rentes compr hensions impliqu es n appellent pr cis ment pas les m mes paraphrases En oubliant le cas particulier idiomatique un homme riche ce cas pourra trouver une analyse assez voisine de celle de changer dans je vais me changer tous les autres emplois se trouvent lucid s par la structure s mantique m me des significations des noms qualifi s Pour revenir ce qui nous int resse c est dire non pas sur une organisation du sens fond e sur des fonctions comme c est le cas avec la TST mais une organisation fond e sur des mondes m r ologiques interconnect s c est dire sur des organisations partie tout nous avons dans ce vocabulaire pour mine ce n est pas la totalit mine qui vaut beaucoup mais les minerais extraits pour style ce n est pas la totalit style qui vaut beaucoup mais la vari t des moyens d expression utilis s pour sol ce n est pas la totalit sol qui vaut beaucoup mais ses qualit s nutritives pour les plantes pour th se ce n est pas la totalit th se qui vaut beaucoup mais par exemple l ampleur la profondeur et la vari t des id es de la th se etc Cette question pointe directement le probl me de la r f rence de la quantification port e par riche Direction pour une solution structurale En pratique tous les exemples fournis ici pr sentent
23. solus localement samoura est vu comme un mangeur C est ce qu il nous faut obtenir en suivant les d sint grations et r int grations compositionnelles et componentielles Nous fournirons une piste plus d taill e paragraphe 6 3 2 La r solution du cheval blanc page 115 Le caract re idiomatique de l exemple est plus que discutable c est de fait un parti pris Il rappelle que nous nous int ressons davantage ce que veulent dire les choses qu la mani re de les dire cette derni re question relevant davantage de la grammaire et du bon usage que d une s mantique interpr tative c est dire non au d but du processus 3 Il devient membre de la classe des mangeurs comme une formule est devenu membre d une classe de formule susceptible d tre invit e s ex cuter par le contexte Framenet de Fillmore fournit un assez bon exemple d interconnexions des lieux que nous venons d envisager En cela le suivi des travaux sur Framenet importe pour nous Mais Framenet n est pas une Structure Il s agit juste d un r seau logico s mantique con u dans une vision particuli re Le besoin qu il a de s illustrer sur plusieurs milliers d exemples pour chaque Frame cr le montre bien Pour nous les exemples ne valent que s ils refl tent quelque chose de particulier dans l usage Ils n ont droit de citer dans le dictionnaire qu en cela Pour Fillmore au contraire les exemples font figure de mod le en tant que tels ils sont l
24. un travail faire un travail soign travailler en quipe et discuter des humanit s NB nous n avions pas pu avoir acc s Frantext 21 140MF De m me avec le minitel et les pages jaunes des projets industriels influents d finissaient bien les principales directions Observant ces mouvements et particuli rement les centaines d ann es hommes d pens es sur ces projets avec il s agit ici de notre jugement de l poque une orientation domaine marqu e de telle mani re que sa transposition une nouvelle application n aurait que peu de chance d impliquer des conomies d chelle nous avons continu dans une optique libre de toute contrainte applicative ou de domaine La question que nous posions tait alors la suivante quels calculs pouvons nous r aliser depuis la base de donn es constitu e et comment effectuer ces calculs C est cette poque que s est install e une pratique que nous avons toujours d finition des principes d organisation des entr es du dictionnaire estimation de leur int r t pour diff rents calculs coh rence et compatibilit conceptuelles en termes de mod le de donn es et inf rentielles en termes d inf rences permises avec le mod le courant En fait pour nous chaque repr sentation de dictionnaire est l gitime conform ment l Observation 1 page 14 La question principale qui se pose est l int gration et la coh rence du tout C est cette p riode qu
25. visions colombiennes on peut voir Ingrid Betancourt dans un tat d extr me maigreur les mains crois es la t te baiss e et apparemment tr s lasse s TV5 orq Alexandria PE En pani et porte reste silencieuse ses retransmettre Ww sur l paule aug plu Votage enlev e le 2 retransmettre v Forces arm es revolt mission mission t l vis e retransmetteur retransmission 4 passer transmettre ersonnalit ou une Farc marxistes se jungle dans une r gi Contributeurs d Alexandria Cela d montre quer Memodata Wordnet 2 0 Copyright 2003 by Princeton University All rights reserved Balkanet Litre rapidement pour obte Concu et dit par Memodata ne pourra pas tenir tr 51887 maigre et si mince a Caracol priv e M F mari d Ingrid apr s a SSECHOT TN Ter OT pays Le haut commissaire colombien pour la paix Luis Carlos Restrepo qui a annonc de la pr sidence l existence de ces preuves selon lesquelles elle est en vie a mentionn une lettre d Ingrid Betancourt dat e du 24 octobre 2007 adress e sa m re Yolanda Pulecio Les images des quatre otages ont aussi t tourn es le 24 octobre a affirm M Restrepo sans fournir plus de d tails Figure 13 Alexandria sur TV5 monde la traduction de retransmise vers l arabe Environ 1000 sites proposent aujourd hui Alexandria sur leurs pages et trouvent des usagers quotidiens Alexandria pr sente galement des fonctionnalit s
26. 1 je r essaie 4 uelle est la couleur d un cheval Bien Q ae Et bien c est blanc vous venez de me i le dire Connaissez vous VirtuOz Tableau 5 Un corpus plus tendu de questions Comme nous le voyons il nous est assez difficile de nous faire une id e rapide de la performance d un agent conversationnel sur le Web Les r ponses sont elles partiellement al atoires Les erreurs masquent elles des refus polis de perdre du temps effectuer un calcul stupide Pour largir notre enqu te nous avons fait d autres essais de white horse avec plusieurs chatterboots anglais comme celui de http www artificial solutions com ou de http www verbots com Les choses n ont pas t beaucoup plus convaincantes Nous n avons pas test Eliza mais nous avons test Alice d velopp initialement par Richard Wallace Le r sultat est souvent noir Alors videmment nous comprenons bien que tous les agents pr c dents soient des IA avec leur vie propre Et nous sommes donc absolument certains que nous ne travaillons aucunement sur une TA En effet tout ce qui nous int resse de Q1 a Q4 est l obtention d une structure qui pr sente dans le graphe contextuel du signe quelle quelque chose qui ressemble un fl chage vers blanc Abordons maintenant notre r solution du cheval blanc 6 3 2 La r solution du cheval blanc Maintenant que nous sommes certains que la r alisation d un agent conversationnel ne nous int resse pas en
27. 1 INTEGRATION DE LA MORPHOLOGIE COMPOSITIONNELLE 77 6 1 2 INTEGRATION D ENONCES COMPOSITIONNELS METALINGUISTIQUES 81 6 1 3 INTEGRATION D UNE GRAMMAIRE SYNTAGMATIQUE 84 6 1 4 INTEGRATION DU TERME 87 6 1 5 INTEGRATION D UNE DATE 88 6 1 6 INTEGRATION D UNE FORMULE 93 6 1 6 1 Le bornage strict d une s quence et l insertion de lieux nomm s 93 6 1 6 2 R duction alg brique calculs utiles l analyse de texte 97 6 1 6 3 Quelques remarques sur l exemple 98 6 1 7 CONCLUSION 99 6 2 L INTEGRATION DE FAITS SEMANTIQUES QUI CIBLENT A LA FOIS DES POINTS DE VUE COMPOSITIONNELS ET COMPONENTIELS 100 6 2 1 QUATRE CAS COMPLEXES MAIS SOLUBLES 101 6 2 1 1 Int gration de la d finition prenant une forme sch matique 102 6 2 1 2 Int gration de la contradiction entre connaissances des choses et connaissances des d finitions 104 6 2 1 3 Int gration de l inf rence issue des connaissances sur les choses 105 6 2 1 4 Int gration de la syntaxe de la d finition pour sauver une grammaire surfacique 107 6 2 2 CONCLUSION 108 6 3 LA DEFINITION D UNE MICROSYNTAXE POUR ELARGIR UN PEU LE CHAMP PERCEPTIF DE LA STRUCTURE 109 6 3 1 POSTULER LA MICROSYNTAXE 109 6 3 1 1 D finition de la microsyntaxe 110 6 3 1 2 De la pertinence des postulats de la microsyntaxe 113 6 3 1 3 Un corpus plus tendu de cheval blanc 114 6 3 2 LA RESOLUTION DU CHEVAL BLANC 115 6 3 2 1 Notre fa on de r soudre le probl me 116 6 3 2 2 D un rapport d finition du dictionnaire et information l menta
28. 2 page 8 Notre concept exclut ici cette notion de dur e Il est bien un artefact con u uniquement pour peupler un espace 6 La production d un th saurus suppose la dualit concept mot Par exemple dans le th saurus P choin l article 508 courage commence par le nom courage La dualit y est naturelle et nous trouvons toujours tonnant que les USA qui ont eu le th saurus de Roget 1852 n aient pas prolong ce travail par exemple dans WordNet Fellbaum 1998 V Dans la th orie Sens lt gt Texte les termes unit lexicale ou lexie sont utilis s en lieu et place de mot sens Il nous semble toutefois que mot sens est moins sujet diverses interpr tations et c est pourquoi nous le retenons 12 argent renard blanc NB Un m me mot sens peut appartenir a plusieurs classes ex renardeau n m appartient a renard classe et petit d une esp ce classe Th me trait d finitoire groupant tous les mots partageant un m me l ment de d finition ind pendamment de leur partie du discours Renard th me comprend renard jasse et d autres mots plus isol s glapir renardi re hydrophobie rage pi ge a renard et les elliptiques de fourrure de renard Classe d opposition ex monter descendre classe Th me d opposition ex monter descendre h me Termes li s trait non d finitoire groupant tous les mots appartenant un m me th me mais non susceptibles d appartenir une des classes du th
29. 4 1 2 2 4 La diff rence componentielle page 41 et une analyse plus fine sur riche sera propos e au paragraphe 6 2 1 1 Int gration de la d finition prenant une forme sch matique page 102 Pour la suite ce que nous appelons Structure comporte dor navant la date et l information componentielle propre ses composantes Analyse sait consid rer que certaines composantes ne sont activables que si l existence du tout est tablie R sultat comporte une repr sentation dans laquelle des composantes libres comme le 25 sont perceptibles comme en rapport avec des composantes li es composantes formant le tout tabli Signe conserve une forme intangible 6 1 6 Int gration d une formule En traitant d une date nous avons conserv les composantes possibles d une date d s qu une date bien form e a t construite afin de conserver l onomasiologie du concept et de donner consistance au Signe pris comme r f rence Mais que se passe t il avec un nonc alg brique Que pourrait faire la Structure d un nonc comme Calculer 4 5 6 91 23 En ce cas la syst me pourrait il extraire exactement la taille de la formule ce qui importe plus que n importe quoi d autre pour identifier le sens de la formule et calculer le r sultat de cette formule puisque a dans l nonc le verbe calculer demande explicitement au syst me de le faire b ce r sultat est dans une certaine mesure le sens de la formule c ce r sult
30. Chevallier 2003 Multimedia browsing European Symposium on Ambient Intelligence Eindhoven The Netherlands Conf rence Internationale comit de lecture sur article complet Workshop 1 1 D Dutoit T Poibeau 2002 Generating extraction patterns from a large semantic network and an untagged corpora acte de Conference on Computational linguistics COLING TAIWAN Conf rence Internationale comit de lecture sur proposition de r sum 5 1 D Dutoit 2000 A text gt meaning gt text dictionary and process acte de Language resource and evaluation LREC 2 D Dutoit T Poibeau 2002 Evaluating resource acquisition tools for information extraction full paper acte de Language resource and evaluation LREC Las Palmas 3 D Dutoit P Nugues 2002 The right word full paper acte de Language resource and evaluation LREC Las Palmas 4 D Dutoit P Nugues P de Torcy 2004 The Integral Dictionary An Ontological Resource for the Semantic Web full paper acte de Language resource and evaluation LREC Barcelona Conf rence Internationale Invit 1 1 D Dutoit April 1998 Linguistique et apprentissage automatique 10th european conference on Machine Learning Conf rence nationale 8 Conf rence Nationale a comit de lecture 2 1 Dutoit D T Poibeau 2002 valuer l acquisition semi automatique de classes s mantiques acte de TALN 2 D Dutoit P de Torcy Y Picand 2004 Quelques contenus
31. IV pour r pondre d une fa on assez g n rale la question comment La forme prise par cette r ponse cette question comment est d j assez complexe et nous comprenons pourquoi sauf l aide d un ordinateur nous serions tr s en difficult pour r pondre convenablement sans th orie ad hoc aux probl mes pos s en 6 2 un moment donn il convient de r aliser des instruments La r alisation de ces instruments est la partie terminale de la conclusion de ce m moire 6 1 Int gration d nonc s compositionnels Ce chapitre traite d un premier niveau d int gration en n abordant que de choses simples Au moyen de ces choses simples il introduit certains m canismes r flexes dont nous aurons besoin par la suite En m me temps le chapitre raisonne sur un point limite de l int gration apr s tout il est presque contre intuitif qu il faille int grer des choses proprement compositionnelles dans un espace proprement componentiel Le paragraphe 6 1 traite donc de deux questions le m canisme et l opportunit m me s agissant de cas limite Pour traiter de ces questions d une mani re suffisamment exhaustive pour que cette mani re puisse arr ter notre attention nous avons retenu six classes de ph nom nes Ces classes sont toutefois consid r es depuis un exemple Le point commun de chacun des cas et des exemples est leur caract re de simplicit Tous les cas et tous les exemples sont faiblement d composables En effet tous
32. JEAN1 2 BLANC COULEUR COULEUR instance Is_A CHEVAL1 3 oi BLANC COULEUR CHEVAL1 3 JEAN1 2 Rae eee rn JEAN1 ou JEAN 2 CHEVAL1 OU CHEVAL 3 BLANC instance instance CHEVAL1 CHEVAL3 Figure 21 Graphe des instances r ifi es dans l axe componentiel pour la r solution de Q2 Dans cette figure les formes sont voisines de celles de la Figure 20 En fait la figure comporte certainement derri re la Figure 20 pourquoi supprimer les liens cr s alors qu ils ne sont aucunement remis en cause Dans cette figure les fonctionnalit s sont tendues et la prise de risque est rendue minimale du fait de l effet d accumulation des relations et donc des LCA nous sommes toujours certains de rester au plus pr s des questions qui seraient pos es 6 3 2 5 Conclusion sur la r solution Nous avons effectu des variations sur la question du cheval blanc Nous avons remarqu quel point 1l est int ressant de rester pr s des ph nom nes attest s du texte et de ne remonter aux cat gories comme cheval classe que progressivement et en extension des liens attest s de plus bas niveaux ainsi nous pr servons les relations d ordre des LCA Nous avons aussi observ que les r solutions sont assez simples et sont de toutes mani res accessibles un ordinateur En particulier il est certain que les questions Q1 Q3 Tableau 5 page 115 ne posent pas vraiment de difficult s 125 En r tablissant les unit s trave
33. Nous avons indiqu que cette rupture A4 tient en l affirmation suivante dans la vue syntagmatique particuli re de pomme de terre pomme n a pas de sens Comment un signe tel que pomme peut il n avoir aucun sens dans une vue donn e qui le d finit en terme d emploi 2 65 Dans pomme de terre nous proposons de consid rer que pomme a pour sens l ment de pomme de terre Nous crivons pomme n f e1 gt pomme de terre loc f dans pomme de terre loc f D tails sur le formalisme A Observations g n rales sur dans ou la notion de lieu 1 Nous avons d j vu une notation tr s semblable paragraphe 5 1 1 Le moteur de LDI devient un hypergraphe page 52 Elle permettait de distinguer une relation de LDI et une relation de WordNet Plus pr cis ment elle permettait de concevoir tout LDI et tout WordNet d autre part comme des graphes diff rents 2 Ici l usage de la notation est exactement le m me En effet la notation asserte que pomme de terre est un graphe un lieu particulier de r alisation d une certaine mani re de concevoir 6 Il n y a pas ici de confusion entre signe et graphie ou entre signe et repr sentation phon tique Dans tous les cas il y a d abord perception de quelque chose pris comme un tout ici ce tout est pomme Nous ne pouvons imaginer que ce tout n est pas de justification ne puisse tre pris dans un certain sens c est dire selon une certaine id e intelligible laquelle un objet de pe
34. Une fois que nous serons sensibilis s par le propos nous montrerons l impact potentiel d une mauvaise r solution du probl me sur le comportement du DAG 4 2 2 Les changements de points de vue concernent les choses les plus simples Nous essaierons ici de faire partager l id e que samoura n est point Is_a humain mais seulement Is_a personne 1 Fondamentalement En tentant de mieux assimiler une id e fondamentale mais non originale concernant le signe En relisant l Observation 3 page 18 et la note 31 page 37 nous supposons que l absence de signal entre samoura et mange dans le S miographe qui est fond sur une structure 45 homog ne manifeste le fait qu il n y a pas de lien componentiel m me t nu entre samoura et mange 2 Inf rentiellement Les inf rences suivantes sont imm diatement bizarres 1 samourai gt personne gt cum tazoaire animal gt tout truc qui mange manger vt 2 samoura gt personne gt mangeur gt tout truc qui mange manger vt Pour 1 nous n imaginons pas un samoura d nomm eum tazoaire ni plus que nous ne pouvons imaginer descendant dans les eumatozaires trouver un samoura Pour 2 nous n imaginons pas un samoura d nomm mangeur ni plus que nous ne pouvons imaginer descendant dans les mangeurs trouver un samoura Les inf rences suivantes ont le m me d faut 3 samoura gt personne gt animal gt tout truc qui mange manger vt 4 samoura
35. Universe R R R3 A B C R4 R7 0 RI RS R D E W5 RI RI 15 R16 Pa I RRE NAS O O LF2 wl W2 Z W3 LF Figure 6 Un graphe de concepts mots et fonctions lexicales pour illustrer le fonctionnement du S miographe Dans la figure les n uds commen ant par un backslash V sont des concepts tandis que W1 W2 W3 etc figurent des mots La racine du graphe est not universe c est l anc tre de tous les concepts Il a trois fils respectivement A B et C qui peuvent galement tre des classes ou des th mes Les relations not es Rn relient les concepts entre eux et les relations LEn symbolisent les fonctions lexicales Dans la figure W3 a deux parents R15 E W3 et R16 F W3 LF1 est une fonction lexicale reliant W3 W4 LF1 W3 W4 L inverse des relations est accessible Ainsi il est possible d obtenir W4 de W3 par exemple LF1 W3 WA4 Dans le dictionnaire le nombre moyens de p res d un concept est 2 1 ce qui en soi refl te la notion de diff renciation au niveau local les distances entre mots ou textes sont d riv es de la distribution locale des traits s mantiques C est la somme de deux mesures que nous avons pris l habitude d appeler activation componentielle et diff rence componentielle Nous d crivons une version simplifi e de ces mesures qui ne prendra pas en compte les importantes alt rations issues de la nature des relations et de la nature des concepts 4 1 2 2 3 L activat
36. comme un agent cherchant satisfaire ses objectifs tandis que samoura se comporte comme un patient un serveur r alisant l objectif d un tiers Au chapitre 6 3 1 page 109 nous parlerons plus g n ralement de a a Le nom cause la cr ation d une classe d instance nom et un emploi g n rique d instance dans cette classe nom Comme une classe n est justifi e que si son contenu comporte plus d un l ment Le nom pris isol ment cr e une instabilit dans le graphe le graphe de l instance g n rique de la classe est en construction et attend ses sp cifiques b Nous venons simplement d exprimer que formellement un nonc comme quelle est la couleur contexte nul est incorrect A contrario de ce point de vue quelle est couleur du cheval blanc d Henry IV est tout fait correct 86 marqueur Ici Le s est comport comme un marqueur syntagmatique et s est r alis comme tel D un autre c t le programme componentiel de samoura ne s est aucunement r alis Notons pour finir que les mots agissent et que notre notion de localisation commence justement les faire agir Les mots agissent en marquant des r f rences dans cet espace proprement structural et pr extensif appel par les structuralistes voir note 10 page 9 Pour la suite ce que nous appelons Structure comporte dor navant la d claration d une ou plusieurs grammaires Analyse sait traiter de fa on monotone diff rentes sortes d
37. concernant l tendue de la formule 94 Las ssh is_A ers theme eo formule math matique du dictionnaire formule n f is A e1 pr c e3 pr c e2 por e lt TOUTFORMULE gt lt TOUTFORMULE gt ins rer dans la phrase la balise ins rer dans la phrase la balise lt TOUT gt lt TOUT gt e2 pr c e1 el pr c e2 n importe quoi pr c une formule une formule pr c n importe quoi le dictionnaire Une formule is A is_a op rateur alg brique Les nombres en extension tout nombre SN multiplier par et Figure 17 D finition d un TOUT pr cis et balisage 95 Nous d taillons un peu ce graphe Nous pourrions ratiociner l analyse de une formule mais cela n importe pas ici L interpr teur de la Structure travaille en prenant en entr e cette Structure et l nonc exemple Calculer 4 5 6 9 23 Il construit au fil de l eau un hypergraphe m lant la structure en extraction et la phrase en lecture Cet hypergraphe est la Structure r sultat En particulier 1 il instancie tout ce que la structure reconna t dans les tokens qu il lit 2 du fait d une certaine disposition de la phrase il constate la cr ation d objets de diff rents niveaux d analyse et d abstraction 3 ces objets cr s sont eux m mes susceptibles de cr er d autres objets plus ou moins complexes ou plus ou moins compliqu s plus complexes s ils se r sument les dans les autres c est le but recherch ici plus compliqu s s
38. de Loupy Marc El Beze Pierre F Marteau 1998 Word Sense Disambiguation Using HMM tagger Proceedings of First International Conference on Language Resources amp Evaluation LREC C de Loupy Marc El Beze 2000 Using few clues can compensate the small amount of resources available for Word Sense Disambiguation Proceedings of second International Conference on Language Resources amp Evaluation LREC J Lyons 1978 El ments de s mantique Coll Langue et langage Larousse Universit Trad J Durand M Marcus M A B Marcinkiewicz Santorini 1993 Building a large annotated corpus of English the penn treebank Computational Linguistics 19 2 313 330 R Martin 1983 Pour une logique du sens Paris Presses Universitaires de France Y Mathet 2000 Etude de l expression en langue de l espace et du d placement analyse linguistique mod lisation cognitive et leur repr sentation informatique Universit de Caen th se de doctorat I Mel cuk 1986 Dictionnaire explicatif et combinatoire du fran ais contemporain Presses de l universit de Montr al Qu bec I Mel cuk 1992 Dictionnaire Explicatif et Combinatoire du fran ais contemporain DEC Recherche Lexico s mantiques III Presses de l Universit de Montr al Qu bec I Mel cuk amp A Polgu re 1995 Introduction a la lexicologie explicative et combinatoire Coll Champs linguistiques Ed Duculot I Mel cuk Sylvain Kahane 1
39. de configuration permet de d terminer sur quoi porte l extraction des lettres des mots des lemmes des parties du discours des concepts de LDI de m ler des donn es en une m me s quence par exemple pour constituer des s quences m langeant des concepts et des parties du discours de d finir puis d accepter ou de refuser automatiquement des s quences ambigu s de d finir les longueurs maximales des s quences enregistr es de d finir des d buts et des fins de s quence L API m morise des s quences de longueur maximale param tr e nous utilisons en g n ral 9 comme valeur de ce param tre et nous sert construire des mod les de langage depuis des corpus non tiquet s EJ L API morpho syntaxique L API fonctionne partir de s quences collect es par l API pr c dente et r sout les conflits la mani re d un mod le de Markov en travaillant sur la perplexit l cart entre ph nom nes certains et ph nom nes incertains Il s agit d apprentissage non supervis stochastique et sans corpus d apprentissage d di Pour le fran ais la base d apprentissage est d crite en note 21 page 20 dans cette base nous avons tout de m me limin des textes crits en vieux fran ais comme Pantagruel Pour le reste la base d apprentissage est rest e h t rog ne po sies romans essais pi ces de th tre F L API d expansion lexicale Cette API permet de g n rer pour l expansion le d ve
40. des instances et dans un maillage concept_instance Par exemple si le tableau noir re oit un premier mot d un nouveau texte comme Tokenl cheval il enregistrera il existe fexte texte a pour p re Token 1 phrase a pour p re cheval Token I a pour p re cheval Token 1 cheval a pour p re cheval Token 1 cheval a pour p re cheval lui m me pour certains probl mes particuliers cheval a pour p re et est G n rique cheval classe etc En d finitive d s la r ception de cheval le S miographe actualise toutes les informations du dictionnaire qu il a propos de cheval le mot sens et propos cheval Token 1 l occurrence Cette actualisation des connaissances dans la Structure est r alis e en dehors de l espace des tokens sauf pour le mot_sens cheval lui m me En effet le Token_cheval ne peut pas encore instancier de ph nom ne du concept cheval du fait que en tant que mot isol cheval n est pas encore animal classe Cheval classe Cheval theme quitation synonyme OU autre A contrario d s qu un LCA impliquant cheval_mot_sens sera trouv tout le maillage token concept se cr era r guli rement et produira une sorte de S miographe local du token ce S miographe local permet de rendre endog ne la surveillance dans la structure de toute occurrence de ph nom nes futurs qui pourraient se produire le concernant ou concernant un point de vue son propos 6 3 2 3 4 Premi
41. dit le m tadiscours constitue une tr s large part du discours Comme nous l avons dit que nous venons d crire lieu grammatical de gestion des accords qui fait suite l v nement pomme de terre Nous nous sommes content s de repr senter l mission du tout pomme de terre dans l axe componentiel qui tait ici le point de vue que nous souhaitions traiter quoi on ne doit pas toucher porter atteinte que l on doit maintenir intact Robert Voir note 62 page 73 Loin de toute recherche d oxymore nous pouvons prendre l assertion pragmatique abstraite pour tous les sens de pragmatique de la fa on la plus litt rale qui soit 1 tude des signes en situation Robert Voir sur la devanture d une boulangerie le mot boulangerie Ce signe boulangerie va interagir d une certaine mani re avec le stimuli visuel de la boulangerie Peu importe la mani re Ce qui compte est la chose suivante dans quel espace se produit cette interaction Dans l espace concret si nous g n ralisions Austin Aucunement Tout juste dans le monde abstrait de la repr sentation dans ce qui n existe que sous forme d id es 2 Qui est adapt l action sur le r el Robert Quel r el existe en dehors des repr sentations que nous en avons 3 Qui concerne la vie courante Robert Qu est ce qui appartient davantage la vie courante que la transformation des stimuli en signes 4 Relatif au pragmatisme doctrine qui donne la valeur pratiq
42. du consortium qui comporte 6 participants VODEL se situe dans le cadre de la recherche d information sur Internet Son objectif principal est l exploitation conjointe des ontologies et des dictionnaires lectroniques afin de profiter pleinement de leurs atouts respectifs Plus pr cis ment il s agit de permettre un utilisateur non expert d acc der des documents index s par une terminologie voire une ontologie m tier par le biais de d finitions d un dictionnaire m tier adoss par des liens s mantiques un dictionnaire g n raliste Une id e importante du projet est de rechercher les termes de la requ te experte en utilisant un vocabulaire non sp cialis Les r sultats attendus sont des algorithmes d analyse de dictionnaires informatis s une architecture logicielle pour la coop ration de tels dictionnaires avec des ontologies ou terminologies m tiers pour la recherche d information sur le Web ou dans des bases m tiers et une interface de navigation contextuelle Le projet VODEL a t valu travers 3 applications pilotes dans le milieu hospitalier afin d ouvrir aux patients l acc s des informations m dicales en ligne site m dical CISMeF du CHU de Rouen dans le service qualit d EADS o il s agit de montrer comment une information contextuelle dot e de liens peut faciliter l appropriation et la m morisation des principes et normes concern s dans le cadre du progiciel documentaire Si
43. et localisation R ceptrice d une r f rence elle intervient comme une localisation pour d autres instances de signes B La mod lisation que nous venons de faire ne s occupe pas du tout de la pertinence ou de l introduction de crit res pragmatiques particuliers Nous imaginons bien que ce genre de choses puisse donner lieu des efforts sp cifiques mais nous attendons la d monstration C La mod lisation que nous venons de faire ne sert qu rendre endog ne une certaine perception dans un mod le cette endog n isation est rendue n cessaire pour respecter les crit res C1 C4 C1 la Structure obtenue reste atomistique une date n est rien d autre qu un point un l ment vu de l ext rieur et n est rien d autre qu un DAG vu de l int rieur C2 l Analyse reste homog ne elle prend en entr e une Structure atomistique dans lequel l algorithme des LCA continue fonctionner dans la limite du graphe d fini d finissant une date C3 la Structure r sultat reste atomistique cela n emp che que dans un autre graphe le 25 ait un autre sens C4 Le Signe est conserv le 25 aun sens dans a date Remarque ce n est pas parce que tous les liens compositionnels et componentiels de date sont vraisemblablement chez un humain actifs d s la prise de rendez vous que nous les rendons actifs Nous les rendons actifs uniquement pour ne pas atteindre aux int grit s des Structure Analyse R sultat et Signe de notre mod le D le
44. expression p cheur la ligne Le cas Soient p cheur la ligne p cheur au filet p che la cuill re etc Ne retenons que p cheur la ligne Un syst me simple uvrant dans une seule cin matique pourra r aliser l une des erreurs suivantes ou bien il refusera la d composition de l expression semi fig e et sera inadapt une application n cessitant une d composition comme celle que nous avons montr e paragraphe 6 1 4 Int gration du terme page 87 En refusant de casser p cheur la ligne il consid re alors p cheur la ligne comme pomme de terre En plus d chouer dans une application il porte atteinte aux unit s de structure d analyse de r sultat et de signe En fait ces travers vont ensemble ou bien par exemple il est de niveau grammatical et d sambiguise l aide d une ontologie lexicale un peu faible alors il rep re personne et la ligne Soit il sait qu il ne sait pas rattacher un groupe pr positionnel c est normalement le cas s il n a pas la locution dans son lexique et alors nous retrouvons l erreur applicative et analytique pr c dente soit il rattache sur le nom ce qui produit une erreur comique sur l axe paradigmatique personne la ligne ou un verbe disponible et aimant la pr position Vraiment n importe quoi pourra alors survenir Direction pour une solution structurale Nous pourrions d ja commencer par r it rer ces observations pour par exemple p che a l
45. formalisme courant est suffisant pour traiter compl tement le cas que nous venons d exposer Observations compl mentaires sur le formalisme A Dans la Figure 15 nous supposons que nous avons l ar te e8 mardi 25 avril construite compositionnellement partir de mardi 25 avril m thode 1 d un c t et de mardi 25 avril m thode 2 de l autre Nous sommes tr s loign s d une famille de Sterner puisque la plupart des ar tes sont contenues dans d autres ar tes Notons aussi l importance qu il y aurait dans une grammaire tablir automatiquement que le r sultat obtenu par la m thode 1 et le m me l identique que celui qui serait obtenu par la m thode 2 Ce point a fait l objet du DEA de Fran ois Duch ne mention tr s bien encadr par nous soutenu Paris VII Nous ne d taillerons pas les r sultats de cette tude ici B Un autre exemple simple de cor f rence Toujours concernant des problemes de r f rence nous pouvons tudier des textes courts comme cet extrait de dialogue o r serve peut tre consid r comme anaphorique de gisement et en tout cas d signe un m me objet 92 Soit le dialogue suivant La Shell poss de les plus riches gisements de la r gion Non c est BP qui poss de ici les r serves les plus importantes C est videmment plus complexe qu une simple date et nous ne chercherons pas l explorer ici Des pistes ont t donn es avec les LCA componentiels voir paragraphe
46. ils restent les uns aux bouts des autres sans permettre de cr ation s mantiques NOTE 1 le processus d bute par le haut gauche Il commence par un mot du dictionnaire int gral et un l ment de formule Il ins re la balise lt TOUTFORMULE gt dans les graphes qu il g re En ins rant cette balise 1l prend bien soin de dire que dans le sens qui nous occupe le mot lt TOUTFORMULE gt s applique un l ment de formule particulier situ en un lieu donn En particulier un n ud fictif p re commun entre TOUTFORMULE et ce mot est cr NOTE 2 Consid rant un l ment d une formule et un autre l ment il cr e une formule qu il consid re alors comme une instance d une formule en bas gauche Cette nouvelle formule reste connexe l l ment de formule cr pr c demment et donc la balise Ensuite l instance de formule est compl t e par un nouvel l ment de formule tant que cela est possible NOTE 3 Quand l ensemble des termes de formule ont t examin s l interpr teur rencontre un autre mot du dictionnaire int gral Cela peut tre lt findetexte gt puisqu il s agit d un mot du dictionnaire int gral que l interpr teur peut employer pour signaler que des actions ventuellement en attente comme ici peuvent tre r alis es Le r sultat de la rencontre de ce mot terminal pour un TOUTFORMULE est l insertion d un TOUTFORMULE Maintenant il vient de cr er une formule compl te C est le but re
47. int grant des milliers de lieux qui ne demandent qu fournir leur localisation et des milliers de processus qui ne demandent qu se d clencher aboutir et mettre des v nements que la Structure coutera pour se laisser modifier en cons quence c est dire pour organiser m r ologiquement toutes les cons quences du signal qu elle re oit sous la forme de la d finition pr cise de nouveaux lieux tant dans l axe compositionnel strict c est dire l axe des instances qu au plan componentiel strict c est dire l axe m talinguistique du dictionnaire qu au plan du maillage de ces deux directions qui se r alise en prenant la forme d une d composition componentielle de niveau instance de toute instance qui s est compos e un niveau conceptuel Cette d composition nous fournit en quelque sorte des concepts instances disponibles pour le calcul de LCA propres au co texte en train d tre lu pour tous les points de vue analytiques connus par la Structure Nous avons aussi d crit les actions et sens de quelle de couleur et de blanc Nous comprenons que la description que nous en avons faite aujourd hui ne sera jamais reprise demain sauf pour tre am lior e c est dire sauf pour devenir plus pr cise et plus respectueuse de ce que veulent dire ces mots Nous avons observ toutefois que ce sens est consid r globalement d une mani re holistique recherchant in fine un ancrage dans le ph nom ne l information et non pas
48. japonais ou japonais guerrier et noble ou noble japonais faisant la guerre ou chevalier japonais produisent galement samoura Il ne faut cependant pas s tonner de certaines mauvaises r ponses Par exemple guerrier de sushi produit samoura avec toutefois un score moins bon du fait des diff rences visibles depuis sushi dans samoura sachant guerrier le c t nourriture de sushi n arrive pas tre satur Cela confirme combien il est important que le niveau componentiel reste assez pur 5 1 2 3 Une gestion documentaire multilingue Le progiciel concern est une plate forme de gestion documentaire multilingue Cette plate forme comportait d j des outils morpho syntaxiques pour les diff rentes langues install es Les buts de la plate forme sont multiples aide la traduction par extraction de documents voisins aide la lecture des documents documents r actifs extraction d information extraction terminologique multilingue etc La plate forme d origine comporte des outils syntaxiques en six langues fran ais italien anglais espagnol hollandais et allemand et d importants outils de text mining La contribution de nos contenus tait la suivante fournir des relations de synonymie assez pr cises automobile voiture auto fournir des relations de traduction en mettant en rapport des synsets de chaque langue fournir des moyens d acc s des voisins par exemple oncle tante neveu ni ce
49. le param tre H n SPECIFICS La fonction permet de r cup rer les sp cifiques d un mot Par d faut la profondeur de descente est fix e 1 c est dire pas de limites Ce comportement peut tre modifi en rajoutant le param tre P n SYNONYMS La Fonction permet de r cup rer les autres synonymes d un mot GEOGRAPHY La fonction permet de r cup rer les toponymes associ s un toponyme BROTHER La fonction permet de r cup rer les mots situ s dans la m me classe et dont la distance s mantique autrement dit les diff rences n exc de pas une certaine valeur 36 parcours d exp rimentations informatiques o diff rentes approches algorithmes sont valu es en terme qualitatif pour conclure par la d finition suivante de distance La distance dans le discours est ce qu elle est en peinture une perspective un point de vue Finalement les trois d finitions de distance que nous venons de donner nous conviennent assez puisque toutes incluent les notions de pluralit des points de vue dans un contexte o de toute fa on tout crit re que nous pourrions proposer entretiendrait d une mani re ou d une autre qu elles que soient les efforts que nous pourrions faire des liens avec d autres crit res Voici notre d finition distance s mantique toute grandeur signalant par sa valeur l existence d un ou de plusieurs points de vues caract risant des ressemblances et tel que depuis chacune d elles il est po
50. le pensons pas En effet nous d fendons que la principale contribution du S miographe est d ordre th orique Elle concerne deux points que nous r sumons ainsi quelle est l expressivit du DAG quelles sont les inf rences que l on peut ranger en s mantique componentielle li e aux notions de d finitions et d extensions et lesquelles sont trang res ces notions Cette contribution repose sur l observation d erreurs pr dictibles dont les diff rents efforts pour les corriger d une mani re ou d une autre montreront qu elles ne peuvent tre r solues dans la structure que nous avons d finie jusqu ici L une des sources d erreurs tait pr visible du fait de la Question 1 page 20 Cependant nous ne nous y tions pas encore attard s L autre source d erreur est plus surprenante 4 2 1 Les deux hiatus Nous pr sentons ci dessous ces deux hiatus entre mod le et r alit et nous g n ralisons 4 2 1 1 Hiatus dictionnaire l envers en rapport avec l absence d organisation entre les concepts des quasi d finitions Consid rant une remarque de B Victorri nous avons pu v rifier que des requ tes dictionnaire l envers utilisant les m mes ensembles pour r f rencer plusieurs objets ne fonctionnent pas Soient par exemple n grier comme marchand d esclaves c est dire de toutes les personnes ayant le statut d esclave et fleuriste marchand de fleurs c est dire de toutes les fleurs donnant lieu ce commerce
51. ment dans un tout Le sens 4 pr cise le but il s agit de coordonner plusieurs organes afin de permettre un fonctionnement harmonieux d un organisme Dans notre cas l organisme est un syst me Ce syst me comporte des organes dont les plus nombreux sont des agents r flexe simples dans la terminologie de Stuart Russel 2006 p 53 agents qui s lectionnent une action en fonction du percept courant et ignorent le reste de l historique des percepts Il vient qu un agent qui a v rifi une perception met une action Il nous faut donner cette action Cette action est une modification du syst me La plupart de ces modifications seront des ajouts dans le syst me A chaque instant le syst me a un certain tat Nous donnons cet tat le nom de structure Cette appellation nous convient tout fait puisqu au plan linguistique chacun pourra v rifier la forme structuraliste de n importe quel tout que nous allons d couvrir depuis l occurrence partie 2 D autre part si un tat observ du d roulement du jeu tous les fous ont t sortis du jeu les r gles concernant les fous ne sont plus accessibles Cela ne veut pas dire que ces r gles n existent pas dans cet id al qui est la r gle du jeu prise globalement Notre exemple de 2004 avait fait ce genre d analyse sur un signe une r gle de jeu si l on veut tr s l mentaire le signe graphie son i du point de vue du dictionnaire Nos sensations sont purement passiv
52. montre un algorithme ensembliste de localisation de la trace laiss e par une conjonction de mots d un texte dans le DAG que nous appelons aujourd hui activation et quelques utilisations potentielles d sambiguisation dictionnaire a l envers th matique etc 3 3 Conclusion et perspectives Entre 1992 et 1996 nous avons r alis une version commercialisable de Dicologique r fl chi aux traitements automatiques que le dictionnaire pourrait permettre de mettre en uvre et nous avons publi propos de ces hypoth ses pr sent notre travail a quelques chercheurs en linguistique valu le point d entr e permettant une extension multilingue recherch d autres mani res de structurer le lexique telles que ces mani res permettent de nouvelles inf rences et une conomie dans nos co ts de maintenance Les objectifs que nous nous tions donn ont donc t satisfaits Mais la p riode qui s ach ve en 1996 laisse appara tre un grand chantier lexicographique qui comporte quatre directions une dimension morphologique puisqu il nous faut si l on souhaite traiter de textes g rer convenablement le paradigme flexionnel une direction compositionnelle avec la TST qui nous invite nous int resser la paraphrase une direction componentielle dont il faut affiner la d finition du contenu par des exp riences 30 de traitement automatique d inf rences automatiques une mise en uvre de ces inf rences automat
53. nous pr sentons les concepts que nous avons d velopp s et qui sont encore aujourd hui utilis s ne serait ce que pour des raisons historiques 2 2 nous pr sentons sommairement les projets et documents de l poque 2 3 et nous concluons par les perspectives de recherche l issue de cette premi re p riode 2 4 2 1 Positionnement de nos travaux Consid rant le mot Son monosyllabique ou polysyllabique compos de plusieurs articulations qui a un sens Littr et le sens Id e ou ensemble d id es intelligible que repr sente un signe ou un ensemble de signes petit Robert nous supposons qu une caract risation d un m me mot dans un m me sens supporte plusieurs localisations dans un syst me semi formel quelconque Qu entendons nous ici par plusieurs localisations D une mani re na ve en 1989 nous avions examin la transitivit des deux d finitions propos es et consid r la pluralit suivante de la relation entre mot et id e mot gt sens gt id e ou ensemble d id es Cet ensemble d id es li au signe que nous prendrons comme signe linguistique dans la d finition de Saussure entit double faite du rapprochement des deux termes signifi et signifiant fous deux psychiques et unis par le lien de l association conduit par transitivit D finition de Jean Dubois Dictionnaire de linguistique Librairie Larousse dition de 1973 page 439 Nous ne commenterons pas ici cette d f
54. particuli rement triviale page 90 La question pos e est naturelle dans les perspectives s masiologique et onomasiologique que nous avons du fait que toute instance d une date particuli re dans un texte est susceptible d tre consid r e dans un texte comme un sp cifique du lex me date Ex Tu viens vendredi Non je suis pris cette date Dans cet exemple date asserte que vendredi qui est ordinairement une d nomination g n rique d un certain jour peut tre pris comme une date d terminer dans le reste du contexte Evidemment l exemple avec samoura est componentiel et l exemple avec date est compositionnel mais le r sultat est le m me n cessit de multiplier les points de vue sur n importe quel objet Cela est bien videmment compatible avec l Observation 1 ci dessus par exemple si un syst me souhaite utiliser ses connaissances pour valoriser un dictionnaire ce syst me devra tre dot de plusieurs points de vue sous peine de juger que la nouvelle ressource qu il souhaite utiliser est inadapt e Ainsi c est parce que notre ressource est dot e de plusieurs points de vue qu elle a pu calculer automatiquement la traduction de la plupart des synsets requis pour le fran ais dans le cadre du projet EuroWordnet page 48 fort th me vers th me i penser faire qqch fort caract ristique jeter classe classe caract ristique Y spec gen spec projeter
55. plac de plus dans question classe quelle couleur cheval gt p re de couleur surface_cheval il surveille puisque tous les ph nom nes sont li s entre eux par des relations compos s composantes incluant les tokens et cr ant des LCA La figure suivante repr sente assez grossi rement les g n rateurs dans le dictionnaire Patron Quel 5 instancier propri t entit c aes terme quel adj inter identique is instancier terme identique its 3o denique instancier ae instancier ai instancier terme terme x1 terme terme terme terme is_a is_a is_a is_a is_a is_a is_a implicte implicte Z k implicite implicite f p ahi syntagme GN syntagme 2 gt GAJ GA GdeNA d finition phrase stative durative GA A GdeNA DE adide lg dj de couleur couleur n surface n ad de surface n 4 couleurn ae couleur couleur CPE identique wee spec are identique identique 7 1 identique 2 3 _ m spec 1 I rouge adj l I blanc adj Figure 19 Quel couleur et blanc dot s d une organisation suppl mentaire repr sentation tr s peu d taill e Dans cette figure le lexicographe s est content de d clarer la d finition d une information en bas et de dire qu il s agit d une information Le haut est la r f rence un automate qui g n re les LCA du bas Il est possible d
56. probl matiques soulev es dans ce travail le plus t t possible de telle mani re qu ils aient le plus t t possible une certaine vision globale des interactions de ph nom nes qui se passent assur ment et pour lesquelles ils devront le plus souvent choisir entre casser le Signe ou maintenir l unit du Signe Il ne s agit pas ici d activit d enseignement mais d une activit ponctuelle d enseignant chercheur avec des tudiants avant th se C est apr s tout ce que nous avons fait avec certains de nos stagiaires qui sont maintenant chercheurs ou enseignants chercheurs Mais nous n inviterons jamais un tudiant prendre de front les probl mes que nous soulevons comme nous le faisons L exp rience est aussi une affaire de temps et comme seule l exp rience permet de mesurer les risques si un jour quelqu un se lance dans le d veloppement d un moteur m r ologique complet ce sera du seul fait de l exercice de sa propre libert Enfin s il s agissait un jour nouveau d enseigner il me semble que j ai toujours pratiqu selon la r partition suivante 90 de technique et 10 de recul sur la technique Sans les 10 restants nous ne ferions que formatage En tant qu enseignant je pourrai ainsi apporter de mon exp rience dans les projets les pratiques l entreprise etc 8 ANNEXE MULTIPLICATION DES INFERENCES ET RISQUE COMBINATOIRE L expos pr sente globalement un aspect linguistique Mais du fait de quelques interrogations techn
57. quand nous comparons deux ontologies L article d Euz mat 2004 constitue un bon exemple de cet usage Dans l article diff rentes d finitions formelles de distance s mantique sont donn es puis appr ci es qualitativement distance au sens propre proximit similarit etc Finalement le mot distance y appara t comme un terme commode pour d signer un champs de travail o la notion de distance est red fini en fonction de ce que nous voulons mesurer ou rapprocher c est dire en fonction de points de vue particuliers En analyse lexicale Mel uk 1995 page 87 utilise la d finition suivante la distance s mantique entre les lexies LI et L2 est mesur e par deux param tre consid r s ensemble 1 la taille de la composante s mantique commune LI et L2 plus cette taille est grande plus LI et L2 sont proches 2 la r gularit de la distinction s mantique entre LI et L2 plus lev est le nombre de paires de lexies o la m me distinction appara t dans la langue en question plus LI et L2 sont proches Soulignons que dans cette d finition la distance int gre par b la notion non sym trique de diff rence qui ouvre les champs la pluralit des points de vue Il me semble que Brunet 2004 r sume bien cette notion de points de vue l issue d un GENERICS La fonction permet de r cup rer les g n riques d un mot Par d faut la hauteur de remont e est fix e 1 Ce comportement peut tre modifi en rajoutant
58. que I IA a abondamment d montr 7 b Remarquons toutefois le parall lisme de l Observation 7 b ci dessus avec l Observation 3 a page 18 En conclusion nous crivons la question Question 4 Comment d crire dans notre DAG des donn es non componentielles qui appartiennent aux connaissances na ves de telle mani re que cette description soit clairement distincte des donn es componentielles que nous avons d j repr sent es 4 2 4 Synth se critique Le paragraphe 4 2 1 2 ci dessus nous montre clairement l occurrence d un glissement au sein du triangle s miotique signifiant signifi vers la direction de la r f rence De son c t le paragraphe 4 2 1 1 page 44 pr sente galement un probl me de r f rence En application de l Observation 5 c est dire de la n cessit de r aliser une int gration de diff rents points de vues linguistiques dans un tout dans lequel des inf rences homog nes peuvent s accomplir nous avons d cid qu il tait urgent de ne pas chercher r soudre le probl me pos Nous crivons Question 5 Comment la Question 4 page 47 peut elle trouver une solution homog ne avec la Question 3 page 45 4 3 Projets et documents Projets Quatre projets ont contribu au d veloppement du S miographe sans qu aucun ne cible ce d veloppement Le S miographe est un effort de r ponse g n rique en rapport avec la position linguistique page 40 Projet 4 MARLEN M ARLE L acronyme signif
59. que notre article Coling 92 et parfait le parall lisme des situations entre les deux p riodes tout en modifiant l intensit ampleur et chelle Stage encadrement collaboration Participation un jury de th se 14 D cembre 2007 Marianne Dabbadie Recherche d un m ta mod le d valuation bas sur le sens pour l valuation des syst mes d acc s l information Universit de Lille Ce travail pr sente EVALIR qui value le SEMIOGRAPHE comme m trique d valuation des moteurs de recherche 68 Durant cette p riode nous avons beaucoup collabor Sans donner une liste compl te nous soulignons notre collaboration avec Thierry Poibeau alors en pr paration de th se et aujourd hui charg de recherches au CNRS La th se publication et ouvrage de Thierry font utilisation ou r f rence parfois importantes nos productions Samuel Parfouru a effectu son stage de Master 2 chez nous Aux derni res nouvelles Samuel terminait sa th se en CIFRE chez EDF traitement automatique des langues multimodalit dialogue Michael Riotte Universit de Provence Master 2 Michael mention Bien a eu pour mission de sp cifier les op rations de transfert automatiser pour passer d un nonc de langue comme quelle est la couleur du cheval blanc d Henri IV sa r solution l aide d un moteur de premier ordre tel que SUMO Niles 2001 Formation entreprise 2 sessions de formation en TAL et s mantique lexic
60. que nous aurons comme r sultat de la m me fa on que nous avons dit qu une instance de formule est un sp cifique d une classe de formule comportant un g n rique formule Pour nous anim est un r sultat output et non une donn e input 109 comme des postulats D finition de la microsyntaxe ci dessous Nous fournissons alors imm diatement des conditions qui nous permettraient de mieux accepter ces postulats voir 6 3 1 2 De la pertinence des postulats de la microsyntaxe page 113 Et nous situons le cas que nous allons tudier en d tail dans une sorte d tat de l art voir 6 3 1 3 Un corpus plus tendu de cheval blanc page 114 6 3 1 1 D finition de la microsyntaxe Nous fournissons ci dessous les principales d finitions postulats Nous ne faisons pas mention directe de travaux en relation en informatique A notre sens le principal inspirateur de ces d finitions est vraisemblablement Culioli 1990 qui par exemple argumente l id e d un syst me de rep rage tandis que nous parlons de syst me de localisation Mais nous sommes encore tr s loin de pouvoir manier les principaux op rateurs de cette th orie du fait du niveau d abstraction o ils se situent en particulier l articulation quantification Qnt et qualification QIt D finitions compl mentaires Microsyntaxe syntaxe qui op re essentiellement au niveau du syntagme et met en place les propri t s simples ou complexes pr vues par des sc nar
61. r solution du cheval blanc voir 6 3 2 La r solution du cheval blanc page 115 Enfin nous redonnons un peu de mati re un cheval qui a t dans le paragraphe pr c dent particuli rement d pouill Nous lui rendons un peu de cette mati re du fait d une exigence paraphrastique venant d un nonc et non du fait d une croyance en l animal cheval ou en le monde notre monde voir 6 3 3 R introduction du cheval int gration de la cha ne microsyntaxique et potentialit s page 126 Nous concluons enfin sur la pertinence des postulats microsyntaxiques en terme de compatibilit avec les notions d unit de Structure d Analyse de R sultat et de Signe qui sont pour nous au c ur de l int gration structurale des points de vue compositionnels et componentiels 6 3 1 Postuler la microsyntaxe Dans ce paragraphe nous commen ons par des d finitions que nous pr sentons d abord 2 Un des deux termes microsyntaxe et micros mantique est utilis par la s mantique interpr tative de Rastier et non l autre Micros mantique est ce terme commun Nous le conservons par habitude bien qu il marque chez nous un point de vue componentiel diff rent de celui existant chez Rastier Par exemple la seule mani re que nous pourrions utiliser pour attacher un s me anim au signe p re n m serait de dire quelque chose la Structure comme p re est anim dans la th orie de Rastier et de nombreux autres th oriciens C est d ailleurs ce
62. remercier ceux qui m ont accompagn jusqu ce jour Il s agit de Nadine de Stefan de Max d Anne de Pierre ou de Jacques qui me consacr rent aussi de ce temps dont il me faudra reconna tre enfin toute la valeur pour ne pas d m riter de leur g n rosit A vous je fais la promesse de prendre davantage soin de mon propre temps Ce document comprend trois parties Premi re Partie Fiche r sum Deuxi me Partie Travaux Troisi me Partie Liste des contributions Premi re Partie Fiche R sum Titres Docteur Universit de Caen en 2000 F licitations du Jury Quelques op rations sens gt texte et texte gt sens gt texte utilisant une s mantique universaliste apriorique M moire de Dea conomie 1988 Syst me stochastique g n ration de capital Fonction actuelle G rant de la Soci t Memodata directeur de la recherche dans l entreprise Domaine d activit Informatique linguistique s mantique computationnelle Mots cl s Isotopie s me s mantique lexicale s mantique d rivationnelle ontologie paraphrase agent complexit structuralisme Travaux de recherche 4 objets instruments Dictionnaire Int gral comment repr senter le dictionnaire de langue pour le rendre accessible une utilisation automatique s mantique Lexidiom outil de gestion de r seaux lexico s mantiques 4 millions de feuilles 5 millions de relations S miographe outils d analyses linguistique
63. semblent aboutir une s lection contextuelle d une partie assez autonome du signe Selon les cas cette partie est le signifiant tout le signifi une partie du discours etc Ces cas sont titr s Int gration de la morphologie compositionnelle Int gration d nonc s compositionnels m talinguistiques Int gration d une grammaire syntagmatique Int gration du terme Int gration d une date Int gration d une formule Comme nous l avons dit dans l introduction du chapitre 6 chaque int gration sera valu e selon quatre crit res que nous rappelons ci dessous CI unicit de la Structure Il y a ou non h t rog n it des repr sentations structure input c est dire structure C2 unicit de l analyse Il y a ou non h t rog n it des analyses analyses C3 unicit du r sultat Il y a ou non h t rog n it des r sultats structure output c est dire structure C4 unicit du Signe Il y a ou non h t rog n it de la perception du signe le signe Nous avons essay de choisir nos exemples de telle mani re qu ils illustrent un point de vue unique Malheureusement comme indiqu par la note 31 page 37 cela n est en g n ral pas 76 possible Ainsi dans le chapitre nous serons oblig d attirer l attention sur le point de vue qui nous int resse 6 1 1 Int gration de la morphologie compositionnelle Nous traitons ici uniquement de morphologie des termes compos s r put s str
64. soi et que nous sommes certains que ce qui int resse rel ve uniquement de la m thode examinons une solution qui semble bien fonctionner de Q1 Q3 Nous examinerons ensuite les propri t s C1 C2 C3 et C4 de cette solution et nous concluons sur le point de vue de la d claration des connaissances pragmatiques ce que les mots font dans la Structure que nous organisons Nous conclurons finalement sur la m thode elle m me 105 Voir la note 86 sur les agents r flexes page 96 115 6 3 2 1 Notre fa on de r soudre le probl me Commen ons par nous faire une id e plus pr cise sur un rapport qui existe entre d finition et information l mentaire le dictionnaire et les g n rateurs qu il contient la structure m r ologique Nous tudierons ensuite le graphe obtenu l ex cution et nous concluons la question technique pour reprendre la discussion conceptuelle et justifier que l largissement de la perception n entra ne pas de difficult s particuli res Bien au contraire 6 3 2 2 D un rapport d finition du dictionnaire et information l mentaire Concernant couleur et vert Le Robert crit R1 vert adj de couleur verte R2 couleur n propri t de la surface d un objet R3 surface n f partie ext rieure d un corps qui le limite en tout sens Arr tons nous ici et reformulons sans trop nous occuper de tenir un style ce que nous avons compris Nous d cidons de supprimer toutes les parenth ses des d finit
65. sous projets dont le d monstrateur Intelligent Multimedia Browsing at Home MB con u par Thomson Multimedia Rennes C est ce sous projet qui nous int resse Dans le sc nario d utilisation l utilisateur peut naviguer avec sa voix ou sa t l commande parmi des choix de programme qui s affichent l cran Il ne peut cependant pas effectuer une recherche texte int gral du fait de l absence de clavier Si le nombre total de programmes tv est inf rieur 50 nous pouvons penser qu une technique de parcours de quelques crans est acceptable Mais consid rant que l utilisateur peut acc der des milliers de programmes t l chargeables il n est pas possible d effectuer un parcours exhaustif Plusieurs partenaires d Ambience taient impliqu s dans ce sous projet Partenaire Pays T che Thomson Multimedia France Sp cification Interface graphique Base de donn e Profil utilisateur tests Telisma France reconnaissance de la parole Epictoid The Netherlands avatar Vitec France identification par reconnaissance de visage Memodata France Analyse de textes VTT Finland Classification Tableau 2 Organisation du projet Ambience pour la France Comme nous le voyons l analyse textuelle n est pas au centre de ce d monstrateur tr s multim dia Malgr cette position p riph rique nous avons montr comment cette activit de 58 contenu peut enrichir la qualit globale du serv
66. un certain degr de figement qu un contr le des emplois sur Frantext v rifie bien Il est donc pertinent et souhaitable que le dictionnaire refl te ces emplois Cela dit ce qui nous occupe ici est l impact de la forme sch matique marqueur suppos e sur le signe cible r cepteur passif Autrement dit nous pr tendons que le sens de riche nom est pr cis ment cet impact Selon quel point de vue 88 Voir note 71 sur puissance active passive page 83 103 th se peut tre valablement riche Nous ne saurions trop dire ce que vaut riche p lican mais il nous semble bien que riche th se signifie quelque chose qui se passe de tout contexte pour tre suppos Comment proc der La premi re chose faire est d ouvrir le dictionnaire au mot cible puisque nous savons d j tout de riche Ouvrons donc le dictionnaire pour le mot th se 1 Proposition ou th orie particuli re qu on tient pour vraie et qu on s engage d fendre par des arguments 2 Anciennt Proposition ou s rie de propositions que le candidat un grade de bachelier de licenci de docteur etc s engageait soutenir 3 Ouvrage pr sent pour l obtention du doctorat 4 Philos Hegel Premier moment de la d marche dialectique auquel s oppose l antith se jusqu ce que ces contraires soient concili s par la synth se ROBERT Les points d impacts imm diats sont dans HE d fendre par beaucoup d arguments 2 s rie de beau
67. un ensemble de signes d finis pour l humain et l ordinateur c est dire une machine traitant de l information je me demande quelle partie de la description des signes pour l humain peut tre transf r e l ordinateur de telle mani re que les signes y actionnent des programmes sp cifiquement con us pour r agir aux parties de description des signes que nous aurons identifi es lors d inventaires syst matiques desdites parties Cet inventaire devrait tre r p t jusqu ce qu aucune partie des signes ne soit oubli e Nous ne nous demandons pas si la t che d crite est possible puisque la d termination de cette faisabilit est une question ouverte ind pendamment du temps que nous pourrons lui consacrer Par contre il est int ressant de se demander ce que nous obtenons avec la d marche propos e au bout d un certain temps Ma th se en 2000 propose un point sur la question et les orientations propos es dans ce document dans le chapitre 6 Int gration structurale des points de vue componentiels et compositionnels page 73 ouvrent sur des possibilit s nouvelles qui r solvent l essentiel des difficult s que nous avons rencontr es et que nous pr sentons dans ce document Pour conclure sur cette pr sentation du domaine tel que per u l poque nous d taillons les trois suivants strat gie en mati re linguistique 7 d finition de synonymie Jean Dubois Le texte vaut galement si plusieurs remplace un seul 8 le
68. valu es que si elles am liorent le score global du mot sens tudi b Sp cifiques et g n riques Il est utile que l activation componentielle trouve une diff rence de r sultat entre monnaie compar yen et yen compar dollar Pourtant dans les deux cas l ensemble des LCA risque de se limiter monnaie Toutefois les distances sont diff rentes en effet la longueur de la relation entre un terme g n rique et la classe dont il est g n rique est d finie comme nulle dans SEMREL 38 Dans la pratique nous utilisons un jeu de meta donn es appel e SEMREL qui l aide des types de relation d crit les profondeurs du graphe que l on accepte d explorer Les param tres de SEMREL sont d finis en fonction des contraintes de calcul Une contrainte fr quente est le temps de calcul SEMREL n interf re pas sur le mode de calcul donn par 39 A contrario en opposition avec la moyenne arithm tique que nous avons sugg r e page 39 nous utilisons la moyenne harmonique qui favorise les plus petites valeurs et une moyenne de position le premier quartile ou la m diane C est un moyen commode d limination du bruit de fond qui permet de se concentrer sur les r sultats susceptibles d tre interpr t s facilement ceux qui viennent le plus directement 40 4 1 2 2 4 La diff rence componentielle La diff rence componentielle entre deux mots M et N utilise les plus petits anc tres asym triques LAA Least Asymmetric Ancesto
69. voir position linguistique page 9 Cette p riode est aussi celle de notre premier projet europ en Projet 3 CRISTAL page 29 3 1 Les travaux de recherche Quatre ann es apr s le d but du dictionnaire il devient possible de r aliser les premiers calculs automatiques D un autre c t le gestionnaire de dictionnaire se voit enrichi de nouvelles fonctionnalit s Enfin entre 1992 et 1994 en vue de se doter d un corpus de textes fran ais pour diff rentes travaux de text mining nous avons organis la saisie d environ 140 uvres du domaine public 3 1 1 La naissance de l id e du S miographe Cette poque tait marqu e par les projets phare d importants consortiums et des ambitions financ es Il s agissait par exemple de GENELEX 470MF suivi de GRAAL 71 Voir la liste de ces ouvrages sur http www memodata com 2004 fr livres_en_ligne index svg shtml Les ditions qui ont t recopi es datent d avant 1920 Nous avions achet ces ditions chez diff rents bouquinistes ventes aux ench res vide greniers etc Les personnes qui ont r alis ces saisies taient en grande difficult professionnelle la saisie s est faite dans le cadre de stages d insertion ou de r insertion pr alables des stages de professionnalisation comme le secr tariat Ces personnes ont appris utiliser un ordinateur le logiciel OCR Omnipage le traitement de textes Word en outre ces personnes apprirent ou r apprirent arriver l heure
70. web 2 0 comme l envoi et l change de documents en effet il est possible avec cette petite biblioth que de red finir le contenu associ aux mots par exemple pour afficher des l ments d un cours des notes des annonces des menus etc Alexandria et Sensagent com se placent tous les deux dans une comp tition internationale dans laquelle les Nords Am ricains ont pris l habitude d emporter par KO les march s long terme ce titre ainsi qu au titre de recherches propres l informatique protocoles services distribu s avec r partition de charge etc notre quipe a b n fici d un premier petit soutien en 2005 de l ANVAR Basse Normandie et d un soutien plus important dans le cadre des appels d offre de l Agence Nationale de la Recherche En effet nous avons d pos et emport RNTL cette ann e l avec le projet VODEL 65 5 2 Projets et documents Projets Projet 8 VIVIAN En 2000 nous avons particip sur l invitation de Nokia un projet Vivian Vi VIAN concernant des services distance pour les t l phones mobiles Il s agissait pour Nokia de concevoir et d valuer un middleware permettant d changer des donn es entre serveurs et mobiles en vue par exemple et en ce qui nous concerne d utilisation de dictionnaires distance Tuominen 2000 Il s agissait pour nous de d couvrir de nouvelles technologies et protocoles SOAP XML etc Le projet s est achev fin 2002 Projet 9 Balkanet Balkalaet En
71. www ontologyportal org 69 Dutoit D P Nugues The right word May 2002 full paper acte de Language resource and evaluation LREC Las Palmas Dutoit D P Nugues P de Torcy The Integral Dictionary a lexical network based on computational semantics May 2003 Springer Ed ICCSA International Conference on Computational Science and its Applications Calgary Canada Dutoit D Y Picand P de Torcy Roger G 2003 Natural Language Processing and Multimedia Browsing Concrete and Potential Contributions European Symposium on Ambient Intelligence Eindhoven The Netherlands F Soufflet S Le Huitouze Korpipaa P D Dutoit P Ten Hagen F Kuijik O Guye JR Vigouroux L Chevallier 2003 Multimedia browsing European Symposium on Ambient Intelligence Eindhoven The Netherlands Dutoit D P Nugues P de Torcy The Integral Dictionary An Ontological Resource for the Semantic Web May 2004 full paper acte de Language resource and evaluation LREC Barcelona D Dutoit P de Torcy Y Picand Quelques contenus g n raux au service des documents June 22 25 2004 17 pages CIDE 7 Conf rence Internationale sur le Document Electronique La Rochelle France J Fran ois D Dutoit 2006 Compte rendu de S mantique et traitement automatique du langage naturel de Patrice ENJALBERT dir publi chez Lavoisier Herm s Science Publications 2005 Bulletin de la Soci t de Linguisti
72. 2001 nous avons t demand s comme conseiller et valuateur du projet Balkanet Ce projet visait l tablissement de r seaux s mantiques type WordNet pour les langues balkaniques grec serbe tch que turc bulgare roumain Nous y transmettons les connaissances et savoirs faire technologiques acquis Christodoulakis 2000 Projet 10 Ambience En 2002 suite un cours de 5 jours donn au Centre de Recherche de Thomson nous avons t invit s participer comme fournisseur de technologie au projet Ambience Ambience est le mot retenu par Philips pour d signer tous les syst mes communicants de la maison du bureau etc comportant une intelligence embarqu e Nous y avons impl ment des solutions linguistiques avanc es d riv es de notre S miographe Nous les d crivons dans ce rapport Van Loenen 2002 L application a t montr e et salu e par le Roi de Belgique et l ITEA Office Board QAMBIENCE En 2004 nous avons collabor avec la Pusan National University de Cor e pour faire b n ficier de notre exp rience en termes de r seaux s mantiques multilingues Projet 11 Le DES Le DES le Dictionnaire lectronique des Synonymes en collaboration avec le laboratoire CRISCO Universit de Caen Projet 12 OSEO ANVAR D veloppement du dictionnaire Multilingue et d ploiement d Alexandria Projet 13 VODEL 66 VODEL Valorisation Ontologique des Dictionnaires ELectroniques Nous sommes responsables
73. 593 documentary 600 state 674 filmmaker 250 casting 571 offerning 646 series 788 cinema 333 producer 11299 flmmaker 593 major 771 docurnentary 571 state 715 offering 683 documentary 1047 filmmaker 600 hired 597 producer 57 1 state 643 casting 624 offering 621 series 788 cnema 573 state 1384 filmmaker 674 producer 715 documentary 643 offering 624 project 1633 state 795 character 795 offering 865 nature 754 casting 11504 filmmaker 624 documentary 624 series 830 character 1546 state 595 project 795 nature 597 images 550 offering 1499 flmmaker 855 producer 922 documentary 784 state 817 series 1541 filmmaker 788 documentary 788 casting 830 nature 721 musings 1689 state 650 senes 875 at671 nature 1463 state 571 project 754 character 57 1 series 624 cinema 1464 flmmaker 771 hired 571 doc umentary 573 casting 595 Natural Language Processing and Multimedia Browsing Concrete and Potential Contributions Figure 12 Extraction en anglais dans ZMDB des th mes et entit s nomm es Afin de montrer un exemple plus lisible nous pr sentons le r sultat suivant dans un style XML assez rel ch lt movie gt lt Summary Idfilm 2564 language English gt Tex Weaver is working under cover to bring in a gang of bank robbers When he is killed Tim Ross a marksman with Doc Shaw s traveling show takes over Posing as a Mexican he lays a trap for the gang lt Summary gt
74. 972 page 106 83 Notons pour finir que les mots agissent et que notre notion de localisation commence justement les faire agir Les mots agissent en marquant des r f rences dans un espace proprement structural et pr extensif voir Deleuze note 10 page 9 Pour la suite ce que nous appelons Structure comporte dor navant la d claration du m talangage des natures grammaticales Analyse sait traiter de fa on monotone certains faits m talinguistiques qui concernent les natures grammaticales R sultat comporte aussi une repr sentation atomique des r alisations de ces faits m talinguistiques Des instances d emplois m talinguistiques y sont pr sentes Signe conserve une forme intangible 6 1 3 Int gration d une grammaire syntagmatique Il existe plusieurs types de grammaire ou de mod les r alisant le programme objectif de la grammaire d tailler les natures grammaticales et r aliser des relations entre ces natures Il peut s agir par exemple de cha nes de Markov s appuyant sur des tiquettes de grammaire syntagmatique de grammaire de d pendance ou d autres types de grammaires plus hybrides ou lexicalis es En effet le raisonnement que nous allons suivre s appliquerait l identique pour chaque type de grammaire Nous s lectionnons la grammaire la plus connue la grammaire de r criture avec contexte libre ou non qui s int resse aux descriptions syntagmatiques et la phrase Prenons donc l exempl
75. 999 Synth se des phrases a extraction T A L Traitement automatique du langage volume 40 num ro 2 pp 25 85 G A Miller 1998 Foreword paru dans An WordNet Electronic Lexical Database edited by Christiane Fellbaum R Montague 1970 The Proper Treatment of Quantification in Ordinary English The Journal of Philosophy R Montague 1970 English as a Formal Language The Journal of Philosophy J Piaget 1972 Epist mologie des sciences de l homme Ed Gallimard MUC 7 1998 Proceedings of the Seventh Message Understanding Conference http www muc saic com Multilex 1993 Linguistic description of the multilex standard Boulogne Billabncourt Cap Gemini Innovation I Niles A Pease 2001 Towards a Standard Upper Ontology in Proceedings of the 2nd International Conference on Formal Ontology in Information Systems FOIS 2001 Chris Welty and Barry Smith eds Ogunquit Maine October 17 19 2001 P Pag s 1992 Analyse morphologique automatique du francais Extraction des verbes et mise en valeur morpho s mantique de la d rivation Th se INALCO PARIS HI D P choin sous la direction de 1991 Th saurus Larousse des mots aux id es des id es aux mots Ed Larousse J M Pierrel 2000 Ing nierie des langues Hermes Science Europe ISBN 2 7462 0113 5 S Ploux B Victorri 1998 Construction d espaces s mantiques l aide de dictionnaires de synonymes T A L Traitement automatique du langage vol
76. API morpho syntaxique D finition tiquet e Extraction des termes g n riques en d but de d f Construction d une phrase s mantique avec les autres mots Fonction ad hoc API Constitution d une phrase s mantique 2 3 1 2 V Liste de candidats g n riques Phrase s mantique Ex cution du Script ALIAS SYNONYMS SPECIFICS API Expansion Lexicale Une liste de sp cifiques Filtrage grossier des candidats sp cifiques on retient les 100 meilleurs API Activation s mantique de chaque sp c par la phrase s mantique Liste filtr e Filtre fin au moyen de la diff rence s mantique Le r sultat est retenu si la phrase recouvre le sp cifique et si en m me temps le sp cifique recouvre la phrase pas de diff rence s mantique importante API diff rence s mantique de chaque sp c par la phrase s mantique Liste filtr e dot e d une Vs de chaque l ment Tri selon l valuation Affichage Fonction Ad hoc R ponse tri e affich e Figure 10 Les traitements du dictionnaire l envers gt Le traitement constitution d une phrase s mantique n est pas d crit dans ce document dans l tat o il tait cette poque Une phrase s mantique est une sorte tableau noir sur lequel nous notons pour chaque token de la phrase les relations qu il peut avoir d autres mots de la phrase travers tel ou tel LCA voir 4 1 2 2 3 page 38 56 Soit personne qui vend des hortensias
77. B Etant donn es les inf rences fournies samoura est il ou non un n m un n un nom un mot ou un signifiant Dans les chapitres 1 5 avons nous jamais dit que samoura pris tout seul serait un guerrier un noble ou un japonais Nous n avons jamais dit cela Nous avons dit pris tout seul samoura est d fini par guerrier noble japonais et les inf rences de ces l ments Nous avons en outre pr cis que cette d finition est vraie dans le dictionnaire componentiel La situation est rigoureusement la m me ici samoura est tout ce nous venons de dire y compris un groupe de 8 lettres dans les lieux que nous avons r guli rement indiqu s C Alors quel sens pr cis a samoura dans le nom samoura Dans le syntagme le nom samoura samoura est un nom et n est rien d autre le co texte m talinguistique a s lectionn les traits s mantiques pertinents comme c est son r le de le faire Port es du formalisme sur les crit res C1 C4 C1 la structure obtenue reste atomistique C2 l algorithme des LCA continue fonctionner dans la limite du tout petit graphe d fini d finissant le m talangage C3 cela n emp che pas que dans un autre graphe samoura ait un autre sens C4 samoura a aussi un sens dans les parties du discours Il faut en outre noter quelque chose d important En r alisant cette int gration nous avons bien progress dans la question 2 que nous rappelons ci dessous Question 2 Con
78. DEMANDE D HABILITATION DIRIGER DES RECHERCHES Int gration structurale des points de vue componentiels et compositionnels pourquoi et comment Dominique Dutoit Jury Stefan Darmoni Professeur Univ de Rouen Rapporteur Anne Nicolle Professeur Univ de Caen Rapporteur Max Silbertzein Professeur Univ de Franche Comt Rapporteur Jacques Fran ois Professeur Univ de Caen Membre du Jury Thierry Lecrocq Professeur Univ de Rouen Membre du Jury Pierre Zweigenbaum Directeur de Recherche Limsi Membre du Jury Soutenance le mardi 16 juin 2009 au CHU H pital CHarles Nicolle Cour Leschevin porte 21 3 me tage Remerciements A tous ceux et celles qui m ont support jusqu maintenant le poids de la HDR s ajoutant un peu aux autres poids consid rables pour moi de mes entreprises Je remercie en premier lieu Julie qui a connu la solitude et ne m en tient pas rigueur Je remercie mes coll gues qui ont support mon humeur quand je suis au del de la surcharge Et je remercie bien s r nombre d enseignants qui m ont offert la possibilit de cette soutenance Il s agit bien s r d j de Pierre Nugues mon directeur de th se aujourd hui Professeur en Su de De Patrice qui me fit d abord confiance tout en me souhaitant d abandonner la complexit C tait le conseil d un ami qui souhaite un ami une vie sereine Mais on ne se change pas et je n ai pas pu l couter Je souhaite maintenant
79. E Minist re de la recherche Minist re de l Industrie Agence Nationale de la Recherche En tant que chercheur directeur de soci t ou Directeur de Recherche Associ au CNRS j ai t r dacteur unique principal r dacteur ou cor dacteur de vingt et une publications avec comit de s lection Depuis 1989 je ne me suis pos qu une m me question qui peu peu s est organis e dans une dualit dynamique une dialectique qui parle du Signe et qui fournit une r ponse complexe la complexit du Signe Nous fournissons un r sum de ces travaux d enqu te et d investigation Ce r sum est s par en deux parties une premi re partie allant des chapitres 1 5 suit un plan chronologique organis par grandes p riodes Les chapitres de cette partie pr sentent des consid rations th oriques des difficult s et des r alisations pratiques Les interrogations que ces artefacts que sont les r alisations ont convoqu es en nous sont souvent formul es avec le vocabulaire de l poque consid r e Nous esp rons que cette fa on de proc der facilitera la transmission des probl matiques que nous avons d finies une deuxi me partie tenant en le seul chapitre 6 reprend l ensemble des probl matiques et d crit une sorte de m ta mod le qui transforme la diversit des probl matiques en une probl matique unifi e 2 UN RESEAU COMPONENTIEL 1989 1991 Apr s une proposition de positionnement initial de nos travaux 2 1
80. E Finalement la distinction entre unit lexicale classe et th me permet de diff rencier les points de vue tandis que la r ification des relations ne permettrait pas ais ment d atteindre ce r sultat Je souhaite conclure ce point en proposant Observation 3 a La premi re op ration s mantique est une op ration de localisation qui vise pr cis ment tre capable de s lectionner parmi diff rents points de vue un point de vue particulier portant sur l emploi d un signe dans un nonc b En retour la premi re t che du lexicographe structuraliste utilisant les moyens de l informatique est de pr parer pour l ordinateur les donn es et m canismes qui lui permettront de d finir l int rieur le bord et l ext rieur d un point de vue selon un contexte Cette op ration s mantique pourra rappeler au lecteur l article La fronti re d Antoine Culioli 1990 En effet l id e est tr s proche et le changement terminologique localisation dans ce document et centrage chez Culioli n est l que pour rendre compte qu avec notre sp cification de localisation nous restons bien grossier par rapport au centrage qu il faudrait pouvoir effectuer Mais il faut bien commencer par un bout Et nous avons consid r que le bout que nous venons de d crire tout impr cis qu il soit devrait avoir une certaine pertinence m me long terme et ainsi tre durablement r utilisable Observation 4 le travail de lexicographie est dirig lon
81. ENTIELS ET COMPOSITIONNELS POURQUOI ET COMMENT Il n est pas plus possible de fabriquer un dictionnaire sans s occuper de l usage que nous trouvons en particulier dans les nonc es et les textes qu il n est possible de s int resser aux nonc s ou aux textes sans s int resser au rep rage de l usage Ainsi rien dans ce chapitre ne sera absolument nouveau par rapport tout ce que nous avons d j pr sent dans les chapitres pr c dents Dans les chapitres pr c dents nous nous sommes int ress des s lections en contexte de traits dans un axe componentiel Nous avons d j observ dans le chapitre 4 2 1 Les deux hiatus page 44 et dans de nombreux autres endroits des difficult s particuli res effectuer de mani re acceptable ou syst miquement coh rente cette s lection Ce chapitre propose une voie proprement structurale de r solution de la plupart de ces difficult s Au plan didactique jusqu ici notre propos n a t qu une illustration que l on voudrait de plus en plus fine de l affirmation suivante les mots actent dans des espaces psychiques page 7 de nature langagi re que l on doit aussi soigneusement que possible voir note 31 page 37 s parer de la r f rence plus particuli rement de la r f rence dans quelque chose d ext rieur qui serait le Monde Jusqu ici nous avons toujours parl de points de vue voir paragraphe 4 2 2 Les changements de points de vue concernent les choses les plus simples page 45
82. LDI sont fortement utilis es conform ment aux pr visions de la TH ORIE SENS lt gt TEXTE Nous gardons en m moire de ce projet que pour exprimer je voudrais savoir avoir qqch les paraphrases courantes sont fort peu nombreuses quelques dizaines et rendent compte de 80 des besoins En relation exponentielle de la loi de Pareto Voir note 40 A la diff rence pr s des lexiques employ s de r f rence la technique globale fut assez proche de celle d crite dans Sagot 2008 48 couvrir 100 des formules repr sente la production de quelques centaines de milliards de phrases Les mod les de Markov ont pu choisir Stage Deux masters II recherche Durant ces ann es je m occupe galement de la r daction de ma th se Ma th se est soutenue le 30 Novembre 2000 Publication diss mination D Dutoit A text gt meaning gt text dictionary and process 2000 acte de Language resource and evaluation LREC D Dutoit Quelques operations sens gt texte et texte gt sens utilisant une s mantique universaliste apriorique 30 Nov 2000 th se de doctorat Le dictionnaire int gral 1999 journ e d tudes du Centre National d Etudes p dagogiques Le s miographe 1999 pr sentation la journ e Outils pour le Tal organis e par le groupe de recherche Information interaction intelligence en association avec l Atala Linguistique et apprentissage automatique 10 european conference on Machine Learni
83. LI Nous faisons l hypoth se que N1 de N2 donne toujours un point de vue concernant N1 selon N2 Ainsi apr s unification nous avons crit CHEVALI JEANI Observant deux instances li es l une l autre ici par CHEVALI nous pouvons cr er une instance plus complexe CHEVAL1 JEAN1 BLANC COULEUR Enfin nous rattachons toutes ces instances aux concepts d instance JEAN et CHEVAL par la relation vers Th me Finalement nous observons que Q2 l instar de Q1 et Q3 se r sout sans la moindre difficult dans tous les mondes possibles de l interpr tation du co texte et quels que soient les sens de cheval et de Jean blanc est la meilleure r ponse pour une question en dictionnaire l envers voir paragraphe 5 1 2 2 page 55 portant sur le texte quelle est la couleur du cheval de Jean Nous pouvons aussi dire que cette r ponse est l unique localisation possible pour quelle Avec cette figure examinons d autres questions ventuellement int ressantes A quelle est la couleur du cheval de Marie B quelle est l apparence du cheval de Jean C quelle est la couleur du gentil cheval de Jean D quelle est la couleur de l quid la monture de Jean E quelle est la couleur du cheval de l homme A Quelle est la couleur du cheval de Marie Si le texte ne comporte aucune information sur ce cheval blanc sortira galement mais avec une r ponse p nalis e par une non saturation de la question du c t de Marie voir la
84. Mati re Kripke 1972 De m me que l Etoile du Matin et l Etoile du Soir sont les m mes dans tous les mondes possibles il est immuable dans tous les mondes o il construit la r f rence Comme le nom propre est le d signateur rigide du ph nom ne cheval dans ce cas est d signateur rigide pour toutes les mondes possibles le concernant Nous notons alors une id e essentielle Cette id e est qu il existe une juste mesure de l interpr tation qui se limite aux fronti res des n cessit s interpr tatives Il ne s agit nullement ici de r compenser la paresse Il s agit juste d inviter viter l erreur fatale de celui qui surrinterpr te surtout s il fait cela sans s en rendre compte En quelque sorte Korzybski 1933 a pour th se principale l id e que la surrinterpr tation et la scolastique aristot licienne la cat gorisation sont les parents de tous les malentendus Dans nos mod les d analyse des langues la surrinterpr tation est le risque r current Peut tre avons nous si peur qu un syst me manque d information que nous le gavons de cat gories au risque de perdre le sens du mot et de devoir discuter sans esp rance de solution sur des conjonctures ll Ja scolastique aristot licienne et non l aristot lisme nous aurions pu d velopper tout le chapitre 6 en utilisant les trois distinctions cardinales d Aristote essence accident acte puissance forme mati re Il y aurait eu alors transposition du propos laquelle n aurait
85. W 2660480 hypernym MO nl Japanner nom HL2462013 literal MA1 fr habitant du Japon ILI MW291 0680 category_domain M0 nl Japans n neu HI5353686 literal MA1 nl Japanse n t sing HI5363679 literal MA1 it giapponese Nom C S 115353580 literal MA1 fia BARA nom JL2452028 literal MA1 It japonas nom LL2452022 literal MA1 It japonas nom LL2462023 literal MA1 no japanar nom NL2452016 literal MA1 pt japonesa nom PL2462012 P Portugal literal MA1 pt japon s n m sing PI5008952 P Portugal literal MA ro japonez nom RB445681 literal MA1 ro nipon nom RB445682 literal MA1 ro Persoan care face parte din populatia de baz a Japoniei sav es japonesa n t sing 515353581 literal MA1 es japon s n m sing 515353587 literal MA1 v 1999999999999 999059699999909099 lv Context MAO Nbitems 1 15 Nb sel 0 Mode normal 78 ms Figure 9 Une illustration Lexidiom Le champ Context en bas gauche a pour propri t MAO MAO est l identifiant de LDI Le champ rappelle que l cran pr sente une vue de l hyper ar te LDI L outil pr sente gauche des litt raux pour le synset samoura en plusieurs langues 5 1 2 Le S miographe touche les applications Tandis que nous modifions Lexidiom pour en faire un gestionnaire d hypergraphe le S miographe continue tre un utilisateu
86. a ligne ou p cheur la cuill re Cet exercice nous aidera certainement d gager que ligne est instrument du p cheur que p cheur est personne qui p che et que finalement p cheur la ligne peut se r crire personne qui p che la ligne En d finitive nous observons que la ligne est compl ment instrumental d un verbe d action p cher en m me temps que ligne est d fini par ce verbe instrument pour p cher de p che du p cheur Il nous faudrait maintenant repr senter la Structure pour toutes ces observations Nous ne le ferons pas ici car il nous semble que le graphe obtenu serait illisible 107 Localisation de l impact et formes r sultantes L exemple utilise plusieurs cha nes compositionnelles Frame dans l emploi de Fillmore 1976 ou componentielles qualia chez Pustejovsky 1995 uvrant par combinaison l int rieur d un m me tout componentiel Th me chez nous 6 2 2 Conclusion Avec ces exemples nous comprenons qu un m me mot m me dot de tout ce que l on voudra comme fonction invent e dans un micro syst me m me si l on consid re la fonction MODIFIEUR elle m me m me encore si l on consid re la fonction FONCTION ne pourra jamais mettre en uvre un autre mot pour les diverses t ches de perception impliqu es dans les applications Nous remarquons que cette conclusion est plut t pessimiste Pourtant il est possible d tre positif en admettant une complexit suppl me
87. a justification et ils d terminent le contour Fillmore a besoin de ses exemples au minimum dix exemples par morceau de description pour esp rer faire fonctionner ses frames du fait m me qu il manque de structure Framenet de Fillmore ne peut exister comme WordNet de Fellbaum ou la TST de Mel uk que comme une extension de quelque chose Ces mod les qui n ont pas de contrainte structurale syst mique ne peuvent en d velopper une comme ils le revendiquent parfois depuis leur int rieur N anmoins ces mod les proposent des mat riaux des points de vues que nous regardons avec convoitise et que nous aimerions avoir d j int gr s 106 Localisation de l impact et formes r sultantes L exemple impacte plusieurs cha nes compositionnelles et par retour met r guli rement sur la bande componentielle qu il modifie 6 2 1 4 Int gration de la syntaxe de la d finition pour sauver une grammaire surfacique Le cas que nous allons tudi ici pourrait tre localement trait par la TST l aide de fonctions lexicales Mais il faudrait que la TST n admette pas trop les termes ou bien les accepte mais en faisant attention bien respecter l unit du signe du point de vue du terme voir 6 1 4 Int gration du terme page 87 L observation des articles du DEC 1992 ne montrent cependant pas la prise en compte de cette contrainte voir par exemple l article mani re de parler page 233 du DEC 1992 Le cas traite d un probl me pos par l
88. a notion d information Cette notion d information tait sous entendue dans les six cas pr c dents Mais ce moment il n y avait pas encore vraiment besoin de la d signer par le mot information Cela pouvait passer inaper u Avec le cheval blanc nous nous sommes d embl e retrouv au pied du mur C est la vertu de cet exemple En prenant le cheval blanc nous avons regard une mani re d tat de l art de ceux qui se consacrent au titre principal de leur activit professionnelle ce genre de r solution Nous avons resitu aussit t notre travail en disant que le but qu ils cherchent est tout fait annexe dans notre recherche qui se consacre uniquement a ce que veulent dire les Signes En adoptant ce point de vue des mots qui sont des Signes qui signifient nous avons alors imm diatement trouv une solution a notre probleme Peu importe que cette solution d passe ou non actuellement ou potentiellement l tat de l art En soi c est la forme prise par la solution du point de vue de la m thode qui a retenu notre attention En particulier cette forme en tablissant des connexions m r ologiques entre perception d nomination signification et information est devenue tr s g n rale elle a fini par unifier signe et signification dans une dynamique dont nous ne pourrons conna tre un jour la puissance fonctionnelle qu en r alisant le travail de d claration des informations du dictionnaire d une mani re structurale qui nous res
89. aires Langue Librairie N 87 O Ducrot T Todorov 1972 Dictionnaire encyclop dique des sciences du langage Paris Le Seuil O Ducrot J M Schaeffer 1995 Nouveau dictionnaire encyclop dique des sciences du langage Paris Le Seuil C A Duhamel amp C Balaz 1993 Le gros dico des tout petits 3000 mots racont s pas les enfants de A comme Avion a Z comme z bre Ed Jean Claude Latt s Le livre de Poche D Dutoit 1991 Dicologique un nouveau dictionnaire de la langue francaise Ed du CILF La banque des mots D Dutoit 1992 A set theoritic approach to lexical semantics COLING D Dutoit K Laus Amadeo Cappelli 1993 Cristal Conceptual retrieval of information using a semantic dictionary for Access in Three Languages Cristal Project http www hltcentral org projects detail php acronym CRISTAL D Dutoit 1995 Rapport sur l extraction des fiches signal tiques du MOURRE Rapport interne Memodata D Dutoit T Poibeau 2002 Inferring knowledge from a large semantic network full paper acte de Conference on Computational linguistics COLING TAIWAN D Dutoit T Poibeau 2002 Generating extraction patterns from a large semantic network and an untagged corpora acte de Workshop COLING TAIWAN Dutoit D P Nugues 2002 A lexical network and an algorithm to find words from definitions acte de European Conference on Artificial Intelligence ECAI LYON Dutoit D T Poibeau 2002 value
90. ale 2 5 jours Plusieurs participations a des jurys de conf rence Une organisation et deux co organisations de journ e de l Atala Communications et diss mination Les publications ont b n fici de l impact positif de mon poste de Directeur de recherche Associ au CNRS contrat de trois ans repr sentant une journ e par semaine Sofia Stamou Kemal Oflazer Karel Pala Dimitris Christoudoulakis Dan Cristea Dan Tufis Svetla Koeva George Totkov Dominique Dutoit Maria Grigoriadou January 2002 Balkanet A multilingual Semantic Network for Balkan Languages In Proceedings of the First International WordNet Conference Mysore India D Dutoit T Poibeau Inferring knowledge from a large semantic network Ao t 2002 full paper acte de Conference on Computational linguistics COLING TAIWAN D Dutoit T Poibeau Generating extraction patterns from a large semantic network and an untagged corpora Ao t 2002 acte de Workshop COLING TAIWAN Dutoit D P Nugues A lexical network and an algorithm to find words from definitions acte de European Conference on Artificial Intelligence 2002 ECAI LYON Dutoit D T Poibeau valuer l acquisition semi automatique de classes s mantiques 2002 acte de TALN D Dutoit T Poibeau Evaluating resource acquisition tools for information extraction May 2002 full paper acte de Language resource and evaluation LREC Las Palmas 7 http
91. amenet R Barthes 1964 El ments de s miologie Ed Gonthier R Barthes 1970 L Empire des signes Ed Skira H B har M B 1995 La n buleuse des sentiments in L analyse th matique des donn es textuelles L exemple des sentiments sous la direction de F Rastier Collection Etudes de s mantique lexicale Didier Erudition 1995 Paris G Beno t 1991 Formalisation dynamiques des relations pr dicatives in La th orie d Antoine Culioli Ouvertures et Incidences Ophrys H Bergson 1907 la pens e et le mouvant 15 dition PUF collection Quadrige Grands textes J Bernhardt 1972 Aristote in La philosophie sous la direction de Fran ois Chatelet Marabout Histoire r dition 1979 P Beust 1998 Contribution un mod le interactionniste du sens Th se de l Universit de Caen W J Black J McNaught G P Zarri A Persidis A Brasher L Gilardoni E Bertino G Semeraro P Leo 2000 A semi automatic system for conceptual annotation its application to resource construction and evaluation Second International Conference on Language Resources and Evaluation LREC L Bossard 1994 Conception et d veloppement d un analyseur morpho syntaxique M moire de DEA encadrement D Dutoit Universit de Caen D Bourigault 1994 Lexter Un logiciel d extraction de terminologies Application a l acquisition des connaissances partir des textes Th se EHESS D Bourigault B Habert 1998 E
92. ans l acception pi ce allong e plus ou moins mobile qui s applique la description d une s rie d objets fauteuil brouette grue etc Ce qui est en cause est cette s rie d objets Nous obtenons alors le graphe suivant pi ce allong e partie d une objet destin e le saisir fauteuil description levier description etc description classe classe Tes spec enc description A description oe te oye __ description bras n m Figure 5 bras dans le dictionnaire Dans la figure 5 les relations spec enc yclop dique et description sont dites accessoires la d finition de bras dans ce sens n implique pas que nous soyons en attente n cessaire du trait fauteuil D L introduction du multilinguisme L introduction des fonctions lexicales entre mots comme relatif qui appartient etc pour francilien dans sa relation avec Ile de France et l introduction des types de relation comme ici g n rique et sp cifique a entrain une modification du mod le informatique qui permet galement d envisager le multilinguisme Le projet europ en CRISTAL page 29 nous a permis de proposer le mod le componentiel une quipe de recherche italienne et une quipe anglaise un directeur de recherche de chacune de ces quipes vint participer mon jury de th se Ce mod le est bien plus souple que celui de WordNet Fellbaum 1998 et il est assez dommage qu il ne soit pas impl ment par l quipe de Princet
93. at est peut tre n cessaire pour rep rer un nonc cor f rentiel Ces sp cifications sont elles susceptibles de casser la structure Avons nous besoin de d finir l int rieur de la Structure ou de l Analyse de nouveaux l ments que ceux que nous manipulons d j en dehors de l appel au processeur math matique proprement dit 6 1 6 1 Le bornage strict d une s quence et l insertion de lieux nomm s En effectuant le calcul nous souhaitons viter l apparition de certains r sultats interm diaires incorrects Dans notre cas cela peut tre 4 5 qui ne participe pas au r sultat final La question se pose pour nous puisque contrairement aux situations ordinaires nous sommes en face d un vrai texte personne ne pressera lt Retour gt comme sur une calculette Cette tude de faisabilit a t r alis e avec Yann Picand qui s int resse particuli rement aux grammaires syntagmatiques et voulait v rifier le formalisme sur les besoins propres de ses modules 93 pour indiquer que la composition de la formule est r alis e Pour dessiner notre algorithme dans la Structure nous allons utiliser un graphique l ment processus r sultat comme celui de la Figure 14 page 79 Nous ne pr sentons dans la figure que le vocabulaire suivant calculer et et quelques nombres Nous ne nous int ressons pas pour le moment la priorit des op rateurs puisque nous savons que nous devons d j r pondre la question
94. boucle tr s insupportable g rer A contrario nous pourrions envisager comme Sagot le propose de conserver l ambigu t Mais sauf ajouter quelque chose de neuf dans la Structure C1 cela n est pas possible dans la structure courante Il serait bien s r possible de cr er une structure suppl mentaire mais cela toucherait l unicit de la Structure Nous sommes en d finitive comme le dit Sagot amen s d cider entre deux signes recouvrant un m me ensemble de places sans disposer de crit res pour prendre cette d cision D une fa on g n rale le calcul des locutions dans le S miographe de 1996 est rarement effectu parce qu il ne concerne pas le c ur de ce que nous avons souhait observer Cependant l exp rience montre que plus de 20 des erreurs bruit ou silence de l outil vient de la non gestion d un certain degr de figement Malheureusement nous n avons pas de mesure tr s exacte Nous pensons que cette mesure d pendrait de toute fa on du corpus et de notre capacit pr tendue de juger d une chose selon un unique point de vue De toute fa on une mesure plus exacte est inutile en pratique 20 d erreurs c est consid rable Cela m rite d tre consid r C est ce que nous faisons maintenant dans ce chapitre traitant d une tentative d int gration Solution Dans notre discussion nous avons mis de c t C4 La rupture C4 concerne ce que nous allons maintenant appeler Atteinte l Unicit du Signe A4
95. buveur Une autre expression du m me type ailleurs dans le DAG ferait se demander par la Structure si boisson peut tre contenue frigo Nous esp rons videmment que le deuxi me En fait elle ne se demande rien elle pose comme r flexe que le frigo est en place de buveur Si rien ne vient valider cela il ne se passera de toute fa on pas grand chose de plus Par contre selon ce qui est connu par exemple si dans le texte il a t per u quelque part frigo comme sujet de boire c est un texte d crivant un cartoon de Tex Avery alors cela sera repris par une confirmation de l v nement 111 r sultat aboutira davantage que le premier Mais pourquoi ce deuxi me r sultat ne serait il pas trouv par un LCA apr s tout il s agit ici d une partie de la d finition de frigo Autres D finitions Nous utiliserons par la suite les termes de marqueur complexe et de marqueur simple essentiellement pour organiser notre travail et notre propos Nous supposons seulement qu un marqueur complexe comporte plusieurs marqueurs simples C tait le cas pour l exemple fourni avec riche voir paragraphe 6 2 1 1 Int gration de la d finition prenant une forme sch matique page 102 qui dans une certaine mesure marque d un c t l opinion et la faveur d un locuteur particulier et de l autre une articulation existant l int rieur de quelque chose G n ralement pour la suite quand nous parlerons de marqueur complexe ce sera surtout po
96. c notre survie suppose qu l horizon 2000 nous ayons un syst me g rant en terme de synonymie interlinguale au moins six langues europ ennes 4 1 Les travaux de recherche La p riode aboutit une version relativement stable du S miographe Cette version utilise plusieurs des modifications fonctionnelles du Dictionnaire Int gral con ues pr c demment La p riode ne produit pas de modification du mod le de dictionnaire il s agit d j de tester tout ce que nous pouvons calculer l aide de la ressource en fabrication 4 1 1 Le d veloppement du dictionnaire Ce d veloppement concerne surtout le multilinguisme Il s est agi d introduire environ 40 000 mots sens pour chacune des cinq langues suivantes anglais italien espagnol portugais et allemand Le d veloppement de ce dictionnaire a d but par la s lection des 40 000 mot sens fran ais Nous avons proc d ainsi processus de s lection des mots sens 7 tous les g n riques non taxonomiques voir g n rique taxonomique page 28 La m thode est assez comparable celle employ e par Vossein 1999 33 pr sents dan le dictionnaire compl ment par les lemmes les plus fr quents pr sents selon la base textuelle d crite la note 21 page 20 recrutement sous forme de stages r mun r s logement frais d au minimum 6 mois d trangers d sirant se perfectionner en fran ais Les consignes g n rales taient d abandonner la tentative de traduc
97. cherch de notre pr sentation Il ins re ce tout comme instance du dictionnaire componentiel comme sp cifique Is_a sur la figure de la classe formule math matique du dictionnaire Ce qui est int ressant est que cette classe comporte des l ments calculables et qu elle peut prendre en charge ces calculs si le texte lui demande de le faire comme c est par exemple le cas ici OBSERVATIONS Devons nous trouver surprenant que le syst me n effectue aucune op ration quand il rencontre des l ments du Dictionnaire Int gral qui seraient aussi des l ments de formule 78 Le processus d crit ici est susceptible d admettre une formule incorrecte comme 3 Dans l interpr teur tous les graphes sont li s depuis la gestion des tokens en passant par les groupes les syntagmes les balises la profondeur componentielle et toute sorte d v nements qui seraient susceptibles de surgir L interpr teur classe ces v nements d une fa on componentielle et compositionnelle en g rant d un c t la composition de la phrase les tokens les balises cr es l axe componentiel partant de chaque point et tous les relations axe compositionnel componentielle partie tout qu il trouve de telle mani re que tout ce qu il trouve puisse servir de r f rence d lucidation un autre objet l exception des composantes compl tes des TOUT que nous voyons ici 96 A priori non Voici pourquoi il est vrai que tout nombre et tout op
98. cheval Cette relation non inh rente cheval ne vaut que tant qu elle est sollicit e par un contexte par exemple blanc pour valider l mission d une information dans la Structure Du c t de cheval il s agit juste de dire que ce changement de point de vue est tol r par cheval C est tout ce que nous pouvons C est juste ce que nous voulons 12 Revoir le mot de Sartre note 59 page 72 128 definition phrase stative durative N N implicite mpiche i su Pci phrase oe cl p gen Pope spec instancier Ed I terme blanc adj rouge adj x terme potentialit phrase stative durative ce qui peut avoir une surface cl adj de couleur spec jone n po hvar definition phrase stative durative RegExp ce qui peut avoir une ex 4m3 volume cl peut avoir definition phrase stative durative ce qui peut avoir un corps cl peut avoir peut avoir peut avoir classification des trois r gnes classe chose concr te classe personne classe spec spec spec classification zoologique classe spec sous r gne des pluricellulaires classe personne qui vend classe spec division des eum tazoaires classe Figure 22 Landgrave samoura vache et cheval comme corps volume ou surface Dans la Figure 22 pour cheval POUVOIR AVOIR corps l a c est n cessairement POUVOIR AVOIR 3 Dans
99. ciation entre LDI et WordNet galement au plan de la structure des donn es Ce projet s appelle Balkanet voir Projet 9 page 66 ci dessous Dans Balkanet six nouveaux WordNet turc bulgare roumain tch que grec et serbe sont d velopp s Notre t che est une t che de conseil et de contr le Nous avons consid r que le plus simple pour avancer dans cette t che en faisant un travail utile consistait d une part rendre compatible WordNet et LDI d autre part mettre tous les WordNet cr s ou venir dans le conteneur Lexidiom en fusion de r seau avec LDI Il s est agi d une grosse modification de Lexidiom et la moindre de ces modifications tait la gestion de Unicode et le passage un nouvel SGBDr La pire de ces modifications a concern les trois points suivants 1 Fusionner les graphes mais tre capable de les dissocier Ainsi chaque point et chaque relation du graphe est connue comme membre d un ou de plusieurs r seaux il y a plusieurs millions de ces points 2 Etre videmment capable de supprimer un graphe et de le r ajouter maintenance 3 Enfin il s agissait d introduire un nouvel l ment dans LDI Cet l ment pr sent dans WordNet et absent dans LDI est le Synset LDI voit alors apparaitre de nouvelles d finitions Ces ajouts sont en rapport avec l introduction de la notion d hypergraphe dont la figure suivante suffit illustrer les concepts utiles notre pr sentation Figure 8 Exemple d hype
100. compl te A C est pourquoi nous devons g n rer dans le dictionnaire certaines apparences de A dans les textes Pour le sch ma informationnel blanc couleur surface d nomm e cheval nous g n rons des concepts structur s sous la forme de LCA et correspondant grosso modo une grammaire Nous g n rons par exemple 1 couleur de N 2 N de couleur adj de couleurs 3 N blanc 4 N avoir poss de couleur adj de couleurs Le g n rateur de grammaire produit dans Lexidiom les graphes connexes et reli s entre eux par des hyper ar tes Ces hyper ar tes d crivent la fa on dont l information les l ments valeur propri t entit seront plac s les uns par rapport aux autres en faisant attention au calcul automatique des LCA dans la Structure repr sentant l unification du texte et du dictionnaire Dans ces conditions nous n imaginons pas comment il serait possible qu un texte comme Jean a un cheval blanc Quelle est la couleur du cheval de Jean 107 u i fr qui ressemble un type num r en langage objet mais qui peut prendre d autres formes 118 puisse passer dans la Structure sans r veiller les instances int ressantes Pour ce texte nous avons les l ments suivants blanc couleur surface_cheval gt instance plac e cheval classe couleur surface_cheval gt p re du pr c dent et plac dans cheval casse quelle couleur cheval gt fils du pr c dent et
101. coup de propositions 3 peut tre si la Structure en a besoin Ouvrage qui co te beaucoup pr sente Quelle pourrait tre la solution informatique Une solution vraiment bonne ne peut pas tre expos e avec le mat riel dont nous disposons pour le moment Disons toutefois qu il existe un LCA int ressant entre riche et d fendre par beaucoup d arguments Ce LCA est trouv pour riche beaucoup Il s agit du concept quantit importante Cependant nous voyons bien que ce proc d n est pas une solution suffisante puisqu elle n int gre pas directement la forme sch matique Localisation de l impact et formes r sultantes L exemple impacte l axe compositionnel l int rieur de la d finition du mot qualifi par riche En cons quence il modifie l mission componentielle dudit mot par exemple nous avons dor navant une fh se riche c est dire une th se qui a non pas des arguments mais beaucoup d arguments A compter de maintenant nous traitons les nouveaux cas plus succinctement en faisant l impasse sur la situation th orique du cas dans l tat de l art D une fa on g n rale les remarques pr c dentes resteraient valables 6 2 1 2 Int gration de la contradiction entre connaissances des choses et connaissances des d finitions Le cas suivant est int ressant car il nous dit que selon ce qui merge de la pr dication et de la m moire analogique il ne r sulte pas un m me r s
102. couvrant un tr s grand nombre de ph nom nes qui appartiennent ordinairement diff rents niveaux de l analyse linguistique et ont leur propre bagage th orique leur propre input et output et leur propre formalisme Selon les cas nous traitons de ce que nous distinguons couramment sous les mots de morphologie de syntaxe de s mantique et de repr sentation des connaissances Pour chaque l ment de l inventaire pour chaque question analytique nous montrons que la sp cificit des inputs outputs et formalismes introduit en tant que tel des effets parasites tr s g nants C est le niveau 1 de chacun de nos paragraphes Il justifie localement pour une question donn e le pourquoi Le niveau 2 est l limination du caract re sp cifique des inputs outputs et formalismes Il r pond pour chaque question analytique abord e au comment Le niveau 3 est un r sultat unique dans lequel nous disons la m me chose concernant le caract re homog ne de ce que nous avons fait selon les quatre crit res suivants CI unicit de la Structure Il y a ou non h t rog n it des repr sentations structure input c est dire structure C2 unicit de l analyse Il y a ou non h t rog n it des analyses analyses C3 unicit du r sultat Il y a ou non h t rog n it des r sultats structure output c est dire structure C4 unicit du Signe Il y a ou non h t rog n it de la perception du signe le signe Il est importan
103. ction na ve et minimale du signe samoura implique l vocation des concepts de guerre il est un guerrier de Japon il est un japonais de noblesse il est un noble de l autre c t le passage des id es aux mots c est dire un parcours allant des concepts aux mots conduit ce que les id es de guerre de Japon ou de noblesse prises ensemble ou s par ment peuvent amener au mot monos mique samoura C est le 1 octobre 1989 que nous cr ons mon coll gue Patrick de Torcy et moi m me la soci t MEMODATA cette date nous avions achev un diteur nomm Lexilog qui tait capable de g rer dans une interface efficace pour le genre de lexicographie envisag un graphe orient acyclique Directed_acyclic_graph DAG base de concepts et dans lequel les mots sont des feuilles On pouvait y faire des recherches se d placer cr er supprimer corriger effectuer des contr les d int grit r aliser des suppressions logiques etc Afin de pr ciser le contexte de ce travail de l poque situons le d veloppement selon les points de vue linguistiques et relations avec d autres travaux concernant des s mantiques lexicales ou des dictionnaires relations avec les travaux formels de description Avant d aborder ces questions nous pr sentons d abord notre vision linguistique A cette poque notre travail tait uniquement empirique et exploratoire Empirique puisqu il s agissait de voir ce q
104. cturale ou bien dissoudre le mat riau fourni dans l exog n it de son choix Pour l expos de chaque classe de ph nom nes nous appliquons le plan suivant description du cas direction pour une solution structurale localisation de l impact et formes r sultantes Nos classes de ph nom nes sont intitul es Int gration de la d finition prenant une forme sch matique En nous pla ant dans le cadre de la th orie des op rations nonciatives d Antoine Culioli nous tudierons dans ce paragraphe le cas tr s g n ral de la prise en compte de la signification d une d finition d un Signe qui interagit avec la signification de la d finition d un autre Signe Int gration de la contradiction entre connaissances des choses et connaissances des d finitions Nous tudions cet endroit les contradictions potentielles entre perception componentielle et perception compositionnelle Nous nous contentons d indiquer apr s avoir montr une contradiction particuli re et naturelle le mode de gestion que nous pouvons pratiquer Int gration de l inf rence issue des connaissances sur les choses Ce paragraphe qui aurait pu tre plac avant le paragraphe pr c dent correspond la gestion de la pr dication Mais nous ne l avons pas appel ainsi car nous observerons dans le paragraphe que nous devons prendre en charge des situations bien plus g n rales que la pr dication tout simple comme par exemple manger samou
105. d aller plus loin sans imaginer le comportement des LCA montrer que dans la mesure d une certitude il est possible de baliser un lt TOUT gt et de le manipuler de l ext rieur sans pouvoir par la suite toucher ses parties Il nous semble que l alg bre est le seul lieu o ce besoin est parfaitement justifi C est pourquoi apr s h sitation nous avons choisi de montrer cet exemple et non un autre comme une date dont nous avons vu qu il serait le contraire de l id al En effet dans tous les autres cas 1l est n cessaire de conserver la structure partie tout du texte et m me comme on le verra par exemple avec le traitement du cheval blanc de l enrichir En outre dans cet exemple nous avons montr que C1 l unit de la Structure un terme non analysable avant un certain v nement peut tre conserv et r utilis par la Structure C2 l unit de l Analyse TOUT donn nous n avons qu une seule analyse C3 l unit du R sultat TOUT donn nous n obtenons qu un seul r sultat C4 l unit du Signe l unit du signe est maintenue que celui ci apparaisse dans le texte ou la suite d une inf rence ou d un calcul il reste ancr dans le discours et dans les choses d nommables 98 Pour la suite ce que nous appelons Structure comporte des cycles et des ordres d application des r gles Mais nous savons d j cela depuis le chapitre 4 1 2 2 page 36 m me si nous n en avons pas encore profit En
106. dans l axe componentiel C2 l unit de l Analyse l analyse n a pas t faite dans l axe componentiel C3 l unit du R sultat chevall et cheval3 sont ambigus C4 l unit du Signe la fonction r f rentielle des noms est abandonn e les g n riques sont perdus etc 6 3 2 4 Une r solution incluant la gestion de la cor f rence Avant de tenter de r soudre la cor f rence il nous faut maintenant insister sur un point important il n tait pas n cessaire pour r soudre Q2 A B et C de r soudre la cor f rence La r solution de la cor f rence n est importante que pour la r solution des questions D E et F qui ne sont pas dans notre corpus Avant de quitter cette question finalement assez g n rale de couleur de cheval blanc nous faisons comme si le probl me de la cor f rence tait r solu par exemple au moyen de connaissances du genre cheval ET couleur gt cheval_ animal cheval ET blanc gt cheval_ animal La figure suivante donne alors la Structure o nous trouvons les manifestations sur l axe componentiel 124 quid classe couleur th me apparence classe Is_A cheval th me vers th me Jean nom propre cheval classe G n rique couleur classe Vers tl vers th me cheval n m vers th me Is_A vers th me vers th me vers th me instance g n rique vers th me instance vers th me CHEVAL2 Is_A CHEVAL1 3
107. dans la r alit ou dans l abstraction des cat gories Nous affirmons que la solution d crite pourra r ussir d une fa on en quelque sorte irr m diable l preuve des questions Q1 et Q3 Tableau 5 page 115 Mais que peut cette solution sur la question Q2 du m me tableau La structure g re t elle la cor f rence au niveau des LCA des instances 6 3 2 3 5 Exemple de graphe des instances et des ontologies d instance calcul de la question Q2 du Tableau 5 page 115 Nous rappelons ci dessous Q2 Q2 Jean Jean1 a un cheval cheval1 blanc Marie a un cheval cheval2 noir Quelle est la couleur du cheval cheval3 de jean Jean2 La Structure est cr e avec les trois id es suivantes nous savons ce que veulent dire quelle couleur et blanc ils sont d finis par une information et s unifient par d faut avec le dictionnaire componentiel nous n avons aucune id e de ce que signifient Jean et cheval puisque dans l tat de nos connaissances rien ne permet de les d sambiguiser dans le co texte Ils ne s unifient pas avec le dictionnaire componentiel nous d veloppons toutes les cons quences certaines de nos croyances ou connaissances 109 7 2 dans l tat suppos de nos connaissances 121 il selon un ordre partie tout y h couleur th me apparence classe couleur classe vers th me QUESTION QUELLE vers th me Valeur de couleur classe e2 e3 i
108. de G Deleuze nous ne voyons pas bien encore comment un sens ainsi d fini agit concr tement c est dire cause une action cognitive Pour r pondre a cette question le plus simple est de trouver un exemple Le lieu o le discours agit le plus quoiqu en disent les exemples des conf rences d Austin est le discours lui m me En effet la pragmatique est d abord abstraite Par cons quent c est dans le domaine du vocabulaire traitant du langage que nous trouverons les plus fortes intrications Prenons l exemple suivant Le nom samoura comporte 8 lettres Le probl me pos est le suivant s agissant de m talangage l exemple traite de la Structure Traitant de la structure il est donc en dehors de cette derni re la grammaire est une activit m talinguistique Pour nous le traitement m talinguistique du m tadiscours porte atteinte C1 l unit de la Structure il fait appara tre une nouvelle structure la structure m talinguistique C2 l unit de l Analyse si la structure m talinguistique diff re de la Structure alors l inf rence dans la Structure m talinguistique diff re de l inf rence dans la Structure C3 l unit du R sultat le r sultat m talinguistique est incomparable irr ductible au r sultat dans la Structure C4 l unit du signe le mot samoura n aurait pas de sens dans cet exemple Mise en contexte et effets Il est vident que notre exemple n est pas isol Comme nous l avons
109. e 2 et 3 gt couleur n propri t d une surface d un corps 3 et 4 gt surface n partie d un corps mat riel Et nous op rons encore une fois 1 2 et 2 3 gt vert adj valeur d une couleur d une surface d une surface d un corps Ca ne va trop on ne peut pas supprimer le mot propri t Essayons avec l l ment suivant 2 3 et 3 4 gt couleur n propri t d une surface d un corps d un corps mat riel Ca ne va pas du tout 116 Essayons encore 1 2 et 3 4 gt vert adj valeur d une couleur d une surface d un corps mat riel Cela semble tout a fait intelligible En d finitive nous avons le droit de supprimer partie pour mettre un possesseur a la place supprimer propri t pour mettre la d nomination de la propri t a la place En 1 2 et 3 4 nous retrouvons deux repr sentations qui nous sont intuitives famili res et que nous allons utiliser A une connaissance du type VALEUR PROPRIETE ENTITE valeur d une couleur d une surface B une connaissance du type PARTIE TOUT surface d un corps mat riel Mais ce mod le n est pas encore tout fait correct Pour qu il le soit il faudrait que l on repr sente B selon A et r ciproquement A selon B Nous ne le ferons pas ici car m me si cela introduit une rupture C1 C2 C3 C4 cette rupture peut passer inaper u pour notre propos Nous allons maintenant nous int resser A A est tr s int ressant parce qu il rep
110. e 1 Editions d organisation L Tesni re 1959 El ments de syntaxe structurale deuxi me dition revue et corrig e Paris Librairie C Klincksieck 1966 L Timbal Duclaux 1989 L expression crite Les ditions ESF J Tuominen 2000 Opening Mobile Platforms for the Development of Component Based Applications Vivian http www nrc nokia com Vivian A E Van Vogt 1969 Postface au Monde du Non A Coll Omnibus Presses de la Cit J Vergne 1999 Etude et mod lisation de la syntaxe des langues l aide de l ordinateur Analyse syntaxique automatique non obligatoire Greyc Universit de Caen m moire d habilitation diriger des recherches J Vergne 1995 Une syntaxe des langues concr tes Greyc Universit de Caen J V ronis N Ide 1990 Word Sense disambiguation with very large neural networks extracted from machine readable dictionaries Coling J V ronis 1991 Fusion de dictionnaires en vue de la cr ation de grandes base de connaissances pages 117 130 Avignon 1991 Le traitement du langage naturel et ses applications J V ronis 1995 MULTEXT tiquetage grammatical multilingue Mod le lisible l adresse Attp www lpl univ aix fr projects multext LEX LEX2 html B Victorri Catherine Fuchs 1996 La polys mie construction dynamique du sens HERMES B Victorri 1998 Dynamical construction of meaning a challenge for Artificial Intelligence RFJA 98 B Victorri Cat
111. e de l exploration de la structure Une variable globale agit galement sur l ensemble des fonctions Il s agit de la variable sens uniques seulement Si sens uniques seulement est coch la fonction SYNONYMS appliqu e automobile ne retournera pas voiture puisque le dictionnaire conna t un autre sens pour voiture L API d expansion lexicale est par exemple employ e pour l expansion de requ tes Elle intervient aussi dans le dictionnaire l envers La th se de Thierry Poibeau utilisa largement cette API dont la fonction BROTHER pour valuer son application d extraction d information avec dictionnaire sans reconfiguration du dictionnaire ni apprentissage 4 1 2 2 L API de calcul de distance s mantique L emploi du terme distance s mantique est courant et nous le rencontrons dans des travaux d appartenances diverses en repr sentation des connaissances en analyse lexicale et en analyse du texte L emploi de ce terme n implique pas n cessairement chez les auteurs les trois restrictions euclidiennes portant sur la distance du m me nom mais plut t diff rents rapports de proximit s qui sont quantifi s l aide de symboles ou de quantit s Nous donnons d abord quelques unes de ces d finitions puis nous fournissons notre d finition et nous d taillons son impl mentation en distance interlexicale 4 1 2 2 1 D finitions de distance s mantique En repr sentation des connaissances nous pouvons rencontrer ce terme
112. e grammaire R sultat comporte aussi une repr sentation atomique des r alisations de ces faits grammaticaux et de leur impact dans d autres analyses Des instances particuli res comme samoura sachant le samoura sont pr sentes Signe conserve une forme intangible 6 1 4 Int gration du terme Nous traitons maintenant de morphologie des termes compos s componentiels Prenons pour exemple cancer du poumon Nous montrons ici que l conomie de la repr sentation componentielle de chacun des mots compris dans le terme cancer du poumon porte atteinte CI l unit de la Structure Le terme n est pas analysable componentiellement alors qu il devrait l tre C2 l unit de l Analyse Si la structure du terme diff re de celle utile ses composantes dans ce terme alors l inf rence dans la structure diff re selon que nous partons du compos ou des composants C3 l unit du R sultat Il s ensuit deux analyses automatiques d un texte comportant cancer du poumon Ces analyses sont objectivement en concurrence alors que nous aimerions qu elles ne le fussent pas C4 l unit des signes cancer de le et poumon est rompue Mise en contexte et effets Il y a dans notre dictionnaire pour le fran ais environ 75 000 locutions plus ou moins fig es nominales ou verbales Les effets des ruptures pr c dentes sont tellement vari s que nous ne tentons pas de les repr senter ici Consid rons toutefois un th saurus m dical qui c
113. e na t le terme dictionnaire int gral pour d signer notre projet Observation 5 Le point cl est l int gration de diff rents points de vues linguistiques dans un tout dans lequel des inf rences homog nes peuvent s effectuer naturellement Ainsi cette poque c est en valuant le contenu du dictionnaire que nous avons d duit plusieurs op rations calculables base d inf rences homog nes En 1992 un article publi Coling Dutoit 92 r sume la situation a il devrait tre possible de calculer le mot sens associ certaines occurrences Il s agit par exemple de calculer quelque chose voisin de document comptable pour brouillard dans le solde du brouillard est incorrect b appliquant ce m me processus 1l devrait pouvoir tre possible de d gager des th matiques d un texte c appliquant ce m me processus il devrait tre possible de r aliser un dictionnaire l envers Prenons le chapeau suivant paru dans un Ouest France de cette poque L accident a eu lieu par temps de brouillard Les deux voitures qui se sont percut es sur les deux voies de la nationale ont provoqu un carambolage d environ cinquante v hicules Ce texte soumis aux calculs devrait retourner carambolage du fait que ce mot particulier rend compte au plan componentiel de la plupart des autres mots de la phrase Ici intuitivement et par exemple carambolage rend compte des mots accident avoir lieu provoquer percuter d
114. e que les r ponses a la Question 5 page 47 ne sont pas encore donn es et parce que nous sommes toujours en train d accro tre une liste de cas d utilisations voir section 6 1 page 5 nous d cidons le d veloppement extensionnel et multilingue du DAG Cette d cision a l avantage de ne pas cr er trop de tension en rapport a l Observation 5 le d veloppement sous jacent reste componentiel Il s agit de cr er un dictionnaire analogique en autant de langues i que les occasions nous le permettront Parmi les trois applications que nous venons de voir nous avons donc mis l accent sur le dictionnaire l envers En op rant ce choix nous avons choisi de destiner notre travail au grand public comme nous l avions fait en 1992 avec Dicologique Le produit retenu a pour nom Alexandria et est servi par le serveur SensAgent Alexandria est donc un projet de valorisation de certaines technologies linguistiques dont nous disposions et de leur largissement extensionnel Cela n emp che pas la tenue de certaines r flexions sur le fond Au plan technique Alexandria est ce que la communaut des d veloppeurs web a appel plus tard un pop into un composant de page web s ouvrant l int rieur d une page suite une sollicitation par double clic sur un mot d une page web int grant le composant Au moment o nous avons propos ce composant Alexandria tait en 2005 une vraie innovation et elle a tonn plus d un sp cialiste La petite fe
115. e que nous avons fait nous permet de gagner du temps sur certaines t ches comme la fabrication d un dictionnaire int gral multilingue ou celle d une grammaire surfacique et devrait un jour tre encore utilis e pour progresser dans la caract risation des informations contenues dans le dictionnaire pourvu que nous ayons d clar pr alablement qu il s agit effectivement d une information Le dialogue avec des sp cialistes confront s des probl mes concrets nous a aid s comprendre les verrous qu ils rencontrent et qui sont endog nes leur point de vue Tout cela nous a permis de d finir une m thode pour approfondir notre tude sur la structure ventuelle du langage Nous ne voyons rien pour le moment qui s oppose l approfondissement de cette tude puisque nous n avons rencontr aucun paradoxe Nous pensons que la d finition deviendra intensionnelle chaque fois qu elle sera mise l preuve des nonc s Mais pour le moment nous sommes conscients que nous ne restons qu des prol gom nes au d veloppement d une pragmatique abstraite naissant de l observation du dictionnaire de langue tout ventuel d veloppement futur n cessitant le d veloppement d un instrument Dans la mesure o cette HDR sera soutenue nous serions heureux de faire conna tre quelques tudiants int ress s les points de vue de ce texte Il s agit d int resser quelques jeunes qui seraient exigeants dans la prise en compte de la complexit aux
116. e soulev pourra sembler bizarre m me si sa qualit principale ne doit pas nous chapper il semble exclure tout probl me de r f rence quelle que soit la mani re dont nous pourrions concevoir cette derni re Si l argument ne convient pas nous proposons au moins d observer que l nonc est une question qui comporte sa r ponse et que dans cette mesure le probl me est de savoir quelles op rations strictement linguistiques et portant sur une structure laquelle sont capables de d tecter cet tat de fait Cette question g n rale est pertinente en cela que n importe quel discours peut tre vu diff rents niveaux comme un ensemble de questions d finitions de lieux en relation avec un ensemble de r ponses lieux d finis Cela dit ce qui nous int resse le plus dans le cheval blanc est technique nous ne pouvons pas trouver de discours ou de textes comme je viens de les caract riser qui soient plus l mentaires 50 5 UNE PERIODE DE PROJETS INSTITUTIONNELS ET INDUSTRIELS 2002 2007 Avec le retard que nous avons pris concernant le d veloppement d Internet le temps s acc l re Nous devons faire d importants efforts dans le domaine du multilinguisme LDD et dans la ma trise des technologies web En TAL l ambiance est au tout statistique L expansion de la linguistique de corpus incline ressentir que la situation n est pas si diff rente en cette discipline La phrase suivante extraite du r sum de la HDR de Juan Manu
117. e suivant Adjectif Nom gt Nom D terminant Nom gt Groupe Nominal Le probl me pos est le suivant la r gle de r criture n appartient pas la Structure Le traitement hors la Structure de la r gle de grammaire porte atteinte C1 l unit de la Structure il fait appara tre une nouvelle structure la r gle syntagmatique C2 l unit de l Analyse si la structure syntagmatique diff re de la Structure alors l inf rence dans le lieu syntagmatique diff re de l inf rence dans la Structure C3 l unit du R sultat le r sultat syntagmatique est incomparable irr ductible au r sultat dans la Structure C4 la d finition du signe le mot samoura n aurait pas de sens au plan syntagmatique dans le samourai Mise en contexte et effets Nous savons que les grammaires fournissent des l ments importants dans la d termination d une localisation C est le cas de la grammaire de r criture appliqu e a la bande syntagmatique et prise comme un r cepteur particulier de cette bande L exemple consid re l int gration des points de vue de la Structure et de la grammaire syntagmatique Il est vident que notre exemple n est pas isol Il s applique galement l int gration des points de vue des grammaires de d pendance ou des mod les de langage appliqu s la Structure Il s applique videmment aux relations qui existent entre eux Solution Commen ons donc comme nous l avons d j fait pa
118. e terre riche Aliment riche Gaz riche M lange riche en carburant Langue riche en moyens d expression Rime riche Robert Nous avons alors pens que l num ration est incompl te Elle devrait au moins se terminer par ou etc Par exemple il y aurait dans le etc th se riche Alors deux questions se sont pos es dans ce cas que vaut l onomasiologie de ou etc Cette question nous est sugg r e par la Th orie Sens lt gt Texte qui ne travaille que par extension r alisant ce que Jacques Francois appelle parfois une indexation f roce qu en est il alors du statut th orique de la Th orie Sens lt gt Texte La question se pose en effet car si nous acceptons comme le dit TST qu une des t ches primordiales de la linguistique th orique contemporaine est l laboration d une th orie de la paraphrase langagi re Mel uk 1992 p10 il est clair que selon cette th orie les nonc s suivants devraient tre paraphrases l un de l autre Jean a cout un riche th se Jean a cout une th se qui d veloppe de nombreux arguments Nous observons que la Th orie Sens Texte ne peut rien traiter de ce cas pourtant au c ur d une des t ches primordiales de la linguistique contemporaine puisque certainement responsable du plus nombre qui soit de paraphrases Pourquoi voyons nous ici un gisement consid rable de paraphrases Pour cette raison simple qu il s agit de toutes les paraphrases qui implique une c
119. e2 et E3 la locution est potentielle la satisfaction de la contrainte el pr c e2 pr c e3 entra ne l mission d un compl ment de graphe comme suit Pour pomme de reinette et pomme de pin la situation serait diff rente pomme de reinette serait proche de pomme de terre en ce qui concerne de et reinette tandis que pomme de pin s apparente plut t cancer du poumon voir 6 1 4 Int gration du terme page 85 79 l gume tubercule classe classe EN potatoe eF tubercule comestible d une solanac e litt raf litt ral EN potatoe n f FR patate n f FR pomme de terre loc n ei PUR gt pomme n de e3 N tere n Figure 14 c Structure pr sentant pomme de terre cr e dans le graphe componentiel Port es du formalisme sur les crit res C1 C4 C1 la structure obtenue reste atomistique Soit nous n avons pas encore pomme de terre et nous avons seulement des l ments soit nous avons pomme de terre et nous trouvons alors un seul l ment C2 l algorithme des LCA continue fonctionner dans la limite du tout petit graphe d fini d finissant pomme de terre La d marche analytique est la m me que celle d finie depuis 1996 voire depuis 1992 C3 cela n emp che pas que dans un autre graphe pomme ait une existence propre Le fait qu il y ait plusieurs perceptions possibles est une vidence Cela n implique pas l existence de plusieurs Structures r sultantes qui de plus su
120. effet ces l ments sont au c ur des LCA Analyse sait concevoir un tout comme un tout et ne pas se perdre dans des sous touts isomorphes R sultat comporte une repr sentation dans laquelle des op rations non linguistiques peuvent tre effectu es et r cup r es Signe conserve une forme intangible 6 1 7 Conclusion Les six classes de ph nom nes que nous avons examin es dans cette section examinent principalement l int gration d informations plut t compositionnelles Cette int gration s est r alis e en acceptant l indiff renciation ce qui a permis de maintenir l unit de la Structure en acceptant les interd pendances utiles entre les parties ce qui a permis de maintenir l unit de l Analyse en acceptant de voir se former un corps particulier qui serait semblable la Structure d entr e ce qui nous a permis de maintenir l unit du R sultat L ensemble a t rendu possible en acceptant de consid rer le Signe comme un objet intangible C est en tant que tel qu il figure dans un syst me de Signes susceptible de se mettre en uvre quand le syst me en question est stimul par un nonc Cette int gration aboutit 4 quelque chose de plus complexe que ce que nous avons manipul jusqu au chapitre 5 En effet nous n avions pas alors besoin d tudier un syst me dynamique nous nous contentions de relever les concepts activ s pas le S miographe sans consid rer les cons quences possibles de ces ac
121. el Torres Moreno soutenue le mercredi 12 d cembre 2007 r sume assez bien le contexte Pendant ces ann es de recherche plusieurs fois je me suis pos la question de savoir si la linguistique pouvait encore jouer un r le dans le traitement de la langue naturelle De notre c t nous restons assez loign de tout ce remue m nage de nombres et de lettres sauf quand nous utilisons le mod le de Markov pour r aliser un lemmatiseur en fran ais anglais italien ou espagnol ou quand nous demandons au S miographe de calculer des similarit s dans des donn es s masiologiques Finalement comme tout le monde nous vitons d affronter de front les questions th oriques et nous nous concentrons sur des validations taille r elle des acquisitions de savoir faire technique des am liorations techniques de notre logiciel lexicographique et des d veloppements extensifs Nous d taillons ces points dans les paragraphes suivants du DAG l hypergraphe le S miographe touche les applications 5 1 Du DAG l hypergraphe Tandis que LDI prend la forme et la terminologie d un hypergraphe le S miographe reste un graphe dont le nombre maximum de sommets des ar tes vaut 2 4 Voir API morpho syntaxique page 35 7 Voir paragraphe 4 1 3 page 43 et Projet 6 EuroWordnet page 48 51 5 1 1 Le moteur de LDI devient un hypergraphe Un des projets de recherche co financ de cette p riode suppose que nous r alisions une asso
122. endant structur appliqu concept peut aussi signifier concept organisant d autres concepts dans un jeu de relations qu ils ont entre eux travers lui m me C est cette valeur particuli re que nous voquons ici 20 Cette application pose videmment le probl me de la polys mie au sens lexical mais l application pose aussi un probl me de pertinence par rapport l utilisateur A raison le deuxi me point l emporte sur le premier A l poque dans l application Page Jaune cela s est traduit chez l utilisateur par la suppression pure et simple du mot sens avocat fruit dans sa version de notre dictionnaire Nous jugeons ce type de r gression contraire l Observation 4 page 18 et nous ne pouvons pas la prendre en charge Aujourd hui un tel cas ne poserait plus vraiment probl me mais le principe de l observation reste valable 20 3 PREMIERS CALCULS COMPONENTIELS 1992 1996 La p riode voit appara tre chez nous les premiers calculs componentiels de taille r elle hors domaine C est la naissance du S miographe Dans le m me temps nous sommes amen enrichir le formalisme du dictionnaire de nouveaux attributs Evidemment s agissant d une recherche appliqu e il ne suffit pas de compl ter intensionnellement le mod le Au contraire il convient de l appliquer la plus grande part du lexique d une part pour v rifier l efficacit du principe organisateur Observation 3 page 14 et pour comprendre son impact sur la structure
123. ent ou synth tiquement seulement dans la mesure o nous en aurons besoin Nous nous int ressons aux interactions entre signes Nous nous int resserons juste ces interactions qui pourraient d couler de la langue vue comme un syst me Le titre de ce chapitre est int gration structurale des points de vue componentiels et compositionnels pourquoi et comment Avant de pr senter comment ce chapitre va se d velopper int ressons nous dans un premier temps interpr ter correctement ce titre un peu long Le mot int gration doit tre pris pour tous les sens qu il conna t savoir 1 op ration inverse de la diff rentiation 2 tablissement d une interd pendance plus troite entre des parties 3 Incorporation 4 Coordination des activit s de plusieurs organes n cessaires un fonctionnement harmonieux d apr s Robert Le sens 1 tant donn le compl ment dans notre titre de int gration signifie que nous allons faire en sorte de d terminer une mani re particuli re de consid rer la question de la distinction point de vue compositionnel componentiel telle que dans cette mani re la distinction n op re plus ou plus exactement n a plus d effet parasite g nant Le sens 2 renvoie au proc d de cette indiff renciation nous ferons en sorte d tablir davantage de d pendances entre des parties d un tout qu il nous faudra pr ciser Le sens 3 insiste sur l existence du tout action de faire entrer un l
124. ent s obtenir plus directement par la lecture directe des cat gories grammaticales comme propri t des mots mais cela n importe pas ici Donnons maintenant les autres r sultats LCA fleur T fleuriste n gt Personne en relation avec les fleurs N classe LAA homme et soci t T fleuriste n Personne qui vend qqch N classe ve Les LCA et les LAA ne sont pas ordonn s 42 Les autres 105 LAA fournissent les m mes premi res classes d finissant fleuriste En conclusion cela signifie que fleuriste et fleur sont tous deux des noms et qu ils partagent le monde des fleurs La diff rence entre fleuriste et fleur est que fleuriste est une personne qui a pour activit de vendre qqch La diff rence entre fleur et fleuriste s obtient au travers du concept Le monde du vivant T On trouve la classe partie portant les organes reproducteurs de certaines plantes Cl 4 1 3 Exemple d application des distances le dictionnaire s enrichit tout seul depuis le dictionnaire l envers Les fonctionnalit s que nous venons de d crire ont t impl ment es compter du moment o nous avons pu acc der des machines capables d effectuer suffisamment de calculs cette poque le S miographe n tait pas industrialisable Toutefois les premiers r sultats du S miographe ont pris une forme int ressante en effet certains r sultats ont t jug s suffisants pour pratiquer certains processus automatiques d a
125. entaire plusieurs facettes de faits lexico s mantiques examiner quelles utilisations nous pouvons effectuer par exemple en termes de d sambiguisation ou de constat sur le contenu du dictionnaire destin a l homme de cet inventaire Parmi ces usages un usage particulier tait pr vu distribution de l inventaire en tant que tel destination du grand public pour faciliter le passage de l id e aux mots Le dictionnaire sera effectivement commercialis d s 1992 ala FNAC sous le nom de Dicologique En conclusion le travail d analyse s mantique des d finitions du dictionnaire de langue peut tre du fait de l outillage technique dont nous disposions nous a ralli au courant componentiel De fait notre point de vue a t le suivant il est possible d tablir les propri t s s mantiques d un terme hors contexte et nous avons consid r le sens comme une donn e initiale ind pendante du texte environnant dans lequel certaines propri t s sont activ es ou d sactiv es Gayral 1998 Le but de la soci t MEMODATA a t la cr ation d un nouveau dictionnaire de la langue fran aise exploitant les possibilit s de l informatique pour proposer un dictionnaire nouveau dans le sens de un genre nouveau 2 2 Lexilog et les premi res hypoth ses de signification lexicale Le logiciel r sultat prit pour nom Lexilog puis partir de 1996 celui de Lexidiom pour rendre compte dans son nom des fonctionnalit s de gestion mu
126. eption et l action dans le monde r el Pensez vous que l int r t de I IA pour les capacit s cognitives de haut niveau manque de pertinence Nous ne r pondrons pas cette question qui ne nous concerne pas Cela pos une fois dit que dans notre cas le monde r el n est pas en cause nous pouvons quand m me ajouter que dans notre Monde abstrait il y a beaucoup faire sans s occuper d inf rences logiques 101 Int gration de la syntaxe de la d finition pour sauver une grammaire surfacique Ce cas pr sente une r solution plus d taill e que le pr c dent Il correspond au Hiatus observations s mantiques et observations dans le syntagme de la page 45 Les cas auraient pu tre pr sent s dans un ordre diff rent mais s agissant de cas complexes c est dire de cas o plusieurs observations naissent en m me temps aucune organisation ne conviendrait tout fait 6 2 1 1 Int gration de la d finition prenant une forme sch matique Nous commen ons par cette famille de ph nom nes du fait de leur caract re g n ral qui implique une compr hension plut t globale et avanc e Ce cas nous est venu par l observation de l article riche dans le Robert qui nous semble tout fait typique de son esp ce Nous n tudierons pas ici tous les sens de riche Consid rons seulement le sens 3 suivant Qui contient de nombreux l ments ou des l ments importants en abondance Une riche collection de livres rares Un sol un
127. ergraphe est d ordre 6 et de rang 6 et pr sente des ar tes multiples e8 e5 ET Figure 15 L organisation de l onomasiologie d une instance d une classe date n est pas particuli rement triviale Dans le graphe nous voyons que l hyper ar te e4 qui correspond le 25 peut tre per ue comme une instance de date Cela signifie t il pour autant que toute occurrence de le 25 est une instance de date Il serait dommage que cela soit ainsi Alors que signifie ce graphe m r ologique Pour essayer de r pondre cette question dessinons un nouveau graphe Ce graphe pr sente m r ologiquement ce que nous admis savoir de samoura dans le nom samoura nom samoural Figure 16 Le nom samoura En lisant la figure pr c dente disons nous que par exemple tout l ensemble des noms se limite samoura Aucunement A contrario disons nous davantage que tout ce qui concerne le signe samoura se limite nom Nous ne le disons pas davantage 90 En fait dans ce genre de graphe rien de ce que nous pouvons dire comprend une quantification universelle ni plus que comprend une logique du premier ordre Au contraire nous lisons seulement dans nom samoura samoura est un l ment et nom en est un autre Il n est pas possible de dire davantage La Figure 15 se lit exactement de la m me fa on Dans cette figure le 25 se lit dans date le 25 est un l ment et mardi 25 avril 2008 en est un autre C est pour
128. ertaine compr hension intensionnelle Les paraphrases qui impliquent une certaine compr hension sont videmment plus nombreuses que celles li s des processus idiomatiques connus pr cis ment et susceptibles d tre list s dans le dictionnaire Pour ce cas au moins nous nous sommes sentis attir s par d autres formes de linguistique Voir dans 3 1 2 L enrichissement du mod le le Dictionnaire Int gral LDI page 24 le paragraphe A 102 Le cas Consid rant l adjectif riche et les formes sch matiques de Culioli 1990 il m appara t clairement que de telles formes existent bien au moins pour ce mot Par exemple pour le locuteur l objet qualifi pr sente lui m me ou dans l objet n cessaire d une de ses relations pr dicatives quelque chose qui existe en grand nombre ou en grande masse et ceci d une mani re favorable du point de vue du locuteur Dans cette forme le trait quelque chose qui existe de mani re favorable est assez g n ral tous les exemples d utilisation et ne pose pas de probl me insurmont Par contre le trait quelque chose qui existe en grand nombre est quant lui tr s sp cifique la chose qualifi e une mine riche en or en or d sirable pour le locuteur un homme riche en moyens financiers d sirables pour le locuteur un sol riche en l ments fertilisant d sirables pour le locuteur une th se riche en arguments d sirables pour le locuteur un style riche en tournures d
129. es au lieu que toutes nos perceptions ou id es naissent d un principe actif qui juge Rousseau Il est int ressant de compl ter l article du Robert Fonction par laquelle l esprit se repr sente les objets acte par lequel s exerce cette fonction son r sultat Et les exemples Perception et imagination Quand je dis l objet que je per ois est un cube je fais une hypoth se que le cours ult rieur de mes perceptions peut m obliger d abandonner Dans la perception un savoir se forme lentement Sartre Nous trouvons l exemple du cube chez Bergson 1907 avec une tonalit compl mentaire J ai donn en esprit une forme ce que j entends cette forme n est pas dans les sons m mes Dans un cube dessin en transparence chacune des deux faces peut indiff remment me para tre l avant ou l arri re du cube Le dessin ne change pas c est en esprit que je l organise diff remment L esprit d tient le pouvoir d organiser pour lui m me les choses sans y changer quoi que ce soit en r alit Voir note 112 page 89 la conclusion o nous reprenons ces notions apr s les avoir postul es pour notre analyse linguistique qui d gage un lieu de pragmatique abstraite 74 Le titre du chapitre est finalement clair Il reste discuter du pourquoi et du comment Nous en venons au plan du d veloppement Pour proc der l lucidation des deux questions pourquoi et comment nous traitons des questions analytiques vari es
130. et diff rences sp cifiques 42 4 1 3 EXEMPLE D APPLICATION DES DISTANCES LE DICTIONNAIRE S ENRICHIT TOUT SEUL DEPUIS LE DICTIONNAIRE A L ENVERS 43 42 REFLEXIONS CRITIQUES SUR LES RESULTATS OBTENUS 43 4 2 1 LES DEUX HIATUS 44 4 2 1 1 Hiatus dictionnaire l envers en rapport avec l absence d organisation entre les concepts des quasi d finitions 44 4 2 1 2 Hiatus observations s mantiques et observations dans le syntagme 45 4 2 2 LES CHANGEMENTS DE POINTS DE VUE CONCERNENT LES CHOSES LES PLUS SIMPLES 45 4 2 3 EFFETS SUR UNE STRUCTURE LEXICO COMPONENTIELLE DE LA NON PRISE EN COMPTE DU CHANGEMENT DE POINTDEVUE 46 4 2 4 SYNTHESE CRITIQUE 47 4 3 PROJETS ET DOCUMENTS 47 44 CONCLUSION ET PERSPECTIVES 49 5 UNE PERIODE DE PROJETS INSTITUTIONNELS ET INDUSTRIELS 2002 2007 51 5 1 DU DAG A L HYPERGRAPHE 51 5 1 1 LE MOTEUR DE LDI DEVIENT UN HYPERGRAPHE 52 5 1 2 LE SEMIOGRAPHE TOUCHE LES APPLICATIONS 54 5 1 2 1 Les applications non lexico s mantiques 55 5 1 2 2 Le dictionnaire l envers 55 5 12 3 Une gestion documentaire multilingue 57 5 1 2 4 Aide la navigation multimedia 58 5 1 2 4 1 Aide la lecture 60 5 1 2 4 2 Extraction et normalisation des entit s nomm es 60 5 1 2 4 3 Extraction des th mes 62 5 1 2 5 Le d veloppement d Alexandria 64 3 2 PROJETS ET DOCUMENTS 66 5 3 CONCLUSION 71 6 INTEGRATION STRUCTURALE DES POINTS DE VUE COMPONENTIELS ET COMPOSITIONNELS POURQUOI ET COMMENT 73 6 1 INTEGRATION D ENONCES COMPOSITIONNELS 76 6 1
131. f the First International Conference on Language Resources amp Evaluation LREC J P Caput 1969 Dictionnaire des verbes francais Librairie Larousse N Catach 1984 La phon tisation automatique du fran ais Les ambigu t s de la langue crite Edition du CNRS M Chambreuil A Ben Gharbia P Gamallo Otero variations sur la compositionnalit montaguienne revue TAL volume 39 num ro 1 N Chomsky 1957 Syntactic structures The Hague Mouton amp co traduction 1969 Structures syntaxiques Trad M Braudeau Editions du Seuil Paris N Chomsky G A Miller 1971 L analyse formelle des langues naturelles Trad Ph Richard amp N Ruwet Mouton Gauthier Villars N Chomsky 1976 Le langage et la pens e Trad Louis J Calvet Petite Biblioth que Payot F Chatelet 1972 La philosophie sous la direction de Francois Chatelet Marabout Histoire 5 tomes r dition 1979 P Constant 1990 Analyse syntaxique par couches Th se ENST informatique M Cori S David J L on 2002 Pour un travail pist mologique sur le TAL Revue Traitement Automatique des Langues Vol 43 N 3 B Courtois 1990 Un syst me de dictionnaires lectroniques pour les mots simples du francais Langue Frangaise N 87 D N Christodoulakis 2000 Design and Development of a Multilingual Balkan WordNet http www ceid upatras gr Balkanet A Culioli J P Descl s K Kabore D E Kouloughli 1981 Syst mes des rep
132. ff rence essentielle de point de vue Pour nous la s mantique du prototype reste une cole id aliste et aristot licienne en cela qu elle s int resse aux abstractions dues au classes et cherche les justifier au plan cognitif De notre c t nous ne nous int ressons qu aux signes linguistiques et cherchons en rendre compte depuis les mots et les textes Dans notre document l utilisation faite des artefacts que sont les concepts ne rel ve que du proc d et de l conomie et non d un quelconque statut psychologique 28 Niveau de langue et domaine sp cification de contraintes ou d effets particuliers li s l emploi d un mot langue de sp cialit niveau de langue proprement dit lieu d emploi datation L ensemble des adaptations du dictionnaire que nous venons de pr senter ont permis de r aliser une premi re version int ressante c est dire non limit e un domaine la langue est une structure voir position linguistique page 12 et v rifiant l ensemble des op rations qui avaient t annonc es en 1992 voir chapitre 3 1 1 ci dessus comme nous le verrons entre 2002 et 2004 voir 5 1 2 page 54 Durant les ann es 1992 1996 environ 70 000 mots sens de LDI fran ais ont t mis jour 3 2 Projets et documents Projet En d but de p riode nous avons obtenu deux soutiens du Minist re de la Recherche qui nous ont permis de d buter s rieusement le travail Projet 1 Dicologique D finition des pri
133. fr ancien guerrier et aristocrate japonais ILI M3100000 literal MA1 japonais Peuple les X FA139271 literal MA1 a fr personne noble selon son rang FC Nsuite MA40558 FC Spec Enc MAO nippon Peuple les X FA143237 literal MA1 personne soldat portant une cuirasse une armure FC NMA203412 FC SpecEnc MAO is Japani nom 2L2452017 literal MA1 fr personne historique du Japon FC NMA326830 FC Spec MAO fi japanilainen nom 3L2462018 literal MA1 E fr personne combattant dans un conflit arm FC Nsuite MA326845 FC Spec MAO hu japan nom 412462019 literal MA1 en feudal Japanese military aristocracy ILI MW2660680 holo_member M0 ar LL gram AA3498001 literal MA1 fr habitant du Japon ILI MW2910680 category_domain MWO de Japaner nom DE9108 literal MA1 fr celui qui fait la guerre qui combat avec des armes ILI MWW3151840 hypernym Mu de Japanerin n f sing DI5353577 literal MA1 2 samoura n m sing FS39324 de Japanisch n neu DI5363683 literal MA1 NoGloss ff bushi ronin samoura SYNIMS39324 pivot MA1 en a native or inhabitant of Japan gloss EW2910680 gloss MA1 3 samoura n m sing FA4949782 en Japanese Nom C S EW2910681 literal MA1 en feudal Japanese military aristocracy ILI MW2660680 literal MA1 en Nipponese nom EW2910682 literal MA1 en a privileged class holding hereditary titles ILI M
134. g n raux au service des documents 17 pages Conf rence Internationale sur le Document Electronique La Rochelle CIDE 7 France 3 Plusieurs journ es Atala Conf rence Nationale Invit 3 1 D Dutoit 1993 Le dictionnaire int gral 1999 journ e d tudes du Centre National d Etudes p dagogiques 2 D Dutoit Le s miographe 1999 pr sentation la journ e Outils pour le Tal organis e par le groupe de recherche Information interaction intelligence en association avec l Atala 3 J Fran ois D Dutoit Compte rendu de S mantique et traitement automatique du langage naturel 2006 de Patrice ENJALBERT dir publi chez Lavoisier Herm s Science Publications 2005 Publication au bulletin de la Soci t de Linguistique de Paris ILF Revue Nationale comit de lecture sur article complet 3 1 D Dutoit 1991 Dicologique un nouveau type de dictionnaire revue La banque des mots 2 D Dutoit J Fran ois 2007 Changer et ses synonymes majeurs entre syntaxe et s mantique Le classement des verbes fran ais en perspective Revue Langue Fran aise dition Larousse France 3 T Poibeau D Dutoit 2008 Automatic extraction of paraphrastic phrases from small size corpora Linguisticae Investigationes 10 BIBLIOGRAPHIE A Abeill 1993 Les nouvelles syntaxes Grammaires d unification et analyse du francais Armand Colin Paris Chapitre 3 A Abeill L Cl ment A Kinyon 2000 B
135. g terme et les principes d organisation de la mod lisation doivent tre capables de couvrir tout le lexique C est une fois que la couverture tend vers celle de tout un dictionnaire que des travaux d valuation des r sultats peuvent tre men s et des propositions d largissement du mod le effectu es 18 2 3 Projets et documents Projet Le projet Etudes des caract ristiques d un nouveau dictionnaire de la Langue Fran aise fut accept par le Minist re de la recherche et nous a fourni encouragements et premiers moyens Gr ce cet apport notre quipe int gra en CDI un linguiste Philippe HERR aujourd hui agr g de lettres Stage Des ressources favoris rent la collaboration avec la recherche acad mique Soutenance de DEA de K Dubaele ISMRA laboratoire d informatique de Caen caract risation informatique de Lexilog et de ses donn es Critiques de Anke Eilers alors doctorante de linguistique ELSAP caract risation linguistique du dictionnaire en cours de r alisation Publication diss mination Le travail accompli a permis de r aliser une premi re publication Dutoit 1991 Dicologique un nouveau type de dictionnaire revue La banque des mots Conseil International de la Langue Fran aise 2 4 Conclusion et perspectives Nous rappelons nos objectifs de la p riode disposer d un inventaire plusieurs facettes de faits lexico s mantiques voir quelles utilisations nous pouvons faire
136. gue Nous l entendons de quatre fa ons langue de sp cialit sens ou emploi particulier d un mot dans un domaine donn tel que ce sens l loigne de son emploi courant et que l emploi soit r serv ce domaine ex racine en math matique niveau de langue proprement dit introduction d une marque concernant la mani re de s exprimer du locuteur tournure de style par ex litt raire extraction pour origine sociale vulgaire caisse pour voiture ou son rapport l objet en r f rence par ex p j poubelle pour voiture lieu d emploi r gionalisme Qu bec d panneur datation ancien orthopn e E2 Morphologie Elle d taille le paradigme des mots sens simples et des mots sens compos s Le rattachement de la morphologie aux mots sens plut t qu au mot a t expliqu dans ma th se il permet d exprimer des restrictions ventuelles en ce domaine Pour le fran ais la forme prise par cette morphologie est un code de mod le flexionnel voisin de celui du DELAS Courtois 1990 La forme a t reprise par la suite pour de nombreuses langues europ ennes italien anglais espagnol portugais russe allemand et n erlandais La morphologie des formes compos es n a pas t parfaitement d crite et est rest e part du fait que nous ne pouvions pas faire de lien entre l int rieur d une expression et un point particulier du DAG pour reprendre un code de flexion simple existant voir 6 1 1 Int gratio
137. guerrier classe japonais classe spec guerrier japonais noble classe classe spec samoura n m noble europ en classe Figure 2 Le caract re fortuit des unions de classe l exemple de samoura spec Consid rant samoura peu diff rent de guerrier noble japonais nous observons que le r seau lexico s mantique comporte des classes avec plusieurs traits regroup s ici guerrier japonais qui se voient imm diatement d compos es ici en guerrierlcasse et Noble ctasse tandis qu un autre reste isol Les raisons de telles organisations sont empiriques et ont pour origines l importance quantitative d une classe la classe guerrier japonais est potentiellement int ressante pour un utilisateur du dictionnaire si nous pouvons y grouper plusieurs d nominations une classe peut regrouper des d nominations partageant un ou plusieurs concepts que ce ou ces concepts aient ou non une d nomination g n rique On dit d un mot qu il est g n rique ou qu il prend un sens g n rique quand il sert d nommer une classe naturelle d objets dont chacun pris s par ment re oit une d nomination naturelle Dubois 1973 Ainsi par d finition l existence d un g n rique pour une classe donn e entra ne la cr ation de la classe concern e Le mot samoura est int ressant entre autre du fait qu en raison du mat riel lexical disponible en fran ais il peut se d composer de plusieurs fa ons comme pa
138. guit s En effet une succession lin aire de traitements accumule progressivement des informations sur le texte Mais certains traitements peuvent ne pas disposer de toutes les informations n cessaires pour effectuer certains choix Dans ce cas SxPipe fait le choix autant que possible de pr server les ambiguit s retardant ainsi la prise de d cision une phase ult rieure qui disposera de plus d l ments Le s miographe conna t la difficult soulev e par B Sagot depuis de nombreuses ann es L observation m me de l architecture d coup e en modules voir 4 1 2 1 APIs phon tiques morphologiques morpho syntaxiques et d expansion lexicale page 34 implique une cin matique comme celle donn e dans la Figure 10 Les traitements du dictionnaire l envers 6 Voir http alpage inria fr sagot sxpipe html Tl ajoute juste apr s Ceci n cessite que les modules concern s sachent produire en sortie mais aussi prendre en entr e des entr es ambigu s des DAG ou graphes orient s acycliques Nous sommes d accord sur le fond avec cet ajout mais nous ne pensons que des DAG lesquels soient suffisants D autre part les DAG de Sagot sont utilis s pour conserver des ambiguit s alors que les n tres sont con us pour lever ces ambiguit s 77 page 56 et un probl me insurmontable de choix nous n imaginons pas une boucle revenant en arri re depuis le module s mantique jusqu au module morphologique Nous trouverions cette
139. herine Fuchs 1999 Le sens grammatical Langues LAROUSSE P Vossen 1999 Final report Deliverable D041 Work Package 0 EuroWordNet LE2 4003 LE4 8328 P Vossen Laura Bloksma 1998 Categories and Classifications in EuroWordNet Proceedings of the First International Conference on Language Resources amp Evaluation J Chauch V Prince S Jaillet M Teissire 2003 Classification automatique de textes partir de leur analyse syntaxico s mantique Proceedings of TALN 2003 Batz sur mer Vol I Pp 45 55 Weizenbaum 1966 voir http 15 nyu edu mm64 x52 9265 january 1966 html Y Wilks Does anyone really still believe this kind of thing In K Sparck Jones and Y Wilks editors Automatic Natural Language Parsing pages 182 189 Ellis Horwood Limited 1983 Y Wilks Brian M Slator Louise M Guthrie 1996 Electric Words dictionaries Computers and Meanings ACL MIT Press series in natural language processing Y Wilks 1997 Sense Tagging Semantic Tagging with a lexicon cmp lg 9705016 Y Wilks Mark Stevenson 1998 Word Sense Disambiguation using Optimised Combinations of Knowledges Sources cmp lg 9806014 Y Wilks 1999 Js Word Sense Disambiguation just one more NLP task CL 990230 L Wittgenstein 1961 Tractatus logico philosophicus suivi de Investigations philosophiques Paris Gallimard Xiaobin Li Stan Szpakowicz Stan Matwin 1995 A WordNet based Algorithm for Word Sense Disambiguisation
140. i ciblent la fois des points voir paragraphe 3 1 1 page 21 et son pendant paragraphe 3 1 2 page 24 6l Dictionnaire morphologique qui donne des natures et des paradigmes flexionnels dictionnaire de d rivation lexico s mantique qui donne des emplois en rapport avec l organisation syntaxique de la phrase dictionnaire grammatical sans lequel le dictionnaire pr c dent n aurait pas de socle dictionnaire statistique des occurrences dictionnaire onomasiologique dictionnaire s masiologique dictionnaire des synonymes dictionnaire de constructions dictionnaire de d pendances etc Le mot est ce par quoi d butent et aboutissent toutes nos analyses Voir 2 1 Positionnement de nos travaux page 7 75 de vue compositionnels et componentiels page 108 aborde quatre exemples de probl mes complexes Nous nous contentons de donner ces probl mes complexes et une direction structurale de leur r solution sans leur donner une r solution compl te parce que par d finition le traitement d un objet complexe suppose la perception holistique de plusieurs ph nom nes dont dans ce chapitre nous n avons pas encore la liste Ce chapitre traite donc davantage de pourquoi que de comment A l inverse le chapitre 6 3 La d finition d une microsyntaxe pour largir un peu le champ perceptif de la Structure page 109 prend en entr e l nonc r soudre le plus l mentaire que nous ayons imagin quelle est la couleur du cheval blanc d Henry
141. i de commun qu un seul l ment du signe est modifi et que cet l ment est libre c est dire entretient une relation Is_a avec une partie d un Tout particulier Il s agit par exemple de Samoura et d fendre qui s lectionne le c t guerrier d sint gration componentielle nom samoura qui s lectionne le c t partie du discours d sint gration m talinguistique 3 2 qui donne 5 d sint gration compositionnelle ou a contrario cancer dans cancer du poumon qui est un cancer r int gration componentielle le 17 sachant 77 janvier 2004 qui est une date r int gration componentielle lt formule gt 3 2 lt formule gt qui est une formule r int gration componentielle et compositionnelle Comme les exemples purs ci dessus ont d j conduit des expos s parfois peut tre difficiles suivre puisqu il faut toujours avoir une structure int gr e en t te pour percevoir la d sint gration ou la r int gration dans l int gration nous imaginons bien que des exemples hybrides pluriels susceptibles d agir de plus dans plusieurs lieux li s et en m me temps vont tre difficiles pr senter et de surcro t tr s p nibles lire Pour ces raisons nous d cidons d abandonner le plan d taill que nous avons retenu dans le paragraphe pr c dent Ce plan nous a permis toutefois d attirer l attention sur les cons quences n fastes insurmontables des pertes d unit de la Structure de l Analyse du R sultat et d
142. ice MB quand bien m me l utilisateur ne peut s exprimer par des mots Le corpus utilis pour le d monstrateur s appelle Internet Movie Database IMDb IMDb se pr sente lui m me the IMDb is the ultimate online movie database covering over 325 000 titles and over 1 000 000 people with facts trivia reviews plus multimedia links from the earliest films to the latest releases En d finitive notre corpus contenait 301 908 missions document es par 48 871 r sum s r dig s par des utilisateurs du site Dans IMDb d autres types de donn es taient disponibles Ces donn es non textuelles ont t g r es par VTT qui s en est servi pour calculer une carte de Kohonen Il nous restait donc les titres de films et des r sum s d une taille moyenne de 71 mots corpus total 21 Mo Nous avons tout d abord pris connaissance du corpus par sondage pour essayer de d terminer nos possibles contributions Il est apparu que de nombreux r sum s n taient pas r dig s en anglais su dois fran ais etc cela nous a amen utiliser le reconnaisseur de langue int gr a API du S miographe les r sum s de films comportent de tr s nombreux noms propres Ces noms propres ont souvent un int r t documentaire important dans ce genre de base WW2 Charlot James Bond etc Une t che d extraction et de normalisation des noms propres s imposait d autant qu elle tait particuli rement attendue par l quipe charg e du profil
143. icite implicite implicte d finition pht se agentive ___ tr buveur n boire vt boisson nf instance GN g nitif boisson n f buveur n identique identique Figure 18 Les marqueurs Buveur boire et boisson dot s d une organisation suppl mentaire dans le dictionnaire repr sentation tr s peu d taill e Cette figure ne produit pas proprement parler de concepts ou de symboles que nous n ayons d j pr sent s Tout en haut de la figure instancier terme terme stipule que le mod le de phrase agentive de droite produit un mod le de syntagme g nitif Il s agit simplement d une r ification de Frames pr sents potentiellement dans les th mes du DAG Cette r ification s effectue depuis le mod le le plus complet la phrase agentive jusqu aux mod les les plus elliptiques dans notre cas un syntagme nominal La r ification est produite virtuellement d s la cr ation de la phrase agentive au moyen des r gles d mission que nous avons vues Le r sultat est un syntagme qui finit par s appeler non repr sent syntagme dans la langue comme nous l avons d ja vu pour une FORMULE voir paragraphe 6 1 6 page 93 Quel est le sens exact de la figure appliqu e un exemple particulier Prenons La boisson du frigo Avec ce graphe de la Structure la Structure est amen e examiner frigo du point de vue de boisson En gros la structure se demande si frigo est
144. ictement non componentiels Prenons l exemple prototypique pomme de terre Nous n abordons pas le fait que pour nous il puisse y avoir quelque chose de componentiel dans pomme de terre Cela n importe aucunement ici Le probl me pos est le suivant Le traitement strictement compositionnel de la locution porte atteinte C1 l unicit de la Structure Pour d crire un groupe de signes reli s entre eux ici pomme de terre il faut remettre en cause l homog n it de la repr sentation c est dire cr er des agents r flexes de perception non atomistiques C2 l unicit de l analyse Pour rep rer un groupe sp cifique de mots reli s entre eux 1l faut cr er un module sp cifique de gestion de ces agents non atomistiques C3 l unicit du r sultat Le traitement du r sultat du module sp cifique am ne devoir choisir entre trois signes et un signe C4 l unicit du Signe Il est affirm ici que certains signes n ont pas de sens dans notre exemple il est affirm que pomme dans pomme de terre n a pas de sens Nous ne parlons pas videmment d un sens li une interpr tation componentielle possible Nous ne parlons que de l affirmation proprement dite dans la limite du champ perceptif d un capteur syntagmatique Mise en contexte et effets D butons par C3 Beno t Sagot d crivant SxPipe souligne un important principe de son syst me Un des principes sur lesquels repose SxPipe est la pr servation des ambi
145. ie Multimedial ARchive and Learning ENvironment for creative writing C est un projet europ en type Leonardo Ou autre appellation par exemple celle de R f rence ou de connaissance sur le monde En pensant ici Odgen et Richards qui crivirent the meaning of meaning A Study of the Influence of Language upon Thought and of the Science of Symbolism en 1923 47 En 1996 ce projet a besoin de contenus textuels et dictionnairiques Nous sommes fournisseurs en mati re de dictionnaires et nous en profitons pour constituer une petite biblioth que lectronique d environ 250 uvres classiques Ces ouvrages devaient nous fournir un corpus une poque o les corpus n taient pas tr s courants Bibliotexte est alors produit en DELPHI Il permet de faire des recherches de type alignement ou extraction de s quences aujourd hui courantes Fin 1996 nous appr mes anecdotiquement et statistiquement que Flaubert adore l expression de temps autre Les partenaires sont CNR ISRDS Rome DIPARTIMENTO DI LINGUISTICA E DI LETTERATURA UNIVERSITA LA SAPIENZA Rome DIPARTIMENTO DI SCIENZE DELL EDUCAZIONE UNIVERSITA DI ROMA TRE Rome GOST Rome INSTITUTO MULTIMEDIA Porto Projet 5 AGIR AGIRM de l industrie 1997 Nous sommes au d part sous traitant d Alcatel puis nous reprenons la partie texte du projet Il s agit d indexation de descripteurs de video et d images Nous essayons d adapter le S miographe ce con
146. ing semantic information from text Coling F Rivenc 1989 Introduction la logique Petite biblioth que Payot R Rivi re D Dutoit 1993 Un phon tiseur automatique du fran ais pour la correction M moire de Maitrise Universit de Caen S Russell P Norvig 2006 Intelligence artificielle 1184 pages 2 dition Pearson Education France Le Robert 1993 Dictionnaire alphab tique et analogique de la langue francaise Ed Le Robert G Sabah 1998 Le sens dans le traitement automatique des langues T A L Traitement automatique du langage vol 38 n 2 pp 91 133 G Sabah 1988 L intelligence artificielle et le langage vol 1 Paris Herm s G Sabah 1989 L intelligence artificielle et le langage vol 2 Paris Herm s B Sagot D Fi er 2008 Construction d un wordnet libre du fran ais partir de ressources multilingues TALN 2008 Avignon P Saint Dizier 1999 Alternations and verb semantic classes for French analysis and class formation Predicative forms in Natural Language and in Lexical Knowledge bases p 1 52 Kluwer academic publisher printed in the Netherlands P Saint Dizier 1999 An introduction to the lexical semantics of predicative forms Predicative forms in Natural Language and in Lexical Knowledge bases p 139 170 Kluwer academic publisher printed in the Netherlands R Schank 1972 Conceptual dependency a theory of natural language understanding Cognitive psychology v
147. inition qui nous sert uniquement la d finition de notre domaine Notons qu en linguistique des auteurs ont des visions plus amples comme par exemple J J Franckel et D Paillard qui tous deux inspir s par la th orie des rep rages nonciatifs et notionnels d A Culioli ont introduit le concept de forme sch matique De notre c t notre article publi dans CIDE 7 Dutoit 2004 a vis principalement r futer cette s paration bipartite partir de l tude s masiologique du signe le plus simple qui soit une simple lettre la lettre i et donc pour appeler l tude de repr sentations informatis es du sens plus complexes que celles sous jacentes cette bipartition mot gt sens gt id e ou ensemble d id es gt signe linguistique gt signifiant signifi et si nous l acceptons signifiant signifi gt signifiant gt mot Entre un mot et lui m me par exemple il peut exister un ensemble d id es qui appartiennent la dur e durant laquelle nous avons r fl chi ce mot Le parcours que nous venons de r aliser d finit finalement bien notre domaine tel que nous l avons con u l poque Il s agit de passer du mot aux id es et r ciproquement des id es aux mots d autant de fa ons qu il est possible Le passage du mot aux id es se fait au moyen de plusieurs localisations et ces diff rentes localisations peuvent tre n cessaires galement pour un mot monos mique Par exemple une reconstru
148. ion Elle nous tait toutefois impos e par le rythme des livraisons du projet et par la technologie proprement dite xt Stage quipe 29 Equipe 1993 a vu le retour en son Alsace de notre ami Philippe Herr et l accueil en bourse CIFRE de Yann Picand M Picand partage toujours nos travaux avec excellence mais n a jamais voulu r ellement r diger de th se Publication diss mination Trois articles nous ont cit s d une fa on tr s importante Jean Pierre BALPE 1992 Comment l informatique donne du sens aux mots La Recherche Cet article a pr sent sur 3 pages le Dictionnaire Int gral en fournissant des exemples et en fournissant des hypoth ses sur ses utilisations H BEHAR 1994 Pour une probl matique des odeurs des essences pour des Esseintes Etudes Fran aises N 31 1995 Cet article utilisa Dicologique pour constituer une partie de son corpus sur les odeurs et r aliser son tude Philippe HERR et Yann PERRAIS 1995 La repr sentation construction du sens dans les dictionnaires lectroniques dition Scolia sciences cognitives linguistique amp intelligence artificielle sous la direction de G Reb publication de Proparlan ERS du CNRS n 125 et Universit des Sc Humaines de Strasbourg Pour notre part nous avons publi Dutoit 1992 A set theoritic approach to lexical semantics International Conference on Computational linguistics CoLing Nantes L article d crit comme son titre le
149. ion componentielle Cette mesure est la plus simple a effectuer L activation componentielle de deux mots M et N est d finie par la r gle des plus petits anc tres communs Least Common Ancestors ou LCA dans le graphe Les plus petits anc tres communs sont parmi les anc tres ceux qui sont en position de fils et jamais en position de p re L activation s mantique entre deux mots ou deux textes M et N est constitu e par l ensemble LCA de ces deux mots Dans la figure nous avons LCA W2 W3 NE et LCA W3 W4 A B Voir http en wikipedia org wiki Tarjan s_off line_least_common_ancestors_algorithm pour une pr sentation d taill e de l algorithme Le chemin d activation entre W2 et W3 consiste en les n uds W2 E W3 avec les fonctions R14 et R15 Les chemins entre W3 et W4 consistent en W3 E A W4 et W3 F B W4 Nous 3 En r alit la racine de LDI comporte une sous racine des fonctions lexicales une sous racine des constructions une sous racine des niveaux de langue et domaine et pour l essentiel la sous racine onomasiologique 38 observons que nous obtenons toujours des sortes de chapeau chinois En consid rant gales toutes les relations ce qui ne vaut que pour simplifier le probl me nous d finissons l activation componentielle comme le nombre total d arcs dans ces chemins divis s par le nombre de chemins d W2 W3 1 1 1 2 d W3 W4 2 1 2 1 2 3 Les LCA permetten
150. ions du Robert mais nous aurions pu galement d cider de cr er de nouvelles parenth ses Nous avons 1 vert adj valeur d une couleur 2 couleur n f propri t d une surface 3 surface n f partie d un corps 4 corps n f objet mat riel En lisant cette cha ne nous avons d abord l impression d une articulation ne comprenant que deux n uds comme dans Caen gt Calvados gt France gt Europe gt gt Univers Mais pr cis ment gt n est pas exactement rien nous pouvons le remplir avec par exemple est situ dans Est situ dans est tout sauf vide Est situ dans est de plus une relation transitive Caen Est situ dans France S1 nous essayons d appliquer la transitivit notre cha ne de relation nous remarquons que de n est pas transitif En effet os de chien chien de garde ne donne pas os de garde je ne peux pas remplacer ce qu il y a derri re de par la d finition de ce contenu C est absolument naturel puisque pour faire court dans A de B de dit de consid rer A dans la vue de B et ne dit pas grand chose d autre Ainsi avec ces d finitions nous avons des changements de points de vue Toutefois pouvons nous esp rer trouver ne serait ce que pour nous aider une forme de continuum dans ces changements Nous recherchons cette trace en supprimant l hyp ronyme suivant et en montrant ce qui reste dans la d finition pr c dente 1 et 2 gt vert adj valeur d une couleur d une surfac
151. ios d finis dans le dictionnaire NB Le terme microsyntaxe est parfois Avanzi 2007 r serv l tude des relations syntaxiques l int rieur de la phrase et s oppose la macrosyntaxe qui a une port e interphrastique Dans notre emploi le terme microsyntaxe a un sens tout fait diff rent il s oppose la syntaxe ordinaire qui tablit une relation entre p cheur et la ligne pris comme des touts mais accepte des micro relations entre des parties s mantiques de p cheur et la ligne Nous allons illustrer cette d finition par un exemple que nous avons d j discut Il s agit de la question de la vache et de la boisson voir paragraphe 6 2 1 2 page 104 Nous nous rappelons que dans cet exemple du point de vue pertinent micros mantique boisson vache vaut lait tandis qu au point de vue pertinent microsyntaxique boisson vache vaut eau en tant que quelque que chose connaissant une propri t boisson c est dire connaissant une propri t puissance active telle que cette propri t appelle un propri taire puissance passive capable de boire Selon l axe microsyntaxique et l interpr tation que nous venons de faire boisson gt boire est consid r comme un marqueur syntaxique pour vache Marqueur microsyntaxique Signe capable d appliquer son environnement un programme particulier et identifiable Les marqueurs microsyntaxiques sont dot s de concepts particuliers en plus de leur concept componentiel
152. iques des fins de TAL une direction extensionnelle avec le projet de dictionnaire conceptuel multilingue Dans ces conditions les travaux de la p riode suivante devront contribuer stabiliser ces directions et mieux d finir certaines notions En ce qui concerne le traitement automatique des langues utilisant le r seau componentiel la question qui nous int ressait le plus tait en troite relation avec l Observation 3 a donn e page 18 Cette question peut se formuler ainsi Question 2 Consid rant plusieurs mots comment extraire automatiquement ce qui les rapproche et ce qui les distingue s mantiquement Nous observons toutefois que la Question 1 Comment enregistrer des concepts structur s dans le DAG page 20 n a toujours pas de r ponse 31 4 STABILISATION DES TRAVAUX NORMALISATION ET MULTILINGUISME 1996 2001 Cette p riode est marqu e principalement par des travaux de consolidation ou d valuation Le temps n est pas aux id es nouvelles car la p riode pr c dente a laiss beaucoup de friches valoriser Il s agit aussi de r unir les mat riaux qui permettront la r daction de ma th se qui sera effectivement soutenue fin 2000 En mati re de calcul automatique il est temps de concevoir les programmes qui utiliseront convenablement les donn es disponibles depuis la morphologie jusqu aux valuations s mantiques Par ailleurs en mati re de multilinguisme nous consid rons que notre visibilit et don
153. iques que nous avons eues nous ajoutons un commentaire technico fonctionnel concernant la gestion d une grande quantit d inf rences Face au flux d information suivant 3 3 3 4 nous ne pouvons nous emp cher de calculer 7 quand bien m me ce 7 pourrait tre faux du fait d un prolongement en par exemple Nous venons de faire une erreur que notre outil de test BabySemio fait galement dans le cas g n ral Voyons maintenant comment cette erreur pourrait tre r par e Cette correction nous permettra de mieux accepter l id e que multiplier les points de vue et le meilleur moyen de pr ciser chaque point de vue Nous avons vu au chapitre 6 1 tout un ensemble de cas qui r duisent la combinatoire du seul fait de leur pr sence en tant que point de vue Nous avons tudi la Formule voir paragraphe 6 1 6 page 93 pour laquelle nous avons su attendre la compl tude dans la Structure avant d effectuer le moindre calcul ou de fournir une seule d nomination linguistique les locutions tr s fig es voir chapitre 6 1 1 page 77 un moment il y a pomme de terre 18 Notre structure exemple chapitre Figure 17 D finition d un TOUT pr cis et balisage page 92 ne ferait pas cette erreur mais cela n importe aucunement qui s accomplit et nous savons du fait de l exemple sur la Formule que nous pourrons marquer ce terme quand nous le souhaiterons Pourrons nous cependant d truire quand nous le d sirerons le
154. ir 4 1 2 2 3 L activation componentielle page 38 Mais ce ne sera qu en 2005 qu une technique plus g n rale sera con ue nous pr sentons cette technique en 6 3 Ce dernier chapitre proposera une prise en charge minimale et endog ne de la pr dication 23 De nombreux travaux post rieurs 1996 ont pris pour hypoth se une r ponse positive la question b C est ce que nous fimes en 1992 1993 pour finalement rejeter l approche d s 1994 Les raisons r trospectivement peuvent tre formul es tr s simplement Il suffit de rapporter la question b la solution propos e dans l article Coling 1992 Nous voyons clairement dans l exemple sur les accidents d automobile qu indexer les concepts accident voiture et route par exemple serait bien moins pr cis qu indexer un mot congruent l ensemble de ces concepts quand ce dernier existe Or pr cis ment le mot carambolage existe Et c est bien ce que nous avons propos Il reste comprendre pourquoi nous avons voulu malgr cela indexer des g n ralit s La raison est finalement toute simple nous n avions pas alors de m thode de calcul de la solution propos e Nous pr senterons cet algorithme comme un r sultat d tude de la p riode 1996 2000 les limites impos es par les temps de calcul ne nous ont permis de travailler dans cette direction qu partir de 1996 Ce point est compatible avec notre r ponse a donn e ci dessus La question c trouve la r ponse
155. ir Je 25 Nous ne pouvons videmment pas lucider ces significations sans leur contexte Mais si ce contexte est enferm dans une m tadonn e alors il nous faudra pour chacun d eux d velopper un module sp cifique Nous comprenons bien que cela est impossible puisqu il existe une infinit de contextes Solution Il nous faut consid rer la date construite comme un l ment de la Structure qui a de plus caus l existence dans la Structure d autres l ments Ces autres l ments sont tous les l ments qui peuvent faire r f rence au tout construit savoir la date compl te observ e Cela se fait en respect des consid rations d usage et de signification qui sont l objet m me du dictionnaire Dans ce cas toute perception d une possibilit de cor f rence pour une date et pour les exemples non lucid s ci dessus s effectuera de la fagon la plus monotone qui soit Voyons comment proc der pour notre exemple Dans tous nos checs nous avons mis dans une m tadonn e non accessible depuis l instance le 25 tout ce qui permettrait de d sambiguiser cette instance C est ce qu il nous faut corriger 89 La figure ci dessous repr sente diff rents tats m r ologiques de la date mardi 25 avril 2008 Nous adaptons ici la repr sentation l aide d un hypergraphe voir Figure 8 Exemple d hypergraphe page 52 parce qu une repr sentation sous forme d un DAG avec cycles et v nements serait totalement illisible Cet hyp
156. ire 116 6 3 2 3 La mise en uvre technique tableau noir m r ologique et g n ration de grammaire 117 6 3 2 3 1 La d finition d une information et le dictionnaire 118 6 3 2 3 2 Le dictionnaire g n re les formes paraphrastiques de l information utiles la perception de cette derni re 118 6 3 2 3 3 Le Dictionnaire les instances et la Structure 120 6 3 2 3 4 Premi re conclusion sur la r solution de cheval blanc 120 6 3 2 3 5 Exemple de graphe des instances et des ontologies d instance calcul de la question Q2 du Tableau 5 page 115 121 6 3 2 4 Une r solution incluant la gestion de la cor f rence 124 6 3 2 5 Conclusion sur la r solution 125 6 3 3 REINTRODUCTION DU CHEVAL INTEGRATION DE LA CHAINE MICROSYNTAXIQUE ET POTENTIALITES 126 6 4 CONCLUSION 130 7 CONCLUSION 133 8 ANNEXE MULTIPLICATION DES INFERENCES ET RISQUE COMBINATOIRE 135 9 PUBLICATIONS ET DISSEMINATION 137 10 BIBLIOGRAPHIE 141 1 INTRODUCTION ET PLAN Les travaux que nous d crivons dans ce m moire servent justifier la soutenance d une habilitation diriger des recherches La soutenance repose sur la fiche r sum et le CV les travaux de recherche r alis s et les publications En tant que directeur d une soci t priv e dont le noyau comprend trois personnes depuis 1989 j ai t responsable et ou l initiative de quatorze projets de recherche soutenus par des institutions de recherche en r ponse des appels d offre Framework projects de la C
157. ire de linguistique de l Universit de Caen le CRISCO En effet puisque de nombreux linguistes utilisent abondamment des traits comme anim ou inanim et que ces traits nous semblent bien inaccessibles il nous a fallu les interroger pour en comprendre l origine ontog n tique Nous avons galement r fl chi l exemple de r f rence le plus simple qui soit de telle mani re que nous ressentions pleinement que cet exemple n est pollu d aucune interaction entre langage et monde ni d aucun pr suppos Nous avons alors pos la question que voici pourquoi blanc un moment d une analyse prend il place en suivant des motifs compositionnels et componentiels strictement d finitoires dans quelle sachant l nonc Quelle est la couleur du cheval blanc d Henri IV C tait mi 2001 Nous disposons depuis quelques pages de tous les l ments pour y r pondre Mais il semble qu il faille exprimer compl tement cette r ponse Nous rappelons que l important est la forme prise par la r ponse La forme de notre r ponse sera t elle celle d un lien avec un syst me logico d ductif externe la Structure et dont nous aurions organis pr cis ment les inf rences en fonction d un but inconnu du Syst me et que nous poursuivons trouver la bonne r ponse Ou bien la forme de notre r ponse sera t elle simplement une Structure qui s est form e ind pendamment de tout but exog ne laquelle Structure aurait une ontogen se endog ne
158. it s nomm es La d marche est d crite dans Poibeau 2000 D marche hybride cofond e sur des connaissances lexicales et morphologiques et des faits statistiques elle s imposait en d finitive dans notre travail o tait attendue pour l anglais une langue que nous pratiquons moins une distinction entre noms propres un peu particuli re en effet il convenait entre autre d effectuer une distinction depuis les seuls r sum s entre nom d acteur et nom de personnage Nous fournissons ci dessous la liste des m tadonn es d terminer TitlesList title title subtitle movie title song title etc EventsLis t events list PlacesLis t locations list country town river montain building planet street etc PersonsLis t persons list actor name band name god name wrestler name etc CorpsList companies list company association group etc TimesList times list feast century date etc Nous fournissons ci apr s deux textes et deux exemples de sortie 60 Movie n 553 english The film consists of four stories plus epilogue set in 19th century Sicily THE OTHER SON mother spends her life waiting for news from her two sons emigrated to America while ignoring her third because he is the reincarnation of the bandit who raped her MOON SICKNESS a newly wed peasant girl discovers that her husband goes mad every full moon She arranges for a male friend to protect her but they end up in bed
159. itation Diriger des Recherches pourra nous aider rendre plus acceptable ces deux fois trois pages qu il nous faudrait crire en fournissant un lien sur le texte d une HDR soutenue 116 Ja cognoscibilit de la signification 17 i va de diff rentes pratiques des th ories sans pratique actuelle en informatique ou en linguistique th orique 132 7 CONCLUSION L ensemble de nos travaux porte sur la structure du langage travers l observation du dictionnaire qui chez nous emporte la compr hension automatique des textes En observant le caract re pluriel des m thodes d acc s au contenu des documents textuels nous concluons qu il ne s agit point pr cis ment de m thode mais plut t de techniques qui toutes utilisent un point de vue int ressant Notre travail ne consiste finalement qu produire une m thode permettant de r unir ces points de vue Apr s quelques ann es consacr es faire une sorte d analyse de l existant du contenu du dictionnaire nous avons pris en entr e cette analyse de l existant pour essayer de comprendre comment nous l avons effectu e Nous avons alors ouvert un nouveau dossier qui nous a amen d finir les principes de la conception elle m me Pour montrer comment nous en sommes arriv s ce point nous avons t oblig s dans les cinq premiers chapitres de ce dossier d habilitation de retracer le parcours effectif que nous avons eu en soulignant les r sultats trouv s et les questi
160. itue un d veloppement extensionnel de la d marche componentielle et permet d s 2000 d imaginer des applications en traitement automatique du texte En 1991 les projets de recherche et d veloppement pour la nouvelle p riode ont t r aliser une version commercialisable de Dicologique r fl chir aux traitements automatiques que le dictionnaire pourrait permettre de mettre en ceuvre Faire une liste de ces traitements pr senter le travail des chercheurs concern s par l activit en particulier des linguistes valuer le point d entr e qui permettrait des extensions multilingues rechercher d autres mani res de structurer le lexique telles que ces mani res permettraient de nouvelles utilisations inf rences ou une conomie dans nos co ts de maintenance En respect de notre position linguistique page 9 nous vitons les applications proprement industrielles qui biaisent le travail tant que le mod le n a pas suffisamment de capacit de localisation Observation 3 page 18 et l poque c est Cap Gemini qui a utilis le dictionnaire pour r aliser partir de Dicologique une maquette de r seau s mantique page 10 destination de l interrogation en langage naturel des Pages J aunes 1 Nous devons cette d nomination Pierre Zweigenbaum elle n est pas contradictoire avec la d finition de concept page 11 Les concepts du DAG sont d j structur s entre eux du point de vue de la totalit du DAG Cep
161. ivante de Pierre Zweigenbaum renard theme est il autre chose que l ensemble de tous les liens vers th me qui partent d un concept classe r ification des relations Si c est le cas il n est pas n cessaire fonctionnellement de cr er une bo te de concept th me pour le distinguer du concept classe Nous pouvons trouver une dizaine de r ponses a cette question La premi re r ponse est en relation avec l histoire technique l poque nous ne savions pas typer les relations et seul l usage des bo tes tait possible pour nous Il faut comprendre pourquoi seul cet usage tait possible La r ponse est simple notre mod le de r f rence tait le dictionnaire analogique du type Roget et nous voyons que le Roget est organis autour de notions qui s apparentent grandement aux themes Le P choin 1991 qui est la transposition fran aise du Roget le montre bien par exemple nous y trouvons un article MAMMIFERES de quelques pages et cet article commence par l unit lexicale mammif re Dans le P choin MAMMIFERES signifie tout ce qui trait onomasiologiquement la notion de mammif re Cette expansion est par exemple diff rente de celle que nous pourrions faire en donnant les d riv s lexico s mantiques de mammif re n m par exemple mammalogie n f D autre part le mot mammif re n m a dans le P choin plusieurs localisations pour le m me sens Par exemple nous retrouvons mammif re n m dans l article ZOOLOGI
162. ivraient des formalismes diff rents C4 pomme a aussi un sens dans pomme de terre L unit du Signe est maintenue Par exemple cette unit permet de partager un paradigme flexionnel entre pomme autonome et pomme de pomme de terre Pour la suite ce que nous appelons Structure comporte dor navant la morphologie compositionnelle des mots compos s Analyse sait traiter de fa on monotone des faits de morphologie compositionnelle Il prend en entr e des l ments et produit des l ments R sultat comporte aussi une repr sentation atomique des r alisations compositionnelles Cette repr sentation ne supprime pas la repr sentation des composantes Pour tre tout fait cons quent il nous faut insister sur le fait que cette repr sentation influe sur la repr sentation des composantes en instanciant une composante Par exemple du fait que pomme de terre existe effectivement pomme_de_pomme_de_terre existe dans les instances cr es de la Structure r sultat et pourra servir pour r gler par exemple des questions d accord comme dans bonne pomme de terre 67 sa Bats Nous n avons pas repr sent dans la Figure 14 c l mission de la composante pomme par exemple dans un 80 Signe conserve une forme intangible 6 1 2 Int gration d nonc s compositionnels m talinguistiques Un signe a toujours un sens En admettant que ce sens soit strictement fond sur une localisation voir note 10 page 9 la remarque
163. la figure corps est consid r comme tout objet mat riel caract ris par ses propri t s physiques Le 129 volume ou POUVOIR AVOIR surface Dans un autre point de vue de cette figure nous pourrions montrer l aspect d finitoire nous aurions corps A volume et volume A surface De m me toujours dans une autre figure nous aurions corps g n rique de tout corps volume g n rique de tout volume surface g n rique de toute surface Encore dans un autre point de vue nous trouverions des donn es comme il voir surface appareil photo photographier surface personne_qui_mesure mesurer surface surface avoir aire et toutes sortes d autres choses aux natures assez approximatives mais pr vues dans le Dictionnaire de Langue Etant donn e la nature de ces choses qui nous int ressent et le contenu actuel de Lexidiom 26 langues pour ce vocabulaire courant il s agit au fond du d veloppement d une ressource pour des calculs s mantiques compositionnels et componentiels en environnement multilingue Cette ressource n est pas id ologique et n affirme l tre ou le Ph nom ne qu en cela qu il est lexical Pour le reste elle ne construit que dans la mesure o elle sait conserver les unit s que nous avons propos es L unit de la Structure qui assure que toute n cessit lexicale d origine morphologique grammaticale s masiologique informationnelle ou du m tadiscours puisse s exprimer travers un impact sur un aut
164. la m me raison les travaux d extraction automatique de clusters statistiques devraient continuer donner comme il le font depuis toujours des r sultats localement bons et devenant mauvais dans le passage l chelle Deuxi mement il est possible de consid rer qu un mot sens est g n rique pour plusieurs classes cela ajoute de la souplesse sans cr er d homonymie artificielle 25 Dans l id al le mod le componentiel que nous d veloppons aurait pu se passer de la relation de g n ricit apr s tout si un mot sens appartient une classe et rien d autre c est qu il est enti rement d fini par la classe En cela il recouvre la classe et en devient un g n rique calculable Mais la deuxi me remarque pr c dente rend impossible l application de cette heuristique De plus l heuristique suppose que le dictionnaire soit juste et complet ce qui videmment ne sera jamais le cas voir Observation 1 page 14 En d finitive la d termination du caract re g n rique d un mot sens pour un concept donn revient pour le moment l expertise humaine Cela n emp che pas qu une partie des g n riques du Dictionnaire Int gral aient t propos la validation humaine par l ordinateur travaillant sur sa base de donn es C L introduction des liens potentiels Certaines relations entre mots et concepts apparaissaient clairement comme d finitoires et d autres comme potentielles presque encyclop diques C est le cas de bras d
165. la perception d une interrogation quelle et serait ontog n tiquement oblig e de chercher r pondre du fait de cette m me perception En bref la forme de notre r ponse saura t elle respecter C1 l unit de la Structure une seule Structure C2 l unit de l Analyse une seule Analyse C3 l unit du R sultat une seule Synth se C4 l unit du Signe un seul Signe C est sur quoi il nous faut juger Donnons nous maintenant un petit corpus pour asseoir ce jugement sur une variation de faits 6 3 1 3 Un corpus plus tendu de cheval blanc Voici une exp rimentation utilisant l agent conversationnel de Virtuoz tel que nous pouvons le tester sur http www virtuoz com fr 104 7 Comme c est le cas quand on sait le calculer pour l nonc calculer 3 4 5 Comme c est aussi le cas pour l nonc combien de lettres a le mot samoura Voir la note 86 page 97 et r fl chir une r ponse donner Russel 114 N Nous L agent Nous pensons 1 uelle est la couleur du cheval Bien Q ae d Henry IV Et bien c est blanc vous venez de me i le dire Connaissez vous VirtuOz Q2 Jean a un cheval blanc Marie a un Bon alors cheval noir Je n ai pas de pantalon Connaissez plus facile Quelle est la couleur du cheval de vous VirtuOz jean Q3 Quelle est la couleur d un cheval Alors blanc Je n ai pas de pantalon Connaissez uniquement vous VirtuOz la question
166. la question suivante qu est ce qui permet de dire que ce Signe supporte telle ou telle pr dication l puissance passive quand un marqueur en cause dans un texte est pris dans sa dimension forte il pose toujours l affirmation suivante il existe un marqueur faible qui supporte une certaine pr dication puissance active Le principal int r t de la notion de marqueurs est li au besoin de pr ciser le mot sens quand nous disons que tel sens est retenu Le marqueur d finit toujours un point de vue partant de quelque chose et portant sur une chose de classe ordinairement tr s diff rente et que le dictionnaire ne relie pas n cessairement Dans les cinq premiers chapitres nous n avions pas besoin de la notion de marqueur puisque nous r fl chissions toujours dans le cadre de l extension d une d finition A contrario le marqueur permet d aborder plus ou moins la d finition sur un plan intensionnel Avec le marqueur nous sortons du point de vue componentiel o le mot signifie dans tel ou tel co texte et nous abordons le point de vue d une pragmatique abstraite dans lequel le mot agit directement sur la Structure En d finitive le mot marqueur est utilis pour montrer certains effets pratiques du sens 6 3 1 2 De la pertinence des postulats de la microsyntaxe Les postulats de la microsyntaxe nous sembleront corrects si et seulement si A Ils s inscrivent dans l une des questions g n rales laiss e dans ce document B ils
167. lation ne porte pas atteinte a la s masiologie de cheval elle la refl te exactement D un autre point de vue la relation fournit un moyen d assurer du fait de son mission dans l axe componentiel puisque cheval_blanc alors cheval_blanc dans l axe componentiel une meilleure continuit de la Structure dans les axes congruents information et signification que nous avons d finis En tant que telle elle aboutit nouveau aux r gions stables et platoniques de l axe componentiel Elle n est plus alors limit e au seul ph nom ne capable de r soudre Q1 Q2 et Q3 mais retrouve l intelligibilit noum nale 127 capable de r soudre tout ce qui concerne et est concern par un cheval qui se construit et qui prend forme Les choses ne sont des choses connues que par abduction sur leur totalit 2 Nous pr sentons ci dessous la forme que prend cette relation telle qu elle ne porte pas trop atteinte la s masiologie de cheval Le dictionnaire d finit Corps partie mat rielle des tres anim s sens dou de vie volume partie de l espace qu occupe un corps surface partie ext rieure d un volume qui le limite en tous sens couleur caract re de la surface d un objet qui La figure suivante pr sente le r sultat et une int gration avec les classes componentielles existantes Une relation peut avoir en bas manifeste en soi un changement de point de vue il s agit du point de vue impos par blanc par exemple sur
168. les m decins lib raux le MeSH pour la bibliographie et d autres terminologies propri taires Partenariat VIDAL SA coordination Issy les Moulineaux LERTIM direction scientifique Facult de M decine Universit de la M diterran e Marseille Mondeca industriel Paris Memodata industriel Caen Equipe CISMeF CHU de Rouen LIMSI quipe CNRS Orsay DSPIM Facult de M decine Saint Etienne HON Fondation Health On the Net Gen ve LabSTIC Facult de M decine Universit de Nice Sophia Antipolis Au plan des r sultats les financements obtenus nous ont permis d industrialiser jusqu un certain point la solution tandis que nous tions pr ts attendre pour reprendre les travaux sur le S miographe et LDI des machines plus puissantes Avec Vodel Alexandria est pass de 250 000 30 000 000 de fiches Observons que nous finissons cette pr sentation concernant quinze ann es de travail un peu comme nous avons d but avec un produit public visant cette fois un march au moins europ en sinon mondial une mise en attente des travaux de recherche exploratoires en fonction de financements d di s et d une disponibilit de machines suffisamment rapides pour pouvoir travailler des perspectives de recherche nouvelles que nous allons voquer dans notre chapitre 3 du d veloppement de nouveaux parcours interpr tatifs universalistes et aprioriques Cette pr sentation aura finalement exactement le m me statut
169. limentation du dictionnaire A cette poque nous avions c t du Dictionnaire Int gral norme r seau s mantique de 200 000 mots sens un petit dictionnaire d environ 80 000 d finitions courtes Il est ais d imaginer que cette s paration tait aga ante surtout en ce qui concerne le Dictionnaire Int gral Sachant que le temps de la r alisation manuelle de l appariement des deux dictionnaires prendrait plusieurs milliers d heures la question tait de savoir en quelle mesure le S miographe pourrait faire cet appariement tout seul sans erreur ou du moins sans faire plus d erreur qu un humain travaillant rapidement mais attentif Aujourd hui 85 des appariements pr sents dans LDI ont t r alis s par le S miographe Il s agit d une application du dictionnaire l envers voir 5 1 2 1 Seules 12 000 entr es du petit dictionnaire restent traiter Ce reliquat est d essentiellement des diff rences importantes de discr tisation des sens dans les deux dictionnaires des l ments manquants dans le r seau LDI une mauvaise reconnaissance des locutions par le S miographe et quelques fautes dans le dictionnaire de d finitions 4 2 R flexions critiques sur les r sultats obtenus Au plan de la r flexion l apport du S miographe fut consid rable En premier lieu il a l gitim les efforts pass s et donc notre d marche empirique et structuraliste en montrant qu il est capable de nous aider dans des d veloppe
170. loppement de paraphrases simples un lexique partir d un mot suivant un script donn Les fonctions disponibles dans le script sont donn es en note de bas de page formes puis a t d grad pour mieux satisfaire des besoins de correction ph nom nes irr guliers mais fr quents de translitt ration etc On la trouve aujourd hui sur certains services grands publics offerts Universalis Orange Sensagent etc dans des versions plus ou moins compl tes Aujourd hui Alexandria ou le site sensagent com en impl mentent une version rapide et simplifi e a ALIAS La fonction permet de r cup rer les synonymes stricts d un mot Par ex les variantes graphiques acuponcture lt gt acupuncture DERIVED La fonction permet de r cup rer les d riv s lexico s mantiques d un mot De Gabon gabonais citronnier lt gt citron en passant par r ve gt onirique ou alimenter gt aliment la fl che gt repr sente une fonction lexicale Nous n avons pas indiqu ici la nature de cette fonction TRANSLATION La fonction permet de r cup rer les traductions d un mot dans une langue donn e Cette langue doit tre pass e en param tre INFLECTED La fonction permet de r cup rer les diff rentes formes fl chies d un mot 35 Le comportement de certaines fonctions d expansion d pend des param tres de configuration du syst me il s agit des fonctions DERIVED et BROTHER puisque toutes deux sont d pendantes du param trag
171. mantique c est le cas de couleur mais non celui de Rembrandt Le plus souvent un signe se rencontre tant t comme marqueur fort et tant t comme marqueur faible dans le mot couleur voir chapitre 6 1 2 page 81 couleur est compl tement rep r localis par nom et plus rien ne devrait s chapper de lui Couleur devient compl tement marqu D une fa on g n rale nous utilisons aussi le terme marqueur fort pour dire que 100 Le premier sens de marqueur fort agir en dehors de son champ s mantique correspond la d finition de fort suivante qui a un grand pouvoir d action Le deuxi me sens de marqueur fort agir d une fa on claire correspond la d finition de fort suivante qui agit beaucoup ou efficacement Evidemment nous nous int resserons d abord aux marqueurs forts dans les deux sens du terme 112 l image de la marque de l impact est tr s claire quand le marqueur a agi Nous disons galement que certains signes sont difficiles imaginer comme marqueur fort par exemple personne mais sauf dans cette personne en parlant d un lapin dans Alice au Pays des Merveilles et que d autres sont difficiles concevoir comme marqueur faible c est notamment le cas de vultuosit Avant de conclure sur ces d finitions nous souhaitons donner encore une indication concernant la mani re d interpr ter le mot marqueur quand un marqueur en cause dans un co texte est pris dans sa dimension faible il pose toujours
172. me du fait de leur isolement dans le th me ex glapir renardi re hydrophobie rage pi ge renard sont plac s dans renard termes li s lui m me contenu dans Renard th me Caract ristique trait d finitoire groupant tous les mots dont la d finition pr sente un modifieur relativement simple par rapport leur esp ce pour renvoyer un th me existant ex projeter vt gt jeter classe fort caract ristique Dans les figures suivantes nous donnons acc s titre d exemple aux premiers niveaux d anc tres pour les mots landgrave n m samoura n m et projeter v tr Un graphique plus profond est donn pour renard en tant qu animal Les graphiques propos s correspondent l tat actuel du mod le du r seau lexico s mantique et pr sentent des types de relation que nous n avons pas encore d crits puisqu ils n existaient pas entre 1989 et 1992 Nous pr senterons ces types de relation dans le paragraphe 3 1 2 L enrichissement du mod le le Dictionnaire Int gral LDI page 24 L observation des relations pourra raison donner l impression au lecteur de redondances En fait sauf exception le type de relation affich correspond une valeur par d faut du trait d finitoire et est rempli automatiquement S La classe fournit souvent une indication de l appartenance un class me dans la terminologie de Pottier 1992 13 habitant des fiefs et ch teaux classe juge et magist
173. ments extensionnels qui sont extr mement co teux voir paragraphe 4 1 3 page 43 ci dessus Issus d une recherche exploratoire et empirique la mise en uvre des S miographe et structure v rifient leur pertinence dans le d veloppement applicatif En outre nous trouvons avec le dictionnaire l envers voir page 55 des erreurs fortuites de structure que nous pouvons corriger l occasion En bref le A cette poque l appariement automatique des lexiques tait pour nous non de la recherche mais plut t un instrument au service du d veloppement industriel M me si nous observons qu Alexandria voir Le d veloppement d Alexandria page 63 1 7 millions de mots align s en 27 langues est largement redevable de cette pratique nous ne voyons pas quel r sultat int ressant pour la communaut nous pourrions proposer en publiant propos d une technique ad hoc con ue par exemple pour deux lexiques particuliers Nous ferons donc dans ce document largement l conomie de ce genre de r f rences 4l Ce dictionnaire avait t r dig entre 1991 et 1994 dans le cadre d un contrat commercial pour r aliser un dictionnaire lectronique de poche Nous ne nous sentons pas oblig d effectuer toutes ces corrections car en application de l Observation 1 page 43 S miographe participe pleinement aux d veloppements des travaux Sont ce pourtant les seules contributions que cette mise en uvre du S miographe a pu offrir Nous ne
174. mportante mais certaines exp riences 41 comme le dictionnaire l envers voir 5 1 2 2 page 55 se satisfont de son emploi en effet il s agit juste de dire que les distances de yen 1 monnaie du Japon 2 monnaie de Hiro Hito 3 unit mon taire d Asie 4 monnaie des USA vont croissantes 4 1 2 2 6 Les m mes mesures en incluant les fonctions lexicales Les fonctions lexicales sont con ues pour faciliter la g n ration de textes Il ne vaut mieux pas les utiliser pour calculer des diff rences s miques Nous ne pouvons discuter ici cette affirmation Disons seulement que le simple fait qu elles n ont pas le m me point de vue que ce dont nous parlons en ce moment laisse supposer le r sultat Au paragraphe 4 2 1 2 Hiatus observations s mantiques et observations dans le syntagme ci dessous nous discutons un cas d inf rence tr s d sirable et pourtant impossible replacer dans un cadre s mique quelconque sans porter atteinte d une fa on d finitive ses qualit s structurantes essentielles 4 1 2 2 7 Exemple comment d une extraction des ressemblances et diff rences sp cifiques Dans ce paragraphe nous tudions les mots fleuriste nom et fleur nom pour illustrer avec un exemple concret ce que fournissent les LCA et les LAA Les r sultats permettent de souligner la structure componentielle du dictionnaire et montrent des r sultats intuitifs Nous obtenons LCA fleuriste fleur fleur T Racine des nom
175. n conjonction arcs tiquet s qui sont essentiellement hors de notre domaine ils ont la nature bool enne du vrai et du faux et nous sommes flous Ou markers chez Katz Tl faut qu une application comme le dictionnaire l envers voir paragraphe 5 1 2 2 page 55 soit aussi capable de lire cette d finition et de retrouver fauteuil 5 1 2 2 Le dictionnaire l envers page 55 comme exemple d utilisation de cette largissement du paradigme des traits s mantiques Nous travaux sur le dictionnaire l envers ont commenc en 1992 et servaient r fl chir sur le fonctionnement du r seau lexico s mantique Sous la direction de Daniel P choin 1991 10 De leur c t les logiques de description sont des notations labor es pour faciliter les nonc s sur les objets Elles travaillent sur la description des d finitions et des propri t s des cat gories d objets De m me en premi re analyse elles n ont pas grand chose voir avec nos travaux m me si et cela justifie l importance de la pr sente note bien des termes sont communs nos travaux et cette forme de logique Par exemple nous parlerons de classification ou d inf rence et nous pourrons avoir l impression de retrouver la notion de subsomption travers un est impliqu par trouv dans le syst me de traits s mantiques ou bien un contient si nous consid rons le m me syst me de traits s mantiques selon un mode ensembliste comme dans Du
176. n de la morphologie compositionnelle page 77 et 6 1 4 Int gration du terme page 87 pour une mise en perspective E3 Construction Un verbe ou un nom ou un adjectif conna t pour chaque sens des constructions particuli res qu il est bon de donner pour diff rents usages information au lecteur analyseur syntaxique Cette propri t que nous venons de donner n est pas compatible avec celle utilis e par Caput 1969 chaque verbe peut avoir une ou plusieurs constructions ind pendamment de son sens Environ 30 000 descriptions de construction ont t donn es en relation avec le sens mais l instar de la morphologie des formes compos es et pour une raison voisine de gestion d l ments plusieurs l ments ces r sultats n ont pas encore t utilis s Consid rant l ensemble de ces apports et la vari t des points de vue sur la langue qu ils apportent nous avons forg le terme Le Dictionnaire Int gral LDD pour refl ter l id e de la confection d un objet plut t formel capable de rendre compte de ces diff rents points de vue 27 lexicologiques ou linguistiques Une autre raison nous fit retenir le terme LDI En effet int gral rappelle le fondement componentiel int grant de l ossature fonctionnant par d composition recomposition D finitions compl mentaires Fonction lexico s mantique FL Mel cuk p31 Une fonction lexicale FL est une d pendance ou correspondance f qui associe une u
177. n rer exhaustivement toutes les personnes comme nous l avions d crit La date voir paragraphe 6 1 5 page 88 est une illustration du m me m canisme de structure miroir En effet chaque fois qu une date est prouv e toutes les composantes onomasiologiques on est ici du c t du mot sont rendues accessibles C est une fonction r Mais il faut comprendre que si une structure miroir appara t une structure miroir de la structure miroir peut aussi appara tre Dans un tel processus l intrication part d un signe x s enrichit par des concepts et des v nements divers continue sur sa d finition qui devient alors x et continue ce mouvement qui aboutit le plus souvent non un cercle mais une spirale a ne boucle pas ce qui est la fois inqui tant pour le temps de calcul et stimulant pour des questions d apprentissage long terme Consid rant toutefois qu il est beaucoup plus complexe de se repr senter la Structure avec en son haut la structure miroir qui a videmment elle m me pour haut la Structure 1 qui a pour haut la structure miroir 1 etc le tout formant la Structure dynamique nous ne ferons plus allusion a une telle perspective dans ce m moire Voir note 2 page 8 sur la dur e dans le sens donn par Bergson 108 Au contraire nous allons consid rer que nous avons dor navant une Structure en t te avec un bas et un haut bien clairs sans miroir Dans cette Structure nous savons qu un Signe pe
178. n tre web tait cens e apport e des services correction et recherche phon tique d finitions synonymes expressions morceaux de LDI et de Wordnet en plusieurs langues traductions vers 22 langues 5 En relation avec l ACALAN voir www acalan org il est par exemple question en ce moment 2008 de d veloppement de l haoussa Tl y a un grand nombre de lectures possibles pour ce nom Nous laissons au lecteur le soin d valuer tous les arrangements compositionnels possible dont le nom complet pour deviner les diff rents sens du nom retenu 55 il faut lire senseAgent voir http www sensagent com 64 TV5 org infos Bogota pr sente des preuves que Betancourt et trois Am ricains sont en vie Packard Bell GAY ES http www tv5 org T 5Site inFo article Bogota _presente_des_preuves_que_Betancourt_et_trois_Americains_sont_en_vie x 44 X lt Lf Google G y Envoyer tM B X wv Mes Favoris PageRank q Gi 3840 bloqu e s Orthographe H del icio us TAG we amp BA TWS org infos Bogota pr sente des preuves que Be 3 vols actualites 7 jours sur la plan te Le gouvernement colombien a rendu publics vendredi des documents vid os Ti t photos et lettres montrant que 16 otages de la gu rilla colombienne dont la Franco Colombienne Ingrid Betancourt et trois Am ricains taient en vie d crypter Sur une vid o Eee ans bande sonore par les t l
179. n soi les diff rentes lectures r sultent enti rement de la vari t des environnements contextuels citation de Descl s 2005 prise dans J Fran ois 2007 nous laissaient un peu tonn puisque apr s tout nous ne pouvons en g n ral obtenir n importe quelle lecture concernant un mot donn depuis n importe quelle variation de son environnement contextuel sauf red finir totalement ledit mot dans un contexte Dans cet ordre d id e qui consiste d fendre au contraire de Wittgenstein qu un mot a un sens l usage fr quent de la d finition de la synonymie la possibilit de se substituer l un l autre dans un seul nonc isol pour montrer ce sens en contexte ne cessait pas de nous tonner En effet m me consid rant l unicit du r sultat que nous obtenons partir du calcul des nonc s 2 2 et 2x2 je ne puis accepter que les op rateurs et x aient m me signification Au fond j ai d fini mon point de vue dans Dutoit 1991 Quelle est la cognoscibilit de la signification C est dire puis je fabriquer un dictionnaire qui permette d avancer dans la description des mots en tant que signe c est dire en tant qu objet causant quelque chose dans un certain espace d fini par Saussure comme psychique et que nous nommerions aujourd hui l aide du mot cognitif En d finitive ma position linguistique est celle d un structuraliste et d un constructiviste Consid rant le dictionnaire c est dire
180. ncipes du dictionnaire Projet 2 Am lioration de Dicologique Mise l preuve d une instanciation plus large les crit res de qualit s sont la progression absence de r gression et la productivit du poste de travail lexicographique Les efforts pr c dents ont permis de d boucher sur un projet europ en en indexation conceptuel trilingue CRISTAL R f rences 92K6451 et FRT9501 Projet 3 CRISTAL A cette poque o r gnaient en France GENELEX et GRAAL nous avons eu x la chance de construire de gagner et de g rer au plan scientifique le projet europ en Conceptual Retrieval of Information using a Semantic dicTionary 4 P gt for Access in three Languages LRE62059 1994 Les partenaires de CRISTAL taient l Universit de Manchester le CNR de Pise la soci t CAP GEMINI INNOVATION int grateur et l Europ enne des Donn es utilisateur CRISTAL se proposait deux t ches d une part l usage d un module de synonymie interlinguale permettant d interroger en fran ais et d obtenir des r sultats en fran ais en anglais ou en italien Ce module tait limit parce qu aucun partenaire du consortium ne poss dait de donn es multilingues au d marrage et qu il nous fallait de plus r crire pratiquement tout Lexidiom pour prendre en charge les modifications que nous venons de d crire d autre part une indexation reposant sur les concepts des documents Nous avons d j signal les limites de ce type d indexat
181. nctionnement du syst me lexical 5 1 2 2 Le dictionnaire l envers Le but de cette application est l extraction depuis LDI des mots r pondant l nonciation d un d finissant fourni par l utilisateur Introduction L application dictionnaire l envers est une application assez classique du TAL Nos premi res exp rimentations remontent 1992 Comme tout dictionnaire les dictionnaires l envers souffrent de l Observation 1 page 14 ils sont incomparables deux deux Alors si l on ne consid re que son titre cela pourrait tre particuli rement vrai avec le dictionnaire mental de Michael Zoch Pourtant la lecture de Zoch 2006 montre plut t des points de rapprochements Enfin comment ne pourrions nous pas souscrire Contrairement une hi rarchie avec une seule voie d acc s dans ce r seau hautement interconnect il y a presque toujours un moyen d acc der l information recherch e Car c est bien ce que nous recherchons en nous interrogeant sur l accessibilit de samoura depuis manger ou de l accessibilit inverse de manger depuis samoura Simplement nous cherchons d finir cette accessibilit selon ce que l on a d j Et l on s aper oit que nous disposons de plusieurs types de dictionnaires voir Hiatus observations s mantiques et observations dans le syntagmeb 4 2 1 2 page 45 et presque tout le restant de ce document Au fond l affirmation de l unicit du dictionnaire nous semblerait v
182. nequa CS pour cr er une ergonomie nouvelle depuis les r sultats du moteur d indexation La proposition se situe dans l orientation th matique r seaux d information et de connaissance dans l axe prioritaire 2 3 Les objectifs de recherche consistent a renforcer globalement les trois caract res suivants Polyvalence du document Ubiquit de la recherche Perm abilit domaine m tier langue g n rale VODEL a r uni 6 partenaires 3 universitaires et 3 industriels qui disposent de comp tences compl mentaires Coordinateur la soci t Memodata qui est reconnue pour trois outils le Dictionnaire Int gral le S miographe et Alexandria Dans le projet elle est sp cialiste des dictionnaires lectroniques et porteur de l application Alexandria Partenaire 2 le laboratoire LASELDI est reconnu pour ses outils NooJ et INTEX Dans le projet 1l est sp cialiste du traitement de la langue naturelle et int grateur des applications INTEX et NooJ Partenaire 3 le laboratoire LITIS ex PSI a pour th me de recherche privil gi de recentrer les syst mes de recherche de document ou d information sur l utilisateur Dans le projet il apporte ses comp tences dans ce domaine ainsi que ses connaissances en fouille de document Partenaire 4 la soci t EADS a con u et d velopp une plate forme ouverte bas e sur des standards XML RDF Cette plate forme est constitu e de composants ind pendants garanti
183. nettoyage se met il travailler L agent de nettoyage r pond trois v nements un param tre global qui est une fonction al atoire cet agent g re le temps et indique quel rythme la Structure doit tre nettoy e une ex cution sur ordre de la Structure place m moire une ex cution sur r ception d une mission particuli re d un concept Nous avons maintenant une m thode permettant d augmenter la perception sans conserver trop d hypoth ses non r alis es ou de r sultats interm diaires jug s peu int ressants du point de vue des crit res nous sommes finalement capable de faire dispara tre de la Structure tout point qui ne contient pas un grand nombre d v nements cr s en r action du co texte et selon des points de vue diff rents Nous croyons qu avec une telle approche plus nos ordinateurs seront puissants plus nous pourrons abaisser nos crit res tout en largissant encore nos points de vue 9 PUBLICATIONS ET DISSEMINATION Une dizaine de formations 40H aux dictionnaires et Traitements de la langue Trois co organisations de journ e TAL 7 participations comme expert des jurys d appel d offres recherche 12 participations des comit s de lecture 6 conf rences invit Environ 60 000 visiteurs jour d Alexandria Plusieurs travaux de recherche DEA th se utilisent les ressources ASP d Alexandria par ex enseignement du fran ais Ottawa ou le S miographe par ex d pouilleme
184. ng April 1998 En 2001 deux participations l organisation des journ es de Atala 4 4 Conclusion et perspectives La p riode qui s ach ve avait d but avec plusieurs orientations de travail qui aboutirent a des degr s divers au plan morphologique nous avons incorpor et enrichi la Base de Donn es LEXicales BDLEX de Guy P rennou au plan compositionnel et de la TST nous nous sommes exerc s a la g n ration de paraphrases voir Projet 7 IVOMOB page 48 au plan componentiel et de notre travail nous avons commenc caract riser le domaine des inf rences componentielles cette caract risation a t effectu e empiriquement dans plusieurs mises en ceuvre utiles du S miographe Voir paragraphe 4 1 3 page 43 et Projet 6 EuroWordnet page 48 Enfin nous avons ouvert les travaux de lexicographie multilingue D une fa on plus particuli re nous avons r pondu assez pr cis ment la Question 2 page 31 en caract risant le mot s mantiquement Mais nous observons que la Question 1 page 20 n a pas trouv de r ponse technique Cependant sa reformulation dans la Question 5 page 47 largi son champs d application tout en y imposant des contraintes particuli res justifi es par l Observation 3 b page 18 Vers 1999 le temps n est pas venu de casser du fait de la Question 5 ce qui vient juste d tre accompli savoir un S miographe Nous souhaitons d abord le voir l uvre en environneme
185. nit lexicale pour nous un mot sens L appel e l argument de f un ensemble d unit s lexicales f L Relation g n rique Relation mot sens concept Un mot sens est g n rique pour une classe s il exprime sans ajout ni retrait la classe consid r e Si un m me concept C comporte un g n rique G et un sp cifique S alors G est hyperonyme de S Il existe une relation g n rique taxonomique qui est r serv e aux classifications syst matiques type zoologie Cette relation distingue un g n rique comme animal ou renard terme courant d un terme comme eum tazoaire tax me technique causant un emploi g n ralement pluriel d emploi rare et de d rivation adjectivale en fran ais syst matique Modifieur de saturation Relation mot sens concept Exprime l id e que le mot sens consid r n a pas n cessairement tre satur par le co texte Par d faut les traits de sens doivent tre satur s Un modifieur de saturation change toujours cet tat des choses Relation interlingue Ces relations sont donn es par une fonction lexicale Se traduit par ou par une relation diff rentielle entre concepts voir l exemple g teau des Balkans page 26 Tl y a deux types d l ments satur s dans le sens de Frege 1892 des phrases compl tes et des noms propres parce qu ils ne prennent pas d arguments et ne sont pas des fonctions Toutes les autres unit s sont consid r es comme non satur es Nous rem mora
186. nne Dabbadie Universit Charles de Gaulle Lille 3 2007 Deuxi me Partie Int gration structurale des points de vue componentiels et compositionnels pourquoi et comment Il faut toujours avoir deux id es l une pour tuer l autre Table des mati res Georges Braque 1 INTRODUCTION ET PLAN 5 2 UN RESEAU COMPONENTIEL 1989 1991 7 2 1 POSITIONNEMENT DE NOS TRAVAUX 7 2 2 LEXILOG ET LES PREMIERES HYPOTHESES DE SIGNIFICATION LEXICALE 11 2 3 PROJETS ET DOCUMENTS 19 2 4 CONCLUSION ET PERSPECTIVES 19 3 PREMIERS CALCULS COMPONENTIELS 1992 1996 21 3 1 LES TRAVAUX DE RECHERCHE 21 3 1 1 LA NAISSANCE DE L IDEE DU SEMIOGRAPHE 21 3 1 2 L ENRICHISSEMENT DU MODELE LE DICTIONNAIRE INTEGRAL LDI 24 3 2 PROJETS ET DOCUMENTS 29 3 3 CONCLUSION ET PERSPECTIVES 30 4 STABILISATION DES TRAVAUX NORMALISATION ET MULTILINGUISME 1996 2001 33 4 1 LES TRAVAUX DE RECHERCHE 33 4 1 1 LE DEVELOPPEMENT DU DICTIONNAIRE 33 4 1 2 LA FABRICATION DU SEMIOGRAPHE 34 4 1 2 1 APls phon tiques morphologiques morpho syntaxiques et d expansion lexicale 34 4 1 2 2 L API de calcul de distance s mantique 36 4 1 2 2 1 D finitions de distance s mantique 36 4 1 2 2 2 Les distances s mantiques chez nous 37 4 1 2 2 3 L activation componentielle 38 4 1 2 2 4 La diff rence componentielle 41 4 1 2 2 5 La proximit componentielle 41 4 1 2 2 6 Les m mes mesures en incluant les fonctions lexicales 42 4 1 2 2 7 Exemple comment d une extraction des ressemblances
187. ns e peut tre rapport et qui sert expliquer justifier son existence Robert puisqu alors la perception m me dudit tout perdrait son fondement Voir note 59 page 72 78 un sens et que dans cette mani re particuli re le mot pomme a d une fa on intrins que cette mani re un certain sens 3 intrins que signifie que les deux l ments ici pomme et pomme de terre existent en m me temps en un lieu pomme de terre tablissent l existence de ce lieu et sont tels que si l un quelconque des termes manquait le lieu lui m me sinon n existerait plus du moins trouverait un autre degr de vraisemblance B Notes sur la notion d l ment 1 Nous sommes en face d un objet trouv dans un lieu particulier Nous avons donn cet objet le nom d l ment pour viter la confusion avec la notion informatique d objet 2 Nous avons indic cet l ment en l appelant e1 Cet indi age est arbitraire et n a rien voir avec une notion de priorit dans une s rie Nous l avons appel el simplement pour le distinguer d e2 e3 et de tout autre l ment occupant et constituant le lieu que nous d crivons Port es du formalisme pomme de terre loc n pomme de terre loc n Pi ei pr c e2 pr c Ne je an e3 pomme n pomme n de M terre n Figure 14 a Pomme dans pomme de terre Figure 14 b pomme de terre 13a pomme n appara t dans le DAG comme un simple l ment il n a pas d existence propre 13b el ET
188. nstance g n rique ei CHEVAL Vers th me M 1s_A instance G n rigJe Is A CHEVAL2 CHEVAL Ce vers th me vers th me vers th me CHEVAL3 vers th me Is A G n rique vers th me CHEVAL1 JEAN14BLANC COULEUR COULEUR JEAN is A instance instance CHEVAL1 JEAN1 BLANC COULEUR CHEVAL1 ee ee sA ER ae nstanci on NE instan oe JEAN CHEVAL BLANC Figure 20 Graphe des instances pour la r solution de Q2 Cette figure pr sente un graphe des instances des mots de la phrase dans la Structure qui s est cr e Dans la figure nous trouvons des libell s en majuscules Ces libell s indiquent que nous pr sentons des instances de tokens de la phrase et non des occurrences de mots dans le dictionnaire Ainsi nous lisons JEANI qui est une sorte de sp cifique du concept d instance JEAN ayant pour g n rique d instance JEAN Nous avons fait de m me pour CHEVALI si bien que CHEVALI est connu seulement comme sp cifique du concept d instance CHEVAL qui a pour g n rique d instance CHEVAL Par contre blanc et quelle ont t trait s diff remment puisqu ils ont t unifi s avec leur sens dans le dictionnaire L unification de blanc avec l information valeur de couleur couleur cheval 110 C est toujours dans cet axe que les croyances se manifestent Comme dit Sartre note 59 page 72 face un cube je ne vois qu une partie et je crois en un tout 122 a produit l instance BLANC COULEUR CHEVA
189. nt Avec la figure c est par exemple le cas de mardi de en novembre etc Mais cette figure est extr mement rudimentaire et ne comporte pas toutes les onomasiologies r f rentielles de mardi 25 avril 2008 Ces autres signes qui pour le moment ne sont pas l sont jour jour ci jour l moment moment ci moment l journ e journ e ci journ e l etc Ainsi nous venons de monter pour la cinqui me fois comment en maintenant les consistances compositionnelles et componentielles du signe ici mardi 25 avril 2008 et en maintenant en m me temps la consistance componentielle de la classe dans une m me structure nous r solvons sans processus particulier un cas typique de gestion de la cor f rence qui fait aujourd hui l objet de recherche sp cifique domaine par domaine par exemple la cor f rence et le temps comme ici Ce peut tre galement la cor f rence et l espace la cor f rence et les entit s nomm es etc C est ainsi que dans le dialogue suivant Le m decin Je vous propose le mardi 25 avril 2008 Le patient non je suis pris ce jour le 25 mardi etc nous percevons tr s naturellement la cor f rence 91 D tails et cons quence sur le formalisme A Nous avons utilis une sorte de tableau noir une date_localisation vient dans le tableau noir qu est la Structure et du fait que cette date comporte ses inf rences ses compos s et ses composantes elle est la fois localis e
190. nt d enqu te Grenoble 22 publications page suivante Conf rence Internationale 13 Conf rence Internationale comit de lecture sur article complet 7 1 D Dutoit 1992 set theoritic approach to lexical semantics Computational Linguistics CoLing Nantes 2 Sofia Stamou Kemal Oflazer Karel Pala Dimitris Christoudoulakis Dan Cristea Dan Tufis Svetla Koeva George Totkov Dominique Dutoit Maria Grigoriadou 2002 Balkanet A multilingual Semantic Network for Balkan Languages In Proceedings of the First International WordNet Conference Mysore India 3 D Dutoit T Poibeau 2002 Inferring knowledge from a large semantic network full paper acte de Conference on Computational linguistics COLING TAIWAN 4 Dutoit D P Nugues 2002 A lexical network and an algorithm to find words from definitions acte de European Conference on Artificial Intelligence ECAI LYON 5 D Dutoit P Nugues P de Torcy May 2003 The Integral Dictionary a lexical network based on computational semantics Springer Ed ICCSA International Conference on Computational Science and its Applications Calgary Canada 6 D Dutoit Y Picand P de Torcy Roger G 2003 Natural Language Processing and Multimedia Browsing Concrete and Potential Contributions European Symposium on Ambient Intelligence Eindhoven The Netherlands 7 F Soufflet S Le Huitouze Korpipaa P D Dutoit P Ten Hagen F Kuijik O Guye JR Vigouroux L
191. nt monolingue ou multilingue dans les diff rentes applications que nous avions imagin es pour lui en 1992 De plus nous esp rons que cette mise en uvre nous fournirons 49 d autres perspectives concernant la Question 5 Dans ce contexte les objectifs de recherche pour la nouvelle p riode ont t les suivants mise en uvre du S miographe dans diff rentes applications cible afin d valuation choix et d veloppement d une vraie application qui sera diffus e d veloppement concomitante d une nouvelle version de Lexidiom qui devrait permettre de d crire des concepts structur s am lioration d autres aspects de Lexidiom comme la prise en charge d UNICODE II est pr vu qu terme Lexidiom aurait entre autre pour r le de permettre d intriquer les relations et les n uds de telle mani re que l on puisse transformer une relation en un n ud et r ciproquement un n ud en une relation d veloppement multilingue faire attention au d veloppement d Internet et suivre de pr s l volution des nouveaux standards techniques Au plan de la recherche abstraite ce moment nous nous sommes pos la question suivante quel rapport pourrait exister entre la Question 5 et la r solution d un nonc aussi simple que quelle est la question du cheval blanc d Henry IV trouver d autres probl mes qui pr senteraient des ressemblances structurales avec celui que nous posons Concernant le cheval blanc videmment le probl m
192. nt notre r ponse notre question quel est le mot sens impliqu dans un nonc nous pr venons que sur cette question des l ments satur s nous allons obtenir un r sultat presque oppos a celui de Frege les noms propres impliquent un tr s grand nombre de relations qui leur sont pr cis ment propres 7 Il est possible de concevoir que le modifieur de saturation est sur le plan des isotopies lexico s mantiques un quivalent des attributs encyclop diques qui ont fait glisser la s mantique du prototype du statut de standard a celui de tendu dans la terminologie de Kleiber 1990 p156 Notons que si le motif est le m me notre point de vue est strictement inverse de celui de la s mantique du prototype En effet nous ne nous int ressons aucunement au statut des cat gories en dehors de leur pouvoir de cat gorisation mais seulement au statut d un mot dans une cat gorie tant entendus les cadres d utilisation dudit mot Or pour reprendre l exemple parfaitement classique du pied et de la chaise le point de vue du pied qui est le n tre nous am ne consid rer l ensemble des utilisations de ce mot en tant que support vertical par lequel chaise falaise mur escalier fauteuil etc touche idiomatiquement le sol Ce qui compte pour nous n est aucunement le prototype de chaise mais la description de toutes ces occurrences du mot pied Nous ne reviendrons pas ici sur la s mantique du prototype sauf parfois pour rappeler cette di
193. ntaire Il nous faut constater que les quatre exemples donn s dans ce paragraphe ont en commun qu ils trouvent leur solution dans l examen des d finitions et potentialit s du terme passif celui qu Aristote appellerait la puissance passive voir note 71 page 83 Pour que cet examen soit possible sans rompre l unit de l analyse c est dire en se contentant de r flexes de perception il faudrait que les d finitions soient accessibles au dessus de la structure des concepts Techniquement cela se fait dans le graphe l aide d une structure miroir qui se cr e ainsi pour toute relation r de A vers B dans la Structure cr er la relation r de B vers A dans la Structure miroir En d veloppant cette structure miroir nous r aliserions exactement l tendue de notre tude signe x au d part signe x l arriv e voir paragraphe 2 1 Positionnement de nos travaux page 7 Par exemple au plan fonctionnel la structure miroir simplifierait grandement une op ration que nous connaissons bien Il s agit du dictionnaire l envers Dans le dictionnaire l envers depuis 1996 nous g n rons d abord tous les sp cifiques d un g n rique que nous valuons plus ou moins individuellement par la suite Cela nous a toujours sembl peu naturel et bien compliqu Au regard de cette complication une Structure miroir annule cette tape et fait gagner du temps pour calculer personne qui vend des hortensias il n est plus n cessaire de g
194. ntra ne une circularit mais en principe cette derni re n est pas vraiment g nante Les trois r sultats sont les suivants un gr viste de la faim devient mangeur un gros mangeur devient moins mangeur que le g n rique personne du fait qu il entretient des diff rences sp cifiques par rapport manger alors que personne videmment n en a pas puisqu il n est pas d finissable par rapport manger il faut de plus ajouter tous les animaux puisque ces derniers mangent aussi Evidemment il serait possible d emp cher ces r sultats de survenir en inventant une relation ad hoc Mais la difficult que nous soulevons dans cette section n est qu une partie d une difficult plus g n rale que nous voulons r soudre et l emploi de cette relation ad hoc ne r soudrait pas le probl me g n ral de localisation voir Observation 3 page 18 cet emploi ne ferait que transformer un probl me complexe que l intelligence humaine embrasse 46 convenablement en un probl me compliqu que nous aurions du mal suivre D une fa on g n rale nous faisons l observation suivante Observation 7 a Nulle ontologie fond e en rapport un domaine c est dire un point de vue n est susceptible de s agrandir en raison du fait m me que la d finition du domaine de l ontologie est exog ne celle ci 7 b Pour pouvoir s tendre une structure s mantique doit savoir g rer ses propres fronti res Il est peut tre possible de d fendre
195. ol 3 p 552 631 R Schank 1975 Conceptual Information Processing Elsevier New York R Schank Goldman Rieger et Riesbeck 1975 Inference and Paraphrase by Computer Journal of the ACM JACM J Searle 1980 Minds Brains and Programs Behavioral and Brain Sciences 3 notre copie http members aol com NeoNoetics MindsBrainsPrograms html M Silberztein 1990 Le dictionnaire lectronique des mots compos s Langue Frangaise N 87 M Silberztein 1993 Dictionnaires lectroniques et analyse automatique des textes Paris Masson M Silberztein 1999 Traitement des expressions fig es avec INTEX Linguisticae Investigationes n sp cial Analyse lexicale et syntaxique le syst me Intex pp 425 449 J F Sowa 1984 Conceptual Structures Information Processing in Mind and Machine 1984 Addison Wesley Reading MA S Stamou K Oflazer K Pala D Christoudoulakis D Cristea D Tufis S Koeva G Totkov D Dutoit M Grigoriadou 2002 A multilingual Semantic Network for Balkan Languages In Proceedings of the First International WordNet Conference Mysore India C Stratulat 1997 Analyse syntaxique utilisant des motifs Rapport de stage de DEA Universit de Caen P F Strawson 1959 Individuals An Essay in Descriptive Metaphysics Trad fr Les individus Un essai de m taphysique descriptive Paris Le Seuil 1973 H Tardieu A Rochfeld R Coletti 1983 La m thode Merise tom
196. omportant des bras pieds et dossier En fait il devient possible en d finissant fauteuil comme Pottier le fait juste titre de le retrouver partir de notre exemple de d finition utilisant meuble En pratique les services apport s sont voisins de ceux du thesaurus et l appellation du Th saurus de Larousse des mots aux id es des id es aux mots aurait pu tre retenu Mais notre projet a t d embl e plus large du fait de l h ritage des propri t s ou plut t dans notre cas des localisations et de l ambition de d finir les mots au moyen des traits s mantiques b Situation par rapport aux r seaux s mantiques et aux logiques de description Nous examinons l un et l autre de ces objets en nous reposant sur les d finitions propos es par Russel et Norvig 2006 pages 393 398 Les r seaux s mantiques sont souvent associ s aux notations graphiques par n uds et arcs propos es par Charles Pierce 1909 et appel s graphes existentiels Les r seaux s mantiques sont capables de repr senter des objets individuels des cat gories d objets et des relations entre les objets au moyen d arcs portant des tiquettes Sans aller plus loin la d finition fait appara tre l absence de toute relation entre notre travail et ces r seaux les r seaux s mantiques d crivent des objets tandis que nous d crivons des mots des conceptualisations d not es par un mot ils emploient les moyens de la logique quantificatio
197. omporterait cancer du poumon reli poumon Supposons un document traitant de cancer de poumon mais ne comportant pas la citation exacte du terme Dans ce cas nous observons que tout algorithme de classification automatique des documents m dicaux devrait alors casser Voir note 71 page 83 Pour le fran ais par exemple un mod le de langage qui est particuli rement int ressant pour capter et fournir une valuation des contiguit s par exemple la contiguit en fran ais Det Adj qui n a pas tellement de sens dans une grammaire syntagmatique ou dans une grammaire de d pendance une grammaire syntagmatique qui est particuli rement int ressante pour d crire la bande verbale du fran ais une grammaire de d pendance qui pourra s int resser d autres ph nom nes et s occuper de nombreuses interactions entre points de vue Toutes ces grammaires sont plus ou moins lexicalis es Dans tous les cas le bon sens m r ologique impose qu toute forme tr s contrainte tr s lexicalis e corresponde un conteneur prenant une forme moins contrainte moins lexicalis e c est l ordre des LCA qui est en jeu ici 87 soigneusement le terme compos pour esp rer obtenir une classification correcte Solution Comme dans chacun des cas pr c dents la solution tient en le r tablissement de l unit du signe C4 qui par cons quence r tablit l unit de la structure Il suffit de dire que par exemple cancer g
198. on En effet en alignement des concepts multilingues avec WordNet nous sommes souvent amen choisir entre mettre ou ne pas mettre une quivalence Cette difficult est directement li e l absence d un syst me de traits conceptuels non lexicaux dans WordNet L exemple du g teau des Balkans 26 Par exemple les turcs font un g teau traditionnel en suivant une recette d fini qu ils mangent le matin De leur c t les grecs utilisent exactement la m me recette mais mangent le g teau le soir Nous voyons bien que la d finition du g teau n est pas la m me quand bien m me le g teau est mat riellement semblable Le mod le componentiel permet de noter ce genre de chose en proc dant ainsi cr ation d une classe tr s pr cise qui ne contient que les deux g teaux et distribution des diff rences l un est du matin l autre est du soir Nous remarquons ici la mise en uvre de traits conceptuels bien utiles Des r seaux strictement lexicaux comme le DEC ou WordNet rencontrent des difficult s pour noter ce genre de chose Dans WordNet il est possible d employer la relation SIMILAR et dans le DEC il faudrait cr er deux entr es hyponymes de g teaux Dans les deux cas de figures il n est pas possible d aller plus loin pour noter la diff rence componentielle E L introduction du niveau de langue de la morphologie et des constructions Pour de plus amples d tails sur cette section voir Dutoit 2000 E1 Niveau de lan
199. ons qui se sont pos es depuis ces r sultats Le point commun tous ces r sultats est qu ils sont toujours issus d un choix d lib r de travailler sur la langue g n rale depuis toutes les ambiguit s possibles dans le cadre de tous les utilisations atteignables depuis chaque r sultat atteint Ce choix r pond une double motivation il traduit une certaine croyance du fait que les applications servent d abord fournir un clairage particulier sur l organisation du dictionnaire et la conviction que la multiplication des t ches r alisables depuis un m me processus est une garantie concernant la qualit de l organisation elle m me sur essentiellement pour nous la comp tence plus que la performance En terminant la pr sentation de chacune de nos tapes ou de chacune de nos applications nous avons mis en vidence des limites des questions r soudre et des perspectives A un moment vers 2000 le probl me des questions prit une forme syst mique chaque question renvoyant sur une autre et aucune d elles ne pouvant se r soudre sans que l autre le soit Nous avons donc cherch a r pondre d une fagon syst mique a un probleme syst mique et nous croyons avoir progress d une fagon remarquable dans la formulation d une r ponse qui est videmment elle m me syst mique Mais nous avons observ que cette r ponse n est pas uniquement syst mique elle est aussi naturelle et applicable Une indication de succ s de ce
200. opositionnelle du fait de l action d autre chose pr dicat en logique propositionnelle alors nous obtenons un proposition tout dans notre cas qui entra ne l mission d une information vers et c est un minimum les r gions componentielles et les r gions m talinguistiques pour le terme consid r C est pr cis ment ce que nous avons d j r alis dans l exemple le plus simple que nous pouvions trouver paragraphe 6 1 2 Int gration d nonc s compositionnels m talinguistiques page 81 nous avons d abord vu une perception l uvre sur la structure qui a laiss une premi re trace de ses bornes puis nous avons constat une mission dans une r gion de l interpr teur susceptible de r aliser des actions sur lui m me Pour le cas qui nous concerne samoura mange il nous faut voir que tous les nonc s suivants trouvent une solution disponible localement gt 91 d un verbe Le samoura gloutonne d un nom nourriture du samoura d un adjectif samoura gourmand d une relation pr positionnel en de repas du samoura d un adverbe utilis en hypallage samoura regardant gouliiment phase en verbe samoura m che cons quence en nom digestion du samoura argument objet en nom b uf brais du samoura instrument en nom bol et cuill re du samoura locatif en participe pass ou adjectif Samoura attabl etc Bee 92 if 93 Pour chacun de ces nonc s r
201. ordNet comme une structure particuli re chaque version de WordNet r unit un nombre particulier de synsets multiple une ar te l mentaire de WordNet entre deux synsets peut exister en m me temps qu une de nos fonctions lexicales rem les concepts sont une particularit de LDI par rapport WordNet famille de Sterner non Premi rement tout concept de LDI d finit une ar te groupant un nombre particulier de sommets et deuxi mement tout concept de LDI sauf par convention la racine est inclus dans au moins un autre concept Pour r aliser ce passage de gestionnaire de graphe celui de gestionnaire d hypergraphe Lexidiom a t enrichi par un champ que nous appelons commun ment Lieu mais qui est en fait une hyper ar te S1 par exemple nous avions dans la version pr c dente de LDI l entr e suivante samoura guerrier classe spec nous trouvons maintenant samoura guerrier classe spec LDI Ainsi LDI est maintenant d fini comme une hyper ar te de rang environ 120 000 pour ce qui concerne son DAG de concepts ni les mots ni les fonctions lexicales Il est possible de r ifier cette hyper ar te en crivant par exemple LDI dictionnaire classe spec LDI LDI Memodata th me vers th me LDI ce qui signifie dans LDI LDI est une sorte de dictionnaire dans LDI LDI est sp cifi par MEMODATA Puisque le S miographe manipule des graphes tiquet s et que nous sommes maintenant amen utili
202. ordre que nous suivons ordinairement nous ajoutons enfin d t nom concept structur gt Is_a gt groupe nominal casse dans Ontologie Syntag classe groupe nominal gt G n rique gt groupe nominal classe dans Le dictionnaire graphe D tails sur le formalisme A Nous notons l apparition d une nature graphe Vu par le S miographe les Classes les Th mes les dictionnaires sont tous des graphes et ce graphe qui s appelle graphe ne nous d range pas c est le nom par d faut de n importe quelle description d un tout B Un habitu des grammaires syntagmatiques pourra tre tonn que nous n ayons pas repr sent l accord entre le d terminant et le nom Cela est il un choix un oubli ou une impossibilit En fait aucune de ces raisons n est la bonne Ce qui nous a fait ne pas le repr senter est seulement le besoin de tenir un discours pas trop multifac pas trop complexe Il est videmment possible de repr senter l accord dans le graphe Trois moyens simples sont notre disposition a soit nous utilisons l hyper ar te d t nom graphe et nous enrichissons les contraintes qui p sent conjointement sur certaines parties de l l ment el et de l l ment e2 b soit nous cr ons une hyper ar te d t n m nom n m graphe plus pr cise puisqu elle inclut l accord Dans ce cas ce lieu devra en outre tre pr sent l int rieur du lieu d t nom graphe pour garantir la qualit des LCA produits
203. oura de l autre faire en sorte que des liens syntagmatiques acceptables apparaissent par exemple dans bol et cuill re du samoura Quelle m thode de travail pourrions nous d finir afin d viter des descriptions innombrables et anarchiques Direction pour une solution structurale Consid rons samoura et manger d une part et samoura et Sushi de l autre De samoura manger la liste des LCA est vide dans la r gion componentielle Nous savons cela depuis le paragraphe 4 2 2 page 45 du fait entre autre que samoura n est pas humain en fran ais mais est seulement personne Nous observons qu il n est videmment pas plus mangeur en fran ais En outre m me s il se peut bien que nous trouvions un vague signal typique du bruit de fond inh rent au dictionnaire referm sur lui m me nous ne pouvons imaginer en faire quelque chose il comporte bien trop de changements de points de vue 0 voir Korzybski 1933 pour une tude assez syst matique de ce genre de choses 105 Du c t de samoura et Sushi les choses se passent bien mieux Japon ressort imm diatement La solution du cas tient donc dans la mise sur le devant de la sc ne d un certain point de vue qui manque Cette information qui n est pas d finitoire de son contenu est compositionnelle au niveau de la perception elle d pend strictement des pr dications locales et est asym trique Cela veut dire que si quelque chose se passe d un c t terme en logique pr
204. pages CIDE 7 Conf rence Internationale sur le Document Electronique La Rochelle France D Dutoit J Fran ois 2007 Changer et ses synonymes majeurs entre syntaxe et s mantique in Le classement des verbes fran ais en perspective Revue Langue Fran aise Larousse d France P Enjalbert B Victorri 1994 Du langage au mod le T A L vol 35 no 1 pp 37 65 P Enjalbert 1989 Notes pr liminaires une th orie op rationnelle du sens Intellectica n 8 J Euzenat P Valtchev 2004 Similarity based ontology alignment in OWL lite In Proc 16th European Conference on Artificial Intelligence ECAT Valencia ES pp 333 337 E van Loenen 1998 The ambience project http www extra research philips com euprojects ambience C Fellbaum 1998 WordNet An Electronic Lexical Database edited by Christiane Fellbaum M I T press J Fodor 1981 Introduction Some Notes on What Linguistics is About In Block Ned ed Readings in the Philosophy of Psychology Volume 2 Cambridge Mass MIT Press C Fillmore 1968 Case Grammar C Fillmore 1976 Frame Semantics France Telecom 1996 Cahier des charges du Centre de Langage Naturel de 2 g n ration Annexe technique 31 12 1996 T Fontenelle 2000 A bilingual electronic dictionary for frame semantics Proceedings of second International Conference on Language Resources amp Evaluation LREC J J Franckel Daniel Lebaud 1991 Lexique et op rations
205. par la Structure c soit nous cr ons un lieu grammatical de gestion des accords En fait toutes ces approches sont bonnes en m me temps mais ne donnent pas exactement la m me chose 72 PEE ne N ou dans la vue du m talinguistique du dictionnaire samoura n m 85 L approche a pr sente l avantage d tre famili re et rapide mais rend la perception de la faute la correction plus difficile L approche b pr sente l avantage d tre r utilisable pour donner des g n riques de nature comme nom masculin ou l avantage inverse de r utiliser les g n riques de nature grammaticale d j connus b permet d obtenir un LCA d t nom m me dans le cas erron de le samoura s Ce LCA est relativement haut et est donc au plan d une m trique moins bon que ce qu il aurait fallu obtenir Enfin l approche c permet d exprimer intentionnellement la r gle de grammaire du fran ais en fran ais le d terminant et le nom sont accord s en genre et en nombre C Comme la boucle sur le m talangage est bien effectu e nous appr cions que le syst me soit maintenant capable de percevoir un nonc m talinguistique comme e syntagme nominal le samoura D Finalement quel sens pr cis a samoura dans le samoura Dans le syntagme le samoura samoura est un nom masculin dans la grammaire syntagmatique Cela ne veut pas dire qu il ne signifierait rien dans le point de vue componentiel Cela signifie jus
206. pas t un gage de simplification Mais le point de vue d Aristote en particulier la lutte contre les sophistes et les paradoxes est certainement voisin du n tre si nous pouvons dire n importe quoi nous ne pouvons pas penser n importe quoi Pour scolastique nous reprenons le mot de Claude Bernard La scolastique veut toujours un point de d part fixe et indubitable elle l emprunte une source irrationnelle quelconque telle qu une r v lation une tradition citation emprunt e au Robert Les scolastiques n ont retenu d Aristote que les cat gories qui permettent sans contrainte ni syst me de poser toutes les convictions que l on voudra Ils n ont retenu que la sophistique 126 de paradoxes que nous avons cr s de toute pi ce Cheval est anim Ah Et quid de cheval est mort Comment se construit la classe Comment se transforme la classe Et comment change t on de classe Nous esp rons continuer contribuer cette r flexion pour la langue et non dans notre cas pour la logique modale D une fa on g n rale en cloisonnant les lieux comme cela se doit c est dire en laissant des fronti res partout de telles mani res qu elles ne demandent qu tre franchies et en articulant les points de vue congruents entre eux au moyen d une agr gation m r ologique de faits nous ne sommes aucunement en logique Nous sommes m me dans une sorte d inverse de la logique o au lieu de partir de pr misses exog nes pour tire
207. ple CRIER dindon glouglouter consid rant que celles ci sont calculables automatiquement dans le graphe dans le graphe de concepts les FL redondantes des n tres Actuellement les 30 FL g r es correspondent a environ 50 000 instances de fonction Une part importante de ces relations a t instanci e automatiquement dans notre DAG depuis une exploration de dictionnaire lui m me B L introduction des g n riques La Figure 3 Deux sens de projeter dans le dictionnaire page 16 fait appara tre une telle relation Un g n rique est un mot qui d signe une classe Voir la d finition de Dubois page 15 Dans l exemple de Pottier page 10 si ge fait figure de g n rique de la classe si ge Il est possible avec les g n riques de retrouver ses sp cifiques le terme g n rique d une classe entretient avec les termes sp cifiques de la classe une relation d hyperonymie cela d pend de ce que nous souhaitons faire L utilisation de l impl mentation de g n rique plut t que celle d hyperonyme pr sente quelques avantages Nous ne pouvons citer ici que deux d entre eux Premi rement 1l est possible de pointer en cas de besoin sur le terme g n rique lui m me plut t que sur sa classe Cela peut viter des h ritages peu idiomatiques ou tout fait faux C est notre sens ce genre de confusion d absence de fronti re voir Observation 3 page 18 qui fait chouer encore aujourd hui les grands r seaux s mantiques Pour
208. pour nous que les distances que nous tablissons modulo quelques ajustements justifi s particuli rement par le temps de calcul puissent tre utilis es dans diff rents contextes Ainsi nous avons utilis les distances que nous pr sentons maintenant en alignements d ontologies et en distance portant sur le discours Nous verrons des exemples applicatifs en 5 1 2 Le S miographe touche les applications page 54 Nous ne nous int resserons ici qu aux distances interlexicales pour en faire comprendre le fonctionnement Comme nous l avons vu le Dictionnaire Int gral surimpose deux graphes Le premier dessine un graphe plut t acyclique dans lequel les n uds terminaux sont des mots les autres n uds des concepts et les arcs des relations Le deuxi me met en relation des mots l aide de Il ajoute et nous soulignons les traits qui nous satisfont le plus Plus encore que le monde physique l univers du discours est soumis la relativit Faute d un point d appui unique les mesures varient selon l objet isol et la m thode choisie Pourtant les param tres qu on croit isoler sont souvent li s entre eux par l effet d une redondance ou surd termination qui explique la convergence des r sultats comme si l on photographiait une boule en variant les angles et les points de vue Voir notre citation de Georges Braque page 3 37 fonctions lexicales La figure 6 illustre dans une simplification extr me cette structure
209. propre au champ de notre tude voir note 31 page 37 qu il l est celui de l astronomie Prenant maintenant un autre mot que renard par exemple voleur n m selon ce que nous trouvons dans ce qui est prit comme animal classe Une comparaison d un mot comme voleur et glapir retrouve faire qqch pour un animal tame qui est tr s haut mais ventuellement aussi d autres LCA par exemple travers l activit humaine En d finitive si nous consid rons tout LDI comme un syst me de r gles du type if SAMOURAI and SABRE then SAMOURA gt GUERRIER les LCA seraient pour le syst me la mani re de retrouver les priorit s dans l application de ces millions de r gles Ils fournissent une localisation Que donnerait LCA samoura Tokyo Un LCA pr visible est Japon thame Mais nous pouvons toutefois imaginer d autres LCA Par exemple consid rant samoura comme l ment de l organisation sociale noble et Tokyo de la m me mani re organisation citadine nous pouvons anticiper l apparition de LCA loign s mais toutefois plus ou moins pr visibles Au fond nous sommes capables de pr dire avec une grande pr somption les plus petits LCA tandis que les plus grands pr sentent un degr de pr somption moindre Il nous faut maintenant consid rer le poids sp cifique aux relations a Les modifieurs de saturation Nous avons introduit ces modifieurs page 28 Ces relations sont trait es comme optionnelles et ne sont
210. que de Paris D Dutoit J Fran ois 2008 Changer et ses synonymes majeurs entre syntaxe et s mantique le classement des verbes fran ais en perspective Revue Langue Fran aise dition Larousse France 70 5 3 Conclusion La p riode qui s est maintenant achev e a d but avec plusieurs orientations de travail qui aboutirent de la mani re suivante mise en uvre du S miographe dans diff rentes applications cible afin d valuation d veloppement d une vraie application qui est diffus e Alexandria et plusieurs services associ s r alisation d un diteur d hypergraphe et support du multilinguisme aux plans techniques et des interfaces extension multilingue du mod le Concernant la recherche au plan fonctionnel la d finition du quoi faire la p riode a abouti des progr s concernant les deux questions que nous avons pos es d une part nous avons labor un corpus mettre en rapport avec la question pos e voir 6 3 1 3 Un corpus plus tendu de cheval blanc page 114 et en particulier nous avons au moins une solution au probl me du cheval blanc voir chapitre 6 3 2 La r solution du cheval blanc page 115 compatible avec tout ce corpus d une fa on g n rale nous avons labor con u un nouveau champ d expansion du dictionnaire onomasiologique qui pourrait devenir progressivement intensionnel voir chapitre 7 Conclusion page 133 71 6 INTEGRATION STRUCTURALE DES POINTS DE VUE COMPON
211. ques instants de recul il s esclaffa Le probl me tait que notre S miographe ne pouvait pas corriger m me th oriquement son erreur annonc e par la Question 1 Comment enregistrer des concepts structur s dans le DAG page 20 Direction pour une solution structurale Avec les outils pr sent s paragraphe 6 1 page 76 il est vident que nous disposons de tout le mat riel n cessaire pour autoriser la perception de quelque chose comme animal boire eau Ainsi vache pourra boire eau Mais autre chose doit il d j tre fait Nous disposons de tous les outils permettant de prioriser le compositionnel sur le componentiel Doit on aller dans cette direction A court terme je ne crois pas cela sentirait le c est tudi pour Et long terme Peut tre mais il faudra que dans tous les cas de figure la Structure puisse localiser l analyse faite par le mod rateur autrement dit il faut qu elle soit capable de la reproduire Localisation de l impact et formes r sultantes L exemple impacte deux lieux s mantiques diff rents et produit deux formes 6 2 1 3 Int gration de l inf rence issue des connaissances sur les choses Le cas correspond au Hiatus observations s mantiques et observations dans le syntagme nonc page 44 Il s agissait d un probl me de samoura Samoura mange t il ou ne mange t il pas Le cas Un probl me de samoura pour nous est le suivant comment pouvons nous en d crivant manger d une part sam
212. quoi nous pouvons parler d une certaine mani re d onomasiologie de la date Je 25 n est rien d autre qu un moyen commode rapide et courant de faire r f rence en fran ais la s masiologie d une instance de date Par ailleurs la Figure 15 telle que nous l avons repr sent e ne dit aucunement si le 25 ou mardi 25 avril 2008 pr sente ou non des diff rences fonctionnelles au plan de l analyse du discours La question qui se pose nous alors est la suivante le 25 ou mardi 25 avril 2008 pr sentent ils ou non des diff rences fonctionnelles au plan de l analyse du discours Il est vident que nous pouvons r pondre positivement cette question a le 25 ne pr sente pas les l ments componentiels et compositionnels minimaux pour faire causer avec vraisemblance une hypoth se une date En fait en tant que partie d un tout il ne cause une date que si le tout date pr existe comme instance b rebours le mardi 25 avril 2008 pr sente tous les l ments componentiels et compositionnels susceptibles d instancier le concept de date Ainsi donc sur un plan v nementiel nous trouvons dans notre structure avec b l activation d une date tandis qu avec a nous n avons rien Mais pr cis ment comme nous avons dit que dans une localisation date le 25 est une date alors bien videmment maintenant Je 25 ainsi que toutes les autres composantes m r ologiques de date indiqu es dans la figure en deviennent potentielleme
213. r Thus the motive for eliminating President Kennedy The movie also details the events of many people involved in the assassination from Lee Harvey Oswald to Clay Shaw a prominent figure in New Orleans 61 PersonList EventList Jim Garrison Vietnam War Oliver Stone President John Fitzgerald Kennedy Attorney Jim Garrison President Kennedy Lyndon B Johnson Lee Harvey Oswald Clay Shaw CorpsList PlaceList F B I Dallas Texas New Orleans United States TimeList November 22 1963 Time normalized century 20 Tableau 4 Autre exemple d extraction d entit s finies Les r gles obtenues par ce projet responsables de ces productions doivent quand l occasion nous sera donn e tre int gr es l tiqueteur d j pr sent s agissant de la gestion de ph nom nes contigus son utilisation semble adapt e Aujourd hui ces r gles ne sont pas int gr es aux API du S miographe disponibles pour l anglais 5 1 2 4 3 Extraction des th mes L extraction des th mes des films depuis les r sum s est effectu e l aide des distances s mantiques du S miographe d j pr sent es en 4 1 2 2 Nous avons pr sent le principe g n ral parler de quelque chose suppose au moins l utilisation de mots d finis par ce quelque chose ou de mots d finissant ce quelque chose Nous avons utilis l activation pour effectuer cette mesure en raison de sa rapidit Avant l acti
214. r sentations linguistiques et m talinguistiques Les cat gories grammaticales et le probl me de la description des langues peu tudi es Universit de PARIS Collection ERA 642 A Culioli 1990 Pour une linguistique de l nonciation Op rations et repr sentations Tome 1 OPHRYS Collins et Quillian 1969 Retrieval time from semantic memory Journal of verbal learning and verbal memory 8 240 247 C Copeland J Durand S Krauwer B Maegaard 1991 The Eurotra Linguistic Specifications in Studies in Machine Translation and Natural Language Processing Commission of the European Communities 2 vol L Danlos J V ronis 1997 Un demi si cle de traitement automatique des langues pr sentation T A L Traitement automatique du langage Volume 38 L Danlos 1988 Les expressions fig es Langage J P Descl s 1982 Quelques r flexions sur les rapports entre linguistique et math matiques Penser les math matiques Seuil Paris L Dini V Di Tomaso F Segond 1998 Word Sense Disambiguation with Functional relations Proceedings of the First International Conference on Language Resources amp Evaluation LREC F Droeskeke M Hallin Cl Lefevre 1987 Les graphes par l exemple Coll Ellipses J Dubois M Giacomo L Guespin C Marcellesi J B Marcellesi J P M vel 1973 Dictionnaire de linguistique Librairie Larousse J Dubois Fran oise Dubois Charlier 1990 Incomparabilit des dictionn
215. r sente ce que nous appelons souvent une information c est a dire un renseignement sur quelque chose Nous avons choisi de l appeler d finition du fait que du point de vue des instances il d finit compl tement une information observable et ne va pas au dela du domaine de cette information En effet si nous avons un nonc cheval blanc blanc marque par sa d finition surface tandis qu on ne sait pas du tout si cheval doit plut t marquer animal cheval anim ou n importe quelle sorte d autre chose Tandis que cheval n indique en rien de quelle mani re il faut le prendre en dehors de lui m me l un des sens de blanc fournit par sa d finition la fa on unique dont il doit tre pris et comment nous devons g rer ses instances blanc couleur surface d nomm e cheval C est ce qui nous int resse et cela peut nous int resser dans un autre point de vue par PG exemple dans le cas du traitement de la polys mie 6 cheval 1 animal 2 quitation faire du cheval 6 3 2 3 La mise en uvre technique tableau noir m r ologique et g n ration de grammaire Nous nous posons maintenant les trois questions suivantes 1 que faire avec notre d finition A dans le cadre du dictionnaire 2 la d finition A et la Structure 3 que faire avec notre d finition A dans le cadre des donn es cr es au fur et mesure de l enregistrement dans la Structure des faits d un texte Voir 6 3 3 R int
216. r C4 le mot samoura n aurait pas de sens dans le samoura La rupture C4 concerne ce que nous avons appel atteinte l unicit du Signe Ici la rupture tient en le fait que samoura n est plus un l ment de l organisation du discours repr sent ici 84 par la grammaire syntagmatique puisque nous n avons pas int gr la grammaire syntagmatique dans la Structure Nous disons donc que cette rupture tient en l affirmation suivante dans la vue syntagmatique le samoura samoura n aurait aucun sens Comment un signe tel que samoura peut il n avoir aucun sens dans une vue donn e qui le d finit en les termes particuliers d un emploi dans le discours Dans le samoura nous proposons de consid rer que le samoura a pour sens Is_a nom masculin dans le groupe nominal Nous avons d j voir 6 1 2 Int gration d nonc s compositionnels m talinguistique ci dessus samoura n m gt el gt nom masculin classe dans noml casse Nous ajoutons d abord le gt el gt d t masc ctasse dans d terminant classe d t masc classe gt Is_a gt d terminant cjasse dans Ontologie des POS ctasse Puis nous ajoutons d terminant classe gt 1 gt d t nom graphe dans gram syntagmatique classe nom masculin classe gt 2 gt d t nom graphe dans gram syntagmatique classe En vertu de l tat atteint par la Structure au paragraphe pr c dent et en respect d un principe d
217. r des conclusions parfois compliqu es nous laborons au fil de l eau les postulats du texte et nous tentons de r soudre seulement la condition que le texte le postule un probl me qui a de toute fa on t con u Nous savons qu il y a des r gions pour les d nominations les g n riques les hyperonymes les m tonymes les parties componentielles les parties compositionnelles et toutes sortes d autres r gions qui sont galement des rep res con us par le Signe en action Et nous ne sommes int ress que par ces r gions l Voil maintenant que cheval devrait supporter couleur Nous ne parlons pas de bai ou d alezan qui supporte une couleur particuli re et qui les d finit Nous parlons de cheval Et comment alors cheval peut il avoir couleur qui ne le d finit pas Nous savons que nous avons besoin de ce lien du fait par exemple des questions D et E page 123 non r solues cause d une inconsistance componentielle de la Structure que nous avons voulu pour d gager dans ce texte l existence d un lieu sp cifique savoir celui d une information bien form e Mais tout de m me nous pourrions observer que d s l occurrence de monture dans quelle est la monture de Jean la Structure r value automatiquement le statut de cheval par la prise en compte d une nouvelle d termination Alors dans quel cas le besoin d un sens de cheval se ferait vraiment sentir Nous n avons pas d exemple clair Peut tre apr s tout cela pourrait
218. r des graphes ordinaires de rang 2 Nous pr sentons trois applications concr tes du syst me et une application exploratoire Il A cette poque nous avons d cid de faire l impasse sur la d sambigu sation lexico s mantique pour 54 s agit du dictionnaire l envers la gestion d un fond documentaire d une gestion documentaire multilingue et d une aide la navigation multim dia En dehors du dictionnaire l envers nous d crivons dans cette section trois services utilisant le S miographe Les deux premi res applications sont le fait de clients L un est une SSII fran aise importante dans le secteur de la GED L autre est une multinationale intervenant comme diteur de solutions GED au niveau mondial La troisi me application est davantage une maquette importante effectu e par nous pour le compte d un projet europ en pour avoir une id e des performances du S miographe dans sa partie proximit componentielle appliqu e une autre langue que le fran ais l anglais La pr sentation des applications s effectue en enchainant les composants que nous avons pr sent s en 4 1 2 1 page 34 5 1 2 1 Les applications non lexico s mantiques Le S miographe a fourni des outils pour diff rentes applications veille documentation terminologie que nous ne pr sentons pas ici en raison qu elles emploient peu le r seau lexico s mantique et donc ne sont pas susceptibles de nous clairer sur le fo
219. r exemple japonais guerrier noble guerrier japonais noble noble japonais guerrier guerrier noble japonais guerrier noble japonais Il faut que toutes ces fa ons de d composer donnent un m me r sultat et que les diff rentes voies de d composition ne conduisent pas des ambiguit s Observation 2 avec la componentialit de samoura nous avons observ que les multiples d compositions possibles d un m me sens doivent tre galement disponibles 15 Cette observation pr sent e ici comme accidentelle rend compte en fait de deux besoins omnipr sents au plan de la conception le travail sur un tr s grand chantier comme l est celui du dictionnaire n cessite une grande souplesse dans l acc s une description particuli re et dans l interpr tation de ladite description En fait tous les modes de d compositions imaginables doivent pouvoir tre d crits pour viter que soit recr ailleurs un artefact similaire susceptible de cr er une ambigu t artificielle au plan de l analyse componentielle d un nonc qui a besoin du fait du texte d activer en contexte l une ou l autre de ces d compositions d un m me sens Ce genre de remarque nous a beaucoup inspir et nous proposerons de l adapter partir de 1998 la syntaxe Voir l exemple fourni qui est le plus simple possible la Figure 15 L organisation de l onomasiologie d une instance d une classe date n est pas
220. r l acquisition semi automatique de classes s mantiques acte de TALN D Dutoit T Poibeau 2002 Evaluating resource acquisition tools for information extraction full paper acte de Language resource and evaluation LREC Las Palmas Dutoit D P Nugues 2002 The right word full paper acte de Language resource and evaluation LREC Las Palmas Dutoit D P Nugues P de Torcy 2003 The Integral Dictionary a lexical network based on computational semantics Springer Ed ICCSA International Conference on Computational Science and its Applications Calgary Canada Dutoit D Y Picand P de Torcy Roger G 2003 Natural Language Processing and Multimedia Browsing Concrete and Potential Contributions European Symposium on Ambient Intelligence Eindhoven The Netherlands F Soufflet S Le Huitouze Korpipaa P D Dutoit P Ten Hagen F Kuijik O Guye JR Vigouroux L Chevallier 2003 Multimedia browser European Symposium on Ambient Intelligence Eindhoven The Netherlands G Deleuze 1973 A quoi reconnait on le structuralisme In CHATELET F Ed Histoire de la philosophie id es doctrines tome VIII Paris Hachette Litt ratures Dutoit D P Nugues P de Torcy 2004 The Integral Dictionary An Ontological Resource for the Semantic Web full paper acte de Language resource and evaluation LREC Barcelona D Dutoit P de Torcy Y Picand 2004 Quelques contenus g n raux au service des documents 17
221. ra En outre ce paragraphe traite directement du Hiatus dictionnaire l envers en rapport avec l absence d organisation entre les concepts des quasi d finitions de la page 44 o nous affirmions qu il faudrait bien qu un moment donn dans le dictionnaire l envers personne vendre personne puisse retourner quelque chose de pertinent Peut tre parce que le trait de r soluble Qu on peut d composer en ses l ments constituants ne nous convient pas tout fait Ces cas sont extraits d une s rie de cas que nous avons tudi s au cours des ann es en raison du raisonnement tr s clair qu ils autorisent du fait de leur nature plut t transparente Nous pourrons retrouver des traces de ce travail par exemple dans Dutoit 2004 pour l unit du signe i ou dans Dutoit 2007 pour celle du signe changer 85 vx D composer un agr gat un organisme par la s paration des parties 86 Russel 2000 crit Certains auteurs ont affirm que les facult s perceptuelles et motrices constituent les parties les plus importantes de l intelligence et que les capacit s de haut niveau sont n cessairement parasites il ne s agirait que de simples extensions des facult s sous jacentes Il est vrai que l essentiel de l volution et la plus grande partie du cerveau sont consacr s aux facult s perceptuelles et motrices alors que I TA s est plus int ress e des t ches plus faciles telles que le jeu et l inf rence logique qu la perc
222. raiment trange En attendant pour le moment nous diff rents motifs La principale raison est que contrairement Wilks 1999 nous doutions de la pertinence de la t che elle m me Aujourd hui la d sambiguisation lexico s mantique se pratique comme nous la pratiquions entre 1991 et 1993 A cette poque nous op rions d abord une discr tisation dramatique des sens du dictionnaire puis nous cherchions retrouver nos sens dans les textes Quiconque pratique s rieusement cette exp rience s apercevra que 1 la discr tisation est g n ralement impossible par certains c t s voir par exemple Dutoit 2004 que 2 les r sultats que nous obtenons en discr tisant par mot sens sont moins des valeurs s mantiques utiles comme face samoura suis je en face de noble accueillant ou de guerrier mena ant que des g n riques grossiers comme face samoura suis je en face de personne de anim quand bien m me il ne s agirait que de statue p trifi e de samoura 55 n esp rons aucunement que notre dictionnaire l envers retourne samoura depuis personne qui mange Nous verrons dans ce paragraphe comment le S miographe r alise une op ration de dictionnaire l envers sans rappeler que cette op ration des applications concr tes voir 4 1 3 page 43 pour la maintenance du dictionnaire La figure suivante d crit l impl mentation du dictionnaire l envers D finition de l utilisateur Etiqueteur
223. rande font partie du dictionnaire et que donc les op rations pr sentes au niveau de la note 1 devraient se r alis es En effet ces op rations ne demandent comme param tres que un l ment formule un l ment dictionnaire int gral Or du fait que tout l ment de formule est l ment du dictionnaire int gral ce contr le devrait se r aliser En fait 1l n en est pas ainsi du fait de la r gularit de la Structure Nous observons que tout ce qui r gle la perception de l int rieur des formules est rang dans ce qui conditionne les bornes des formules cela est naturel puisqu un int rieur est d fini par une limite Ainsi la r gle des LCA s applique si le syst me n effectue aucune op ration quand il rencontre des l ments du Dictionnaire Int gral qui seraient aussi des l ments de formule c est qu il ne voit pas ces deux conjectures la fois Du fait des LCA quand il est l int rieur il ne per oit rien de l ext rieur 6 1 6 2 R duction alg brique calculs utiles l analyse de texte Dans une application de gestion de biens immobiliers il peut se produire que l on trouve une expression comme salon de 4 3 m Si un client nous demandait un salon d un minimum de 10m comment pourrions nous sans briser la structure proposer ce salon Il s agit d un cas de paraphrase Nous pr sentons les calculs de base en s appuyant sur notre exemple Calculer 4 5 6 91 23 Nous ne pr sentons pas le graphe li
224. rat allemand classe prince classe spec landgrave n m Figure 1 Description de andgrave l aide des classes La figure ci dessus approxime il s agit d une quasi d finition la d finition encyclop dique fournie par le Larousse encyclop dique Voici cette d finition landgrave n m Titre port au Moyen ge par plusieurs princes germaniques relevant imm diatement de l Empereur dont les comtes d Alsace etc Magistrat qui rendait la justice au nom de l empereur germanique Source Larousse encyclop die en couleurs On note dans notre graphe l agr gation en un seul sens des deux sens propos s par le Larousse encyclop dique Ici tant donn le caract re g n ral de la quasi d finition la port e est mineure et le Robert en a jug de m me puisque sans tre contraint par un mod le de repr sentation il a regroup les deux sens dans son article landgrave n m Titre de princes souverains en Allemagne dont l tat tait un landgraviat Dans la figure les traits prince allemand magistrat sont repr sent s L exemple de landgrave fournit un exemple simple concernant la vari t des d coupages en sens du signifi d une unit lexicale dans les diff rents dictionnaires Observation 1 Chacun des dictionnaires est une tentative de d crire un objet ils ne peuvent tre confondus avec cet objet Dubois et Dubois Charlier 1990 p 10 14 Japon th me vers th me
225. re ou sur le m me point de vue L unit de l Analyse qui assure que les cons quences m r ologiques de chaque origine et de chaque origine sur toute origine sont produites L unit du R sultat qui assure que toute d cision incorpore selon une fonction d utilit bas e sur la dur e tous les r sultats susceptibles de s tre produits lors de l Analyse L unit du Signe qui assure la consistance l mentaire de l ensemble 6 4 Conclusion Dans ce chapitre nous avons fait l hypoth se qu en plus que les mots entretiennent entre eux des relations lexico s mantiques qui engendrent d autres mots ils peuvent tre con us comme Signes qui engendrent des actions En op rant ainsi nous sommes pass s franchement de l espace du dictionnaire celui du discours Nous nous sommes alors pos une double question La premi re question a concern la n cessit de prendre en compte ces actions La deuxi me question a concern la possibilit pratique de prise en compte de ces actions Nous nous sommes alors donn six cas d int gration tout fait courants Int gration de la morphologie compositionnelle Int gration d nonc s compositionnels m talinguistiques Int gration d une grammaire syntagmatique Robert il s applique donc meuble Cela n emp che videmment cheval de disposer aussi de corps partie mat rielle des tres anim s Le Robert 14 Voir Bergson note 2 page 8 130 Int gration du te
226. rer que samoura a pour sens Is_a nom masculin dans le nom Nous crivons samoura n m gt Is_a gt nom masculin classe dans NOM classe Du fait de l inexistence d autres conditions ei nom masculin casse est un succ s et peut mettre son information nom masculin casse gt IS_a gt NOM classe dans Ontologie des POS classe NOM classe gt IS_a gt Part of speech classe gt dans Ontologie des POS casse Par ailleurs nous avons selon la vue des g n riques n m gt g n rique gt nom masculin cjasse dans NOM classe n gt g n rique gt noM classe dans NOM classe et selon le point de vue du lexique nom classe 7 Is_a gt mot classe 7 dans lexique th me mot gt g n rique gt Mot classe dans lexique th me et selon le point de vue qui nous a alert de l int grit du signe C4 nous avons signifiant gt g n rique gt Mot classe dans Signe thame 70 By An hata ar REPA ou dans la vue m talinguistique du dictionnaire samoura n m 82 D tails sur le formalisme A Nous ne ferons pas de figure repr sentant les inf rences pr c dentes en effet une telle figure serait presque une h r sie puisqu elle montrerait sur le plan c est possible dans ce cas pr cis des l ments d un programme un signifi qui normalement ne se peut r aliser qu en partie Par ailleurs nous n avons pas introduit de concepts nouveaux
227. respectent les quatre principes d unit que nous avons propos s C1 C2 C3 et C4 Concernant A ce crit re est d embl e satisfait puisqu il figure en entr e en effet nous disposons de la question de la page 20 Voici ce qu tait cette question Question 4 Comment d crire dans notre DAG des donn es non componentielles qui appartiennent aux connaissances na ves de telle mani re que cette description soit clairement distincte des donn es componentielles que nous avons d j repr sent es Concernant B dans les paragraphes pr c dents nous avons plusieurs reprises fait des remarques permettant de circonscrire le champ d une r ponse S agit il la mani re de CYC Lenat 1999 d essayer de d clarer toutes les connaissances d une petite fille sous une forme logico d ductive Ou bien s agit il d ins rer le trait anim dans le Signe samoura comme le fait Rastier Pour essayer d obtenir une r ponse pr cise cette question nous avons choisi de nous inscrire 101 Par exemple qu est ce qui permet de dire que le frigo peut boire Voir note 69 page 78 Comme il nous a t pos plusieurs fois des questions pratiques sur le risque d explosion combinatoire li la multiplication des perceptions et particuli rement de cette perception d un effet pratique du sens nous avons ajout une courte note en annexe sur les caract ristiques de notre moteur 113 comme Directeur de Recherche Associ au laborato
228. rgraphe Les hypergraphes ont t ainsi nomm s par Claude Berge en 1960 Les hypergraphes g n ralisent la notion de graphe dans le sens o les ar tes ne relient plus un ou deux sommets mais un nombre quelconque de sommets compris entre un et le nombre total de sommets de l hypergraphe Dans la figure pr c dente l ar te e3 r unit les sommets v3 v5 et v6 en une seule partie tandis v7 n est reli par aucune ar te et reste isol v7 n est pas une partie de l hypergraphe puisqu il n a pas d ar te Le nombre de sommets n d un hypergraphe est son ordre Ici ce nombre vaut 6 Le rang d un hypergraphe est le nombre maximum de sommets r unis par une m me ar te que nous appellerons hyper ar te par la suite pour les distinguer des ar tes ordinaires de rang 2 Dans la figure ce rang vaut 3 j Syst me de Gestion de Base de donn es relationnelles 9 Figure emprunt e Claudio Rocchini depuis http fr wikipedia org wiki Image Hypergraph gif 52 Un hypergraphe est dit simple s il n a pas d ar tes multiples c est dire plusieurs ar tes pour une m me partie La figure pr sente un hypergraphe simple On appelle famille de Sterner tout hypergraphe dans lequel aucune ar te n est contenue dans une autre L hypergraphe de la figure n est pas une telle famille du fait que e2 est inclus dans e3 Aujourd hui LDI a la d finition suivante ordre 1 500 000 rang 180 000 en consid rant l ensemble des synsets de W
229. rme Int gration d une date Int gration d une formule L examen de ces cas a toujours r v l que l int gration ne devient possible que si nous conservons l int grit du Signe et que si nous leur permettons d tres actifs A travers ces six cas nous avons conclu sur l imp rieuse n cessit et l apparente faisabilit pratique de cette prise en compte des actions Dans le m me temps nous avons mis au point une m thode d analyse des probl mes d int gration pos s Cette m thode indique qu il faut regarder la Structure qui se construit le mode analytique de cette construction la nature du r sultat au plan qualitatif et le statut du Signe dans le discours Mais une m thode n est pas seulement une liste de regards permettant d aborder un sujet Une m thode normalement inclut des points de contr le que nous devons examiner pour pouvoir progresser Nous avons d fini ces points de contr le en disant que toute atteinte l Unicit de la Structure de l Analyse du R sultat ou du Signe comprend d une fa on endog ne une source d checs ou de contradictions dans le d veloppement de tout chemin que nous pourrions suivre depuis cette atteinte Munis de cette m thode nous nous sommes alors consacr l analyse du plus petit des cas que nous pouvons imaginer o nous devrions bien voir que les Signes actent et de quelle mani re ils le font Ce cas l mentaire est celui du cheval blanc d Henry IV Nous avons alors introduit l
230. roduction du cheval int gration de la cha ne microsyntaxique et potentialit s page 122 117 6 3 2 3 1 La d finition d une information et le dictionnaire Nous remarquons qu il est tr s facile d ajouter dans notre dictionnaire ce petit concept structur qu est A Il ne s agit que de trois l ments pris dans un de nos concepts le th me voir chapitre 2 2 page 11 Pour ces trois positions dans le cas de la propri t COULEUR nous disposons de certaines valeurs sous la forme d une liste d adjectifs une propri t couleur une entit surface Nous n avons aucunement nous int resser aux chevaux puisqu ils ne sont pas d finis par couleur Evidemment si nous rencontrions dans le dictionnaire une race de cheval d fini par blanc nous serions ravis de noter convenablement comme nous le faisons le plus souvent possible cette information du dictionnaire En relation directe avec ce que nous venons de dire pr voyant l apprentissage sur les choses simples du dictionnaire nous pla ons la d finition dans le concept th me l endroit o l on met ordinairement les mots d finis par une couleur par exemple poisson rouge le g n rateur de grammaire adapt la famille d information concern e 6 3 2 3 2Le dictionnaire g n re les formes paraphrastiques de l information utiles la perception de cette derni re Malheureusement dans le discours l information ne prend jamais la forme
231. rojet 8 VIVIAN ITEA page 66 1999 Projet 9 Balkanet E content page 66 2000 coordinateur scientifique Projet 10 Ambience ITEA page 66 2002 partenaire Enseignements et direction scientifique Enseignements Enseignement universitaire 1988 92 Universit de Caen TD statistiques niveau DEUG Cours magistral M thodologie de conception des Syst mes d information MERISE UV de 25 H Ma trise Economie et MSTCF Th orie des syst mes th orie des Jeux Formation continue Cessions de 5 journ es en informatique linguistique et s mantique lexicale Centre de recherches CAP GEMINI INNOVATION ALCATEL Paribas THALLES Thomson Multimedia Rennes C E A Entreprises innovantes Diverses PME Etablissements publics collectivit s territoriales Pr paration au concours d attach territorial Organisation Membre du jury de r dacteur finances Formation initiale apr s concours r dacteurs syst me d information organisation Remarque plusieurs ex tudiants ou ex stagiaires sont aujourd hui ma tre de conf rences ou charg de recherche Direction scientifique Th ses 3 th ses soutenues ont fait emplois et r f rences directs au Dictionnaire Int gral ou au S miographe DEA Master 2 recherche 6 m moires de DEA GREYC et PARIS VII Autres encadrements douze DESS ou ing nieurs de 3 ann e une cinquantaine d tudiants de Licence Maitrise 2 ann e d ing nieur Jury de th se Maria
232. rs LAA M N est l ensemble des n uds communs aux deux mots qui ne sont pas membres des LCA et pour lesquelles ces n uds ont un fils qui est un anc tre de M et n est pas un anc tre de N La plupart du temps les ensembles LAA M N et LAA N M sont diff rents Ce caract re essentiel de cette mesure refl te une diff rence componentielle qu il est possible de d gager voir 4 1 2 2 7 ci dessous Dans la Figure 6 page 38 l ensemble des anc tres communs W2 et W3 qui ne sont pas des LCA est A Universe A a un fils D qui est un anc tre de W2 et qui n est pas un anc tre de W3 aussi LAA W2 W3 A L ensemble LAA W3 W2 A Universe parce que F et B sont fils respectifs de A et Universe et anc tres de W3 mais non de W2 Les LAA peuvent tre tr s nombreux ils incluent des diff rences qui ventuellement s additionnent et le bruit de fond dont nous avons d j parl La mesure de diff rence s mantique est fonction de la somme des distances de M ses LAA et la somme des distances de N aux LAA trouv s pour M Si nous posons E LAA M N nous avons pour une mesure de M vers N S d M E d N E EELAA M N ULAA N M Card LAA SD M N Dans la figure 3 SD W2 W3 2 2 1 4 par A SD W3 W2 2 2 3 3 2 5 par A et Universe Utilisation concr te de la mesure des LAA a Des diff rences componentielles nulles d un c t et importantes de l autre Ce r sul
233. rs un postulat de r solution de la r f rence nous avons aussi trouv des solutions dans des cas un peu plus complexes L ensemble des calculs que nous avons faits ont finalement r ussi dans la mesure o ils ont respect C1 l unit de la Structure C2 l unit de l Analyse C3 l unit du R sultat C4 l unit du Signe Nous comprenons que cette condition est importante si nous souhaitons explorer de nouvelles preuves pour notre S miographe Ces preuves sont le suivi de la cor f rence l extraction d information Ja question r ponse Avant de conclure sur ces perspectives nous proposons de nous demander dans quelle mesure cheval pourrait finalement supporter couleur ou blanc 6 3 3 R introduction du cheval int gration de la cha ne microsyntaxique et potentialit s Nous savons le cheval que nous avons laiss dans le paragraphe pr c dent particuli rement d sincarn Nous nous sommes dits pourquoi en faire un quid mammif re animal monture alors qu il n est rien de tout cela dans ce que l nonc nous commande de percevoir pour r soudre ses questions Au fond le cheval que la Structure a produit du fait de l nonc est un immuable qui pourra s adapter tout contexte o il servirait simplement de r f rence Il est Signe con u comme pur signifiant r cepteur unique de la r f rence et prend dans le monde de la Structure le statut que prend la plan te V nus dans le monde de la
234. s Grammaire En effet dans la structure r elle du dictionnaire il est normal d obtenir du fait que les th mes n appartiennent jamais aux classes au moins deux types de LCA l un pour les classes l autre pour les th mes Ici nous obtenons le th me fleur et la racine des classes de noms Racine des noms LAA fleuriste fleur monde du vivant T nomme et soci t T Xi T Xi T indique que nous ne fournissons pas la liste compl te des LAA qui est trop importante La plupart du temps la racine g n rale du dictionnaire apparait comme LAA Dans notre cas nous avons obtenu 107 LAA depuis fleuriste Pour v rifier ce point suivons les anc tres communs LA LCA U LAA jusqu aux premi res classes qui d finissent fleuriste Depuis le LCA Racine des noms Grammaire le programme trouve imm diatement une classe Ves noms classe grammaticale elle m me Cela signifie que les deux mots fleuriste et fleur partagent le trait grammatical nom Nous r sumons cette information par la notation LCA les noms classe grammaticale fleuriste n les noms classe grammaticale dans laquelle dit que fleuriste est un nom puisque le plus petit anc tre commun entre fleuriste et nom est le concept nom Comme Ves noms classe grammaticale est un concept commun fleuriste et fleur nous savons aussi que LCA les noms classe grammaticale fleur n les noms classe grammaticale Ces r sultats peuvent videmm
235. s autres sens de pomme La question du moment renvoie entre autre la prise de risque et la gestion de la m moire et la question de la mani re est technique Nous r pondrons fonctionnellement ces deux questions d s que nous aurons fini notre num ration Voici le restant de cette num ration pris dans ce chapitre le m talangage voir paragraphe 6 1 2 page 81 le syntagme voir paragraphe 6 1 3 page 84 les dates voir paragraphe 6 1 5 page 88 A La question technique L ensemble de la Structure comprend le Texte en train d tre analys et les extraits du Dictionnaire Int gral participant cette analyse La Structure est une mani re de tableau noir manipul e par deux agents 1 l agent de lecture du Texte et de consultation du dictionnaire cet agent per oit un token cherche tout ce qui a trait ce Token dans le dictionnaire le transforme en Token Signe c est dire en une for t de DAG et communique son r sultat la Structure qui fait ce qu elle a faire avec le signe arrivant et son propre tat La Structure incorpore le Signe et produit une nouvelle Structure 2 l agent de nettoyage qui supprime de la Structure tout ce qui ne correspond pas ou plus certains crit res Les crit res sont exog nes purement applicatifs et peuvent tre bool ens atteindre un certain seuil ou relatifs tre meilleurs que quelque chose d autre B La question du moment A quel moment l agent de
236. s et d inf rences S miographe I instrument ensembliste de mesure d isotopie componentielle BabySemio II instrument m r ologique de mesure d une int gration compositionnelle et componentielle 1 objet de diss mination Alexandria outils de diffusion et de promotion des r sultats obtenus web Travaux de recherche en projet Fondements m r ologiques d une s mantique componentielle mod lisation cin tique de la s mantique lexicale Principales publications et diss minations Publications 21 publications avec comit de lecture dont 16 en premi re place dans des revues comit de lecture 3 organisations de colloques 2 conf rences invit Expertise Expert Technolangue Membre de comit s de lecture 6 fois Contrat de recherche 14 contrats Projets nationaux Projet 1 Dicologique Min de la recherche page 29 coordinateur Projet 2 Am lioration de Dicologique MENRT page 29 coordinateur Projet 5 AGIR Min de l industrie page 48 partenaire Projet 7 IVOMOB Min de la recherche page 48 partenaire Projet 12 OSEO ANVAR ALEXANDRIA page 66 2004 coordinateur Projet 13 VODEL ANR 2005 page 66 coordinateur Projet 14 INTERSTIS ANR TECSAN page 68 partenaire Projets europ ens Projet 3 CRISTAL DGXIII CEE page 29 coordinateur scientifique Projet 4 MARLEN LEONARDO CEE page 47 partenaire Projet 6 EuroWordnet E content page 48 1998 partenaire P
237. s exemples de ces productions 35 surtout pour un espace construit de telle mani re qu il repr sente toute l h t rog n it possible et tous les cas possibles d intrication et de crit res li s tellement qu il est impensable de les d lier voir note 31 page 37 des composantes s miques 7 Nous utilisons d ailleurs le syst me des LCA pour rep rer des incoh rences dans le graphe 39 En tudiant la Figure 4 nous voyons que la comparaison entre renard n m et glapir v t i retourne d abord renard th me Puisque premi rement renard th me est subsum par tous les th mes comportant renard crasse deuxi mement renard h me est subsum par faire qqch s agissant d un animal name qui comporte les cris d animaux Si le vrai graphe est conforme cet extrait il n est pas possible que d autres LCA apparaissent en effet en suivant le chemin de d composition de cri vers le son par exemple il faudrait qu une de ces d compositions comporte galement renard Il est plus vraisemblable de penser que cela ne se produit pas et que seule la racine du graphe groupe nouveau ces deux mots Or cette racine n est pas LCA puisqu elle contient renard th me Cependant il arrive souvent que le graphe soit plus riche et plus d s quilibr que notre exemple Dans ce cas l des LCA tr s hauts peuvent appara tre Nous l appelons le bruit de fond et nous acceptons volontiers de faire avec puisqu il est aussi
238. s trait dans ce chapitre peut revendiquer le nom de r f rence Quelle est la r f rence de pomme dans celle de pomme de terre Quelle est elle pour samoura dans le nom samoura Que devient elle dans le samoura Que valent elles pour 7 T est possible de prendre le sens courant ou le sens linguistique Courant Action ou moyen de se r f rer de situer par rapport syst me de r f rence Robert Philo Ling Fonction par laquelle un signe renvoie ce dont il parle ce qu il d signe Comme nous avons la chance de ne pas avoir traiter du Monde r f rence pour nous renvoie toujours ce dont un signe parle lui m me ou un autre morceau de signe Nous n avons pas de vraie boulangerie voir note 69 1 page 78 g rer La citation de Ric ur est int ressante Alors que les signes n ont de rapport qu entre eux le discours se rapporte aux choses d une mani re sp cifique qu on peut appeler d notation ou r f rence C est exactement ce que nous sommes en train de mettre en place en d veloppant un mod le portant sur les individus m r ologiques 88 cancer dans cancer du poumon Nous tudions maintenant les relations qui existent entre l ment d une date et la date proprement dite Comme chaque fois cette prise en compte va s effectuer non pas en consid ration de ph nom nes extralinguistiques mais seulement en consid ration d un tout qui a plusieurs effets sur la Structure Nous voyons alors q
239. ser diverses sortes de graphes nous devons pr ciser la notion de graphe dans notre cas D finitions compl mentaires Graphe Ensemble de n uds et de relations avec mode de fonctionnement Un graphe est d clar par son nom Le nom d un graphe est un concept particulier Dans la version actuelle de Lexidiom il existe plusieurs graphes les graphes base de concepts et de FL de LDI les graphes base de Synsets et de FL des WordNet les synsets Synset Ensemble type WordNet hyper ar te comprenant une glose une d finition naturelle dans une ou plusieurs langues et des litt raux des mots sens d une ou de plusieurs langues 53 Si une m me langue pr sente dans un m me synset plusieurs mots sens ces mots sens sont synonymes entre eux FL LDI red finition Les anciennes FL de LDI sont susceptibles dor navant de mettre en relation deux mots sens ex H20 et eau deux synsets achat et acheter ou un mot et un Synset selon les besoins FL Wordnet Toute relation de WordNet entre Synsets m ronyme hyponyme cause antonymie de Wordnet etc EB Lexidiom http 192 168 1 134 8080 lexidiom fr habitant du Japon Navigation Edition Modification Bookmarks Scan Tools S 2 amp M x B search samoura w AllLanguages meanings only v 1 samoura n m sing FA104393 1 samoura n m sing FA104393 habitant du Japon gloss FF167585 gloss MA1
240. sid rant plusieurs mots comment extraire automatiquement ce qui les rapproche et ce qui les distingue s mantiquement page 31 L extraction automatique des l ments rapprochant et distinguant s mantiquement deux mots est une fonction unique du lieu d ex cution de ce rapprochement Nous notons de plus que pour un lieu les mots ne sont pas n cessairement actifs de la m me fa on Nous voulons dire qu ils n agissent pas semblablement dans ce lieu Dans notre exemple nom d termine asserte pr dique un lieu et se comporte comme un agent cherchant satisfaire ses objectifs tandis que samoura se comporte comme un patient un serveur r alisant un objectif En 6 3 1 1 D finition de la microsyntaxe page 110 nous parlerons plus g n ralement de marqueur Ici nom s est comport comme un marqueur m talinguistique et s est r alis comme tel D un autre c t le programme componentiel de samoura ne s est aucunement r alis 71 Aristote parlerait ici de puissance active pour nom et de puissance passive pour samoura Une puissance active est du c t d un agent sa disposition agir produire tel effet particulier Une puissance passive est une disposition pour un patient potentiel d avoir une r ceptivit appropri e une aptitude accueillir l effet Ces deux dispositions sont des puissances l une active et l autre passive dont le concours permet la r alisation effective d une d termination l acte Bernhardt 1
241. squels existent en nombre infini 2 3 1 et 2 5 3 et 2 x x 2 etc Ce qui me semble finalement moins pertinent puisque la connaissance ni plus que le signe n ont d existence en dehors d une pens e c est dire de quelque chose entre autre susceptible de r agir aux signes linguistiques 10 je suis favorable la notion de structure ensemble syst me form de ph nom nes solidaires tels que chacun d pend des autres et ne peut tre ce qu il est que dans et par sa relation avec eux Lalande mais je pr f re la phrase de Pascal toute chose tant aid e et aidante caus e et causante et les plus loign es tant li es de fa on insensible je tiens pour impossible de conna tre la partie si je ne connais le tout et de conna tre le tout si je ne connais pas la partie Enfin la caract risation de G Deleuze 1973 me convient tout fait s il doit servir qualifier mon travail exploratoire Ce qui est structural c est l espace mais un espace proprement structural pr extensif pur spatium constitu de proche en proche comme ordre de voisinage L ambition scientifique du structuralisme n est pas qualitative mais topologique et relationnelle situation par rapport aux r seaux s mantiques et aux logiques de description usages pr vus des premiers r sultats a Strat gie en mati re linguistique Le premier mod le s mantique que nous avons retenu est voisin de celui des traits s mantiques du fait de le
242. ssant la compl tude de la cha ne de veille recherche acquisition filtrage extraction distribution visualisation et aide la d cision Acteur reconnu dans le domaine du text mining et de la veille conomique EADS apporte un cadre applicatif pour VODEL dans le domaine de la gestion de la qualit Partenaire 5 Les travaux de St fan Darmoni et de son quipe du CHU de Rouen portent sur le projet CISMeF Catalogue et Index des Sites M dicaux Francophones Ses objectifs sont de d crire et d indexer les principales ressources en sant disponibles en fran ais et d assister Voir http vodel insa rouen fr 67 les professionnels de sant et les patients dans leurs recherches de documents sur l Internet En plus d un r le d valuateur CISMeF apporte VODEL leurs comp tences en indexation et recherche d information Partenaire 6 Depuis l ann e 2000 une entit de Recherche a t cr e sous le nom de Sinequa Labs Le laboratoire apporte donc au projet VODEL son expertise sa technicit et les besoins de ses clients en relation avec son logiciel documentaire Sinequa CS Projet 14 INTERSTIS Le but du projet InterSTIS est de rendre interop rables au sein d un Inte re TIS serveur terminologique multi sources les terminologies m dicales rene francophones usuelles comme la SNOMED pour le codage d informations cliniques la CIM 10 et la CCAM pour le codage m dico conomique la CISP utilis e par
243. ssible de caract riser des dissemblances consid rant un grand nombre de points de vues qui tous ensemble caract risent un tout d ordre s mantique Nous remarquons que cette d finition de distance s mantique est en rapport avec celle de structure voir note 10 page 9 du fait que par d finition tous points A et B pr sentant une ressemblance doivent tre capables de caract riser leur dissemblance depuis cette ressemblance 1 Selon cette note l affirmation il n y a pas de primitive prise sur le plan de la comparaison de deux signes est fausse car l acte m me de comparaison produit des primitives dans chaque instant o il aboutit 2 A contrario dire qu il n y a pas de primitives dans la structure elle m me n est pas faux nous pouvons toujours croire en voir une puis une autre et encore une autre 3 Quelle est le statut de notre DAG par rapport cette conception g n rale Premi rement le DAG d crit un certain nombre de lieux con us sur les crit res de dissemblance et de ressemblance cela valide le crit re 1 ci dessus Mais 2 et 3 ne sont pas valid s le syst me s mantique ne boucle pas sur lui m me Nous verrons chapitre 6 Int gration structurale des points de vue componentiels et compositionnels page 73 comment ce bouclage va devenir possible et nous donnerons des cas de l utilisation de ce bouclage 4 1 2 2 2 Les distances s mantiques chez nous Du fait de l Observation 5 page 22 il est important
244. successivement ces API telles qu elles taient disponibles en 2000 les APIs phon tiques morphologiques morpho syntaxiques et d expansion lexicale du S miographe les API de distances s mantiques quelques exemples d application enchainant ces API Certains des exemples donn s retracent des r sultats de projets industriels ou de recherche 4 1 2 1 APIs phon tiques morphologiques morpho syntaxiques et d expansion lexicale A Le reconnaisseur de langue Cette API est capable d identifier la langue d un texte crit dans l une des cinquante langues pour lesquelles il a t con u Il fonctionne l aide de n grammes Grefenstette 1995 B L API phon tique Cette API est disponible pour deux langues l anglais et le fran ais Elle sert principalement a effectuer des op rations de correction orthographique Dans un premier temps le jeu d environ 1000 r gles pr disait 100 du corpus de P rennou environ 300 000 34 C L API morphologique Elle lemmatise fl chit les mots des cinq langues suivantes fran ais anglais italien espagnol et portugais Le site sensagent com illustre son fonctionnement La th se que Suzanne Pereira soutiendra en d cembre 2008 fait un usage important de cette API D L API s quence r p t e Elle extrait et compte toutes les s quences r p t es trouv es dans un fichier Cette API est pilot e par un fichier de configuration assez riche Le fichier
245. suivante il ne faut pas parcourir le DAG L organisation des concepts d finit une topologie relativement simple et il convient de r aliser des calculs de rep rage rapide sur cette topologie ind pendamment des situations haut bas ou de la taille en nombre de feuilles d un concept En particulier les calculs ne sont aucunement matriciels ou vectoriels voir 4 1 2 2 L API de calcul de distance s mantique page 36 3 1 2 L enrichissement du mod le le Dictionnaire Int gral LDI Comme son nom l indique Dicologique tait une ressource de s mantique lexicale plut t simple A propos des constructions fortement ensemblistes et organis es sous la forme de treilles Jean Pierre Descl s 1981 p 134 a pu crire seule une pr sentation formelle sous forme de treille permettrait de montrer comment se constitue un nonc plus g n ralement une famille structur e d nonc s Cependant nous commencions faire attention a des ph nom nes de circularit r currente C tait une constatation li e une exp rience et non a ce moment l une hypoth se th orique admise Soit une s rie d inclusions valant un jour inclus dans B inclus dans C Cette s rie pouvait prendre un peu apr s une forme C inclus dans B inclus dans et au prix d un nouvel effort d un nouveau point de vue ou d une nouvelle h sitation reprendre la forme A inclus dans B inclus dans C Il est alors devenu plus favorable d accepter ces circularit s et
246. t Is_a gt cancer classe dans cancer du poumon n m Nous observons que du point de vue qui nous int resse peu importe que le cancer a gauche de la proposition ait ou non le m me sens que l l ment cancer g n rique de la classe cancer Ce qui compte est seulement qu il existe et appartienne a la m me classe que ce dernier D tails sur le formalisme Le formalisme ne pose pas de probl me particulier Port es du formalisme sur les crit res C1 C4 C1 la structure obtenue reste atomistique C2 l algorithme des LCA continue fonctionner dans la limite du tout petit graphe syntagmatique d fini d finissant les parties cancer du poumon et dans le grand graphe componentiel d fini d finissant les parties du tout cancer du poumon et le tout cancer du poumon C3 cela n emp che pas que dans un autre graphe cancer ait une existence propre C4 cancer de cancer du poumon a la fois un sens dans cancer du poumon et un sens dans cancer classe Pour la suite ce que nous appelons Structure comporte dor navant la morphologie compositionnelle des mots compos s et l information componentielle propre a leurs composants Analyse sait traiter de fa on monotone ces informations et les garde unies R sultat comporte une double repr sentation compatible Il y a double instanciation du terme et de ses composantes Signe conserve une forme intangible 6 1 5 Int gration d une date Tout ce dont nous avon
247. t d extraire un espace de recherche componentiel et fournissent une sorte de mesure quantitative de quelque chose de qualitatif voir la remarque de Deleuze note 10 page 9 Observation 6 Nous faisons l hypoth se que les LCA d finissent tous les lieux relatifs deux n uds o quelque chose d int ressant est susceptible de se produire Ils sont les localisations voir Observation 5 page 14 que nous recherchons et ils produisent des mesures en rapport avec la structure Il est toutefois int ressant d imaginer s ils pourraient comporter d autres types de productions Le principal probl me que nous rencontrons pour parler de la structure et de ce que les LCA peuvent retourner et moins un probl me d expression math matique qui pour clair qu elle soit n illustre rien qu une difficult transmettre une exp rience Ainsi nous attendons que le lecteur soit capable d imaginer prenant deux mots A et B ce que le syst me des LCA devrait r pondre tant donn le type d information repr sent dans la structure sur lequel il repose Ceci importe sinon pour une valuation du moins pour une prise en main Par exemple que valent 1 LCA renard_animal glapir 2 LCA voleur glapir et 3 LCA samourai Tokyo_ville Nous discutons de cela page suivante Nous r utilisons la Figure 4 Une illusion d ontologie concernant renard page 17 pour pr senter la solution de LCA renard_animal glapir Voir chapitre 6 page 71 de
248. t de ces ann es la technique nous a conduit compiler mettre dans une certaine forme pour permettre des temps de calcul raisonnables de moins d une journ e pour un texte simple une premi re version du S miographe Cette version exploitait les donn es du DAG en perdant beaucoup d informations puisqu elle effectuait une projection sur une simple droite Ses r sultats ont toutefois t int ressants et d bouch rent sur le projet europ en CRISTAL page 29 Durant cette p riode nous nous posions des questions qui nous paraissent tonnantes aujourd hui Nous reproduisons ici trois de ces questions qui ont t discut es plus tard par la communaut a quel est le mot sens impliqu dans un nonc Un jeu de cat gories s mantiques est il suffisant pour le caract riser et l indexer Wilks 1999 b pour r sumer un texte devons nous rechercher des concepts g n raux Chauch 2003 c le parcours d un r seau lexico s mantique comme WordNet se fait il de bas en haut ou de haut en bas Agirre 1996 La question a est pour nous toujours absurde Prenons par exemple l avocat dont_je_parle aime les femmes Pour avocat avons nous un juriste un d fenseur un plaideur un tre vivant une personne un homme etc ou bien tout autre chose qui se ferait appeler avocat Tout d pend en fait du contexte marqu ce_dont_je_parle Voyons simplement qu il pourrait s agir de presque n importe quoi d autre et en particulier d un fruit
249. t de rappeler ici que du fait que depuis 1992 nous travaillons sur un Dictionnaire Int gral c est dire plusieurs dictionnaires qui selon Dubois sont tous des tentatives particuli res de d crire un objet et qui ne peuvent tre confondus avec cet objet la conservation de l homog n it dudit objet suppos C4 le signe selon un point de vue et sa repr sentation formelle est le sujet le plus imm diatement sensible pour nous En r sum dans ce chapitre nous prenons individuellement diff rentes questions analytiques nous montrons une ou deux difficult s inh rentes aux traitements directs de ces questions nous levons ces difficult s par une int gration et nous concluons par la forme prise par l int gration Le chapitre a aussi pour objet de faire appara tre progressivement le fonctionnement assez complexe de l ensemble C est pourquoi nous commen ons par nous int resser des choses tr s simples qui posent d j des probl mes d int gration Six choses simples sont trait es dans le chapitre 6 1 Int gration d nonc s compositionnels page 76 Le probl me que pose ce chapitre est imm diatement perceptible dans le titre si ces nonc s sont compositionnels nous ne voyons pas bien pourquoi il faudrait les int grer au niveau componentiel Mais c est entre autre ce qu expose 6 1 leur non int gration au niveau componentiel cr e toujours une catastrophe Le chapitre 6 2 L int gration de faits s mantiques qu
250. tard aux hypergraphes 24 nous donnons les principales motivations et le r sultat A Introduction des fonctions lexicales Fondamentalement les fonctions lexicales propos es par Mel uk dans la Th orie Sens lt gt Texte TST constituent le noyau technique de cette th orie dont nous rappelons la th se centrale une des t ches primordiales de la linguistique th orique contemporaine est l laboration d une th orie de la paraphrase langagi re Mel cuk 1992 p10 Rappelons en le premier postulat La langue naturelle est consid r e comme une correspondance multi multivoque entre un ensemble d nombrable de sens et un ensemble d nombrable de textes page 14 Cette th orie s inscrit donc dans une perspective strictement compositionnelle laquelle nous avons vu que nous sommes faiblement li s Cependant observant que le cadre componentiel permet mal lui seul dans les moyens que nous avions d attribuer la description faite d un mot sens Ile de France n p ou acheter v t celle d un autre mot sens francilien adj achat n m les fonctions lexico s mantiques les plus courantes d une langue donn e nous ont sembl tr s adapt es pour pallier cette difficult Parmi les FL propos es par Mel uk pour le fran ais nous n avons retenu que celles qui sont directement en relation avec la syntaxe de fran ais Ainsi nous avons limin les FL qui conduisent a la cr ation d une m talangue importante comme par exem
251. tat est obtenu en comparant monnaie et yen La diff rence de monnaie yen est vide comme il se doit et la diff rence de yen monnaie peut tre importante puisqu elle emprunte des chemins partant Vapon termes li s pour arriver dans le bruit de fond voir 40 L extraction de la source des diff rences et leur valeur ici Vapon termes li s depuis les nombreux LAA obtenus est difficile mais possible voir 4 1 2 2 7 Exemple comment d une extraction des ressemblances et diff rences sp cifiques ci dessus b Des diff rences componentielles nulles de chaque c t Les termes sont synonymes depuis le point de vue des LCA consid r s souvent cela arrive dans des embryons de taxonomie que nous n avons pas pris le soin de traiter Ces diff rences vides sont le propre de ce que nous trouvons dans les ontologies fond es sur les seuls Is_a si bien que toute inf rence y devient incontr lable c Des diff rences componentielles nombreuses de chaque c t C est la situation la plus courante 4 1 2 2 5 La proximit componentielle Au final la proximit componentielle d est un agr gat construit en int grant l activation et la diff rence Il s agit par exemple de d d SD d W2 W3 2 4 2 3 d W3 W2 2 5 2 3 5 Ainsi nous disons que d une part W2 est plus proche de W3 que ne l est W3 de W2 et d autre part que W2 et plus proche de W1 que de W3 Comme tout agr gat la proximit componentielle pr sente une perte d information i
252. te a accomplir Nous pensons alors aux fourmis de Langton qui dessinant la complexit aboutissent toujours a des formes r guli res et nous sommes confiants sur les r sultats que notre fourmi qui sait construire une Structure saura faire merger si nous lui en laissons le temps Au fond nous disposons maintenant certes traits grossiers des plans d une machine qu il serait int ressant de pouvoir exp rimenter Mais le probl me qui se pose reste la transformation de ce plan en une v ritable machine En effet la r alisation d une telle machine n cessite des moyens qui sans tre normes suppose au moins un bon projet ANR II s agit pour obtenir un bon projet ANR de r sumer 115 9 ser ee 5 Nous rappelons que information d signe ici d finition d une information il ne s agit que d un gabarit et non d une connaissance actuelle sur le monde qui nous entoure et qui nous importe autant qu elle importe la langue c est dire qui importe aucunement Mon exp rience du dictionnaire et de la mod lisation me laisse l impression qu il y a tr s peu de gabarits d information de base l abondance ne r sultant que d une composition m r ologique des gabarits de base 131 d une fa on intelligible en deux fois trois pages verrou et tat de l art ce que nous avons dit ici en 130 pages sachant que le verrou est assez global et que l tat de l art consid r est plut t pluriel Nous supposons qu une Habil
253. te que rien n est actif activ mergent dans ce point de vue Cela pos un lieu particulier en l occurrence le lieu syntagmatique a s lectionn des traits de sens d un Signe pertinents comme c est son r le de le faire En outre au plan d une esp ce de logique des d terminants il n est pas grand chose d autre du fait que nous n avons pas encore sp cifi le sens agissant de le Port es du formalisme sur les crit res C1 C4 C1 la structure obtenue reste atomistique C2 l algorithme des LCA continue fonctionner dans la limite du graphe d fini d finissant une grammaire syntagmatique C3 cela n emp che que dans un autre graphe samoura ait un autre sens C4 samoura a aussi un sens dans la grammaire syntagmatique Il faut en outre noter quelque chose d important En r alisant cette int gration nous avons bien progress dans la question 2 que nous rappelons encore Question 2 Consid rant plusieurs mots comment extraire automatiquement ce qui les rapproche et ce qui les distingue s mantiquement page 31 L extraction automatique des l ments rapprochant et distinguant s mantiquement deux mots est une fonction unique du lieu d ex cution de ce rapprochement Nous notons de plus que pour un lieu les mots ne sont pas n cessairement actifs de la m me fa on Nous voulons dire qu ils n agissent pas semblablement dans ce lieu Dans notre exemple le d termine asserte pr dique un nom et se comporte
254. texte d utilisation mais les temps de calcul sont assez mauvais Toutefois c est gr ce ce projet que le S miographe a pu passer du stade de l id e celui de r alisation Projet 6 EuroWordnet Nous avons t entre 1998 et 2000 responsables avec l Universit d Avignon 3 F de la r alisation pour le fran ais d un projet de r seau lexical qui suivrait les EuroWordNet orientations de WordNet Fellbaum 1998 Dans EuroWordNet Vossen 1998 nous f mes des fournisseurs de technologies pour l appariement de r seaux s mantiques entre les ressources multilingues incluses dans notre dictionnaire et la cible WordNet Le S miographe a t employ pour calculer automatiquement une bonne partie des projections du r f rentiel LDI sur WordNet La v rification manuelle a t r alis e par Avignon Projet 7 IVOMOB IV OM OB Minist re de la recherche 2000 Le projet IVOMOB financ par le RNRT regroupe trois entreprises et un laboratoire de recherche le LORIA aux comp tences compl mentaires Il a pour but final le d veloppement d un prototype d acc s vocal un portail de services Dans le projet notre r le est la g n ration de paraphrases pour produire des mod les de langage acoustique Nous r alisons les g n rations depuis Lexidiom en g rant des relations ad hoc que nous exportons dans le moteur d inf rence qu est le S miographe pour enfin effectuer la g n ration Les fonctions lexicales de
255. tification Schemes JADT 1995 3rd International conference on Statistical Analysis of Textual Data Rome A J Greimas 1966 S mantique structurale Paris Larousse G Gross 1990 D finition des noms compos s dans un lexique grammaire Langue Francaise Larousse M Gross 1975 sur http sites univ provence fr delic lexiques_syntx html M Gross 1990 Le programme d extension des lexiques lectroniques Langue Frangaise Larousse G Gross M Gross M Mathieu Colas D Meunier E Roche 1991 Rapport du LADL L2 91 G Gross R Viv s 2001 La description en termes de classes d objets et l enseignement des langues Revue Langue Fran aise N 131 Armand Colin A Guiller C Lecl re 1992 La structure des phrases simples en fran ais Constructions transitives locatives Librairie Droz Gen ve Paris H Hiz 1964 The role of paraphrase in Grammar Washington D C Georgetown University Press I Prodanof A Cappelli L Moretti 2000 Reusability as easy adaptability a substantial advance in NL technology Proceedings of second International Conference on Language Resources amp Evaluation LREC N Journet 2000 Le langage est il naturel Sciences Humaines Hors s rie Le langage N 27 O Jouve 1997 Manuel d utilisation de Sampler manuel technique CISI M Kay 1979 Functional Grammar Proceedings of Fifth Annual Meeting of the Berkeley Linguistics Society Berkeley CA U C Berkeley A
256. tilingue Lexilog permettait de g rer un graphe orient acyclique de mots et de concepts Nous donnons les principales d finitions en usage pour cette version du dictionnaire puis nous fournissons quelques figures les illustrant 11 Premi res d finitions Concept tout objet artificiel structur et structurant Un concept est not concept En g n ral concept est d fini par repr sentation mentale d un objet et s oppose signifi et r f rent Le plus souvent un signifi renvoie plusieurs concepts c est dire diverses repr sentations mentales d objets diff rents Par exemple samoura renvoie plusieurs concepts comme Japon et guerrier c est dire aussi Asie et personne et guerre etc En tant que repr sentation mentale le concept n est pas observable et n est aucunement un mot Ainsi en crivant Japon nous souhaitons indiquer que nous ne renvoyons pas au mot Japon mais une repr sentation mentale que le lecteur devrait se faire du r f rent Japon Comme il ne nous est pas possible de d montrer que cette repr sentation existe bien et se trouverait dans la nature nous insistons sur le caract re artificiel c est dire produit par l activit humaine finalis e de mod lisation ou de service ditorial du concept dans notre acception Par structur nous entendons qu un concept n est pas un simple trait de sens en fait 1l renvoie d autres concepts comme par exemple Asie ou pays
257. tion d un mot sens si la tentative de traduction dudit mot sens est mal reconnaissable travers les concepts et extension du DAG et que les traductions viennent mal l esprit si l emploi semble technique et qu il a peu de chances d tre attest dans les dictionnaires bilingues papier g n raux que nous utilisions r guli rement pour ne perdre de temps en recherche infructueuse L objectif de 40 000 mots sens par langue n a pas t tout fait atteint pour chaque langue en moyenne 37 000 mots sens avaient t traduits 4 1 2 La fabrication du S miographe Le S miographe LS consid re LDI comme un ensemble de lieux s mantiques et value la cooccurrence de ces lieux dans les textes ou leur succession travers les fonctions lexicales dans une optique de g n ration Dans cette section nous ne d taillons pas l ensemble des op rations et outils exploitant le dictionnaire et utiles la r alisation d applications De nombreux outils sont seulement fonctionnellement d finis en tant qu ils participent la r alisation des applications que nous d crivons tandis que contrario quelques outils comme l outil de distance s mantique sont plus d taill s car ils sont centraux L ensemble des outils du S miographe sont organis s comme une biblioth que au service du d veloppement d applications de traitement automatique de l crit Ces API application programming interface sont crites en Java Nous pr sentons
258. tivations Ce relev n entrainait pas de nouveaux calculs inh rents directement d clench s pas le relev lui m me Ici nous avons fait appara tre des instances qui entra nent de nouveaux calculs Il s agit d un syst me dynamique dans lequel des instances sont dispos es selon le double point de vue m r ologique des informations connues du syst me et la perception de l nonc Maintenant que nous avons int gr des nonc s compositionnels relativement purs la Structure et l Analyse nous nous int ressons des cas hybrides o cette int gration impacte ni tout le signifiant ni tout le signifi Il s agit de l int gration hybride des points de vue compositionnels et componentiels 80 4 Il nous faut bien g rer a minima l alg bre de base pour g rer la cor f rence dans des nonc s comme Pierre a mang un carambar et une sucette Les deux bonbons mang s etc b Nous ne discuterons pas de savoir si cet alg bre de base appartient ou non au langage Ce qui est toutefois certain est que des op rations nonciatives de gestion de certaines cor f rences passent indubitablement par la connaissance de certains calculs alg briques Nous sommes rest avec des agents r flexe simples Voir l introduction du chapitre 6 99 6 2 L int gration de faits s mantiques qui ciblent la fois des points de vue compositionnels et componentiels Toutes les discussions que nous avons d velopp es pour l instant ont cec
259. together just as the moon emerges from behind a cloud THE JAR a rich landowner hires a master craftsman to repair a giant olive jar but the craftsman gets trapped inside REQUIEM villagers band together in an attempt to force their landlord to let them bury their dead CONVERSATIONS WITH MOTHER the writer Luigi Pirandello talks with his aged mother about a story he always wanted to write but which he never managed to capture in words PersonList TimeList Luigi Pirandello 19th century Time normalized century 19 PlaceList TitleList Sicily THE OTHER SON America MOON SICKNESS THE JAR REQUIEM CONVERSATIONS WITH MOTHER Tableau 3 Exemple d extraction d entit s finies Movie 5503 english Part fact and part opinion mainly of Jim Garrison and director Oliver Stone as to the events surrounding the proposed conspiracy of the assassination of President John Fitzgerald Kennedy on November 22 1963 in Dallas Texas New Orleans District Attorney Jim Garrison began a probe into the actions of The F B I and other officials of whom he suspected where covering up information that could lead to evidence of multiple shooters The motive is believed to be to escalate the United States involvement in the Vietnam War President Kennedy was attempting to prevent any further involvement in this situation but which Vice President Lyndon B Johnson supposedly promised the United States government that he would give them the wa
260. toit 1992 Enfin ces syst mes se distinguent peut tre aussi du n tre du fait de la taille relativement petite qu ils ont atteinte Aujourd hui le Dictionnaire int gral comporte environ plus de 1 5 millions de n uds en 27 langues qui sont trait s de mani re gale En dernier lieu ces syst mes satisfont de nombreuses conditions de logique du premier ordre et nous ne pouvons aucunement simuler cette logique nous ne pouvons nous contenter que de degr de v rit ou de vraisemblance Par exemple si dans le dictionnaire nous d crivons samoura comme guerrier cela n implique aucunement qu une occurrence particuli re de samoura dans un texte renvoie une occurrence du concept de guerrier Nous suivons sur ce point Wittgenstein cela d pend effectivement du contexte En admettant maintenant que le probl me de polys mie sous jacent serait partiellement r solu alors peut tre dans un second temps un objet guerrier pourrait tre con u et utilisable Ce genre de question nous int ressera partir de 2000 voir 4 1 2 2 3 L activation componentielle page 38 et nous conduira r fl chir plus globalement en terme m r ologique il semble qu une partie de telle occurrence de samoura dans un texte recouvre le signe samoura et cela devrait induire une certaine repr sentation nouvelle qu en termes de nature ou de logique c Usages pr vus des premiers r sultats Nos objectifs taient doubles disposer d un inv
261. tte r ponse est l observation que de nouvelles applications deviennent d sormais accessibles Il s agit pour l essentiel de ce que nous percevons pour le moment du Question R ponse de l Extraction d Information et du suivi de la cor f rence En effet toutes ces applications sont devenues maintenant inh rentes une Structure dont nous ne pourrons plus les soustraire Le r sultat atteint semble certes intriqu et complexe mais nous le pr f rons quelque chose qui serait entortill et rempli de contradictions Notre travail sur le Dictionnaire nous a amen embrasser la plupart des probl matiques du traitement automatique des langues C est apr s tout le moins que nous puissions faire puisque nous pr tendons que nous produisons une ressource linguistique susceptible de participer la r solution de probl mes sp cifiques et vari s de traitement automatique des langues Cette activit de production de ressource et de syst me nous a fait rencontrer des sp cialistes de la linguistique et de l informatique particuli rement en traduction automatique en intelligence artificielle et en recherche et indexation d information Ce m moire ne refl te pas assez combien ces collaborations pluridisciplinaires sont fructueuses pour la d finition d une m thode et pour le suivi d un objectif La confrontation avec des techniques d apprentissage automatique qui est peine d crite dans ce document nous ne pouvons pas tout d crire de c
262. u Signe Nous m morisons l importance du maintien de ces unit s pour aborder des cas plus complexes Dans un premier temps nous regroupons quelques exemples susceptibles de faire sentir le terrain Nous nous contenterons de cela Dans le paragraphe suivant voir chapitre 6 3 La d finition d une microsyntaxe pour largir un peu le champ perceptif de la Structure page 109 nous d veloppons une th orie tr s simplificatrice mais qui nous permettra de progresser encore un peu Enfin nous appliquons notre th orie au probl me du cheval blanc dont nous apercevons maintenant la principale qualit celle d tre l exemple le plus l mentaire que l on puisse imaginer traiter dans une structure intacte et en en montrant toute l organisation sur une m me figure ceci sans utiliser le moindre proc d extraordinaire qui chapperait la signification lexicale 82 C est dire un certain tat photographiant le d veloppement d un syst me un instant t 100 6 2 1 Quatre cas complexes mais solubles Soluble 1 Qui peut se dissoudre dans un liquide 2 Qui peut tre r solu Dans le titre les deux sens de soluble sont assez pertinents pour notre propos Apr s tout c est le mot soluble qui nous est venu et non pas celui bien plus rassurant de r soluble Dans ce paragraphe nous choisissons quatre cas que nous expliquons avec quelques indices sur la structure menant une solution Chacun pourra prolonger la r flexion stru
263. u une date n est pas quelque chose de si simple qu elle pourrait se ramener une quelconque m tadonn e Une simple date n est pas une m tadonn e Nous montrons qu il serait illusoire de la ramener une m tadonn e si nous voulons nous int resser l interpr tation du texte Mise en contexte et effets D une part videmment tous les effets d l t res que nous avons d j vus des ruptures s appliqueraient cette rupture ci si nous transformions une occurrence d une perception de date en seulement un tout extralinguistique prenant la forme d une m tadonn e Nous allons montrer une cons quence dommageable Cette cons quence concerne la fois un traitement de la cor f rence dans le texte et la d sambiguisation d un nonc Ce que nous montrons ici est tr s simple m moriser si la date est repr sent e par une m tadonn e alors il faudra d velopper un module sp cifique de gestion de la r f rence temporelle Soit l l ment de dialogue suivant Le m decin Je vous propose le mardi 25 avril 2008 Le patient non je suis pris le 25 etc Comment interpr ter la s quence le 25 de la r ponse du patient sans prendre en compte l instance de date mardi 25 avril 2008 Il faut s interroger sur les significations compositionnelle et componentielle de le 25 dans Le 25 est sorti Le 25 est occup Le 25 m int resse J ai r serv le 25 Je serai sur le 25 lundi J ench ris sur le 25 Il faut revo
264. ubsument d j vendre et personne Pour le DAG il y a simplement redondance alors m me que les instances diff rent Ainsi personne vendre personne ne peut donner aucune solution sp cifique La question 1 peut se reformuler ainsi Question 3 Comment reformuler le S miographe pour qu il puisse g rer des instances et comment reformuler Lexidiom pour qu il pr voie la gestion de ces instances Cette question est une reformulation de la Question 1 Comment enregistrer des concepts structur s dans le DAG page 20 Nous avons maintenant un premier motif pour tenter d y r pondre Il convient cependant d largir le domaine avant de tenter d y r pondre en raison de l Observation 5 page 22 4 2 1 2 Hiatus observations s mantiques et observations dans le syntagme Le probl me g n ral qui nous avons rencontr est le suivant nous n avons trouv pratiquement aucun signal componentiel entre deux mots situ s dans un m me syntagme Cette absence de r sultat est en opposition directe avec tous les mod les de propagation d isotopies s mantiques comme celui de Rastier Par exemple chez Rastier un syntagme comme samoura mange voit se propager le trait anim Pourquoi ne trouvons nous pas ce trait dans notre r sultat Nous allons essayer de faire sentir la raison de cette absence par trois voies diff rentes le rappel d une id e fondamentale concernant le signe une suggestion d inf rences une suggestion d exp rimentation
265. ue comme crit re de la v rit d une id e Robert Qu est ce qui nous est plus important que de faire de l utile le vrai 81 comme que nous venons d crire que nous venons de lire comme que nous venons de lire qui vient juste d tre dit est un l ment du m tadiscours Du fait que l ordinateur ne conna tra jamais le monde comme nous le vivons et donc ne pourra jamais constater la ressemblance qu il y a dans les choses entre une personne et un humain voir paragraphe 4 2 2 page 45 que nous battons nous pour la lui inculquer N est il pas plus important de lui donner tudier le m talangage en particulier le dictionnaire et le m tadiscours qu il serait peut tre en mesure de percevoir si nous lui en donnions les moyens Solution Commen ons donc comme nous l avons d j fait en 6 1 1 par C4 le mot samoura n aurait pas de sens dans le nom samoura comporte huit lettres La rupture C4 concerne ce que nous avons appel l unit du Signe Ici la rupture tient en le fait que samoura n est plus un signifiant dans la Structure puisque nous avons retir le m talangage de la Structure Nous disons donc que cette rupture tient en l affirmation suivante dans la vue m talinguistique le nom samoura samoura n aurait pas de sens Comment un signe tel que samoura peut il n avoir aucun sens dans une vue donn e qui le d finit en les termes particuliers de cette vue Dans le nom samoura nous proposons de consid
266. ue nous pourrions apprendre de la pratique r guli re d une m me activit 1c1 la lexicographie appliqu e l chelle d une langue avec le double regard de la s masiologie et de l onomasiologie Exploratoire puisqu il s agissait du fait que notre travail tait informatis d tre attentif l existence ventuelle d usages propres au support l ordinateur Dans un sens bergsonien Dans la dur e envisag e comme une volution cr atrice il y a cr ation perp tuelle de possibilit et non pas seulement de r alit Voir Bergson 1907 Une polys mie de ce mot pouvant toutefois appara tre dans la dur e de nos repr sentations de samoura Nous remercions Pierre Zweigenbaum pour cette expression Voir http fr wikipedia org wiki Graphe_acyclique_ orient En particulier le terme treillis ne s applique pas notre travail puisqu un treillis est un ensemble ordonn o toute paire d l ments a une borne sup rieure et une borne inf rieure uniques gt Nous utiliserons cet abr viation par la suite A partir de l introduction en 2003 de fonctions lexico s mantiques proches de celles de Mel uk 1986 l outil ne consid rera plus les mots comme des feuilles voir 3 1 2 L enrichissement du mod le le Dictionnaire Int gral LDI page 24 L approche a t aussi celle d un sceptique En effet nombre de positions th oriques comme celle de Wittgenstein 1961 Un item lexical n a pas de sens e
267. uilding a treebank for French in proceedings First Conference on Linguistic Resource A Abeill L Cl ment R Reyes 21998 Talana annotated corpus the first results in proceedings First Conference on Linguistic Resource J MI Adam 1999 Linguistique textuelle des genres de discours aux textes Nathan Universit J M Adam 1994 Le texte narratif Nathan Universit J M Adam 1997 Les textes types et prototypes Nathan Universit E Agirre G Rigau 1996 An experiment on Word Sense Disambiguisation of the Brown Corpus using WordNet MCCS 96 291 D E Appelt J R Hobbs J Bear D Israel M Tyson 1993 Fastus A finite state Processor for information extraction from Real world Text In proceedings of the 13 International Joint Conference on Artificial Intelligence IJCAI Chamb ry Aristote 1969 Organon Les cat gories Ed J Tricot S Auroux 1991 La philosophie linguistique d Antoine Culioli in La th orie d Antoine Culioli Ouvertures et Incidences Ophrys M Avanzi A Lacheret Dujour 2007 Micro syntaxe macro syntaxe une prosodie toujours transparente L exemple des p riodes asynd tiques en francais parl http www unine ch webdav site structuration_periodes shared articles_AM AM_2007_AL parataxe pdf Baker F Collin C J Fillmore J B Lowe 1998 The Berkeley FrameNet project In Proceedings of the COLING ACL Montreal Canada disponible sur http www icsi berkeley edu fr
268. ultat Ce cas consid re aussi un risque li la r solution du Hiatus dictionnaire l envers en rapport avec l absence d organisation entre les concepts des quasi d finitions page 44 que nous consid rons de fait comme combl avec le mat riel de 6 3 2 La r solution du cheval blanc page 115 Nous utilisons le mot point d impact regret car il est assez peu pr cis Mais l usage d un n ologisme form d un mot valise savant n am liorerait par la pr cision Par ailleurs l emprunt d un terme d un auteur est difficile car cet emprunt ne viendrait pas dans ces commentaires rapides avec tout le mat riel th orique dudit auteur Cela n apporterait que confusion Le mot point d impact signifie lieu o une o un impact se produit ET forme de cet impact dans la Structure 104 Le cas Avec la seule proximit componentielle voir chapitre 4 1 2 2 5 page 41 que nous avons d finie il est vident que le dictionnaire l envers peut faire des erreurs amusantes comme pour boisson de la vache En effet notre dictionnaire l envers r pondra le lait et fera erreur L humain aussi est capable de cette erreur En plein amphith atre pr sentant un article lors d une conf rence nous avions pos la question Car apr s tout qu est ce qu elle boit la vache Le mod rateur de la conf rence avec son micro r pondit vive voix pour l assistance Mais du lait videmment o est le probl me Puis prenant quel
269. un c t et des mots voiture v hicule voie nationale de l autre Des observations marquent le caract re toujours actuel de ces questions Il s agit de consid rer par exemple la toute r cente machine traduire de Google comme les diff rentes versions de Systran 7 Qui ne comprend que des l ments appartenant un m me moteur d inf rence 3 brouillard n m Livre de commerce o l on note les op rations mesure qu elles se font cf Main courante Le Petit Robert ce sens existe d apr s le Littr depuis au mois le XVI me si cle et est d usage courant dans la gestion des organisations a http www google co uk language_tools 22 et d autres restent pourtant d accord sur un m me r sultat Vers l anglais nous avons in vitablement the balance of the fog is incorrect les topiques la recherche sur Google France de samoura retourne un article sur trois pr sentant le topique de fa on claire La premi re partie de ces ann es a t largement occup e par des tentatives de calcul qui n taient pas optimales Je me rappelle des deux raisons suivantes technique la puissance de calcul notre disposition un 286 ne nous permettait pas d imaginer des algorithmes holistiques exploitant l ensemble des combinaisons du DAG les contraintes pratiques pour traiter du texte il convenait au moins de traiter un peu la morphologie avec en particulier la lemmatisation du fran ais Au d bu
270. ur dire que nous ne souhaitons pas en parler davantage videmment pour nous comme pour tout constructiviste nous ne pouvons montrer un objet complexe que si nous disposons en premier lieu de toutes ses parties Marqueur complexe marqueur qui impacte plusieurs r f rences la fois Ces marqueurs sont toujours des hyper ar tes d ordre et de rang gt 2 ils n ont pas d ancrage simple dans le Signe Marqueur simple marqueur microsyntaxique mettant en jeu une propri t simple du Signe Ces marqueurs se repr sentent directement dans le DAG ils ne passent pas par la synth se de plusieurs touts Cela pos tous les Signes sont des marqueurs ou des marqu s potentiels puisque la notion m me de marqueur n est qu une invitation prendre le point de vue d une interpr tation particuli re Par exemple couleurs est un marqueur dans couleurs du cheval tandis que Rembrandt devient marqueur dans couleurs de Rembrandt cas remarquable de l actualisation d une isotopie s mantique Nous disons que certains marqueurs peuvent agir en dehors de leur champ s mantique C est par exemple le cas de couleur qui peut agit sur v tement comme ici couleur du v tement V tement n est certainement pas dans le champ s mantique de couleur Dans ce cas nous appelons ces marqueurs des marqueurs forts ils causent qu un Signe se retrouve dans leur champ s mantique Nous appelons marqueur fort un marqueur qui peut agir en dehors de son champ s
271. ur grand pouvoir classificatoire appliqu l ensemble du lexique Les traits s mantiques sont des sacs g n ralement consid r s comme primitifs en cela qu ils n utilisent aucune relation ni aucune hi rarchie entre eux Voir par exemple la note 96 page 108 dans ce document un exemple chez Rastier Le plus souvent aussi la description des mots l aide de ces sacs repose sur l id e qu il faut d finir et diff rencier par rapport quelque chose au lieu de chercher d finir en soi Pottier 1992 fournit un exemple c l bre de diff renciation des si ges par rapport au concept de si ge Ainsi chaque lex me est repr sent par des composantes s mantiques appel s s mes chez Pottier Concernant ces deux propri t s fr quentes des approches componentielles que nous venons de souligner savoir l existence de primitive et l emploi d un syst me du genre arbre de porphyre nouveau genre genre proche diff rence nous nous sommes simplement assur que nous pouvions avoir des vues de cette sorte Mais chez nous les traits sont eux m mes d compos s ce qui fait dispara tre leur nature primitive et l attrait de leur caract re bool en En retour cela apporte de la souplesse et il devient possible de d finir fauteuil par meuble sur lequel une personne seule s assied ce meuble comportant des bras pieds et dossier m me si cela est moins efficace que de le d finir comme Pottier le fait comme si ge pour une personne seule c
272. ut agir sur un autre Signe d une fa on que nous allons essayer de d crire objectivement et formellement pour un ordinateur sans l aide d une multiplicit de fonctions qui finiraient par rendre compliqu et complexe un probl me qui l origine est peut tre seulement complexe 6 3 La d finition d une microsyntaxe pour largir un peu le champ perceptif de la Structure Le titre de ce paragraphe indique assez pr cis ment les port e et motivation d une d finition d un point de vue que nous avons choisi d appeler microsyntaxe Il ne s agit pas d une th orie Il ne s agit pas plus d une hypoth se Il s agit seulement d un point de vue que nous pourrions avoir dans la perception d une interaction entre deux Signes quelconques et que nous aimerions pouvoir transmettre la Structure En r alit au point o nous en sommes il pourra para tre que ce point de vue est presque tellement global qu il en devient th orique Cela ne nous importe pas En effet la seule chose que nous voyons maintenant c est que nous disposons d une Structure extr mement plastique et organis e capable de b n ficier sans effet d l t re d un largissement de son champ perceptif Nous donnons les directions prises par cet largissement en suivant le plan suivant D abord nous introduisons un nouveau point de vue c est dire un nouveau lieu de perception chapitre 6 3 1 Postuler la microsyntaxe page 109 ci dessous Ensuite nous tudions la
273. utilisateur lieux personnes organisations sociales v nement etc l existence de r sum s r dig s en une langue diff rente de l anglais montre que les r sum s sont susceptibles d tre lus par des locuteurs non anglophones de langue maternelle Un coup de pouce en aide la traduction semble utile Il reste le besoin d extraire des th mes des films attaque de fourgons voyage d exploration etc afin de renforcer le calcul des profils En r sum Identification de la langue Aide la lecture des r sum s d IMDb pour un locuteur non natif Extraction des entit s nomm es Indexation des th mes 52 www imdb com 59 5 1 2 4 1 Aide la lecture Le dictionnaire pr sent dans la section pr c dente enrichi de la morphologie a fourni les l ments n cessaires au d monstrateur One click translator 10 Conquest of th 9 City That Never Tex Weaver is working under cover to bring in a si gang of bank robbers When he is killed Tim Ross 8 Heldorado 7 Border Caballerc Natural Language Processing and Multimedia Browsing Concrete and Potential Contributions Figure 11 Le d marrage d Alexandria l issue du projet AMBIENCE Ce d monstrateur a motiv nos orientations de d veloppement industriel partir de 2004 Il s agit du projet Alexandria il est aujourd hui dans les 10 000 premiers sites au monde en termes de fr quentation 5 1 2 4 2 Extraction et normalisation des ent
274. utiliser Lexidiom S miographe pour d crire ces automates C est ce que nous avons fait dans le cadre du projet IVOMOB page 48 Mais l usage est moyennement adapt et l tude d une articulation avec des outils comme Nooj Silberztein 1999 serait certainement bienvenue Cette g n ration qui ne devrait pas comporter trop de combinaisons nous n avons que trois l ments en entr e dont dans ce cas deux constantes d pend du lexique de la langue et de la nature de la propri t Par exemple pour la propri t poids de l entit corps nous aurons des adjectifs comme lourd ou l ger ces classes existent d j dans le dictionnaire et des formes 119 plus compliqu es comme de XXX kg d un grand poids etc ces derni res formes incluent souvent des expressions r guli res qui compliquent la perception Enfin concernant quel le mot est tout en haut En effet sa d finition le fait se d clencher dans les cas suivants entit quel cheval ou quel beau cheval 1 propri t entit quelle est la couleur du cheval et le place en position de surveillance des v nements propri t connue entit cheval d un beau blanc 6 3 2 3 3 Le Dictionnaire les instances et la Structure L ensemble des agents du S miographe sont int gr s au texte totalement m l s ce dernier pour rep rer les v nements qui se produisent non pas seulement au niveau des concepts g n raux mais galement au niveau
275. v tr projeter v tr jeter v tr Figure 3 Deux sens de projeter dans le dictionnaire extrait La figure pr sente deux sens de projeter en cr ant deux n uds diff rents pour ce mot Elle emploie de nouveaux l ments formels comme caract ristique que nous pr senterons au paragraphe 3 1 2 page 24 16 faire qqch pour un animal th me vers theme jJ ce qui est pris comme animal classe spec enc mammif res th me sous p dr embranchement des a vert br s theme spec vers ee a super classe des mammif res classe vers theme carnivores theme th me spec _ j sous classe des euth riens classe M vers theme 1 cynof lo d s spec vers theme th me classe ordre des carnivores _J __ vers theme canid s th me spec superfamille des spec vers theme K cynof lo d s classe vers theme Vers theme renard th me famille ne canid s classe ispec vers theme AS renard classe s gen spec spec N renard n o isatis n renard polaire n vers theme cri son produit par faire qqch pour un animal classe un animal th me vers theme _ fourrure de renard classe vers theme spec _ crier produire un cri classe gen crier vti
276. valutation of terminology extractors principles and experiments Proceedings of the First International Conference on Language Resources amp Evaluation LREC T Brants S Skut H Uskoreit 1999 Syntactic annotation of a german newspaper corpus In Treebank Workshop Paris Atala Bresnan et Kaplan 1981 Lexical functional grammar a formal system for grammatical representation The mental representation of grammatical relations MIT Press Cambridge Massachussetts E Brill 1992 A simple rule based part of speech tagger Third Conference on Applied Natural Language Processing pages 152 155 Trente Italie E Brill 1995 Transformation based error driven learning and natural language processing A case study in part of speech tagging Computational Linguistics 21 4 543 565 E Brunet Peut on mesurer la distance entre deux textes Corpus Num ro 2 La distance intertextuelle d cembre 2003 mis en ligne le 15 d cembre 2004 lien URL http corpus revues org document30 html Consult le 03 septembre 2008 P Cadiot et F Nemo 1997 Propri t s extrins ques en s mantique lexicale French Language Studies 7 L J Cahill G Gazdar 1999 The polylex architecture multlingual lexicons for related languages T A L Traitement automatique du langage volume 40 num ro 2 pp 3 25 N Calzolari 1998 An overview of written language Ressources in Europe a few Reflexions Facts and a Vision Proceedings o
277. vation nous avons encha n les traitements d crits dans la figure suivante Un r sum en anglo am ricain Etiquetage et lemmatisation V R sum tiquet Elimination des entit s nomm es d j trouv es galement et malheureusement aussi des l ments comme War dans Vietman War Elimination des mots outils que nous ne savons pas utiliser au plan th matique pr p pronom d t certains noms adj et verbes Liste de candidats mots cl s Mesure d activation de chaque nom par des autres mots cl s Tri Ecriture du r sultat R sultat Cin matique de l extraction des th mes 62 Au plan informatique le r sultat de notre intervention a videmment pris la forme de fichiers XML enrichis de nombreuses m tadonn es La figure suivante montre un exemple de r sultat obtenu A famous French filmmaker Jean Luc Godard is hired by a major Hollywood producer Laszl Szab to make a documentary on the state of post Cold War Russia The filmmaker though subverts the project by stubbornly remaining in France and casting himself as the title character of Dostoyevsky s The Idiot offering up a series of typically Godardian musings on art politics the nature of images and the future of cinema Personnes e Jean Luc Godard e L szl Szab e Dostoyevsky Lieux e Hollywooc e Russia e France Titres e The Idiot Approche activation filmmaker 985 hired 759 producer

Download Pdf Manuals

image

Related Search

Related Contents

  Supersonic SC-6501 car speaker  Kenwood DDX7045 Car Video System User Manual  Samsung FW87KST دليل المستخدم  Jungsoft Muzio MP3 Player  Plafonnier IP65 HighLight XL  AVISO LEGAL_ZENDIS  i-ais-BS1 - i-Marine Technologies  USER`S MANUAL - Icon Heath & Fitness  SOFLEX  

Copyright © All rights reserved.
Failed to retrieve file