Home

- SHS Web of Conferences

image

Contents

1. Tableau 9 Hyperonymes et m ronymes non rep r s par l AD On observe tout d abord dans la liste d hyperonymes deux couples probl matiques car ils ne passent pas le test propos par Cruse pour identifier cette relation savoir la possibilit pour le couple Y X d int grer le patron X est un type de Y S il est vrai par exemple que le sud est une direction et le pape un oiseau le rock n est pas un orchestre ni le championnat un lieu Le couple po te racine pose lui un probl me particulier d homonymie nom commun nom propre Les sept couples restants illustrent des cas de relation d hyperonymie dans lesquels les deux termes ne sont pas substituables dans le corpus Trois d entre eux posent nouveau des probl mes de polys mie pape pens e organe Restent quatre couples direction sud endroit tribunal juge m tier r alisateur m tier qui pr sentent un v ritable d calage distributionnel Ils illustrent tous les quatre le fait que le terme sp cifique n est plus con u en contexte comme une instance du terme g n rique il n h rite pas de son type s mantique juge et r alisateur entrent dans des contextes d signant des individus tribunal dans des contextes d signant un collectif humain sud d signe une zone et non une direction L tude de l hyperonymie par le biais de PAD offre un point de vue int ressant sur la question de la cat gorisation s mantique qui op re effectivement dans le disc
2. le contexte sentier de qui permet de rapprocher promenade et randonn e est plus informatif que le contexte faire OBJ qui a une distribution beaucoup plus tendue Le premier a donc plus de poids que le second dans le calcul de similarit La valeur d un ensemble de param tres score de la mesure de similarit types de contextes consid r s seuil de fr quences des mots et des contextes etc peut tre ajust e ces choix ont n cessairement des cons quences sur les r sultats Van der Plas 2008 Baroni et Lenci 2011 Dans la version de la base que nous avons utilis e nous avons opt pour les seuils suivants les triplets pris en compte dans le calcul ont une fr quence sup rieure ou gale 5 le seuil de productivit a t galement fix 5 le score de Lin consid r est sup rieur ou gal 0 1 La taille de la base obtenue avec ces r glages est de pr s de 4 millions de paires 3 922 657 exactement Les tableaux 1 et 2 donnent quelques illustrations de cette relation de voisinage Le tableau 1 montre les premiers voisins du nom exp dition productivit de 248 il apparait dans 248 triplets diff rents en position de d pendant par ordre d croissant de la mesure du Lin Le nombre de contextes diff rents dans lesquels appara t chaque lemme est indiqu dans la troisi me colonne Le deuxi me tableau montre les voisins du verbe r parer lorsque l on consid re la position objet Ce verbe comprend lui m m
3. tats mentaux col re m contentement Ainsi dans le cas de veine touche commencement et flamme les synonymes ne sont pas rep r s par PAD parce que l acception sur laquelle porte la relation de synonymie ne se manifeste pas ou trop peu Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 1013 Congr s Mondial de Linguistique Fran aise CMLF 2012 SHS Web of Conferences 1 2012 SHS Web of Conferences DOI 10 1051 shsconf 20120100293 aux auteurs publi par EDP Sciences 2012 dans le corpus Dans le cas de mots comme att nuer les synonymes partagent un m me sens mais se distinguent du point de vue de leurs distributions le crit re de la substituabilit se trouve mis mal dans la mesure o les contextes s lectionn s par le mot et ses synonymes sont tellement diff rents que l analyse ne permet pas de les rapprocher 4 Conclusion L utilisation combin e d une base distributionnelle et de deux ressources externes permet de mettre l preuve le crit re de substituabilit consid r habituellement comme un test pour appr cier la propension de deux mots entretenir une relation lexicale Cette tude montre la difficult appr hender le contenu d une base distributionnelle pl thorique r sultat de l analyse d un vaste corpus de textes caract ris par l h t rog n it des termes abord s La confrontation avec des
4. Attribution 2 0 http creativecommons org licenses by 2 0 SHS Web of Conferences 1 2012 Congr s Mondial de Linguistique Fran aise CMLF 2012 DOI 10 1051 shsconf 20120100293 SHS Web of Conferences aux auteurs publi par EDP Sciences 2012 Noms destruction g n ration accident substance chec r solution huile vague franchise obligation adh sion refus bonheur douleur d faut vertu d clin enfance assurance peur Verbes b tir renverser interrompre progresser d cliner progresser an antir fortifier agiter calmer embaucher virer chiffrer d chiffrer dormir r veiller attiser mod rer pleurer rire Tableau 8 Antonymes non rep r s par l analyse distributionnelle Comme dans le cas de la synonymie on constate ensuite que l on a affaire des antonymes partiels dont le sens concern par la relation est minoritaire dans le corpus C est le cas de vertu d faut il est plut t question dans le corpus de vertu au sens de propri t ou d clin enfance d clin ne d signe g n ralement pas un processus affectant l individu Le m me ph nom ne s observe sur les verbes notamment dans le cas de b tir renverser b tir prend pour objets des noms de b timents ainsi que quelques noms abstraits dont certains sont partag s avec renverser empire royaume mais celui ci s emploie principalement au sens figur de provoquer la chute de venir bout de an antir et privil gie en po
5. de Caen Manning C D et Sch tze H 1999 Foundations of statistical natural language processing MIT Press Cambridge Murphy L 2003 Semantic relations and the lexicon Cambridge University Press Nazarenko A Zweigenbaum P Bouaud J et Habert B 1997 Corpus Based Identification and Refinement of Semantic Classes Proceedings of the 1997 American Medical Informatics Association AMIA AMIA 585 589 Ruge G 1992 Experiments on linguistically based term associations Information Processing and Management 28 3 317 332 Sahlgren M 2006 Towards pertinent evaluation methodologies for word space models Proceedings of the 5 International Conference on Language Resources and Evaluation Turney P D 2008 A uniform approach to analogies synonyms antonyms and associations COLING 905 912 van der Plas L 2008 Automatic lexico semantic acquisition for question answering Th se de doctorat Universit de Groningen Pays bas Winston M Chaffin R et Herrmann D 1987 A taxonomy of part whole relations Cognitive Science 11 417 441 La ressource est consultable l adresse suivante http redac univ tlse2 fr applications vdw html 2 Site du DES http www crisco unicaen fr des 3 Site de JeuxDeMots http www lirmm fr jeuxdemots 4 Ces d finitions sont extraites du Tr sor de la Langue fran aise http atilf atilf fr tlf htm 5 F 2 pr cision rappel pr cision rappel Article en acc
6. du crit re de substituabilit met au jour des couples dont l un des termes ne peut tre isol du contexte sp cifique qui justifie le rapprochement s mantique L tude des couples de verbes illustre galement des cas de rapprochement extr mement sp cifiques des deux mots via la relation de synonymie Ainsi chanter et ex cuter ne sont proches que lorsqu ex cuter signifie interpr ter une chanson Autre exemple pousser ne peut tre rapproch de conseiller que dans des contextes tr s particuliers or dans le corpus les emplois de pousser sont tr s vari s puisqu il appara t fr quemment comme verbe support pousser un cri pousser la reconnaissance jusqu ou avec un compl ment d objet concret pousser une porte ce qui exclut le rapprochement avec conseiller On se rend compte que m me lorsqu il r git des compl ments d objet humains troupe pays auteur il n est pas paraphrasable par conseiller mais par des verbes plus g n riques comme conduire ou amener sans restriction sur la nature du sujet On peut noter d ailleurs que le voisinage distributionnel rep re d autres synonymes plus proches de conseiller savoir recommander ou inciter L absence de ces couples dans les voisins s explique donc par le biais qu introduit le corpus lequel s lectionne des acceptions des mots qui ne correspondent pas celle qui est vis e par le couple de synonymes Par ailleurs cette confrontation r v le d
7. lexiques d j constitu s fournit un angle d tude r ducteur mais clairant Elle montre que la proximit s mantique mise au jour par l analyse distributionnelle d passe tr s largement celle dont ces lexiques rendent compte Elle montre galement que les relations lexicales ne se traduisent pas syst matiquement par une proximit distributionnelle effective dans un vaste corpus En nous concentrant sur ce deuxi me aspect nous avons d gag diff rents l ments d analyse expliquant ce d calage Les premiers l ments sont li s au mode de calcul de l AD qui favorise la mise au jour de relations entre des mots non seulement fr quents dans le corpus mais de fr quence comparable Cela ajoute une contrainte statistique forte sur le test de substituabilit Ceci tant pos nous avons montr que l importance du d calage entre les voisins et les deux autres ressources lexicales utilis es fournissait un angle d tude int ressant sur l opposition entre des relations attribu es in abstracto et des relations construites dans le discours A nsi certaines relations d hyperonymie ne sont pas op rantes dans le corpus car la cat gorisation s mantique qu elles induisent n est pas mobilis e dans le texte des mots n ont aucun synonyme parmi leurs voisins parce que leur acception dans le corpus n est pas prise en compte dans le dictionnaire des rapports de synonymie tr s sp cifiques relevant d emplois restricti
8. sistant robuste qui demande peu de soin Ce sens est absent des synonymes qui se r partissent entre les acceptions relatif l agriculture la vie des champs champ tre pastoral paysan rural sans savoir vivre grossier rude sauvage vulgaire et sans appr t brut brut primitif simple Nous avons ici affaire des situations o des acceptions enti res d un mot ne sont pas d tect es par l analyse du corpus ce d calage est r v lateur d emplois atypiques du mot au regard de la repr sentation qu en donne le dictionnaire Certains d calages entre voisins et synonymes s apparentant de la polys mie peuvent s expliquer par des diff rences de registre ou des emplois figur s Le registre du corpus peut en effet exclure l emploi de certains synonymes la plupart des synonymes du nom fouche ne sont pas rep r s car ils renvoient l acception famili re aspect g n ral d une personne d une chose du mot allure apparence look maintien alors que l analyse fait merger le sens de commande manuelle voisins bouton dispositif clavier C est galement le cas de veine dont les synonymes li s son acception chance fortune hasard prosp rit r ussite bonheur pot ne sont pas d tect s par l analyse ses voisins art re nerf muscle sont ici aussi li s son sens premier De m me les synonymes relevant d emplois figur s sont
9. 14 puiser 16 13 adjoindre 33 12 allonger 22 12 capter 50 11 ajuster 40 11 enrichir 299 10 Adjectifs rude 15 24 grossier 12 18 timide 18 13 barbare 71 11 valable 19 10 tendre 12 10 rustique 10 10 nuisible 13 9 digne 40 8 spontan 20 8 Tableau 13 Exemples de mots pour lesquels aucun des synonymes n a t capt On peut principalement distinguer deux raisons expliquant le d calage entre les synonymes d un mot et ses voisins distributionnels La plus vidente est celle de la polys mie d j voqu e dans les analyses de la section 3 3 les sens du mot excitation qui mergent du corpus Wikip dia correspondent principalement ses acceptions du point de vue physiologique voisins infection l sion pathologie et de celui de la physique voisins ionisation vibration radiation ce qui implique que l ensemble de ses synonymes relevant du domaine des tats mentaux effervescence encouragement enthousiasme ne sont pas d tect s Ainsi excitation n appara t pas dans des contextes comme susciter OBJ ou exprimer OBJ comme c est le cas pour plusieurs de ses synonymes mais plut t dans des SN comme lumi re d excitation courant d excitation ou spectre d excitation qui apparaissent comme des termes appartenant des domaines de sp cialit On peut galement citer le cas de l adjectif rustique dont les emplois dans le corpus rel vent de l acception r
10. 3 4 les mesures de pr cision et de rappel pour centrer notre analyse sur les mots dont les synonymes ne sont quasiment pas rep r s par l AD 2 Pr sentation des donn es Cette tude repose sur la confrontation des r sultats de l analyse distributionnelle automatique et de deux ressources lexicales le Dictionnaire lectronique des Synonymes du CRISCO et une partie du r seau de la base JeuxDeMots du LIRMM Nous pr sentons chaque ressource en commen ant par la ressource distributionnelle 2 1 Les voisins distributionnels La base distributionnelle utilis e dans cette tude a t obtenue partir du traitement d un corpus constitu de l int gralit des articles de l encyclop die en ligne Wikip dia dans une version datant d avril 2007 Dans la suite de l article cette base est d sign e sous le nom Voisins de Wikip dia VDW Le corpus utilis compte environ 194 millions de mots Ce choix est motiv par des consid rations pratiques de disponibilit de la ressource mais galement par l int r t pr sent par une collection de textes homog nes du point de vue du genre mais vari s sur le plan th matique ce qui permet d observer le comportement d unit s lexicales s mantiquement tr s diverses Le mod le distributionnel qui a t appliqu a t con u par Didier Bourigault partir des sorties de l analyseur Syntex Bourigault 2002 et 2007 Il s agit donc d un mod le d analyse distributionne
11. Lafourcade 2007 Les relations propos es incluent la synonymie l antonymie l hyperonymie et la m ronymie ainsi que des relations moins classiques comme les relations chose lieu agent action action instrument etc Afin de proc der la mesure du taux de recouvrement entre les voisins de Wikip dia et les deux lexiques que nous avons choisis comme talons nous avons harmonis les donn es pour assurer leur comparabilit e nous avons supprim la mention de la relation associ e aux pr dicats de la base de voisins pour ne conserver que le lemme Par exemple les verbes arriver venir sont en relation dans plusieurs couples de voisins car ils sont unis par la relation sujet ainsi que par diff rentes relations pr positionnelles en avec etc Ces doublons ont t effac s pour ne retenir que la relation g n rique Est voisin arriver venir e de la m me fa on les couples de JDM sont galement d doublonn s dans la premi re phase de comparaison globale lorsqu un couple de mots est list plusieurs fois par le biais de plusieurs relations s mantiques nous ne consid rons qu une instance du couple titre d exemple le couple montagne sommet appara t 9 reprises via les relations id e associ e chose lieu synonymie m ronymie etc e les relations de JDM ont t sym tris es elles le sont par d faut dans le cas des deux autres ressources c est dire que la relation A B est syst matiquem
12. SHS Web of Conferences 1 2012 Congr s Mondial de Linguistique Fran aise CMLF 2012 DOI 10 1051 shsconf 20120100293 SHS Web of Conferences aux auteurs publi par EDP Sciences 2012 Le test de substituabilit l preuve des corpus utiliser l analyse distributionnelle automatique pour l tude des relations lexicales Fran ois Morlane Hond re amp C cile Fabre CLLE ERSS Universit de Toulouse francois morlane cecile fabre univ tise2 fr 1 Introduction Dans Distributional structure Harris 1954 formule l hypoth se distributionnelle selon laquelle la proximit s mantique de deux mots se traduit par une similarit au niveau de leurs contextes d apparition respectifs leurs distributions Ce principe de base a t automatis d s le d but des ann es 1990 en particulier par Hindle 1990 Hearst 1992 Ruge 1992 ou Grefenstette 1994 II a t dans un premier temps impl ment dans des syst mes orient s vers la cr ation de thesaurus partir de textes sp cialis s puisque c est pr cis ment pour traiter des donn es de ce type qua t formul e l hypoth se distributionnelle les restrictions s lectionnelles particuli rement fortes qui r gissent la distribution des mots dans ces textes en font un mat riau propice la d limitation de classes distributionnelles On peut ainsi citer les travaux de Grefenstette 1992 portant sur des textes issus du domaine m dical ou parmi les
13. a construction d ontologies partir de corpus Actes de la 9e conf rence sur le Traitement Automatique de la Langue Naturelle 75 84 Bourigault D 2007 Un analyseur syntaxique op rationnel SYNTEX M moire d habilitation diriger des recherches Universit Toulouse II Le Mirail Bouaud J Habert B Nazarenko A et Zweigenbaum P 2000 Regroupements issus de d pendances syntaxiques sur un corpus de sp cialit cat gorisation et confrontation deux conceptualisations du domaine ng nierie des connaissances volutions r centes et nouveaux d fis Charlet J Zacklad M Kassel G et Bourigault D eds Eyrolles Paris 275 290 1014 Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 SHS Web of Conferences 1 2012 Congr s Mondial de Linguistique Fran aise CMLF 2012 DOI 10 1051 shsconf 20120100293 SHS Web of Conferences aux auteurs publi par EDP Sciences 2012 Cruse D A 1986 Lexical Semantics Cambridge University Press Dias G Moraliyski R Cordeiro J et Doucet A 2010 Automatic discovery of word semantic relations using paraphrase alignment and distributional lexical semantics analysis Natural Language Engineering 1 1 1 30 Galy E et Bourigault D 2005 Analyse distributionnelle de corpus de langue g n rale et synonymie 4 Journ es de la linguistique de corpus 2005 Grefenstette G 1992 SEXTANT explor
14. a productivit moyenne de leurs deux membres e le rapport entre les productivit s des deux membres Les paires que nous analysons en priorit sont donc celles qui ont une productivit moyenne lev e et dont les deux membres ont des productivit s comparables rapport sup rieur ou gal 0 44 Parmi celles dont les productivit s moyennes taient les plus lev es nous avons extrait e les 10 premi res paires de noms et de verbes pour les synonymes et les antonymes e les 10 premi res paires de noms pour les hyperonymes et les m ronymes 3 3 1 Synonymie Le premier tableau d exemples tableau 7 montre des paires de synonymes du DES qui ne pr sentent pas de proximit distributionnelle dans le corpus Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 1007 Congr s Mondial de Linguistique Fran aise CMLF 2012 SHS Web of Conferences 1 2012 SHS Web of Conferences DOI 10 1051 shsconf 20120100293 aux auteurs publi par EDP Sciences 2012 Noms air aspect mois traitement pied plante masse public tape h tel course distance distance opposition acc s crise approche arriv e croix preuve battre tourner monter relever doter favoriser juger mesurer chanter ex cuter Verbes i 3 assister entourer lever remonter conseiller pousser rapporter rattacher aboutir acc der Tableau 7 Synonymes fr quents dans le
15. alyse distributionnelle automatique afin de mieux comprendre sous quelles conditions le crit re distributionnel permet de rep rer les relations lexicales les plus usuelles synonymie antonymie hyperonymie m ronymie Le test de substituabilit est le crit re cl auquel les lexicologues ont recours pour identifier la plupart des relations de nature paradigmatique entre mots Cruse 1986 Murphy 2003 Un syst me d analyse distributionnelle automatique offre pr cis ment la possibilit de mettre en uvre ce test grande chelle sur un large corpus Il constitue un outil int ressant pour la v rification empirique de ce principe et de fa on plus g n rale pour l tude de ces relations s mantiques en corpus Nous avons choisi d aborder cette question en confrontant les r sultats du programme d AD dont nous disposons avec des donn es issues de ressources lexicales recensant diff rents types de relations s mantiques synonymie antonymie hyperonymie m ronymie Cette confrontation montre de forts d calages entre la ressource distributionnelle et ces lexiques Si une part importante des paires reli es dans les lexiques sont des voisins distributionnels beaucoup d entre elles ne sont pas identifi es par l AD m me quand il s agit d unit s lexicales fr quentes dans le corpus Nous essayons de comprendre les raisons de ces Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons
16. au 12 Les dix mots ayant la mesure F la plus lev e 3 4 2 2 Mots dont la mesure F est nulle La diff rence entre le nombre moyen de voisins et de synonymes par mot implique que la plupart des mots ont une mesure F extr mement basse cf 3 4 1 Ainsi un mot comme int resser a un nombre tellement lev de voisins 1221 que sa mesure F est de 0 04 alors que l ensemble de ses 20 synonymes a t capt le rappel est de 1 la pr cision de 0 02 Nous nous int ressons ici aux mots dont aucun des synonymes n a pu tre capt par l AD leur pr cision rappel et mesure F est donc de 0 Comme dans la section pr c dente nous n avons pas pris en compte les mots ayant moins de 10 voisins Le tableau 13 rapporte pour chaque cat gorie quelques uns des mots parmi ceux qui ont le plus de synonymes sous la forme mot nombre de voisins nombre de synonymes 1012 Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 SHS Web of Conferences 1 2012 Congr s Mondial de Linguistique Fran aise CMLF 2012 DOI 10 1051 shsconf 20120100293 SHS Web of Conferences aux auteurs publi par EDP Sciences 2012 Noms agr ment 33 19 c ur 17 18 flamme 80 14 conformit 20 14 excitation 18 14 commencement 102 13 illusion 50 13 accompagnement 64 12 touche 55 12 Verbes 272087 45 26 parer 233 16 grouper 12 16 att nuer 13
17. corpus mais non rep r s par PAD L examen des couples de noms montre que la polys mie des termes consid r s fournit une premi re explication l absence du couple parmi les voisins Par exemple la synonymie air aspect porte sur une acception du mot air qui n est que tr s peu repr sent e dans la distribution de ce mot dans le corpus au profit des acceptions fluide gazeux que l on trouve dans des contextes du type air vici courant d air air refroidir et m lodie air d op rette danser sur l air de Il en va de m me pour les couples acc s crise et approche arriv e Si les deux mots partagent certains contextes par exemple d mence jalousie et fi vre pour le couple acc s crise ceux ci p sent peu dans une distribution par ailleurs plus largement associ e au sens spatial du mot acc s Les autres couples rel vent d un autre cas de figure Il ne s agit cette fois plus seulement de termes qui pourraient dans un corpus diff rent pr senter une distribution plus semblable Ils illustrent en effet des cas de synonymie extr mement particuliers voire douteux Consid rons les exemples mois traitement ou croix preuve La synonymie porte sur un emploi tr s fig d un des mots Mois a le sens de salaire traitement principalement dans l expression toucher son mois Croix n a le sens d preuve que dans le contexte porter sa croix Le d calage distributionnel est donc pr visible la non application
18. e relations consid r es sont rep r es dans des proportions comparables N anmoins on observe que la synonymie est un peu mieux rep r e Cette diff rence est difficile interpr ter car il peut s agir d un effet li une diff rence de qualit entre les deux bases JDM et le DES On remarque galement que les trois relations sur lesquelles nous nous sommes focalis s pour JDM sont mieux identifi es que la moyenne des relations couvertes par cette base Le second constat c est que la majorit des paires recens es dans les deux ressources de r f rence ne passent pas le test de l AD dans le corpus consid r C est cet aspect que nous allons explorer dans ce qui suit en commen ant par d gager quelques caract ristiques statistiques g n rales des bons candidats l AD 3 2 Caract ristiques g n rales des voisins distributionnels Le tableau 6 met en vidence certaines contraintes statistiques que le calcul distributionnel fait peser sur les couples de mots Dans ce tableau on note A N B l intersection de A et de B et A B la diff rence ensembliste de A et de B c est dire les l ments qui appartiennent A mais pas B Ces chiffres confirment que le calcul distributionnel favorise les mots qui pr sentent certaines propri t s en termes de fr quence et de productivit Quelle que soit la relation consid r e la somme de la fr quence des mots qui composent les couples de voisins est plus
19. e 45 cooccurrents dans cette position La premi re ligne se lit de la mani re suivante r paration est voisin de r parer car 14 mots apparaissent la fois en position de compl ment du nom de r paration et en position objet de r parer Cat gorie Lemme Productivit Nb contextes partag s Prox Lin N campagne 468 131 0 332 N mission 470 130 0 322 N op ration 493 131 0 322 N voyage 301 91 0 308 N croisade 92 51 0 275 Tableau 1 5 voisins les plus fortement associ s au nom exp dition en position de d pendant Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 1003 Congr s Mondial de Linguistique Fran aise CMLF 2012 SHS Web of Conferences 1 2012 SHS Web of Conferences DOI 10 1051 shsconf 20120100293 aux auteurs publi par EDP Sciences 2012 Cat gorie Lemme Relation Productivit Nb contextes partag s Prox Lin N r paration de 23 14 0 394 V endommager OBJ 48 15 0 257 N r fection de 11 7 0 216 V apercevoir OBJ 39 11 0 21 V d molir OBJ 25 9 0 209 Tableau 2 5 voisins les plus fortement associ s au verbe r parer travers la relation objet Ces exemples montrent la diversit des relations accessibles par le calcul distributionnel Celui ci d tecte la fois des relations lexicales de type synonymie et antonymie des relations de d rivation et des relation
20. e Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 Congr s Mondial de Linguistique Fran aise CMLF 2012 SHS Web of Conferences 1 2012 SHS Web of Conferences DOI 10 1051 shsconf 20120100293 aux auteurs publi par EDP Sciences 2012 3 4 2 Analyse des propri t s des mots en fonction de leur mesure F Nous analysons deux types de mots dans ce qui suit ceux dont les voisins recouvrent les synonymes dans des proportions importantes et ceux pour lesquels ce n est pas le cas Nous cherchons comprendre ce qui conditionne cette diff rence de comportement vis vis de PAD Nous nous appuyons sur la mesure F pour diff rencier ces deux ensembles Afin d viter de prendre en compte les couples qui ne sont pas d tect s par l AD cause de leur diff rence de productivit cf 3 2 nous avons choisi d carter tous ceux dont le rapport de productivit tait inf rieur la moyenne 0 33 La base obtenue compte 6727 mots 4102 noms 1401 verbes et 1224 adjectifs 3 4 2 1 Mots dont la mesure F est lev e Le tri des mots par mesure F d croissante fait merger des mots qui pour la plupart ont tr s peu de voisins et tr s peu de synonymes le nombre de voisins moyen des 34 mots qui ont une mesure F sup rieure ou gale 0 5 est de 2 6 et leur nombre moyen de synonymes est de 2 1 Certains mots se distinguent par un nombre un peu plus lev de voisins Le tableau 12 rapporte les 10 m
21. e le tout soit consid r sous son angle anatomique ce qui n est que tr s marginalement le cas dans le corpus ainsi le mot chat appara t principalement dans des contextes adjectivaux domestique errant sauvage parmi lesquels seuls quelques adjectifs de couleur seraient attribuables ses parties du corps Dans le cas de la m ronymie il semble donc plus int ressant de se demander sous quelles conditions le principe de substituabilit s applique et par exemple quels types de m ronymie sont les plus susceptibles d y r pondre L examen rapide des couples de m ronymes qui sont galement des voisins semble par exemple montrer une pr dominance de la relation membre collection bateaul flotte musicien orchestre bien que la relation composant objet puisse galement figurer farine c r ale eau corps Nous avons consacr une tude plus syst matique de ce ph nom ne para tre qui confirme notamment que les couples de m ronymes de type membre collection sont particuli rement bien rep r s par l AD Cela est d au fait que leurs deux membres peuvent appara tre dans des contextes similaires naviguer SUJ couler _OBJ ou encore quipage de pour le couple bateau flotte L observation d un petit chantillon de couples pour les quatre relations tudi es permet de d gager diff rentes explications possibles aux limites du test de substituabilit La polys mie en est une Les couples qui ne r pondent pas au te
22. ent compl t e par la relation B A Dans le cas des relations non sym triques que sont l hyperonymie et la m ronymie l orientation de la relation n est donc pas consid r e 1004 Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 SHS Web of Conferences 1 2012 Congr s Mondial de Linguistique Fran aise CMLF 2012 DOI 10 1051 shsconf 20120100293 SHS Web of Conferences aux auteurs publi par EDP Sciences 2012 e les couples de mots impliquant au moins une unit polylexicale ont t retir s des trois bases Cette d cision a t prise pour simplifier la proc dure de comparaison En particulier Syntex lemmatise syst matiquement chacun des l ments des unit s polylexicales affaires trang res devient affaire tranger ce qui complique la comparaison avec les termes complexes contenus dans les deux autres ressources Le tableau 3 montre que ces modifications entra nent comme on pouvait s y attendre une r duction substantielle du nombre de couples de voisins 37 8 Le nombre de synonymes varie assez peu peu d unit s polylexicales dans cette ressource En revanche l augmentation du nombre de couples de la base JDM est patente 40 6 pour la base dans son ensemble 91 pour les antonymes 4 4 pour les hyperonymes et 59 2 pour les m ronymes C est la cons quence de la sym trisation des relations La faiblesse du pource
23. es cas de synonymie tr s restrictifs o le principe de substituabilit s applique de fa on marginale soit parce qu on a affaire un sens rare soit parce que l emploi est associ des contextes tr s sp cifiques voire du figement 3 3 2 Antonymie Le premier constat que l on peut faire au vu des paires d antonymes du tableau 8 est que ce ne sont pas pour la plupart des paires d antonymes canoniques au sens de Murphy 2003 c est dire unies par une relation d opposition binaire conventionnelle ex bonheur malheur vicelvertu Seule la paire verbale pleurerl rire rel ve incontestablement de cette cat gorie On voit ainsi que l antonyme le plus appropri de destruction n est pas g n ration mais cr ation et celui d chec n est pas r solution mais r ussite victoire ou succ s Les couples mieux assortis que sont cr ation destruction chec victoire chec r ussite chec succ s bonheur malheur apparaissent par contre tous dans la base de voisins Certains couples semblent d ailleurs contestables C est particuli rement le cas de huile vague r sultant peut tre d une g n ralisation abusive de l opposition entre mer d huile et vagues On peut galement s tonner de trouver dormir r veiller parmi les antonymes la forme pronominale se r veiller serait plus ad quate de m me pour interromprelprogresser 1008 Article en acc s libre plac sous licence Creative Commons
24. fs voire fig s ne se traduisent par aucune proximit distributionnelle L utilisation de l AD en appoint de la construction de ressources lexicales g n riques peut ainsi permettre d introduire des informations relatives au caract re central ou marginal de la relation dans diff rents corpus Cette tude sugg re d autres pistes d analyse relatives la diff rence de comportement des relations lexicales vis vis du test de substituabilit comme on a pu le voir dans le cas de l antonymie certains antonymes semblent avoir une distribution nettement disjointe ou de la m ronymie seuls certains types de m ronymie semblent se pr ter au test de substitution L analyse distributionnelle automatique fournit donc un observatoire int ressant pour tudier de fa on empirique la manifestation des relations s mantiques en discours R f rences bibliographiques Agirre E Alfonseca E Hall K Kravalova J et Soroa A 2009 A study on similarity and relatedness using distributional and WordNet based approaches Proceedings of NAACL HLT Baroni M et Lenci A 2010 Distributional Memory A general framework for corpus based semantics Computational Linguistics 36 4 1 49 Baroni M et Lenci A 2011 How we BLESSed distributional semantic evaluation Proceedings of the GEMS 2011 Workshop on GEometrical Models of Natural Language Semantics Bourigault D 2002 UPERY un outil d analyse distributionnelle tendue pour l
25. ing unexplored contexts for semantic extraction from syntactic analysis Proceedings of the 30th Annual Meeting of the Association for Computational Linguistics Association for Computational Linguistics 324 326 Grefenstette G 1994 Corpus derived first second and third order word affinities Proceedings of Euralex Amsterdam 279 290 Harris Z 1954 Distributional structure Word 10 23 146 162 Hearst M 1992 Automatic acquisition of hyponyms from large text corpora Proceedings of the 14th International Conference on Computational Linguistics Association for Computational Linguistics 539 545 Hindle D 1990 Noun classification from predicate argument structure Proceedings of the 28th annual meeting on Association for Computational Linguistics Association for Computational Linguistics 268 275 Kilgarriff A et Yallop C 2000 What s in a thesaurus Proceedings of the Second Conference on Language Resources and Evaluation 1371 1379 Lafourcade M 2007 Making people play for lexical acquisition Proceedings of the 7 Symposium on Natural Language Processing Lin D 1998 An information theoretic definition of similarity Proceedings of the 15 International Conference on Machine Learning 296 304 Manguin J L Fran ois J Eufe R Fesenmeier L Ouzouf C et S n chal M 2004 Le dictionnaire lectronique des synonymes du CRISCO un mode d emploi trois niveaux Cahiers du CRISCO 17 Universit
26. isins Il semblerait que non le tableau 11 montre qu nombre de voisins quivalent la cat gorie des adjectifs reste celle qui a la meilleure pr cision Ce ph nom ne est d autant plus remarquable que comme le montre le tableau 10 les adjectifs sont les mots pour lesquels le DES compte le moins de synonymes La diff rence de pr cision entre les noms verbes et adjectifs tend toutefois s estomper avec l augmentation du nombre de voisins Noms Verbes Adjectifs Nombre del s 0 11 0 13 0 2 de de6 10 0 07 0 09 0 11 voisins de 11 15 0 06 0 06 0 08 Tableau 11 comparaison de la pr cision des noms verbes et adjectifs nombre de voisins quivalents Pour les trois versions de la base la mesure F reste tr s basse mais l on peut observer une l g re augmentation la hausse de la pr cision a plus d influence que la baisse du rappel Toutefois alors que la mesure F de la base seuill e 0 3 est deux fois plus lev e que pour celle 0 1 le nombre moyen de voisins synonymes par mot est divis par cinq Cela signifie que le seuillage de la base implique un compromis entre rappel et pr cision avec d un c t une ressource tr s bruit e couvrant une grande proportion des synonymes et de l autre une ressource qui contient une plus grande proportion de synonymes mais dont la couverture est consid rablement r duite 1011 Article en acc s libre plac sous licenc
27. lev e que celle des non voisins Il en va de m me pour le crit re de productivit qui est d ailleurs g n ralement corr l la fr quence Les couples qui ont t rep r s par l analyse distributionnelle ont donc une productivit moyenne plus lev e que ceux qui ne l ont pas t De plus les mots qui composent les couples de voisins ont des fr quences et des productivit s plus quilibr es le rapport entre la fr quence respectivement la productivit des deux mots varie entre 0 42 et 0 45 pour les voisins respectivement 0 43 0 46 alors qu il oscille entre 0 2 et 0 31 pour les non voisins respectivement 0 18 0 28 Ce point est important on en conclut que des paires de synonymes dont l un a un sens plus sp cifique que l autre ex transformer et d guiser seront moins facilement 1006 Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 SHS Web of Conferences 1 2012 Congr s Mondial de Linguistique Fran aise CMLF 2012 DOI 10 1051 shsconf 20120100293 SHS Web of Conferences aux auteurs publi par EDP Sciences 2012 rep r es si cela se traduit par de fortes diff rences de fr quence dans le corpus Bien que la mesure de Lin soit con ue pour limiter l impact de ce d s quilibre il reste important et doit tre pris en consid ration Fr quence Rapport fr quence Productivit Rapport producti
28. lle structur Baroni et Lenci 2010 le contexte de chaque mot est compos de l ensemble des mots qui entretiennent avec lui une fonction syntaxique dans la phrase Cette caract ristique fournit des l ments plus pr cis pour l interpr tation des r sultats que la mise en uvre de simples cooccurrences La proc dure d analyse a t expos e dans Bourigault 2002 Nous en d crivons ici les principaux aspects L analyseur Syntex mod lise les d pendances entre les mots d une phrase sous la forme de triplets de lemmes lt gouverneur relation d pendant Seuls les triplets constitu s de noms ou de syntagmes nominaux de verbes et d adjectifs sont pris en compte pour le calcul des voisins Les relations syntaxiques consid r es sont les relations sujet objet la modification adjectivale ainsi que les relations pr positionnelles celles ci tant d crites par le biais de la pr position impliqu e On obtient ainsi les triplets suivants apr s analyse de la phrase Le navajo utilise un syst me de num rotation d cimal lt utiliser SUJ navajo gt lt utiliser OBJ syst me de num rotation gt lt utiliser OBJ syst me gt lt d cimal MOD syst me de num rotation gt lt d cimal MOD syst me gt lt syst me de num rotation gt 1002 Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 SHS Web of Conferences 1 2012 Congr s Mo
29. mot donn est le rapport entre le nombre de ses voisins qui apparaissent parmi ses synonymes et le nombre de ceux qui n y apparaissent pas e le rappel est le rapport entre le nombre de ses synonymes rep r s par les voisins et le nombre total de ses synonymes dans le DES Le calcul de la mesure F nous permet de prendre en compte ces deux aspects de la distribution des mots pour qu un mot ait une mesure F lev e il faut que ses voisins couvrent la plus grande proportion de couples recens s pour ce mot dans le dictionnaire des synonymes tout en produisant un minimum de bruit c est dire de paires de voisins n y apparaissant pas Nous nous appuyons sur ces mesures pour 1010 Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 SHS Web of Conferences 1 2012 DOI 10 1051 shsconf 20120100293 aux auteurs publi par EDP Sciences 2012 Congr s Mondial de Linguistique Fran aise CMLF 2012 SHS Web of Conferences faire merger les mots dont les voisins ne recoupent que tr s peu voire pas du tout les donn es du DES dans le but de mettre au jour leurs caract ristiques 3 4 1 Nous consid rons trois versions de la base des voisins dans le tableau 10 en faisant varier la valeur de la mesure de Lin de mani re observer le comportement des voisins selon le degr de proximit distributionnelle consid r Nous distinguons cette fois les voisins sel
30. ndial de Linguistique Fran aise CMLF 2012 DOI 10 1051 shsconf 20120100293 SHS Web of Conferences aux auteurs publi par EDP Sciences 2012 L analyse distributionnelle effectu e ensuite classe les mots selon un double rapprochement e les d pendants sont rapproch s sur la base des contextes gouverneur relation qu ils partagent Ainsi syst me est rapproch de mod le parce qu ils sont objets des m mes verbes calquer mettre au point imaginer On parle alors de rapprochement entre arguments e les gouverneurs munis de la relation sont rapproch s sur la base des d pendants qu ils r gissent Ainsi utiliser OBJ est rapproch de poss der OBJ parce que les d pendants en position objet de l un et de l autre se recouvrent largement ils partagent 780 lemmes diff rents particularit ordinateur t te On parle alors de rapprochement entre pr dicats Ces rapprochements sont calcul s l aide d une mesure de similarit entre les vecteurs de contextes associ s aux mots la mesure de Lin 1998 Le score de similarit de deux pr dicats arguments varie de 0 1 en fonction de plusieurs facteurs le nombre de contextes partag s le nombre de triplets diff rents dans lesquels chacun de deux mots appara t indice de productivit le degr de sp cificit du contexte qui permet d effectuer le rapprochement Ce dernier indice est calcul en utilisant la mesure d information mutuelle ainsi
31. ntage d augmentation des hyperonymes s explique par le fait que l effacement des unit s complexes r duit quasiment de moiti le nombre de couples alors que cette op ration n affecte que peu les autres relations beaucoup de couples d hyperonymes sont compos s d un syntagme nominal et de sa t te bouillon bouillon de poulet bi re bi re sans alcool Avant homog n isation Apr s homog n isation VDW 3 922 657 2 556 810 DES 339 182 358 001 Ensemble Anto Hypo M ro Ensemble Anto Hypo M ro JDM 753426 9946 45515 18646 1059003 18993 45 705 29 693 Tableau 3 Volumes des Voisins de Wikip dia VDW du Dictionnaire lectronique des Synonymes DES et de JeuxDeMots JDM en nombre de couples avant et apr s homog n isation Dans la section suivante nous confrontons ces trois ressources dans le but de comprendre ce qui conditionne le rep rage des relations lexicales par les m thodes d analyse distributionnelle automatique 3 Analyser le diff rentiel entre voisinage distributionnel et relations lexicales La comparaison des donn es est r alis e partir du lexique commun aux ressources consid r es deux deux VDW DES et VDW JDM nous consid rons le sous ensemble des couples du DES et de JDM dont les deux mots figurent dans le vocabulaire couvert par les voisins Les tableaux 4 et 5 montrent que le vocabulaire des voisins se retr
32. on leur cat gorie grammaticale Propri t s g n rales des voisins en terme de pr cision rappel Seuil Nombre 1 Nombre Nombre Nombre er Lin de Cat gorie de de de voisins Pr cision Rappel Mesure F couples voisins synonymes synonymes Ensemble 278 12 5 0 05 0 35 0 05 Noms 306 12 5 0 04 0 36 0 05 is RER Verbes 366 18 8 0 05 0 37 0 05 Adjectifs 86 9 3 0 09 0 32 0 08 Ensemble 42 12 2 0 10 0 18 0 08 Noms 39 11 2 0 09 0 17 0 08 0 2 300477 Verbes 78 18 4 0 08 0 18 0 07 Adjectifs 14 7 1 0 17 0 18 0 11 Ensemble 9 10 1 0 18 0 11 0 10 Noms 7 9 1 0 17 0 10 0 10 0 3 45747 Verbes 18 16 2 0 14 0 10 0 08 Adjectifs 4 5 1 0 27 0 16 0 16 Tableau 10 Comparaison des propri t s de trois versions des VDW L cart important que l on peut observer entre la pr cision et le rappel pour la base seuill e 0 1 est d au fait que le nombre de voisins extraits pour un mot est toujours largement sup rieur au nombre de ses synonymes dans le DES Cela a pour cons quence de favoriser le rappel au d triment de la pr cision Le nombre de voisins par mot chutant consid rablement avec l augmentation du seuil ce ph nom ne est un peu moins marqu dans la version seuill e 0 2 et s inverse dans la version 0 3 On remarque que ce sont les adjectifs qui ont la pr cision la plus lev e Cela est il simplement d au fait que les adjectifs sont la cat gorie qui a le moins de vo
33. org licenses by 2 0 1001 Article available atlhttp www shs conferences orel or lhttp dx doi org 10 1051 shsconf 2012010029 Congr s Mondial de Linguistique Fran aise CMLF 2012 SHS Web of Conferences 1 2012 SHS Web of Conferences DOI 10 1051 shsconf 20120100293 aux auteurs publi par EDP Sciences 2012 d calages en nous appuyant sur les informations que nous fournit l analyse automatique Cette tude est men e sur des donn es en fran ais Dans un premier temps nous d crivons la m thode qui a t mise en uvre pour obtenir la base distributionnelle sur laquelle nous appuyons nos analyses 2 1 que nous comparons ensuite deux ressources externes savoir le Dictionnaire lectronique des Synonymes et le r seau JeuxDeMots 2 2 Apr s avoir mesur l intersection de ces deux ressources et de notre base de voisins 3 1 nous comparons en termes de propri t s g n rales les couples de voisins qui apparaissent dans les ressources et ceux qui n y apparaissent pas 3 2 Ces deux d marches rel vent d une approche quantitative par opposition aux approches qualitatives que nous adoptons dans les sections qui suivent Nous y analysons d abord les raisons pour lesquelles des paires li es par des relations s mantiques identifi es dans les lexiques ne figurent pas parmi les voisins travers l observation de couples de synonymes d antonymes d hyperonymes et de m ronymes 3 3 Nous utilisons enfin
34. ots ayant la mesure F la plus lev e une fois les mots ayant moins de 10 voisins et moins de 10 synonymes cart s On constate que 9 de ces 10 mots sont des adjectifs Cette proportion confirme la tendance observ e la section 3 4 1 qu ont les adjectifs avoir une pr cision lev e mais elle reste remarquable tant donn que les adjectifs ne constituent que 18 des mots de notre liste Il reste toutefois difficile de dire si ces r sultats sont r v lateurs d un fonctionnement sp cifique des adjectifs dans notre corpus d autant que les adjectifs qui mergent ont la particularit d exprimer une appr ciation du scripteur alors que la subjectivit est th oriquement bannie de Wikip dia ou s ils refl tent une propri t g n rale de la relation modifieur qui g n rerait moins de bruit dans les voisins qu elle permet de rapprocher que les autres relations exploit es lors de l AD Nombre de Mot Cat gorie Le A de Nomprede voisins Pr cision Rappel Mesure F voisins synonymes synonymes tonnant A 55 29 17 0 31 0 59 0 40 colossal A 16 14 6 0 38 0 43 0 40 prodigieux A 17 20 7 0 41 0 35 0 38 fabuleux A 23 28 9 0 39 0 32 0 35 formidable A 21 17 6 0 29 0 35 0 32 honorable A 16 10 4 0 25 0 40 0 31 terrible A 57 22 12 0 21 0 55 0 30 merveilleux A 64 22 13 0 20 0 59 0 30 z le N 17 10 0 24 0 40 0 30 incroyable A 38 17 8 0 21 0 47 0 29 Table
35. ours Le cas de la m ronymie est particulier Le lien entre cette relation et le principe de substituabilit ne va pas de soi si l on consid re la diversit des sous types de relation qui sont couverts par la m ronymie Winston et al 1987 On peut par exemple s attendre ce que les contextes partag s par un nom Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 1009 Congr s Mondial de Linguistique Fran aise CMLF 2012 SHS Web of Conferences 1 2012 SHS Web of Conferences DOI 10 1051 shsconf 20120100293 aux auteurs publi par EDP Sciences 2012 d signant un artefact et un nom d signant son composant soient tr s limit s N anmoins on a vu qu un tiers des m ronymes de JDM taient identifi s par l AD proportion peine moins importante que celle des relations pr c dentes ce qui nous am ne la consid rer au m me titre La liste de m ronymes que nous pr sentons dans le tableau 9 illustre deux types de m ronymie composant objet dans un cas plastiqueltuyau constituant objet dans tous les autres pince crabe arriv elcircuit etc Le d calage distributionnel entre les deux membres du couple semble cette fois vident Si l on prend par exemple le cas des parties du corps repr sent es dans quatre couples pincelcrabe pattelaigle queuelchat t te prince il est clair que le rapprochement n est possible qu condition qu
36. ouve presque int gralement dans les deux ressources puisque 91 et 96 des couples des VDW sont constitu s de deux mots apparaissant respectivement dans le DES et JDM En revanche l inverse est loin d tre vrai puisque seulement 28 des couples du DES et 27 de ceux de JDM sont constitu s de deux mots apparaissant parmi les voisins Le biais introduit par le corpus est donc important en ce qui concerne l ampleur du vocabulaire pris en compte Ces chiffres ne signifient cependant pas que 80 des mots n apparaissent pas du tout dans le corpus ils peuvent avoir des occurrences mais trop peu nombreuses pour tre prises en compte par l analyse distributionnelle 3 1 Comparaison globale Le nombre de couples communs VDW DES et VDW JDM peut s analyser en terme de pr cision et de rappel La pr cision d signe la proportion de couples de voisins qui correspondent un couple recens dans le DES ou JDM Dans les deux cas elle est extr mement basse puisqu peine 2 des couples de voisins sont des synonymes tableau 4 et environ 3 apparaissent dans JDM tableau 5 Cela confirme une premi re tude men e par Galy et Bourigault 2005 La proportion des couples d antonymes d hyponymes et de m ronymes parmi les voisins d taill e dans ce deuxi me tableau est galement tr s faible puisqu elle se situe dans les trois cas autour de 1 Article en acc s libre plac sous licence Creative Commons Attribution 2 0 http c
37. peu rep r s ainsi le nom commencement poss de de nombreux synonymes m taphoriques relevant des champs s mantiques de la croissance humaine adolescence berceau embryon enfance naissance ou v g tale closion fleur germe racine Le cas de flamme est galement embl matique ce titre puisque beaucoup de ses synonymes renvoient des sentiments d sir passion lan enthousiasme alors que ce n est pas le cas de ses voisins Une deuxi me raison pouvant expliquer l absence de certains synonymes d un mot parmi ses voisins est le fait que m me s ils partagent un noyau de sens identique ils ne se manifestent pas dans des contextes similaires Ainsi le verbe att nuer partage le m me noyau de sens que ses synonymes abaisser affaiblir all ger et apaiser mais ces derniers n apparaissent pas parmi ses voisins La raison en est que ces quatre verbes s lectionnent des types d objets diff rents de ceux du verbe att nuer lequel s emploie principalement avec des noms renvoyant des ph nom nes physiques comme vibration bruit fr quence son abaisser porte sur des noms de mesure prix taux seuil niveau affaiblir sur des noms d signant des humains adversaire roi des ensembles d humains arm e population ou des organisations r gime parti all ger sur des noms exprimant une notion de poids masse charge ou au sens figur souffrance apaiser sur des ph nom nes querelle crise ou des
38. reativecommons org licenses by 2 0 1005 SHS Web of Conferences 1 2012 DOI 10 1051 shsconf 20120100293 aux auteurs publi par EDP Sciences 2012 Congr s Mondial de Linguistique Fran aise CMLF 2012 SHS Web of Conferences VDW DES Couples du lexique commun 2330 212 101 597 Couples partag s 42 254 Pr cision 0 02 Rappel 0 42 Tableau 4 Comparaison entre les voisins de Wikip dia et le DES Le rappel d signe la proportion des couples figurant dans les deux ressources de r f rence que l on retrouve dans les voisins Comme on le voit dans le tableau 5 le DES et JDM sont respectivement couverts 42 et 29 par les voisins La couverture pour les sous ensembles JDM anto JDMxvpo et JDMwmtro Varie entre 34 et 37 VDW JDM VDW JDM ANTO VDW JDMxvyro VDW JDMm ro Couples du lexique 2466 547 288 199 231216 4838 700199 17020 409682 15912 commun Couples 82 533 1770 6314 5380 partages Pr cision 0 03 0 01 0 01 0 01 Rappel 0 29 0 37 0 37 0 34 Tableau 5 Comparaison entre les voisins de Wikip dia et 4 versions du r seau JDM Ces chiffres confirment que l AD d tecte bien autre chose que les relations lexicales habituellement recens es dans les dictionnaires Comme nous l avons d j indiqu ce n est pas ce chiffre qui nous int resse ici mais le chiffre du rappel Le premier constat que nous pouvons faire est que les quatr
39. s libre plac sous licence Creative Commons Attribution 2 0 http creativecommons org licenses by 2 0 1015
40. s plus l ches tight et loose relations selon Kilgarriff et Yallop 2000 Ainsi apercevoir est rapproch de r parer selon une relation tr s t nue les deux verbes ont pour seul point commun de pouvoir s appliquer certains grands art facts clocher vaisseau navire etc La diversit des relations de similarit qui est d tect e par l AD n est cependant pas l objet de cet article Nous nous focalisons ici sur la part de relations lexicales que rep re l AD Ce point de vue est certes r ducteur car cette valuation externe de la ressource ne permet pas d appr cier la qualit globale des relations s mantiques identifi es En confrontant la ressource distributionnelle avec des lexiques existants notre objectif est de mieux comprendre ce qui conditionne le rep rage par AD des relations lexicales identifi es dans ces ressources 2 2 Le Dictionnaire lectronique des Synonymes et JeuxDeMots Le Dictionnaire lectronique des Synonymes du CRISCO Manguin et al 2004 ou DES est issu de la compilation des synonymes pr sents dans sept dictionnaires dictionnaires analogiques et dictionnaires de synonymes Il contient pr s de 400 000 couples de synonymes JeuxDeMots JDM est une ressource issue du crowdsourcing elle est construite de fa on collaborative par des locuteurs experts et non experts confondus participant un jeu en ligne consistant proposer une s rie de mots pour un mot cible et une relation donn s
41. sition objet des noms d signant des r gimes politiques comme monarchie r publique empire dictature ou les individus qui les repr sentent roi prince pr sident empereur dictateur On constate enfin que certains de ces couples d antonymes par exemple r solution conflit ou bonheur douleur ont pr cis ment la particularit de s associer des contextes de nature tr s diff rente Ainsi si les mots r solution et conflit renvoient tous deux des v nements la r solution porte sur des situations conflictuelles conflit diff rend crise paradoxe ce qui n est pas le cas de l chec attaque exp dition projet r volte Les mots bonheur et douleur d signent certes des sentiments que l on prouve mais chacun se sp cialise dans une gamme de contextes bien distincte En d autres termes dans le cas de ces antonymes le principe d opposition se traduit par une divergence sur le plan distributionnel 3 3 3 Hyperonymie et m ronymie Le dernier tableau concerne seulement des couples de noms et pr sente conjointement des cas de m ronymie et d hyperonymie lieu championnat direction sud oiseau pape orchestre rock endroit tribunal Hyperonymes i Ae OT fleur pens e po te racine organe yeux juge m tier m tier r alisateur Muse arriv e circuit bijou coffre p dale roulement crabe pince prince t te orgue registre y foyer incendie aigle patte plastique tuyau chat queue
42. st de substituabilit illustrent alors des cas de relation partielle le sens repr sent dans la relation n est que marginalement repr sent dans le corpus Si le corpus est suffisamment vaste et diversifi ces d calages peuvent alors tre r v lateurs de paires synonymiques correspondant des acceptions marginales Nous avons vu par ailleurs que ce test permettait de rep rer d autres sources de d calage entre la ressource de r f rence et les propri t s distributionnelles des mots dans le corpus emplois fig s dans le cas de la synonymie antonymes non canoniques voire douteux hyponymes dont la cat gorisation s mantique s mancipe en discours de celle de leur terme g n rique Cette premi re approche de nature exploratoire sugg re donc des pistes pour tudier de fa on plus syst matique ces causes de d calage 3 4 tude des diff rences de couverture entre mots La deuxi me m thode d observation des donn es que nous avons choisie est ici mise en uvre sur la relation de synonymie uniquement Elle consiste partir cette fois des mots qui apparaissent dans les voisins et leur appliquer les mesures de pr cision de rappel cf 3 1 ainsi que la mesure F qui les combine Manning et Sch tze 1999 L utilisation de ces crit res nous permet d observer sous deux angles diff rents les propri t s distributionnelles des mots du corpus Ainsi pour le sous ensemble des synonymes e la pr cision pour un
43. tudes r alis es partir de textes en fran ais sur le m me domaine les travaux de Nazarenko et al 1997 et Bouaud ef al 2000 L accroissement de la quantit de textes accessibles au format lectronique a permis par la suite au mod le distributionnel de gagner en popularit en entrainant l extension de son domaine d application aux textes non sp cialis s comme les textes journalistiques Dias et al 2010 ou le Web Turney 2008 Agirre et al 2009 Le fait d appliquer l analyse distributionnelle AD des textes ne relevant pas de domaines de sp cialit produit toutefois des r sultats moins faciles caract riser On rencontre une r elle difficult valuer les sorties de ces programmes qui produisent appliqu s de vastes corpus des r sultats pl thoriques La pr dominance de relations floues non recens es dans les ressources lexicales traditionnellement utilis es en TAL rend de telles donn es difficiles valuer selon des proc dures classiques leur apport dans des applications comme la recherche d information n a pas t d montr Van der Plas 2008 Sahlgren 2006 Plusieurs travaux ont montr n anmoins que ces techniques pouvaient permettre de rep rer des relations s mantiques de diff rents types synonymie g n ricit analogie etc Turney 2008 Baroni et Lenci 2011 Notre objectif dans le cadre de cet article est d tudier les r sultats produits par un syst me d an
44. vit NVDW 19373 0 44 575 i 0 43 DES VDW 10167 0 29 284 o 0 25 NVDW 13285 0 45 391 o 0 45 JDMaxro i VDW 8715 0 31 238 0 28 NVDW 28060 0 42 747 0 43 JDMxyro i i VDW 19897 0 2 516 0 18 NVDW 30625 0 45 797 o 0 46 JDMw ro VDW 15350 0 28 416 i 0 25 Tableau 6 Comparaison de la fr quence et de la productivit entre les couples de voisins et de non voisins Les tendances observ es dans le tableau 6 nous am nent nous focaliser dans la suite de l tude sur les couples de mots dont l absence parmi les voisins n est pas imputable des effets li s la fr quence ou la productivit de leurs membres Nous cherchons voir pourquoi des couples de mots qui pr sentent des propri t s optimales pour le calcul distributionnel ne sont pourtant pas identifi s 3 3 tude de couples non rep r s par l analyse distributionnelle Nous avons constitu un chantillon de couples issus du DES et de JDM et dont les propri t s sont compatibles avec l AD pour en faire un examen qualitatif En d autres termes nous avons cherch isoler des couples qui seraient th oriquement de bons candidats pour l AD et qui pourtant ne sont pas identifi s par cette m thode Ces couples sont s lectionn s selon deux crit res N B nous avons opt pour l examen de la productivit plut t que la fr quence les deux crit res tant globalement quivalents e l

Download Pdf Manuals

image

Related Search

Related Contents

Media-Tech MT1240KUS  Samsung DVD-V5600 Uporabniški priročnik  Manuel d`utilisation Optoma EP738  取扱説明書 - デンソー  年末年始は、公共施設の業務日程が平常と異なりますのでご  BCCPAC  Infinity 54a User's Manual  

Copyright © All rights reserved.
Failed to retrieve file