Home
genèse et variation sémiques d`une unité lexicale
Contents
1. Figure 5 Proportion de candidats s mes pour lesquels donn es num riques et valuations humaines s accordent 25 20 15 E ville et habitants E crime d lit etc 10 H statut social E drame d sastre D justice Mi 8 mu A p riode 1 p riode 2 p riode 3 p riode 4 p riode 5 5 Figure 6 Evolution par p riode de la moyenne de sp cificit des candidats s mes de cinq classes regroupements s mantiques constitut s manuellement partir des listes de candidats 4 De fait ce que nous avions consid r dans une premi re approche comme des candidats s mes s av re difficile voire impossible traiter comme tel JADT 2010 10 International Conference on Statistical Analysis of Textual Data 476 S M ME AU MACROSCOPE Cette repr sentation permet d observer l agencement interne des classes au sein d une p riode On constate en particulier une pr pond rance du LIEU en p riode 1 alors que le JUDICIAIRE est inhib inversement en p riode 5 la classe LIEU est inexistante alors que les classes D SASTRE et JUDICIAIRE dominent Un autre axe d approche consiste observer l volution d une classe donn e d une p riode l autre malgr un biais introduit sur les sp cificit s par la taille des sous corpus Par exemple le d clin rapide du LIEU d s la deuxi me p riode appara t nettement alors que le JUDICIAIRE s impose en p riode 2 et reste tr s repr sent e par
2. l ments de cette classe soit restreint dans l approche globale 4 candidats s mes e les deux approches font l une et l autre appara tre le caract re d sastreux de l affaire d Outreau mais pas de fa on identique Dans l approche par p riode la distinction entre le d sastre li au fiasco judiciaire et le drame de l affaire p dophile merge nettement alors que dans l approche globale cette distinction n est pas pr sente e __ la classe POLITIQUE n appara t que dans la caract risation par p riode elle n merge que tardivement l chelle du corpus et son poids dans l ensemble du corpus n est probablement pas suffisant pour la faire ressortir dans la caract risation globale Au niveau de l volution des classes similaires les tendances volutives sont globalement les m mes et en conformit avec les r sultats tir s de l analyse manuelle CRIME en d clin sur les derni re p riodes JUDICIAIRE pr sent en p riodes 2 5 et dans une moindre mesure en p riode 1 LIEU caract ristique de la p riode 1 mergence d une classe DRAME D SASTRE en p riodes 2 et 5 mais correspondant des ph nom nes diff rents Fig 7 Enfin on peut se demander dans quelle mesure les l ments constitutifs des classes similaires sont communs aux deux approches Pour cela nous avons tudi la proportion d l ments communs aux classes similaires On constate que l enrichissement qualitatif
3. pour un candidat s me donn nous choisissons comme r f rence sur le plan lexical les formes morphologiquement proches de son signifiant c est dire les formes auxquelles il est associ de fa on imm diate mais pour lesquelles il appara t comme le plus g n rique par exemple ma gistrat pour magistrats ou magistrature Le candidat s me sera retenu comme s me pertinent s il respecte deux crit res 1 un crit re de coactualisation qui implique a l existence d une forme de r f rence parmi les unit s de sp cificit positive un des repr sentants lexicaux imm diats ducandidat c est direprochemorphologiquement est de sp cificit positive dans le sous corpus consid r seuil de sp cificit fix 2 b l existence ducandidat s me lui m me comme unit sp cifique positivement le candidat s me est lui aussi surrepr sent dans le sous corpus consid r seuil de sp cificit fix 5 ou 3 selon l approche 2 un crit re de renforcement le candidat s me a une sp cificit strictement sup rieure celle de la forme de r f rence de plus grande sp cificit Le premier crit re revient s lectionner les traits qui se manifestent de fa on significative en tant que formes Le crit re de renforcement exploite le nombre d occurrences des unit s lexicales l origine d un candidat s me dans la proc dure d annotation L accroissement de sp cificit entre forme
4. Notre d marche se situe la crois e de deux tudes ant rieures La premi re Lecolle 2007 fait l analyse diachronique du sens du nom propre Outreau qui de toponyme devient le d signateur de l erreur judiciaire par excellence L tude rend compte de l mergence ou de la disparition de facettes s mantiques au cours du temps La seconde Reutenauer et al in press value une proc dure automatique d annotation de corpus en traits s mantiques assimil s des s mes Il s agit d en extraire la repr sentation s mique d une unit lexicale Elle conclut la convergence de l information apport e par les formes lexicales et par lesdits traits s mantiques Elle met galement jour des mol cules s miques dans le voisinage s mique de l unit lexicale tudi e le voisinage s mique s obtient partir des paragraphes qui contiennent l unit lexicale tudi e il d signe l ensemble des traits s mantiques affect s par annotation aux paragraphes en question L tude montre galement que le plan s mique rend explicites des contenus s mantiques sensibles mais non patents sur le plan lexical Il faut n anmoins rappeler que les r sultats d analyse reposent sur un filtrage manuel de listes bruit es de traits s mantiques obtenus automatiquement L objectif de la pr sente tude est d abord d obtenir un ensemble peu bruit de candidats s mes d Outreau Les candidats s mes cibl s
5. 10 et le seuil de sp cificit sera de 3 sur le plan s mique pour la caract risation par p riode et de 5 pour la caract risation globale Pour la caract risation globale le calcul de sp cificit est d abord appliqu deux sous corpus parall les le sous corpus de l ensemble des paragraphes contenant Outreau sur le plan lexical et le sous corpus quivalent sur le plan s mique Ce calcul retourne une liste lexicale et une liste s mique d unit s affect es de leur sp cificit pour toute unit respectant les seuils fix s Une fois la liste s mique filtr e par confrontation la liste lexicale voir paragraphe suivant le calcul des sp cificit s est nouveau appliqu aux candidats s mes retenus sur les sous corpus obtenus par intersection du sous corpus initial avec chaque p riode JADT 2010 10 International Conference on Statistical Analysis of Textual Data 472 S M ME AU MACROSCOPE Pour la caract risation par p riode le calcul des sp cificit s est appliqu en parall le au plan lexical et s mique cinq sous corpus correspondant l ensemble des paragraphes contenant Outreau pour chacune des cinq p riodes Il en r sulte une liste de sp cificit s s mique et lexicale pour chaque sous corpus 4 3 S lection de candidats s mes renforc s par confrontation des listes lexicales et s miques Seuls sont retenus les candidats s mes correspondant un cho renforc Plus pr cis ment
6. 2007 2009 l volution diachronique du sens d Outreau peut s observer travers un d coupage en cinq p riodes cl s correspondant des temps forts dans la succession des v nements concernant l affaire d Outreau 2001 2002 d couverte d un r seau p dophile Outreau arrestations mai juin 2004 proc s de Saint Omer 1 2 07 2004 attente du verdict de Saint Omer 3 8 07 2004 verdict du proc s 2 12 2005 avril 2006 proc s en appel Paris suite et cons quences commission d enqu te parlementaire D re Lecolle 2007 d gage ainsi plusieurs dimensions s mantiques qui apparaissent au cours des p riodes d observation ou sont au contraire limin es att nu es ou modifi es Cinq cat gories principales recouvrent les volutions de sens e La dimension locative caract rise le sens d Outreau en p riode 1 Elle est apparente travers diverses facettes emplacement g ographique structure urbaine ou collectif propre au lieu habitants M me si le sens locatif d Outreau ne dispara t jamais compl tement d autres sens le supplantent progressivement e La dimension polici re et judiciaire est pr sente aux cinq p riodes mais sous diff rentes formes La p riode 1 moins marqu e se positionne en amont de la proc dure p nale elle recouvre des aspects policiers arrestations et l enclenchement de la proc dure mise en examen Les notions de r seau p dophile et d inceste y
7. affaire de p dophilie vers l erreur judiciaire p riode 1 p riode 2 p riode 3 p riode 4 p riode 5 p riode 1 p riode 2 p riode 3 p riode 4 p riode 5 M sp cificit moyenne normalis e 1 chaque p riode M proportion de candidats appartenant la classe en Figure 4 a et 4 b volution par p riode de la classe li e au crime en a sp cificit moyenne et b proportion de candidats s mes affect s la classe Les classes rattach es au LIEU LIEU D HABITATION LIEU G OGRAPHIQUE ne sont repr sent es significativement qu la p riode 1 ce qui rejoint l volution du sens locatif d Outreau initialement dominant voire exclusif puis supplant par d autres sens Inversement la classe du FIASCO constitu e de naufrage drame faillite faute s impose comme repr sentative de la p riode 5 5 2 Liste de candidats s mes globaux Alors que l approche pr c dente portait sur des candidats s mes suppos s tre caract ristiques du sens d Outreau pour la p riode consid r e nous abordons dans ce paragraphe des candidats globalement caract ristiques d Outreau mais dont la pertinence une p riode donn e n est pas n cessairement av r e Nous nous situons ici dans une perspective d activation ou d inhibition de candidats par p riode La confrontation de listes globales lexicale et s mique de sp cificit s fournit une liste de candidats s mes non pond r s repr sentat
8. de r f rence et candidat est d une surrepr sentation d unit s lexicales activant le candidat autres que la forme de r f rence la plus sp cifique Ces autres formes peuvent appartenir la m me famille morphologique que la forme de r f rence auquel cas l accroissement sera li un regroupement morphologique implicite mais aussi cas plus int ressant elles peuvent provenir de formes lexicales tr s diff rentes sans lien morphologique avec le candidat s me Ces crit res permettent d obtenir des listes restreintes de candidats de moins de cent l ments pour chacun des sous corpus trait s 5 Analyse des listes de candidats s mes Les d marches pr c dentes ont permis d obtenir d une part un ensemble de cinq listes de candidats s mes renforc s sp cifiques du voisinage d Outreau sur chacune des p riodes d autre part une liste globale de candidats s mes renforc s toutes p riodes confondues Dans les deux approches les candidats seront observ s travers une classification dont la validation repose sur l analyse manuelle de Lecolle 2007 cf la synth se Fig 2 5 1 Liste de candidats s mes propre chaque p riode 5 1 1 Classification des candidats A partir des listes par p riode de candidats s mes des classes sont d finies manuellement Ces classes correspondent des regroupements s mantiques r alis s des fins d observation sur la base JADT 2010 10 International Con
9. la suite Pour une approche plus fine des r sultats on peut observer le comportement des candidats s mes constitutifs de la classe cibl e au cours des p riodes Ainsi pour la classe JUDICIAIRE le comportement du sous ensemble de candidats s mes crouer emprisonner volue l oppos des autres candidats de la classe avec une sp cificit fortement positive en p riode 1 et faible aux autres p riodes En effet ce sous ensemble fait cho des aspects de la phase amont polici re de la proc dure p nale et renvoie aux arrestations au d but de l affaire d Outreau Les r sultats observ s convergent donc avec l analyse manuelle L interpr tation n cessite cependant d autres cl s comme en t moigne l volution des ensembles de candidats qui voquent le drame ou le d sastre Les sp cificit s les font appara tre comme saillants en p riodes 2 et 5 mais ces indicateurs ne suffisent pas pour d terminer si les aspects dramatiques sont li s l affaire de p dophilie ou au d sastre judiciaire 5 3 Confrontation des deux caract risations Dans les deux approches des classes ont t g n r es manuellement partir des listes de candidats s mes obtenues par proc dure semi automatique Ces classes r alis es ind pendamment par deux linguistes diff rents pr sentent un certain nombre de similarit s e les classes JUDICIAIRE et CRIME sont communes le LIEU galement bien que le nombre d
10. propre chaque p riode c est dire la proportion de candidats de la p riode absents dans la liste globale est net et plus important que dans la liste globale Cependant la proportion de candidats s mes exclusivement pr sents dans la liste globale est loin d tre n gligeable Chaque approche a donc son propre apport qualitatif et malgr les diff rences de nature des unit s la convergence vers des classes similaires s op re JADT 2010 10 International Conference on Statistical Analysis of Textual Data CORALIE REUTENAUER EVELYNE JACQUEY MICHELLE LECOLLE MATHIEU VALETTE 477 proportion de candidats proportion de candidats de la p riode pr sents de la liste globale pr sents dans la liste globale dans une autre p riode 1 2 3 4 5 JUDICIAIRE 89 7 36 33 22 12 50 CRIME 40 18 43 50 0 DRAME DESASTRE 43 75 25 LIEU 75 33 Figure 7 Proportion de candidats s mes communs aux classes similaires de l approche globale et par p riode 6 Discussion conclusive Deux approches ont permis de proposer des s m mes d Outreau et les valider Ces deux approches int grent par cho de l information apport e sur le plan lexical s lection des candidats s mes coactualis s avec une de leurs formes lexicales de r f rence de plus cette information est amplifi e sur le plan s mique par renforcement de sp cificit Les approches sont toutes deux en accord a
11. traitement automatique d crit par Grzesitchak et al 2007 qui comprend l tiquetage la lemmatisation et l limination des mots grammaticaux du corpus puis la substitution d un s m me tout lemme Les s m mes sont produits par extraction des substantifs verbes adjectifs 3 Lire Valette 2008 pour une discussion sur la constitution d une ressource s mique pour l annotation de corpus JADT 2010 10 International Conference on Statistical Analysis of Textual Data 470 S M ME AU MACROSCOPE et adverbes sous forme lemmatis e issus des d finitions lexicographiques correspondant chaque entr e depuis le Tr sor de la Langue Fran aise Informatis TLFI Dendien et Pierrel 2003 Chacun des lemmes extraits est consid r comme un trait s mantique On ajoute chaque s m me le mot vedette lui m me Ce s m me est ainsi constitu d un ensemble de ce que nous qualifierons en l absence de validation par l expert s manticien de candidats s mes par analogie aux candidats termes de la terminologie L image s mique du corpus est 24 fois plus volumineuse que le corpus lui m me un million d occurrences de candidats s mes pour 400 000 formes mais le vocabulaire reste peu pr s identique environ 24 000 unit s 3 3 Crit res de construction du s m me d Outreau Apr s l annotation initiale Outreau a pour seul candidat s me Outreau car en tant que nom propre il n a pas d entr
12. 227 235 Lafon P 1984 D pouillements et statistiques en lexicom trie Slatkine Champion Lecolle M 2007 Polysignifiance du toponyme historicit du sens et interpr tation en corpus Le cas de Outreau Corpus 6 101 125 Lecolle M 2009 Changement de sens du toponyme en discours de Outreau ville Outreau fiasco judiciaire In LecolleM Paveau A M and Reboul Toure S editors Le nom propre en discours Les Carnets du Cediscor 11 91 106 Mayaffre Damon 2002 Les corpus r flexifs entre architextualit et hypertextualit Corpus 1 51 69 Rastier F 1987 S mantique interpr tative PUF Rastier F 2006 Formes s mantiques et textualit Langages 163 99 114 Rastier F and Valette M 2009 De la polys mie la n os mie Le fran ais moderne in S Mejri ditor La probl matique du mot 77 97 116 Reutenauer C Valette M and Jacquey E in press De l annotation s mique globale l interpr ta tion locale environnement et image s miques d conomie r elle dans un corpus sur la crise financi re ARCo 09 Sablayrolles F 2002 Fondements th oriques des difficult s pratiques du traitement des n ologismes Revue fran aise de linguistique appliqu e VH 1 97 111 Salem A Lamalle C Martinez W Fleury S Fracchiolla B Kuncova A and Maisondieu A 2003 Lexico3 Outils de statistique textuelle Manuel d utilisation Syled CLA2T Universit d
13. S m me au macroscope gen se et variation s miques d une unit lexicale Coralie Reutenauer Evelyne Jacquey Michelle Lecolle Mathieu Valette 1 ATILF CNRS Nancy Universit 54000 Nancy France 2 CELTED Universit Paul Verlaine Metz 57000 Metz France R sum Cette tude se situe dans le contexte de recherches en veille lexicale L enjeu est d obtenir une repr sentation du s m me du nom Outreau partir d un corpus annot en traits s mantiques Cette repr sentation est construite de fa on semi automatique sur crit re de renforcement s mique d informations pr sentes sur le plan lexical valu par des indicateurs statistiques Nous tudierons l volution diachronique de deux types de s m mes d une part des s m mes ponctuels du mot Outreau propres diff rents stades de l affaire judiciaire ponyme et traits s mantiques variables d autre part un s m me global repr sentatif de l affaire dans son ensemble mais structure variable dans le temps par ph nom nes d actualisations La validation s appuiera sur la confrontation des r sultats obtenus par la proc dure semi automatique une tude linguistique ant rieure de l volution diachronique d Outreau Abstract The paper is about lexical tracking In this study we choose the general background of textual semantics and we aim at representing the word Outreau as a set of semes extracted fro
14. aract risation globale OUS COrpus 1 Sous corpus 5 paragraphes contenant LL paragraphes contenant Outreau de la p riode 1 Outreau de la p riode 5 Sous corpus des paragraphes contenant Outreau valuation de la significativit des formes et candidats s mes calcul de sp cificit gp g g g Plan 4 F 11_formes 15_formes l_tot_formes confrontation des listes lexicale et s mique l_4 ui listes restreintes de candidats s mes classification manuelle classification manuelle g LE Le l_tot_1 ee _tot_5 Figure 1 Sch ma d ensemble de la proc dure ot 4 2 Evaluation de la significativit calcul des sp cificit s La recherche et l tude de candidats s mes reposent sur une valuation statistique du degr de surrepr sentation ou de sous repr sentation des cooccurrents d Outreau La mesure utilis e ici est le calcul des sp cificit s tel que d fini par Lafon 1984 et impl ment par le logiciel Lexico3 Salem et al 2003 La valeur de sp cificit affect e une unit provient de la probabilit d observer k occurrences de cette unit dans un sous corpus pr ciser au pr alable Cette valeur est enti re positive si l unit est surrepr sent e dans le sous corpus n gative sinon Le calcul est effectu pour des seuils minimaux d occurrences et de sp cificit pr cis s au pr alable Dans notre cas le seuil d occurrences sera fix
15. d apr s a la sp cificit moyenne des candidats s mes de la classe et b la proportion de candidats s mes de la p riode appartenant la classe JADT 2010 10 International Conference on Statistical Analysis of Textual Data 474 S M ME AU MACROSCOPE Au niveau qualitatif les candidats s mes de cette classe renvoient aux notions mergeant chaque p riode Par exemple en p riode 1 l ensemble de candidats s mes crouer police arrestation incarc ration incarc rer pr venu correspondant pr s de la moiti des l ments associ s la sph re judiciaire renvoient l id e d arrestation Le POLITIQUE appara t la p riode 4 et se renforce la p riode 5 ce qui est en accord avec la mise en place d une commission d enqu te parlementaire et la volont politique de se pencher sur les dysfonctionnements du syst me judiciaire Inversement la classe du crime voqu e par des candidats tels que p dophilie meurtre viol d linquant incluse dans la dimension judiciaire et polici re est pr sente en p riodes 1 3 puis cette pr sence chute en p riode 4 et enfin dispara t en p riode 5 Fig 4 a et 4 b Cette volution s explique doublement d une part par l ampleur accord e l motionnel populaire dans un premier temps puis le recul de son influence avec la prise de conscience de l erreur judiciaire d autre part par le glissement du scandale de l
16. daire Pr sente traitement judiciaire Absente Sous jacente Sous d roulement du proc s horreur jacente 3 Secondaire Pr sente traitement judiciaire Absente Sous jacente Sous lattente du verdict horreur jacente 4 Secondaire Pr sente traitement judiciaire Emergente Sous jacente Sous le verdict dysfonctionnement horreur jacente du syst me judiciaire 5 Secondaire Pr sente Proc s en appel et Pr sente Pr sente Pr sente dysfonctionnements de Enqu te Scandale fiasco Pinstitution judiciaire en tant parlementaire crainte erreur par qu objet vis vis de excellence Pinstitution judiciaire Figure 2 Synth se d l ments d analyse extraits de l tude manuelle du corpus d Outreau 5 1 2 Analyse des classes Le judiciaire est pr sent chaque p riode cf Fig 3 a et 3 b La proportion de candidats s mes de m me que la sp cificit moyenne sont plus faibles en p riode 1 p riode laquelle le proc s n est pas encore entam p riode 1 50 i 02 40 015 3 3 0 1 20 10 _ 005 0 T T T 1 Re p riode 3 p riode 1 p riode 2 p riode 4 p riode 5 p riode 2 p riode 3 p riode 4 p riode 5 E proportion de candidats appartenant la classe en E sp cificit moyenne normalis e 1 chaque p riode Figures 3 a et 3 b volution par p riode de la classe JUDICIAIRE
17. e dans le TLFi Nous cherchons donc enrichir de fa on semi automatique ce s m me insuffisant de fa on refl ter les diff rentes facettes s mantiques rep r es manuellement par Lecolle 2007 Nous cherchons dans le voisinage lexical ou s mique d Outreau s lectionner les candidats s mes susceptibles de le d finir Par voisinage lexical nous entendons les cooccurrents lexicaux d Outreau au sein d un m me paragraphe avant annotation Le voisinage s mique s obtient partir des paragraphes du voisinage lexical par annotation de ceux ci en candidats s mes Le mode de s lection des candidats que nous souhaitons automatisable et ainsi reproductible s appuie sur des crit res de significativit statistique Dans cet article nous nous int ressons aux seuls candidats s mes correspondant un lemme sur le plan lexical Par exemple on ne prendra en compte le candidat s me justice au plan s mique que si le lemme justice est actualis au plan lexical De tels candidats sont vecteurs d information d j pr sente et sensible sur le plan lexical mais encore plus manifeste sur le plan s mique on qualifiera donc ce ph nom ne d cho renforc cf 4 3 Cette restriction constitue un filtrage tr s s lectif de candidats s mes obtenus par annotation et correspond un angle d observation pr cis guid par une volont de limitation de bruit Il ne s agit donc pas d exploiter tout l appo
18. e la Sorbonne nouvelle Paris 3 logiciel disponible sur http www cavi univ paris3 fr Ilpga ilpga tal lexicoW WW Valette M 2008 A quoi servent les lexiques s mantiques Discussion et proposition Cahiers du CENTAL P U de Louvain 5 43 58 JADT 2010 10 International Conference on Statistical Analysis of Textual Data
19. ference on Statistical Analysis of Textual Data CORALIE REUTENAUER EVELYNE JACQUEY MICHELLE LECOLLE MATHIEU VALETTE 473 d intuitions s mantiques Parexemple en p riode 1 mergeuneclasse JUDICIAIRE quicomporte notamment les candidats police procureur crouer Ces classes forment une partition sur les candidats retenus pour une p riode donn e et ne sont pas n cessairement communes toutes les p riodes Pour chaque p riode l importance des classes est repr sent e par deux indicateurs i l un prend en compte la taille de la classe par calcul de la proportion de candidats de la liste appartenant la classe consid r e 11 l autre est destin refl ter la significativit des candidats affect s la classe par calcul de la moyenne des sp cificit s des candidats de la classe puis pour permettre une comparaison entre diff rentes p riodes homog n isation des tailles des vecteurs p riodes des moyennes de sp cificit s normalisation du vecteur 1 en norme 1 Les conclusions avanc es s appuient sur des tendances communes aux deux indicateurs P riode Dimension Dimension judiciaire et Dimension Emotion Erreur locative polici re inclus r seau politique populaire judiciaire p dophilie et inceste 1 Pr sente g ographie Pr sente amont de la Absente Sous jacente Absente structure urbaine proc dure p nale arrestations et horreur habitants mise en examen 2 Secon
20. ifs de l ensemble des paragraphes contenant Outreau Afin de mesurer l volution diachronique de cette image s mique non pond r e nous cherchons quantifier le degr de surrepr sentation ou de sous repr sentation de chaque candidat s me une p riode donn e Ainsi pour chaque p riode le calcul des sp cificit s est appliqu aux candidats s mes retenus sur le sous corpus s mique des paragraphes contenant Outreau de la p riode concern e On obtient ainsi une repr sentation num rique du s m me sous forme d un tableau de sp cificit des candidats s mes par p riode Deux m thodes d analyse sont utilis es JADT 2010 10 International Conference on Statistical Analysis of Textual Data CORALIE REUTENAUER EVELYNE JACQUEY MICHELLE LECOLLE MATHIEU VALETTE 475 La premi re tudie l activation des candidats s mes consid r s s par ment Pour valuer cette activation des listes de donn es qualifi es sont constitu es manuellement dans lesquelles les candidats sont class s selon les valeurs activ non activ ou ind cidable pour chaque p riode Sont ind cidables en particulier les candidats s mes qui ne peuvent tre trait s isol ment comme commettre commettre une erreur ou commettre un crime Afin de mettre en parall le les listes num riques avec les listes manuelles on consid re que les valeurs de sp cificit s n gatives ou faibles strictement inf rieures 2 cor
21. ille Cet article entend apporter quelques l ments de r ponses par l analyse semi automatique des significations d une unit lexicale dans un corpus diachronique JADT 2010 10 International Conference on Statistical Analysis of Textual Data 468 S M ME AU MACROSCOPE Nous y tudierons l volution du sens du nom propre Outreau qui de nom de ville du Pas de Calais en 2002 a acquis au cours du temps un sens stabilis de parangon des scandales judiciaires Caract ris par un signifi volutif au cours du temps mais un signifiant fixe notre objet d tude se rapporte de la n ologie s mantique ou n os mie Rastier et Valette 2009 dont la d tection reste un probl me non r solu Sablayrolles 2002 Nos propositions m thodologiques s inspirent de la s mantique interpr tative de Rastier 1987 Elles accordent une position centrale la textualit la fois pour laborer un signifi d Outreau et l issue des r sultats pour en v rifier la validit La description du signifi utilise une repr sentation en s mes ici qualifi s avant validation de candidats s mes 2 Probl matique Nous chercherons d une part d tecter des ph nom nes de r currences et groupements de s mes dans le cotexte d un mot pour en extraire une repr sentation du contenu s mantique de ce mot d autre part rendre compte de l volution diachronique de la repr sentation s mantique obtenue
22. m a corpus through a semi automatical process Semes are selected only if they match and statistically strengthen lexical information We will focus on the diachronic evolution of two representations in semes of Outreau a time related one submitted to qualitative evolution in time and a global one submitted to actualization processes in time The validation will rely on the results of a previous linguistic study Keywords text based semantics corpus tagging seme representation semimetry lexicometry diachrony polysignificance 1 Introduction Dans le sillage des grandes entreprises du XX me si cle telles que le Tr sor de la Langue Fran aise d sormais TLF de nouveaux chantiers lexicographiques s ouvrent aujourd hui Parall lement aux mod les collaboratifs du type wiktionary qui semblent prometteurs en d pit des nombreuses incertitudes qu ils soul vent sur le plan de la qualit Jacquemin et al 2008 il importe aux linguistes d laborer des m thodologies scientifiques et des outils de veille lexicale destin s d tecter et identifier les ph nom nes n ologiques attest s ou susceptibles de mener de nouvelles attestations La mod lisation desdits ph nom nes n ologiques notamment la n ologie de sens constitue un enjeu la fois th orique et ing nierique de taille quels mod les linguistiques sont susceptibles de rendre compte de l volution du sens des mots et comment laborer les instruments de ve
23. respondent une non activation du candidat s me et les sp cificit s sup rieures 2 son activation Les deux types de r sultats sont alors en ad quation dans 67 des cas hors ind cidables avec convergence nette aux p riodes 1 et 2 mais peu satisfaisante aux p riodes suivantes Cependant en assimilant les candidats de faible sp cificit entre 2 et 2 des ind cidables donc en ne conservant que les cas tranch s d activation ou non activation le taux de convergence atteint 91 au total et est sup rieur 85 pour chaque p riode Fig 5 L information saillante pour un regard humain l est donc galement au niveau des coefficients La seconde m thode d analyse s appuie sur la constitution de classes partir des connaissances du corpus et sans indication sur les r sultats num riques L volution des classes d apr s les donn es num riques est ensuite confront e l analyse manuelle L histogramme de la Fig 6 pr sente les moyennes de sp cificit sur les candidats s mes des classes constitu es par p riode Nous n aborderons que 5 des 7 classes constitu es pour faciliter la lecture et permettre une mise en parall le ais e avec le tableau r capitulatif de la figure 2 riod taux de convergence __ 1 2 3 4 3 total cas 1 sp cificit s faibles assimil es 79 80 97 54 57 67 a une non activation cas 2 sp cificit s faibles exclues 86 96 88 100 85 91
24. rgence de classes comme par exemple celle correspondant la dimension judiciaire et polici re est le r sultat d un processus d interpr tation complexe et que l on ne sait ce jour pas encore d crire pr cis ment Cependant des outils th oriques tels que les fonds s mantiques constitu s d isotopies c est dire de r currences de s mes et formes s mantiques groupements de traits s mantiques semblent adapt s pour pr ciser les processus interpr tatifs l oeuvre En particulier les r cents concepts de diffusion et de sommation emprunt s Rastier 2006 rendent compte des changes s miques entre fonds et formes Propres mod liser les interactions entre le signifi d une unit lexicale et un faisceau d isotopies locales ils ouvrent des perspectives pour mod liser une construction dynamique de sens R f rences DendienJ andPierrelJ M 2003 Letr sordelalanguefran aiseinformatis Unexempled informatisation d un dictionnaire de langue de r f rence TAL 44 2 11 37 JADT 2010 10 International Conference on Statistical Analysis of Textual Data 478 S M ME AU MACROSCOPE Grzesitchak M Jacquey E and Valette M 2007 Syst mes complexes et analyse textuelle Traits s mantiques et recherche d isotopies ARCo 07 227 235 Jacquemin P Lauf A Poudat C Hurault Plantet M and Auray N 2008 La fiabilit des informations sur le web le cas Wikipedia CORIA2008 pp
25. rt de l annotation en particulier sont exclus de l tude les candidats s mes apparemment pertinents mais vecteurs d information totalement absente sur le plan lexical Ceux ci feront l objet d autres tudes Pour observer l volution diachronique d Outreau diff rents ensembles de candidats s mes en cho renforc seront g n r s de fa on r pondre deux types de caract risations e une caract risation par p riode avec des s m mes propres la p riode concern e et qui pourront tre diff rents d une p riode l autre e une caract risation globale comportant un s m me fixe sur les cinq p riodes mais de structuration interne variable d une p riode l autre 4 Proc dure de s lection des candidats s mes 4 1 Vue d ensemble Les deux caract risations recherch es ont donn lieu deux s ries d exp rience dont les grandes lignes sont sch matis es dans la Fig 1 et d taill es dans les paragraphes suivants On abordera en 4 2 la constitution de sous corpus et l valuation de la significativit en 4 3 la confrontation des listes lexicale et s mique en 5 partie analytique les tapes ult rieures JADT 2010 10 International Conference on Statistical Analysis of Textual Data CORALIE REUTENAUER EVELYNE JACQUEY MICHELLE LECOLLE MATHIEU VALETTE 471 Version lexicale Version du corpus s mique du corpus Caract risation par p riode C
26. sont ceux qui viennent renforcer l information pr sente sur le plan lexical Ils proviennent d une proc dure semi automatique qui annote le corpus en traits s mantiques Reutenauer ef al in press puis combine analyse lexicom trique et analyse s mique plus pr cis ment s mim trique du corpus pour extraire un s m me Il s agit ensuite de v rifier si le comportement diachronique des candidats extraits est conforme l volution diachronique des sens d Outreau observ e manuellement Lecolle 2007 3 Focus sur Ourreau du corpus au mot p le 3 1 Pr sentation du corpus Le corpus porte sur l affaire judiciaire d Outreau Il est constitu d articles de presse parus entre novembre 2001 et avril 2006 s lectionn s sur crit re de pr sence du nom Outreau Il a t initialement constitu dans le cadre de l tude linguistique de la polysignifiance du nom propre D nomination choisie par analogie aux candidats termes de la terminologie Groupement stable de s mes non n cessairement lexicalis ou dont la lexicalisation peut varier Rastier 1987 275 JADT 2010 10 International Conference on Statistical Analysis of Textual Data CORALIE REUTENAUER EVELYNE JACQUEY MICHELLE LECOLLE MATHIEU VALETTE 469 Outreau Lecolle 2007 Ci dessous sont r sum es des conclusions tir es de Lecolle 2007 2009 et r utilis es ici pour la validation des r sultats d exp rience Selon Lecolle
27. sont tr s pr sentes ainsi qu en p riode 2 Le traitement judiciaire s tale des p riodes 2 4 avec le d roulement du proc s de Saint Omer en p riode 2 l attente du verdict en p riode 3 et le verdict en p riode 4 La p riode 5 qui correspond au proc s en appel et la commission d enqu te parlementaire cons cutive porte nouveau sur la proc dure judiciaire mais aussi sur l institution judiciaire comme objet d tude en raison de ses dysfonctionnements ce qui ajoute une dimension politique e __L motion populaire est aussi sous jacente dans le sens affect Outreau Son influence dans le d roulement de l affaire est d nonc e en p riode 5 on peut donc supposer qu elle influe implicitement sur le sens d Outreau aux p riodes pr c dentes travers une condamnation e Les sens de fiasco judiciaire et d erreur judiciaire par excellence sont caract ristiques de la p riode 5 m me si l erreur judiciaire merge d j aux p riodes 2 3 et 4 e Le dimension politique absent initialement est surtout pr sent en p riode 5 avec l ouverture d une enqu te parlementaire mais appara t avec la prise de recul sur les dysfonctionnements du syst me judiciaire 3 2 Image s mique du corpus A partir de la version lexicale du corpus issue de la version initialement r unie par Lecolle 2007 est g n r e une deuxi me version s mique Cette version est obtenue l issue d un
28. vec les analyses manuelles elles parviennent faire merger les m mes tendances saillantes et mettent en vidence une volution diachronique conforme l tude manuelle Le s m me g n r par p riode est qualitativement plus riche puisqu il permet de nuancer les classes saillantes et accro t la diversit des repr sentants au niveau des classes communes aux deux approches Toutefois l approche par p riode s appuie principalement sur l cho donc sur des informations aussi bien caract ristiques des formes que des s mes tandis que l approche globale adopte une position plus centr e sur le plan s mique et exploite davantage l apport propre des s mes puisque certes l cho intervient dans la s lection des candidats s mes mais les indicateurs sont propres aux s mes Par ailleurs la perspective des deux approches diff re la premi re cherche obtenir une image qualitative ponctuelle d Outreau propre une p riode donn e alors que l autre cible une repr sentation sur l ensemble du corpus qui ensuite se structure dans le temps par activation ou inhibition de candidats La convergence entre analyses manuelle et automatique montre la validit de l approche automatique N anmoins la confrontation repose sur l identification manuelle de classes extraites la fois de traitements de r sultats issus de la proc dure semi automatique et d un regard orient par l tude linguistique Cette me
Download Pdf Manuals
Related Search
Related Contents
Rapport sur l`homophobie 2009 Cartilha de Boas Práticas アクティウォッチ スペクトラム シリーズ - フィリップス・レスピロニクス合同 Brochure – WorkCentre 6655 VisioCam LCD Video Chime System PNA Data Transfer Sample Program 簡易取扱説明書 MSI H61M-P22 (B3) motherboard Descargar Cisco Systems 1130AG Network Router User Manual Copyright © All rights reserved.
Failed to retrieve file