Home
Sur l`application de méthodes textométriques à la construction de
Contents
1. Autrement dit les tudes textom triques ne sont valid es que par l assentiment d une communaut qui dans le meilleur des cas est distante par exemple critique litt raire sociologie mais dans le pire des cas n est peut tre qu un avatar du jugement d acceptabilit pourtant honni de ladite communaut 368 3 Pr sentation du corpus 3 1 Contexte applicatif de l tude Le corpus est constitu de 300 textes courts r unis par SAMESTORY http www same story com un service d agr gation d ego documents Il s agit en l occurrence de t moignages et r cits d histoires v cues post s par les internautes sur diff rents forums de discussion aufeminin com doctissimo fr etc Les cat gorisations sont multicrit res th matiques tonalit conseil vs demande sexe de l metteur situation familiale etc Nous traitons dans des textes portant sur la sant la tonalit gai triste De prime abord elle s apparente une analyse thymique mais il s agit de cat gories complexes o les ph nom nes discursifs ex structure du r cit interviennent dans la classification autant que l expression linguistique des sentiments Ainsi notre t che est de mod liser l art de t moigner d une histoire v cue 3 2 Annotation tonale du corpus L annotation tonale du corpus a t effectu e par SAMESTORY Nous en avons analys un chantillon pour en d duire la strat gie d annotation de fa on
2. un tu destinataire actualis par des pronoms de 2 me personne pronoms personnel possessifs etc relate une exp rience difiante mon exp rience pour ma part et prodigue des conseils pr sence d hyperliens www et des encouragements bon courage sans pour autant mettre en avant un je Les t moignages tristes mettent en texte un je massif Enfin la composante th matique n a pas t n glig e mais nous nous sommes efforc s de ne s lectionner que des crit res d un grand niveau de g n ralit relatifs au domaine de la sant Ainsi aux noms de sympt mes maladies traitements ou m dicaments nous avons pr f r pour les textes tristes urgences h pital rendez vous analyses m decins ou la locution tre atteint de Pour les textes gais r mission produit naturel hom opathie permettent d obtenir des r sultats convaincants 6 Conclusion Il est admis que les m thodes efficaces en classification th matique par exemple l apprentissage supervis sur mots simples sont peu performantes pour les t ches d analyse de la subjectivit La difficult r side dans le fait que la subjectivit ne rel ve pas seulement du lexique mais d autres niveaux de description organisation temporelle 372 du r cit structure argumentative etc Nous avons propos ici quelques l ments d analyse pour la prise en compte de ces niv
3. baseline pour d autres exp rimentations La base de comparaison est donc l exp rimentation qui n cessite l effort computationnel minimal sur les textes en consid rant ces derniers comme un mat riau brut directement accessible au moyen d une segmentation en mots Toutes les autres exp rimentations effectuent des traitements suppl mentaires sur les textes visant am liorer les r sultats L valuation a t effectu e avec la validation crois e sur 5 parties du corpus 2 http www cs waikato ac nz ml weka 370 e Exp rimentation 1 2 A la place des mots nous avons utilis s leurs lemmes casse normalis e e Exp rimentation 1 3 Utilisation des n grammes de mots longueur maximale 3 Dans la s rie des exp rimentations 2 nous avons utilis les crit res labor s selon la m thodologie d crite dans la partie pr c dente e Exp rimentation 2 1 Utilisation de crit res unitaires et de crit res composites adjacents pour un total de 30 crit res e Exp rimentation 2 2 Ajout de crit res cooccurrentiels et augmentation du nombre total 46 crit res Exp rimentation 2 3 Augmentation du nombre de crit res total 61 crit res 5 R sultat et discussion Type d attributs Algorithme de des textes classification bien cat goris s 1 1 Mots simples 1200 crit res J48 53 Naive Bayes 63 SMO 70 1 2 Lemmes 370 crit res J48 55
4. Analysing Weblogs AAAI CAAW NakaGawa T Inu K et KuroHasm S 2010 Dependency Tree based Sentiment Classification using CRFs with Hidden Variables Proceedings of Human Language Technologies Panc B Lee L et VAITHYANATHAN S 2002 Thumbs up Sentiment classification using machine learning techniques Proceedings of the Conference on Empirical Methods in Natural Language Processing EMNLP pages 79 86 Panc B et Lre L 2008 Opinion Mining and Sentiment Analysis Now Publishers Inc Patr J 1998 Machines using Sequential Minimal Optimization B Schoelkopf C Burges and A Smola editors Advances in Kernel Methods Support Vector Learning Raster F 2001 Arts et sciences du texte Paris PUF Ruorr E Wee J et Wison 2003 T Learning subjective nouns using extraction pattern bootstrapping Proceedings of the Conference on Natural Language Learning CoNLL pages 25 32 Quiian R 1993 C4 5 Programs for Machine Learning Morgan Kaufmann Publishers San Mateo CA Sarem R 1993 M thodes de la statistique textuelle Th se pour le doctorat d tat s lettres et sciences humaines Universit de la Sorbonne Nouvelle Paris 3 998 pages Sarem A Lamae C Marnnez W Fieury S FraccHioiA B et al 2003 Lexico3 Outils de statistique textuelle Manuel d utilisation http www tal univ paris3 fr lexico Snyper B et Barzuay R 2007 Multiple aspect ranking using the Good G
5. Naive Bayes 63 SMO 64 1 3 N grammes de mots 1357 crit res J48 56 Naive Bayes 64 SMO 74 2 1 Crit res textom triques 30 crit res J48 67 Naive Bayes 64 SMO 65 2 2 Crit res textom triques 43 crit res J48 62 Naive Bayes 72 SMO 72 2 3 Crit res textom triques 61 crit res J48 70 Naive Bayes 74 SMO 77 Tast 1 R sultat des exp rimentations Comme dans des exp riences similaires Pang et al 2002 on constate que la 371 classification sur les mots simples et les n grammes permet d obtenir des r sultats convenables compte tenu de la difficult de la t che N anmoins cela constitue un plafond que l on ne peut d passer La g n ralisation des crit res apport e par la lemmatisation ne permet pas d am liorer les r sultats Ce ph nom ne a fait l objet de nombreux d bats dans la communaut textom trique par exemple Mellet 2003 A la diff rence de la premi re s rie d exp rimentations nos crit res textom triques sont peu nombreux mais ils constituent une base facilement extensible L ajout des crit res augmente syst matiquement les performances de Naive Bayes et SMO Ainsi nous observons une progression sensible sur l ensemble des algorithmes Notre meilleur r sultat avec SMO d passe de 7 points celui obtenu avec des mots simples et de 3 points celui des n grammes Par ailleurs l am lioration des r sultats pour J48 et Naive Bayes est syst matique L interpr tation des r sultats
6. avons utilis trois types de crit res i crit res unitaires un choix de formes lemmes ou cat gories morphosyntaxiques ii crit res composites adjacents n grammes iii cooccurrences multiniveaux combinant les l ments de diff rents niveaux de description linguistique formes lemmes ou cat gories morphosyntaxiques Tous les crit res sont s lectionn s selon 4 principes leur caract re sp cifique un sous corpus leur r partition uniforme dans le sous corpus leur fr quence et leur pertinence linguistique L analyse du corpus et l extraction des crit res ont t effectu es avec deux logiciels 369 textom triques Lexico3 Salem et al 2003 et TXM Heiden et al 2010 qui impl mentent les algorithmes de sp cificit s Lafon 1980 et de cooccurrences Lafon 1981 Nous avons choisi les deux premiers types de crit res selon le proc d suivant 1 calcul des sp cificit s des items isol s formes lemmes et cat gories morphosyntaxiques et de leur n grammes fonction Segments R p t s de Lexico 3 pour chaque sous corpus gai triste 2 analyse des contextes d apparition des items sp cifiques au moyen de concordances textuelles afin de s assurer de leur pertinence textuelle et de l unicit de leur fonction les crit res ayant une seule fonction et signification ont t privil gi s 3 v rification de la r partition uniforme des items dans le sous corpus fonctionnalit Car
7. chiffr s et des crit res obtenus participe selon nous de la validation de l exp rimentation et en constitue une valeur ajout e Ainsi nous avons organis nos crit res selon une typologie inspir e de travaux s miotiques Les crit res thymiques Court s 1991 qui rel vent d une lecture axiologique des textes sont essentiellement dysphoriques et concernent donc les textes tristes avoir peur je souffre douleur stress Le seul crit re thymique retenu pour la classification des textes gai est heureux euphorique Au del des crit res thymiques courants nous nous sommes int ress s ceux relatifs des composantes textuelles Rastier 2001 parce que ne relevant pas de typologies axiologiques classiques positif n gatif Charaudeau 1992 ils sont rarement pris en compte en AS La composante dialectique concerne l organisation lin aire et temporelle du r cit Ces crit res dans les textes gais sont diff rents marqueurs de structuration argumentative par contre car et temporelle apr s puis absents des textes tristes Dans ceux ci la structuration est cumulative en plus de nouveau ou indice d incertitude ne pas arriver avoir l impression de La composante dialogique est relative au positionnement des acteurs Elle met en uvre un fort contraste entre les textes gais o le destinateur nonciateur s adresse explicitement
8. P 367 applications d analyse des sentiments AS On songe dans le discours politique aux travaux de Salem 1993 dans les sondages d opinion Lebart et Salem 1988 ou dans la litt rature Brunet 2009 On souhaiterait ici susciter une rencontre entre d une part le TAL ing nierique et ses applications et d autre part la textom trie partir des constats suivants 1 l valuation des m thodes en TAL repose sur un ensemble restreint de mesures telles que pr cision rappel f mesure qui ont pour but de v rifier la qualit des m thodes plus que de valider des hypoth ses et des m thodologies linguistiques Leurs r sultats ne n cessitent pas d interpr tation pour tre valides 2 la textom trie rel ve au contraire d une tradition descriptive Elle se focalise sur l interpr tation des r sultats de traitements statistiques davantage que sur l am lioration desdits traitements la diff rence du TAL l valuation n est pas un enjeu en textom trie Notre projet repose sur l hypoth se que la textom trie discipline descriptive est m me d apporter des solutions m thodologiques pour les applications g n ralement d volues au TAL Nous tenterons d valuer l apport potentiel de la conjonction d une analyse textom trique et de m thodes d apprentissage pour une application d AS 2 tat de l art La cat gorisation des textes qu elle soit bipolaire positif n gatif ou multiclasse mauv
9. Sur l application de m thodes textom triques la construction de crit res de classification en analyse des sentiments Egle Eensoo Mathieu Valette INALCO ERTIM 2 rue de Lille 75343 Paris Cedex 07 prenom nom inalco fr R sum Depuis une dizaine d ann es le TAL s int resse la subjectivit notamment dans la perspective d applications telles que la fouille d opinion et l analyse des sentiments Or la linguistique de corpus outill e par des m thodes textom triques a souvent abord la question de la subjectivit dans les textes Notre objectif est de montrer d une part ce que pourrait apporter l analyse des sentiments l analyse textom trique et d autre part comment mutualiser les avantages d une association entre celle ci et une m thode de classification automatique bas e sur l apprentissage supervis En nous appuyant sur un corpus de t moignages issus de forums de discussion nous montrerons que la prise en compte de crit res s lectionn s suivant une analyse textom trique permet d obtenir des r sultats de classification satisfaisants par rapport une vision purement lexicale ABSTRACT About the application of textometric methods for developing classification criteria in Sentiment analysis Over the last ten years NLP has contributed to applied research on subjectivity especially in applications such as Opinion mining and Sentiment analysis However corpus linguistics and textometry have often addre
10. ais bon excellent est l application principale en extraction d information subjective Elle peut tre r alis e au moyen d algorithmes ad hoc Turney 2002 Snyder et Barzilay 2007 ou des m thodes d apprentissage comme Naive Bayes Support Vector Machines etc Pang et al 2002 Mihalcea et Liu 2006 en utilisant des attributs diff rents pour caract riser les documents M me si perdurent d autres m thodes ayant principalement recours l utilisation de ressources lexicales construites Kim et Hovy 2004 ou automatiquement acquises Turney 2002 Riloff et al 2003 avec la banalisation des corpus annot s les m thodes de cat gorisation bas es sur l apprentissage supervis sont de plus en plus utilis es Elles utilisent diverses caract ristiques textuelles i tous les mots du texte sac de mots unigrammes ou n grammes Pang et al 2002 Dave et al 2003 ii la pr sence ou l absence d un ensemble de mots d termin s iii l emplacement de certains mots Kim et Hovy 2006 iv certaines parties du discours seules adjectifs Kamps et Marx 2002 collocations adverbe adjectif Turney 2002 substantifs enfin v les d pendances syntaxiques Nakagawa et al 2010 Wi et al 2009 Wiegand et Klakow 2010 Nous nous inscrivons donc pleinement dans cette d marche en proposant des crit res de classification issus d analyses textom triques pour servir de base aux divers algorithmes d apprentissage supervis
11. caract riser plus finement l opposition binaire gai triste Un t moignage triste est i une histoire qui finit mal ii un t moignage exprimant des doutes des interrogations ou sollicitant de l aide Un t moignage gai est i une histoire triste qui finit bien ii un t moignage modulant la gravit de la situation et soulignant les points positifs iii un conseil 4 Description de l exp rience 4 1 tape 1 Choix des caract ristiques textuelles au moyen des m thodes textom triques Nous tentons de mettre en vidence les ph nom nes textuels qui diff rencient les t moignages de nos deux cat gories Nous avons une double ambition trouver des crit res de classification linguistiquement explicables et suffisamment robustes pour servir de crit res aux m thodes d apprentissage supervis Nous faisons l hypoth se que les crit res de classification interpr tables sont plus performants que les crit res trouv s par des m thodes d apprentissage souvent non signifiants d un point de vue textuel et incidents au corpus d apprentissage ex pr sence de fautes d orthographe non pertinentes par rapport aux cat gories de classification Ainsi lors de l tape de s lection de crit res l analyste carte les crit res li s l chantillon du corpus et choisit les crit res textuels coh rents avec les composantes textuelles th matique dialogique etc cf 8 5 actualis es dans le corpus Pour l exp rience nous
12. eaux de description et leur impl mentation pour la classification Le co t en temps de notre m thode d laboration de crit res n a pas t quantifi mais nous estimons qu il est comparable d autres m thodes semi automatiques Le domaine manquant de m thodes prouv es notre exp rience nous a permis de mieux comprendre la t che et sa complexit et d esquisser une proposition m thodologique tenant compte d une caract risation textuelle de la subjectivit 7 R f rences Brunet 2009 crits choisis Volume 1 Comptes d auteurs tudes statistiques De Rabelais Gracq Textes dit s par D Mayaffre Champion Paris B cxer F Ei B ze M et Torres Moreno J M 2008 En finir avec la confusion des genres pour mieux s parer les th mes Actes de l atelier de cl ture de la 4 me dition du D fi Fouille de Texte CHARAUDEAU P 1992 Grammaire du sens et de l expression Hachette Education Courr s J 1991 Analyse s miotique du discours De l nonc l nonciation Paris Hachette Dave K Lawrence S et Pennock D M 2003 Mining the peanut gallery opinion extraction and semantic classification of product reviews In Proceedings of the 12 international WWW conference May 20 24 2003 Budapest Hungary pages 519 528 Hemen S MaGu J P et Pncemn B 2010 TXM Une plateforme logicielle open source pour la textom trie conception et d veloppement In I C Sergio Bolasc
13. o Ed JADT 2010 Vol 2 pages 1021 1032 logiciel disponible sur http textometrie ens lyon fr Jon G H et Lancey P 1995 Estimating Continuous Distributions in Bayesian Classifiers Eleventh Conference on Uncertainty in Artificial Intelligence San Mateo pages 338 345 Kamers J et Marx M 2002 Words with Attitude 1st International WordNet Conference pages 332 341 Km S M et Hovy E 2004 Determining the sentiment of opinions Proceedings of the 20th international conference on Computational Linguistics COLING 04 Association for Computational Linguistics Stroudsburg PA USA Km S M et Hovy E 2006 Extracting opinions opinion holders and topics expressed in online news media text SST 06 Proceedings of the Workshop on Sentiment and Subjectivity in Text Association for Computational Linguistics pages 1 8 LeBarr L et Sarem A 1988 Analyse statistique des donn es textuelles Questions ouvertes et lexicom trie Paris Dunod Laron P 1980 Sur la variabilit de la fr quence des formes dans un corpus Mots 1 pages 127 165 Laron P 1981 Analyse lexicom trique et recherche des cooccurrences Mots 3 pages 95 148 373 Meur S 2003 Lemmatisation et encodage grammatical un luxe inutile Lexicometrica Autour de la lemmatisation Dominique Labb d Mumaicea R et Liu H A 2006 Corpus Based Approach to Finding Happiness AAAI Symposium on Computational Approaches to
14. rief algorithm Proceedings of the Joint Human Language Technology North American Chapter of the ACL Conference HLT NAACL pages 300 307 Turney P 2002 Thumbs up or thumbs down Semantic orientation applied to unsupervised classification of reviews Proceedings of the Association for Computational Linguistics ACL pages 417 424 VERNER M Moncaux l et Daure B 2009 DEFT 09 d tection de la subjectivit et cat gorisation de textes subjectifs par une approche mixte symbolique et statistique Actes de l atelier de cl ture de la 5 me dition du D fi Fouille de Textes Wi Y Zanc Q Huang X et Wu L 2009 Phrase Dependency Parsing for Opinion Mining Proceedings of EMNLP 2009 Singapore Wee J M Wuson T Bruce R Be M et Martm M 2004 Learning subjective language Computational Linguistics 30 3 pages 277 308 Wrscanbp M et Krakow D 2010 Convolution Kernels for Opinion Holder Extraction Proceedings of Human Language Technologies The 2010 Annual Conference of the North American Chapter of the ACL L A CA 374
15. ssed the issue of subjectivity in text Our purpose is to show first what textometric analysis could bring to sentiment analysis and second the benefits of pooling linguistic textometric analysis and automatic classification methods based on supervised learning By processing a corpus of posts from fora we will show that the building of criteria from a textometric analysis could improve classification results compared to a purely lexical approach Mors ci s linguistique de corpus textom trie analyse de sentiments classification automatique supervis e Keyworps corpus linguistics textometry sentiment analysis supervised learning 1 Introduction L extraction d information subjective Pang et Lee 2008 est depuis une dizaine d ann es un vaste domaine d applications en croissance r guli re Malgr quelques travaux par exemple Vernier 2009 B chet et al 2008 le savoir faire linguistique y est peu sollicit La subjectivit a pourtant fait l objet de nombreux travaux linguistiques dans diff rents courants th oriques linguistique de l nonciation analyse de discours s mantique des textes La textom trie aux confins de la linguistique g n rale et du TAL propose par ailleurs une archive int ressante de travaux sur corpus susceptibles d int resser les Actes de la conf rence conjointe JEP TALN RECITAL 2012 volume 2 TALN pages 367 374 Grenoble 4 au 8 juin 2012 2012 ATALA amp AFC
16. te de Sections du Lexico 3 La s lection des cooccurrences s est fait comme suit 1 calcul des cooccurrences fonction Cooccurrences de TXM des items sp cifiques fr quents et uniform ment repartis sur la totalit du corpus 2 analyse des contextes d apparition de ces cooccurrences 3 s lection des cooccurrences sp cifiques un sous corpus Dans les deux cas les crit res de classification pour chaque texte sont des fr quences ou des valeurs bool ennes pr sence absence des items s lectionn s 4 2 tape 2 Classification La deuxi me tape consiste utiliser des algorithmes d apprentissage supervis pour classer les textes En utilisant Weka nous en avons exp riment trois chacun d une famille diff rente les arbres de d cision J48 Quinlan 1993 Naive Bayes John et Langley 1995 et les Machines Vecteurs de Support SMO Platt 1998 L objectif est d observer les diff rences et similitudes au niveau des performances en changeant la nature et la quantit des crit res Le corpus contient 300 textes quitablement r partis entres les deux cat gories 147 gaies et 153 tristes L valuation a t effectu e avec la m thode de validation crois e sur cinq parties e Exp rimentation 1 1 premi re exp rimentation avec des mots simples sans aucune modification avec pour valeur leur fr quence dans un texte on consid re ces r sultats comme la base de comparaison
Download Pdf Manuals
Related Search
Related Contents
Time Machine Boost Formation sur le service communal du logement Chauffe-eau Vaillant MAG® FR 9/2 XZ (N) MODE D`EMPLOI ET Copyright © All rights reserved.
Failed to retrieve file