Home

Article

1. T che 2 1 Cette t che consiste identifier le type de subjectivit ou d objectivit Les classes propos es sont les suivantes information tweet objectif opinion l expression intellective et r fl chie sentiment l expression intellective affective et motion l expression purement affective T che 2 2 Dans cette t che l objectif est d identifier une classe fine correspondant trois cat gories subjectives opinion sentiment motion DEFT nous propose 18 classes fines 12 Travaux pr c dents et positionnement m thodologique Notre participation au DEFT 2015 a t motiv e par nos travaux ant rieurs Eensoo amp Valette 2012 2014b a portant sur la d tection d opinions et l analyse des sentiments sur divers corpus issus essentiellement du Web 2 forums de discus sions commentaires d internautes des articles de presse A nsi nous avons pu laborer une m thodologie qui s inspire de la s mantique textuelle Rastier 2001 pour identifier des crit res linguistiques pertinents pour une classification s mantique des textes subjectifs Cette m thodologie s appuie sur une analyse diff rentielle du corpus par des m thodes de textom trie comme le calcul de sp cificit s Lafon 1980 de collocations n grammes et des cooccurrences La fon 2981 Ces travaux se d marquent des approches traditionnelles fond es sur la recherche de marqueurs axiologiques explicites par l utilisatio
2. Confe rence on New Methods in Language Processing Manchester UK TURNEY P 2002 Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews In Proceedings of the Association for Computational Linguistics ACL p 417 424 VERNIER M MONCEAUX L amp DAILLE B 2009a Deft 09 d tection de la subjectivit et cat gorisation de textes subjectifs par une approche mixte symbolique et statistique In Actes de l atelier de cl ture de la 5 me dition du D fi Fouille de Textes VERNIER M MONCEAUX L DAILLE B amp DUBREIL E 2009b Cat gorisation des valuations dans un corpus de blogs multi domaine Revue des nouvelles technologies de l information RNTI p 45 70 Y1J NASUKAWA T BUNESCU R amp NIBLACK W 2003 Sentiment analyzer Extracting sentiments about a given topic using natural language processing techniques In Proceedings of the Third IEEE International Conference on Data Mining ICDM 03 p 427 Washington DC USA IEEE Computer Society YU H amp HATZIVASSILOGLOU V 2003 Towards answering opinion questions separating facts from opinions and identifying the polarity of opinion sentences In Proceedings of the 2003 conference on Empirical methods in natural language processing EMNLP 03 p 129 136 Stroudsburg PA USA Association for Computational Linguistics
3. Micro pr cision ZeroR 15 04 45 12 Tokens NaiveBayes 46 05 47 20 NaiveBayesMultinomial 37 14 35 29 SMO 58 34 59 46 NaiveBayes 47 41 48 19 Lemmes NaiveBayesMultinomial 38 39 35 71 SMO 58 77 60 37 Vecs NaiveBayes 49 71 51 15 SMO 66 41 67 32 NaiveBayes 50 09 51 42 Vecs Desc NaiveBayesMultinomial 62 67 60 89 SMO 65 72 66 70 TABLE 4 Comparaison des pr traitements et algorithmes pour T1 Les r sultats obtenus par les algorithmes pr sent s en table 4 montrent la sup riorit de l algorithme SMO Platt 1998 Nous voyons galement que si la lemmatisation apporte assez peu le passage aux repr sentations vectorielles apporte des gains tr s significatifs en performance Effectivement les repr sentations vectorielles permettent de limiter la d pendance aux corpus d entra nement et donc de couvrir un vocabulaire qui n est pas compris dans ce dernier Par contre l ajout des distances aux descripteurs n apportent pas plus et font m me l g rement baisser les performances 2 3 Combinaison des m thodologies Les m thodes sont combin es en regardant quelles cat gories ont t bien annot es par chaque syst me sur une sous partie du corpus de test que nous avons r annot comme cela a t d crit dans la partie 2 1 1 Ainsi selon les r sultats de chaque syst me nous avons d termin des heuristiques d terministes simples qui partir de la sortie des deux syst mes prend une d cision Pour la t
4. che 1 les r gles sont les suivantes 4 https github com cblavier twitter feelings 5 Liste des hashtags ecologie Ecologie cologie Environnement Biodiversit DD biodiversit nergie solaire Energie environnement nergies EELV Animaux Durable climat EGLE EENSOO DAMIEN NOUVEL AM LIE MARTIN MATHIEU VALETTE choisir neutre si telle est la sortie du syst me word2vec choisir positif ou n gatif si telle est la sortie de la m thode textom trique sinon mettre neutre Pour la t che 2 1 nous donnons la priorit par classe quel que soit le syst me consid r dans l ordre suivant sentiment information motion opinion Nous adoptons le m me principe pour la t che 2 2 avec l ordre suivant D PLAISIR TRISTESSE INSATISFACTION PLAISIR D SACCORD D RANGEMENT AMOUR SATISFACTION M PRIS Notons que cette combinaison n a t r alis e qu titre exp rimental ce qui explique son peu de sophistication utiliser un apprentissage automatique ce niveau aurait probablement t plus efficace 3 R sultats Les r sultats obtenus sur le corpus de test sont pr sent s en table 5 Pour la t che 1 nous constatons que la m thode textom trique obtient de meilleurs r sultats que word2vec et que la combinaison de ces deux syst mes nous permet d obtenir des r sultats tr s proches du meilleur syst me de la campagne Pour les t ches 2 1 et 2 2 word2vec obtient des r sulta
5. de d veloppement Un troisi me syst me a t r alis par combinaison des deux pr c dents l aide d heuristiques simples Les r sultats obtenus sur les corpus de tests montrent que chaque m thodologie a ses avantages et que leur combinaison peut donner de tr s bonnes performances Abstract Combining Textometric Analysis Machine Learning and Vector Space Representation for Subjectivity Analysis This paper reports the results of our participation in Evaluation Campaign of Text Mining DEFT 2015 for tasks 1 and 2 The aim is to classify tweets according to their polarity Task 1 and detect the generic task 2 1 and specific classes task 2 2 thereof We implemented two systems for this challenge The first method is based on the selection in the training corpus of a set of semantically motivated descriptors for each task from a textometric analysis which are then injected into a supervised machine learning algorithm allowing the development of models on the same corpus The second me thod is based on a vector representation of words learned by using the tool of word2vec leveraging heterogeneous and large corpora This representation is then used to perform automatic supervised learning for each task on the develop ment corpus A third system was designed by combination of both using simple heuristics The results obtained on the test corpora show that each methodology has its advantages and that their combination can achieve ver
6. etc dans la sous classe VALORISATION sans que ce choix soit unanime comme nous le voyons dans ces tweets EGLE EENSOO DAMIEN NOUVEL AM LIE MARTIN MATHIEU VALETTE BFM Business Transition nerg tique le Syndicat des nergies renouvelables confiant URL polarit positive pas de classe g n rique NULL Transition nerg tique le Syndicat des nergies renouvelables confiant URL g n rique OPINION sous classe VALORISATION polarit positive classe Sous classe Corpus d origine Proportion Corpus r annot Proportion ACCORD 14 3 11 5 1 11 AMOUR 0 0 APAISEMENT 1 0 22 3 0 67 COLERE 19 4 22 15 3 33 DEPLAISIR 3 0 67 6 1 33 DERANGEMENT 1 0 22 0 DESACCORD 5 1 11 8 1 78 DEVALORISATION 19 4 22 19 4 22 ENNUI 0 0 INSATISFACTION 1 0 22 0 MEPRIS 8 1 78 19 4 22 PEUR 17 3 78 10 2 22 PLAISIR 0 5 1 11 SATISFACTION 8 1 78 3 0 67 SURPRISE_NEGATIVE 1 0 22 2 0 44 SURPRISE_POSITIVE 1 0 22 0 TRISTESSE 1 0 22 2 0 44 VALORISATION 78 17 33 30 6 67 INFORMATION 220 48 89 301 66 89 NULL pas de classe 53 11 78 22 4 89 Total 450 450 TABLE 1 R partition du nombre de tweets par sous classe au sein de notre chantillon r annot Ainsi dans le cadre de cette campagne d valuation nous avons voulu comparer l annotation d origine fournie par l orga nisation de DEFT avec
7. la d tection automatique de la subjectivit nous exploitons deux m thodes qui ont fait leurs preuves ces derni res ann es Le syst me que nous avons d velopp est d crit en figure 1 La premi re consiste utiliser la textom trie afin didentifier des descripteurs qui serviront de crit res pour classifier les tweets voir supra 2 1 La seconde repose sur un apprentissage non supervis d espaces vectoriels partir d un autre corpus dans lequel projeter les tweets avant de les classifier Nous r alisons galement un troisi me syst me dont la sortie est d termin e par les deux premiers Dans les trois cas quelles que soient les premi res tapes de traitement la classification finale est supervis e par appel un logiciel d apprentissage automatique 2 1 Linguistique de corpus et textom trie 2 1 1 Le corpus DEFT et son annotation Le corpus DEFT et son annotation sont caract ris s par quelques particularit s qui conditionnent les r sultats ventuels d un syst me de classification automatique de tweets Tout d abord il nous a sembl qu une proportion non n gligeable du corpus est constitu e de tweets g n r s automatiquement boutons de partage situ s sur les sites d actualit Ces tweets sont reconnaissables la mention d un via x o x est le nom d un site d actualit des nonc s tronqu s la pr sence d URLSs dans le corps du texte par exemple Forte hausse des raccor
8. s par d faut Les tweets provenant du corpus d entra nement ou du corpus de test sont pr trait s avec les m mes proc dures puis pro jet s dans l espace vectoriel des lemmes cr par word2vec Comme chaque mot un vecteur est associ dans cet espace la projection est une somme normalis e des mots pr sents dans chaque tweet notre hypoth se tant que la longueur d un message n impacte pas les opinions sentiments motions qui y sont pr sents Nous ajoutons par ailleurs pour cette m thode la distance cosinus des mots du tweet avec chaque descripteur d termin dans la partie 2 1 3 2 2 2 Apprentissage automatique Notre premier objectif est d valuer les performances obtenues par diverses approches Pour ce faire nous avons utilis les algorithmes fournis par Weka Hall et al 2009 ainsi que le filtre utilis par d faut String To Word Vector permettant de convertir des textes sous formes de vecteurs de mots Les tweets pouvaient tre fournis dans leur forme brute apr s une lemmatisation apr s projection dans l espace vectoriel apr s projection dans l espace vectoriel avec ajout des distances aux descripteurs Nous avons ensuite valu nos r sultats sur le corpus d entra nement gr ce l outil propos dans le cadre de la campagne en r alisant nous m me une validation crois e 10 plis Pr traitements Algorithme Macro pr cision
9. 22 me Traitement Automatique des Langues Naturelles Caen 2015 Combiner analyses textom triques apprentissage supervis et repr sentation vectorielle pour l analyse de la subjectivit Egle Eensoo Damien Nouvel Am lie Martin Mathieu Valette 1 ERTIM INALCO 2 rue de Lille 75007 Paris 2 SNCF Innovation et Recherche 40 avenue des Terroirs de France 75012 Paris egle eensoo inalco fr damien nouvel inalco fr amelie martin2 sncf fr mathieu valette inalco fr R sum Cet article pr sente le bilan de notre participation au D fi Fouille de Textes DEFT 2015 pour les t ches 1 et 2 Il s agit de classer un corpus de tweets selon leur polarit t che 1 et d tecter les classes g n riques t che 2 1 et sp cifiques t che 2 2 de ces derniers Nous avons impl ment deux syst mes pour ce d fi La premi re m thode repose sur la s lection dans le corpus d entra nement d un ensemble de descripteurs s mantiquement motiv s pour chaque t che partir d une analyse textom trique qui sont ensuite inject s dans un algorithme d apprentissage automatique supervis permettant le calcul de mod les sur ce m me corpus La seconde m thode s appuie sur une repr sentation vectorielle des mots apprise par utilisation de l outil word2vec sur un corpus h t rog ne et volumineux cette repr sentation tant ensuite utilis e pour r aliser un apprentissage automatique supervis pour chaque t che sur les corpus
10. TE M 2014a Approche textuelle pour le traitement automatique du discours valuatif A Jackiewicz d tudes sur l valuation axiologique Langue fran aise 184 107 122 EENSOO E amp VALETTE M 2014b S mantique textuelle et tal un exemple d application l analyse des sentiments D Ablali S Badir D Ducard Eds Documents textes uvres Presses Universitaires de Rouen Collection Rivages linguistiques EENSOO E amp VALETTE M 2015 Une m thodologie de s mantique de corpus appliqu e des t ches de fouille d opinion et d analyse des sentiments tude sur l impact de marqueurs dialogiques et dialectiques dans l expression de la subjectivit In Actes de la conf rence TALN 2015 GHORBEL H amp JACOT D 2011 Further experiments in sentiment analysis of french movie reviews In E MUGEL LINI P SZCZEPANIAK M PETTENATI amp M SOKHN Eds Advances in Intelligent Web Mastering 3 volume 86 of Advances in Intelligent and Soft Computing p 19 28 Springer Berlin Heidelberg 10 1007 978 3 642 18029 3 3 HALL M EIBE F HOLMES G PFAHRINGER B REUTEMANN P amp WITTEN I H 2009 The weka data mining software An update SIGKDD Explorations 11 1 HEIDEN S MAGU J P amp PINCEMIN B 2010 Txm Une plateforme logicielle open source pour la textom trie conception et d veloppement In S BOLASCO Ed Actes de la conf rence JADT 2010 volume 2 p 1021 1032 LAFON P 1980 S
11. ant est plus vari Il peut s agir de mar queurs de structuration des verbes modaux et des indicateurs rh toriques emphases points d interrogation mots interrogatifs etc Dans notre corpus les crit res dialectiques se trouvent principalement dans les tweets n ga tifs comment pourquoi pourtant ah Les tweets neutres se caract risent par des ponctuations de phrase qui structurent le texte par cons quent on peut galement les consid rer comme dialectiques Les crit res th matiques sont les plus nombreux dans ce corpus Ils caract risent les diff rents th mes abor d s qui sont dans notre cas porteur d une polarit Les crit res positifs sont li s la sauvegarde de la nature et au d veloppement des solutions alternatives pour l nergie Voici quelques exemples investir r duire soutenir crowdfunding g othermie construire d velopper protection cellule solaire photovolta que financement parti cipatif nergie positif r duire CO2 r duire a roport d velopper renouvelable cr er cosyst me Les crit res n gatifs expriment les probl mes cologiques en danger disparition crise r chauffement climatique esp ce menacer impasse climatique cologie punitif oiseau neige assassiner mort tuer indiff rence Les crit res des tweets neutres informationnelles comportent quasi exclusivement les crit res th matiques qui relatent les actua lit s Les exemples son
12. dats mots cl s Notre m thodologie est con ue pour valuer la capacit classifica toire des diff rents marqueurs s mantiques en particulier non th matiques et non axiologiques en privil giant les l ments de structuration des textes et de positionnements nonciatifs Eensoo amp Valette 2015 Elle serait donc peu adapt e un genre textuel court donnant a priori le primat aux lex mes porteurs de signification r f rentielle 2 L annotation fine Il appara t que l annotation fine du corpus est en fait une annotation lexicale C est peut tre un corollaire du premier verrou scientifique le guide d annotation avec lequel le corpus semble avoir t produit appara t orient vers une cat gorisation tr s lexicale des tweets Autrement dit c est davantage les significations des unit s lexicales de chaque tweet prises isol ment qui font l objet d annotation que le sens du tweet pris dans son ensemble Au fond on est ici confront une impr cision m thodologique L annotation fine ne signifie pas que les motions vont tre annot es avec finesse mais en fonction des seuls mots du texte consid r s comme des mots cl s indexant des motions En d finitive annotation fine signifie grain fin le grain tant celui du mot titre d exemple on peut reprendre celui du guide d annotation L amour et la fidelit sont des esp ces en voie de disparition orthographe respect e Ce tweet est anno
13. dements olien et photovolta que Les raccordements d oliennes et de panneaux solaires URL Ils reprennent ainsi dans un grand nombre de cas les titres ou des chapeaux d articles de presse et peuvent difficilement tre class s en terme d opinion ou de sentiments En voici trois exemples tir s du corpus d apprentissage Euthanasie Un chien survit une tentative d euthanasie 7sur7 URL polarit positive pas de classe g n rique NULL Un chien survit miraculeusement une tentative d euthanasie URL polarit neutre classe g n rique INFORMATION Un chien survit une tentative d euthanasie URL via 7sur7 polarit positive classe g n rique OPINION sous classe VALORISATION De surcro t comme nous le voyons dans l exemple ci dessus les tweets peuvent tre tr s similaires et les divergences d annotation importantes L annotation de certains tweets semble avoir t r alis e partir de la simple pr sence d un terme porteur d une motion ou d une opinion sp cifique par exemple le tweet Elles font fureur Leur toucher doux leur couvercle cristal leur respect d environnement URL class dans la sous classe COLERE Enfin il semble aussi que certains annotateurs font le choix de classer tous les tweets comportant un terme connot positivement dans le domaine de l cologie renouvelable durable solaire
14. ets par sous classe au sein de notre chantillon En gras apparaissent les classes ou sous classes qui pr sentent les plus fortes divergences INFORMATION VALORISATION et MEPRIS mais aussi ACCORD PEUR PLAISIR et SATISFACTION Ces deux derni res sous classes se confondent facilement avec APAISEMENT galement Par exemple nous avons classifi le tweet Actuenviro Transition nerg tique le maintien de S gol ne Royal rassure cologistes et industriels URL dans la sous classe APAISEMENT alors qu il apparaissait dans la sous classe SATISFACTION les deux annotations semblent correctes Quant aux divergences pour la sous classe PEUR elles r sultent de la fronti re tr s t nue entre inqui tude et information olien La possible extension des zones d exclusion militaires provoque la crainte des professionnels URL 2 https deft limsi fr 2015 guideAnnotation fr php lang fr 22 me TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES CAEN 2015 2 12 laboration textom trique de crit res de classification L laboration textom trique des crit res consiste trouver des crit res de classification linguistiquement explicables et suffisamment robustes pour servir de descripteurs aux m thodes d apprentissage supervis L analyse du corpus et le rep rage des crit res linguistiques ont t effectu s avec deux logiciels textom triques Lexico 3 Salem ef al 2003 et TXM Heiden et al 2010 qui impl mentent notam
15. ion elle m me et vise d terminer comment il est possible d extraire des indices permettant pour un humain ou un algorithme de d terminer quelle classe attribuer un texte court Si nos conclusions cet gard sont encore parcellaires nous nous apercevons de la difficult de la t che et de ses variabilit s La seconde direction vise fonder exp rimentalement les m thodes ad quates pour construire des syst mes qui classent automatiquement ces tweets Nous exp rimentons une m thode textom trique et mettons ici en avant les bonnes perfor mances qu elle obtient en combinaison avec un apprentissage automatique Par ailleurs nous la confrontons galement aux repr sentations vectorielles qui montrent galement leur int r t en particulier lorsque les cat gories sont nombreuses et le corpus d entra nement de taille limit Comme les r sultats obtenus le montrent combiner le deux permet d obtenir des r sultats tr s comp titifs une perspective que nous envisageons d approfondir dans nos travaux futurs 22 me TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES CAEN 2015 R f rences BRUNET E 2000 Qui lemmatise dilemme attise Lexicometrica 2 EENSOO E amp VALETTE M 2012 Sur l application de m thodes textom triques la construction de crit res de classification en analyse des sentiments In Actes de la conf rence conjointe JEP TALN RECITAL 2012 volume 2 p 357 374 Grenoble EENSOO E amp VALET
16. lassique de l expres sion de la subjectivit Pour cat goriser les tweets positifs on trouve des marqueurs comme bon beau int ressant mieux bien positif super bravo aimer Dans les tweets de polarit n gative on recense les mots comme mauvais suspect pol mique inqui ter pire mal col re foutre con merde gueule N anmoins la proportion des mar queurs axiologiques reste relativement faible par rapport aux autres cat gories ce qui nous am ne penser que l expression de la subjectivit est un ph nom ne complexe que l on ne peut r duire l identification des marqueurs thymiques Les crit res dialogiques concernent la repr sentation des acteurs le positionnement nonciatif et la distribution des r les actanciels Ils actualisent essentiellement les pronoms personnels les pronoms possessifs et certaines entit s nomm es On le trouve essentiellement dans les tweets de polarit n gative ce qui peut s interpr ter comme un ancrage plus prononc dans la pr sence du locuteur et dans l interaction Il s agit essentiellement des pronoms comme elle lui tu te on me et quelques entit s nomm es du domaine Ecologistes S gol ne Royal communiste EGLE EENSOO DAMIEN NOUVEL AM LIE MARTIN MATHIEU VALETTE Les crit res dialectiques sont d di s la repr sentation du temps et du d roulement aspectuel des structures argumentatives et de certaines modalit s Le vocabulaire la caract ris
17. ment les algorithmes de sp cificit s Lafon 1980 et de collocations Segments r p t s de Lexico 3 ainsi que les concordances qui nous ont permis le retour au texte et donc la v rification de la pertinence linguistique des crit res An amont de l analyse du corpus nous avons effectu quelques pr traitements les URLs ont t remplac s par la cha ne de caract re URL les motic nes ont t supprim s les hashtags ont t consid r s comme des mots simples s par s du marqueur enfin le corpus a t lemmatis avec TreeTagger Schmid 1994 La lemmatisation bien qu elle fasse l objet de d bat en textom trie Brunet 2000 comme en analyse d opinion Pang ef al 2002 nous a sembl un choix judicieux cause de la particularit du corpus textes courts avec peu de redondance de mots dans un texte et de sa taille en effet nous avons constat auparavant que les lemmes taient plus performants sur de grands corpus Pour l exp rience nous avons utilis trois types de crit res crit res unitaires choix des lemmes pertinents crit res composites adjacents choix des n grammes de longueur variable de 2 6 unit s cooccurrences textuels dans la fen tre d un tweet de 2 lemmes Tous les crit res sont s lectionn s selon trois principes 1 leur caract re sp cifique une cat gorie ii leur fr quence et iii leur pertinence linguistique Nous av
18. n de crit res qui ne sont pas consid r s d ordinaire comme prioritaires pour la d tection de l in formation subjective Ils rel vent des repr sentations des acteurs composante dialogique des structures argumentatives et narratives des textes composante dialectique et des th mes instanci s composante th matique Nous avons pour objectif de proposer une m thodologie mixte alliant l analyse du linguiste qui en expertisant le corpus en extrait les l ments linguistiquement pertinents pour l expression de la subjectivit et les m thodes statistiques qui automatisent l analyse du corpus et rendent les r sultats reproductibles Les deux verrous scientifiques auxquels nous confrontons notre m thodologie en participant au d fi DEFT 2015 ont trait au genre textuel du tweet d une part et l annotation fine d autre part 1 Textualit et forme br ve Notre m thodologie repose en effet sur une analyse s mantique de la textualit coh sion textuelle marqueurs structuraux etc Le tweet forme br ve r put e parataxique est intrins quement pauvre en marqueurs de textualit et peut s apparenter un ensemble de mots cl s faiblement articul s textuellement Cons quence probable de cette pauvret textuelle le tweet est hyperlexicalis comme en atteste l innovation du mot di se hashtag qui promeut les mots du texte et parfois m me des syntagmes complexes voir des phrases au rang de mots cl s ou de candi
19. ons choisi les deux premiers types de crit res selon le proc d suivant 1 calcul des sp cificit s des lemmes isol s et de leur n grammes fonction Segments R p t s de Lexico 3 pour chaque cat gorie 2 analyse des contextes d apparition des lemmes sp cifiques au moyen de concordances textuelles afin de s assurer de leur pertinence textuelle et de l unicit de leur fonction les crit res ayant une seule fonction et signification ont t privil gi s La s lection des cooccurrences a t r alis e comme suit 1 calcul des paires de lemmes cooccurrents pour chaque tweet 2 calcul de sp cificit s de chaque cooccurrence pour toutes les cat gories avec le logiciel TXM 3 s lection des cooccurrents s mantiquement interpr tables limination des cooccurrents avec des mots outils fr quents choix des cooccurrents qui soit pr cisent un item d j pr sent dans parmi les lemmes isol s soit apporte un nouveau crit re s mantique 2 1 3 Descripteurs linguistiques extraits Nous pr sentons ici succinctement les principales cat gories de crit res qui ont servi la classification des tweets Nous exposons les crit res obtenus avec la premi re m thode m thode textom trique Nous distinguons quatre cat gories de crit res linguistiques thymiques dialogiques dialectiques et th matiques Les crit res thymiques sont r put s intrins quement axiologiques et rel vent d une vision c
20. t AMOUR mais il est manifeste que l motion exprim e ici n est pas l amour elle est vraisemblablement d ceptive pessimisme consternation r signation mais pourrait galement tre dans une perspective nihiliste l espoir la joie enfin nous voil d barrass s de lamour et de la fid lit En bref on ne peut gu re statuer sur l motion exprim e De la m me fa on un tweet tel que Moi aussi j aime l entreprise celle sans patron sans actionnaire et qui produit des biens et services durables socialement et cologiques extrait du corpus peut il s rieusement tre annot comme porteur de l motion AMOUR la seule pr sence du verbe aimer ne permet pas selon nous d en juger On pourrait m me argumenter que l amour de l entreprise exprim ici l est par contraste avec un d samour tout aussi explicite et m me peut tre plus saillant 1 https deft limsi fr 2015 guideAnnotation fr php lang fr 22 me TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES CAEN 2015 envers d autres acteurs du tweets le patron les actionnaires Nous d velopperons cette analyse critique dans le paragraphe 2 1 1 2 M thodologie de la d tection de subjectivit Ea gt Descripteurs gt gt valuation Ea 3 Pr traitements weets bruts f k E i valuation Es a valuation valuation FIGURE 1 Fonctionnement g n ral Pour aborder la probl matique de
21. t les suivants publication emploi job programme panorama consultation rencontre tudier conf rence test observatoire 2 14 Apprentissage automatique Pour classer les tweets nous avons utilis les algorithmes d apprentissage supervis Nous en avons test plusieurs nous ne pr sentons ici que les r sultats obtenus avec l algorithmes de Machines Vecteurs de Support SMO Platt 1998 int gr dans Weka Hall et al 2009 qui a donn les meilleurs r sultats En amont des r sultats sur le corpus de test nous pr sentons les r sultats obtenus sur le corpus d apprentissage avec la validation crois e dix plis en table 2 T che Macro pr cision Micro pr cision 1 71 73 69 5 2 1 70 35 70 10 2 2 52 00 63 70 TABLE 2 R sultats obtenus sur le corpus dapprentissage par validation crois e 2 2 Utilisation de l apprentissage non supervis 2 2 1 Calcul de l espace vectoriel et projection des tweets Dans le contexte de cette campagne d valuation nous nous sommes aper u que la taille des corpus d entra nement est limit e et peu de ressources sont facilement disponibles pour le fran ais Afin de tester des approches qui limitent la d pendance au corpus en terme de vocabulaire nous nous sommes tourn s vers des algorithmes non supervis s Les travaux r cents de Mikolov et al 2013 ont montr l efficacit que l on peut obtenir lors de l utilisation de repr senta
22. tions de mots ou d expressions dans des espaces vectoriels qui sont calcul s selon leurs contextes C est l objectif atteint par l outil word2vec qui a fait ses preuves dans d autres domaines et que nous avons entra n sur les corpus suivants Corpus Mots K Description AFP 500 558 D p ches AFP sur les ann es 2007 2013 Deft train 116 Corpus d entra nement de DEFT CoMeRe 568 Tweets de personnalit s politiques Longhi et al 2014 Feelings 1 686 Extraction de tweets avec l outil twitter feelings Hashtags 593 Extraction de tweets avec twython partir de hashtags TABLE 3 Volum trie et description du corpus d entra nement de word2vec 3 https code google com p word2vec 22 me TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES CAEN 2015 Notre corpus d passe les 500 millions de mots dont la tr s large majorit est constitu e de d p ches AFP Une partie t collect e l aide de l outils twitter feelings ou par recherche de hashtags li s l cologie 3 Le corpus a ensuite t lemmatis avec TreeTagger Schmid 1994 De plus les hashtag et les mentions sont introduits sous trois formes tels quels sans leurs pr fixes ou segment s selon la pr sence de majuscules Le corpus est ensuite trait par word2vec afin d apprendre des vecteurs de 500 composantes sur une fen tre contextuelle de 10 mots en 20 it ration autres param tres laiss
23. ts meilleurs que la m thode textom trique approchant une nouvelle fois le meilleur syst me pour la t che 2 2 la combinaison n obtenant de bons r sultats que pour la t che 2 1 T che Textom trie word2vec Combinaison Max DEFT 1 71 09 69 17 73 44 73 60 2 1 56 22 57 19 57 53 61 29 2 2 29 23 33 72 30 42 34 68 TABLE 5 R sultats DEFT 2015 Ces r sultats sont satisfaisants au regard des meilleurs syst mes de la campagne et montrent bien les avantages et in conv nients de chaque m thode utilis e La m thode textom trie permet effectivement pour une classification binaire de s appuyer sur des descripteurs plut t que sur les mots du corpus afin de construire des repr sentations pertinentes des messages pour l apprentissage automatique Pour des t ches demandant une classification plus fine la m thode tex tom trique a montr ici des limites Les repr sentations vectorielles donnent de meilleurs r sultats Nos exp riences et valuations sur le corpus d entra nement nous font suspecter une forte sp cificit des descripteurs pour ces t ches et donc un sur apprentissage ce que pallie word2vec en vitant de s appuyer sur les mots eux m mes mais sur leur projection dans un espace continu Conclusion La campagne d valuation DEFT 2015 sur l annotation subjective de tweets nous permet de mener des travaux dans deux directions La premi re porte sur l annotat
24. une annotation du m me corpus r alis e par nos soins en lan ant une mini campagne d tiquetage des tweets A l issue de la r annotation en suivant le guide d annotation de DEFT 2 d un chantillon de 450 tweets extraits au hasard du corpus d entra nement le taux de recoupement est d environ 70 Les disparit s surtout pr sentes pour les classes majoritaires INFORMATION et VALORISATION s expliquent par l application de r gles plus strictes dans notre annotation Par exemple nous avons choisi de ne classer dans VALORISATION que les tweets qui comportent un commentaire valorisant ou qui portent une marque d engagement du r dacteur Amateurs vegan y a un super livre de 100vegetal qui va paraitre sur les fromages j en ai gout 1 c est trop bon URL dans le corpus d origine polarit neutre classe g n rique INFORMATION Je salue le courage des cologistes japonais qui luttent contra la chasse aux dauphins dans leur propre pays dans le corpus d origine polarit positive classe g n rique SENTIMENT sous classe SATISFACTION Nous avons galement classifi davantage de tweets sarcastiques dans la sous classe MEPRIS cologie findumonde Cet homme que dis je ce h ros va nous sauver ohwait URL Ce processus de r annotation et de comparaison nous a permis d valuer l homog n it de certaines classes de mani re qualitative Le tableau 1 montre le nombre de twe
25. ur la variabilit de la fr quence des formes dans un corpus Mots 1 127 165 LAFON P 2981 Analyse lexicom trique et recherche des cooccurrences Mots 3 95 148 LONGHI J MARINICA C BORZIC B amp ALKHOULI A 2014 Polititweets corpus de tweets provenant de comptes politiques influents corpus In Chanier T ed Banque de corpus CoMekRe Ortolang fr Nancy http hdl handle net 11403 comere cmr polititweets MAUREL S amp DINI L 2009 Exploration de corpus pour l analyse des sentiments In Actes de DEFT 09 D fi Fouille de Textes z Atelier de cl ture MIKOLOV T CHEN K CORRADO G amp DEAN J 2013 Efficient estimation of word representations in vector space arXiv preprint arXiv 1301 3781 PANG P LEE L amp VAITHYANATHAN S 2002 Thumbs up sentiment classification using machine learning tech niques In In Proceedings of EMNLP p 79 86 PLATT J 1998 Machines using sequential minimal optimization In B SCHOELKOPF C BURGES amp A SMOLA Eds Advances in Kernel Methods Support Vector Learning RASTIER F 2001 Arts et sciences du texte Presses Universitaires de France SALEM A LAMALLE C MARTINEZ W FLEURY S FRACCHIOLLA B KUNCOVA A amp MAISONDIEU A 2003 Lexico3 Outils de statistique textuelle Manuel d utilisation Syled CLA2T Universit Sorbonne Nouvelle SCHMID H 1994 Probabilistic part of speech tagging using decision trees In Proceedings of International
26. y high performance 2 Mots cl s analyse de la subjectivit textom trie word2vec classification automatique linguistique de corpus Keywords subjectivity analysis textometry word2vec machine learning corpus linguistics 1 Introduction 1 1 Campagne DEFT 2015 La fouille de donn es subjectives sentiments opinions motions est depuis plusieurs ann es maintenant un domaine tr s dynamique de la fouille de textes aussi bien dans le domaine acad mique que dans l industrie Sommairement on observe quatre tendances en termes de positionnement pist mologique m thodes par apprentissage Pang ef al 2002 m thodes symboliques d inspiration cognitiviste vocabulaire des motions etc Ghorbel amp Jacot 2011 Maurel amp Dini 2009 m thodes symboliques d inspiration pragmatique ou analyse du discours Vernier et al 2009a b m thodes hybrides combinant certaines de ces approches Turney 2002 Yi et al 2003 Yu amp Hatzivassiloglou 2003 La campagne d valuation DEFT 2015 propose des t ches de d tection de subjectivit opinions sentiments et motions EGLE EENSOO DAMIEN NOUVEL AM LIE MARTIN MATHIEU VALETTE sur les tweets en fran ais portant sur la th matique de changement climatique Nous avons particip aux trois t ches suivantes T che 1 La premi re t che vise classer les tweets selon une grille macroscopique de polarit positif n gatif neutre ou mixte

Article

Contents

Download Pdf Manuals

Related Search

Related Contents