Home

Peut-on se fier aux arbres ?

image

Contents

1. T Merriam qui ont pu en v rifier l enti re reproductibilit Pour la pr sente communication les noms des auteurs et les titres des oeuvres ont t ajout s au document original qui ne comportait que les num ros des textes soumis au test Avant que l information contenue dans l annexe 1 soit fournie par G Ledger et T Merriam un certain nombre de questions se posaient Ce graphique traduit il fid lement l organisation du corpus Peut on se fier un graphique de ce genre Pour r pondre ces questions il est n cessaire JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelles PEUT ON SE FIER AUX ARBRES 637 d exposer la mani re dont le graphique a t trac Comme toute op ration de classification cet arbre repose d abord sur le calcul d une distance entre les objets classifi s 3 Distances entre textes et classification arbor e La distance entre deux textes est mesur e par le nombre de mots tokens diff rents qu ils contiennent formules dans Labb amp Labb 2001 Cette mesure est une distance et non pas une simple mesure de dissimilarit car elle pr sente trois propri t s caract ristiques positivit da Z 0 et daa 0 la distance d un texte lui m me est nulle si da 0 alors A et B contiennent les m mes mots avec les m mes fr quences sym trie da d le r sultat est le m me que la mesure soit e
2. Journ es internationales d Analyse des donn es textuelles Besan on Vol 2 p 687 696 Sneath P amp Sokal R 1973 Numerical Taxonomy San Francisco Freeman Ruhlman M 2003 Analyse arbor e Repr sentation par la m thode des groupements Grenoble Polytech CERAT JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelles PEUT ON SE FIER AUX ARBRES 645 Annexe 1 Corpus Oxquarry1 Set 1 Set 2 Except Author Titles Chap Except Author Titles Chap A Hardy Jude I A Butler Erewhon revisit XIV B Butler Erewhon revisit I Stevenson Ballantrae IV J Morris Dream of JB VII Forster Room with view IV R Chesterton Man who was VII Stevenson Catrionae XVI Hardy Madding a ee Orczy Elusive P I Chesterton Man who was MI Conrad Lord Jim Il Stevenson Catrionae Hardy Wellbeloyed VIN Orczy Scarlet P v Hardy Madding G Ledger et T Merriam nous ont fourni ce tableau la fin de l exp rience vjojzi joja j sj 5 ajmo a 5 O un p lt G U V lt Forster Room with view VII zZ N gt lt z JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelles
3. avec les textes maintenus l ext rieur de ce regroupement Ceci est r alis gr ce l analyse de la variance totale de la matrice des distances analyse qui permet galement le calcul d un indice d agr gation plus significatif que ceux pr sent s dans cette communication Remerciements G rard Ledger et Tom Merriam ont organis les exp riences Oxquarry et nous ont aid r diger le compte rendu X Luong nous a introduit la topologie et a r alis nos premiers arbres M Ruhlman a crit avec nous le logiciel d analyse arbor e utilis pour cette exp rience E Arnold G Bensimon J G Bergeron M Brugidou P Hubert F Lapierre J et N Leselbaum D Moni re G Pa quin B Peeters ont particip aux premi res exp riences R f rences Barth l my J P amp Gu noche A 1988 Les arbres et les repr sentations de proximit Paris Dunod Benzecri J P 1980 L analyse des donn es 1 La taxinomie Paris Dunod Bergeron J G amp Labb D 2000 L valuation de la n gociation raisonn e par les acteurs une analyse lexicom trique In Bernier C amp Al ds Formation relations professionnelles l heure de la soci t monde Paris Qu bec L Harmattan Presses de l Universit Laval p 239 252 Bona D 1987 Romain Gary Paris Mercure de France Embleton S 1986 Statistics in Historical Linguistics Bochum Brokmeyer Felsenstein J 2004a Inferring Phylogenies S
4. les m thodes de classification ont connu un essor consid rable Parmi celles ci la classification arbor e est classique en g n tique Felsenstein 2004a et 2004b ainsi que le site http evolution genetics washington edu ou en linguistique historique Embleton 1986 et pour une revue r cente Holm 2007 Cet outil a t appliqu l analyse des entretiens sociologiques notamment Bergeron amp Labb 2000 Labb amp Labb 2001b au discours politique notamment Labb amp Moni re 2000 Labb amp Moni re 2003 l attribution un auteur connu de textes inconnus ou d origine douteuse notamment Labb amp Labb 2001 Merriam 2002 Merriam 2003a Merriam 2003b Moni re amp Labb 2006 Lafon amp Peeters 2006 Quelle confiance accorder ces classifications arbor es Certaines mesures permettent de r pondre ces questions en valuant la fiabilit des r sultats de cette classification On utilise comme exemple les r sultats d une exp rience en aveugle r alis e en 2004 avec deux chercheurs anglais 2 Les exp riences Oxquarry A la demande de Gerard Ledger et Thomas Merriam une s rie d exp riences en aveugle ont t r alis es Labb 2007 Lors de la premi re exp rience G Ledger a soumis 52 textes anonym s en demandant lesquels de ces textes taient crits par les m mes auteurs et par JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelle
5. 635 Peut on se fier aux arbres Cyril Labb Dominique Labb Universit Grenoble I cyril labbe imag fr Institut d Etudes Politiques de Grenoble dominique labbe iep grenoble fr Abstract Intertextual distance provides a simple and interesting solution to measure proximities and oppositions in large text corpora Its properties make it a good tool for text classification and especially for tree analysis which is presented and discussed in this paper In order to measure the quality of this classification two propositions are given The method presented provides an accurate tool for literary studies and authorship attribution as is demonstrated by its application to a blind test R sum La distance intertextuelle fournit une solution simple et int ressante pour mesurer les proximit s et les oppositions dans un grand corpus de textes Ses propri t s en font un bon outil pour la classification des textes sp cialement pour l analyse arbor e qui est pr sent e et discut e Deux indices sont propos s pour mesurer la qualit de ces classifications La m thode fournit un outil efficace pour les tudes litt raires et l attribution des auteurs connus de textes d origine douteuse ou inconnue ainsi qu il est d montr gr ce une exp rience en aveugle Mots cl s distance intertextuelle classification arbor e attribution d auteur qualit des graphes 1 Introduction Gr ce l ordinateur
6. alcul pour l arbre obtenu sur les 4 textes de Morris tableau 2 et figure 3 ci dessus JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelles PEUT ON SE FIER AUX ARBRES 641 Noeud Chemins Distances Distances Qualit s des Qualit du induits initiales arbor es chemins noeud A B 2 881 2 881 1 1 F C D 2 809 2 809 1 1 A C 3 531 3 541 0 9972 0 9969 A D 3 513 3 503 0 9972 B C 3 030 3 020 0 9967 B D 2 972 2 982 0 9966 Total 18 736 18 736 0 9979 Tableau 4 Calcul des indices de confiance des chemins de l arbre du tableau 2 Les chemins reliant les ar tes oppos es A B et C D restituent int gralement l information contenue dans la matrice originale le tronc central de l arbre en restitue 99 7 et l arbre total 99 8 Pour l arbre pr sent au d but de cette communication les valeurs sont les suivantes qualit moyenne de l arbre 98 17 L information initiale contenue dans la matrice des distances est donc restitu e avec une incertitude inf rieure 2 pour les n uds l indice le plus faible 95 3 est atteint par le noeud reliant les quatre textes extraits de News par Morris qui ont servi d exemple ci dessus Tous les autres n uds ont un indice sup rieur Par exemple le dernier n ud plac avant la racine reliant l uvre de Orczy au tronc central induit 662 chemins Il restitue ces 662 distances avec un indice de 98 2 qui
7. est la moyenne des 662 indices tous sup rieurs 95 Pour les 1 326 chemins unissant chaque feuille terminale toutes les autres tableau 5 69 seulement ont un indice de qualit inf rieur 95 mais tous sup rieurs 90 Autrement dit en acceptant le seuil de tol rance utilis par Luong dans la construction de ses arbres 10 on peut affirmer que l arbre pr sent au d but de cette communication est fiable Indices Effectifs absolus X gt 0 9999 65 4 90 0 9999 gt X gt 0 990 388 29 26 0 990 gt X gt 0 980 368 DIS 0 980 gt X gt 0 970 236 17 80 0 970 gt X gt 0 960 133 10 03 0 960 gt X gt 0 950 67 5 05 0 950 gt X gt 0 900 69 5 21 1 326 100 00 Tableau 5 Indices de confiance des chemins entre feuilles classement par indices d croissants JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelles 642 CYRIL LABB DOMINIQUE LABB 5 Conclusions Certaines objections sont souvent oppos es ces exp riences Par exemple un r sultat comme celui de la figure 1 peut tre un simple coup de chance Ou encore une poque donn e tous les auteurs utiliseraient peu pr s le m me vocabulaire par cons quent les indices comme la distance intertextuelle ne permettraient pas de rendre compte des vraies diff rences entre les auteurs etc Ces objections reviennent consid rer comme quiprobab
8. ffectu e en consid rant d abord A ou B in galit triangulaire da lt dac de l galit n est possible que si le texte C est un sous ensemble de A et de B Ce calcul appliqu aux 52 textes du corpus Oxquarryl pris deux deux g n re un tableau de 2 704 cellules 52 colonnes et 52 lignes dont la taille interdit une reproduction int grale Du fait de la propri t d identit la diagonale de ce tableau est nulle soit 2 652 cases non nulles et du fait de la propri t de sym trie il y a 1 326 distances diff rentes 2 652 2 Comme indiqu dans Labb 2007 les distances les plus courtes permettent de regrouper correctement la quasi totalit des textes Cependant devant des populations aussi vastes le recours des classifications est une n cessit pour une pr sentation de la question Sneath amp Sokal 1973 et Benzecri 1980 La m thode usuelle consiste repr senter l ensemble des textes par des points dont les coordonn es dans l espace sont d termin es par leur position relative par rapport tous les autres Ici les 52 textes forment un nuage de points comprenant 1 326 distances diff rentes Par la m thode de l analyse factorielle des correspondances Lebart et Salem 1994 on d termine d abord le plan qui passe au plus pr s de tous ces points et par le barycentre du nuage puis l on projette orthogonalement chacun des points sur ce plan ce qui donne une
9. is e et les graphies normalis es En fran ais langue fortement flexionnelle il appara t galement n cessaire de travailler sur les vocables et non sur les formes graphiques Enfin les textes contenant une proportion significative de mots trangers ou de jargon doivent tre exclus des analyses JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelles PEUT ON SE FIER AUX ARBRES 643 Deuxi mement l algorithme de classification doit tre efficace et introduire le minimum de distorsions dans les donn es initiales Nous travaillons actuellement sur quelques am liorations importantes de l algorithme de Luong Des m thodes du type branch and bound Minoux 1989 peuvent accro tre consid rablement l efficacit actuelle de l algorithme de classification La construction des arbres se fera en deux tapes Dans un premier temps tous les points et les n uds sont plac s et une longueur provisoire est affect e chaque ar te Puis ces ar tes sont recalcul es afin de r partir les ajustements n cessaires sur la totalit des chemins concern s et non plus seulement sur les parties centrales de l arbre comme actuellement chaque tape de la classification on s assure que les solutions choisies sont effectivement les meilleures c est dire celles qui aboutissent aux plus petites distances possibles au sein de chaque regroupement et qui maximisent les distances
10. les toutes les combinaisons possibles dans le corpus Oxquarry Or la figure 1 identifie 13 couples 8 trios etc soit 62 combinaisons repr sent es par autant de n uds sur l arbre Combien a t on de chances d obtenir ces combinaisons au hasard en admettant que toutes les combinaisons possibles sont quiprobables Il y a 52 8 066 ef mani res diff rentes de combiner 52 objets La probabilit de tirer successivement les 62 objets recherch s en 62 tirages successifs dans une urne contenant 8 066e objets diff rents est 62 8 066 e 61 8 066 e 1 1 8 066 e 61 1 91 De plus le test organis avec G Ledger et T Merriam comportait deux exp riences organis es selon le m me principe Toutes deux ont t couronn es de succ s En admettent que toutes les combinaisons sont quiprobables la probabilit pour que l encha nement de ces succ s soit le fait du hasard est donc le carr du r sultat ci dessus Ce calcul est videmment absurde car ce que d montrent des exp riences comme Oxquarry c est justement que certaines combinaisons sont plus probables que d autres et cela essentiellement pour trois raisons Premi rement les auteurs m me contemporains et traitant de sujets proches dans un m me genre n utilisent pas exactement les m mes mots avec les m mes fr quences il est donc possible gr ce une mesure judicieusement calibr e de rendre co
11. mpte de ces diff rences Deuxi mement la distance intertextuelle dans les limites de validit d finies par Labb amp Labb 2001 pour le fran ais et Labb 2007 pour l anglais peut rendre compte de ces diff rences parce qu elle poss de les propri t s d une distance Enfin la classification arbor e offre une repr sentation en deux dimensions tr s satisfaisante d un nuage de points s par s par plusieurs milliers de distances diff rentes condition qu il s agisse effectivement de distances D s lors la combinaison de la distance intertextuelle et de la classification arbor e offre un outil efficace pour l attribution un auteur connu de textes d origine plus ou moins douteuse ou inconnue Il reste deux sources possibles d erreur D une part certains auteurs peuvent se masquer et tenter de brouiller les pistes Il existe plusieurs exemples dans l histoire litt raire qui permettent de tester cette hypoth se notamment le cas Gary Ajar Cet exemple sugg re que ces tentatives m me men es avec beaucoup de talent sont vaines d s lors que les textes d passent quelques dizaines de pages Bona 1987 Lafon amp Peters 2006 D autre part des imperfections dans les traitements et calculs peuvent tre source d incertitude De ce point de vue un r sultat fiable d pend de deux conditions Premi rement l orthographe des textes doit avoir t soigneusement r v
12. ne se pose JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelles 638 CYRIL LABB DOMINIQUE LABB qu partir de 4 individus 3 donnent un plan et 2 une droite On verra plus bas que ces 4 textes sont parmi ceux qui posent le plus de probl mes l algorithme de construction de l arbre Dans le tableau 2 la distance est exprim e en pour 10 000 mots Par exemple les textes 1C et 1S ont 3 531 mots diff rents pour 10 000 ou encore ils partagent 6 469 mots en commun etc A 1C B 2D cC 18 D 2M A 1C 2881 3 531 3 513 B 21 2881 3 030 2 972 C 1S 3 531 3 030 2 809 D 2M 3513 2 972 2 809 Tableau 2 Distances intertextuelles entre les 4 extraits de Morris pour 10 000 mots Pour d terminer la position de ces 4 points l algorithme utilise la formule suivante dite condition des 4 points 1 d a b d c d lt MINfd a c d b d d a d d b c L algorithme affecte aux 6 couples possibles un score tabli en fonction du nombre de fois que deux couples de textes consid r s par rapport tous les autres possibles se trouvent remplir cette condition des quatre points Dans le tableau 2 ci dessus on a effectivement AB CD lt AC BD AB CD lt AD BC etc Les couples AB et CD obtiennent un score de 1 et les 4 autres AC AD BC et BD un score nul Les ar tes joignant A B et C D sero
13. nt trac es d abord ce qui d termine la structure de l arbre tableau 3 D Tableau 3 Classification arbor e des 4 textes du tableau 2 Pour tracer l arbre le calcul de la longueur des ar tes se fait de la mani re suivante pour les formules g n rales voir Luong 1988 et Ruhlman 2003 AE AB 2 AC AD BC BD 4 1 701 BE AB AE 1 180 JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelles PEUT ON SE FIER AUX ARBRES 639 Les textes A et B sont maintenant repr sent s par le point E Les ar tes reliant le point F aux points B et D sont calcul es de la m me mani re CF CD 2 CA CB DA DB 4 1 423 5 DF CD CF 1 385 5 Enfin les points E et F sont joints et la racine est plac e au milieu du segment central EF AC AD BC BD 2AB 2CD 4 416 5 La topologie de l arbre n aurait pas t modifi e si l on avait commenc par placer le couple CD au lieu du couple AB Autrement dit au cours d une m me it ration l ordre dans lequel les feuilles sont plac es et les groupes constitu s est indiff rent Dans cet arbre A B C D sont les feuilles E et F les n uds figurant respectivement les groupements de A avec B et de C avec D G est la racine de l arbre Les segments de droite ou ar tes sont des branches quand elles relient des feuilles des n uds et des troncs quand elles relient des n uds entre eu
14. r J C eds Actes des 5 journ es internationales d analyse des donn es textuelles Lausanne Ecole polytechnique f d rale vol 1 p 85 94 Labb D amp Moni re D 2003 Le vocabulaire gouvernemental Canada Qu bec France 1945 2000 Paris Champion Lafon M amp Peeters B 2006 Nous est un autre Paris Flammarion Lebart L amp Salem A 1994 Statistique textuelle Paris Dunod Ledger G R 1995 An Exploration of Differences in the Pauline Epistles Literary and Linguistic Computing 10 2 p 85 97 Luong X 1988 M thodes d analyse arbor e Algorithmes applications Th se pour le doctorat s sciences Paris Universit de Paris V Luong X 1994 L analyse arbor e des donn es textuelles mode d emploi Travaux du cercle linguistique de Nice 16 p 25 42 Merriam T 2002 Intertextual Distances between Shakespeare Plays with Special Reference to Henry V verse Journal of Quantitative Linguistics 9 3 p 260 273 Merriam T 2003a An Application of Authorship Attribution by Intertextual Distance in English Corpus 2 2003 p 167 182 Merriam T 2003b Intertextual Distance Three Authors Literary and Linguistic Computing 18 4 p 379 388 Minoux M 1989 Programmation math matique Th orie et Algorithmes Paris Dunod Moni re D amp Labb D 2006 L influence des plumes de l ombre sur les discours des politiciens In Cond C amp Viprey J M Actes des 8
15. repr sentation plane du nuage Cette m thode a un inconv nient vident un point sera d autant plus fid lement repr sent qu il sera proche du plan d ajustement en revanche les points les plus loign s risquent d tre mal repr sent s La classification arbor e ne pr sente pas de tels inconv nients L analyse arbor e repose sur le th or me suivant si tous les individus tudi s sont s par s par des distances pr sentant toutes les trois propri t s nonc es ci dessus il existe un arbre qui repr sente exactement les positions respectives de ces individus les uns par rapport aux autres Pour la d monstration Luong 1988 Cependant la construction d un tel arbre parfait exigerait que toutes les combinaisons possibles soient examin es alors que leur nombre augmente exponentiellement en raison de l effectif de la s rie la conclusion revient sur ce point Divers algorithmes ont t imagin s pour construire cet arbre sans avoir examiner toutes ces combinaisons Nous utilisons l algorithme mis au point par X Luong code source dans Luong 1988 les principes et les formules sont galement pr sent es dans Luong 1994 Notre logiciel a t r alis avec son aide et avec celle de M Ruhlman Ruhlman 2003 Pour pr senter l analyse arbor e examinons d abord 4 textes du corpus Oxquarryl tous extraits du roman de Morris News Le probl me de la repr sentation dans un plan
16. respondantes dans le tableau 2 Cela r v le une caract ristique importante de l algorithme de Luong les arbitrages n cessit s par les distorsions voqu es ci dessus sont repouss s la derni re tape le trac du tronc central EF et portent donc sur une portion r duite de l arbre dans le tableau 3 ce tronc central est trois quatre fois plus court que les branches terminales Cette m thode peut donc engendrer certains probl mes 4 Contr le de la qualit des op rations Pour contr ler la qualit d un arbre X Luong propose de calculer un indice d agr gation ci dessous Agreg en utilisant la formule 1 condition des quatre points A une tape donn e soit N le nombre de textes ou groupes de textes repr sent s par un n ud restant classer et dab la distance s parant deux textes et ou noeuds A B non encore agr g s cette tape Le score de l ar te potentielle A B Sobs 2 sera le nombre de fois que dr satisfera 1 Le score maximum th orique Sfheo4n est gal N 2 N 3 2 c est dire le nombre de couples possibles pour une population compos e de N 2 individus s par s par des distances Pour ce couple 4 B l indice de Luong est JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelles 640 CYRIL LABB DOMINIQUE LABB Sobs b Agreg ste Stheo q Cet indice varie entre 0 et 1 Toute valeur inf rieure 1 signale que ce
17. rtaines parties de l arbre ne satisfont pas compl tement la condition 1 Pour le graphique 1 l indice moyen est gal 0 997 Dans 152 cas sur plus de 12 000 la condition 1 ne s est pas trouv e remplie Cette situation se produit d s que l quation 1 aboutit une in galit inverse ne serait ce que d un mot Or dans un corpus comme Oxquarryl une telle situation est pratiquement in vitable En effet 95 des distances sont comprises entre 3 320 et 4 820 soit une forte concentration autour de la moyenne 4067 La plupart des violations de 1 s expliquent par de tr s faibles diff rences entre les distances concern es et l examen des textes correspondant permet de localiser la source de ces l g res discordances comme indiqu ci dessus propos des 4 extraits de Morris A titre d exemple voir les 11 n uds formant le cluster Hardy sur la figure 1 certains d entre eux sont s par s par des chemins extr mement courts quelques mots qui sont le r sultat de plusieurs centaines de calculs comme ceux pr sent s sous le tableau 3 On en tire qu il est n cessaire de d finir un seuil en dessous duquel on pourra consid rer que la relation 1 est acquise sans l in galit stricte Ce seuil aurait une seconde utilit En effet la formule 1 interdit de regrouper plus de deux textes la fois D s que le nombre d individus classer d passe quelques dizaines cela donne un grand nombre de noeuds e
18. s 636 CYRIL LABB DOMINIQUE LABB cons quent lesquels taient d auteurs diff rents Ce corpus nomm par G Ledger Oxquarryl est d crit en annexe 1 Ces textes avaient t choisis parce qu il semblait difficile de distinguer les auteurs de certains d entre eux Deux indications taient fournies il y avait plusieurs auteurs et chacun de ces auteurs avait au moins deux textes Ces textes ont t trait s selon la norme OCP Hockey amp Martin 1988 Leurs distances mutuelles ont ensuite t calcul es Enfin la classification arbor e a t r alis e sur ces distances tableau 1 Orczy Scarlet Elusive 2Y a 1l 1u 1M JE Butler 1B Erewhon Chesterton Man 1a RA 2u 1R 1C 1P 21 Morris News 15 2M 1J Conrad 2Q Almayer 2N Morris 2B Dream 2K 1 j TT 1Y gt s 1D Conrad 2H 5 E ar Ai Stevenson Lord i z Catroniae 10 F LL Ri X 2R 1N Stevenson 2Z 2E Balllantrae Hardy 28 Madding 1H 2X aa 2T i z Hardy 2J Well beloved Forster 1L Room 2D 2F 1x E 1Y Hard 2C hi Tressel Wessex Hardy Ragged Judde Tableau 1 Classification arbor e du corpus Oxquarry1 Ce r sultat est obtenu de mani re enti rement automatique aucune op ration manuelle sur les textes l op rateur intervient aucun stade les calculs portent sur la totalit des textes sans qu aucun mot en soit retir L exp rience s est d roul e sous le contr le de G Ledger et
19. t des arbres difficiles lire Pour avoir des arbres plus clairs l introduction d un seuil de tol rance permet de rattacher plus de deux textes un m me n ud Dans le code source du programme publi dans Luong 1988 il appara t que l auteur a introduit une tol rance de 10 pour autoriser le trac d une ar te malgr la violation de la condition des 4 points ce qui aboutit un nombre beaucoup plus r duit de n uds dans les arbres trac s l aide du logiciel de Luong Nous nous sommes interdit cette facilit au moins dans la phase exp rimentale actuelle Dans l exp rience Oxquarryl un seuil de tol rance de 5 aurait suffi pour obtenir un taux d agr gation de 100 Cela aurait aussi permis par exemple de rattacher les textes de Hardy trois n uds correspondant aux trois uvres dont sont tir s les 12 extraits de cet auteur et celles de Orczy deux n uds correspondant aux deux uvres pr sentes dans le corpus Oxquarry Cette discussion sugg re de modifier l indice de Luong afin de r pondre deux questions L arbre obtenu est il le plus efficace et le plus simple possible Nous revenons en conclusion sur cette premi re question Avec quelle fid lit l arbre repr sente t 1l les distances originales La r ponse est donn e par le rapport entre la distance initiale et la longueur du chemin reliant les deux feuilles correspondantes sur l arbre Le tableau 4 donne les r sultats de ce c
20. underland Sinauer Ass Felsenstein J 2004b Package of Programs for Inferring Phylogenies PHYLIP Seattle University of Washington Hockey S amp Martin J 1988 OCP Users Manual Oxford Oxford University Computing Service Holm H J 2007 The New Arboretum of Indo European Trees Can New Algorithms Reveal the Phylogeny and Even Prehistory of Indo European Journal of Quantitative Linguistics 14 2 p 167 214 Labb C amp Labb D 2001a Inter Textual Distance and Authorship Attribution Corneille and Moli re Journal of Quantitative Linguistics 8 3 p 213 231 Labb C amp Labb D 2001b Discrimination et classement au sein d un groupe d entretiens Le cas du confort lectrique Grenoble Journ es d tudes du CIDSP 9 mars 2001 Labb C amp Labb D 2003 La distance intertextuelle Corpus 2 p 95 118 JADT 2008 9 Journ es internationales d Analyse statistique des Donn es Textuelles 644 CYRIL LABB DOMINIQUE LABB Labb C amp Labb D 2006 A Tool for Literary Studies Intertextual Distance and Tree Classification Literary and Linguistic Computing 21 3 p 311 326 Labb D 2007 Experiments on Authorship Attribution by Intertextual Distance in English Journal of Quantitative Linguistics April 2007 14 1 p 33 80 Labb D amp Moni re D 2000 La connexion intertextuelle Application au discours gouvernemental qu b cois In Rajman M et Chappelie
21. x La distance entre deux points quelconques est figur e par le chemin unissant ces points et la longueur de ce chemin est proportionnelle la distance originelle correspondante arbre valu Par exemple le chemin A C est gal 1 701 416 5 1 423 5 3 541 Le fait que cette distance arbor e soit tr s l g rement diff rente de la distance intertextuelle 3 531 sugg re que la repr sentation n est pas parfaite En tudiant la contribution des mots la distance Labb amp Labb 2003 et le vocabulaire propre des quatre textes de Morris il appara t que certaines distorsions proviennent de deux choses En premier lieu quelques variantes graphiques font que le m me mot est compt comme deux mots diff rents ce qui expliquerait les l g res distorsions constat es dans le tableau 3 En second lieu les difficult s classer les textes de Morris dans le tableau 1 proviendraient de ce qu ils sont en orthographe am ricaine alors que les autres sont la norme anglaise neighbour labour honour splendour centre recognise etc Autrement dit les incertitudes ne proviendraient pas du proc d de mesure mais de l h t rog n it du mat riau ou encore de diff rences dans le calibrage des textes C est pourquoi sur les textes fran ais nous op rons une standardisation normalisation des graphies avant tout calcul statistique Enfin les longueurs des ar tes AB et CD sont gales aux distances cor

Download Pdf Manuals

image

Related Search

Related Contents

ACS A+ - Mente Marine  Delta 75935-CZ Instructions / Assembly  Installation et maintenance  M-SERIES USER GUIDE  Velleman CU2101/KIT  Tucano Contatto    HOKUYO MUSEN CO,.LTD.  AberNAS LX User Guide --- A Linux based Network  

Copyright © All rights reserved.
Failed to retrieve file