Home
ALGORITHMES DE CLASSIFICATION
Contents
1. NETHER NGLAN El Figure 1 Donn es PSYSOC hi rarchie du Moment d ordre deux calcul e d apr s les coordonn es factorielles 3 facteurs A F C Certains pays par exemple AUSTRI et WGERMA semblent ne pas tre connect s l arbre ceci est du au fait que les niveaux de la hi rarchie sont tr s proches les uns des autres dans les faibles valeurs et il n est pas possible de les repr senter sans distordre l chelle globale de l arbre Il faut remarquer que dans l affichage des r sultats les niveaux d agr gation des n uds ne vont pas toujours en croissant Cela r sulte du principe m me de l algorithme dans lequel ceux ci sont form s d s que l on d couvre des voisins r ciproques sans tenir compte de leur distance mutuelle Les niveaux les plus hauts pr sentent entre eux de grands carts par rapport aux niveaux inf rieurs ce qui semble indiquer que les groupes sont bien individualis s et homog nes Cet aspect tr s tranch de l arbre hi rarchique est trompeur En effet les niveaux ici ne s interpr tent pas comme des distances mais comme des dispersions ou plus exactement des accroissements de dispersion voir ci dessus paragraphe 1 L exp rience montre aussi et pour la m me raison que cette m thode tend cr er des groupes d effectifs quilibr s 4 Proc dure de calcul Le classeur AnaDon xls comporte la proc dure CAHmom2 qui r alise la construction hi rarchique
2. ICELAN SWEDEN 4 BELGIU 4 H NORWAY 4 SCOTLA 4 ENGLAN NETHER Fig 2 Donn es PSYSOC H rarchie obtenue par l algorithme CDH LM de construction descendante selon le lien moyen Les donn es de base sont les distances entre les pays calcul es d apr s les coordonn es factorielles issues de l A F C 3 premiers facteurs 5 2 Exemple PHYTOS L algorithme CDH LM a t appliqu aux donn es phytosociologiques en partant de la distance de Jaccard entre relev s Les r sultats voir figure 2 ne concordent pas avec ceux que fournissent les algorithmes l mentaires de construction ascendante voir chapitre 4 paragraphe 2 2 Seul le groupement 3 4 14 16 Pacnl Festucetum halleri subass nardetosum faci s normal apparait clairement Les autres relev s sont m lang s et l on n y reconnait aucun des groupements identifi s R38 R31 R30 R27 R10 R24 R23 R54 R15 R13 R55 R36 R4 R3 R16 R14 Fig 3 Donn es PHYTOS Hi rarchie obtenue par l algorithme CDH LM de construction descendante partir de la matrice des distances de Jaccard 6 Conclusion Les constructions hi rarchiques par divisions successives ont un aspect s duis
3. N Auteur Formule Etendue Moyenne Note 1 Russel amp Rao 1940 c n 0 1 pg n 1 2 Jaccard 1908 EME 8 6 0 1 pq n p q pa 3 3 Dice 1945 2c p q 0 1 2pq n p q 2 3 4 Sokal amp Sneath 2 1963 c 2 p q 3c 0 1 pq 2n p q 3pq 3 5 Kulczinski 1 1927 c p q 2c 0 Infini pq n p q 2pq 3 6 Kulczinski 2 1927 c p c q 2 0 1 p q 2n 2 7 Ochiai 1957 c Rac p q 0 1 Rac pq n 2 8 Simpson 1960 c Min p q 0 1 Max p q n 4 9 Kochen amp Wong 1962 nc pq 0 n T 5 Tableau 1 Indices o la pr sence des attributs joue un r le pr pond rant p nombre d attributs du l er objet q nombre d attributs du 2 eme objet c nombre d attributs communs aux 2 objets n nombre total d attributs possibles Rac racine carr e Min minimum Max maximum Note 1 Dans l indice de Russel et Rao num ro 1 si p q alors s i i p n s 1 1 q n et i ne ressemble pas lui m me avec la m me intensit que ne le fait i envers lui m me Note 2 Les indices de Dice num ro 3 Kulczinski 2 num ro 6 et Ochiai num ro 7 ne sont autres que c divis par la moyenne arithm tique de p et q leur moyenne harmonique et leur moyenne g om trique respectivement On peut donc s attendre ce que les valeurs de ces indices soient voisines s cartant le plus les unes des autres lorsque p et q sont les plus diff rents Cf Roux G et Roux M 1967 Note 3 Les i
4. R14 R16 Figure 5 Donn es PHYTOS Hi rarchie du lien moyen bas e sur la distance de Jaccard R36 R27 R38 R31 R30 R23 R13 R15 R24 R10 R55 R54 R4 R3 R14 R16 Figure 6 Donn es PHYTOS Hi rarchie du diam tre bas e sur la distance de Jaccard 3 Les proc dures de construction ascendantes de hi rarchies Les proc dures Excel suivantes sont disponibles dans le classeur AnaDon xls CAHLM calcule la CAH du lien moyen CAHdiam calcule la CAH du diam tre ou lien complet CAHsmin calcule la CAH du saut minimum ou lien simple DessArb dessine l arbre hi rarchique obtenu par les m thodes pr c dentes Chapitre 5 Agr gation autour de centres mobiles 1 Principes et probl mes 1 1 L algorithme des centres mobiles L algorithme que nous allons d crire a pour but de construire une seule partition de l ensemble tudi Il en existe de nombreuses variantes mais nous ne parlerons que de la plus simple d entre elles Au d but de l algorithme il faut se fixer un nombre k de classes et choisir une partition initiale Cette partition peut tre inspir e par une connaissance a priori des objets classer ou bien elle peut tre obtenue par r partition au hasard des objets en k cat gories On ex cute alors les op ra
5. ex e 1 m 8 4 o m est l effectif total des objets On appelle e l effectif de la modalit k tandis que ei est l effectif de la classe I 2 1 Interpr tation d une partition Dans le cas d une partition on demande l ordinateur de dresser un tableau variables classes partition o l on trouve l intersection de la ligne j et de la colonne k la valeur CTR j k de la contribution de la variable j la classe k de la partition Pour cela il suffit d effectuer dans la double somme ci dessus 8 4 la partie relative aux classes de la variable consid r e CTR j k Bierg ek ek e1 m ex ea m o l indice parcourt l ensemble L J des modalit s de la variable j Il est clair que la somme de ces nombres obtenue en faisant varier k sur l ensemble des classes de la partition est gale au Khi 2 Pour plus de commodit ces nombres sont divis s par leur somme et sont exprim s en milli mes de facon d terminer facilement les classes les mieux caract ris es par la variable j tudi e Il faut noter que dans le cas d une variable j deux modalit s comme la pr sence ou l absence d une esp ce une classe peut tre caract ris e aussi bien par la pr sence que par l absence de l esp ce en question Le tableau est compl t par la valeur du Khi deux et par le nombre de degr s de libert prendre en compte dans une ventuelle proc dure de test statistique 2 2 Interpr tation d un
6. SPAIN 680 NORWAY 152 762 STRELA 280 761 327 NETHER 2 45 702 3153 392 ENGLAN 198 717 224 344 128 USA 687 800 791 809 694 656 Tableau 1 Donn es PSYSOC distances du Khi 2 sur donn es brutes multipli es par 1000 AUST FRAN PORT WGER BELG FINL SWED SWIT ITAL NIRE DENM ICEL SCOT SPAI FRANCE 218 PORTUG 339 303 WGERMA 54 263 370 BELGIU 277 237 506 312 FINLAN 557 614 855 564 384 SWEDEN 355 381 645 369 164 244 SWITZE 317 433 649 308 274 282 167 ITALY 433 395 121 455 614 966 750 748 NIRELA 1170 1173 1184 1207 1079 1077 1128 1180 1283 DENMAR 422 564 761 398 419 321 296 146 852 1265 ICELAN 712 623 900 743 435 425 412 572 1004 1091 674 SCOTLA 546 449 703 586 277 416 324 484 811 982 613 211 SPAIN 379 263 144 413 494 869 641 670 171 1253 789 857 672 NORWAY 594 516 796 625 319 355 298 462 901 1085 572 119 145 759 SIRELA 680 536 775 724 423 583 490 653 873 1021 784 244 179 720 NETHER 422 375 642 454 151 304 166 323 752 1030 455 296 161 626 ENGLAN 478 437 695 509 214 281 205 357 807 991 480 260 142 683 USA 652 710 700 682 644 717 703 711 805 553 797 853 684 794 NORW SIRE NETH ENGL SIRELA 253 NETHER 183 332 ENGLAN 159 320 67 USA 789 793 656 644 Tableau 2 Distances euclidiennes usuelles sur les 3 premiers facteurs de l Analyse factorielle des correspondances multipli es par 10
7. galement r solu c est la distance euclidienne usuelle qui s impose En effet si l on a opt pour l ACP elle redonne approximativement la distance euclidienne usuelle que l on aurait pu calculer sur les donn es brutes si l on a opt pour l AFC la distance euclidienne usuelle sur les facteurs est peu pr s gale la m trique du Khi deux sur les donn es brutes Dans les deux cas le degr d approximation est d autant meilleur qu on travaille sur un plus grand nombre de facteurs Bien entendu il ne s agit pas d une m thode miracle Le choix de la distance se trouve remplac par le choix du codage pr alable des donn es en vue de l analyse factorielle Mais les diff rents codages possibles sont maintenant bien connus et prouv s Cf Benz cri 1980 Roux et Guittonneau 1977 3 L Analyse factorielle des correspondances surmonte l gamment le probl me de l effet de taille et permet de traiter des donn es tr s h t rog nes par d coupages en classes de valeurs des variables quantitatives et mise sous forme disjonctive compl te de l ensemble des variables 4 On y gagne galement sur le plan informatique Comme on ne conserve rarement plus de cinq dix facteurs le tableau des donn es est d une taille raisonnable et peut en g n ral tenir dans la m moire centrale de l ordinateur D ou un gain de temps et une plus grande facilit de programmation Mais surtout on n a qu un seul programme de distance programmer
8. 1 entre les objets est gale la hauteur du n ud le plus bas qui assure la liaison entre ces deux objets On v rifie facilement que les valeurs ainsi tablies satisfont aux axiomes math matiques des distances voir annexe 1 et en particulier l in galit du triangle Elles satisfont en outre l in galit ultram trique qui est plus contraignante que celle du triangle d r Ar S Max d r rf d x r C est pourquoi on appelle distance ultram trique ou en abr g ultram trique une distance satisfaisant cette in galit On montre Cf annexe 2 qu toute hi rarchie indic e correspond une distance ultram trique et une seule Supposons maintenant que l on ait deux distances d et d sur le m me ensemble I d objets On dit que d est inf rieure d si et seulement si pour tout couple d objets i et 1 on a d i i lt d i i Il est clair que par construction l ultram trique d associ e la hi rarchie du saut minimum est inf rieure la distance d donn e Mais elle poss de en outre l importante propri t suivante parmi toutes les ultram triques inf rieures la distance d d est sup rieure toutes les autres Autrement dit d s approche de d par le bas le mieux possible cf annexe 2 1 3 Comparaison des agr gations par le saut minimum et par le diam tre Examinons la figure 2 form e de quatre points x y z t align s et s par s par des distances voisi
9. 4 PORTUG 4 ITALY 4 FINLAN BELGIU 4 H SWEDEN 4 SWITZE 4 DENMAR 4 SIRELA ICELAN 4 NORWAY SCOTLA 4 H NETHER ENGLAN Figure 4 Donn es PSYSOC Hi rarchie du lien moyen construite partir de la distance euclidienne usuelle calcul e sur les coordonn es factorielles A F C 3 facteurs 2 2 Phytosociologie PHYTOS La comparaison des deux arbres hi rarchiques obtenus l un en agr geant par la distance moyenne l autre par le diam tre lien maximum fait apparaitre les m mes groupes principaux au nombre de quatre qui coincident assez bien avec les groupes tablis lors de l tude ant rieure Voir Chapitre 2 paragraphe 1 2 Sur les deux figures 5 et 6 apparaissent les rassemblements suivants 3 4 14 16 PAcnl 10 54 55 PAcn2 13 15 23 PAn 27 30 31 36 38 PAc Le relev num ro 24 est isol l extr mit d une longue branche dont le rattachement change selon le mode d agr gation employ Il s agit clairement d un relev interm diaire d affectation d licate R36 R27 R38 R31 R30 R23 R13 R15 R10 R55 R54 R24 R4 R3
10. celui de la distance euclidienne 5 Les facteurs de l analyse factorielle sont tr s stables c est dire que de petites erreurs de mesures ou bien la suppression d observations douteuses ne modifient quasiment pas les coordonn es sur les axes ni par cons quent les classifications calcul es d apr s ces coordonn es Or c est pr cis ment un d faut fr quent de ces m thodes que d tre sensibles de petites fluctuations des donn es Dans l analyse factorielle celles ci modifient surtout les derniers facteurs c est dire ceux que l on ne prend pas en compte dans notre strat gie 6 L analyse factorielle permet une autre approche des donn es et facilite l interpr tation des classifications obtenues La seule difficult de cette m thode r side dans le choix du nombre d axes factoriels prendre en consid ration Toutefois l utilisateur sera guid dans ce choix par l examen des d croissances successives des pourcentages d inertie des axes factoriels Il faut arr ter lorsque celles ci deviennent n gligeables D autre part un autre crit re important est de ne conserver que les facteurs que l on arrive interpr ter 1 3 Variables qualitatives et mixtes Lorsque les variables sont qualitatives la strat gie ci dessus s applique encore avec cette restriction que seule l analyse des correspondances est justifi e sur le plan math matique Il convient pour cela de mettre les donn es sous forme disjonctive compl te C
11. entre deux r gions denses 2 Application l exemple PSYSOC Dans cette application plut t que le moment intraclasse nous utilisons comme crit re de qualit de la partition obtenue le rapport R du moment interclasse au moment total Ce rapport que nous appellerons rapport d inerties de la partition est toujours compris entre z ro et 1 puisque le moment total s crit comme la somme des moments interclasse et intraclasse Une bonne partition sera donc caract ris e par une valeur de R proche de 1 Le premier choix d licat de l algorithme des centres mobiles est celui du nombre de classes de la partition La construction ascendante hi rarchique nous a permis de d celer chapitre 4 paragraphe 2 l existence de trois groupes que l on a d nomm s M diterran e Europe Nord et Atlantique par commodit Nous avons donc fait une premi re s rie de calculs en fixant le nombre de classes trois puis une autre s rie avec quatre classes pour examiner le comportement du programme dans une situation embarrassante Dans tous les cas les donn es sont constitu es des trois premiers facteurs de l Analyse des correspondances 2 1 Partition en trois classes En introduisant comme partition initiale les trois groupes d termin s par la construction hi rarchique le programme ne fait qu une seule tape qui montre que cette partition initiale ne peut pas tre am lior e Nous avons alors tir au hasard quatre partitions initiales
12. quantitatives ou mixtes Dans le cas purement qualitatif ou purement quantitatif diverses formules sont disponibles voir chapitre 3 et annexe 1 On veillera viter les redondances introduire deux variables mesurant le m me ph nom ne ou une variable dont la valeur s obtient partir des valeurs de deux autres variables Mais le m lange de variables qualitatives et quantitatives pose quelques difficult s On est dans ce cas oblig de cr er de nouvelles variables qualitatives correspondant aux classes de valeurs que l on aura eu soin de faire pour chacune des variables quantitatives Dans tous les cas une analyse factorielle pr alable fournit g n ralement une base de d part solide pour la classification 1 2 Traitement Les nombreuses variantes de la construction ascendante hi rarchique ne doivent pas impressionner l utilisateur Dans la plupart des cas l agr gation par la distance moyenne ou bien celle du moment d ordre deux lui fourniront de bons r sultats chapitres 4 et 6 1 3 Interpr tation des r sultats Toutes les variables jouent un r le quivalent dans la d termination des groupes d objets et il est rare qu un groupe puisse tre caract ris par une plage de variation d termin e d une seule variable Cependant les aides l interpr tation chapitre 8 peuvent mettre en avant quelques unes des variables avec des valeurs typiques pour certains groupes On se souviendra aussi que l ordre horizontal
13. s en commun par i et i ce qui peut s crire Go 24 xx k TL 2 e n On remarque que ces quantit s suffisent exprimer le nombre d de caract res absents simultan ment d ntc p q E 1 xx 1 x amp k 1 2 n En r sum on a la table suivante i i 1 0 1 el p 0 q c d n c p aq o chaque case d signe le nombre d attributs qui sont dans l tat indiqu en t te de la ligne et de la colonne correspondantes Nous allons maintenant num rer ci dessous les diff rentes formules connues comme indices de ressemblance en appelant chacune d elles du nom du premier auteur l ayant employ e notre connaissance Elles seront expos es suivant un ordre analogue celui qui est adopt par Sokal et Sneath 1963 c est dire en pr sentant d abord les formules o la ressemblance n est prise en compte que par les pr sences communes d attributs puis celles o la ressemblance est compt e la fois par les pr sences communes et les absences communes Faire un choix entre ces formules en vue d une application pr cise est une t che assez d licate c est pourquoi nous compl terons cet expos de divers renseignements intervalle de variation absolu v a c est dire en supposant que tous les caract res puissent prendre chacune des deux valeurs 0 ou 1 puis variation relative v r en supposant que les nombres d attributs p et q sont fix s Enfin nous nous int ressero
14. s est encore accentu e par le fait que les niveaux de liaison ne sont pas des distances mais plut t des carr s des distances 4 Un programme suppl mentaires utile troncature d une partition La strat gie d crite ci dessus au paragraphe 2 1 n cessite la troncature d une hi rarchie pour obtenir une partition de d part introduire dans la proc dure CenMob d agr gations autour de centres mobiles D s qu on d passe quelques dizaines d objets effectuer cela la main est fastidieux et source d erreurs C est pourquoi nous avons mis au point la proc dure Troncat pour faire cette op ration Elle cr e une partition de n objets en k classes k tant fix par l utilisateur partir d une hi rarchie d crite par ain s et benjamins voir chapitre 4 paragraphe 3 1 La partition obtenue est constitu e par une suite de n valeurs comprises entre 1 et k La i me valeur donne le num ro de la classe de l individu 1 Chapitre 10 Conclusion Etant donn es la faiblesse des connaissances math matiques en mati re de classification et l impossibilit o l on se trouve d examiner toutes les solutions possibles les conseils que l on peut donner en conclusion ne sont bas s que sur des appr ciations exp rimentales Rappelons que comme tout processus d Analyse des donn es l obtention d une classification se fait en trois phases principales au cours desquelles l utilisateur est amen faire des choix cruciaux pr p
15. sociale c est dire le nombre de d c s pour 100 000 habitants dus des causes sociales La somme des termes d une colonne est proportionnelle la moyenne des taux de mortalit pour une cause fix e sur l ensemble des pays consid r s Dans ces conditions la distance du Khi deux utilis e par l analyse factorielle des correspondances est tout fait adapt e pour tudier les ressemblances entre les r partitions des d c s d un pays l autre Nous avons donc deux solutions pour le calcul des distances La premi re consiste calculer la distance du Khi deux directement sur le tableau des donn es brutes Cf tableau 1 la seconde est de calculer la distance euclidienne usuelle sur les premiers axes issus de l analyse des correspondances tableau 2 Dans cette derni re strat gie se pose le probl me du nombre d axes retenir Si l on conserve tous les facteurs possibles nombre de variables moins un alors les r sultats sont rigoureusement identiques ceux de la premi re m thode Pour appr cier l effet de filtrage de l analyse factorielle nous pr f rons ne retenir que trois axes qui repr sentent 93 7 de l inertie totale le quatri me axe tombant 4 4 de l inertie totale Les r sultats de ces deux s ries de calculs figurent dans les tableaux 1 et 2 Etant donn e l approximation adopt e dans la deuxi me m thode ces deux tableaux ne sont pas facilement comparables si ce n est en observant l ordre dans lequel s
16. 1 0000000000 601011 1 qo T9 611010 0 ds Or l D ld 62 1 T L 1 0 0 0 L0 T I 630101000100000 64 1000111000001 65 1 10101000101 67 1 1 000 111 681000011010000 69 1 0 01000001 700000000 0000 710000000001001 2 Spe pop 111000 75001000000 0 0 770000000 L 100 d 190 T 101 110000 82 0001011100000 84 0000000000110 86 1100000000000 87 0000000110000 900000000000000 95000101010 000 98000000000 0 0 LOO 1 0 01 050000000 0000 09 0 000100 0 12 000000 00000 131 1 01 0 0 14 1 0 1 1 16 0000000000 17 1 0000 120 00000 0 0 qo sed sr Sed 1 ICT eL 126 0 0 0 1000000 1290001010100000 130 1 0 0000000000 13100100000000 00 14400001000011 1 450000100010110 156000000000100 1570000000000010 580101010100000 1591001010100000 160 0101000000001 63 I Tod 0 IL O ds OF 1 1 0 1 1 1660000101010010 1680000000000110 Tableau 2 Donn es PHYTOS OOOOH o000000o0rProo0oroooootr w DECO ODO OOD ARA O R OH O O H CO QOOOorLnoococcoomrmrococococoocococco t O H o O H Hs Y Ooo0ooort Oot COO OoOOOoornooocdoccot oo o OoOorooooor OOH OOOH Ooo0roo0oo0oo0ooootr Antennaria dioica L Cerastium arvense var 1 Plantago alpina L Poa alpina L L Polygonum viviparum L Achillea millefolium Agrostis alpina Scop Alchemilla glaberrima Schm Alchemilla hybrida L Androsace carnea L Gaertn Anthoxanthum odoratum L Aster alpinus L Astragalus campestris L Ten A
17. Figure 1 Ph nom ne d inversion La distance entre l l ment c et le groupe a b est plus faible que la distance entre a et b Quelle que soit la formule adopt e il faut donc s assurer que les distances recalcul es soient sup rieures au niveau du n ud que l on vient de former d iUi k IV diy 44 Cela est vident pour les formules 1 et 2 puisqu au moment de la fusion d i 1 est la plus petite de toutes les distances On v rifie ais ment que c est encore vrai de la formule 3 pour la m me raison Lorsqu on utilise la formule 1 on dit qu on proc de l agr gation par le saut minimum ou du lien simple en anglais single link parce que la fusion de deux groupes est bas e sur la plus petite des distances inter groupes La hi rarchie bas e sur la formule 2 est appel e hi rarchie du diam tre ou du lien complet en anglais complete link car elle est bas e sur la plus grande distance interne au groupe r sultant ce qui est la d finition m me du diam tre de ce groupe Enfin la classification fond e sur la formule 3 s appelle hi rarchie de la distance moyenne average link en anglais Deux remarques s imposent propos de cette construction hi rarchique les nombreuses recherches et modifications sur les distances obligent g rer celles ci en m moire centrale de l ordinateur ce qui limite s rieusement la taille de l chantillon en revanche ce type d al
18. Numerical Taxonomy 359p Freeman and co San Francisco London Shepard R N 1962 The analysis of proximities scaling with an unknown distance function I Psychometrica vol 27 no 2 Spearman C 1904 The proof and measurement of association between two things American J Psychology 15 88 Todd E 1979 Le fou et le prol taire Le Livre de Poche Robert Laffont Paris Volle M 1978 Analyse des donn es 265p Economica Paris Ward J H 1963 Hierarchical grouping to optimize an objective function J Amer Stat Assoc 58 236 244 Williams W T and Lambert J M 1959 Multivariate methods in plant ecology I Association analysis in plant communities J Ecology 47 83 101 INDEX N B Les r f rences indiquent successivement le num ro du chapitre et du paragraphe concern s Ainsi c3 1 2 d signe le paragraphe 1 2 du chapitre 3 Quand il n y a pas de num ro de paragraphe cela signifie que tout le chapitre est consacr la notion que l on recherche Les r f rences al ou a2 d signent respectivement les annexes 1 et 2 enfin la lettre b renvoie la bibliographie Agglom ration Voir agr gation Agr gation s Autour de centres mobiles Par le diam tre ou Lien complet Par la distance moyenne Par le lien simple ou Saut minimum Par le moment d ordre deux Successives Analyse factorielle Des correspondances En composantes principales Pr traitement par Benz cri J P Bourbaki N CAHLM CAH
19. P 1964 Analyse factorielle des proximit s Publication de l Institut de Statistique de l Universit de Paris Paris Benz cri J P 1966 Le ons sur l analyse factorielle et la reconnaissance des formes Cours du 3 me cycle ISUP Paris Benz cri J P et coll 1973 L Analyse des donn es Tome 1 La Taxinomie 615p Dunod Paris Benz cri J P 1982 Histoire et pr histoire de l Analyse des donn es 159 p Dunod Paris Benz cn J P et F Benz cri 1980 Pratique de l Analyse des donn es Analyse des correspondances expos l mentaire 424p Dunod Paris Bertier P et Bouroche J M 1975 Analyse des donn es multidimensionnelles 270p PUF Paris Boley D 1998 Principal directions divisive partitioning Data mining and knowledge discovery 2 325 344 Bourbaki N 1958 Livre III chap 9 Utilisation des r els en topologie 2 Ex 4 Hermann Paris Bouroche J M et Saporta G 1980 L Analyse des donn es 125p Collection Que sais je PUF Paris Caillez P et Pag s J P 1976 Introduction l analyse des donn es 616p Ed SMASH 9 rue Duban 75016 Paris Paris Chandon J L et Pinson S 1981 Analyse typologique 254p Masson Paris Chavent M Guinot C Lechevallier Y Tenenhaus M 1999 M thodes divisives de classification et segmentation non supervis e recherche d une typologie de la peau humaine saine Rev Stat Appl XLVII 4 87 99 Clark P J 1952 An extension of the co
20. axes factoriels 2 2 Traitement Le choix de l une ou l autre des deux m thodes possibles tiendra compte surtout de leur fonctionnement car les contraintes li es la taille des donn es sont peu pr s les m mes pour les deux m thodes Celle du moment d ordre deux d une partition fournit une hi rarchie qui devra donc tre tronqu e si l on veut une partition des objets L agr gation autour de centres mobiles fournit directement une partition mais elle n cessite le choix d une partition initiale qui peut tre tir e au hasard dont d pend le r sultat final 2 3 Interpr tation Lorsqu on utilise la classification comme une tape pr liminaire d autres traitements on ne cherche pas d interpr tation aux r sultats Cependant les aides l interpr tation sont parfois utiles pour critiquer les donn es avant d aller plus avant dans leur analyse En r sum on ne devra pas s effrayer devant la vari t des algorithmes possibles car le choix se limite de fait deux ou trois d entre eux pour leur qualit ou pour leur efficacit sur de grands tableaux D ailleurs lorsqu on peut les comparer on constate g n ralement un bon accord entre les r sultats des diff rentes m thodes Pour des applications r p titives dans un domaine pr cis l utilisateur devra vraisemblablement faire des essais comparatifs et choisir l algorithme qui lui parait le mieux adapt son probl me Cependant nous d conseillons l adjonc
21. c est dire des effectifs des classes Le r le des variables peut tre facilement appr ci dans leur contribution cette dispersion Comme au chapitre 5 on suppose que la distance utilis e est la distance euclidienne usuelle 1 1 Interpr tation d une partition Reprenant les notations du chapitre 5 on appelle Q la partition form e des classes q q d effectifs m My dont les centres de gravit sont g gq Le moment d ordre deux de la partition Q est M Q m Za Mg d Sar g o g sans indice d signe le centre de gravit de l ensemble de tous les objets Le carr de la distance euclidienne entre g et g s crit d Jar g Mia 94 3 s g 39 o J repr sente l ensemble des variables g J est la j me coordonn e du point g En intervertissant l ordre de sommation on a donc M Q Lies DA Mg Ja 3 g 3 8 1 On appellera contribution de la variable j la classe q la quantit CTR q j m gq j g j Remarquons que cette quantit est toujours positive cependant il peut tre utile de connaitre le signe de la diff rence entre parenth ses pour savoir si la variable j est inf rieure ou sup rieure la moyenne g n rale g j dans la classe consid r e Dans la pr sentation des r sultats on publiera deux tableaux Le premier s appelle contributions des variables aux classes et donne les quantit s ci dessus munies du signe convenable exprim es en pourcentage re
22. certain nombre fix par l utilisateur de tirages al atoires de partitions initiales qui sont toutes soumises l algorithme des centres mobiles Seule la meilleure partition finale est conserv e et affich e Dans les deux versions le r sultat rend compte de la qualit de la partition obtenue en donnant le rapport d inerties Il indique galement la contribution de chaque classe au moment inter classe Chapitre 6 Construction ascendante hi rarchique du moment d ordre deux 1 Principe et probl mes La construction hi rarchique du moment d ordre deux est une m thode agr gative analogue celles qui sont d crites au chapitre 4 Elle est connue dans le monde anglo saxon sous le nom de m thode de Ward Ward 1963 Son originalit provient de ce que le crit re permettant de d cider de la fusion de deux classes n est pas bas sur une quelconque notion de distance entre classes mais sur l augmentation de la dispersion intra classe Pour comprendre cela il nous faut reprendre le th or me de Huyghens examin au chapitre pr c dent paragraphe 1 2 et l appliquer au cas particulier d une partition en deux classes q et q Dans ce cas la formule 5 3 du chapitre 5 devient M qUq M q M q m d g Ja mg g Jar o l on d signe par qUq la r union des deux classes q et q On montre par ailleurs facilement cf Benz cri 1975 Jambu 1978 que le moment intra classe repr sent par les deux derniers termes de
23. des formes fortes permet galement de s affranchir d un autre inconv nient de la m thode qui est de n cessiter le choix a priori du nombre de classes En effet le nombre de formes fortes peut tre tr s variable et ne d pend pas directement du nombre de classes choisi Un autre probl me est celui du choix d une partition initiale Il est vident que si l on a des informations sur les regroupements possibles il vaut mieux en tenir compte pour d marrer avec une bonne partition Notons ce propos qu il n est pas n cessaire d affecter tous les objets une classe On peut laisser certains objets sans affectation A la premi re tape de l algorithme les centres de gravit seront calcul s sur les seuls objets appartenant une classe d clar e Puis l ensemble des objets sera affect ou r affect en fonction de ces centres de gravit Signalons enfin une variante possible de cet algorithme Pour chaque classe trouv e au cours d une tape on peut prendre un certain nombre fix l avance de repr sentants de cette classe au lieu du centre de gravit On r affecte ensuite l ensemble des objets en fonction de la moyenne de leurs distances ces repr sentants Les repr sentants sont des points centraux choisis suivant le m me crit re de la moyenne des distances Cette variante a l avantage d viter de fabriquer des classes creuses le centre de gravit peut en effet tomber dans une zone de faible densit interm diaire
24. deux noeuds concern s p et q sont fusionn s et leur niveau est calcul selon la distance moyenne entre les trois groupes n c et d Nous proposons une troisi me strat gie dans laquelle apr s la construction descendante on contr le les niveaux des partitions successives Dans le cas o l on d couvre une inversion on recalcule la distance moyenne entre les trois groupes concern s et cette distance moyenne est prise comme niveau commun aux deux noeuds en inversion 5 Applications aux exemples 5 1 Exemple PSYSOC Nous avons trait le tableau des distances relatif aux donn es PSYSOC par l algorithme que l on vient de d crire CDH LM paragraphe 3 3 Les distances sont calcul es par la formule euclidienne usuelle sur les 3 premiers axes de l A F C Les r sultats voir figure 1 sont comparables ceux que procure la hi rarchie ascendante de la distance moyenne quoique les deux pays excentriques Irlande du Nord NIRELA et USA tout en tant isol s des autres ne soient pas mis dans un m me groupe Mais on y retrouve bien le groupe M diterran en SPAIN ITALY et PORTUG reli au groupe Europe moyenne FRANCE WGERMA et AUSTRIA Les autres pays sont ceux du groupe Europe Nord dans lequel il est difficile de discerner des sous groupes NIRELA PORTUG 4 FRANCE WGERMA AUSTRI DENMAR SWITZE FINLAN SIRELA
25. diff rentes trois d entre elles ont converg vers la m me partition finale d j trouv e Une seule d entre elles a donn une partition diff rente voir tableau 1 mais avec un rapport moment interclasse moment total de 0 51 beaucoup plus faible que celui de 0 70 qui correspond la partition pr c dente Ce rapport R nous permet de trancher en faveur de la partition trouv e l aide de la CAH 2 2 Partition en quatre classes Nous avons voulu voir quels r sultats on obtient lorsque l on choisit un nombre de classes en d saccord avec les donn es Ce qui peut arriver en pratique si l on n a fait aucune analyse pr alable On a effectu quatre tirages au hasard en quatre classes Les partitions P1 P2 P3 P4 issues de ces tirages ainsi que les r sultats P1 P2 P3 P4 de l algorithme des centres mobiles sont consign s dans le tableau 2 Les rapports d inertie obtenus sont respectivement 0 80 0 49 0 75 et 0 81 La partition P4 est donc la meilleure mais elle est suivie de pr s par P1 et P3 La partition P2 est franchement mauvaise PB P P1 P3 AUSTRI 1 4 AUSTRI 4 1 FRANCE 3 1 FRANCE 1 4 PORTUG 3 1 PORTUG 1 4 WGERMA 1 1 WGERMA 4 1 BELGIU 1 3 BELGIU 3 1 FINLAN 3 3 FINLAN 3 4 SWEDEN 3 3 SWEDEN 4 4 SWITZE 3 3 SWITZE 3
26. entier est d abord scind en deux puis chacune de ses parties est son tour subdivis e et ainsi de suite Dans le troisi me groupe de m thodes on peut rassembler toutes celles qui se limitent l laboration d une partition Par des algorithmes tr s divers ces m thodes ont pour objectif de d tecter les zones forte densit dans l espace des observations Etant donn la faiblesse des bases th oriques de tous ces algorithmes usuels il serait imprudent de se fier totalement aux r sultats ainsi obtenus C est pourquoi nous recommandons vivement l utilisateur de toujours confronter ses r sultats ceux d une analyse factorielle Benz cri et coll 1973 b Bertier et Bouroche 1975 De Lagarde 1983 F nelon 1981 Foucart 1982 Bouroche et Saporta 1980 3 Objectifs et plan de l ouvrage Dans les pages qui suivent on se propose de donner les bases math matiques les algorithmes et les programmes de calcul pour les principales m thodes de classification Comme notre intention est de fournir aux praticiens les moyens de comprendre et d utiliser ces m thodes nous avons bas l expos sur deux exemples typiques d crits au chapitre 2 qui sont trait s par tous les algorithmes possibles Chaque chapitre comporte l expos d un algorithme et son application l un ou l autre des exemples On explique ensuite la mise en uvre du programme correspondant et ses principales caract ristiques en vue d une adaptation ventuelle Par
27. entre tous les objets deux deux ont t calcul es suivant l une des formules du chapitre pr c dent On proc de alors par tapes successives chacune d elles consistant r unir les deux objets les plus proches A la fin de chaque tape on recalcule les distances entre le groupe nouvellement cr et le reste des objets Cela permet de r it rer le processus jusqu ce que tous les objets aient t r unis dans un seul groupe Lorsque cela est achev on dresse un arbre hi rarchique dont les noeuds repr sentent les fusions successives la hauteur de ces noeuds tant gale la valeur de la distance entre les deux objets ou groupes fusionn s Le niveau des noeuds a donc ainsi une signification concr te on dit dans ce cas qu on obtient une hi rarhie indic e La seule difficult de ce processus reside dans le choix d une formule pour le recalcul des distances apr s fusion Curieusement les consid rations math matiques ne sont pas d un grand secours pour faire ce choix voir cependant ci dessous paragraphe 1 2 et annexe 2 Dans les m thodes usuelles il est plut t le fruit du bon sens et de l exp rience Nous allons examiner les trois formules les plus courantes On d signe par 1 et i les deux objets ou groupes d objets que l on veut fusionner et par k un autre point de 1 ensemble d iUi k Min d i k d i kp 1 d iUi k Max d i k d i k 2 d iUi k p i d i k p i d i k p
28. est dire qu chaque tat de variable ou modalit on fait correspondre une colonne du tableau final En regard d une observation occupant une ligne du tableau on met un 1 dans les colonnes indiquant ses qualit s et des z ros partout ailleurs cf Benz cri 1980 Foucart 1982 Toutefois pour certaines donn es o les variables sont deux modalit s pr sence ou absence d un attribut il arrive que l absence n ait pas la m me valeur significative que la pr sence Il est alors pr f rable de coder chaque attribut sur une seule colonne au lieu de deux avec un 1 si l attribut est pr sent et un z ro s il est absent C est le cas en phytosociologie cf exemple 2 au chapitre pr c dent o la pr sence d une plante est une indication plus importante que son absence relativement la nature du sol au climat etc De nombreux chercheurs ont d ailleurs mis au point des formules de distances prenant en compte cette remarque Ainsi l indice de Jaccard fournit g n ralement un bon point de d part pour une classification Cet indice est bas sur le nombre c d attributs communs c est le nombre d esp ces pr sentes simultan ment dans deux relev s de plantes et sur les nombres p et q d attributs poss d s par chacune des deux observations consid r es d 1 c p q c 2 Le d nominateur de la fraction repr sente le nombre d attributs existant soit dans l une soit dans l autre soit dans les deux observatio
29. est de 132 les pays de l autre sous classe 2 ayant naturellement des taux inf rieurs la moyenne sauf BELGIU 3 2 Donn es PHYTOS qualitatives Pour cette application nous reprenons la partition en 4 classes mise en avant au chapitre 2 paragraphe 1 2 et retrouv e dans les applications pr c dentes le relev 24 d affectation incertaine a t attribu au groupement Pacnl comme cela a t propos au chapitre 2 CL 1 Groupement Pan relev s 13 15 23 Nardetum alpigenum CL 2 Groupement Pacnl relev s 3 4 14 16 24 Festucetum halleri subass Nardetosum faci s normal CL 3 Groupement Pacn2 relev s 10 54 55 Idem mais faci s Elyna et Salix CL 4 Groupement Pac relev s 27 30 31 36 38 Festucetun halleri sensu stricto Le tableau 4 donne pour toutes les esp ces en lignes leur contribution aux quatre classes de cette partition vedette L avant derni re colonne repr sente la somme de ces contributions c est dire le degr de liaison globale entre l esp ce et la partition gale au Khi deux de contingence Les contributions sont exprim es on milli mes Comme les esp ces sont toujours des variables deux modalit s pr sence ou absence tous ces nombres sont comparables d une ligne l autre Cependant on doit se souvenir que l absence d une esp ce joue autant que la pr sence dans la valeur du Khi deux ce qui conduit caract riser les classes plus souvent par l absence que par la pr sence Il conv
30. i p i 3 La formule 1 indique que la nouvelle distance entre le groupe i 1 d sign par 1U1 et le point k sera gale la plus petite des deux distances de 1 k et de i k La formule 2 stipule au contraire que la nouvelle distance doit tre gale la plus grande des deux anciennes Enfin la formule 3 dit que la nouvelle distance vaudra la moyenne des distances ant rieures Dans cette formule p 1 et p i d signent le nombre d objets appartenant au groupe i et au groupe 1 Au d but de l algorithme ces groupes sont r duits un seul point mais il n en est pas de m me au bout de quelques tapes Ces pond rations assurent qu tout moment la distance calcul e entre deux groupes est gale la moyenne des distances initiales entre les points de l un et les points de l autre distances inter groupes D ailleurs si l on n utilisait pas ces pond rations on s exposerait des d sagr ments En effet chaque tape de l algorithme on prend la valeur de la distance entre les deux points fusionn s pour niveau du n ud de l arbre hi rarchique Les distances recalcul es par l une ou l autre des formules ci dessus sont donc des valeurs possibles pour le niveau des noeuds suivants de la hi rarchie Mais pour que celle ci puisse tre construite il faut que ces niveaux ult rieurs soient sup rieurs celui que l on vient de cr er On aurait autrement un ph nom ne d inversion voir figure 1 a b c
31. la somme ci dessus s crit aussi Ma d g Ja Ma d g g My Mar Mg m4 d Jar Jaq 6 1 Si les deux classes q et q sont les l ments d une partition cette expression repr sente l augmentation du moment intra classe qui arriverait si l on fusionnait les deux classes q et q en effet lorsque q et q sont s par es leur contribution au moment intra classe vaut M q M q C est pr cis ment cette quantit 6 1 que l on prend comme crit re d agr gation dans la hi rarchie du moment d ordre deux A chaque pas de l algorithme on fusionne les deux classes qui provoquent la plus faible augmentation du moment intra classe Cette augmentation du moment intra classe joue donc maintenant le r le de la distance dans l algorithme l mentaire du chapitre 4 nous l appellerons pseudo distance Au d but de l algorithme supposant que chaque objet est muni d une masse unit la matrice des pseudo distances vaut pour la case i 1 1 2 od i i Au premier pas de l algorithme on agr ge la paire pour laquelle cette quantit est la plus petite qui en l occurence co ncide avec celle de la plus petite distance Pour pouvoir proc der l agr gation suivante il faut alors calculer l augmentation du moment intra classe avec chacun des autres objets La formule 6 1 fait intervenir les centres de gravit des classes et ne permet donc pas facilement le recalcul des nouvelles pseudo distances partir des a
32. le premier cas les donn es ne sont pas classifiables tandis qu elles le sont dans le deuxi me cas L exp rience confirme cette appr ciation mais elle doit tre modul e en fonction de l algorithme utilis pour la construction hi rarchique En effet certains algorithmes ont une propension donner un arbre du type 1 d autres donner des groupes tr s visibles comme dans le cas 2 Ainsi dans l agr gation par le saut minimum ou lien simple l effet de chaine caract ristique de cette m thode voir chapitre 4 paragraphe 1 2 se traduit par un arbre du type 1 mais m me en l absence de r elle disposition en chaine cette m thode tend r tr cir les intervalles de variation des distances donc rapprocher les niveaux d agr gation On n en conclura donc pas la non validit des groupes observ s La hi rarchie du diam tre ou lien complet pr sente la particularit inverse c est dire qu elle montre des groupes bien marqu s l o parfois on n a qu une seule suite de points faible distance les uns des autres En bref elle casse les chaines d objets Bien entendu l agr gation par la distance moyenne r alise un compromis int ressant entre les deux m thodes pr c dentes Enfin la hi rarchie du moment d ordre deux pr sente le m me d faut que celle du diam tre en plus pouss Non seulement elle a tendance fabriquer des boules de diam tres comparables mais l impression de nettet des groupes form
33. on peut faire correspondre une hi rarchie indic e unique H dont s 1 d soit l indice associ En effet la relation s i 1 gt x ou d i 1 1 x est une relation d quivalence sur I dont les classes d finissent une partition P x unique pour chaque x H est alors d termin e par les parties h telles qu il existe x e 0 1 dont la partition P x contient h comme l une de ses composantes L indice x h est alors le plus grand x tel que h e P x Ces d finitions et propri t s appellent quelques remarques Remarque 1 La relation 1 entra ne l in galit triangulaire de sorte que toute application d de I x I dans R v rifiant 1 et les conditions 2 d i j 0 gt i 3 V i Lhe I i d i i d i 1 est une distance ultram trique Remarque 2 Si d est une ultram trique on peut d montrer que d i k d j k entra ne d i j Max d i k dg k de sorte que tout triangle est isoc le avec la base inf rieure aux cot s gaux En effet on n enl ve pas de g n ralit supposer que d i k lt dj k donc di j x dG k d apr s 1 Toujours d apr s 1 on a d j k x Max d 1 j dG k comme d i k lt dG k par hypoth se on a n cessairement d j k lt dG j donc d i j dG kK La correspondance entre hi rarchie indic e et ultram trique nous permet de poser le probl me de la classification en termes plus pr cis que ceux de notre introduction chapitre 1 paragr
34. p variables Ce moment d ordre 2 est encore appel Moment d inertie car il est correspond exactement cette notion de m canique Th or me de Huyghens Examinons maintenant le cas du moment d ordre deux par rapport un point a diff rent du centre de gravit M I a m d 1 a m d 2 a m d n a Le i me terme m d i a de cette somme est lui m me une somme pond r e de carr s d carts aux coordonn es x a j de a l indice j parcourant l ensemble 1 2 p des variables m qd i a m x i 1 x a 1 m x i 2 x a 2 m x i p x a PIN Le j me terme de cette expression peut son tour se d composer en faisant intervenir la j me coordonn e du centre de gravit m x i j x a 3 m x i 3 x g 3 x g 3 x a j m x i j x a j mIx i Jj x g 3 2m x i j x g j x g 3 x a 3 m x g 3 x a j Pour obtenir le moment d ordre deux il faudra donc faire une double somme d expressions analogues l une sur les variables indice j l autre sur les individus indice 1 Commengons par la somme sur les individus et examinons le terme interm diaire 2m x i j x g 3 lix g 3 x a 3 1 Comme le deuxi me crochet ne d pend pas des individus on pourra le mettre en facteur dans la somme des termes interm diaires qui devient 2 x g 3 x a 3 m x 1 3 x g j m x 2 3 x g 5 zu doma
35. plus n n 1 2 partitions au lieu des 20 1 _ 1 bipartitions possibles Le calcul du crit re est lui m me d ordre n enfin le nombre total de scissions effectuer est gal n 1 On a donc un algorithme de complexit polynomiale de degr 4 C est un ordre lev mais qui reste r alisable avec les ordinateurs actuels En accord avec le crit re de scission il est naturel de fixer les niveaux de la hi rarchie gaux la distance moyenne entre les groupes qu ils d finissent C est pourquoi nous avons appel CDH LM le programme r alisant cet algorithme 4 Le probl me des inversions La proc dure ci dessus pr sente un grave inconv nient elle ne garantit pas contre l apparition d inversions dans la hi rarchie laquelle est alors impossible construire et jette quelques doutes sur sa validit Ce ph nom ne bien que peu fr quent environ 10 des cas selon nos essais demande un am nagement de la m thode Pour cela plusieurs strat gies sont possibles La premi re strat gie consisterait simplement signaler par un message l utilisateur qu une inversion s est produite La seconde strat gie possible est celle adopt e par Kaufman et Rousseeuw 1990 les niveaux d agr gations sont les diam tres des classes correspondantes Comme les sous classes sont n cessairement d un diam tre inf rieur ou gal la classe qui les englobe il ne peut y avoir d inversion a b c d a b c d Fig 1 En cas d inversion les
36. plusieurs centaines d objets voire plusieurs milliers il arrive que la seule m thode possible soit celle des agr gations autour de centres mobiles En une telle circonstance il n est gu re possible d essayer plusieurs partitions initiales tir es au hasard car chaque tirage le temps de calcul n cessaire au d roulement de l algorithme peut tre assez long et l on est donc contraint de se limiter quelques essais voire un seul La partition ainsi obtenue peut tre de qualit m diocre et ne donne pas d assurances sur la validit du nombre de classes choisi Plut t que de chercher directement le regroupement des objets en un nombre restreint de classes nous proposons dans une tape pr liminaire d obtenir une partition en un grand nombre de classes Puis de prendre les centres de gravit ou points moyens de ces classes comme objets pour une classification hi rarchique Supposons que l on ait par exemple 5000 observations classer On pourra demander aux centres mobiles de cr er disons 100 classes Chacune d entre elles contiendra en moyenne 50 observations qui seront repr sent es par les valeurs moyennes de leurs variables Ces points moyens seront alors agr g s en un temps raisonnable par une construction ascendante hi rarchique 2 3 Donn es h t rog nes emploi de l analyse factorielle pr alable On a d j eu l occasion d examiner les avantages du pr traitement par l analyse factorielle cf chapit
37. seconde Il est vident que toute m trique d sur I induit une ordonnance en d clarant 1 j lt k 1 si et seulement si d i j d k 1 voir annexe 1 D autre part une hi rarchie H sur un ensemble fini I induit une relation d ordre non total en g n ral sur les paires d l ments de I de la fa on suivante on dira que 1 j k D s il existe une partie h de H contenant i et j telle que l on ait soit lehet ke h soit L het ke sh Si une telle partie h n existe pas c est que la situation est la suivante toute partie h qui contient i et j soit contient aussi k et 1 soit ne contient ni l un ni l autre Deux ventualit s se pr sentent alors ou bien il existe h e H contenant k et 1 mais ne contenant pas i et j auquel cas i j et k 1 ne sont pas comparables ou bien une telle partie h n existe pas et alors i j lt k 1 En notation arborescente ces deux cas donnent les arbres suivants A B j i l k j i l k Figure 2 Comparaison de paires d objets A Existence de h B h n existe pas Enfin si toute partie de H qui contient i et j contient aussi k et 1 nous dirons que i J k 1 1 2 Hi rarchie indic e et ultram trique D finition 1 Benz cri 1966 Une hi rarchie H sur un ensemble I fini est dite indic e s il existe une application x H gt 0 1 telle que 1 si h H est r duite un l ment alors x h 1 2 si h cC h eH alors x h gt x h On
38. souci de clart les d veloppements th oriques importants sont renvoy s en annexe Comme la plupart des m thodes commencent par le calcul de distances on tudiera d abord les modalit s de ce calcul chapitre 3 On pourra alors d crire les algorithmes usuels de construction ascendante de hi rarchie chapitre 4 puis un algorithme devenu classique de construction d une partition chapitre 5 On envisage ensuite des m thodes moins courantes la construction ascendante selon la variance des distances chapitre 6 et une construction descendante hi rarchique chapitre 7 On termine par des calculs compl mentaires facilitant l interpr tation des r sultats chapitre 8 et par un chapitre num ro 9 indiquant quelques r gles l mentaires suivre pour le traitement ces donn es En conclusion chapitre 10 nous r sumerons les caract ristiques de chacune des techniques d crites en indiquant nos pr f rences 4 Domaines d application et points de vocabulaire La classification a un r le jouer dans toutes les sciences et techniques qui font appel la statistique multidimensionnelle Citons tout d abord les sciences biologiques botanique zoologie cologie Ces sciences utilisent galement le terme de taxinomie pour d signer l art de la classification De m me les sciences de la terre et des eaux g ologie p dologie g ographie tude des pollutions font grand usage de classifications La classification es
39. stocker en m moire le tableau des donn es mais de le relire chaque fois qu on en a besoin les individus tant balay s s quentiellement dans les deux cas o cela se produit Cependant un allongement consid rable du temps de calcul serait pr voir du la lenteur des acc s disques 1 2 Nature des donn es Lorsque les donn es sont quantitatives chacun des programmes peut tre utilis Cependant il convient de refl chir si l on doit effectuer une normalisation pr alable des variables En revanche avec les donn es qualitatives il est obligatoire de choisir une formule de distances adapt e voir chapitre 3 Dans ce cas il faut utiliser l un des programmes DisJac ou DisKi2 ou tout autre programme destin au cas de variables qualitatives puis appliquer CAH ou CDH aux distances ainsi calcul es 1 3 Qualit des r sultats En dehors des contraintes voqu es ci dessus les quatre principaux algorithmes tudi s ne donnent pas des r sultats d gale qualit On a d j critiqu chacun d eux en son temps mais il est bon de rappeler que dans le cas o ils sont tous applicables l exp rience permet d tablir entre eux la hi rarchie suivante en allant du m diocre au tr s bon CenMob gt CDH gt CAHmom2 gt CAHLM Bien entendu ce rangement correspond aux cas les plus fr quents il peut arriver que pour un exemple particulier CDH ou CAHmom2 donne une hi rarchie meilleure que CAHLM c est di
40. suivant 1 Pour chaque objet 1 rechercher son plus proche voisin que nous appellerons PPV 1 2 Agr ger toutes les paires de voisins r ciproques c est dire les couples i i tels que PPV i 1 et PPV i i 3 Retourner en 1 tant que le nombre de groupes restants est sup rieur ou gal deux Il faut noter que les r sultats sont rigoureusement identiques ceux que l on obtient par l algorithme maintenant traditionnel des agr gations successives tel qu il a t d crit au chapitre 4 3 Application l exemple PSYSOC Les coordonn es des pays sur les trois premiers facteurs de l AFC ont encore une fois servi de donn es pour l algorithme des voisins r ciproques celui ci a t programm voir ci dessous paragraphe 4 pour valuer les distances selon la m trique euclidienne usuelle tandis que les agr gations sont faites selon le crit re du moment d ordre deux Les r sultats sont tr s largement concordants avec les m thodes employ es jusqu ici figure 1 On retrouve les trois groupes principaux d j d termin s Seules changent les subdivisions du grand groupe baptis Europe Nord FRANCE AUSTRI WGERMA SPAIN PORTUG ITALY NIRELA 4 USA 4 FINLAN SWITZE DI Lr NMAR SIRELA ICELAN NORWAY Bi Lr GIU SWEDEN SCOTLA
41. 0 0 33 Q Jp 36 0 7 0 21 53 0 100 0 0 0 0 100 0 25 0 56 100 8 3 5 55 0 0 0 0 0 0 100 0 0 0 100 100 14 3 2 57 0 0 0 0 100 0 O 33 0 17 20 100 8 17 0 60 0 100 0 0 0 100 0 100 25 6 Zi 20 8 44 5 61 0 100 0 0 0 0 0 100 25 6 2 0 45 0 21 62 0 100 100 100 25 100 0 11 25 38 0 25 0 44 0 63 100 0 0 25 0 0 0 100 100 6 22 0 7 0 21 64 100 0 0 25 0 0 100 100 100 38 0 0 7 38 10 65 0 0 0 0 0 100 100 0 100 100 22 25 31 3 0 67 0 0 100 100 25 0 0 11 0 38 20 100 1 17 1 68 100 0 100 25 25 0 0 33 0 17 36 0 0 0 15 69 0 0 0 0 0 0 100 0 0 100 9 0 66 38 16 70 0 0 0 100 0 0 0 0 0 100 9 0 6 0 6 71 0 0 0 0 0 0 0 0 0 0 0 100 0 44 5 72 0 0 0 0 0 0 100 0 0 0 0 0 0 38 73 75 0 100 0 0 0 0 0 0 225 0 56 0 8 100 5 77 0 0 0 100 0 100 0 0 100 100 22 25 0 44 5 T9 100 0 0 25 100 0 0 11 100 6 22 0 0 0 35 82 0 0 100 0 25 0 o 11 0 6 9 0 66 0 15 84 0 0 0 0 0 0 0 0 0 0 0 0 0 100 51 86 0 0 0 0 100 0 0 33 0 L7 v20 0 8 0 6 87 0 0 0 100 0 0 0 0 0 100 9 0 6 0 6 90 0 0 0 0 0 0 0 0 100 0 56 0 8 0 6 95 0 100 0 0 0 0 100 0 25 0 24 0 66 38 3 98 0 0 0 0 0 100 100 0 0 0 0 25 0 3 51 100 0 0 0 0 0 100 100 0 0 0 0 25 0 3 DL LOS 0 0 0 100 0 0 0 0 0 100 9 0 6 0 6 109 0 0 100 0 25 0 100 33 100 7 0 0 14 38 24 12 0 0 0 100 100 0 0 11 0 6 9 0 6 0 6 113 0 0 0 0 0 0 0 0 100 0 24 0 4 100 30 14 0 0 0 0 0 0 0 0 100 0 24 0 4 0 3 116 0 0 0 0 100 0 0 33 O TI 36 0 3T 0 21 117 0 0 0 0 0 0 0 0 0 0 0 0 0 0 100 120 0 0 100 0 25 0 0 33 0 7 20 0 8 0 58 125 0 0 0 0 0 0 0 0 0 0 0 100 Q IT d5 126 0 0 100
42. 00 2 2 Phytosociologie PHYTOS Pour l exemple des donn es phytosociologiques on prend l indice de distance de Jaccard On aurait pu galement calculer les distances au sens du Khi deux Mais l exp rience montre que les disparit s de poids entre esp ces provoquent des fluctuations disproportionn es dans les distances et les classifications ult rieures s en trouvent souvent difficiles interpr ter Cf chapitre 4 paragraphe 2 Les r sultats sont consign s dans le tableau 3 o les valeurs sont multipli es par mille R3 RA R10 R13 R14 R15 R16 R23 R24 R27 R30 R31 R36 R38 R54 RA 550 R10 632 629 R13 590 622 784 R14 486 514 563 600 R15 500 675 763 276 543 R16 474 579 629 658 424 528 R23 727 732 821 469 718 455 667 R24 675 744 697 757 531 667 469 531 R27 721 756 676 800 711 810 725 833 789 R30 750 789 750 735 625 784 686 811 758 697 R31 756 763 794 811 636 850 730 902 765 625 500 R36 537 600 718 675 541 690 634 826 756 528 667 676 R38 825 868 844 919 861 923 838 975 914 621 654 615 784 R54 651 579 629 543 595 528 683 632 744 725 789 763 634 868 R55 585 579 545 692 556 707 615 732 676 622 757 763 564 806 412 Tableau 3 Donn es PHYTOS indices de distance de Jaccard entre relev s multipli s par 1000 3 Les proc dures de calcul de distances Trois proc dures s par es sont propos es dans le classeur Excel la proc dure DisEuc pour le calcul des distances euclidiennes usuelles la proc dure DisKi2 pour le calc
43. 100 25 0 0 33 0 7 20 0 15 0 15 129 0 100 0 0 0 0 0 0 25 0 24 0 66 0 15 130 0 0 0 0 100 0 0 11 100 6 2 0 8 0 6 131 0 0 0 0 0 0 0 0 0 0 100 0 14 0 10 144 0 0 100 0 25 0 0 0 6 9 0 4 0 76 45 0 0 100 0 25 0 0 11 0 38 20 100 8 44 5 156 0 0 0 0 0 0 0 0 0 0 0 0 0 100 31 157 0 0 0 0 0 100 0 0 0 0 0 25 0 44 31 158 0 100 0 0 0 0 0 100 25 6 2 0 45 0 21 159 0 0 0 0 100 0 o 11 0 6 9 0 66 0 15 L60 100 0 0 25 0 0 100 100 0 6 9 0 6 38 0 163 0 100 0 0 0 100 0 0 25 0 24 25 66 44 0 166 0 0 0 0 100 100 0 33 0 17 36 25 14 17 1 168 0 0 0 0 0 0 0 0 0 0 0 100 0 44 31 Tableau 5 Donn es PHYTOS contributions des variables esp ces aux n uds de la hi rarchie du lien moyen Voyons maintenant l application des calculs de contributions la hi rarchie ascendante de la distance moyenne calcul e sur l indice de distance de Jaccard Comme dans le cas quantitatif seuls les niveaux sup rieurs de l arbre sont int ressants Cf figure 2 construite d apr s les r sultats du chapitre 4 PAcnl 26 27 29 31 PAcn2 25 PAn 20 PAC 30 Figure 2 Partie sup rieure de la hi rarchie de la distance moyenne Donn es PHYTOS distance de Jaccard Dans le tableau 5 la disposition est que les lignes repr sentent les variables esp ces tandis que les colonnes sont les noeuds successifs de la hi rarchie Pour le noeud 31 derni re colonne se d tachent les esp ces suivantes la contribution au n ud est entre parenth ses 117
44. 13 Paris Paris Foucart T 1982 Analyse factorielle Programmation sur micro ordinateur Masson Paris Gondran M 1975 Valeurs propres et vecteurs propres en classification hi rarchique Communication aux journ es d Etude sur les Probl mes d Analyse et d Ajustement de tableaux statistiques INSEE Nantes 23 25 Avril 1975 Goodall D W 1966 A new similarity index based on probability Biometrics 882 907 Guinochet M 1955 Logique et dynamique du peuplement v g tal 144p Masson Paris Guinochet M 1973 Phytosociologie 227p Masson Paris Hubert L 1973 Monotone invariant clustering procedures Psychometrika 30 1 Jaccard P 1908 Nouvelles recherches sur la distribution florale Bull Soc Vaud Sci Nat 44 223 270 Jambu M et Lebeaux M 0 1978 Classification automatique pour l Analyse des donn es Tome 1 M thodes et Algorithmes 312p Tome 2 Logiciels 400p Dunod Paris Jardine N and Sibson R 1971 Mathematical Taxonomy 286p Wiley and sons New York London Jardine C J Jardine N Sibson R 1967 The structure and construction of taxonomic hierarchies Mathematical Bioscience 175 195 Kendall M G 1938 A new measure of rank correlation Biometrika 30 1 2 81 93 Kochen M et Wong E 1962 Concerning the possibility of a cooperative information exchange IBM journal of Research and Development 6 270 271 Kulczinski S 1927 Die Pflanzenassoziationen der Pieninen En p
45. 159 1000 7 2479 3 7 82 380 488 50 1000 3 5879 3 10 688 85 85 142 1000 5 0286 3 11 218 131 634 17 1000 10 4145 3 T2 311 240 187 263 1000 1319 3 20 188 313 313 188 1000 1 3714 3 21 142 85 85 688 1000 5 0286 3 24 2 241 241 516 1000 7 4667 S 26 276 165 460 99 1000 6 0444 3 29 169 94 344 393 1000 6 7894 3 41 467 261 54 219 1000 2 4550 3 42 607 12 12 367 1000 1 7778 S 45 17 710 256 17 1000 9 9111 3 48 688 85 85 142 1000 5 0286 3 50 263 187 240 311 1000 1 3115 3 53 276 460 165 99 1000 6 0444 3 55 218 634 131 17 1000 10 4145 3 57 516 241 241 2 1000 2 8718 3 60 38 63 563 338 1000 1 7778 3 61 32 1 719 248 1000 9 1733 3 62 188 313 313 188 1000 0 0711 3 63 49 289 289 374 1000 6 0703 3 64 219 261 54 467 1000 2 4550 3 65 53 26 452 6 1000 5 1640 3 67 3317 562 62 37 1000 1 7778 3 68 540 165 18 276 1000 6 0444 3 69 187 313 313 187 1000 9 6000 3 70 99 165 460 276 1000 2 5905 3 71 142 85 85 687 1000 8 1231 3 72 142 85 85 688 1000 11 7333 3 75 276 460 165 99 1000 6 0444 3 TI 467 261 54 219 1000 2 4550 S T9 364 18 87 530 1000 7 3312 3 82 6 85 767 142 1000 11 7333 3 84 142 85 85 687 1000 8 1231 3 86 688 85 85 142 1000 5 0286 3 87 99 165 460 276 1000 2 5905 3 90 72 812 43 72 1000 9 9048 3 95 248 1 719 32 1000 9 1733 3 98 142 85 85 687 1000 8 1231 3 100 142 85 85 687 1000 8 1231 3 105 99 165 460 276 1000 2 5905 3 109 6 26 452 2517 1000 5 1640 3 112 99 165 460 276 1000 2 5905 S 113 276 18 165 540 1000 6 0444 3 114 72 813 43 72 1000 4 6222 3 116 17 634 1
46. 2n c d O 1 14 Sokal Sneath 3 1963 c d p q 2c 0 Infini 15 Sokal amp Sneath 4 1963 S1 c p c q D S2 d n p d n q S S1 S2 A 16 Sokal amp Sneath 5 1963 cd Rac pq n p n q 0 17 Roux 1 1985 D1 Min p a 0 D2 Min n p n q S c d D1 D2 18 Roux 2 1985 n cd pq n p n q 0 n 19 Hamann 1961 c d p c q c n 1 1 20 Yule 1911 N cd p c q c 1 1 D cd p c q c s N D 21 Phi de Pearson N cd p c q oc shy 1 D Rac pq n p n q S N D Tableau 2 Indices o les pr sences et les absences communes d attributs jouent des r les equivalents p nombre d attributs du 1 er objet q nombre d attributs du 2 me objet c nombre d attributs communs aux 2 objets d nombre d attributs absents simultan ment dans les 2 objets n nombre total d attributs possibles X xx k 1 2 n Rac racine carr e Min minimum Max maximum Remarque le coefficient Phi no 21 est gal au Khi 2 de contingence au coefficient 1 n pr s Note 10 L indice de Yule num ro 20 poss de l int ressante propri t d avoir un intervalle de variation s tendant de 1 1 m me lorsque p et q sont fix s cf remarque 4 paragraphe 2 1 Note 11 Les indices suivants ont des valeurs moyennes ind pendantes de p et q cf remarque 5 paragraphe 2 1 l indice num ro 15 a pour valeur moyenne 1 2 num rol
47. 31 218 1000 10 4145 3 117 142 85 85 688 1000 16 0000 3 120 3 210 210 578 1000 11 1238 3 125 142 85 85 687 1000 2 3467 3 126 99 165 460 276 1000 6 0444 3 129 134 9 723 134 1000 12 4444 3 130 99 460 165 276 1000 2 5905 3 dd 72 813 43 72 1000 16 0000 3 144 52 143 143 662 1000 12 5867 3 145 188 313 313 188 1000 3 2000 3 156 142 85 85 688 1000 5 0286 3 157 142 85 85 688 1000 5 0286 3 158 32 1 719 248 1000 9 1733 3 159 6 85 767 142 1000 11 7333 3 160 Dy GLE 313 5 1000 1 1214 S 163 338 3 622 2 1000 8 0356 3 166 613 188 188 13 1000 5 3333 3 168 142 85 85 688 1000 5 0286 3 Tableau 4 Donn es PHYTOS contribution des variables esp ces aux classes d une partition N17 N18 N19 N20 N21 N22 N23 N24 N25 N26 N27 N28 N29 N30 N31 1 0 100 0 0 100 0 0 11 25 6 2 0 8 100 5 2 0 0 100 0 25 0 0 33 100 17 y 0 21 0 35 5 100 100 0 25 0 0 0 O 25 0 24 0 29 0 10 7 0 0 0 100 100 0 100 11 0 6 9 100 29 3 2 10 0 0 100 0 25 0 o 11 0 38 20 0 8 0 6 TI 0 0 0 0 0 100 100 0 0 0 0 25 100 3 2 12 0 100 0 0 0 100 100 0 25 0 56 25 8 3 17 20 0 0 0 0 0 0 100 100 0 6 9 0 4 38 2 21 0 0 0 0 0 0 0 0 0 0 0 0 0 100 31 24 0 0 0 0 100 100 0 33 0 17 20 295 8 I4 35 26 100 0 0 25 0 0 0 0 0 0 0 100 59 44 5 29 0 100 0 0 0 0 100 0 25 100 22 0 14 38 24 41 0 100 0 100 0 100 100 0 25 100 22 25 0 3 5 42 0 0 100 100 295 0 100 33 100 17 7 0 2 38 6 45 0 0 0 0 0 0 100 100 100 6 22 0 14 38 1 48 0 0 100 0 25 0 0 33 0 17 20 0 8 0 6 50 100 0 100 25 25
48. 4 ITALY 1 1 ITALY 4 2 NIRELA 2 2 NIRELA 4 3 DENMAR 2 3 DENMAR 1 2 ICELAN 1 2 ICELAN 4 1 SCOTLA 1 2 SCOTLA 4 1 SPAIN oa SPAN 4 1 NORWAY 2 2 NORWAY 3 3 SIRELA 3 2 SIRELA 2 4 NETHER 2 3 NETHER 2 3 ENGLAN 2 2 ENGLAN 4 3 USA 1 2 USA 2 1 Tableau 1 gauche et tableau 2 droite Tableau 1 Partitions initiale P et finale P en trois classes R 0 51 P2 P2 1 2 2 3 4 1 1 2 4 3 3 4 4 3 2 2 1 1 1 1 4 2 1 4 4 4 3 1 4 4 4 4 2 4 3 4 4 1 Tableau 2 Partitions initiales P1 P2 P3 et P4 et finales P1 P2 P3 et P4 en quatre classes RI 0 8 R2 0 49 R3 0 75 R4 0 81 La partie encadr e en gras correspond aux trois meilleures partitions finales sur lesquelles sont bas es les formes fortes num r es dans le tableau 3 ci dessous L examen attentif des trois meilleures partitions montre que celles ci ressemblent beaucoup la bonne partition en trois classes obtenue pr c demment Elles s obtiennent par scission de l une des trois classes Ainsi P1 coupe en deux le groupe Europe Nord tandis que P3 subdivise le groupe M diterran e enfin P4 scinde encore le groupe Europe Nord mais d une mani re diff rente de PI Il est facile de d terminer la main les groupements stables ou formes fortes en rep rant les pays ayant la m me succession de num ros de classe travers les trois partitions retenues voir tableau 3 Ceci nou
49. 7 182 32 314 37 242 100 379 NETHERLA 89 7 169 10 218 47 133 142 68 ENGLANDW 79 10 130 14 203 36 200 141 65 USA 121 102 220 26 273 158 253 447 195 Tableau 1 Donn es PSYSOC avec les r sultats de l Analyse factorielle des Correspondances Les six premi res colonnes contiennent les taux de mortalit de diff rentes causes violentes de d c s dans 19 pays occidentaux en nombre de d c s pour 100 000 habitants Les trois derni res colonnes F1 F2 et F3 sont les coordonn es factorielles multipli es par 1000 des pays sur les trois premiers axes de l Analyse factorielle des Correspondances Tl 2 SUICIDES 3 4 AAUTR Bil AINDUS 6 4 7 AROUTE 8 9 CIRFOIE 10 11 12 T3 14 15 16 17 18 19 20 Figure 1 Donn es PSYSOC Analyse des correspondances repr sentation des variables sur les axes l et 2 Ces deux axes expliquent respectivement 44 33 et 34 41 de la variance totale 3 5 CIRFOIE 6 AROUTE 7 AINDUS 8 AAUTR Figure 1 bis Donn es PSYSOC Analyse des correspondances repr sentation des variables sur les axes 1 et 3 Ces deux axes expliquent respectivement 44 33 et 14 96 de la variance totale Sur le graphique des variables figure 1 l axe 1 oppose les homicides aux d c s par cirrhose du foie
50. 8 pum ro20 OQ num ro2 0 3 Cas des donn es quantitatives 3 1 Coefficients de corr lation La plupart des coefficients de corr lation ont t cr s avec l intention de mesurer la ressemblance entre caract res Pour valuer la similitude entre individus ils devraient tre employ s avec circonspection Dans ce qui suit x 1 j d signe la valeur de la j me variable pour l objet i Les formules donnent selon l usage la corr lation entre variables il faudrait intervertir les r les des indices 1 et j pour obtenir la corr lation entre observations Coefficient de Bravais Pearson usuel s j j Xi Ix i 3 m 3 Ix i j 7m 3 1 s 3 s 3 m j et m j d signent les moyennes des variables j et j s j et s j d signent les carts types des variables j et j s2 j Ej Ix i j m 5 1 n Coefficient de rangs de Spearman 1904 En supposant que pour chaque variable j les valeurs ont t rang es par ordre croissant on d signe par RG j le rang de l observation 1 pour la variable j Sip 35 9 165 Rx DER 3519 ee Q3 Coefficient de rangs de Kendall 1938 Dans ce coefficient il faut pour chaque variable j comparer deux deux toutes les observations On pose R i 45 1 si x3 gt x i j R i i 0 si x i j x i j R i i 1 si x i j lt x i j Str j 2 Ba RAG i Ry i i na n 1 Remarque L avantage des coefficients de rangs est qu ils
51. ALGORITHMES DE CLASSIFICATION Maurice ROUX Professeur m rite Universit Paul C zanne Marseille France Avertissement Cet ouvrage a t publi aux ditions Masson Paris en 1985 Il est maintenant puis et nous mettons en acc s libre la pr sente version lectronique corrig e et am lior e La premi re version de cet ouvrage comportait la fin de chaque chapitre des programmes en langage Basic Applesoft qui sont maintenant obsol tes Ces programmes ont t convertis en Visual Basic for Applications utilisables avec le tableur EXCEL Microsoft Ils sont r unis dans le classeur AnaDon xls associ un mode d emploi inclus dans le fichier AnaDon doc lisible avec le traitement de textes WORD Microsoft A la fin de chaque chapitre de l ouvrage figurent les noms des proc dures de ce classeur trait es dans le chapitre Marseille Juin 2006 ALGORITHMES DE CLASSIFICATION Table des mati res CHAPITRE 1 Introduction la classification 1 But de la classification 2 Probl mes et m thodes de la classification automatique 3 Objectifs et plan de l ouvrage 4 Domaines d application et points de vocabulaire CHAPITRE 2 Exemples de donn es 1 Psychologie et soci t Psysoc 2 Phytosociologie Phytos CHAPITRE 3 Pr paration des donn es Calcul des distances 1 G n ralit s 1 1 Donn es quantitatives exemple des causes de d c s Psysoc 1 2 Pr traitement par l
52. Potentilla aurea L 100 144 Sempervivum arachnoideum 76 72 Geum montanum 73 On a d j vu en effet que l esp ce 117 est absente du groupe PAc n ud 30 alors qu elle est pr sente partout ailleurs nceud 29 A l inverse l esp ce 144 est quasi exclusive du groupe PAc tandis que l esp ce 72 en est presque totalement absente Sautant le noeud 30 qui subdivise le groupe PAc on peut analyser de la m me fa on le n ud num ro 29 pour lequel ressortent les esp ces 11 Antemnaria divica 100 69 Gentiana nivalis 66 82 Homogyna alpina L Cass 66 95 Luzula sysicata L DC 66 129 Sapina glabra Willd Fewyl 66 159 Trifolium pratense L 66 165 Veronica alionci Vill 66 L esp ce 11 est totalement absente du groupe PAn n ud 20 alors qu elle est dans tous les relev s des groupes PAcnl et PAcn2 qui forment le noeud 27 Les esp ces 82 95 129 159 caract risent le groupe PAn bien qu elles n en soient pas exclusives L esp ce 165 est absente de ce groupe et pr sente dans la plupart des relev s du noeud 27 Enfin pour le n ud 27 qui s pare les deux groupes PAcnl n ud 26 et PAcn2 n ud 25 on rel ve les esp ces 55 Elyna sp 100 151 Salix herbacea 100 4 Proc dures de calculs Pour les contributions aux noeuds d une hi rarchie les proc dures CTRHqual et CTRHquan sont disponibles la premi re s applique des variables qualitatives et la seconde aux variables quantitatives Pour les contri
53. ages indiscutables Supposons que l on veuille par exemple construire une hi rarchie L une des mani res de bien poser le probl me pourrait tre de choisir un crit re valuant la fid lit de la repr sentation hi rarchique au tableau initial des donn es et de trouver ensuite un algorithme construisant la hi rarchie la meilleure au sens de ce crit re Malheureusement on ne sait pas faire cela sauf pour des chantillons tr s petits ou pour des crit res sans int r t La solution qui consiste examiner l ensemble de toutes les hi rarchies possibles pour en retenir la meilleure se heurte au mur de la complexit combinatoire Le nombre de hi rarchies croit en effet si vite avec le nombre d objets que m me avec de puissants ordinateurs il n est pas r aliste de vouloir les envisager toutes C est pourquoi l on a recours des heuristiques c est dire des algorithmes dont on consid re qu ils sont suffisamment raisonnables vous donner des r sultats satisfaisants Grossi rement on peut distinguer trois grands types parmi ces heuristiques Il y a d abord les algorithmes construisant une hi rarchie par agr gations successives d objets puis de groupes en fonction des distances entre objets ou groupes On les appelle Constructions ascendantes de hi rarchies en abr g CAH A l inverse les Constructions descendantes de hi rarchies en abr g CDH proc dent par dichotomies successives Dans celles ci l ensemble tout
54. analyse factorielle 1 3 Variables qualitatives et mixtes 2 Application aux exemples 2 1 Causes de d c s Psysoc 2 2 Phytosociologie Phytos 3 Les proc dures de calcul de distances CHAPITRE 4 La classification ascendante hi rarchique 1 G n ralit s Lbs 1 2 1 3 Comparaison des agr gations par le saut minimum et par le diam tre 2 Application aux exemples 2 1 Causes de d c s Psysoc 2 2 Phytosociologie Phytos Principe g n ral des constructions ascendantes Propri t s des formules l mentaires de recalcul 3 Les proc dures de constructions ascendantes de hi rarchies CHAPITRE 5 Agr gation autour de centres mobiles 1 Principes et probl mes 1 1 L algorithme des centres mobiles 1 2 Moment d ordre deux d une partition 1 3 Avantages et inconv nients de la m thode 2 Application l exemple Psysoc 2 1 Partition en trois classes 2 2 Partition en quatre classes 3 Les programmes de calcul de centres mobiles CHAPITRE 6 Hi rarchie du moment d ordre deux 1 Principe et probl mes 2 L algorithme des voisins r ciproques 3 Application l exemple Psysoc 4 Proc dure de calcul CHAPITRE 7 Classification descendante hi rarchique 1 Introduction 2 M thodes bas es sur une variable particuli re 2 1 Utilisation de l une des variables des donn es 2 2 Utilisation des variables principales ou axes factoriels 3 M thodes bas es sur des individus particuliers 3 1 S lec
55. ant elles commencent par le haut de l arbre c est dire par la partie sur laquelle repose essentiellement l interpr tation Malheureusement les simplifications drastiques qu elles exigent pour maintenir des temps de calcul raisonnables font que les r sultats obtenus sont souvent d cevants Cependant les dichotomies bas es sur des variables bien choisies ont l avantage d tre rapides et de fournir des interpr tations ais es Elles permettent donc de traiter facilement de tr s grands jeux de donn es avec peu de variables 7 Proc dure de calcul La proc dure CDHLM dans le classeur AnaDon xls r alise la construction descendante d crite au paragraphe 3 3 Chapitre 8 Aides pour l interpr tation des classifications Lorsque par l une des m thodes des chapitres pr c dents on a obtenu une classification des objets on souhaite en g n ral savoir quelles sont les variables responsables de tel ou tel regroupement C est ce probl me que l on va tudier dans le pr sent chapitre en s parant comme il se doit le cas de variables quantitatives de celui des variables qualitatives 1 Variables quantitatives On a vu au chapitre 5 quation 5 3 que le moment d ordre deux d un solide peut se d composer en moment intra classe et moment inter classe Ce dernier qui est ce qu on appelle le moment d ordre deux d une partition repr sente la dispersion des centres de gravit dans laquelle on tient compte des masses
56. aphe 2 Ce probl me peut en effet tre consid r comme la recherche de l ultram trique la plus proche de la m trique donn e Par proche nous entendons ressemblante au sens d un certain crit re donn l avance Malheureusement l ensemble des m triques n a pas la structure d un espace vectoriel et le sous ensemble des ultram triques ne peut donc pas avoir de propri t remarquable comme par exemple celle d tre un sous espace ou un convexe sous ensembles sur lesquels on sait abaisser une perpendiculaire Cependant nous verrons au paragraphe 2 que pour un crit re assez fruste Relation d ordre et pour une classe particuli re d ultram triques Ultram triques inf rieures il existe une solution optimale 2 Une ultram trique particuli re la sous dominante N B Dans ce paragraphe l abr viation J J S renvoie l article de Jardine C J Jardine N et Sibson R 1967 2 1 Relation d ordre sur les m triques D finition 1 J J S Soit un ensemble fini I muni de deux m triques d et d On dira que d est inf rieure d si pour tout couple de points i j I on a d 1 j lt d 1 j On v rifie facilement que c est une relation d ordre sur l ensemble des m triques sur I Remarque 1 Une m trique peut tre inf rieure une autre et avoir la m me ordonnance mais ce n est pas toujours le cas on peut avoir une m trique inf rieure une autre mais n ayant pas la m me ordonnance et l on peut avoi
57. aration des donn es traitement interpr tation des r sultats De plus il arrive souvent que l interpr tation fasse apparaitre des redondances de variables ou l h t rog n it de l chantillon ce qui am ne modifier le tableau initial et r it rer le processus complet Bien que chacune de ces phases que nous allons r examiner plus loin pose ses probl mes propres elles ne peuvent tre totalement dissoci es les unes des autres et elles doivent tenir compte de l objectif global Celui ci peut selon nous tre de deux sortes Ou bien le but est d obtenir une taxinomie de qualit ou bien la classification n est qu une tape pr liminaire destin e r duire la taille des donn es ou trouver des sous chantillons homog nes en vue de l application d une autre m thode statistique analyse factorielle r gression multiple Rappelons les principaux probl mes qui se posent et comment on peut les r soudre en fonction de ces objectifs globaux 1 Taxinomie de qualit Si l on recherche avant tout la qualit des r sultats on s orientera plut t vers la classification ascendante hi rarchique qu on pourra ventuellement am liorer apr s troncature par une agr gation autour de centres mobiles cf chapitre 9 1 1 Pr paration des donn es La pr paration consistera essentiellement calculer une distance entre les objets classer La formule retenir d pendra de la nature des donn es qualitatives
58. artitions de q en 2 classes ou bipartitions on dit qu une bipartition est induite par 1 et i tous deux l ments de q si elle est form e de la fa on suivante C 1 est le sous ensemble de q dont tous les l ments sont plus proches de i que de 1 et de fa on analogue C i a tous ses l ments plus proches de 1 que de 1 Le crit re pour d cider qu une classe q sera scind e en deux est bas sur la distance moyenne inter classe M qjui np E k CG kt e CG d kk Dans cette formule n et n d signent les effectifs des deux groupes C i et C 1 respectivement L algorithme se d roule comme suit a Mise l tat initial Au d but tous les objets appartiennent la m me classe b A chaque tape on a une partition Q de l ensemble des objets Pour toutes les classes q de Q d effectif sup rieur ou gal 2 on calcule le crit re Crit q Maxi q M q 1 1 c On subdivise la classe q qui maximise ce crit re Crit q Max q e Q Crit q d S il reste des classes 2 l ments ou plus on retourne en b sinon on arr te Dans une version pr c dente de ce travail Roux 1985 nous avions envisag un crit re de scission bas sur la variance des distances inter groupe comme Edwards and Cavalli Sforza 1965 ou Fages 1978 mais les r sultats obtenus taient de qualit moyenne et nous avons abandonn ce crit re A chaque scission cette facon de proc der conduit examiner au
59. butions aux classes d une partition on a de la m me fa on les proc dures CTRPqual et CTRPquan Chapitre 9 Pratique de la classification Sans chercher tre exhaustifs nous avons jusqu pr sent examin les m thodes typologiques les plus courantes En tudiant leurs principes et leurs propri t s on a not au passage que chacune d elles poss de souvent plusieurs variantes L utilisateur novice est donc confront un choix difficile qui doit tre subordonn la nature des donn es et l objectif qu il poursuit C est ce qu on examinera au paragraphe 1 En outre il est possible d utiliser successivement deux algorithmes l un affinant les r sultats de l autre De telles strat gies seront envisag es au paragraphe 2 Enfin quelques r gles l mentaires d interpr tation des r sultats seront tablies au paragraphe 3 et deux algorithmes auxiliaires seront d crits au paragraphe 4 1 Choix d un algorithme Le choix est faire entre quatre grandes m thodes hi rarchiques ascendantes trois agr gations l mentaires et l agr gation suivant le moment d ordre deux une m thode hi rarchique descendante et une m thode non hi rarchique dite agr gation autour de centres mobiles Dans la suite on d signera ces algorithmes par leur nom g n rique CAH pour les constructions ascendantes CDH pour la construction descendante et CENMOB pour la partition par agr gation autour de centres mobiles 1 1 Dimensions
60. che des classes naturelles dans le domaine tudi 2 Probl mes et m thodes de la classification automatique Dans cet ouvrage il sera beaucoup question d algorithmes Rappelons qu un algorithme est la description minutieuse de toutes les op rations effectuer pour obtenir la solution concr te d un probl me Ainsi on peut parler de l algorithme permettant de trouver la racine carr e d un nombre ou bien pour obtenir le plus grand commun diviseur de deux nombres entiers etc Il ne faut pas confondre algorithme et programme informatique il peut y avoir plusieurs fa ons de programmer un m me algorithme L un des plus grands classificateurs a sans aucun doute t le savant su dois Linn qui au 18 me si cle a tabli une classification du monde vivant en g n ral et du r gne v g tal en particulier classification encore en vigueur aujourd hui chez les sp cialistes des sciences naturelles La premi re moiti du 20 me si cle a vu un certain nombre de tentatives pour rationaliser le processus mental utilis par Linn Mais ce n est qu partir des ann es 1960 avec la diffusion de l informatique en milieu universitaire que sont apparus un grand nombre d algorithmes automatisant compl tement la construction des classifications Williams and Lambert 1959 Sokal and Sneath 1963 Cependant aujourd hui encore le support math matique de ces m thodes reste embryonnaire et ne permet pas d lire un algorithme aux avant
61. d ne sont pas ind pendants voir d but paragraphe 2 il ne s agit donc que d une sym trie d criture La plupart de ces indices d crits dans le tableau 2 s obtiennent partir de leur homologue colonne H du tableau pr c dent o d est introduit de facon naturelle Compte tenu que la valeur moyenne de d est gale n p n q n on en d duit facilement les valeurs moyennes de ces indices Nous signalerons dans la Note num ro 10 les valeurs remarquables de ces moyennes Voici quelques commentaires sur ces indices Note 6 Les trois premiers indices du tableau num ros 11 12 et 13 donnent la m me ordonnance car ils sont tous trois fonctions d croissantes de n c d Note 7 Nous avons construit les indices num ro 17 et 18 par analogie avec les formules num ro 8 et 9 du tableau 1 Note 8 La valeur maximum n de l indice num ro 18 est atteinte pour c d p q n 1 on suppose en effet que tout objet poss de au moins un attribut et au plus n 1 Note 9 Si s est l indice de Sokal et Michener num ro 11 et si s d signe le coefficient num ro 19 alors on a s 2s 1 Les propri t s de s se d duisent donc facilement de celles de s outre que ces deux coefficients ont m me ordonnance No Auteurs Formule Etendue TI Sokal amp Michener 1958 c d n 0 1 12 Sokal amp Sneath 1 1963 2 c dou d 0 13 Rogers amp Tanimoto 1960 c d
62. d sur I x I induit une ordonnance de la facon suivante i i j j si et seulement si d i i d j j Un tel pr ordre qui est alors total claire la remarque 3 deux paires d objets peuvent pr senter le m me niveau de dissemblance sans pour cela tre identiques Nous insistons sur cette notion d ordonnance car nous avons constat empiriquement et R N Shepard 1962 a montr que sa seule connaissance suffit g n ralement pour reconstruire le nuage donn une homoth tie pr s avec une approximation d autant meilleure que la dimension r elle du ph nom ne tudi est petite relativement au nombre d observations Autrement dit deux nuages de points ayant des ordonnances voisines auront des structures analogues m me si les valeurs respectives des distances sont assez diff rentes 2 Cas des donn es binaires Soient 1 et i deux objets quelconques de I ils sont repr sent s par deux vecteurs bool ens n composantes si n est le nombre total d attributs possibles i Xip X2 y hay Xa Lite Qt Xle aaar R a Pour tout k xx respectivement x ne peut valoir que 0 ou 1 suivant que le caract re k est pr sent ou absent chez l individu i respectivement 1 Dans la suite nous utiliserons les nombres suivants p EE x k 1 2 n q 2 xs Ke i 2 42 p respectivement q est donc le nombre d attributs poss d s par 1 respectivement 1 Nous appellerons c le nombre d attributs poss d
63. dans lequel on place les objets en bas d un arbre hi rarchique est assez arbitraire puisqu on peut faire pivoter un groupe sur lui m me autour de son noeud Autrement dit la proximit horizontale ne veut rien dire seuls les niveaux de liaison sont prendre en compte et ceux ci indiquent g n ralement des distances moyennes entre les groupes non entre les individus sauf aux niveaux inf rieurs 2 Classification en tant que pr traitement Le traitement de grands ensembles de donn es dans le but de r duire leur taille pose plut t moins de probl mes Il exclut toutes les m thodes n cessitant la gestion de la matrice des distances en m moire centrale Il ne reste donc que la classification ascendante hi rarchique du moment d ordre deux programm e selon la m thode des voisins r ciproques chapitre 6 ou bien l agr gation autour de centres mobiles chapitre 5 Toutefois un arbre hi rarchique portant sur des milliers d individus est difficile examiner et interpr ter La m thode de choix est donc l agr gation autour de centres mobiles 2 1 Pr paration des donn es Les deux m thodes envisageables traitent exclusivement des donn es quantitatives Si l on a des donn es qualitatives on devra donc obligatoirement passer par l nterm diaire de l Analyse factorielle des correspondances sur le tableau des donn es transform es en 0 1 cette analyse r alise en effet une sorte de quantification des donn es sur les
64. des donn es Le lecteur aura d j remarqu que certains algorithmes n cessitent une taille de m moire centrale plus importante que d autres contrainte qui est primordiale lorsqu on travaille sur un micro ordinateur Deux cat gories d algorithmes se distinguent ais ment ce sujet d une part ceux qui manipulent des distances les trois CAH l mentaires et CDH d autre part ceux qui travaillent directement sur les donn es brutes la CAH du moment d ordre 2 et CENMOB Les premiers g rent la matrice des distances en m moire centrale tandis que les seconds travaillent sur le tableau des donn es brutes L avantage va en g n ral aux seconds En effet supposons que l on ait un tableau de donn es ayant 200 individus et 15 variables ce qui est une disposition assez commune Le tableau des donn es occupera donc 200 15 3000 cases tandis que le tableau des distances n cessiterait 200 199 2 19900 cases En revanche si le nombre des variables est lev alors les algorithmes travaillant sur les distances sont sup rieurs Dans la version actuelle des proc dures Excel Juin 2006 la programmation est faite de mani re pouvoir occuper toute la m moire vive disponible Toutefois il est bon de savoir qu il y a des limites la dimension des tableaux que l on peut traiter En fait les programmes du type centres mobiles pourraient accepter des dimensions encore plus grandes avec des modifications mineures Il suffirait de ne pas
65. deux groupes De m me si deux points appartiennent au m me groupe s ou leur distance est inchang e Si i s et si i s leur distance avant agr gation est la m me que la distance d s s entre les deux groupes et elle est encore inchang e apr s agr gation Examinons le cas d un point u n appartenant ni s ni s et sa distance d u i un point i des Soit i un troisi me point appartenant s d tant ultram trique deux cas sont alors possibles triangles isoc les remarque 2 ci dessus Cas 1 d u i d u i gt di 1 Par hypoth se de r currence on a d u i lt d u i et d u i lt d u i donc d u i lt Min d amp a u i d amp a u i d u i Cas 2 d u i d i i gt d u i et le cas analogue d u i d i i gt du i Par hypoth se de r currence on a d i i d 1 1 et dia 1 1 d s s Or si on fusionne s et s c est parce que la distance entre ces deux groupes est la plus petite des distances intergroupes donc d s s lt d s s daa u i d o d u i d i i Min d amp a u i da amp a u i d amp u i Ainsi la propri t d lt d est vraie Mais comme d est la plus grande des ultram tr ques inf rieures 6 dk lt d ce qui entra ne dk d BIBLIOGRAPHIE Anderberg M R 1973 Cluster analysis for applications 359p Academic Press New York London Benz cri J
66. du Moment d ordre 2 Chapitre 7 Construction descendante d une hi rarchie 1 Introduction Les algorithmes de construction hi rarchique par agglom rations successives ou Constructions ascendantes hi rarchiques CAH sont juste titre les plus couramment utilis s Ils sont en effet rapides et l exp rience montre qu ils fournissent des r sultats coh rents Cependant leur mode de fonctionnement par agr gations successives partir des objets simples sugg re que les n uds les plus lev s de la hi rarchie sont probablement peu repr sentatifs Malheureusement c est g n ralement sur eux que repose l interpr tation des r sultats en effet l utilisateur interpr te habituellement la hi rarchie obtenue en examinant l arbre r duit ses seules branches principales Les m thodes bas es sur des dichotomies successives ou Constructions descendantes hi rarchiques CDH seraient plus satisfaisantes cet gard Ces m thodes partent de l ensemble entier de tous les objets celui ci est scind en deux parties qui sont leur tour scind es en deux etc jusqu ce que tous les sous ensembles obtenus soient r duits un objet unique Cependant ce type d algorithmes a eu peu de succ s jusqu pr sent cause des inconv nients majeurs qu il pr sente En effet pour obtenir de bons r sultats il faudrait examiner chaque tape toutes les dichotomies possibles pour n en retenir qu une celle qui optimise un crit re f
67. e ci constitue un ensemble de majorants d i i ie I i e 1 La famille des ultram triques inf rieures 5 est donc une famille born e Cette famille a donc une enveloppe sup rieure qui sera appel e ultram trique sous dominante de 6 ou plus bri vement la sous dominante de Proposition La construction ascendante hi rarchique du saut minimum fournit la sous dominante Nous reprenons ici la d monstration de Benz cri 1973 On appelle encore la distance initiale et d sa sous dominante On d signe par di dr dx les tats successifs de la distance d en cours de construction n tant le nombre d l ments de l ensemble I classer au d but ona d 6 Au pas h de l algorithme on suppose qu on forme le groupe a par fusion des deux groupes s et s A chaque pas de la construction le recalcul des distances fait que les nouvelles distances sont soit gales soit inf rieures aux distances de l tape pr c dente Par cons quent l ultram trique finale d est inf rieure la distance initiale L ultram trique construite est donc bien inf rieure 0 On va montrer maintenant par r currence que l ultram trique inf rieure maxima d est inf rieure l ultram trique construite par le saut minimum Au d but de l algorithme d lt d 8 On va donc montrer que si d lt ds1 alors d lt dy Si deux points n appartiennent ni s ni s alors leur distance n est pas modifi e par la fusion de ces
68. e classification usuelles D autre part certains auteurs pr f rent parler en termes de ressemblance et utilisent cette fin un indice de similitude s similarity index qui devra satisfaire des conditions analogues celles de d 1 Vier SE digas 2p M EL BST wed qc mute Smax est la valeur maximum que peut prendre s Smax Sup s i i ie i T elle d pend de la formule retenue vaut g n ralement 1 mais peut tre parfois infiniment grande Supposons s d fini sur I x I Si pour tout i et tout 1 de Ion pose de es eis a3 alors d sera un indice de distance Dans ce cas se donner l un ou l autre des types de mesure est quivalent puisqu on passe facilement de l un l autre Remarque 1 Certains auteurs n imposent pas la condition 1 c est dire que l on peut avoir s i 1 lt Smax ainsi que s i i s j j si i j D finition Sera reprise l annexe 2 Une ordonnance sur I est une relation de pr ordre sur Ix que l on notera lt On aura donc 1 r flexivit V i 1 l i i lt i i 2 transitivit i i j j et j j lt k k gt i i lt k k Remarque 2 Ce pr ordre peut tre non total c est dire que certaines paires peuvent ne pas tre comparables certaines autres Remarque 3 S agissant d un pr ordre on n a pas n cessairement i i 5 j et 3 j s 1 1 gt 3 3 1 1 Remarque 4 Un indice de distance
69. e hi rarchie Pour aider au d pouillement d une hi rarchie on dresse un tableau variables n uds donnant les contributions CTR j n de la variable j l cart entre les deux classes formant le n ud n La formule 8 4 fournit encore les valeurs cherch es mais l indice k n y peut prendre que deux valeurs correspondant aux deux classes en question L indice repr sente comme pr c demment les classes de la variable consid r e Et les effectifs ne prennent en compte que les objets appartenant au n ud n CTR j n Xe an bn Miei Cr ex ea m e ea m Dans cette formule an bn d signe l ensemble deux l ments form de l a n et du benjamin du n ud n Il faut aussi prendre garde que l effectif m est ici le nombre d objets impliqu s dans le nceud n et non l effectif total de tous les objets tudi s 3 Application aux exemples 3 1 Donn es PSYSOC quantitatives On a effectu les calculs de contributions en utilisant d abord la partition en trois classes que nous connaissons bien Classe 1 AUSTRI FRANCE WGERMA ITALY SPAIN PORTUG Classe 2 BELGIU SWEDEN SCOTLA NETHER ENGLAN ICELAN NORWAY SIRELA F INLAN SWITZE DENMAR lasse 3 NIRELA USA Il faut noter en passant que la fa on dont cette partition a t obtenue importe peu on recherche simplement quelles sont les variables initiales le
70. e pr sentent les distances Ainsi en commen ant par les plus petites d entre elles on a dans le premier cas distance du Khi deux sur donn es brutes d WGERMA AUSTR lt d NETHER ENGLAND lt d NORW SCOTL d ICELAN NORW 117 128 152 159 Dans le deuxi me cas distance euclidienne sur trois facteurs d WGERMA AUSTR lt d NETHER ENGLAND lt d ICELAN NORW lt d NORW SCOTL 54 67 119 145 L ordre des distances est approximativement le m me AUST FRAN PORT WGER BELG FINL SWED SWIT ITAL NIRE DENM ICEL FRANCE 361 PORTUG 388 440 WGERMA T17 322 412 BELGIU 322 347 510 338 FINLAN 570 638 882 565 417 SWEDEN 430 384 702 395 268 274 SWITZE 319 501 670 315 304 295 265 ITALY 438 453 222 456 630 968 770 749 NIRELA 1179 1184 1196 1208 1084 1079 1134 1184 1287 DENMAR 444 604 769 406 422 341 342 176 858 1267 ICELAN 717 664 909 745 443 435 451 574 1006 1094 675 SCOTLA 565 472 730 588 308 418 339 495 815 982 620 227 SPAIN 420 302 329 428 548 872 652 689 212 1260 812 874 NORWAY 610 538 829 627 363 356 318 474 904 1088 586 159 SIRELA 684 646 804 745 473 613 581 663 884 1044 808 288 NETHER 464 51 3 643 498 179 387 349 370 779 1048 476 332 ENGLAN 486 520 702 521 229 315 313 364 813 999 486 266 USA 658 731 730 683 663 717 720 TES 806 560 805 857 SCOT SPAI NORW SIRE NETH ENGL
71. e voisins r ciproques au lieu de la seule paire qui pr sente la plus petite distance On r duit ainsi le nombre d tapes accomplir et surtout on diminue consid rablement le nombre des distances recalculer Pour montrer la l gitimit de cet algorithme il suffit de montrer que dans l algorithme usuel les agglom rations successives de niveau inf rieur la distance qui s pare deux voisins r ciproques ne modifient pas la propri t de ces deux points d tre l un pour l autre le plus proche voisin Soient k et k une paire de voisins r ciproques et i et i la paire fusionner l tape consid r e Il n est pas possible d avoir agr ger i et k par exemple car d i k gt d k k donc d i k n est pas la plus petite des distances En supposant que la formule de recalcul satisfait la condition 6 3 on a apr s fusion d iUi k Min d i k d i k mais comme k et k sont voisins r ciproques on a il en r sulte que d k k d iUi k on montrerait de m me que diy kt y Qm deny Autrement dit la cr ation du groupe iUi ne change pas le fait que d k k est la plus petite des longueurs des segments issus de k ou de k Ainsi au fur et mesure que se d roule l algorithme l mentaire les niveaux d agr gation augmentent jusqu ce que d k k soit son tour la plus petite des distances En r sum la hi rarchie du moment d ordre deux peut se calculer en suivant l algorithme
72. efficient of divergence for use with multiple characters Copeia 2 61 64 Cramer P J 1946 Mathematical methods of statistics 575p Princeton University press Princeton Czekanowski J 1932 Coefficient of racial likeness und durchschnittliche differens Anthrop Anz 9 227 249 De Lagarde J 1983 Initiation l analyse des donn es 158p Dunod Paris De Rham C 1980 La classification hi rarchique selon la m thode des voisins r ciproques Cah Ana des donn es vol V no 2 135 144 Dice L R 1945 Measures of the amount of ecologic association between species Ecology 26 297 302 Diday E Lemaire J Pouget J Testu F 1982 El ments d analyse des donn es 462 p Dunod Paris Diday E 1971 La m thode des nu es dynamiques Rev Stat appliqu e vol XIX no 2 19 34 Edwards A W F and Cavalli Sforza L L 1965 A method for cluster analysis Biometrics 21 362 375 Escofier B et J Pag s 1990 Analyses factorielles simples et multiples 2 me dition Dunod Paris 266 p Estabrook G F 1967 An information theory model for character analysis Taxon 16 86 97 Everitt B 1974 Cluster analysis 122 p Heinemann Educational Books London Fages R 1978 La notion de dispersion en classification automatique Communication aux Journ es de Statistique Nice 22 26 Mai 1978 F nelon J P 1981 Qu est ce que l analyse des donn es 311 p Ed Lefonen 26 rue des Cordeli res 750
73. entres mobiles Examinons ce que devient le moment intra classe W au cours du d roulement de l algorithme Dans la phase de r affectation des objets appelons q la classe reconstitu e autour du centre de gravit g de l ancienne classe q W geo Die q mi d i Ja Appelons S la valeur de W apr s r affectation des points i au centre de gravit le plus proche S sqeo sie gt mi Q i gg Soit 1 un l ment de la classe q Si 1 n a pas chang de classe sa contribution au moment intra classe reste la m me Mais s il provient d une autre classe q alors c est qu il est plus proche de g que de gy donc d i g lt d i gy et sa contribution S est inf rieure celle qu il avait dans W Il en r sulte que S W Remarquons que S n est plus la somme des moments centr s puisque les g ne sont plus les centres de gravit des classes q Consid rons alors la valeur W du moment intra classe de la nouvelle partition W Ygeo0 Die aq mi A i ge Cette fois on prend en compte les moments centr s qui sont d apr s le th or me de Huyghens inf rieurs aux moments non centr s Donc W S Il en r sulte qu la fin de cette tape le moment intra classe W est inf rieur ce qu il tait la fin de l tape pr c dente et la nouvelle partition est donc meilleure que la partition pr c dente Cela ne veut pas dire pour autant que la partition finale de l algorithme des centres mobiles soit la meilleure partition possib
74. es sur l ensemble d observations initial Une telle hi rarchie peut avantageusement tre r sum e par un arbre hi rarchique figure 1 dont les n uds m n p q symbolisent les diverses subdivisions de l chantillon les l ments de ces subdivisions tant les objets a b c d e plac s l extr mit inf rieure des branches qui leur sont reli es Figure 1 Exemple d arbre hi rarchique portant sur cinq objets a b c d e Les points m n p q sont les n uds de l arbre Le trait horizontal mixte indique un niveau de troncature d finissant une partition en trois classes Le niveau des n uds qui est le plus souvent chiffr est sens indiquer un degr de ressemblance entre les objets correspondants Ainsi sur notre figure 1 les objets a et d se ressemblent plus que les objets c et e Remarquons en passant que si on coupe cet arbre un niveau interm diaire entre n et p on obtient une partition en trois classes de l ensemble tudi savoir les parties a d b fc e En faisant varier ce niveau de troncature on obtient les diverses partitions constituant la hi rarchie On voit qu il ne faut pas confondre classification et classement Dans un classement on affecte les objets des groupes pr tablis c est le but de l analyse discriminante que de fixer des r gles pour d terminer la classe des objets La classification est donc en quelque sorte le travail pr liminaire au classement savoir la recher
75. es o la pr sence des attributs joue un r le pr pond rant 2 2 Indices o les pr sences et absences d attributs jouent des r les quivalents 3 Cas des donnees quantitatives 3 1 Coefficients de corr lation 3 2 Mesures de distances 4 Conclusion ANNEXE 2 Hi rarchies et ultram triques 1 G n ralit s 1 1 Hi rarchie et ordonnance 1 2 Hi rarchie indic e et ultram trique 2 Une ultram trique particuli re la sous dominante 2 1 Relation d ordre sur les m triques 2 2 Ultram trique sous dominante d une m trique donn e BIBLIOGRAPHIE INDEX Chapitre 1 Introduction la classification 1 But de la classification Comme les autres m thodes de l Analyse des donn es dont elle fait partie la Classification a pour but d obtenir une repr sentation sch matique simple d un tableau rectangulaire de donn es dont les colonnes suivant l usage sont des descripteurs de l ensemble des observations plac es en lignes L objectif le plus simple d une classification est de r partir l chantillon en groupes d observations homog nes chaque groupe tant bien diff renci des autres Le plus souvent cependant cet objectif est plus raffin on veut en g n ral obtenir des sections l int rieur des groupes principaux puis des subdivisions plus petites de ces sections et ainsi de suite En bref on d sire avoir une hi rarchie c est dire une suite de partitions emboit es de plus en plus fin
76. es voisins r ciproques est bas sur la propri t suivante Soient i et i les deux objets ou groupes fusionn s une tape quelconque de l algorithme usuel et k un troisi me objet ou groupe d iUi k 2 Min d i k d i k 6 3 Cette criture revient dire que la formule de recalcul des distances est telle que toute distance recalcul e est plus grande que la plus petite de celles qu elle remplace Cette propri t est v rifi e par les trois formules l mentaires examin es au chapitre 4 Montrons que cela est encore vrai pour la formule 6 2 ci dessus En effet on remarque tout d abord que puisque i et i sont agr g s ona d i i d i k et d i i lt d i k Donc en rempla ant d i 1 par d i k ou par d i k on diminue la valeur de l expression de droite de 6 2 Supposons maintenant que d 1 k soit inf rieur ou gal d i k alors en rempla ant d i k par d 1 k le terme de droite dans 6 2 est rendu encore plus petit que sa vraie valeur mais ces deux remplacements rendent ce terme gal d i k qui est donc inf rieur ou gal d 1Ui k Il en serait de m me si d i k tait inf rieur d i k On montre que dans ce cas deux objets qui sont voisins r ciproques constituent n cessairement un n ud de la hi rarchie quelle que soit la distance qui les s pare On profite alors de cette observation pour agr ger chaque tape de l algoritnme toutes les paires d
77. ette strat gie apporte en outre un avantage suppl mentaire Elle transforme un grand nombre de variables qualitatives en un petit nombre d axes factoriels qui peuvent tre consid r s comme des variables quantitatives et par suite les quatre grands types d algorithmes sont applicables 3 Interpr tation des r sultats On a vu au chapitre 8 qu un certain nombre de calculs suppl mentaires facilitent l interpr tation des r sultats mais nous voulons parler ici d un autre probl me Il s agit du fait que quelles que soient les donn es les algorithmes de classification fournissent toujours une typologie On congoit pourtant que certains chantillons tr s homog nes pouvant tre consid r s comme issus d une population unique ne devraient pas donner lieu une taxinomie Dans le cas d une classification hi rarchique quelques r gles permettent a posteriori d estimer la classifiabilit des donn es Figures la et 1b Les deux formes d arbres extr mes en classification hi rarchique Deux formes d arbres extr mes peuvent se pr senter qui sont sch matis es dans les figures 1a et 1b ans le premier cas les deux objets les plus proches constituent le noyau auquel viennent se raccrocher progressivement tous les autres objets Dans le second cas au contraire se distinguent clairement des groupes bien individualis s reli s des niveaux lev s par rapport aux distances intra groupes L intuition sugg re que dans
78. gorithme est peu exigeant sur les propri t s de la distance initiale qui peut tre obtenue par des formules sp ciales cf annexe 1 ne satisfaisant pas forc ment aux axiomes usuels des distances 1 2 Propri t s des formules l mentaires de recalcul Propri t 1 Transformation monotone des distances initiales Soit d i 1 la distance initiale entre les objets i et i Une transformation monotone de ces distances est une modification de d que nous appellerons d qui conserve l ordre entre les distances C est dire que d r YS Og Se OE aay ESO n o En particulier toute fonction croissante de d a cette propri t Si l on applique une telle transformation aux distances initiales il est clair que l arbre hi rarchique va tre modifi Cependant dans le cas de l agr gation par le diam tre ou par le saut minimum les noeuds successifs vont regrouper les m mes objets tout au long de l algorithme Autrement dit les niveaux de regroupement changent mais la structure de l arbre hi rarchique est invariante Ceci relativise la question du choix de l indice de distance cf annexe 1 Cette propri t n est pas vraie pour l agr gation par la distance moyenne Propri t 2 Extr malit de la hi rarchie du saut minimum Lorsqu on a construit une hi rarchie par l un des trois proc d s ci dessus on peut en d duire une nouvelle valuation d de la distance entre deux objets i et i On d cide pour cela que la distance d i
79. hi deux ou Khi carr Lambert J M Lance G N Lerman I C Linn M trique distance voir ce mot Moment d ordre deux Moment inter classe Moment intra classe Niveau d agr gation Noeud C3 1 c3 3 a1 3 a1 c4 1 c4 1 3 c7 3 3 b c3 1 c5 1 3 c5 2 2 c1 c3 1 2 b c2 2 b c3 1 2 c2 1 c1 2 c4 c7 c4 3 a2 1 c8 2 C9 2 1 c9 4 c10 1 c 3 2 b c5 1 2 b a1 a1 c1 2 c3 1 2 C8 c10 1 C4 1 c7 4 C3 1 3 a1 2 b c4 1 c6 1 b a2 2 b C3 1 c3 2 c7 2 1 c8 3 c9 2 3 a1 3 2 C7 c8 2 a1 3 2 b ai 4 b c1 2 c5 1 c6 c8 1 c5 1 2 c6 c8 1 c5 1 2 c6 c8 1 c1 c4 c6 2 c9 2 1 c1 c4 c6 3 c7 22 Nu es dynamiques Voir Agr gations autour de Centres mobiles Ordonnance Ordre sur les distances Partition Choix d une partition initiale Interpr tation Obtenue par troncature Recherche d une partition Phi PHYTOS exemple de donn es Phytosociologie Pond ration des distances Psychologie PSYSOC exemple de donn es Recalcul des distances Roux G a1 1 a2 1 1 a2 2 1 c5 1 c5 2 1 C8 1 1 c8 2 1 C9 2 1 c10 1 c5 1 a1 2 c2 2 c3 2 2 c4 2 2 c7 5 2 c8 3 2 c2 2 c3 1 3 c3 2 2 b c4 1 1 c1 4 c2 1 C2 1 c3 1 1 c3 2 1 c4 2 1 c5 2 c6 3 c7 5 1 c8 3 1 C4 1 1 c4 1 2 c6 1 c6 2 c7 4 a2 2 2 c2 2 a1 2 1 b Roux M C3 1 2 c7 3 3 a1 2 2 a1 2 2 a2 1 2 b Segmentation c1 4 b s lection d objets c7 3 de va
80. ient d examiner d abord la colonne Khi deux pour d terminer les esp ces les plus importantes On remarque les esp ces suivantes valeur du Khi deux entre parenth ses 117 Potentilla aurea 16 131 Salix herbacea 16 144 Sempervivum arachnoideum 12 5867 129 Sagina glabra Wild 12 4444 72 Geum montanum 11 7333 82 Homogyne alpina 11 7333 159 Trifolium pratense L 11 7333 Un retour sur le tableau des donn es chapitre 2 nous permet de constater que l esp ce 117 est absente de la classe 4 et pr sente partout ailleurs Au contraire l esp ce 131 n est pr sente que dans la classe 2 Ceci confirme que le crit re bas sur le Khi deux attribue autant d importance l absence qu la pr sence d une esp ce L esp ce 144 est une caract ristique de la classe 4 quoiqu elle apparaisse une fois ailleurs De m me pour l esp ce 129 caract ristique du groupe 3 mais qui apparait une fois dans un autre relev le num ro 54 L esp ce 72 se distingue parce qu elle est pr sente partout sauf dans la classe 4 encore que l un des relev s de cette classe la poss de On pourrait continuer ainsi l examen des esp ces par ordre des coefficients de liaison d croissants On voit que ces calculs auxiliaires font clairement apparaitre les variables discriminant les diff rents groupes CL 1 CL 2 CL 3 CL 4 TOTAL KHI 2 D D L 1 38 63 563 338 1000 1 7778 3 2 64 16 458 462 1000 8 4148 3 5 159 58 624
81. ix l avance Mais la scission en deux d un groupe n objets demande l examen de anl bipartitions ce qui requiert des calculs prohibitifs comme l avaient d j remarqu Edwards et Cavalli Sforza d s 1965 sans fournir de solution M me si l examen d un aussi grand nombre de bipartitions tait techniquement r alisable la hi rarchie obtenue n optimiserait pas pour autant un crit re global d ajustement aux donn es mais les dichotomies ainsi obtenues pourraient sans doute tre plus facilement interpr tables Pour viter l examen exhaustif de toutes ces dichotomies les auteurs de tels algorithmes ont eu recours des simplifications que nous regroupons en trois grandes cat gories m thodes bas es sur le choix ou la construction d une variable particuli re m thodes bas es sur un ou plusieurs individus formant les embryons des sous ensembles m thodes bas es sur la th orie des graphes Bien que les m thodes utilisant la th orie des graphes soient tr s en vogue actuellement Juin 2006 elles n cessitent quelques d veloppements qui d passent le cadre de cet ouvrage Nous nous limiterons ici aux deux premi res cat gories de m thodes Un autre probl me ennuyeux r side dans le calcul des niveaux de jonction entre les branches de la hi rarchie selon la formule utilis e ces niveaux peuvent pr senter des inversions rendant impossible la repr sentation de l arbre hi rarchique associ la classificati
82. l pour cette variable en dessous de ce seuil les objets seraient rang s dans l une des sous classes au dessus de ce seuil les objets seraient affect s l autre sous classe Toutefois une telle proc dure pr senterait les m mes avantages et les m mes inconv nients que celle de Williams et Lambert 2 2 Utilisation des directions principales ou axes factoriels Plusieurs auteurs ont propos des m thodes de ce type citons par exemple Reinert 1983 Boley 1998 et Chavent et al 1999 Le principe g n ral consiste calculer pour les seuls objets de la classe C scinder la premi re direction principale de ce sous ensemble Cette direction est la premi re composante principale s il s agit de variables quantitatives continues ou bien le premier axe factoriel de l Analyse des Correspondances si les variables initiales sont qualitatives ou si elles repr sentent des comptages homog nes En g n ral les coordonn es des objets sur les directions principales sont centr es de sorte que l origine constitue le seuil naturel comme point de scission les objets de coordonn es n gatives sont mis dans l une des sous classes ceux de coordonn es positives sont affect s l autre sous classe Il est possible cependant d adopter une autre valeur seuil pour optimiser par exemple la variance inter classe Les r sultats obtenus par de telles m thodes sont videmment meilleurs que ceux de l algorithme de Williams et Lambert puis
83. lativement la dispersion de la classe c est dire la somme de ces quantit s pour toutes les variables la classe tant fix e Le second tableau d nomm contributions des classes aux variables fournit en pourcentages galement le rapport de la contribution la dispersion de chaque variable c est dire la somme des contributions pour toutes les classes et pour une variable fix e Si l on s int resse l interpr tation des classes c est donc le premier tableau qu il faudra examiner Au contraire si une ou plusieurs variables ont un r le important il vaudra mieux tudier le second tableau 1 2 Interpr tation d une hi rarchie Lorsqu on a tabli une hi rarchie sur un ensemble I d objets on d sire en g n ral savoir quelles sont les variables de l ensemble J d terminantes pour la formation de chaque n ud de l arbre Dans le cas de variables quantitatives comme pr c demment on examine le r le jou par chaque variable dans le carr de la distance d g g entre les centres de gravit des deux classes q et q constitutives de chaque n ud d Jar Ja X35 Gg 3 Jar 4 8 2 C est donc la quantit g j g j qu on appelle contribution de la variable j au n ud consid r Et le programme de calcul fournira un tableau dont les lignes sont les noeuds successifs de la hi rarchie et dont les colonnes repr sentent les variables Dans ce tableau les contributions seront rapport es le
84. le relativement aux classes Ainsi on peut dire que les Cirrhoses sont des taux tr s voisins les uns des autres pour les pays de la classe 1 alors que ces taux sont plus dispers s pour la classe 2 Autrement dit les taux lev s de Cirrhose sont beaucoup plus caract ristiques de la classe 1 que ne le sont les taux faibles pour la classe 2 Nous allons examiner maintenant la hi rarchie ascendante de la distance moyenne obtenue on prenant pour distance initiale la distance du Khi deux sur les donn es brutes Les contributions des variables aux noeuds de la hi rarchie sont d crites au tableau 3 dont les lignes repr sentent les n uds de la hi rarchie et dont les colonnes sont les variables SUI HOM ARO AIN AAU CIR 20 5 0 53 3 22 17 21 5 0 76 1 11 6 22 40 7 24 1 1 21 23 7 0 19 6 56 12 24 2 1 26 0 31 41 25 10 0 23 0 47 20 26 1 0 43 0 1 55 27 36 2 9 3 0 49 28 4 0 75 0 7 14 29 57 0 10 2 30 0 30 1 1 1 0 93 4 31 7 0 5 1 70 16 32 9 0 6 1 82 2 33 46 0 2 0 52 0 34 88 0 0 0 0 12 35 28 5 0 0 10 93 36 0 0 9 0 0 90 37 18 63 2 0 2 15 Tableau 3 Contribution des variables aux n uds de la Hi rarchie ascendante du lien moyen La difficult pour interpr ter ce tableau provient de ce qu il est n cessaire d identifier les noeuds Pour cela il faut se reporter la description de la hi rarchie telle qu elle figure au chapitre 4 En fait seuls les nceuds les plus hauts de la hi rarchie sont r ellement utiles c est pourquoi nous
85. le en k classes En effet la partition finale d pend de la partition initiale Une autre partition initiale peut donc donner une partition finale pour laquelle le crit re du moment d ordre deux soit encore meilleur On r sume cela en disant qu on obtient un optimum local du crit re et non un optimum absolu 1 3 Avantages et inconv nients de la m thode L algorithme des centres mobiles contrairement de nombreuses m thodes classificatoires a l avantage d optimiser un crit re simple de dispersion savoir le moment d ordre deux d une partition Cependant comme on vient de le voir on n a pas la certitude d obtenir un optimum absolu c est dire la meilleure solution L un des moyens g n ralement pr conis s cf Diday 1971 pour obtenir des r sultats valables est d ex cuter plusieurs fois l algorithme complet avec des partitions initiales diff rentes On peut alors retenir la partition finale associ e au moment intra classe le plus petit qui n est pas pour autant le minimum absolu ce que l on ne sait pas d terminer Cependant une autre strat gie est de proc der l examen des formes fortes Celles ci sont constitu es des sous ensembles d objets qui ont toujours t r unis dans la m me classe finale au cours des diff rents essais de partitions initiales Ces formes fortes repr sentent donc des groupes homog nes et mettent en relief les objets d attribution ind cise qui n appartiennent aucune forme forte L tude
86. le pour laquelle la somme de ses Khi deux est maximum La m thode de Williams et Lambert est bien adapt e au traitement de tableaux pr sentant un grand nombre d observations et peu de variables qualitatives ou questions La table des Khi deux de contingence entre variables est alors rapide obtenir par comparaison au temps qu il faudrait pour calculer par exemple la matrice de Jaccard relative aux individus En outre chaque noeud de la hi rarchie est attach par construction le nom d une variable ce qui facilite l interpr tation tous les individus associ s une m me branche r pondent de la m me fagon toutes les questions variables qui ont abouti la cr ation de cette branche Malheureusement les r sultats sont en g n ral grossiers Cela tient au fait que les groupes d individus se d finissent rarement par leurs r ponses strictement identiques une s rie de questions mais bien plutot par un pourcentage lev de r ponses semblables sur l ensemble des questions Notons encore que les niveaux des n uds de la hi rarchie ne sont plus d finis que par l ordre dans lequel ils apparaissent et il n est pas naturel de leur associer un indice montrant la coh sion du groupe d objets associ s ce n ud On pourrait imaginer un programme semblable travaillant sur des variables quantitatives Il y faudrait ajouter une tape suppl mentaire une fois choisie la variable de scission il faudrait choisir une valeur seui
87. les diff rents types d accidents tant en position interm diaire On peut donc interpr ter cet axe comme celui de l agressivit de la soci t Le second axe est d interpr tation plus difficile Outre qu il temoigne d un l ger effet Guttman disposition en forme de croissant cf Benz cri 1980 Volle 1978 il isole principalement les homicides ceux ci tant massivement le fait de deux pays seulement l Irlande du Nord et les USA figure 2 Enfin le 3 me axe figure 1 bis tablit une distinction entre la mort donn e volontairement suicides et homicides du cot positif de l axe et les d c s accidentels ICELAND DENMARK FINLAND NORWAY NETHERL ENGLAND 1 2 3 4 5 6 BELGIU SCOTLAND 7 WGERMANY SIRELAND 8 AUSTRIA 9 FRANCE 10 11 SPAIN 12 13 ITALY PORTUGAL 14 15 16 17 USA 18 19 20 2 NIREL Figure 2 Donn es PSYSOC Analyse des correspondances repr sentation des pays sur les axes 1 et 2 Ces deux axes expliquent respectivement 44 33 et 34 41 de la variance totale 1 DENMARK 2 3 4 SWITZER USA FINLAND 5 WGERMANY 6 AUSTRIA 7 SWEDEN NIREL 8 9 PORTUGAL BELGIUM NETHERLANDS 10 ITALY FRANCE Tj NORWAY 12 SPAIN SCOTLAND 13 ICELAND 14 35 SIRELAND Figure 2 bis Donn es PSYSOC Analyse des correspondances repr sentation des pays sur les axe
88. lit s 1 1 Hi rarchie et ordonnance D finition 1 Benz cri 1966 Soit I un ensemble fini et H un ensemble de parties de J Nous dirons que H est une hi rarchie sur I si 1 IEH 2 Pour tout ie I ona i eH 3 Quels que soient h et h l ments de H si h N h alors on a soit h Ee ht sort bY EA Un couple LH form d un ensemble fini I et d une telle hi rarchie H peut tre repr sent comme un arbre dont les noeuds traits horizontaux symbolisent les diverses parties appartenant H ainsi l arbre ci dessous correspond la hi rarchie H form e des parties suivantes hl 1 7 h2 27 ASS 43 r7 h4 2 4 AS 15 h6 2 5 h7 4 3 K8 2 3 4 St oF NOH ql 2 Se Ay S E 1 2 3 4 5 Figure 1 Exemple simple de hi rarchie D finition 2 Benz cri 1966 Un ensemble I est dit muni d une ordonnance s il existe une relation d ordre total sur les paires d l ments de I C est dire que quels que soient les l ments 1 j k 1 de I l une ou l autre des expressions suivantes est vraie i j lt k 1 k 1 lt i j i j k 1 Nous pr f rons distinguer l galit du cas o une paire est effectivement diff rente de l autre tant entendu que la derni re des relations ci dessus signifie non pas que les deux paires sont constitu es des m mes l ments mais que les l ments qui les constituent se ressemblent autant dans la premi re paire que dans la
89. mom2 CDH CENMOB Centre de gravit Centres mobiles Voir agr gation Chi deux Voir Khi deux Construction ascendante hi rarchique Construction descendante hi rarchique Contributions Corr lation De Bravais Pearson De rangs Spearman De rangs Kendall Cram r CTRHqual CTRHquan CTRPqual CTRPquan De Rham C DessArb Diam tre Dichotomies successives Diday E DisEuc DisKi2 DisJac Disjonctif tableau voir forme disjonctive Dispersion Distance s De Jaccard Du Khi deux c5 c10 C4 1 c9 3 C4 1 c9 3 C4 1 c9 3 c6 c9 3 ci c4 c2 c3 1 2 c3 1 2 c3 1 2 C2 1 c2 2 c3 2 c6 a2 1 b a2 1 b c4 3 c9 1 c6 4 c9 1 c7 c9 1 c5 3 c9 1 c5 c6 1 c9 2 c9 3 c4 c9 c10 c7 c8 2 a1 3 a1 3 1 b a1 3 1 b c8 2 b c8 4 c8 4 c8 4 c8 4 c6 2 c9 1 4 b c4 3 c4 1 c1 c7 c5 1 3 b c3 3 c3 3 c9 1 2 c3 3 c9 1 2 c5 1 c6 1 c3 2 2 c3 2 2 a1 3 Euclidienne Indices de distances Recalcul des distances Ultram trique Voir ultram trique Effet de chaine Fages R Forme disjonctive compl te donn es sous Formes fortes Foucart T Guinochet M Guittonneau G G Guttman L effet Heuristique Hi rarchie Construction ascendante Construction descendante Dessin Indic e Interpr tation Troncature Hubert L Huyghens C Indices de distances Indices de similitude Informatique Interpr tation aides Inversion dans une hi rarchie Jaccard P Jambu M Jardine N K
90. mparis Hautes Alpes France Les num ros des relev s sont crits en colonnes sur les deux premieres lignes On porte l intersection de la ligne 1 et de la colonne j un 1 si l esp ce 1 est pr sente dans le relev j et un z ro dans le cas contraire On note parfois un coefficient d abondance au lieu de la simple pr sence absence toutefois dans notre exemple nous ne prenons en compte que cette derni re Le tableau 2 recense 66 esp ces dans un ensemble de 16 relev s Ces donn es sont extraites d un ensemble plus vaste de 55 relev s effectu s sur le plateau d Emparis 2200 m d altitude Hautes Alpes par G Roux et d j analys par ailleurs Cf chapitres Alpes I et II dans Benz cri et coll 1973 a Pour r duire la taille du tableau on a en outre limin une trentaine d esp ces qui n taient pr sentes qu une seule fois et dont le r le est donc minime L objectif de cette tude est de v rifier le bien fond de la classification des pelouses nard du nom de l esp ce dominante que nous avions obtenue pr c demment sans les dissocier des autres relev s Celle ci s tablissait ainsi Sigles des groupements Relev s Noms des groupements Pan L5 l5 Nardetum alpigenum Pacnl 3 4 L4 16 24 Festucetum halleri Sunass Nardetosum Pacn2 105 54 55 Festucetum halleri Subass Nardetosum Faci s Elyna et Salix Pac Zi 305 Sly 36 39 Festucetum halleri Se
91. n avons reconstruit que la partie sup rieure de l arbre avec les num ros des noeuds figure 1 Classe 1 36 37 Classe 2 34 Classe 2 Classe 3 35 Figure 1 Partie sup rieure de l arbre hi rarchique de la distance moyenne Donn es PSYSOC distance du Khi 2 sur donn es brutes Dans cette figure on a dissoci la classe 2 en ses deux sous classes Classe 2 FINLAN SWEDEN SWITZE DENMAR Classe 2 BELGIU NETHER ENGLAN ICELAN SCOTLA NORWAY SIRELA Examinons d abord le dernier noeud 37 qui relie la classe 3 NIRELA et USA aux deux autres La derni re ligne du tableau 3 montre clairement que ce sont les Homicides qui d partagent ces deux groupes de pays Le nceud 36 relie la classe 1 et la classe 2 Il est caract ris par la variable Cirrhose du foie qui explique 90 de la dispersion interclasse Ces renseignements ne font que confirmer ceux que nous avions d j recueillis par l observation des contributions aux classes de la partition Mais on peut continuer avec l examen des n uds suivants En particulier le n ud 34 attire notre attention sur les deux sous classes 2 et 2 d crites ci dessus On voit que ce sont les Suicides qui cette fois ci permnettent de distinguer ces deux sous classes Un coup d oeil au tableau des donn es montre qu en effet les pays de la sous classe 2 ont des taux de suicides nettement plus lev s que la moyenne qui
92. nciennes Il existe heureusement une formule un peu plus compliqu e qui permet de faire cette mise jour donc de suivre de tr s pr s l algorithme l mentaire d crit au chapitre 4 d iUi k 1 m m mx d i k m m d i k m d i i 6 2 m est mis pour la somme m m mx des effectifs des trois groupes en pr sence L criture d iUi k d signe maintenant la pseudo distance c est dire l accroissement du moment intra classe qui r sulterait de la fusion ventuelle du groupe iUi que l on vient de former avec le groupe k Voir Benz cri 1973 pour une d monstration Cependant nous n utiliserons pas cette formule Nous pr f rons tudier ici un autre algorithme fournissant les m mes r sultats mais travaillant directement sur le tableau des donn es brutes supposer que celles ci soient quantitatives Ou mieux encore sur le tableau des coordonn es issues d une analyse factorielle ainsi qu on l a recommand au chapitre 5 Cet algorithme consiste tenir en m moire centrale le tableau rectangulaire des donn es puis au fur et mesure des agr gations remplacer les lignes des objets agr g s par une ligne contenant les coordonn es de leur centre de gravit L avantage de cette m thode est qu elle permet de traiter des ensembles d objets beaucoup plus importants que l algorithme l mentaire En effet lorsque les objets sont nombreux le nombre des variables est g n ralement
93. ndices de Jaccard num ro 2 Dice num ro 3 Sokal et Sneath 2 num ro 4 et Kulczinski 1 num ro 5 donnent la m me ordonnance Cf d finition de ce terme au paragraphe pr c dent Cela tient ce qu ils sont tous quatre fonctions d croissantes de p q c L indice de Jaccard par exemple peut s crire sous la forme s 1 p q c 1 on v rifiera que les trois autres indices cit s se mettent sous des formes analogues Rappelons que la structure de l arbre dans certaines classifications hi rarchiques ne d pend que de l ordonnance elles donnent donc les m mes r sultats avec ces quatre indices voir chapitre 4 paragraphe 1 2 Note 4 Dans l indice de Simpson num ro 8 comme dans tous les autres c a pour valeur minimum soit z ro si p q lt n soit p q n Min p q Dans le premier cas qui est fr quent dans de nombreuses disciplines comme l cologie v g tale ou animale l arch ologie etc l intervalle de variation lorsque p et q sont fix s est 0 1 Il est donc ind pendant de p et q ce qui n est pas le cas pour les autres indices en g n ral Note 5 Pour l indice de Kochen et Wong num ro 9 l esp rance math matique dans les conditions d crites au d but de ce paragraphe est constante mais les objets de faible poids sont avantag s 2 2 Indices o les pr sences et absences d attributs jouent des r les quivalents Le titre de ce paragraphe est un peu abusif car on sait que c et
94. nes d x y 1 d x z 2 1 d x t 3 3 d y z 1 1 d y t 2 3 d z t 1 2 x y Z t X y Z t Figure 2 Pour les m mes donn es o les points sont dispos s en cha ne gauche les CAH du saut minimum au centre et du diam tre droite donnent des r sultats radicalement diff rents Le premier groupe form est toujours xUy la distance 1 Dans l agr gation par le saut minimum ona d xUy z 1 1 d xUy t 2 3 tandis qu avec l agr gation par le diam tre d xUy z 2 1 d xUy t 3 3 Dans le premier cas on agr ge z xUy tandis que dans le second on agr ge z et t distants seulement de 1 2 La derni re tape consiste r unir tous les objets d o les graphiques ci dessus On remarque que l agr gation par le saut minimum a tendance craser les niveaux de liaison tandis que la m thode du diam tre les distend Avec le saut minimum on congoit que l on arrive rapprocher des points extr mement diff rents c est ce qu on appelle l effet de chaine 2 Application aux exemples 2 1 Causes de d c s PSYSOC On a appliqu la construction ascendante sur les deux matrices de distances entre pays calcul es au chapitre pr c dent La premi re tait obtenue en calculant la distance du Khi deux sur les donn es brutes tandis que la seconde provenait de la formule euclidienne usuelle appliqu e aux r sultats de l AFC Les deux r sultats voir figures 3 et 4 son
95. ns la valeur moyenne de chacun des indices consid r s Plus pr cis ment on supposera que tous les caract res retenus pour la composition du tableau de donn es sont quiprobables que p et q sont fix s et que l on tire toute paire d attributs ind pendamment l un de l autre Dans ces conditions il y a p n chances pour que 1 poss de l attribut k de m me il y a q n chances pour que i poss de k les deux tirages tant ind pendants il y a pq n chances pour que i et i poss dent k ensemble l esp rance math matique e m de c nombre d attributs en commun est donc pq n Voici donc ces formules assorties le cas ch ant de remarques ou de critiques elles sont toutes pr sent es sous forme d indices de similitude 2 1 Indices o la pr sence des attributs joue un role pr pond rant Le souci majeur des auteurs de ces formules a t comme on le voit sur le tableau 1 de pond rer le nombre c d attributs communs par les poids des deux objets consid r s c est dire les nombres totaux d attributs poss d s par l un et par l autre Les num ros figurant dans la colonne Note de ce tableau 1 renvoient aux remarques ci dessous La colonne Moyenne est calcul e comme l esp rance math matique dans les conditions suivantes les nombres p et q d attributs des deux objets sont fix s tous les attributs ont m me probabilit d apparition et ils sont ind pendants
96. ns Cet indice vaut z ro lorsque les deux observations sont tout fait identiques et un lorsqu elles n ont aucun attribut en commun Primitivement cet indice a t cr comme une mesure de ressemblance s C p q c 3 La ressemblance vaut z ro quand les deux observations n ont pas de caract res communs et un lorsqu elles sont identiques Mais nous pr f rons l expression sous forme de distance qui permet de n avoir qu un seul programme de classification pour travailler sur des donn es qualitatives ou quantitatives De nombreuses formules analogues sont donn es en Annexe 1 avec les remarques qu elles n cessitent Enfin dans le cas o les donn es contiennent un m lange de variables qualitatives et quantitatives il est encore possible de combiner des formules pour obtenir une expression de la distance entre observations voir annexe 1 Mais cette mani re de faire comporte tellement d arbitraire qu il vaut mieux dans ce cas d couper les variables quantitatives en classes de valeurs que l on consid re ensuite comme des modalit s On applique alors l AFC puis la classification sur les coordonn es factorielles 2 Application aux exemples 2 1 Causes de d c s PSYSOC Les donn es sur les causes des d c s d j examin es ci dessus paragraphe 1 1 sont constitu es de valeurs additives la somme des nombres d une ligne du tableau repr sente en effet pour un pays ce que E Todd appelle le taux de mortalit
97. nsu stricto Tableau 3 Donn es PHYTOS partition des 16 relev s en 4 classes appel es groupements Les noms des groupements sont tablis en fonction des esp ces caract ristiques Par exemple le dernier groupement est appel Festucetum halleri parce que son esp ce caract ristique est Festuca halleri Mais si chaque esp ce prise individuellement s accommode de terrains plus ou moins vari s les associations v g tales sont en g n ral caract ristiques de conditions d environnement tr s pr cises Cf Guinochet 1955 1973 R55 R54 R4 R10 R36 R27 R3 R13 R15 R14 O00 0 100145 NH 11 R16 12 R38 13 R23 16 R24 R30R31 Figure 3 Donn es Phytos Analyse des correspondances repr sentation des relev s sur les axes 1 horizontal et 2 vertical Ces deux axes expliquent repectivement 21 32 6 et14 53 6 de la variance totale Apr s Analyse factorielle des correspondances en examinant conjointement les deux plans factoriels form s des axes 1 2 et 1 3 figures 3 et 4 on reconnait l existence des groupements Pan 13 15 23 et Pac 27 30 31 36 38 aux deux extr mit s de l axe 1 La r alit des deux autres groupements est plus contestable La classification automatique confirmera t elle ou infirmera t elle cette partition R13 R38 R23 R15 R54 R27 R30 R36 R31 LU 30014 0N EA 10 R3 R55 11 R4 13 R16 R14 14 R10 16 R24 Figu
98. olonais r sum en allemand Bull Intern Acad Pol Sci Lett Cl Sci Math Nat B Sci Nat Suppl 2 57 203 Lance G N and W T Williams 1966 Computer programs for hierarchical polythetic classification Comput J 9 60 64 Lebart L Morineau A F nelon J P 1982 Traitement des donn es statistiques 518p Dunod Paris Lefebvre J 1983 Introduction aux analyses statistiques multidimensionnelles 275p Masson Paris Lerman I C 1970 Les bases de la classification automatique 117p Gauthier Villars Paris Lerman I C 1981 Classification et analyse ordinale des donn es 740p Dunod Paris Reinert M 1983 Une m thode de classification descendante hi rarchique Cahiers analyse des donn esd VIII 2 187 198 Roux G et Roux M 1967 A propos de quelques m thodes de classification en phytosociologie Rev Stat Appl vol XIV no 2 50 72 Roux M et Guittonneau G G 1977 Sur la taxinomie du genre Erodium Cah Ana des donn es vol IL no 1 97 113 Roux M 1985 Algorithmes de classification 151 p Masson Paris Roux M 1995 About divisive methods in hierarchical clustering In Data Science and Its Applications Y Escoufier C Hayashi B Fichet N Ohsumi E Diday Y Baba L Lebart Eds Acad Press Tokyo pp 101 106 Saporta G 1990 Probabilit s analyse des donn es et statistique Editions Technip Paris 493 p Sokal R R et Sneath P H A 1963 Principles of
99. on du coefficient de Dice pour les donn es binaires sous forme de distance Coefficient de divergence Clark 1952 qd i i 1 p X D j x i j x i j Ce coefficient varie entre 0 observations identiques et 1 Distance du Khi 2 Variables qualitatives ou effectifs Ici on change la d finition de D j D j x i j x i x i j x i x i somme des termes de la ligne i X j somme des termes de la colonne j w 3 ceu E X w j D j Particuli rement adapt e au cas des tableaux homog nes d effectifs ou de grandeurs additives voir exemple PSYSOC chapitre 2 la distance du Khi 2 impose une double pond ration sur les lignes et sur les colonnes du tableau des donn es 4 Conclusion Les formules de distances comme de similitudes sont tr s nombreuses mais il est d conseill de choisir une formule inusit e sans raison valable En ce qui concerne les donn es binaires qualitatives deux familles d indices se distinguent l int rieur desquelles le choix d une formule influe peu sur le r sultat de la classification D autres formules ont t propos es ailleurs qui font intervenir la notion de probabilit voir Goodall 1966 Lerman 1981 ou la th orie de l information voir Estabrook 1967 mais leur complication et le faible avantage qu elles apportent nous ont conduit les carter de cet inventaire ANNEXE 2 Hi rarchies et ultram triques 1 G n ra
100. on obtenue 2 M thodes bas es sur une variable particuli re Ces m thodes reposent sur le choix ou sur la construction d une variable que nous appellerons variable crit re Cette variable qui change chaque tape sert ensuite effectuer la dichotomie Supposons que l on veuille scinder la classe C en deux sous classes C et C Cette dichotomie se fera en mettant dans C tous les objets pr sentant pour la variable crit re une valeur inf rieure ou gale un certain seuil et de ranger dans C le reste des objets c est dire ceux dont la valeur est sup rieure au seuil choisi 2 1 Utilisation de l une des variables des donn es Le prototype de ce type d algorithme est la m thode de Williams et Lambert 1959 que nous d crivons maintenant Cette m thode est particuli rement rudimentaire N op rant que sur des variables qualitatives elle s lectionne l une des variables pour servir de crit re d affectation tous les objets pr sentant pour cette variable la m me modalit sont rang s dans la m me classe si les variables sont plus de deux modalit s le noeud correspondant aura plus de deux branches La variable retenue est celle qui dans la classe C scinder est la plus corr l e toutes les autres Comme il s agit de variables qualitatives la corr lation est mesur e par le Khi deux de contingence On calcule donc les Khi deux de contingence de toutes les variables prises deux deux et l on retient cel
101. ortalit calcul s pour 100 000 habitants Afin de juger du bien fond des classifications nous donnons ici les r sultats de l Analyse factorielle des correspondances de ce tableau Tableau 1 colonnes F1 F2 et F3 Les variables tant quantitatives on aurait pu appliquer galement l Analyse en composantes principales Toutefois l tude des profils des pays r alis e par la premi re nous parait mieux adapt e au sujet trait c est dire les taux de mortalit comme indicateurs de maladies sociales voir chapitre 3 pour un compl ment de justification Au demeurant les poids des lignes tant relativement comparables les r sultats des deux types d analyse factorielle sont assez voisins SUICI HOMIC AROUT AINDU AAUTR CIRFO F1 F2 F3 AUSTRIA 241 16 330 43 363 325 220 6 108 FRANCE 156 9 225 10 535 328 210 3 110 PORTUGAL 85 Lg 349 y 281 345 309 729 65 WGERMANY 210 12 230 21 298 269 245 17 149 BELGIU 156 10 260 13 367 144 95 cS FINLAND 251 26 180 29 387 55 258 270 178 SWEDEN 194 11 TSL 13 384 122 54 214 58 SWITZERL 225 9 195 26 276 128 15 Z2 211 ITALY 54 Ti 219 19 224 319 484 287 90 NIRELAND 40 136 215 18 320 43 727 691 48 DENMARK 241 6 168 11 230 107 21 289 334 ICELAND 101 5 179 23 380 9 328 283 241 SCOTLAND 82 15 155 18 342 59 215 109 203 SPAIN 40 4 136 17 237 225 392 178 183 NORWAY 104 6 138 22 346 41 234 250 176 SIRELAND 38
102. ous les mi De la sorte on peut se repr senter les observations comme un nuage mat riel I form des masses ponctuelles mi Son centre de gravit g a pour j me coordonn e x Gy 3 xy wx ARA e XI 7 M oum m m2 m est la masse totale du nuage Remarquons en passant que x g j n est autre que la moyenne de la variable j Le moment centr d ordre deux ou moment par rapport au centre de gravit est la quantit M I g m d 1 g m d 2 g m n 9 5 1 o d i g d signe le carr de la distance de i g Dans le cas de la distance euclidienne usuelle di g xls D x g 1 x 3 2 Kg 2 t 2 Rip eG pr Autrement dit le moment centr d ordre deux du nuage I s obtient comme la somme pour toutes les variables et tous les objets des carr s des carts la moyenne somme pond r e par les masses des objets C est une mesure de la dispersion des points du nuage En effet si les points sont tr s concentr s autour de leur centre de gravit le moment d ordre deux est faible il est grand dans le cas contraire D ailleurs la variance d une variable j qui est la mesure usuelle de la dispersion en statistique s crit var j m x 1 3 x g J m x n 3 x g 3 m C est la moyenne pond r e de la somme des carr s des carts pour la variable consid r e Au coefficient 1 m pr s le moment d ordre deux est donc une variance g n ralis e au cas de
103. que les axes factoriels synth tisent g n ralement plusieurs variables Elles sont efficaces pour le traitement du m me format de tableau nombreux individus mais peu de variables En effet si les variables sont nombreuses alors le temps de calcul n cessaire l extraction du premier axe s allonge rapidement Par ailleurs ces m thodes ne permettent pas d associer une variable chaque noeud de la hi rarchie puisque ceux ci sont d finis par une combinaison lin aire des variables initiales 3 M thodes bas es sur des individus particuliers 3 1 S lection d un point p riph rique m thode de McNaughton Smith et al 1964 Pour initier une dichotomie ces auteurs examinent la somme des distances de chaque objets tous les objets de sa propre classe Celui dont la somme des distances est maximum est supprim de sa classe et est pris comme embryon ou noyau d une nouvelle classe Appelons encore C la classe qui perd cet l ment et C la nouvelle classe La suite de l algorithme consiste transf rer un un certains l ments de C vers C de fagon optimiser un crit re local L article de McNaughton Smith et al ne donne aucune pr cision sur ce crit re mais on peut penser maximiser la variance interclasse pour les deux classes C et C ou bien la distance moyenne inter classe La proc dure de transfert est arr t e lorsque le crit re cesse de s am liorer 3 2 S lection de deux points p riph riques m thode de H
104. r aussi deux m triques de m me ordonnance sans qu elles soient comparables D finition 2 Soit un ensemble I fini muni d une famille dm m e M de m triques index e par M fini ou non Nous dirons que cette famille est born e si pour tous 1 1 e I il existe b i 1 tel que pour tout m e M d i i x bG 1 Il en r sulte imm diatement comme I est fini et que l ensemble des paires i 1 est fini aussi qu il existe b majorant de tous les d i 1 savoir le Max b i i 1 1 I D finition 3 Soit un ensemble fini I muni d une famille born e de m triques d m e Mj Nous appellerons enveloppe sup rieure de la famille l application de I x I dans R d finie pour tout i i Ix I par Ly 2 a gt sup dd iy a Lime M Proposition L enveloppe sup rieure d une famille born e d ultram triques sur un ensemble fini I est une ultram trique sur I 1 Les dm tant des m triques si i i on a pour tout m M dm i i 0 donc Sup d i i m eM 0 R ciproquement si l on a Sup d 1 1 m e Mj 0 comme les dm sont des applications positives cel entra ne que pour tout m e M d i 1 0 donc i i 2 On a pour tout m e M d i i dA 1 1 ce qui entraine Sup du i i m M Sup d i i me M 3 D montrons maintenant la relation ultram trique 1 du paragraphe 1 2 pour l enveloppe sup rieure La conclusion s crit Sup dn i i m M l
105. r gation autour de centres mobiles pour obtenir un ensemble de classes dont les centres de gravit sont alors utilis s comme donn es pour une classification hi rarchique D autre part une strat gie mixte employant conjointement analyse factorielle et classification donne souvent d excellents r sultats 2 1 Construction hi rarchique suivie des centres mobiles L objectif d une telle strat gie est d obtenir une partition de bonne qualit On a vu chapitre 5 que quelle que soit la partition de d part l algorithme des centres mobiles ne peut qu am liorer la valeur du moment inter classe Il est donc tentant de fournir cet algorithme une partition initiale labor e au lieu de la tirer au hasard Cela peut tre fait par l application pr alable d une CAH ou d une CDH En effet en coupant l arbre obtenu un endroit o la succession des niveaux d agr gation pr sente un saut important on obtient g n ralement une partition coh rente On peut m me si cela semble justifi modifier manuellement cette partition avant de l introduire dans un programme d agr gations autour de centres mobiles L examen soigneux de l arbre hi rarchique est n cessaire on pourra ventuellement essayer plusieurs variations autour de la partition obtenue par troncature 2 2 Centres mobiles suivis d une construction hi rarchique On a remarqu ci dessus paragraphe 1 que lorsque les dimensions du tableau des donn es sont importantes
106. ravit g de cette classe On peut donc appliquer le th or me de Huyghens pour le sous ensemble q M Ifg 24 M q gak med ga 9 que l on peut encore crire M I g X M q 94 M Q g 5 3 En effet la deuxi me somme issue du crochet n est autre que le moment centr d ordre deux du solide form par les centres de gravit g chacun d eux tant muni de la masse m car ce solide a son centre de gravit confondu avec le centre de gravit g de I L quation 5 3 repr sente la d composition de la dispersion totale en dispersion l int rieur des classes appel e intra classe et dispersion entre les classes ou inter classe On dit que le moment d ordre deux total est gal la somme des moments centr s de chacune des classes augment e du moment inter classe Cette quation est analogue celle de l Analyse de la variance dans le cas d une seule variable Il est vident qu une bonne classification doit rendre la dispersion intra classe aussi petite que possible pour fournir des classes homog nes La dispersion totale tant fix e par les donn es elles m mes il est quivalent de chercher une partition minimisant la dispersion intra classe ou rendant maximum la dispersion inter classe L une ou l autre de ces quantit s constitue le crit re du moment d ordre deux d une partition On en verra une application la construction ascendante hi rarchique dans le chapitre 6 Application l algorithme des c
107. re plus conforme ce qu un examen attentif de la matrice des distances permet d esp rer Mais dans le cas g n ral on sera presque toujours satisfait de la hi rarchie obtenue par agr gation suivant la distance moyenne La hi rarchie fournie par CAHmom2 est presque toujours tr s voisine dans sa structure de celle que donne CAHLM bien que les niveaux d agr gations soient fort diff rents L ordre de pr f rence ci dessus n implique pas qu il faille liminer la m thode d agr gation autour de centres mobiles On a vu en effet paragraphe 1 1 que pour certaines tailles de donn es c est la seule applicable D autre part en essayant un nombre suffisant de partitions initiales diff rentes on parvient des solutions satisfaisantes indiqu es par une valeur lev e du moment inter classe 1 4 Temps de calcul Du point de vue du temps de calcul la palme revient sans conteste au programme CAHMOM Ceci est du l emploi de l algorithme sp cial dit des voisins r ciproques Bien entendu cette m thode particuli re pourrait tre galement utilis e pour construire les hi rarchies l mentaires mais sa programmation serait un peu plus complexe cf De Rahm 1980 2 Strat gies Suivant la nature des donn es et l objectif atteindre on peut utiliser une des strat gies suivantes Classification hi rarchique tronqu e pour donner une partition servant de point de d part une agr gation autour de centres mobiles Ag
108. re 3 paragraphe 1 2 mais il nous parait souhaitable de rappeler ici l un d eux on relation avec la nature des donn es En effet lorsque celles ci comprennent un m lange de variables quantitatives et qualitatives le plus simple est de rendre qualitatives celles qui ne le sont pas par l tablissement de classes de valeurs On consid re ensuite chaque classe de valeur ou chaque cat gorie pour les variables qualitatives comme une variable en 0 ou 1 suivant que les objets tombent dans cette cat gorie ou non Cela s appelle mettre les variables sous forme disjonctive compl te Ceci fait on peut alors calculer un indice de distance adapt ce type de donn es Distance du Khi2 ou indice de Jaccard par exemple cependant ces indices eux m mes existent en grand nombre et un nouveau choix d licat est donc n cessaire Dans l ignorance d une bonne formule la distance du Khi deux donnera g n ralement des r sultats satisfaisants Mais compte tenu des avantages de la m thode et de l int r t des r sultats interm diaires qu elle fournit l emploi pr alable de l Analyse factorielle des correspondances nous parait s imposer en de telles circonstances On calculera ensuite la distance euclidienne usuelle sur les premiers axes retenus du point de vue des r sultats cette strat gie est quasi quivalente comme on l a vu avec l exemple PSYSOC effectuer la classification apr s calcul de la distance du Khi deux sur les donn es brutes C
109. re 4 Donn es Phytos Analyse des correspondances repr sentation des relev s sur les axes 1 horizontal et 3 vertical Ces deux axes expliquent respectivement 21 32 et 10 64 de la variance totale Chapitre 3 Pr paration des donn es calcul des distances La plupart des algorithmes de classification ont pour point de d part une mesure des distances ou dissemblances entre les objets Or il existe une infinit de facons pour valuer ces dissemblances et la formule retenue aura une influence d cisive sur les r sultats C est pourquoi nous croyons que l utilisateur doit r fl chir consciencieusement sur cette question en fonction de chaque probl me pratique Nous donnons ci dessous quelques id es g n rales elles sont compl t es par des consid rations math matiques plus pr cises dans l annexe 1 1 G n ralit s 1 1 Donn es quantitatives exemple des causes de d c s Psysoc Dans nos donn es sur les causes sociales des d c s il nous faut commencer par calculer les distances entre les pays La formule la plus utilis e est celle de la distance euclidienne usuelle a i i Ej xij xi 3 o xij d signe le nombre de d c s de cause j dans le pays i Par exemple pour l Autriche et la France on aura d2 AUST FRAN 241 156 16 9 325 328 7225 49 11025 1089 29584 9 48981 d AUST FRAN 221 3 Un premier probl me appara t imm diatement les nombre
110. remarque imm diatement qu une telle application permet de d finir sur I un indice de similarit s c est dire une mesure de la ressemblance cf Benz cri 1966 et Roux 1967 entre les l ments de I de la mani re suivante Pour toute paire i i I s i i est le plus grand nombre x h tel que i i Che Het x h s i i De plus on v rifie ais ment que d i 1 1 s 1 1 constitue une distance sur I Une telle hi rarchie d finit donc une v ritable ordonnance et non plus un ordre partiel sur les paires d l ments de I D finition 2 Bourbaki 1958 Une distance d sur un ensemble E est dite ultram trique si elle v rifie pour tout triplet de points i j k de I la condition d i k lt Max d i j d j k 1 Il est clair que la distance d d finie ci dessus pour les indices de similarit est ultram trique en effet pour tout triplet de points de I il ne peut y avoir que deux situations ou bien toute partie de H qui contient deux des points soient i et j contient aussi le troisi me soit k ou bien il existe h H telle que i j e h et k h Dans le premier cas d apr s la d finition et la relation 1 est bien v rifi e triangle quilat ral dans le second cas ona d i j lt d i k d i j lt d j k et d i k d j k d apr s la d finition de d o l on voit que 1 est encore v rifi e R ciproquement toute distance ultram trique d sur un ensemble fini I
111. restreint Supposons par exemple qu on ait 200 objets rep r s par 10 variables quantitatives alors la matrice des donn es n occuppe que 200x10 2000 cases tandis que la matrice des distances utilise 200 x 199 2 19900 cases en ne conservant que la demi matrice inf rieure ou sup rieure Dans le cas o le nombre de variables est lui aussi lev alors il devient indispensable d effectuer une analyse factorielle pr alable dont on ne retient que les cinq ou dix premiers axes factoriels En contre partie le nombre de calculs effectuer sera nettement plus lev puisqu apr s chaque agr gation il faudra recalculer les pseudo distances non seulement entre la paire fusionn e et les autres objets mais aussi entre tous les objets puisqu on ne garde pas en m moire cette matrice des pseudo distances En fait on va voir que gr ce la consid ration des voisins r ciproques on peut r duire substantiellement cette quantit de calculs et obtenir un algorithme particuli rement efficace 2 L algorithme des voisins r ciproques De Rham 1980 Le plus proche voisin i d un objet i est celui pour lequel la distance di 1 est la plus petite des distances entre 1 et tout autre objet On limine le cas peu courant o par suite de distances gales un objet i aurait plusieurs plus proches voisins On appelle voisins r ciproques deux objets dont l un est le plus proche voisin de l autre et vice versa L algorithme d
112. riables c 2 1 Sibson R a2 2 b Sneath P H A c1 2 a1 2 a1 2 1 a1 2 2 b Sokal R R c1 2 a1 2 a1 2 1 a1 2 2 b Taxinomie c1 4 c9 3 c10 1 b Todd E c2 1 c3 2 1 b Transposition d un tableau c3 3 TRONCAT c9 4 Troncature C1 1 c9 2 1 c9 4 c10 1 Typologie c1 4 c9 3 b Ultram trique a2 Variables R le des variables c8 Pond rations des variables a1 3 2 Voisins r ciproques c6 2 c10 2 b Volle M C2 1 c3 1 2 b Ward J H c6 1 M thode de Ward voir agr gation par le moment d ordre 2 Williams W T c7 2 1 a1 3 2 b
113. s conduit six groupements qui ne sont pas en contradiction avec les hi rarchies d j obtenues Aucun pays ne reste isol Il est malheureusement impossible de dire si une partition en six classes est meilleure qu une autre en trois classes car le rapport d inerties qui nous sert de crit re d pend du nombre de classes comme le font d autres crit res non bas s sur l inertie G1 1 1 1 AUSTRI FRANCE WGERMA G2 1 2 1 PORTUG ITALY SPAIN G3 3 4 2 BELGIU FINLAN SWEDEN SUISS DENMAR G4 2 3 3 NIRELA USA G5 4 4 4 ICELAN SCOTLA SIRELA NORWAY G6 3 4 4 NETHER ENGLAN Tableau 3 Groupements stables formes fortes apr s tirages de partitions al atoires en 4 classes Les pays rassembl s dans un m me groupe se sont toujours trouv s ensemble dans les trois partitions finales retenues l issue des diff rents tirages initiaux ces groupes sont symbolis s par leurs num ros figurant entre parenth ses Voir Tableau 2 ci dessus 3 Les programmes de calculs de Centres mobiles Nous proposons dans notre biblioth que de proc dures Classeur AnaDon xls deux versions de l agr gation autour de centres mobiles d nomm es respectivement CenMobl et CenMob2 Dans CenMobl l utilisateur doit fournir une partition initiale qui est alors am lior e par le programme tandis que dans CenMob2 l utilisateur fournit seulement le nombre de classes d sir Le programme effectue alors un
114. s l et 3 Ces deux axes expliquent respectivement 44 33 et 14 96 de la variance totale L examen du plan 1 2 pour les pays figure 2 confirme la th se de Mr Todd sur la similitude entre l Allemagne et la France du point de vue des tensions internes de la soci t alors que l Angleterre se trouve tre plus proche des pays nordiques On remarque galement le regroupement des pays m diterran ens ESP PORT ITAL dans la zone domin e par la cirrhose du foie 2 Phytosociologie PHYTOS L tude des affinit s de terrain entre esp ces v g tales porte le nom de phytosociologie Elle a pour point de d part des enqu tes sur des r gions plus ou moins tendues au cours desquelles on effectue des relev s Un relev consiste en la liste des esp ces v g tales poussant dans un lieu particulier Le r sultat d une enqu te de terrain se met sous la forme d un tableau rectangulaire o l usage est de mettre les relev s en colonnes et les esp ces en lignes T5153 3k 10 2 2 72 53 13 53 34034563470 6 1100000000100 1 20100001001111 500000101000 0 0 71001010000001 100000001010000 Ju dS EI 01011010 12 1 T0 1 1 0 0 1 20 0 00000000001 210000000001001 24 00 1 1 1 l Q I 0 0 260001000 00110 29 L0 L101000 41 L 0 1 100001 42 001 1 0 0 0 0 I 4 45010000000000 48 0 0010000000 50 000011 1000 53 0 0 000000 0 0 55 0 0 000000100 5
115. s plus caract ristiques de chaque classe C est pourquoi le moment d ordre deux total et le moment inter classe figurant au tableau ci dessous calcul s sur ces variables ne coincident pas avec les quantit s homologues que l on a pu obtenir avec l algorithme des centres mobiles appliqu aux coordonn es factorielles des pays MOMENT TOTAL 556228 MOMENT INTERCLASSE 261834 R 0 47 el CONTRIBUTIONS VAR CLASSES SUI HOM ARO AIN AAU CIR 1 O O 8 O 0 91 2 1 2 EP O O 85 3 18 63 2 O 2 dS Tableau 1 Donn es PSYSOC contributions des variables aux classes CONTRIBUTIONS CLASSES VAR SUI HOM ARO AIN AAU CIR 1 O 3 58 O 38 68 2 17 8 39 13 2 30 3 83 89 2 87 60 2 Tableau 2 Donn es PSYSOC contributions des classes aux variables Il ressort nettement du tableau 1 que la classe 3 se caract rise principalement par un taux lev d Homicides alors que les Suicides et les Cirrhoses du foie y sont un niveau inf rieur la moyenne signes n gatifs Ce qui caract rise de facon quasi exclusive les classes 1 et 2 ce sont les Cirrhoses du foie en quantit importante dans la classe 1 excessivement peu nombreuses signe n gatif dans la classe 2 Dans une moindre mesure ces deux classes se diff rencient galement par les Accidents de la route nombreux dans la classe 1 plus rares dans la classe 2 Le tableau 2 fournit des renseignements int ressants sur la dispersion de chaque variab
116. s qui mesurent les homicides deuxi me terme dans la somme ci dessus sont beaucoup plus petits que les autres Leur contribution la distance ici 49 sera donc en g n ral beaucoup plus faible que celle des autres colonnes du tableau Pour r quilibrer les r les des variables l usage est d op rer leur r duction c est dire de diviser les valeurs par l cart type de la variable consid r e Le second probl me provient des diff rences globales dans les taux de mortalit Il peut en effet arriver que deux pays aient une r partition des d c s analogue mais que pour l un des deux les quantit s soient toujours plus faibles que pour l autre Seules sont conserv es les proportions entre les cat gories de d c s On peut alors consid rer que ces deux pays souffrent des m mes malaises sociaux l un un degr moindre que l autre Cependant comme la distance euclidienne repose sur les carts absolus ces deux pays seront vraisemblablement loign s et donc class s dans des cat gories distinctes On dit qu il y alors un effet de taille On peut pallier cette difficult en calculant la somme des d c s par pays puis en rempla ant chaque valeur par son rapport cette somme Mais cette transformation ne r sout pas tous les probl mes En effet si plusieurs variables sont li es au m me ph nom ne sous jacent elles seront corr l es entre elles et apporteront plusieurs fois la m me information Pour viter cet incon
117. s weno yog 202 Mais la deuxi me expression entre crochets est nulle de par la d finition du centre de gravit La somme des carts la moyenne est gale z ro Revenons alors la double somme constituant le moment d ordre deux Les deux types de termes restants fournissent l un le moment centr d ordre deux l autre une quantit qui s crit m d g a M I a M I g m g a 5 2 C est le th or me de Huyghens qui s nonce ainsi le moment d inertie d un solide par rapport un point quelconque a est gal au moment du solide par rapport son centre de gravit augment du moment du point g affect de la masse totale m du solide par rapport au point a Application une partition Supposons d finie une partition Q de l ensemble I c est dire que tout l ment q de Q est un sous ensemble de I et tout l ment de I appartient un et un seul des l ments de Q On appelle m la masse du sous ensemble des points de q Reprenons dans une criture condens e l expression 5 1 du moment centr le signe 2 signifie qu il faut faire la somme de tous les termes analogues obtenus en faisant varier l indice 1 M 1 9 21 mi d i g et d composons cette somme en faisant des sommes partielles sur les sous ensembles q de Q Mig A ea lem d du o5 La somme entre crochets repr sente le moment de la classe q par rapport au point g centre de gravit g n ral qui est diff rent du centre de g
118. sont ind pendants de l origine et de l chelle des variables 3 2 Mesures de distances Les formules ci dessous expriment la distance entre deux observations 1 et i Ces formules utilisent la quantit o x i j est la valeur l intersection de la ligne i et de la colonne j du tableau rectangulaire des donn es les observations sont suppos es plac es en lignes D j est la valeur absolue de la diff rence des valeurs de la variable j pour les deux observations i et i On l appelle parfois l cart entre les deux observations i et 1 pour le caract re j Ecart moyen Czekanovski 1932 d i i 23D 3 p p d signe le nombre de variables Ecart maximum d i i Max D Distance euclidienne usuelle Do A By DG Cette distance est particuli rement sensible l chelle choisie pour chacune des variables c est pourquoi on lui pr f re souvent une formule introduisant des coefficients de pond ration w Distance euclidienne pond r e d i i 2 w 3 D 3 w j pond ration affect e la variable j L usage est de prendre pour pond ration l inverse de la variance de j w j 1 s 3 mais tout autre syst me de pond rations est possible condition que celles ci soient positives Distance de Manhattan M trique Ll Distance de Chebychev M trique L infini d i i Max D j Coefficient de Lance et Williams 1966 d i i j D j 24 x i 3 x i 3 C est une g n ralisati
119. t Max Sup dn i i me M Sup dn i i m Mj ou encore Sup da i i m M Sup Max di i i dti 27 1 m M avec pour hypoth se Ym eM Vi i im el dolus why c Max dites 347 cie oy S Sup dn 1 1 m e M existe car pour tout i i I d n 1 1 est born Cela signifie que pour tout e gt 0 il existe m tel que S lt ds 1 1 Mais par hypoth se d m 1 1 lt Max d m 1 1 d ms 1 1 et par passage la borne sup rieure dm i i lt Sup Max da i i da G i m M ce qui entra ne car e est quelconque que S lt Sup Max Dd da i i m MJ Remarque 2 On aurait pu d finir d une fa on analogue l enveloppe inf rieure d une famille de m triques mais on n aurait pu d montrer de proposition analogue la pr c dente comme le prouve le contre exemple suivant di 3 k 4 d j 1 di k 1 ER 4 d jy k PE 35 dz j 35 d k 1 2 on a alors Inf di j k d j k 3 Inf di j d2 5 1 1 Inf di k 1 d2 k 1 2 d o Max Inf di j 1 d j 1 Inf di k 1 dk 1 2 qui n est pas sup rieur Inf di j kK d j k comme l exige la relation 1 du paragraphe 1 2 ci dessus 2 2 Ultram trique sous dominante d une m trique donn e D finition J J S Etant donn e une m trique 6 quelconque sur un ensemble fini I pour l ensemble des ultram triques inf rieures 6 cell
120. t fort utile galement dans les sciences de l homme psychologie sociologie linguistique arch ologie histoire etc et dans les techniques d riv es comme les enqu tes d opinion le marketing etc Ces derni res emploient parfois les mots de typologie et segmentation pour d signer la classification ou l une de ses innombrables variantes Citons encore la m decine l conomie l agronomie et nous en oublions certainement Dans toutes ces disciplines la classification peut tre employ e comme une fin en soi mais elle l est souvent juste titre comme une m thode compl mentaire d autres m thodes statistiques Elle peut en effet aider efficacement l interpr tation des graphiques d analyse factorielle ou bien d terminer des groupes d objets homog nes pr alablement une r gression lin aire multiple Chapitre 2 Exemples de donn es Avant d aborder les m thodes classificatoires nous pr sentons deux exemples qui nous serviront tout au long de ce livre 1 Psychologie et soci t PSYSOC Notre premier exemple est tir du livre de E Todd Le fou et le prol taire 1979 annexe 2 p 283 Il s agit de statistiques concernant pour diff rents pays occidentaux les causes de d c s qui selon Mr Todd sont caract ristiques de l tat de sant mentale de la soci t voir tableau 1 six premi res colonnes Notre objectif sera d tablir une classification des pays en fonction de ces taux de m
121. t tr s semblables et font apparaitre trois groupes principaux NIRELA USA FRANCE AUSTRI 4 WGERMA 4 PORTUG ITALY SPAIN FINLAN SWEDEN SWITZE 4 L DENMAR 4 BELGIU NETHER 4 SIRELA ICELAN 4 SCOTLA 4 NORWAY 4 Figure 3 Donn es PSYSOC Hi rarchie du lien moyen construite partir de la distance du Khi 2 calcul e sur les donn es brutes groupe Europe Ouest AUSTRI WGERMA FRANCE SPAIN ITALY PORTUG groupe Europe Nord ICELAN NORWAY NETHER ENGLAN SCOTLA SIRELA BELGIU SWEDEN SWITZE DENMAR FINLAN groupe Atlantique USA et NIRELA Les deux premiers groupes sont subdivis s en deux sous groupes que l on distingue ais ment par l importance de l cart entre les niveaux de jonction Il est int ressant de constater que dans les deux calculs la FRANCE ne se rattache pas ses soeurs latines que sont l ITALY et SPAIN mais AUSTRI et WGERMA Ce qui confirme la th se de Mr E Todd qui soutient contrairement aux id es re ues que France et Allemagne se ressemblent beaucoup quant aux comportements sociaux NIRELA SSE USA FRANCE AUSTRI WGERMA SPAIN
122. tion d un point p riph rique 3 2 S lection de deux points p riph riques 3 3 S lection de deux points noyaux 4 Le probl me des inversions 5 Application aux exemples 5 1 Donn es PSYSOC 5 2 Donn es PHYTOS 6 Conclusion 7 Proc dure de calcul CHAPITRE 8 Aides a l interpr tation 1 Variables quantitatives 1 1 Interpr tation d une partition 1 2 Interpr tation d une hi rarchie 2 Variable qualitatives 2 1 Interpr tation d une partition 2 2 Interpr tation d une hi rarchie 3 Application aux exemples 3 1 Donn es Psysoc quantitatives 3 2 Donn es Phytos qualitatives 4 Les proc dures d aide l interpr tation CHAPITRE 9 Pratique de la classification 1 Choix d un algorithme l l Dimensions des donn es 1 2 Nature des donn es 1 3 Qualit des r sultats 1 4 Temps de calcul 2 Strat gies 2 1 Hi rarchie puis centres mobiles 2 2 Centres mobiles suivis d une hi rarchie 2 3 Donn es h t rog nes emploi de l analyse factorielle pr alable 3 Interpr tation des r sultats 4 Un programme suppl mentaire utile troncature d une partition CHAPITRE 10 Conclusion 1 Taxinomie de qualit 1 1 Pr paration des donn es 1 2 Traitement 1 3 Interpr tation des r sultats 2 Classification en tant que pr traitement 2 1 Pr paration des donn es 2 2 Traitement 2 3 Interpr tation ANNEXE 1 Les indices de ditances 1 G n ralit s 2 Cas des donn es binaires 2 1 Indic
123. tion de variantes personnelles qui ont trop souvent pour but de fournir des r sultats en accord avec l hypoth se que l on veut d montrer La multiplicit des algorithmes de classification ne doit pas faire oublier la multiplicit encore plus grande des traitements pr liminaires des donn es souvent indispensables voir chapitre 2 et qui sont g n ralement d cisifs pour la qualit des r sultats cf Benz cri J P 1973 Benz cri J P et F 1980 ANNEXE 1 Les indices de distances N B Dans ce qui suit on utilise les signes math matiques classiques suivants V pour tout ou quel que soit appartenant gt implique k xx somme de tous les termes analogues Xi Xz etc en faisant varier l indice k Cette somme s crit aussi X xx K 1 2 n 1 G n ralit s Intuitivement un indice de distance d est une formule qui permet de mesurer de combien diff rent deux des objets que l on tudie C est une valuation de leur dissemblance math matiquement si I est l ensemble de ces objets d est une application fonction de I x I dans l ensemble R des nombres r els positifs ou nuls dont on exige 1 V ie d i i 0 2y Va Sp ir eI d i i d i i Si de plus on a in galit triangulaire 3 V i i i e I d i i lt dqd i i d i i alors d est une v ritable distance mais cette derni re condition n est pas indispensable pour la bonne marche des proc dures d
124. tions suivantes 1 Pour chaque classe q d terminer le centre de gravit g 2 R affecter chaque objet 1 la classe C 1 dont le centre de gravit est le plus proche C 1 q si et seulement si d 1 g min d i gr r e Qj 3 Retourner en 1 tant que surviennent des modifications dans la composition des classes Cet algorithme tr s simple repose sur d int ressantes propri t s math matiques que l on va examiner maintenant Ses avantages et inconv nients seront discut s au paragraphe 1 3 Les d veloppements math matiques inhabituels du paragraphe 1 2 sont n cessaires car ils seront utilis s galement au chapitre suivant qui expose une construction ascendante hi rarchique importante par la qualit des r sultats qu elle fournit 1 2 Moment d ordre deux d une partition Par souci de simplification on suppose que toutes les variables au nombre de p sont quantitatives et que la dissemblance entre les objets est correctement mesur e par la distance euclidienne d usuelle On appelle x i j la valeur de la j me variable pour la i me observation On suppose en outre que ces observations au nombre de n sont pond r es par des masses not es mi proportionnelles au r le que l on veut leur faire jouer Par exemple si l observation i repr sente l individu moyen d une sous population on peut d cider que mi est l effectif de la sous population S il n y a pas lieu de pond rer les observations on affectera la valeur 1 t
125. ubert 1973 La m thode de Hubert diff re de la pr c dente en ce que les scissions successives sonr initi es par les deux points les plus loign s de la classe scinder Hubert a propos diverses variantes de sa m thode qui ne diff rent entre elles que par le mode d affectation qui est toujours bas sur les distances aux deux points les plus loign s de la classe scinder Ainsi dans la variante la plus l mentaire si un objet est plus proche du premier que du second de ces points il est mis dans la premi re classe Sinon il est affect l autre classe Les autres variantes consistent examiner les distances rang es par ordre croissant On n affecte alors un objet une sous classe que s il est suffisammnent proche de l un ou de tous les objets d j affect s cette sous classe Les r sultats obtenus par l un ou l autre des algorithmes de Hubert ne donnent pas non plus satisfaction Nous pensons que l affectation bas e sur les distances aux points les plus loign s est discutable En effet ces points sont souvent des observations accidentelles voire aberrantes et en tous cas non repr sentatives des grandes masses de la classe consid r e De sorte que la dichotomie qui en r sulte ne repr sente pas correctement la r partition des objets de la classe 3 3 S lection de deux points noyaux m thode de Roux 1995 Soit q un sous ensemble de l ensemble I des objets classer On examine un certain nombre de p
126. ul des distances du Khi 2 et la proc dure DisJac pour le calcul des indices de distance de Jaccard La proc dure DisEuc calcule les distances sur les donn es telles qu elles sont pr sent es dans la feuille active du classeur Excel il appartient l utilisateur d effectuer une standardisation pr alable des donn es si cette op ration est n cessaire En g n ral dans les trois proc dures les distances sont calcul es entre les lignes du tableau Pour effectuer le calcul entre les colonnes il faut donc recopier les donn es avec transposition dans une nouvelle feuille Cependant la proc dure DisJac peut calculer les distances de Jaccard sur les lignes ou sur les colonnes En effet cette proc dure est destin e traiter des donn es phytosociologiques dans lesquelles il y a souvent un tr s grand nombre d esp ces Or si ce nombre d passe 255 le tableau ne peut pas tre dispos avec les esp ces en colonnes Dans cette ventualit on peut mettre les esp ces en lignes et les relev s en colonnes selon l usage et travailler tout de m me sur les relev s Pour la commodit de la lecture et par souci d homog n it les r sultats se pr sentent sous la forme d un tableau carr sym trique par rapport la premi re diagonale qui elle ne comporte que des Z ros Chapitre 4 La construction ascendante hi rarchique 1 G n ralit s 1 1 Principe g n ral des constructions ascendantes On suppose que les distances
127. ur somme pour toutes les variables et exprim es en pourcentage de cette somme 2 Variables qualitatives Dans le cas de variables qualitatives le calcul du centre de gravit n aurait pas de sens On ne peut donc pas utiliser les formules du paragraphe pr c dent En revanche on dispose d un crit re bien adapt notre probl me la formule du Khi deux de contingence entre deux variables On peut en effet consid rer une partition en k classes comme une variable qualitative k modalit s ou tats Le Khi deux de contingence entre une variable et les classes d une partition indique le degr de liaison de cette variable avec la partition Dans le cas d une hi rarchie on consid rera le r le des variables noeud par n ud un n ud tant consid r comme une variable qualitative deux cat gories en effet tout objet de la classe associ e au noeud appartient l une ou l autre des sous classes associ es aux deux branches r unies Rappelons la formule du Khi deux cette quantit est gale la somme des carr s des carts entre effectifs observ s et effectifs th oriques pond r s par les effectifs th oriques Khi 2 X effectifs observ s effectifs th oriques effectifs th oriques Dans le cas d un tableau de contingence o les effectifs e se r partissent dans un tableau dont les lignes sont indic es par la lettre k et les colonnes par la lettre 1 cette formule devient Khi 2 22 Xi ex l Cay m
128. v nient on peut utiliser une formule de distance particuli re appel e m trique du khi deux qui fait intervenir la fois les poids xj des lignes et xj des colonnes Ces poids ne sont autres que les sommes des termes de la ligne i ou de la colonne j da i i Ej 1 x j xij xi xi j xi 1 Les termes de chaque ligne i sont rapport s leur somme xi Une variable j contribue la distance en raison inverse de son poids x j Une autre solution int ressante s offre nous que nous allons examiner en d tail ci dessous 1 2 Pr traitement par l Analyse factorielle Cette op ration consiste effectuer avant la classification soit une Analyse en composantes principales ACP soit une Analyse factorielle des correspondances AFC selon ce qui parait le mieux adapt aux donn es et aux objectifs poursuivis On prend alors comme nouvelles donn es pour la classification les coordonn es des objets sur les premiers axes factoriels obtenus c est dire ceux qui apportent le plus d information cf Benz cri 1980 Foucart 1982 Volle 1978 etc Bien qu il implique beaucoup de calculs ce d tour vaut la peine d tre fait car il pr sente de nombreux avantages I Le plus important d entre eux est que l Analyse factorielle fournit des nouvelles variables non correl es entre elles et limine donc la derni re difficult examin e ci dessus 2 Le d licat probl me du choix de la distance initiale se trouve
129. vena versicolor Vill Botrychium lunaria L Sw Campanula scheuchzeri Vill Carex sempervirens Vill Strict Cirsium acaule L Webb Crepis aurea L Deschampsia flexuosa L Trin Draba aizoides L Elyna myosuroides All Erygeron sp Euphrasia minima L Festuca halleri Festuca macrophylla Degld Festuca violacea Galium pumilum Lmk Gentiana alpina Vill Gentiana campestris L Gentiana kochiana Per Gentiana nivalis L Gentiana punctata L Gentiana verna L Ry Song 1 Geum montanum L L Gregoria vittaliana D Hieracium glaciale Reyn Hieracium pilosella L Homogyne alpina L Cass Juncus trifidus L Leontodon helveticus Leontodon pyrenaicus Gouan Lotus corniculatus Luzula spicata L Minuarta rupestris Nardus stricta L Pedicularia rostratospicata Phyteuma hemisphericum L Phyteuma orbiculare L Duby Lach DC Scop Sch Potentilla aurea L Potentilla grandiflora L Pulsatilla vernalis L Ranunculus pyrenaicus L Sagina glabra Willd Fenzl Sagina linnaei Presl Salix herbacea L Sempervivum arachnoideum L Sempervivum montanum Jacq Thymus serpillum L Lyka Trifolium alpinum L Trifolium badium Schreb Trifolium pratense ssp nival Trifolium thallii Vill Veronica allionii Vill Veronica bellidioides L Veronica serpyllifolia L y pr sence 1 ou absence 0 de 66 esp ces v g tales dans 16 relev s du Plateau d E
Download Pdf Manuals
Related Search
Related Contents
ECO WHEELER 410 P NR Programmer User Manual POLÍTICA DE COOKIES En esta página web se utilizan dbc128 language integration.qxp Installation and Operating Instructions Fisher FB1000-2 User's Manual Utilizar o Tablet PC Untitled 2 juin 2015 - Agri Copyright © All rights reserved.
Failed to retrieve file