Home
Tout ce que vous n`avez jamais voulu savoir sur le χ2 sans jamais
Contents
1. le V ne d pendant ni des effectifs ni des dimensions du tableau il peut tre compar d un tableau l autre Prenons comme d habitude quelques exemples Homme Femme Homme Femme Homme Femme Choucroute 20 20 Choucroute 10 30 Choucroute 0 40 Brocolis 20 20 Brocolis 30 10 Brocolis 40 0 V 0 V 0 5 V 1 On voit bien avec ces trois tableaux que le V varie bien en fonction du niveau de d pendance dans le tableau de 0 ind pendance totale 1 d pendance totale C est ce qui lui vaut le nom de c fficient de contingence la contingence tant l inverse de l ind pendance plus la valeur du V est lev e plus la contingence dans le tableau est forte Par ailleurs on peut montrer que la valeur du V est insensible l effectif total du tableau Homme Femme Homme Femme Homme Femme Choucroute 20 10 Choucroute 200 100 Choucroute 2000 1000 Brocolis 15 35 Brocolis 150 350 Brocolis 1500 3500 Lasagnes 38 21 Lasagnes 380 210 Lasagnes 3800 2100 V 0 34 V 0 34 V 0 34 7 2 La correction de continuit de Yates La correction de continuit de Yates vient du fait que les lois statistiques utilis es dans le test du x sont par nature continues elles peuvent prendre n importe quelle valeur y compris avec plein de z ros derri re la virgule tandis que les effectifs des cases de notre tableau ne peuvent tre que des nombres entiers Ceci peut entra ner une sur valuation de la valeur du x dans certains cas L
2. auxquels on a demand leur style musical pr f r On fait l hypoth se que les deux variables sont ind pendantes On aurait alors obtenu par exemple le tableau suivant Lettres classiques Lettres modernes Total Hip hop 20 20 40 M tal 30 30 60 Total 50 50 100 Imaginons maintenant que l enqu te ait distingu des sous genres musicaux l int rieur des cat gories Hip hop et M tal Lettres classiques Lettres modernes Total Urban Street Gangsta Rap 5 5 10 Funky Groovy Soul 15 15 30 Industrial Death Metal 10 10 20 Gothic Hard Rock 20 20 40 Total 50 50 100 Maintenant imaginons qu un premier agr g de lettres classiques n ait pas entendu la sonnerie du t l phone au moment o notre enqu teur l appelait car il coutait le dernier Dr X and the freakin street boyz plein volume pendant qu il travaillait sur une nouvelle traduction de l Ancien testament Et que du coup c est un autre agr g de lettres classiques qui a t enqu t car celui ci avait coup le son de Sexy groovy funky girlz pour pouvoir couter les commentaires du match Lorient Valenciennes Dans le cas de notre deuxi me enqu te ceci a une cons quence claire l effectif de la case Lettres classiques Urban Street Gangsta Rap perd un enqu t au profit de la case Lettres classiques Funky Groovy Soul Mais dans le cas de notre premi re enqu te cet v nement n a aucune influence dans les deux cas on reste
3. de on a pu dire indiff remment que le test du x portait sur l ind pendance des lignes et des colonnes d un tableau crois ou bien sur les deux variables d un tableau crois En fait la premi re formulation est plus rigoureuse car la deuxi me tend masquer le fait que la mani re dont chacune des deux variables est d coup e en modalit s joue un r le consid rable dans la valeur finale du test Il semble parfois contre intuitif d imaginer que la mani re dont on code d coupe ou regroupe une variable en classes ou en modalit s puisse influencer le sa d pendance ou son ind pendance vis vis d autres variables Si on tient compte de la mani re dont le x est calcul cette influence s explique cependant assez bien si on regroupe des modalit s existantes ou si on en cr e de nouvelles les dimensions du tableau changent et donc le degr de libert qui lui est associ galement Ceci influence donc la valeur finale du p mais surtout selon la mani re dont on regroupe ou clate ces modalit s on peut masquer des carts l ind pendance ou au contraire en faire appara tre de nouveaux Prenons un exemple nouveau tir de l enqu te Histoire de vie en croisant l ge d coup en classes et la variable indiquant si les types d mission pr f r s la t l vision sont les s ries et les feuilletons Commen ons par un d coupage en ges assez fin ici on donne les pourcentages colonnes 25
4. s dans chaque case pour obtenir une sorte d cart global l ind pendance l chelle du tableau Et bien c est une excellente id e que vous avez l et je vous en f licite mais comme d habitude il y a encore une ou deux subtilit s dont il va falloir tenir compte Tout d abord si on essaie imm diatement de faire la somme des carts du tableau 4 4 page 14 on obtient tout aussi imm diatement 0 Si cela ne vous semble pas logique c est que vous n avez pas lu assez attentivement le paragraphe causant des contraintes sur les marges page 14 C est donc l occasion de vous resservir un caf ou un jus de tomates et de reprendre la lecture de ce passionnant passage Faire la somme c est donc une bonne id e mais il faut tenir compte du fait que certains carts sont positifs et d autres n gatifs et que tout a finit par s annuler On pourrait s en sortir en faisant la somme de la valeur absolue de chaque cart c est dire en transformant les carts n gatifs en cart positif mais les statisticiens souvent d humeur un peu chafouine pr f re utiliser le carr des carts ce qui revient peu pr s au m me dans la mesure o le carr d un nombre est toujours positif Il reste une deuxi me subtilit prendre en compte que nous comprendrons mieux en regardant 1 En fait ce n est pas intuitif du tout mais l expression intuitivement permet l auteur d viter de fournir de nouvelles explicat
5. demment car les effectifs de chaque case ont tous t multipli s par 10 Par contre le y de ce nouveau tableau est lui devenu tr s significatif avec un p inf rieur 0 001 Que s est il pass On vient tout simplement d observer le fait que plus les effectifs de notre tableau augmentent plus les carts l ind pendance observ s ont de chances d tre significatifs Si j interroge dix personnes et que j obtiens six fois oui et quatre fois non je ne peux rien dire Mais si j en interroge 10 000 et que j obtiens 6 000 oui et 4000 non l je peux en conclure quelque chose Le x est donc extr mement sensible aux effectifs plus ceux ci sont lev s plus le risque de se tromper en rejetant l hypoth se d ind pendance est faible et donc plus la valeur du p est petite Un y non significatif peut donc signifier soit qu il y a ind pendance entre les lignes et les colonnes du tableau dans le cas o les pourcentages lignes ou colonnes sont tr s proches les uns des autres soit qu il n y a pas ind pendance mais que les effectifs dont je dispose ne me permettent pas d en tre s r statistiquement dans le cas o les pourcentages lignes ou colonnes sont sensiblement diff rents 26 Interpr tation 5 6 Le test du y ne mesure pas l intensit de la d pendance En fait ceci d coule directement de la section pr c dente et de la sensibilit du x aux effectifs Prenons les deux tableaux suivants Rouge Ve
6. effet comme il s agit d effectifs th oriques il ne s agit pas forc ment de nombres entiers Par contre on remarquera que les marges de notre tableau correspondent bien aux tris plat de nos variables indiqu es tableau 3 2 ce qui est plut t rassurant puisque c est quand m me pour a que nous avons souffert depuis quelques pages 3 4 En r sum Pour faire notre test du x nous avons besoin de d terminer quoi ressemblerait notre tableau si les deux variables crois es taient totalement ind pendantes Le calcul de ce tableau s effectue en deux temps 1 on calcule le tableau des pourcentages th oriques en multipliant pour chaque case la propor tion observ e dans la population des deux modalit s correspondantes 2 puis le tableau des effectifs th oriques se calcule en multipliant le tableau des pourcentages th oriques par l effectif total 12 Calculer l ind pendance En pratique il est important de comprendre le principe et notamment l existence de la contrainte sur les marges Le mode de calcul importe peu puisqu il sera toujours r alis par un logiciel d di Partie 4 Calcul du y d un tableau 4 1 Observons les carts Prenons maintenant un autre exemple toujours plus passionnant Lors d une enqu te grande chelle r alis e en partenariat avec l INSEE PINED et l INSERM on a demand 200 personnes leur profession et on a crois cette information avec une variable in
7. marges du tableau 9 On obtient ainsi le tableau des effectifs th oriques sous l hypoth se d ind pendance 10 On calcule ensuite les carts entre effectifs observ s et effectifs th oriques et on les standar dise pour qu ils soient tous positifs et comparables on obtient ainsi le x partiel pour chaque case du tableau 17 La somme de ces x partiels donne la valeur du x pour notre tableau partir de cette valeur et du nombre de degr s de libert s de notre tableau 19 la statistique nous permet de d duire un p qui n est autre que la probabilit d obtenir le tableau crois observ si nos variables taient ind pendantes 20 Le tableau 8 1 page suivante donne quelques exemples de valeurs de p que l on peut obtenir et de l interpr tation qui peut en tre faite 22 L interpr tation du test du x se fait en comparant les profils lignes ou les profils colonnes leur profil moyen pour d terminer l importance des carts 23 L utilisation des r sidus 26 permet de d terminer l chelle de chaque case quels sont les carts qui sont statistiquement significatifs Ils sont tr s utiles pour l analyse notamment quand le nombre de cases est important et peuvent m me conduire une repr sentation graphique du tableau crois 29 Certains points importants sont prendre en compte quand on interpr te le r sultat du x le d coupage des variables en modalit s influe consid rable
8. me chelle ce qui va permettre de pouvoir travailler sur des choses comparables entre elles En pratique on va diviser la valeur des carts par celle des effectifs th oriques correspondant R capitulons Nous avons notre tableau d effectifs observ s notre tableau d effectifs th oriques Nous pouvons partir de l calculer les carts entre les deux mais pour raisonner l chelle du tableau entier nous devons rendre les carts comparables en tenant compte d une part de leur signe en les levant au carr et d autre part du fait qu ils ne se rapportent pas aux m mes effectifs de d part en les divisant par les effectifs th oriques On va donc calculer un nouveau tableau dont les cases contiennent la valeur suivante Effectif observ Effectif th orique Effectif th orique Cette valeur est appel e le x partiel de la case du tableau Dans notre exemple on obtient le tableau suivant Sociologue Banquier Arch ologue Avec brouette 0 93 0 18 1 91 Sans brouette 0 68 0 12 1 41 TAB 4 5 x partiels arrondis All luia Nous avons enfin de beaux carts bien positifs et bien standardis s que nous allons pouvoir additionner tous ensemble dans la joie et l all gresse Ce faisant nous obtenons la fort jolie valeur de 5 2402 qui n est rien d autre que la valeur du x pour notre tableau crois Pass e l euphorie bien compr hensible due la beaut de ce r sultat arrach grand renfor
9. o 8 g E 8 8 z 7 5 Y 8 8 S enS e g e E Es S S Z o zZ e e el 8 o sil il nn dar ellas call ln a A TTTTT TT TT TT ETT TIT TIT TT TT TT TT T T TTTTTT TITO TI TIT TT T TIT TE TT OTI T T 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 68 72 16 20 24 28 32 36 40 44 48 52 56 60 64 68 73 Nombre de sociologues brouette trouv s Nombre de sociologues brouette trouv s FIG 4 1 Simulation du tirage de sociologues brouette L avantage d une simulation par ordinateur c est qu on peut en faire facilement autant qu on veut On vient d en faire 100 on va maintenant en faire 1000 10000 100 000 et 1 000 000 Les r sultats sont indiqu s figure 4 1 Que constate t on d abord la forme de la r partition semble se stabiliser avec le nombre de tirages pour atteindre une forme qui rappelera sans doute quelque chose ceux qui ont subi quelques cours de statistiques durant leurs tudes En gros plus on fait d exp riences et plus on observe que les r sultats ressemblent la fonction de densit d une loi normale ou courbe de Gauss Le maximum semble tre atteint pour la valeur 43 Or on remarquera que les effectifs th oriques que nous avons calcul s l vent justement 43 4 C est normal car les effectifs th oriques sont ceux qu on a la plus grande probabilit de trouver sous l hypoth se d ind pendance Soit voil une bien jolie courbe Mais cela ne r pond toujours pas notre question de
10. partie 8 se veut un r capitulatif des diff rents points importants retenir Chacun d entre eux est accompagn du num ro de la page correspondant si on souhaite un peu plus de d tail Cette partie peut tre utilis e comme porte d entr e pour le reste du document si on ne souhaite pas une lecture lin aire int grale 1 3 Le test du quoi Premi re interrogation comment a se prononce Le x n est pas un X mais bien une lettre grecque dont le petit nom est khi lequel se prononce qui Et le qui pourrait se prononcer au carr se prononce plut t tout simplement deux Moralit si vous souhaitez briller dans un congr s international de statistiques dites test du qui deux plut t que test du x au carr 1 4 Et sinon a sert quoi En une phrase le test du x permet de d terminer la probabilit que les lignes et les colonnes d un tableau crois sont ind pendantes Dit autrement il permet d valuer si la r partition des effectifs dans une table de contingence est significativement diff rente de celle de la table calcul e sous l hypoth se d ind pendance des deux variables crois es Comme tout cela est absolument incompr hensible nous allons commencer par d finir les concepts de base et en premier lieu le terme d ind pendance 1 Quoi que l expression qui carr semble galement tout fait acceptable d autant que la version anglaise
11. pour rem dier ce probl me que Monsieur Harald Cram r a mis au point une statistique joliment pr nomm e V et qui se calcule de la mani re suivante x2 r Va total x min nombre de lignes 1 nombre de colonnes 1 Cette formule compliqu e s applique de la mani re suivante tant donn un tableau on calcule la valeur de son x on la divise par l effectif total lui m me multipli par la plus petite dimension du tableau laquelle on aura enlev un Puis on fait la racine carr e de tout a Prenons un exemple de calcul sur le tableau suivant il s agit d une copie hont e du tableau 4 1 page 13 Sociologue Banquier Arch ologue Avec brouette 37 36 12 Sans brouette 65 43 7 Le x de ce tableau nous l avons d j calcul vaut 5 24 L effectif total vaut 200 La plus petite dimension du tableau est le nombre de lignes qui vaut 2 On obtient donc le calcul suivant 5 24 y g 7 1 Penser prononcer Crameur et non Cram 33 34 Raffinements Les propri t s du V retenir sont les suivantes la valeur du V est toujours comprise entre 0 et 1 plus le V est lev plus la d pendance entre les deux variables est forte Plus le V est faible plus les variables se rapprochent de l ind pendance Les cas extr mes sont V 0 dans le cas o les deux variables sont parfaitement ind pendantes et V 1 dans le cas o les variables sont identiques
12. pour toutes les colonnes On comprendra sans doute mieux en regardant le tableau suivant Homme Femme Choucroute garnie 20 20 Brocolis vapeur 80 80 Total 100 100 Avec une telle r partition il est assez naturel d en d duire que la pr f rence culinaire est ind pendante du sexe 1 Si nous osions nous parlerions m me de vision tendance ind pendantiste 2 3 En r sum T Comme les lignes et colonnes d un tableau sont parfaitement interchangeables le raisonnement vaut aussi dans l autre sens c est dire que l ind pendance entre les lignes et les colonnes d un tableau crois signifie que les pourcentages lignes de ce tableau sont les m mes pour toutes les lignes 2 3 En r sum Il n y a qu une seule chose retenir dire que les variables d un tableau crois sont ind pendantes revient dire les trois choses suivantes 1 le fait d appartenir l une des modalit s de la premi re variable n a aucune influence sur la modalit d appartenance de la seconde 2 les pourcentages lignes du tableau crois sont les m mes pour toutes les lignes 3 les pourcentages colonnes du tableau crois sont les m mes pour toutes les colonnes Partie 3 Calculer l ind pendance 3 1 Le biais d chantillonnage Les exemples pr c dents utilis s pour illustrer ce qu est l hypoth se d ind pendance restent th oriques En effet nous ne rencontrerons jamais lors du tra
13. quence de cette standardisation est qu un poids important est accord aux petites cases m me si en effectifs les carts correspondants sont relativement faibles Reprenons notre tableau et calculons respectivement les effectifs th oriques les carts entre effectifs observ s et effectifs th oriques et les r sidus Perdant Gagnant Perdant Gagnant Perdant Gagnant Tr fle 223 7 3 2 Tr fle 3 8 3 8 Tr fle 0 3 2 1 Fer 198 1 2 9 Fer 1 9 1 9 Fer 0 1 1 1 Aucun 198 1 2 9 Aucun 1 9 1 9 Aucun 0 1 1 1 Effectifs th oriques carts R sidus 30 6 2 Vraie limite les variables cach es 31 Que constate t on Malgr la significativit du x les carts entre effectifs observ s et effectifs th oriques sont plut t faibles Les r sidus nous indiquent que la seule case o cet cart est significatif est la case gagnant avec un tr fle mais celle ci a un effectif observ de 7 au lieu d un effectif th orique attendu de 3 2 ce qui ne constitue pas forc ment une variation tr s sensible On voit donc comment des variations sur des cases faible effectif peuvent g n rer un x globa lement significatif partir d carts pourtant assez minimes en termes d effectifs C est pourquoi une r gle assez courante mais qui rel ve de la convention et non de la d monstration math matique veut que pour viter ce genre de perturbations on ne doit pas avoir dans un tableau crois plus de 20 des cases avec
14. significatif entre la profession et le fait de poss der une brouette Mais on peut s accorder davantage de souplesse et prendre en compte des r sultats jusqu 10 ou m me un peu plus 4 6 En r sum La section qui pr c de a t longue et fastidieuse Les d tails du calcul ne sont l que pour comprendre la d marche et faciliter l interpr tation les calculs eux m mes tant mis en uvre par un logiciel appropri 1 Le y d un tableau repr sente l cart entre la r partition observ e dans ce tableau et celle qu on observerait si les lignes et les colonnes de ce tableau taient ind pendantes c est dire si le fait d appartenir une modalit d une des deux variables crois es n avait aucun influence sur la modalit d appartenance de la deuxi me variable 2 Le nombre de degr s de libert s d pend du nombre de lignes et de colonnes d un tableau 3 Avec les deux valeurs pr c dentes on peut estimer la probabilit p d obtenir le tableau observ dans le cas o lignes et colonnes sont ind pendantes p repr sente le nombre de chances que j ai de me tromper si j affirme que les deux variables crois es ne sont pas ind pendantes 4 Le seuil de significativit pour le p est par convention fix 5 ou 0 05 ou 5 chances sur cent Si le p est sup rieur ce seuil c est dire si on a plus de 5 chances sur 100 de se tromper en disant l inverse alors on consid re que les deux varia
15. un effectif th orique inf rieur 5 Dans le tableau qui nous int resse ce sont 3 cases sur 6 qui sont dans ce cas soit 50 donc la condition de validit n est pas remplie Bien et qu est ce qu on fait alors On abandonne notre tude empli de frustration et d amer tume et quelque peu angoiss l id e d expliquer tout a notre directeur de th se qui tait d j en train de cocher ses num ros un tr fle quatre feuilles dans chaque main Et bien non Comme nous l avons voqu pr c demment le fait d utiliser une approximation math matique pour valuer le p du test du y n est plus une obligation compte tenu de l volution des algorithmes et de la puissance de calcul des ordinateurs Plut t que de calculer le p par cette approximation on peut en effet proc der une simulation de la m me mani re que nous l avons fait l chelle d une case du tableau dans la section 4 2 Pour aller tr s vite ce calcul du p par simulation s effectue en tirant au sort un grand nombre de tableaux plusieurs milliers dont les lignes et les colonnes sont ind pendantes et ayant les m mes dimensions et les m mes marges que notre tableau d int r t Pour chaque tableau on calcule la valeur de son x Une fois qu on a tous ces x on regarde quelle proportion d entre eux sont sup rieurs celui de notre tableau ce pourcentage n est rien d autre que la valeur du p Le d tail du calcul importe peu Ce
16. 5 25 Mais en pratique il suffit que Charles Emmanuel qui tait malade parce qu il avait mang trop de brocolis ne puisse pas r pondre au questionnaire et qu il soit remplac au pied lev par Jean Kevin qui est un fan de choucroute pour que vous obteniez le r sultat suivant Homme Femme Choucroute 26 25 Brocolis 24 25 3 2 Contraintes sur les marges du tableau 9 Et en pratique vous risquez surtout d obtenir quelque chose qui va ressembler l un des ta bleaux suivants Homme Femme Homme Femme Choucroute garnie 27 26 Choucroute garnie 28 22 Brocolis vapeur 23 24 Brocolis vapeur 24 26 La question qui se pose d s lors est de savoir partir de quand on peut dire que les variations observ es sont dues au hasard et partir de quand on peut estimer qu elles sont dues un lien entre les deux variables C est tout l objet du test du x Mais avant d en arriver l nous devons regarder d un peu plus pr s ce que signifie l ind pendance entre deux variables qualitatives dans un tableau crois 3 2 Contraintes sur les marges du tableau Imaginons maintenant un nouvel exemple partir d une population de 120 personnes nous souhaitons tudier le lien entre la couleur des cheveux bruns blonds roux et la couleur des n ils marrons ou bleus La question pos e est de savoir quoi ressemblerait notre tableau dans le cas o couleur des cheveux et couleur des n ils seraient totalement
17. Tout ce que vous n avez jamais voulu savoir sur le y sans jamais avoir eu envie de le demander Julien Barnier Groupe de Recherche sur la Socialisation CNRS UMR 5040 jbarnierfens 1sh fr 15 avril 2008 Table des mati res 1 Introduction 1 1 propos de ce document 5 44 due du vu titi dede u te es 12 Mode demploi ss sies au ue ou bis gd eaa RE ddr Bed us 1 D o 2 L ee om aaa rare Mae He M LARERU EE ADRESSE 1A Et sinon CA sert QUO a caers a aaa na de nt a Le Li mare t 2 L hypoth se d ind pendance 2 1 Petits tappels 4 44 Li Le da ne sida ad ii a e A 2 2 L ind pendance des lignes et des colonnes DS UTE 2e 4 4 aa BUS EMA eds a ada 3 Calculer l ind pendance 3 1 Le biais d chantillonnage 4 4 se a c d Lit dass a us ste 3 2 Contraintes sur les marges du tableau 3 3 Calculs des effectifs th oriques 4 Calcul du x d un tableau dl Observons les carte ss 24 44 L on does a a at aa tra aan ve 4 a Hat 42 Variations l chelle d une cellule 43 x partiels et x du tableau o oo aa sesrcibirie dad Hooda sd prnah dd Lesdegr s de Hberk oo 4 4 4 4 4 oc cerros aa 45 Teclu onale 2 4 L 4 amp da da dd de aa A ae AA d Dada dG PSM EA 5 Interpr tation 5 1 R sum des pisodes pr c dents D
18. a correction de Yates consiste enlever 0 5 la valeur absolue des carts entre les effectifs observ s et les effectifs th oriques avant de les mettre au carr dans le calcul des x partiels ce qui donne la formule suivante Effectif observ Effectif th orique 0 5 Effectif th orique x partiel Les conditions d application de cette correction ne font pas forc ment l objet d un consensus Parfois on la limite aux tableaux ayant 2 lignes et 2 colonnes parfois non En g n ral elle est recommand e lorsque les effectifs sont insuffisants mais l aussi les crit res pour le insuffisant sont vari s Bref le mieux est de laisser faire le logiciel qui s il est bien lev devrait l appliquer dans des conditions peu pr s d finies Dans tous les cas cette correction n a d effet sensible que lorsque les effectifs sont faibles 2 Modalisa dans sa version 4 applique syst matiquement cette correction aux cases dont les effectifs th oriques sont inf rieurs 5 R lui l applique si le tableau est de dimension 2x2 7 3 Le test exact de Fisher pour les tableaux 2 x 2 39 7 3 Le test exact de Fisher pour les tableaux 2 x 2 Le test exact de Fisher est une alternative au test du x mais qui vise tester la m me hypoth se et s interpr te exactement de la m me mani re La principale diff rence est qu il s agit d un test exact et non d une approximation tir e d
19. bien nombreux que ces questions passionnent pourront se r f rer Chessel 2005 pour plus de d tails 3 Pexception des tableaux ayant un effectif th orique nul mais ceci n arrive que si l une des marges du tableau est nulle c est donc fort peu probable 39 Limites Le y de ce tableau est tr s significatif avec un p quasiment gal z ro Le fait de pratiquer la broderie aurait donc une influence sur le fait de tenir un journal intime ou inversement Ce r sultat est tout fait passionnant mais n y aurait il pas un petit biais On peut par exemple remarquer que les deux pratiques sont en g n ral per ues comme plut t f minines Le sexe n aurait il donc pas un effet dans tout a Pour le savoir la m thode la plus efficace est de recommencer notre test en s parant les hommes et les femmes On effectue deux test du x sur les deux tableaux suivants Journal Pas de journal Journal Pas de journal Couture 2 26 Couture 346 1039 Pas de couture 286 3473 Pas de couture 880 2351 Hommes Femmes Si on regarde les x on constate qu aucun des deux n est significatif le p vaut 0 79 pour les hommes et 0 12 pour les femmes Que peut on en conclure Qu a priori la r partition observ e dans notre premier tableau n tait pas due un effet d une variable sur l autre mais au fait que les deux sont troitement li es au sexe On a d couvert l ce qu on appelle l existence d une variable ca
20. bles sont ind pendantes Sinon on consid re qu il y a un lien entre les deux Nous allons maintenant enfin pouvoir sortir de cette partie th orique aussi distrayante que l observation d un escargot par temps sec pour aborder des exemples plus concrets d utilisation du test et d interpr tation des r sultats Partie 5 Interpr tation 5 1 R sum des pisodes pr c dents Pour ceux qui n auraient pas voulu lire les sections pr c dentes ceux qui auraient craqu en cours de route ou ceux qui auraient ressenti le besoin de se reposer un moment avant d attaquer la suite en faisant deux ou trois semaines de stage de m ditation dans un monast re bouddhiste voici un r capitulatif des id es bien assimiler pour comprendre ce qui suit Le test du x vise tester l hypoth se d ind pendance des lignes et des colonnes d un tableau crois Cette hypoth se signifie que 1 Le fait d appartenir l une des modalit s de la premi re variable n a aucune influence sur la modalit d appartenance de la seconde 2 Les pourcentages lignes du tableau crois sont les m mes pour toutes les lignes 3 Les pourcentages colonnes du tableau crois sont les m mes pour toutes les colonnes Le test du y se base sur la valeur du y du tableau qui est une mesure de l cart entre le tableau observ et le tableau qu on aurait obtenu si les variables taient parfaitement ind pendantes et sur le nombre de degr s de libert
21. c On obtient un tableau qui ressemble a Nombre de sociologues brouette 41 42 43 Nombre d occurrences sg 10 9 12 Enfin on transforme ce tableau en graphique pour avoir une id e de la r partition de l ensemble des nombres trouv s Ce qui donnerait quelque chose comme la figure suivante R sultats pour 100 exp riences o a o 4 Q c o E a ka ho o Y 2 G E Q zZ PTTTTTTTTTTTTTTTTTTTTTTTT T 32 34 36 38 40 42 44 46 48 50 52 54 56 59 Nombre de sociologues brouette trouv s Ce que nous dit la figure c est qu on a trouv au minimum 32 et au maximum 59 sociologues brouettes parmi nos 100 simulations d enqu tes et que le nombre de sociologues brouette le plus fr quemment observ est de 40 16 Calcul du x d un tableau R sultats pour 1000 exp riences R sultats pour 10000 exp riences 8 Sl o 8 o e o 8 Le a a Q Q fa fa E o o o E 2 8 5 5 4 a B 8 84 8 o o a S 5 87 E E S S z a 8 o J A A 8 11 nil lin 1 cal lu TT LL ARR LE EN T TATTOO AAA T TT 25 29 32 35 38 41 44 47 50 53 56 59 63 23 26 29 32 35 38 41 44 47 50 53 56 59 62 68 71 Nombre de sociologues brouette trouv s Nombre de sociologues brouette trouv s R sultats pour 100000 exp riences R sultats pour 1000000 exp riences 8 8 y R R 8 8 8 8 8 8 8 D o
22. ch e On observe une d pendance entre les variables et B mais en fait cette d pendance provient uniquement du fait que toutes deux d pendent d une troisi me variable C Le plus souvent C sera une des grandes variables socio d mographiques classiques comme le sexe ou l ge Ainsi les particularit s observ es pour la cat gorie socio professionnelle des employ s sont assez souvent li es au fait qu il s agit d une cat gorie o les femmes sont largement sur repr sent es La m thode pour v rifier l existence d une variable cach e est toujours la m me on applique nouveau les tests sur des sous populations peu pr s homog nes par rapport la variable suspect e Dans le cas du sexe on s parera les hommes et les femmes Dans le cas de l ge on appliquera le test sur des tranches d ge plus ou moins fines etc Partie 7 Raffinements Nous d taillons ici des am liorations du test du x dont vous entendrez peut tre parler ou qui pourront vous tre utiles 7 1 Le V de Cramer Dans la section 5 6 page 26 nous avons montr en quoi le x n tait pas une mesure du degr de d pendance entre les lignes et les colonnes d un tableau On a notamment soulign que du fait de sa sensibilit la fois l effectif total et aux nombres de lignes et de colonnes les r sultats du test du x et la valeur du p ne peuvent en g n ral pas tre compar s d un tableau l autre C est justement
23. dans la case Lettres classiques Hip hop Moralit Plus il y a de cases dans le tableau plus les donn es sont susceptibles de varier al atoirement et donc plus elles sont sensibles au biais d chantillonnage Version math matique D un point de vue math matique cette notion de plus grande sensibilit au biais d chantillonnage est fortement li e aux contraintes sur les marges Pour essayer de comprendre regardons le premier tableau de par les contraintes sur les marges je sais quels doivent tre mes totaux en lignes et en colonnes Maintenant fixons l effectif de la premi re case du tableau 20 dans l exemple donn Comme je sais que le total de la premi re ligne vaut 40 jen d duis imm diatement la valeur de la deuxi me case de la premi re ligne Et 2 L auteur l affirme d autant plus facilement qu elle est loin de l tre pour lui m me et que a fait un moment qu il se demande comment il va bien pouvoir essayer d expliquer ce machin 20 Calcul du x d un tableau comme je connais aussi les totaux en colonne je peux aussi en d duire les valeurs des cases de la deuxi me ligne En fait d s que je connais la valeur d une des cases je connais celles de l ensemble du tableau On peut donc consid rer que toute la variabilit possible du tableau est contenue dans une seule case Regardons maintenant le deuxi me tableau Si je fixe la premi re case je peux calculer l effectif de la deu
24. diquant s ils poss dent ou non une brouette Le r sultat est le suivant Sociologue Banquier Arch ologue Total Avec brouette 37 36 12 85 Sans brouette 65 43 7 115 Total 102 79 19 200 TAB 4 1 Effectifs observ s Nous savons d sormais calculer le tableau des pourcentages th oriques sous l hypoth se d ind pendance entre les deux variables Sociologue Banquier Arch ologue Total Avec brouette 21 7 16 8 40 42 5 Sans brouette 29 3 22 7 5 5 375 Total 51 0 39 5 95 100 TAB 4 2 Pourcentages th oriques en pourcentages arrondis Et nous savons aussi en d duire rapidement les effectifs th oriques correspondant Sociologue Banquier Arch ologue Total Avec brouette 43 4 33 6 8 0 85 Sans brouette 58 7 45 4 10 9 115 Total 102 79 19 200 TAB 4 3 Effectifs th oriques arrondis 13 14 Calcul du x d un tableau Intuitivement il semble assez logique maintenant de comparer les effectifs observ s avec les effectifs th oriques On peut donc calculer les carts entre les deux pour chaque case du tableau en soustrayant le tableau 4 3 du tableau 4 1 Sociologue Banquier Arch ologue Total Avec brouette 6 4 2 4 3 9 0 Sans brouette 6 4 2 4 3 9 0 Total 0 0 0 0 TAB 4 4 carts entre effectifs observ s et effectifs th oriques arrondis La premi re chose que l on remarque est que la somme des carts vaut 0 pour chaque ligne et chaque colonne du tableau Pourquoi To
25. du tableau qui d pend du nombre de lignes et de colonnes partir de ces deux donn es le test donne une valeur p qui est la probabilit que les variables soient ind pendantes compte tenu du tableau observ ou encore le nombre de chances de se tromper si on dit que les deux variables ne sont pas ind pendantes 5 2 Valeur du p Le tableau suivant est pour une fois tir e de donn es r elles en l occurrence celles de l enqu te Histoire de vie r alis e en 2003 par PINSEE Il croise le fait d avoir t lev par sa m re seule jusqu 18 ans par la cat gorie socio professionnelle du p re en 6 postes Agriculteur Ind pendant Cadre Interm diaire Employ Ouvrier lev par sa m re seule 22 50 60 57 50 161 Autre 990 801 572 800 690 2861 TAB 5 1 Croisement de la CS du p re avec le fait d avoir t lev seul par sa m re Le x vaut 44 63 le nombre de degr s de libert s est 5 p vaut 0 00000001726 1 Dans ces exemples on s est content des donn es brutes et on n a pas utilis la pond ration donn e par l INSEE 22 5 3 Le test du x est sym trique 23 On peut donc rejeter l hypoth se d ind pendance sans crainte puisqu on n a qu une chance sur plus de 57000 000 de se tromper La cat gorie sociale d appartenance du p re a une influence sur le fait d avoir t ou non lev par sa m re seule Le tableau qui suit croise le fait de pratiquer ou non le football e
26. e E sr t tendues 5 3 Le test du x est sym trique 5 4 Le test du y d pend du d coupage en modalit s Bo Le test du d pend d s elfeciifa sese 4 14 a a e du 4 44 24 5 6 Le test du x ne mesure pas l intensit de la d pendance Get Les T SIUS esco varas aaa am aus de de te us 6 Limites 6 1 Fausse limite quand les effectifs th oriques sont trop faibles 6 2 Vraie limite les variables cach es 7 Raffinements Tal Le VdeOrTamer ud d a db de ma Landau area 7 2 La correction de continuit de Yates 7 3 Le test exact de Fisher pour les tableaux 2 x 2 8 Aide m moire ZA O Cr A Bonao 6 ja 13 14 17 19 20 21 Partie 1 Introduction 1 1 propos de ce document Ce document a pour ambition d essayer de pr senter les principes du test statistique dit test du x autant que possible de mani re pas trop r barbative On insistera tr s peu sur le mode de calcul effectif tous les logiciels de statistiques actuels s en chargent bien mieux que nous et beaucoup plus sur les concepts sur lesquels le test repose La version de r f rence de ce document se situe l adresse http perso ens lsh fr jbarnier pdf khi2 pdf Le code source ATEX est galement t l chargeable sans les illustrations l adresse http
27. e de la deuxi me variable Prenons tout de suite un petit exemple avec les deux tableaux suivants qui croisent le genre et le plat pr f r Homme Femme Homme Femme Choucroute garnie 10 10 Choucroute garnie 0 20 Brocolis vapeur 10 10 Brocolis vapeur 20 0 Dans le tableau de gauche les effectifs se r partissent de mani re totalement uniforme le fait d tre un homme ou une femme ne semble avoir aucune influence sur le plat pr f r On ne peut donc pas parler d un lien entre les deux variables elles sont ind pendantes Dans le tableau de droite inversement on constate que le fait d tre un homme ou une femme conditionne totalement le fait de pr f rer la choucroute ou les brocolis On a donc un lien extr mement fort entre les deux variables elles ne sont absolument pas ind pendantes Ces deux tableaux pr sentent cependant une version quelque peu radicale de l ind pendance t Pour obtenir quelque chose d un peu moins caricatural on peut repartir de la d finition donn e plus haut en la reformulant dire que les lignes et les colonnes d un tableau sont ind pendantes c est dire que la modalit d appartenance en colonne n a pas d influence sur la modalit d appartenance en ligne Ceci signifie donc que la r partition des effectifs du tableau entre les diff rentes lignes est la m me quelle que soit la colonne Dit autrement cela signifie que les pourcentages colonnes du tableau sont identiques
28. elle appartient Ce qui nous donne ici O 10 ans 11 70 ans 71 ans et plus Total Tractatus Logico philosophicus 5 6 83 3 111 100 Oui oui et la voiture jaune 57 8 0 1 420 100 La lecture de ce tableau donnerait 5 6 de ceux dont le dernier livre lu est le Tractatus Logico philosophicus ont entre 0 et 10 ans On peut aussi regarder la r partition de la lecture des livres en fonction de l ge Dans ce cas on calcule les pourcentages colonnes c est dire qu on divise les effectifs de chaque case par l effectif total de la ligne du tableau laquelle elle appartient Ce qui nous donne ici 6 L hypoth se d ind pendance 0 l0ans 11 70 ans 71 ans et plus Tractatus Logico philosophicus 0 1 88 2 0 3 Oui oui et la voiture jaune 99 9 11 8 99 7 Total 100 100 100 Ce qui pourrait se lire 11 8 des 11 70 ans ont lu comme dernier livre Oui oui et la voiture jaune Plut t que de pourcentages lignes et de pourcentages colonnes on parle galement parfois de profils lignes et profils colonnes 2 2 L ind pendance des lignes et des colonnes L objectif du test du x est de d terminer si les lignes et les colonnes d un tableau crois c est dire les deux variables tudi es sont ind pendantes Par ind pendantes on veut dire que le fait d appartenir une modalit de la premi re variable n a pas d influence sur la modalit d appartenanc
29. est chi squared 2 Note pour les puristes nous n abordons dans ce document que le test du x de contingence c est dire celui qui teste l ind pendance des lignes et des colonnes d un tableau crois On ne parlera pas des autres applications de la statistique du x notamment pour tester l ad quation une loi ou une r partition donn e Partie 2 L hypoth se d ind pendance 2 1 Petits rappels Une variable qualitative est une variable qui mesure une donn e pouvant tre d coup e en un nombre restreint de modalit s par exemple le genre de l enqu t homme femme la couleur de son arrosoir vert rouge bleu noir son ge en classes de cinq ans 21 25 ans 26 30 ans 31 35 ans le dernier livre qu il a lu Tractatus logico philosophicus Oui oui et la voiture jaune Une table de contingence ou tableau crois est un tableau qui indique les effectifs du croisement entre deux variables qualitatives Un petit exemple croisant l ge et le dernier livre lu par la personne interrog e 0 l0ans 11 70 ans 71 ans et plus Tractatus Logico philosophicus 1 15 2 Oui oui et la voiture jaune 854 2 621 Sur ce genre de tableau on peut regarder quelle est la r partition ges des lecteurs de chaque ouvrage Pour cela on calcule les pourcentages en ligne c est dire qu on divise les effectifs de chaque case par l effectif total de la ligne du tableau laquelle
30. et moins 26 35 36 45 46 55 56 65 66 et plus Ensemble Oui 20 4 9 8 7 5 7 5 8 1 12 5 10 2 Non 79 6 90 2 92 5 92 5 91 9 87 5 89 8 Total 100 0 100 0 100 0 100 0 100 0 100 0 100 0 Le x est extr mement significatif p quasiment gal z ro On constate que les s ries et les feuilletons sont pr f r s la fois par les plus jeunes et par les plus g s Imaginons maintenant que la question qui nous int ressait au d part tait de diff rencier les moins de 55 ans des plus de 55 ans Nous aurions alors obtenu le tableau suivant 55 et moins 56 et plus Ensemble Oui 10 0 10 5 10 2 Non 90 0 89 5 89 8 Total 100 0 100 0 100 0 Avec un x plus du tout significatif puisque le p vaut d sormais 0 49 En regroupant les classes d ge on a regroup des cat gories o la pr f rence pour les s ries tait sur repr sent e et d autres o elle ne l tait pas du tout Au final on a construit deux populations homog nes en regroupant des populations h t rog nes mais oppos es De mani re g n rale il est donc pr f rable de partir avec des d coupages en classes les plus d taill s possibles pour pouvoir ventuellement ensuite pouvoir regrouper entre elles des modalit s ayant des profils semblables identifi s par leurs pourcentages lignes ou colonnes Dans notre exemple on aurait pu regrouper les tranches d ge de 36 65 ans pour mieux faire ressortir l opposi
31. eur r sultat est en fait tr s proche de ce que nous avons effectu dans la section Variations l chelle d une cellule page 14 Dans cette section nous avions tent de voir comment on peut par simulation estimer si l chelle d une case un cart entre un effectif observ et un effectif attendu tait statistiquement significatif ou non Les r sidus permettent d obtenir cette information pour toutes les cases et donc de d terminer dans quels sens vont les carts et o ceux ci sont significatifs D un point de vue math matique il existe deux types de r sidus les r sidus de Pearson et les r sidus de Pearson standardis s ou ajust s La diff rence entre les deux a relativement peu d importance car leur interpr tation est semblable D un point de vue calcul et titre tout fait indicatif la formule pour les r sidus de Pearson est la suivante Effectifs observ s Effectifs th oriques VEfectifs th oriques La formule des r sidus est un tantinet plus complexe mais l interpr tation est la m me dans les deux cas Au final il n y a que deux choses retenir 6 Pour tre tout fait rigoureux on pourrait le faire mais seulement quand les deux tableaux ont les m mes dimensions et les m mes effectifs totaux Mais dans tous les cas on pr f re utiliser des indices calcul s expr s pour comme le V de Cramer que nous verrons section 7 1 page 33 7 Pour plus d informations on po
32. fectifs th oriques sont trop faibles Commen ons par un exemple Soit le tableau crois suivant qui s int resse au fait de gagner ou non au Loto selon qu on poss de un tr fle quatre feuilles un fer cheval ou aucun des deux Perdant Gagnant Tr fle 220 7 Fer 200 1 Aucun 200 1 Le y est significatif avec un p 0 03 Cependant tout bon logiciel de statistique qui se respecte devrait vous gratifier d un joli message d avertissement vous annon ant amicalement que le r sultat obtenu pourrait bien n tre pas plus valable que celui d un th me astral r alis par un docteur en sociologie Pourquoi donc Car en calculant votre x vous avez enfreint le commandement suivant dans tout tableau crois jamais plus de 20 d effectifs th oriques inf rieurs 5 tu n auras Qu est ce que c est encore que ca Pour comprendre l origine de ce principe il faut se rappeler que le r sultat du test du x le p est une approzimation qui en toute rigueur ne deviendrait parfaitement exacte que quand les effectifs de mon tableau seraient extr mement lev s Plus pr cis ment on peut se rappeler que dans le calcul des x partiels associ s chaque case on a standardis l cart entre effectifs observ s et effectifs th oriques de mani re ce qu un cart de 15 dans une case o on attendait 6 ne soit pas consid r de la m me mani re qu un cart de 15 dans une case o on en attendait 6 000 Une cons
33. gnifie pas que l cart entre effectifs observ s et effectifs th oriques est tr s lev Ceci signifie juste qu il est tr s significativement diff rent de z ro Dans notre exemple si on regarde la case des ouvriers ne sachant pas s ils appartiennent ou non une classe sociale on a un r sidu sup rieur 2 avec un cart de seulement 0 8 points par rapport au profil moyen 2 3 contre 1 5 Encore une fois c est en se rapportant aux pourcentages lignes ou colonnes qu on peut voir si l cart au profil moyen est lev ou pas R sumons les r sidus indiquent dans quel case on a des sur repr sentations si leur valeur est sup rieure 2 ou des sous repr sentations si elle est inf rieure 2 statistiquement significatives ils orientent le regard vers les cases pour lesquelles on peut dire quelque chose et montrent l inverse celles pour lesquelles l cart au profil moyen n est pas significatif en dernier lieu ce sont toujours les pourcentages lignes ou colonnes qui permettent de mesurer l amplitude de cet cart Les r sidus sont donc tr s utiles pour l analyse d un tableau dont le y permet de rejeter l hypoth se d ind pendance Ils le seront d autant plus que le tableau comporte un grand nombre de cases Ils permettent de plus de valider statistiquement les carts observ s l chelle de la case Repr sentation graphique L utilisation des r sidus a un autre avantage c es
34. igne ce qu elle nous dit c est que nous avons 6 4 sociologues brouette de moins que ce quoi on aurait d s attendre avec l hypoth se d ind pendance Par contre nous avons 2 4 banquiers et 3 9 arch ologues brouette YP P gt gt q gt de plus C est int ressant mais concr tement c est beaucoup ou c est pas beaucoup Essayons de reformuler la question 6 4 sociologues brouette en moins est ce que c est d la variation due au biais d chantillonnage ou au fait qu il y a un lien entre les deux variables Reformulons encore si on recommen ait notre enqu te plusieurs fois est ce qu on obtiendrait souvent un cart de 6 4 Ou est ce que l cart varierait beaucoup d une enqu te l autre L id al pour cela serait de pouvoir disposer d une population correspondant notre question nement et d interroger un chantillon al atoire tir plusieurs reprises dans cette population pour voir quels r sultats on obtient C est tr s difficile faire en pratique mais c est tr s facile simuler avec un ordinateur Pour cela nous nous pla ons sous l hypoth se d ind pendance On imagine que nous disposons d une population tr s vaste parmi laquelle nous savons que la proportion de sociologues brouettes est exactement de 21 7 c est dire la fr quence th orique que nous avons calcul e sous hypoth se d ind pendance On choisit 200 personnes au hasard dans cette population et on no
35. ind pendants Intuitivement et c est ce que nous avons fait jusque ici on pense au tableau th orique suivant Bruns Blonds Roux Marrons 20 20 20 Bleus 20 20 20 TAB 3 1 Tableau des effectifs th oriques faux M me effectif dans toutes les cases et effectif total de 120 correspondant notre population Comment pourrait on trouver une plus belle marque d ind pendance Certes Mais cette r partition th orique s appuie sur une hypoth se tr s forte elle suppose d une part qu il y a autant de bruns de blonds et de roux dans notre population et d autre part qu il y a autant de personnes aux yeux marrons que de personnes aux yeux bleus Or cette hypoth se est tr s probablement fausse Imaginons que notre tude se passe en Su de On observerait alors dans notre population de 120 personnes les r partitions de couleurs des cheveux et des n ils suivantes Bruns Blonds Roux Total Marrons Bleus Total 12 90 18 120 30 90 120 TAB 3 2 R partition des couleurs des cheveux et des noeils dans la population Rajoutons maintenant notre tableau 3 1 les totaux en ligne et en colonnes 1 Les donn es qui suivent sont totalement imaginaires et fantaisistes mais vous l aurez sans doute d j devin 2 Dans ce qui suit on nommera ce tableau sous hypoth se d ind pendance tableau th orique mais il faudrait en fait lire tableau de r partition th orique sous l hypoth se d ind pendance des
36. ions laborieuses tout en donnant l impression que pour lui tout a c est quand m me vachement simple et naturel 18 Calcul du x d un tableau directement le tableau 4 4 Si nous regardons la case des sociologues sans brouette nous constatons un cart de 6 4 Si on regarde celle des arch ologues avec brouette on obtient un cart de 3 9 Spontan ment on pourrait vouloir comparer les deux valeurs en affirmant que l cart est plus grand chez les sociologues sans brouette que chez les arch ologues avec brouette Mais il faut tenir compte d une chose les effectifs th oriques ne sont pas du tout les m mes dans les deux cases puisque nous avions 58 7 sociologues sans brouette attendus contre 8 arch ologues avec brouette Or un cart de 6 sur une valeur de r f rence de 58 semble tout de suite moins importante qu un cart de presque 4 sur une valeur de r f rence qui vaut 8 En additionnant les carts de toutes les cases sans tenir compte des effectifs de r f rence auxquels ces carts se rapportent on risque donc de m langer des choux des carottes des pommes de terre et des betteraves Tout a peut faire une tr s bonne soupe surtout si on enl ve les betteraves mais du point de vue math matique le m lange est assez indigeste Pour viter de boire le potage on va donc effectuer une op ration assez courante en statistiques et qu on nomme standardisation ce qui signifie qu on va tout rapporter une m
37. itement d une vraie enqu te des tableaux o les pourcentages lignes et colonnes sont tous exactement les m mes et o les deux variables crois es sont parfaitement ind pendantes d une part car un lien entre deux variables ne se traduit jamais en sciences sociales par du tout ou rien On pourra toujours trouver une personne sans dipl me grande lectrice de Proust ou un sp cialiste en droit constitutionnel collectionneur de nains de jardins d autre part car les r sultats obtenus sont en partie li s aux personnes interrog es On nomme ce type de variations biais d chantillonnage Pour mieux comprendre ce qu est ce biais reprenons notre exemple gastronomique pr c dent Imaginons que nous avons une population de 1000 personnes 500 hommes et 500 femmes On sait par ailleurs d une part que le sexe n a aucune influence sur le fait de pr f rer les brocolis ou la choucroute et d autre part qu il y a autant de personnes qui appr cient les deux plats Si nous interrogeons tout le monde nous obtenons donc le tableau suivant Homme Femme Choucroute 250 250 Brocolis 250 250 Seulement voil interroger tout le monde prend du temps et co te des sous On choisit donc en g n ral de n interroger qu une partie des gens disons 100 personnes Si on choisit ces 100 personnes de mani re totalement al atoire on peut s attendre trouver le tableau suivant Homme Femme Choucroute 25 25 Brocolis 2
38. l exemple du tableau 5 1 Pinterpr tation va naturellement dans le sens d une influence de la cat gorie sociale du p re sur le fait d avoir t lev seul par sa m re et non l inverse Ceci se traduit par l utilisation de pourcentages colonnes pour l analyse du tableau Agriculteur Ind pendant Cadre Interm diaire Employ Ouvrier Ensemble lev par sa m re seule 2 2 5 9 9 5 6 7 6 8 5 3 5 6 Autre 97 8 94 1 90 5 93 3 93 2 94 7 94 4 Total 100 0 100 0 100 0 100 0 100 0 100 0 100 0 C est gr ce aux pourcentages colonnes qu on peut approfondir l analyse du tableau au del de la seule existence ou non d une d pendance entre les variables Ils nous permettent en effet par exemple de constater que seuls 2 2 des enqu t s dont le p re est agriculteur ont t lev seuls par leur m re contre 9 5 de ceux dont le p re est cadre la moyenne pour l ensemble des enqu t s tant de 5 6 4 1 i a fai i e 2 000000001726 57 937 428 soit quatre fois moins de chances que de gagner au Loto 3 Mais vous aurez remarqu que ce document ne recule pas devant une certaine dose de r p titions mais si celle ci frise parfois le radotage 4 Cette analyse sera grandement facilit e et statistiquement valid e par l utilisation des r sidus voir section 5 7 page 26 24 Interpr tation 5 4 Le test du y d pend du d coupage en modalit s Dans ce qui pr c
39. leur du x calcul pour un tableau donn sous l hypoth se d ind pendance des lignes et des colonnes tend vers une loi du x au nombre de degr s de libert s correspondant celui du tableau 6 Auparavant les statisticiens qui devaient conna tre des week end longs et pluvieux plus fr quemment que la moyenne s amusaient rechercher ces informations dans des tables 4 6 En r sum 21 la probabilit d obtenir le tableau crois observ sous l hypoth se d ind pendance des deux variables est d environ sept chances sur cent la probabilit que les lignes et les colonnes du tableau sont ind pendantes est d environ sept chances sur cent si j affirme partir du tableau crois observ que la profession exerc e a une influence sur le fait d avoir ou non une brouette j ai 7 de chances d avoir tort et 93 de chances d avoir raison Sept chances sur cent de me tromper c est beaucoup ou pas L la statistique n a plus de r gle math matique fournir En g n ral le seuil partir duquel on consid re le r sultat comme r ellement significatif c est dire le niveau acceptable de la probabilit de se tromper est fix par convention et habitude 5 Dans le tableau que nous observons depuis maintenant un bon moment nous sommes donc la limite si on se contente d appliquer m caniquement le traditionnel seuil de 5 alors on dira qu il n y a pas de lien statistiquement
40. lignes et des colonnes 10 Calculer l ind pendance Bruns Blonds Roux Total Marrons 20 20 20 60 Bleus 20 20 20 60 Total 40 40 40 120 TAB 3 3 Tableau des effectifs th oriques toujours faux On voit tout de suite que quelque chose ne colle pas si on a bien 120 personnes en tout on a 60 personnes aux yeux marrons et 60 aux yeux bleus alors que notre population en compte respec tivement 30 et 90 M me chose pour la couleur des cheveux Cette r partition avec 20 personnes dans chaque case est donc tout simplement impossible Petit point de vocabulaire on appelle les totaux en lignes et en colonnes du tableau 3 3 les marges du tableau crois Et on nomme les r partitions des couleurs des cheveux et des n ils indiqu es tableau 3 2 les tris plat de ces variables En un mot on vient de rajouter une contrainte forte sur notre tableau th orique de r partition sous l hypoth se d ind pendance les marges de ce tableau doivent correspondre aux tris plat des variables correspondantes dans notre population Dans ce qui suit on nommera cette contrainte contrainte sur les marges du tableau de r partition th orique 3 3 Calculs des effectifs th oriques Bon c est bien gentil tout a de nous rajouter des contraintes suppl mentaires mais concr te ment il va ressembler quoi notre tableau th orique Pour comprendre nous allons d abord transformer la r partition des diff rentes couleurs de cheveu
41. ment sur le r sultat et peut faire appara tre ou masquer des carts l ind pendance 24 la valeur du x et donc du p est sensible l effectif total du tableau un p inf rieur 5 peut signifier que les effectifs ne sont pas suffisamment important pour que le lien de d pendance soit statistiquement av r 25 le r sultat du test n est pas un indicateur de la force du lien entre les deux variables 26 36 37 p Interpr tation 1 Les deux variables sont parfaitement ind pendantes 0 7 Les deux variables sont ind pendantes 0 15 En toute rigueur on devrait consid rer les deux variables comme ind pendantes mais il est possible qu elles ne le soient pas et que les effectifs sont insuffisants pour le montrer 0 05 Les variables ne sont pas ind pendantes au seuil classique de 5 0 0001 L hypothese d ind pendance doit tre rejet e il y a un lien entre les deux variables 0 L hypoth se d ind pendance est tellement peu probable que le lo giciel n arrive m me pas afficher tous les z ros derri re la virgule TAB 8 1 Exemples de valeur de p et de son interpr tation comme la valeur du x et du p d pendent des effectifs et des dimensions du tableau on ne peut comparer ces valeurs d un tableau l autre Pour ce genre de chose on utilise plut t un coefficient de contingence comme le V de Cramer 33 le lien de d pendance entre les deux variables peut en fait tre d
42. ogue et le fait d avoir une brouette on a 15 5 chances sur 100 de se tromper Est ce que c est beaucoup ou pas La statistique n a pas de r ponse cette question Par convention elle fixe cependant un seuil de significativit qui est en g n ral 5 chances d erreur sur 100 c est le fameux significatif au seuil de 5 Ce n est qu une convention mais d faut d tre math matique elle a pour elle le fait que presque tout le monde l utilise Qu avons nous fait ici Nous avons montr qu on peut par simulation arriver calculer la probabilit d obtenir un effectif observ au plus gal une certaine valeur sous l hypoth se d in d pendance La statistique ne nous permet pas de dire si une valeur observ e est significativement plus petite ou significativement plus grande en soi mais elle permet d estimer une probabilit d observer cette valeur dans le cas o les deux variables sont ind pendantes 4 3 x partiels et x du tableau Nous venons donc de voir comment par simulation on pouvait essayer de d terminer si les variations observ es l chelle d une cellule ont peu ou beaucoup de chances d tre dues au hasard ou plus pr cis ment au biais d chantillonnage Il nous reste voir la m me chose mais cette fois au niveau du tableau tout entier Intuitivement pour passer de la case du tableau au tableau tout entier on aurait envie de faire la somme de tous les carts observ
43. perso ens lsh fr jbarnier pdf khi2 tex Tous les fichiers relatifs ce document sont diffus s sous licence Creative commons 1 2 Mode d emploi l image de son titre ce document est long Tr s long Trop long La lecture int grale de ce document pourrait avoir des cons quences en termes d quilibre psychique et d exacerbation de sentiments agressifs l gard de son prochain que nous ne saurions valuer de mani re parfaitement rigoureuse Le principe de pr caution nous dicte donc de pr voir des modes de lecture alternatifs Voici donc un plan rapide de ce qui suit afin que ceux qui le souhaitent n aient pas supporter la lecture de l ensemble la partie 2 pr sente l hypoth se d ind pendance qui est au c ur du test du x La partie 3 pr sente la mani re dont cette hypoth se d ind pendance se traduit par le calcul d un tableau d effectifs th oriques la partie 4 pr sente les diff rentes tapes de calcul du x d un tableau et les r sultats qu on peut en tirer la partie 5 se penche sur l interpr tation qui peut tre faite des r sultats du x et notamment sur les facteurs qui influencent la valeur du test la partie 6 aborde les limites li es au test et qu il faut prendre en compte dans l interpr tation la partie 7 indique des subtilit s ou des compl ments au test Elle peut tre joyeusement ignor e en cas de premi re lecture 4 Introduction Enfin la
44. qu il faut retenir c est qu on a l une m thode qui nous permet de calculer un p pour n importe quel tableau crois quels que soient les effectifs th oriques Si on applique tout ceci notre exemple on obtient un p par simulation d environ 0 025 Notre test demeure donc toujours significatif et nous allons pouvoir poursuivre notre enqu te Il reste que les r sidus nous ont indiqu que l cart l ind pendance dans notre tableau se jouait essentiellement sur une seule case et avec des effectifs tr s faibles Parfois cela rend le tableau inint ressant du point de vue de l analyse Dans notre cas montrer que la possession d un tr fle quatre feuilles augmente significativement la probabilit de gagner au loto peut tre un sujet d int r t central dans notre tude et pour notre directeur de th se 6 2 Vraie limite les variables cach es Partons d un nouvel exemple r el tir une fois de plus de l enqu te Histoire de vie en croisant le fait de tenir ou d avoir tenu un journal intime et celui d avoir pratiqu le tricot la broderie ou la couture au cours des douze derniers mois Tient ou a tenu un journal N a jamais tenu de journal A pratiqu broderie tricot ou couture 348 1065 N a pas pratiqu 1166 5824 1 Des logiciels comme Modalisa ne le proposent pas R lui le permet l aide de l option simulate p value de la fonction chisq test R Development Core Team 2008 2 Ceux com
45. rofessions interm diaires en ont moins souvent On remarquera galement que le pourcentage est tr s lev chez les agriculteurs 49 4 mais qu il n est pas significatif sans doute du fait d effectifs trop faibles On peut galement remarquer que les cadres ont plus souvent des fr quences de visite interm diaires plusieurs fois par mois ou par an tandis que les ouvriers ont plus souvent des fr quences de visite extr mes soit hebdomadaires soit exceptionnelles ou inexistantes Ce type de graphique en mosa que permet donc de faciliter l analyse l encore plus particuli rement dans le cas de tableaux crois s avec un nombre de cases lev 9 Il est dommage que certaines logiciels comme Modalisa ne proposent pas le calcul des r sidus pour les tableaux crois s m me si dans ce cas l utilisation du PEM pourcentage de l cart maximum s en rapproche Cibois 1993 5 7 Les r sidus 29 Rencontres avec la famille E 2 g O 2 0 O A T 2 2 e 0 an g ES 5 sE oo Su E o 2 e E ER 5 s Agriculteurs 49 4 lp Pearson A residuals Cadres pi 4 00 Interm 6 3 2 00 Ed 3 0 00 3 2 00 0 Employ s O ploy 4 00 Ouvriers 7 57 p value lt 2 22e 16 FIG 5 1 Graphique en mosa que du croisement entre la CS de l enqu t et la fr quence des visites dans la famille Partie 6 Limites 6 1 Fausse limite quand les ef
46. rt Rouge Vert Rond 10 20 Rond 100 200 Carr 20 10 Carr 200 100 Si on veut parler de la force de la d pendance entre les deux variables on ne peut pas diff rencier ces deux tableaux la r partition des effectifs entre les cases est la m me les pourcentages lignes et colonnes sont identiques Pourtant si dans le premier cas on a bien un x significatif d une valeur de 5 4 avec un p de 0 02 dans le second le test devient extr mement significatif avec un x de 65 34 et un p quasiment gal z ro Le raisonnement ici est exactement le m me que dans la section pr c dente pour une m me r partition dans mon tableau j ai d autant plus de chances d tre significativement loign de l ind pendance que mes effectifs sont importants Ce qu on peut en conclure ici c est que les valeurs du x et du p ne doivent pas tre utilis es comme indicateurs de la force du lien de d pendance entre les variables du tableau crois On ne peut donc pas comparer les r sultats du test du x pour deux tableaux diff rents en en concluant que la d pendance entre les variables serait plus forte pour l un que pour l autre 5 7 Les r sidus Les r sidus sont une aide l interpr tation extr mement utile pour l analyse d un tableau crois Pour le dire rapidement le x indique si les carts l ind pendance sont significatifs l chelle du tableau les r sidus eux donnent cette indication l chelle de chaque cellule L
47. savoir si l cart que nous avons observ est important ou non Pour cela nous pouvons regarder o se trouve l effectif observ dans notre vraie enqu te c est dire 37 dans le dernier graphique de la figure 4 1 Pour viter la survenue d une presbytie 4 3 x partiels et x du tableau 17 trop pr coce nous avons pris la peine de surligner la barre du graphique incrimin e en rouge Le nombre de fois o on a trouv 37 s l ve en fait 38 806 Si on ram ne notre million d exp riences cela signifie qu on a 3 9 chances sur 100 de trouver un tel r sultat sous l hypoth se d ind pendance des deux variables En pratique la probabilit associ e la seule valeur 37 nous int resse en fait assez peu ce qui nous int resse c est de savoir si 37 est une valeur significative ment petite ou pas Donc ce qu on cherche ce n est pas la probabilit d obtenir exactement 37 mais plut t celle d obtenir 37 ou moins Ici on obtient une valeur inf rieure ou gale 37 dans 155 360 cas sur un million soit une probabilit de 15 5 chances sur 100 Ca n est pas norme mais pas non plus n gligeable Reformulons ce que nous venons de dire si obtient 37 en valeur observ e il y a 15 5 chances sur 100 que cette valeur soit due au hasard c est dire au biais d chantillonnage Reformulons encore si on observe un effectif de 37 et qu on affirme qu il y a un lien entre le fait d tre sociol
48. t d empilements successifs de subtilit s statistiques et de verres de jus d artichaut vides dans l vier de la cuisine nous devons n anmoins nous rendre l vidence 5 2402 c est magnifique mais nous sommes encore et toujours confront s la m me question c est beaucoup ou c est pas beaucoup Avant de r pondre nous allons devoir tenir compte d une derni re subtilit statistique Ne vous inqui tez pas si ce genre de phrase commence g n rer chez vous une certaine lassitude Mais regardez l bas au fond ne voyez vous pas une faible lueur appara tre dans l obscurit Le bout du tunnel n est pas loin et vous devriez l atteindre encore plus facilement en reprenant un grand verre de nectar d avocat 4 4 Les degr s de libert 19 4 4 Les degr s de libert La derni re chose dont nous devons tenir compte pour obtenir le r sultat d finitif de notre test porte le doux nom de degr de libert L appellation ne manque pas de charme mais la notion qu elle recouvre n est pas forc ment la plus intuitive qui soit En fait la notion de degr s de libert s dans le cas du test du x d ind pendance d un tableau crois signifie que la valeur calcul e du x pour ce tableau doit tre rapport e au nombre de colonnes et de lignes du tableau en question Pour tenter de comprendre reprenons une c l bre enqu te men e aupr s de 100 professeurs agr g s 50 en lettre modernes et 50 en lettres classiques
49. t de permettre la repr sentation graphique de tableaux crois s incluant les liens entre les diff rentes modalit s c est dire les cases dans lesquelles les effectifs observ s sont significativement sup rieurs ou inf rieurs aux effectifs th oriques Prenons par exemple la figure 5 1 page ci contre Elle repr sente le tableau croisant pour l enqu te Histoire de vie la cat gorie professionnelle de l enqu t et la fr quence de ses visites sa famille proche ou loign e Ce graphique contient une repr sentation visuelle de chaque case construite de la fa on suivante la largeur de chaque case est proportionnelle au pourcentage ligne correspondant On a d ailleurs indiqu dans chaque case la valeur de ce pourcentage la surface de la case est proportionnelle aux effectifs observ s la couleur de la case d pend de la valeur du r sidu de Pearson associ bleu si le r sidu est significativement positif rouge s il est significativement n gatif gris s il n est pas significatif La lecture de ce type de graphique n est peut tre pas vidente de prime abord mais une fois habitu elle permet de synth tiser de mani re visuelle la quasi totalit des informations n cessaires pour l analyse Pour reprendre l exemple de la figure 5 1 on peut ainsi voir imm diatement que les employ s et les ouvriers ont plus fr quemment des visites familiales hebdomadaires tandis que les cadres et les p
50. t le sentiment d appartenir ou non une classe sociale Pratique le football Ne pratique pas le football Sentiment d appartenance 93 3921 Pas de sentiment d appartenance 92 4165 Ne sait pas 1 131 Le x vaut 1 5448 le nombre de degr s de libert s est 2 p vaut 0 4619 L hypoth se d ind pendance entre les deux variables ne peut donc a priori pas tre rejet e on ne peut pas tablir de lien entre les deux variables 5 3 Le test du x est sym trique Comme on a d j eu l occasion de le souligner les lignes et les colonnes d un tableau crois sont interchangeables Vous pouvez donc changer vos deux variables le r sultat du test sera toujours exactement le m me Ceci signifie notamment que le tableau n a pas en lui m me de sens de lecture c est notre connaissance de l objet tudi qui nous fait dire le sexe a une influence sur le fait de pr f rer la choucroute ou les brocolis et non pas le fait de pr f rer la choucroute ou les brocolis a une influence sur le sexe Ce que le x nous dit c est les deux variables sont d pendantes Ce qu il ne nous dit pas c est la variable Y est d pendante de la variable X Le fait de consid rer une variable comme ayant une influence sur une autre rel ve de l interpr tation et de l analyse Cela se traduit en g n ral apr le choix d utiliser les pourcentages lignes ou les pourcentages colonnes dans la lecture du tableau Si on reprend
51. te le nombre de sociologues brouette parmi ces 200 personnes Ensuite on recommence on choisit nouveau 200 personnes 4 2 Variations l chelle d une cellule 15 et on note sur la m me feuille le nombre de sociologues avec brouette Et on recommence Et on recommence On obtient une liste de chiffres qui pourrait ressembler a 50 48 44 49 46 51 53 44 42 44 36 34 42 41 58 45 37 35 38 39 Qu avons nous fait exactement En notant le nombre de sociologues brouettes parmi les 200 personnes nous n avons rien fait d autre que de noter l effectif de la case du tableau crois correspondant aux sociologues poss dant une brouette Et en utilisant une fr quence de 21 7 de sociologues brouettes nous nous sommes mis dans les conditions exactes d exp rience exig es par l hypoth se d ind pendance entre les variables Nous avons donc simul par ordinateur et plusieurs reprises une r alisation de notre enqu te sous l hypoth se d ind pendance Maintenant on va oublier les tableaux pas pour longtemps rassurez vous et on va faire des dessins Imaginons que nous reproduisons l exp rience 100 fois On se retrouve avec une s rie de 100 nombres ressemblant celle indiqu e pr c demment On va maintenant compter le nombre de fois o on retrouve chaque nombre c est dire le nombre de fois o on a trouv 42 sociologues brouettes le nombre de fois o on a trouv 43 sociologues brouettes et
52. tient N appartient pas Ne sait pas Agriculteur 2 7 2 3 1 8 Ind pendant 3 2 3 3 0 6 Cadre 4 0 3 7 1 7 Interm diaire 3 4 2 9 2 8 Employ 1 2 1 1 0 4 Ouvrier 1 9 1 4 2 8 Les r sidus permettent d orienter le regard vers les cases o les carts sont statistiquement significatifs A priori en regardant ce dernier tableau on peut se rendre compte que le sentiment d appartenance une classe sociale est moins fr quent que la moyenne chez les agriculteurs et les ind pendants tandis qu il l est plus chez les cadres et les professions interm diaires Par ailleurs ceux ci sont moins nombreux que la moyenne ne pas savoir s ils appartiennent ou non une classe sociale tandis que les ouvriers sont un peu plus nombreux que la moyenne tre dans ce cas 8 Ceci tant d au fait que les r sidus tendent suivre une loi normale centr e r duite 28 Interpr tation Il y a cependant une chose importante noter lorsqu on utilise les r sidus c est que ceux ci mesurent la significativit de l cart par rapport aux effectifs th oriques attendus de la case Ils sont donc li s ces derniers un cart de 10 quand les effectifs th oriques taient de 20 c est dire un effectif observ de 30 sera sans doute significatif tandis que le m me cart de 10 quand les effectifs th oriques sont de 2 000 ne le sera pas Ainsi de la m me mani re que pour le x avoir un r sidu tr s sup rieur 2 ne si
53. tion entre les ges interm diaires et les ges extr mes 5 Ph nom nes bien connus en sociologie des m dias et identifi s respectivement sous les noms d effet Prison break et d effet Derrick 5 5 Le test du x d pend des effectifs 25 5 5 Le test du y d pend des effectifs Dans une tude videmment tr s s rieuse r alis e par le minist re de la Sant on a voulu tudier le lien entre le degr de calvitie et le fait d avoir ou non attrap un rhume dans les six derniers mois On a interrog un premier chantillon en obtenant les r sultats suivants A eu un rhume N a pas eu de rhume Totalement chauve 7 5 Partiellement chauve 4 8 Porte une perruque 9 12 Si on fait les pourcentages lignes on obtient le tableau suivant A eu un rhume N a pas eu de rhume Total Totalement chauve 58 3 417 100 Partiellement chauve 33 3 66 7 100 Porte une perruque 42 9 571 100 Ensemble 14 4 55 6 100 Le x de notre tableau n est pas du tout significatif avec un p de 0 459 Fort d u le minist re a d cid de renouveler l enqu te mais en accordant une rallonge budg taire qui a permis d interroger dix fois plus de personnes avec les r sultats suivants A eu un rhume N a pas eu de rhume Totalement chauve 70 50 Partiellement chauve 40 80 Porte une perruque 90 120 Si on calcule les pourcentages lignes de ce nouveau tableau on obtient exactement les m mes que pr c
54. uelle est la probabilit d obtenir le x observ sur notre tableau compte tenu du nombre de degr s de libert s et sous l hypoth se d ind pendance Pour tre un peu plus concret reprenons notre exemple des sociologues brouettes partir du tableau 4 5 page 18 nous avions d duit que la valeur de notre x tait de 5 2402 Du fait que le tableau en question a 2 lignes et 3 colonnes nous en d duisons que son nombre de degr s de libert s vaut 2 1 x 3 1 2 Et ce que notre logiciel favori va nous indiquer c est que la probabilit d observer un tel r sultat compte tenu de l hypoth se d ind pendance s l ve 0 0728 C est le fameux p Comment interpr ter ce p Plusieurs formulations sont possibles toutes signifient la m me chose la probabilit d observer une valeur du y de 5 2402 avec deux degr s de libert s leve 0 0728 3 Les logiciels qui appliquent le test du x indiquent en g n ral le nombre de degr s de libert du tableau En g n ral la notation utilis e est ddl pour les logiciels francophones et df pour les anglophones 4 Les ordinateurs et les algorithmes actuels rendent cependant possibles l utilisation de simulation ce qui est peut tre tr s utile dans certains cas On en reparlera dans le cas o les effectifs th oriques sont consid r s comme trop faibles voir section 6 1 page 30 5 Plus pr cis ment ce que nous dit la statistique c est que la va
55. uivante le pourcentage th orique sous l hypoth se d ind pendance des individus ayant la couleur de cheveux x et la couleur des n ils y est gal au produit entre le pourcentage d individus ayant la couleur de cheveux x et le pourcentage d individus ayant la couleur des n ils y Pour reprendre un exemple sachant qu on a 75 de blonds et 25 de personnes aux yeux bleus la proportion de personnes blondes aux yeux bleus dans notre population totale sous l hypoth se d ind pendance vaut 75 X 25 18 75 100 100 100 soit 18 75 Avec cette r gle on peut d sormais calculer le tableau des pourcentages th oriques sous l hypo th se d ind pendance Bruns Blonds Roux Total Marrons 25 18 75 3 75 25 Bleus 7 5 56 25 11 25 75 Total 10 75 15 100 TAB 3 5 Tableau des pourcentages th oriques exacts Et maintenant que nous avons nos pourcentages th oriques il est tr s facile de passer aux effectifs il suffit de multiplier dans chaque case le pourcentage th orique par l effectif total du tableau A nsi pour les bruns aux yeux marrons on obtient un effectif th orique de 2 5 x 120 c est dire 3 personnes On fait de m me pour toutes les cases du tableau et on obtient Bruns Blonds Roux Total Marrons 3 22 5 4 5 30 Bleus 9 67 5 13 5 90 Total 12 90 18 120 TAB 3 6 Tableau des effectifs th oriques exacts Petite surprise le tableau contient des nombres virgule En
56. une loi statistique La bonne nouvelle est donc que ce test peut s appliquer quels que soient les effectifs th oriques du tableau La mauvaise nouvelle est qu il est assez gourmand en temps de calcul C est la raison pour laquelle on le limite en g n ral aux tableaux de dimension 2x2 On peut cependant l appliquer des tableaux de plus grandes dimensions Partie 8 Aide m moire Cette partie r capitule les points importants retenir de tout ce qui pr c de On indique chaque fois entre crochets le num ro de la page correspondant au passage o ce point a t trait Le test du x s applique un tableau croisant deux variables qualitatives 5 Il vise tester l ind pendance des lignes et des colonnes de ce tableau Dire que les lignes et les colonnes d un tableau crois sont ind pendantes revient dire l une des phrases suivantes 6 le fait d appartenir la modalit d une des deux variables n a aucune influence sur la modalit d appartenance de l autre variable les profils lignes du tableau crois sont tous identiques les profils colonnes du tableau crois sont tous identiques Le test du x vise d terminer la probabilit d ind pendance des lignes et des colonnes de notre tableau Pour cela on commence par calculer les effectifs qu on observerait si les lignes et les colonnes taient parfaitement ind pendants en tenant notamment compte des contraintes sur les
57. une variable cach e laquelle les deux variables tudi es sont li es 31 Enfin il faut tenir compte du fait que le test peut perdre en fiabilit dans le cas o des cases du tableau ont des effectifs th oriques faibles 30 On peut cependant y rem dier soit en calculant le p par simulation soit l aide du test exact de Fisher 35 Bibliographie Alan AGRESTI Categorical Data Analysis Wiley Series in Probability and Statistics Wiley Interscience Hoboken 2002 Daniel CHESSEL Comment comparer des fr quences tr s faibles avril 2005 URL http pbil univ lyoni fr R querep qrc pdf Philippe CiBOIS Le pem pourcentage de l cart maximum un indice de liaison entre modalit s d un tableau de contingence Bulletin de m thodologie sociologique 40 43 63 septembre 1993 URL http pagesperso orange fr cibois bms93 pdf R DEVELOPMENT CORE TEAM R Language and Environment for Statistical Computing R Foundation for Statistical Computing Vienna Austria 2008 URL http www R project org ISBN 3 900051 07 0 38
58. urra se reporter Agresti 2002 p 81 5 7 Les r sidus 27 si un r sidu est positif c est que les effectifs dans la case sont sup rieurs ceux attendus sous l hypoth se d ind pendance S il est n gatif c est que les effectifs observ s sont inf rieurs aux effectifs th oriques les r sidus correspondant des carts statistiquement significatifs sont grosso modo ceux dont la valeur est sup rieure 2 ou inf rieure 25 Tout cela peut sembler compliqu mais un exemple permettra de mieux comprendre de quoi il s agit Exemple r el cette fois tir toujours de l enqu te Histoire de vie et pour lequel nous allons croiser la cat gorie sociale et le sentiment d appartenir ou non une classe sociale Appartient N appartient pas Ne sait pas Agriculteur 125 194 9 Ind pendant 190 300 6 Cadre 588 433 9 Interm diaire 842 694 10 Employ 1105 1227 38 Ouvrier 888 1024 45 Le x est extr mement significatif avec un p proche de z ro On peut regarder les pourcentages lignes Appartient N appartient pas Ne sait pas Agriculteur 38 1 59 1 2 7 Ind pendant 38 3 60 5 1 2 Cadre 57 1 42 0 0 9 Interm diaire 54 5 44 9 0 6 Employ 46 6 51 8 1 6 Ouvrier 45 4 52 3 23 Ensemble 48 4 50 1 1 5 Plus le nombre de cases est lev plus il devient difficile de lire le tableau valent les r sidus ici les r sidus de Pearson Regardons ce que Appar
59. ut simplement parce que nous l avons bien cherch En effet la contrainte sur les marges que nous avons d finie dans la section pr c dente pour le calcul des effectifs th oriques disait que les sommes en lignes et en colonnes des effectifs observ s devaient tre les m mes que celles des effectifs th oriques Ceci implique donc que la somme des carts doit tre gale 0 pour chaque ligne chaque colonne et donc pour la totalit du tableau Pour bien comprendre prenons la deuxi me colonne de notre tableau Dans la premi re case nous avons ajout 2 4 aux effectifs observ s pour passer aux th oriques Comme nous voulons avoir le m me total au bout du compte on a gu re le choix sur ce qu on peut faire dans la deuxi me case Si on a rajout 2 4 dans la premi re on est oblig d enlever la m me chose dans la deuxi me Et la somme du tout vaut forc ment 0 4 2 Variations l chelle d une cellule Avertissement cette section a tendance s loigner du x proprement dit elle est de plus d une lecture plut t ardue Son int r t tant davantage p dagogique que pratique elle peut tre all grement ignor e en cas de premi re lecture ou de d but de mal de cr ne On passera alors directement la section suivante page 17 Bien nous avons d sormais notre tableau d cart Il est tr s joli Mais au fond il ne nous dit y J y y pas grand chose Essayons de comprendre ce que signifie la premiere l
60. x et de n ils du tableau 3 2 en pourcentages ce qui donne le r sultat suivant Bruns Blonds Roux Total Marrons Bleus Total 10 75 15 100 25 75 100 TAB 3 4 R partition des couleurs des cheveux et des noeils dans la population en pourcentages Avertissement les trois paragraphes qui suivent peuvent tre un peu p nibles comprendre Si la lecture des pr c dentes sections vous a d j plong dans un tat de l thargie avanc il est temps d aller prendre un caf ou un jus de carottes Sinon n h sitez pas relire plusieurs fois les passages incompr hensibles On se pose la question suivante sachant que dans une population nous avons 10 de bruns et 25 de personnes aux yeux marrons sous l hypoth se d ind pendance des couleurs de cheveux et de n ils quelle proportion d individus devrait avoir les cheveux bruns et les yeux marrons Pour r pondre cette question on peut penser au fait que l hypoth se d ind pendance signifie que la proportion de personnes aux yeux marrons est la m me quelle que soit la couleur des cheveu Elle est donc de 25 pour les personnes ayant les cheveux bruns Cela signifie qu un quart des 10 de personnes aux cheveux bruns ont les yeux marrons ou encore que 2 5 de la population totale a la fois les cheveux bruns et les yeux marrons 3 2 5 tant un quart de 10 3 4 En r sum 11 Pourcentages th oriques De mani re g n rale la r gle est la s
61. xi me case de la premi re ligne mais pas plus En fait pour pouvoir reconstruire l ensemble du tableau j ai besoin de conna tre les effectifs de trois cases De mani re plus g n rale le nombre de cases d un tableau pouvant varier librement dans un tableau avec contraintes sur les marges est toujours gal Nombre de lignes 1 x Nombre de colonnes 1 Et c est pr cis ment avec cette formule qu on calcule le nombre de degr s de libert d un ta bleau 4 5 Le calcul final Bien nous avons d sormais d un c t la valeur du x pour notre tableau et de l autre son nombre de degr s de libert s Rappelez vous ce que nous avions fait dans la section 4 2 page 14 nous avions r ussi calculer pour une cellule de tableau la probabilit d obtenir un effectif donn sous l hypoth se d ind pen dance Ce calcul avait t obtenu en faisant toute une s rie de simulations informatiques On pourrait proc der de la m me mani re l chelle de l ensemble du tableau mais on se heurte vite deux obstacles 1 C est plus compliqu 2 Les ordinateurs n existaient pas quand le test du x a t invent La statistique va donc nous permettre de d terminer directement le m me r sultat qu l chelle de la cellule mais sans avoir effectuer de simulations et en utilisant des raisonnements math ma tiques Elle va ainsi nous permettre de d terminer imm diatement q
Download Pdf Manuals
Related Search
Related Contents
Maytag PPA3SE Technical Literature TOIT NET 安全データシート Bandridge BCP860 Series 90-70 Programmable Controller Troubleshooting Guide, GFZ Copyright © All rights reserved.
Failed to retrieve file