Home

Les sondages : délaissés par les statisticiens et malmenés

image

Contents

1. En effet gr ce au calcul des probabilit s on peut inf rer partir des r sultats obtenus sur l chantillon les r sultats concernant la population cible et donner une estimation par intervalle de confiance des param tres de la population L chantillon stratifi est un chantillon deux degr s on r partit la population en strates unit s primaires et on tire un chantillon d individus unit s secondaires dans chaque strate On fait donc un recensement au premier niveau On peut utiliser plusieurs degr s Par exemple l ensemble des m nages fran ais est r parti selon les cat gories d agglom ration de leur lieu d habitation rural agglom ration de moins de 20 000 habitants agglom ration de 20 000 100 000 habitants agglom ration de plus de 100000 habitants agglom ration parisienne puis selon les cantons l int rieur des cat gories On tire un chantillon al atoire de cantons unit s secondaires dans chaque cat gorie d agglom ration strates au premier degr Pour chaque canton de l chantillon on utilise une nouvelle partition g ographique en quartiers unit s tertiaires et on tire un chantillon de quartiers On constitue alors la base de sondage des m nages des quartiers s lectionn s avant de tirer un chantillon al atoire de m nages unit s quaternaires 5 M thode empirique des quotas Reprenons l article de Michel Lejeune En pratique on est loin de se tro
2. n a pas r fl chi au pr alable la question pos e il risque de r pondre peu pr s n importe quoi Que r pondrait un intellectuel si on le mettait dans la situation de choisir entre travailler comme outilleur ou comme chaudronnier dans une usine Il faut galement tenir compte de la disponibilit du r pondant de son tat de fatigue physique ou psychologique de la coh rence de ses choix Des r ponses deux questions voisines peuvent tre tr s diff rentes ce qui causera de grandes difficult s d interpr tation Les questions pr c dentes ne rel vent pas de la statistique mais de la discipline qui a commandit le sondage de la psychosociologie m me si des m thodes statistiques permettent de contourner certains obstacles comme par exemple la m thode Warner pour inciter donner des r ponses sinc res des questions d licates Cf la m thode utilis e pour l enqu te aupr s des lyc ens sur l usage de la drogue explicit e ci dessous 2 Marge d erreur de 3 du sondage par quotas Dans le premier article Roland Cayrol consid re que pour cette lection les critiques faites aux sondeurs sont infond es Il pr sente un tableau montrant les r sultats du dernier sondage 17 18 avril et les r sultats du premier tour de l lection pr sidentielle du 21 avril l cart en valeur absolue est inf rieur 3 pour chacun des candidats marge d erreur de la technique On a en effet pour les tr
3. quand on parle d un chantillon repr sentatif il faut pr ciser de quelle population et par rapport quels crit res Ici comme il s agit d un chantillon al atoire simple de taille 10000 il sera repr sentatif par rapport tous les crit res de la population accessible dans lequel ila t tir Ce sera le cas galement pour la r partition des votes selon les candidats Si 46 de la population des internautes vote pour le candidat X alors que c est le cas de 52 de la population cible notre chantillon fournira la proportion 46 et non pas la proportion 52 d o une estimation biais e de la proportion cherch e Un d faut de couverture peut entra ner un biais important dans les estimations Remarque 3 Redressement de l chantillon Bien s r il est facile de demander chaque internaute enqu t de dire dans quelle classe d ge il se situe Gr ce l INSEE on conna t la r partition de la population cible selon les trois classes d ge 32 40 28 alors que notre chantillon de taille 10 000 fid le repr sentant de la population accessible se r partit selon les proportions 40 50 10 R partition selon trois classes d ge Ooo E Supposons que les proportions d intentions de vote pour le candidat X soient les suivantes Proportions de votants pour X oo ge1 ge ge3 Ens La proportion globale de votants pour X observ e sur
4. teur propose chaque lyc en de r aliser en son absence la proc dure suivante Lancer une pi ce Si elle tombe sur pile r pondre la question est ce que vous fumez plus d un paquet de cigarettes par semaine oui non Si elle tombe sur face relancer une deuxi me fois la pi ce et r pondre la question est ce que vous tes tomb sur pile au deuxi me lancer oui non Lorsque le questionnaire porte la mention oui resp non l enqu teur ne peut pas savoir si le lyc en a r pondu la premi re ou la deuxi me question Soit p la proportion de oui Proposer une mod lisation de cette proc dure al atoire et calculer en fonction de p la proportion de fumeurs de plus d un paquet de cigarettes par semaine du lyc e Solution Soit Q la population de lyc ens qui ont particip l enqu te Soit x la proportion de fumeurs et p la proportion de ceux qui ont r pondu oui la question On suppose que 1 lyc en sur 2 a obtenu pile resp face au premier lancer resp au deuxi me lancer le cas ch ant et on suppose que le fait de fumer est ind pendant du fait d obtenir pile lors du lancer d une pi ce de monnaie On a alors l arbre de fr quences conditionnelles suivant PILE 1 2 FACE 1 2 OUI x NON I x OUI 1 2 NON 1 2 i 1 1 On en d duit p F x et donc x 2p 4 On peut donc estimer la proportion x de fumeurs chez les lyc en
5. m me question pos e sous forme affirmative ou sous forme n gative les r ponses sont tr s diff rentes Soit une maladie grave et un traitement chirurgical lourd si vous demandez le traitement r ussit 70 vous feriez vous op rer alors une majorit r pond oui Si vous formulez la m me question sous la forme suivante le traitement a un risque d chec de 30 vous feriez vous op rer alors une majorit r pond non Il faut ensuite analyser la fa on dont les individus de l chantillon r pondent Il y a d abord s interroger sur la sinc rit des r ponses Ainsi dans les sondages pr lectoraux les intentions de votes pour les extr mes sont souvent sous estim es Cela a t longtemps vrai pour le vote communiste c est probablement encore vrai pour le vote Front National d o les redressements effectu s par les instituts sp cialis s partir des carts observ s une lection pr c dente entre les intentions et le vote r ellement enregistr Mais la m thode est hasardeuse sans jeu de mots En 1981 les intentions de votes en faveur de Georges Marchais avaient t redress es tort et le vote communiste surestim cette date on ne cachait plus son intention de voter pour le candidat du parti communiste mais le ph nom ne n avait pas t d tect par les politologues La qualit des r ponses d pend aussi de la r ceptivit des individus interrog s Si le sond
6. sultat est de 2 2 PRES mais celle du deuxi me r sultat est de 8 52x0 4 1 2 0 52x 0 48 car la taille de l chantillon de ceux qui ont r pondu 150 V150 cette deuxi me question est pr sent de 150 et non de 1 000 Dans les sondages pr lectoraux des pr sidentielles il est annonc par exemple que parmi les 15 de ceux qui ont l intention de voter pour tel candidat 52 reporteront leur voix sur tel autre candidat La marge d erreur sur la deuxi me information est quatre fois plus importante que celle sur la premi re 4 chantillon al atoire stratifi proportionnel puis optimal Prenons l exemple suivant pas tr s r aliste mais permettant bien d illustrer la situation l ensemble des salari s d une entreprise est compos de 300 cadres et 2 700 op rateurs On cherche estimer la masse salariale de l ann e distribu e par cette entreprise l aide d une enqu te aupr s d un chantillon de 100 salari s qui on demande de bien vouloir donner leur salaire mensuel moyen net chantillon al atoire stratifi proportionnel Dans la liste des noms des 3 000 salari s est indiqu le statut cadre ou op rateur ce type d information est appel e information auxiliaire Plut t que tirer un chantillon al atoire simple de taille 100 dans l ensemble des 3 000 individus on peut tirer deux chantillons al atoires simples de tailles respectives 10 et 90 dans l ensemb
7. un niveau de confiance de 95 On peut donc se tromper dans 5 des cas Il est important de remarquer que la pr cision de l estimation ne d pend pas de la taille N de la population et ne d pend pas non plus du taux de sondage s il est inf rieur 1 10 Un sondage al atoire simple probabilit s gales de taille 1 000 dans une population de taille 20 000 000 taux de sondage 1 20 000 est plus pr cis qu un sondage al atoire simple probabilit s gales de taille 600 dans une population de taille 12 000 taux de sondage 1 20 Illustrons ce r sultat contre intuitif pour savoir si la soupe est sal e une fois bien m lang e il suffit de go ter une cuiller e de soupe que cette cuill re soit extraite d un petit bol ou d un tr s grand chaudron Enfin ce r sultat est valable dans les conditions id ales tirage al atoire absolu taux de r ponse 100 aucune fausse d claration d crites par Michel Lejeune Ce r sultat fait partie des th mes d tudes du programme de seconde Le professeur qui le traite satisfait la curiosit de ses l ves de seconde tout en concourant leur formation citoyenne Remarque 1 chantillon al atoire simple repr sentatif pour n assez grand Si la population est r partie selon trois classes d ge selon les proportions 32 40 28 alors un chantillon al atoire simple probabilit s gales de taille 10 000 pr sente une r partition selon ces trois clas
8. Les sondages d laiss s par les statisticiens et malmen s par les politologues Jeanne Finel amp Jean Louis Piednoirl Les p riodes lectorales sont l occasion de s interroger sur une technique qui tient la fois de la sociologie et de la statistique donc des math matiques les sondages Mais il y a des sondages tout au long de l ann e pour les cotes de popularit pour le lancement d un nouveau produit de grande consommation Pour une manifestation organis e par la soci t fran aise de statistique SFdS Jeanne Fine a r dig cet article de vulgarisation qui a t revu et compl t par Jean Louis Piednoir qui la remercie vivement de l avoir autoris adapter son texte 1 Introduction vocabulaire Le point de d part de ce travail est la publication dans Le Monde du 26 avril 2002 de deux articles situ s c te c te Sondages et regrets par Roland Cayrol Directeur associ de l Institut CSA et Faute de contr les par Michel Lejeune Statisticien Les deux auteurs commentent le surprenant r sultat du premier tour de l lection pr sidentielle du 21 avril le second tour opposera Chirac Le Pen et non Chirac Jospin comme l annon aient les sondeurs Les sondeurs se sont encore tromp s On notera que les seuls sondages dont on peut v rifier la fiabilit sont les sondages pr lectoraux condition qu entre la date du sondage et celle du vote il n y ait pas d vo
9. adres et 43 op rateurs fournit une a estimation par intervalle 95 de confiance de la forme 1 96 a soit respectivement 126 77 et A41 en reprenant les valeurs donn es pr c demment au lieu de leur estimation
10. aille 1 000 r alis s ind pendamment et dans les m mes conditions donnent le m me r sultat 18 est gale 0 32 soit 3 pour 10 000 Il faut donc comprendre que ces r sultats sont moyenn s pour tenir compte de tous les sondages r alis s les derniers jours ce qui explique que sondeurs et journalistes les commentent comme s ils taient quasi certains comme pour un chantillon al atoire stratifi proportionnel de taille 7 000 De plus ils sont redress s ce qui signifie qu ils sont obtenus partir de mod les qui ont normalement pour objectif de r duire les marges d erreur Ce n est qu apr s les lections que les sondeurs rappellent qu il y a une marge d erreur de 3 inh rente la m thode que les journalistes oublieraient de mentionner Michel Lejeune ajoute Quant aux m dias ils sont les dupes peut tre les complices des discours l nifiants des instituts Ce sont principalement les m dias qui commandent les sondages pr lectoraux et qui les commentent Avant de converger de fa on suspecte les m dias publient pendant des mois des sondages aux r sultats contradictoires pourtant r alis s les m mes jours Il n y a qu en France que sont publi s autant de sondages reposant sur une m thodologie aussi peu fiable 6 Les sondages d laiss s par les statisticiens et malmen s par les politologues Voici le dernier extrait de l article de Michel Lejeune qui explique l
11. ance de l ensemble est la somme des variances intra et inter u 1 670 et o 643 Remarque L cart type de l ensemble est 643 l cart type intra est 391 et la moyenne des carts 9 types est CO y 1200 T 100 210 on v rifie les in galit s lt 0 lt O intra La deuxi me in galit est une galit lorsque les moyennes des groupes sont gales gales alors la moyenne de l ensemble La premi re in galit est une galit lorsque les carts types des groupes sont gaux gaux alors l cart type de l ensemble Estimation de la moyenne par intervalle de confiance 95 Supposons pr sent que l on cherche estimer le salaire moyen u partir d un chantillon al atoire de taille 100 On dispose de la liste des 3 000 salari s avec indication de leur statut cadre ou employ et des tudes ant rieures permettent de supposer que l cart type des salaires des cadres est gal 12 fois celui des salaires des op rateurs Cadres 300 Op rateurs 2 700 Ensemble 3 000 un sondage al atoire simple de taille 100 probabilit s gales avec remise fournit a 7 une estimation par intervalle 95 de confiance de la forme 1 96 0 un sondage al atoire stratifi proportionnel 10 cadres et 90 op rateurs fournit une A P estimation par intervalle 95 de confiance de la forme 1 96 E un sondage al atoire stratifi optimal 57 c
12. ariance v X z en Le 1 n ant CO 0 et que la variance en pos 0 N i n NJP e77 N I A corrig e de l chantillon S est un estimateur sans biais de i on en d duit que 2 vm S est un estimateur sans biais de v X Les intervalles de n confiance sont donc r duits par rapport un chantillon al atoire avec remise la r duction tant d autant plus importante que le taux de sondage n N est proche de 1 On retrouve le r sultat intuitif selon lequel la variance de la moyenne d chantillonnage X est nulle dans le cas d un recensement n N Application Reprenons l exemple propos dans le texte L ensemble des salari s d une entreprise est compos de 300 cadres et 2 700 op rateurs Dans chacun des deux groupes la moyenne et l cart type des salaires sont donn s dans le tableau suivant Effectif 3 200 1 200 2 700 1 500 3 000 D composition de la moyenne et de la variance sur la partition cadres op rateurs Soit u et la moyenne et l cart type de la distribution des salaires sur l ensemble des salari s Alors on a H E x3 200 Z x1500 1670 la moyenne de l ensemble est la moyenne des moyennes Ola x 1200 xX 100 153000 391 la variance intra est la moyenne des variances des groupes o x6 200 1 670 x l 500 1670 260 100 la variance inter est la inter variance des moyennes des groupes 6 06 0 413100 643 la vari
13. au hasard soit compris entre 45 et 55 Nous savons qu il y a 50 de boules rouges dans le sac donc la proportion exacte de boules rouges aura t approch e par le tirage d un chantillon al atoire avec une marge d errur un intervalle de confiance de 10 45 55 Et il reste encore cinq chances sur cent que le r sultat du tirage soit ext rieur cette fourchette Il est vrai que la marge d erreur 95 est de 10 cf le tableau pr sent pr c demment ce qui donne un intervalle de confiance de la forme 50 10 et non 50 5 comme l crit Roland Cayrol La confusion vient peut tre de l criture ambigu signal e plus haut 10 de 50 correspond bien 5 On a pris des pourcentages relatifs pour des pourcentages absolus Ces quelques lignes sont la seule partie technique du livre de Roland Cayrol 130 pages ce qui prouve que la pratique des sondages d opinion n a pas grand chose voir avec la th orie des sondages Les sondeurs s abritent parfois derri re le fait que l INSEE utilise la m thode des quotas contrairement aux instituts nationaux de statistique anglo saxons mais l INSEE n utilise les quotas qu en dernier degr d un sondage al atoire plusieurs degr s et apr s avoir valid la m thode par un sondage al atoire pur jusqu au dernier degr Une enqu te par la m thode des quotas correctement men e reposant sur des mod les de comportement de la population pour la d fi
14. chantillon al atoire de taille n consid r La marge d errur 95 de confiance est donn e dans le tableau suivant pour quelques valeurs de la proportion p observ e sur l chantillon et de la taille n P chantillon p p Marge d erreur 95 de confiance 24 n Proportion observ e p 10 20 30 40 50 ou 90 ou 80 ou 70 ou 60 Taille chantillon n On remarque que taille fix e de l chantillon c est pour une proportion p proche de 50 derni re colonne du tableau que l intervalle est le plus grand Il s crit alors Vn vhn les lecteurs avis s auront remarqu que le produit p 1 p est maximum si p 1 p 1 2 Pour un chantillon de taille 1 000 on a 1 41000 3 il s agit de la marge d erreur qu il serait en fait pr f rable d appeler marge d incertitude indiqu e dans l article de Michel Lejeune mais aussi dans celui de Roland Cayrol Cette marge d erreur est parfois exprim e en points et non en pour viter de sugg rer 3 de la proportion p ce qui donnerait une marge erron e 1 5 pour p 50 Si l on observe une proportion p gale 52 sur un chantillon de taille 1 000 au lieu de laisser croire que la proportion P inconnue est quasiment gale 52 il faudrait annoncer que la proportion P est comprise entre 49 et 55 et annoncer de plus que cette affirmation n est pas certaine que cet intervalle a t construit avec
15. cien sondage enqu te aupr s d un chantillon de la population s oppose recensement enqu te aupr s de toute la population propos de recensement il est int ressant de savoir que jusqu en 2004 le d nombrement de la population fran aise se faisait par recensement tous les sept neuf ans il se fait depuis par sondage al atoire et par rotation tous les ans cf la pr sentation de la nouvelle m thode sur le site de l INSEE http www insee fr fr nom_def_met sources sou rp htm ce nouveau d nombrement permettra d obtenir partir de 2008 une am lioration sensible de la qualit de l information Remarque quelles sont les conditions pr alables pour un sondage de qualit Quand un sociologue ou un politologue commande ou analyse un sondage d opinion c est pour recueillir des informations sur un tat de celle ci Leur pertinence d pend de plusieurs facteurs 1 la qualit des questions pos es 2 la qualit des r ponses des sond s 3 l utilisation de techniques statistiques appropri es 4 Y int gration ventuelle d informations provenant d autres sources Le pr sent expos traite essentiellement du point 3 mais examinons rapidement les deux premiers Dans les tudes sur des lections venir les questions pos es sont simples et ne comportent pratiquement pas d ambigu t Il n en est pas de m me dans d autres tudes Par exemple pour la
16. d cart type nP 1 P et la fr quence p oui est l observation d une variable al atoire de moyenne P et d cart type JPA P n Deux th or mes de probabilit permettent de conclure la loi des grands nombres la probabilit que p s carte de P de plus qu un gt 0 arbitraire tend vers 0 lorsque n augmente ind finiment et le th or me central limite p est l observation d une variable al atoire dont la loi est proche de la loi normale de moyenne P et d cart type yP 1 P n pour n assez grand Ce th or me permet de contr ler la vitesse de convergence de p vers P en particulier plus de 95 des valeurs de p sont comprises entre P 24 P 1 P n et P 24 P 1 P n La statistique inf rentielle classique repose sur ces deux th or mes C est parce que l on contr le le comportement des observations faites sur des chantillons al atoires que l on peut donner des informations sur les param tres inconnus de la population dont sont extraits les chantillons en contr lant la probabilit de se tromper En particulier on d duit du r sultat pr c dent que 95 des chantillons al atoires de taille n permettent de construire un intervalle p 24p0 p77 p 2Jp0 p n contenant la proportion inconnue P estimation de P par intervalle 95 de confiance En moyenne dans 95 des cas la proportion P est donc dans l intervalle indiqu On peut esp rer que c est le cas pour l
17. dire une confiance de 95 la proportion P inconnue sur la population appartient l intervalle E pa p pa p p 2 rue p 2 vu Dans l nonc du th or me on a utilis le th or me central limite asymptotiquement la loi binomiale que suit la variable nombre d individus de A dans l chantillon est proche de la loi de Gauss dite aussi loi normale On suppose ici que le taux de sondage n N est n gligeable inf rieur 1 10 ce qui revient assimiler le sondage sans remise on extrait une partie de taille n la population un sondage avec remise on extrait un l ment de la population n fois de suite dans les m mes conditions L id e de la preuve est la suivante Reprenons l exemple du r f rendum Nous disposons d une urne avec des millions de bulletins dont une proportion P indique le oui le reste indiquant le non Si l on tire au hasard c est dire avec quiprobabilit un seul bulletin de l urne il indiquera oui ou non avec probabilit s P et 1 P respectivement en appliquant la r gle nombre de cas favorables sur nombre de cas possibles Si l on r p te l exp rience de tirer un bulletin de l urne n fois dans les m mes conditions tirage avec remise d un chantillon al atoire de taille n alors le nombre de oui est l observation d une variable al atoire binomiale de taille n et de param tre P donc de moyenne n P et
18. e corrig e de l chantillon c est dire la somme des carr s des carts la moyenne divis e par n 1 au lieu de n alors s est l observation d une variable al atoire not e S d esp rance math matique o On en d duit que V X S n est un estimateur sans biais de V X 0 n D s que la taille de l chantillon est suffisamment grande sup rieure ou gale 30 la loi de probabilit de X peut tre approch e par une loi gaussienne et on peut estimer u par l intervalle 95 de confiance 1 96 V x c est dire x 1 96 ici V X v x d signent une observation de la variable Vn al atoire not e de la m me fa on Sondage al atoire stratifi probabilit s gales avec remise La population est r partie en H sous populations de tailles N 4 1 H avec H N N On tire de fa on ind pendante dans les H sous populations appel es h 1 strates H chantillons al atoires probabilit s gales avec remises de tailles fix es H n h 1 H et on pose n n On note u et o la moyenne et l cart type h 1 de X sur la sous population S h 1 H On a alors les galit s d composition de la moyenne et de la variance sur la partition de la population que constituent les strates 1N u h et o 0 atO a h 1 2 N H N avec Oina S N o moyenne des variances et O Y RU u variance h 1 des moyennes On obse
19. e titre de son article Fautes de contr les et de cette intervention et de ce paragraphe Il faut savoir qu il n y a aucun statisticien sp cialiste de la th orie des sondages dans les cinq instituts concern s Aujourd hui la communaut scientifique doit se sentir en partie responsable de ce qui vient de se produire Par d dain elle n a jamais voulu s int resser la pratique des sondages ni vraiment d ailleurs la th orie Effectivement pendant des ann es la pratique des sondages tait consid r e par les statisticiens universitaires comme une activit ne concernant que la statistique publique INSEE INED ne pr sentant donc aucun int r t pour la formation des tudiants ni sur un plan p dagogique ni pour une recherche th orique M me l INSEE les recherches taient davantage tourn es vers l conom trie que vers la th orie de l chantillonnage Encore aujourd hui certains cursus universitaires de statistique ne comportent ni cours sur les sondages ni m me sur les plans d exp riences les deux domaines dans lesquels le recueil des donn es statistiques est construit en fonction de l objectif de T tude C est en octobre 1986 que l Association des Statisticiens Universitaires anc tre de la SFdS organise les deuxi mes Journ es d tude en Statistique sur Les Sondages journ es de formation pour statisticiens Depuis des cours ont t cr s dans plusieurs uni
20. ent ceux qui ont d j consomm de la drogue parmi les r pondants La proportion d l ves qui d clarent avoir d j consomm de la drogue est donc de 29 18 de filles et 44 de gar ons Mais nous cherchons conna tre la proportion d l ves qui ont consomm de la drogue parmi les l ves du lyc e et non parmi les l ves qui ont r pondu notons x et x ces proportions inconnues pour les filles et pour les gar ons Supposons que le fait de r pondre d pende du fait d avoir consomm ou non de la drogue mais ne d pende pas du sexe on note p la proportion des r pondants parmi ceux qui ont consomm et p parmi ceux qui n ont pas consomm ces proportions sont suppos es identiques pour les filles et pour les gar ons mod lisation du comportement de non r ponse avec deux param tres Nous pouvons alors repr senter le probl me par l arbre de fr quence conditionnelle suivant et r pondre nos questions Transformons cet arbre en tableau Filles 300 RE EP TEEN R ponses oUr 7 ab SSS R ponses NON oep Gar ons 300 Consommateurs x Non consommateurs 1 x Ne 7 R ponses OUI p nb r p 63 y y R ponses NON p nb r p 81 On a alors x P 63 300 1 x p 81 300 x p 36 300 1 x p 162 300 Des calculs simples permettent d obtenir 0 7 p 0 3 p 0 9 x 0 4 x G On obtient une proportion de r po
21. it eu lieu domicile pendant les heures de bureau Le grand avantage de la m thode des quotas est qu elle ne n cessite pas de disposer d une base de sondage d o comparativement un sondage al atoire de m me taille un tr s faible co t et une tr s grande rapidit L inconv nient est qu il n est pas possible de calculer la pr cision des estimations obtenues La m thode des quotas est une imitation d un sondage al atoire stratifi proportionnel qui on l a vu est meilleur qu un sondage al atoire simple C est la raison pour laquelle les sondeurs croient ou feignent de croire comme l crit Michel Lejeune que la m thode des quotas est meilleure que le sondage al atoire simple Ils annoncent quand ils le font la marge d erreur d un chantillon al atoire simple de m me taille cela explique la marge de 3 du sondage par quotas de taille 1 000 annonc e par Roland Cayrol Dans le livre de Roland Cayrol intitul Sondages mode d emploi on lit page 38 C est le fameux exemple des boules rouges et des boules noires tir es dans un sac qui comporte le m me nombre de boules rouges que de boules noires Si l on tire un chantillon de 100 boules du sac mais attention d une mani re purement et absolument al atoire la th orie des probabilit s indique qu il y a 95 chances sur 100 attention encore pas cent pour cent pour que le nombre de boules rouges ainsi tir es
22. l chantillon 46 est une moyenne pond r e des proportions de votants pour X de chaque classe d ge les poids correspondant la r partition de l chantillon selon l ge 0 45X0 40 0 46X0 50 0 54X 0 10 0 46 Le redressement d chantillon consiste utiliser la r partition de la population cible connue de fa on pr cise par ailleurs au lieu de la r partition de l chantillon on obtient 0 45X0 32 0 46xX0 40 0 54X 0 28 0 48 On n obtient toujours pas la proportion cherch e 52 Quelle que soit la classe d ge la proportion de ceux qui votent pour X parmi les internautes est diff rente de la proportion de ceux qui votent pour X dans la population cible La diff rence entre 52 proportion cherch e et 46 estimation biais e ne s explique pas uniquement par la diff rence de r partition selon les classes d ge de la population des internautes et de la population cible Le redressement d chantillon revient donner un poids de 2 8 0 28 0 10 chaque internaute de la troisi me classe d ge sous repr sent e dans l chantillon par rapport la population cible de m me on donne un poids 0 8 0 32 0 40 chaque internaute de la premi re classe et un poids 0 8 0 40 0 50 chaque internaute de la deuxi me classe Cela permet de reconstituer un chantillon d internautes repr sentatif de la population cible selon les classes d ge mais si les internau
23. le des cadres et dans l ensemble des op rateurs Il s agit alors d un chantillon al atoire stratifi les cadres et les op rateurs constituent les deux strates repr sentatif de l ensemble des salari s pour le statut puisque la r partition des cadres et des op rateurs dans l chantillon est la m me que dans la population Plut t que repr sentatif on utilisera l adjectif proportionnel On a en effet proportionnalit entre les tailles des chantillons des strates et les tailles des strates n N On montre que taille d chantillon constante la pr cision des estimations peut tre consid rablement am lior e en utilisant l chantillon al atoire stratifi proportionnel plut t que l chantillon al atoire simple l am lioration est d autant meilleure que les moyennes par strates de la variable objet de l enqu te ici le salaire sont diff rentes cf annexe 2 chantillon stratifi proportionnel 300 cadres 2700 op rateurs 10 _ 300 90 _ 2700 100 3000 100 3000 chantillon al atoire stratifi optimal Intuitivement cette r partition proportionnelle de l chantillon ne semble pas la meilleure En effet les op rateurs ont quasiment tous les m mes salaires assez proches du SMIC alors que les cadres ont des salaires bien plus dispers s entre les jeunes ing nieurs et les dirigeants plus g s Interroger 90 personnes qui donnent quasiment la m me r ponse et seule
24. lution de l tat de l opinion publique et que les intentions de vote se traduisent par des votes r els Il m a sembl que le lecteur non averti retiendrait plus facilement les justifications de Roland Cayrol que les critiques de Michel Lejeune Une formation du citoyen aux sondages passe par la compr hension des arguments expos s dans les deux articles c est l objet de cet expos Avant de poursuivre pr cisons le vocabulaire utilis En France le mot sondage d signe la fois l enqu te par sondage sampling en anglais et le sondage d opinion poll en anglais Le premier s appuie sur une th orie probabiliste le second est purement empirique Nous allons parler aujourd hui de th orie et pratique des sondages dans le premier sens du terme c est dire chantillonnage et estimation en populations finies Les deux sens du terme sondage se rejoignent dans la mesure o les sondeurs qui effectuent les sondages d opinion par la m thode des quotas se r f rent la th orie des sondages pour justifier leurs pratiques Signalons une autre confusion dans l utilisation des mots hasard et al atoire Dans le langage courant un r sultat est al atoire ou un v nement arrive par hasard lorsqu il est impr vu inattendu subi En probabilit s et IUFM de Toulouse Inspecteur g n ral honoraire statistique en revanche les va
25. ment 10 cadres pour estimer le salaire moyen des cadres ne semble pas id al On montre en effet que taille d chantillon global fix la r partition de l chantillon entre op rateurs et cadres qui donne la meilleure pr cision n est pas l chantillon proportionnel mais un chantillon qui tient compte galement de la dispersion selon les strates de la variable objet de l enqu te Plus pr cis ment la r partition optimale est celle dans laquelle les tailles des chantillons sont proportionnelles aux produits de la taille de la strate par l cart type du caract re dans la strate correspondante n N Op L am lioration de la r partition optimale sur la r partition proportionnelle est d autant meilleure que les carts types par strates sont diff rents cf annexe 2 L chantillon al atoire stratifi proportionnel n est donc pas pour le statisticien sp cialiste des sondages la panac e Tout son travail repose sur la recherche du meilleur chantillon al atoire en fonction de l objectif de l tude et des moyens budget faisabilit disponibles Il utilise les informations auxiliaires pour construire le plan d chantillonnage et valuer les pr cisions des estimateurs associ s Tous les chantillons al atoires dont toutes les tapes de la proc dure de s lection jusqu au suivi sur le terrain sont d ment contr l es sont alors consid r s comme des chantillons repr sentatifs
26. ndants de 30 parmi ceux qui ont consomm et de 90 parmi ceux qui n ont pas consomm 40 des filles du lyc e et 70 des gar ons du lyc e ont d j consomm de la drogue On en d duit que 55 0 4 0 7 2 des l ves du lyc e ont d j consomm de la drogue et non pas 29 comme annonc au d part en ne tenant compte que de ceux qui ont r pondu Remarquons que l ensemble des r pondants joue un r le analogue celui des internautes de l exemple pr c dent La r ponse notre question de consommation de drogue est connue sur l ensemble des l ves qui ont accept de r pondre population disponible et non sur l ensemble des l ves du lyc e population cible Cette analogie est la raison pour laquelle le probl me des non r ponses est pr sent dans ce paragraphe Pour des questions sensibles susceptibles d engendrer une forte proportion de non r ponses 1l est possible pour viter les non r ponses de mettre en place un dispositif astucieux reposant sur une proc dure al atoire de recueil des r ponses cf annexe 1 Remarque 5 estimation d une proportion dans une sous population Prenons l exemple fictif du r sultat annonc d une enqu te sur les d parts en cong s par sondage al atoire simple probabilit s gales avec remise de taille 1 000 15 sont partis en vacances parmi eux 52 sont partis l tranger La marge d erreur 95 de confiance du premier r
27. nition des variables de quotas sur une population accessible repr sentative de la population cible pour la variable d int r t sur une taille d chantillon importante sur un taux de non r ponses faible utilis e ventuellement en dernier degr d une enqu te les autres tant al atoires peut donner de bons r sultats Des tudes th oriques sur la justification et les limites de la m thode ont t publi es cf en particulier Une th orie des enqu tes par quotas de J C Deville Technique d enqu te Statistique Canada 17 2 1991 Nous critiquons ici l utilisation qui en est faite par les sondeurs et journalistes en p riode pr lectorale L argument selon lequel il s agit seulement d une photographie qui ne permet pas de pr dire le r sultat final car les intentions de vote sont fluctuantes n est pas le moindre irrecevable En effet m me le jour de la publication les commentaires sollicitent les donn es num riques bien au del des r sultats du sondage m me si l on tient compte de marges d erreur qu il est impossible de mesurer Poursuivons l article de Michel Lejeune Un sondeur a r cemment d clar que le vote Le Pen constat dans les chantillons devait tre multipli c est dire redress par 2 selon des r gles math matiques rigoureuses ajoutait il D o vient ce coefficient 2 confirm par d autres sources tout rond Pourquoi pas 2 1 o
28. oire absolu taux de r ponse 100 aucune fausse d claration on obtient sur de tels pourcentages une incertitude de plus ou moins 3 tant donn la taille de l chantillon Il est fait mention du premier r sultat de la th orie des sondages estimation par intervalle 95 de confiance d une proportion sondage al atoire simple de taille n probabilit s gales En voici une visualisation puis l nonc du th or me On note A une partie de la population ce peut tre par exemple la population N qui vote oui un r f rendum La proportion P N de A dans la population avec des notations videntes est inconnue et l objectif est d estimer cette proportion appel e param tre d int r t partir d une enqu te par sondage Apr s enqu te aupr s d un chantillon de taille n on peut calculer la proportion de A dans l chantillon n P p les notations sont encore videntes n Echantillon Taille n fix e Population Taille N connue N P inconnue n p 4 observ e n Th or me approch Soit une partie de la population et P la proportion de A dans la population Si l on tire dans la population un chantillon de n individus selon une proc dure al atoire garantissant l gale probabilit de tirage des chantillons et si l on observe une proportion p de A dans l chantillon alors avec une probabilit de se tromper de 5 c est
29. ois premiers candidats Sondage lection cart Imaginons que les r sultats soient annonc s avec une marge d erreur de 3 Pour cela on construit un intervalle de confiance ce qui signifie que la m thode utilis e pour l tablir avait une probabilit de 0 97 de recouvrir la vraie valeur inconnue de la proportion de votes pour tel ou tel candidat Il est donc possible que cette derni re soit en dehors de l intervalle de confiance mais la probabilit d un tel v nement est faible On obtient les r sultats suivants entre 16 5 et 22 5 des voix entre 15 0 et 21 0 des voix entre 11 0 et 17 0 des voix Il appara t que Le Pen peut tre second et m me premier toutes les configurations de l ordre des trois premiers candidats taient possibles Il est bien vident que si les sondeurs et les journalistes annon aient que leur marge d erreur est de 3 nous ne serions pas inond s de sondages comme c est le cas aujourd hui 3 Sondage al atoire simple probabilit s gales marge d erreur Voici pr sent le premier extrait de l article de Michel Lejeune Les derniers sondages indiquaient 18 pour Jospin et 14 pour Le Pen Pour les r es scientifiques qui savent comment sont produites les estimations l cart rendait tout fait plausible le sc nario qui s est r alis Si l on se r f re un sondage qui serait effectu dans des conditions id ales tirage al at
30. r les quotas c est dire jusqu obtenir un chantillon de taille 1 000 compos comme indiqu dans le tableau Les quotas sont parfois donn s en fonction des effectifs croisants sexe et ge Seulement 10 20 des personnes contact es par t l phone acceptent de r pondre ce type d enqu te condition que la base de num ros de t l phone couvre bien l ensemble des fran ais ayant un t l phone fixe la population disponible est donc l ensemble des personnes qui acceptent de r pondre une enqu te t l phonique sur leur t l phone fixe Inutile d ajouter apr s les d veloppements que nous avons vus pr c demment que le d faut de couverture et le biais peuvent tre tr s importants Les exemples de biais dus la m thode sont nombreux Une enqu te par quotas sexe ge PCS aupr s de la population toulousaine sur l utilisation des transports en commun enti rement r alis e en centre ville a donn des r sultats inutilisables car pratiquement tous les individus de l chantillon habitaient le centre et ne prenaient pas les transports en commun Il est vident qu il aurait fallu prendre en compte dans les quotas la r partition de la population selon les quartiers de la ville Autre exemple une enqu te sur la sant r alis e par quotas aupr s de la population de plus de 15 ans d une ville r v le une proportion anormalement lev e de personnes malades l enqu te ava
31. riables al atoires et leur loi de probabilit sont des objets bien identifi s et le hasard est construit selon une loi de probabilit En th orie des sondages tirer un chantillon al atoire ou probabiliste c est extraire un chantillon de la population selon une loi de probabilit sur l ensemble des chantillons que l on s est fix e l avance cette phase est appel e plan de sondage En particulier tirer un chantillon al atoire simple probabilit s gales de taille n on dit abusivement au lyc e tirer au hasard signifie que l on effectue cette op ration de telle fa on que tous les chantillons de taille n aient la m me probabilit d tre tir s Ceci n est possible qu en suivant des proc dures al atoires tr s contr l es par exemple en reportant dans une liste les identifiants de chacun des individus de la population liste appel e base de sondage et en utilisant de fa on ad quate le g n rateur de nombres pseudo al atoires de sa calculatrice ou de son ordinateur pour le tirage des individus Pour toute pr cision on se reportera l article suivant Parzysz B 2005 Quelques questions propos des g n rateurs al atoires Statistique au lyc e vol 1 coord par Chaput B amp Henry M 181 199 d APMEP Un tel chantillon n a donc rien voir avec un chantillon d individus rencontr s par hasard dans la rue Pour le statisti
32. rve que la dispersion globale est la somme de la dispersion l int rieur des classes et de la dispersion entre les classes Cette derni re est d autant plus grande que la division en classes est plus en relation avec le caract re tudi Si on note x la moyenne de la variable sur l chantillon c est l observation d une 2 2 vo 2 P 2 variable al atoire not e X d esp rance math matique u et de variance G n N On estimera donc u par la variable al atoire X DO qui a pour esp rance h 1 math matique u donc X est un estimateur sans biais de u et pour variance o h 1 n o Si on note s la variance corrig e de l chantillon observation d une variable 2 2 2 A 2 o al atoire not e S alors la variance de X peut tre estim e sans biais par A H s v x a gt N PA et d s que les tailles de l chantillon le permettent la loi de h 1 h probabilit de X peut tre approch e par une loi normale de moyenne u et de variance Xe a observation de la variable al atoire not e de la m me fa on d o une estimation de u par l intervalle 95 de confiance x 1 96 V x Dans le cas particulier d un chantillon al atoire stratifi proportionnel d fini par N _ o n nt h 1 H on v rifie oi Comme l on a Oa lt o avec galit lorsque les moyennes des strates sont gales l intervalle de confiance est plus petit dans le ca
33. s mais de vote r els L chantillon repr sentatif est l objet du d bat entre statisticiens qui eut lieu la fin du XIX si cle et au d but du XX si cle et qui se conclut dans les ann es trente sur l indiscutable sup riorit du choix au hasard sur le choix d experts appel aussi choix raisonn Remarque 2 d faut de couverture estimation biais e Bien s r le r sultat ci dessus suppose que la base de sondage dans laquelle s effectue le tirage de l chantillon correspond bien la liste des individus de la population cibl e par l enqu te Lorsque la population accessible par les enqu teurs est diff rente de la population cible on parle de d faut de couverture Supposons que l on tire un chantillon de taille 10 000 dans une population accessible par exemple la population des internautes sur laquelle la r partition des trois classes d ge dans l ordre croissant est 40 50 10 et non 32 40 28 comme c est le cas dans la population cible population des adultes fran ais gel ge ge3 Population Population chantillon Classes R partition Population accessible R partition Population cible L chantillon al atoire simple probabilit s gales de taille 10 000 sera pour la r partition selon les trois classes d ge repr sentatif de la population accessible et non de la population cible En r sum
34. s du sondage stratifi proportionnel que dans le cas d un sondage al atoire simple de m me taille n et d autant plus petit que la dispersion des moyennes des strates est grande chantillon al atoire stratifi optimal On peut chercher taille fix e n quelle est la r partition on parle aussi d allocation n PI na qui donne un estimateur de variance minimale On montre que la fonction PP TEN vo N h o Pen de n shig d finie par v x a est minimale sous la contrainte h 1 n E N O z aci PEE ET E A Xn n pour n h 1 H Cette r partition d finit l chantillon h 1 N O h 1 optimal et on obtient sous cette r partition Le moyenne des carts types Comme on a lt 0 avec galit lorsque les carts types des strates sont gaux l intervalle de confiance est d autant plus petit que les carts types des strates sont diff rents Remarques Dans le cas o X est l indicatrice d une sous population A c est dire gale 1 pour un l ment de A gale O sinon soit P la proportion de A par rapport la population Alors la moyenne u de X est P et l cart type de X est 4P 1 P L estimation d une proportion est un cas particulier d estimation d une moyenne Dans le cas d un chantillon al atoire de taille n probabilit s gales sans remise on montre que la moyenne d chantillonnage X est un estimateur sans biais de u v
35. s sans rien conna tre des r ponses individuelles Annexe 2 Sondage al atoire simple et sondage al atoire stratifi Soit X une variable quantitative d finie sur une population de taille finie N de moyenne U et d cart type o On cherche estimer u partir des r sultats obtenus sur un chantillon de taille n Il est d usage de noter un estimateur de u calcul partir des observations faites sur l chantillon Un estimateur est une variable al atoire d finie sur l ensemble des chantillons c est dire dont les observations varient d un chantillon un autre et on cherche ce qu il soit le plus proche possible de u On choisira par exemple un crit re de moindre carr c est dire y 2 choisir rendant minimum efa u erreur quadratique moyenne Comme on a eha u Var E a uf variance plus carr du biais le crit re conduit souvent des estimateurs sans biais E u de variance minimale Un exemple illustrant les r sultats qui suivent est trait la fin de cette annexe Sondage al atoire simple probabilit s gales avec remise Soit X la moyenne observ e sur un chantillon al atoire simple de taille n probabilit s gales avec remise il s agit de l observation d une variable al atoire not e X d esp rance math matique ou moyenne u donc X est un estimateur sans biais de u et de variance o n Si l on note s la varianc
36. ses d ges dans les m mes proportions moins de 1 pr s L chantillon est quasiment un mod le r duit de la population pour ces trois classes d ge Lorsque l on observe la m me r partition dans l chantillon et dans la population on parle d chantillon repr sentatif mais il faudrait pr ciser par rapport quel crit re ici il est quasiment moins de 1 pr s repr sentatif par rapport aux trois classes d ge chantillon Effectif 10000 32 40 28 Classes R partition Population Le tr s grand avantage d un chantillon al atoire simple probabilit s gales de taille 10 000 est qu il est repr sentatif 1 pr s par rapport toutes les variables ou crit res connues ou inconnues sur la population en particulier celle dont l objectif est justement d estimer la r partition des votes selon les candidats une lection pr sidentielle par exemple Il permet donc d estimer avec une tr s bonne pr cision n importe quelle proportion ou r partition condition qu il n y ait pas de non r ponses ou de fausses d clarations Nous nous rapprochons de ces conditions lors des premi res estimations faites vingt heures partir des premiers d pouillements alors que les sondages pr lectoraux se limitant des chantillons de taille 1 000 ne peuvent revendiquer cette repr sentativit et surtout parce qu il ne s agit plus d intention
37. tes ne votent pas comme la population cible on aura toujours une estimation biais e pour la proportion cherch e Remarque 4 les non r ponses Dans le cadre d un sondage al atoire simple les individus de la population sont identifi s et ce sont les individus tir s par la proc dure al atoire de constitution de l chantillon qui doivent r pondre l enqu te et non pas d autres individus M me en supposant qu ils soient tous joignables il n est pas rare que certains refusent de r pondre des questions qu ils jugent sensibles C est un des probl mes les plus importants rencontr s dans la pratique des sondages car bien souvent le fait de r pondre ou de ne pas r pondre d pend justement de l attitude par rapport la question sensible que l on cherche mesurer Prenons la situation suivante inspir e d un exemple pr sent par J C Deville lors des derni res Journ es de Statistique de la SFdS Paris 2006 On demande aux 600 l ves d un lyc e 300 filles et 300 gar ons s ils ont d j consomm de la drogue Les donn es pr sent es dans le tableau suivant sont fictives et pour simplifier concernent l ensemble des l ves d un lyc e et non un chantillon R sultats de l enqu te sur les 600 l ves Sexe Ensemble 99 243 342 29 258 600 Si l on suppose que ceux qui ont r pondu n ont pas fait de fausse d claration les oui correspond
38. u 1 8 en fait il aurait fallu prendre 2 4 Nous avons vu que le redressement d chantillon al atoire repose sur la connaissance d une information pr cise connue sur la population par exemple gr ce 1 INSEE Ce coefficient 2 serait obtenu en demandant aux personnes enqu t es pour qui elles ont vot pr c demment et en comparant les r sultats bruts du sondage cette question avec les r sultats r ellement obtenus pr c demment En fait les corrections rel vent plus de l appr ciation empirique des politologues que de la th orie statistique J en veux pour preuve la surprenante proximit des r sultats d un institut l autre Les sept derniers sondages publi s donnaient tous Jospin 18 pour tout observateur avis cette constance est statistiquement invraisemblable avec des chantillons de taille 1 000 V rifions cette derni re affirmation Les r sultats sont donn s 0 5 pr s Pour un sondage al atoire simple probabilit s gales de taille 1 000 extrait d une population dans laquelle la cat gorie d int r t repr sente 18 calculons la probabilit que la proportion observ e sur l chantillon soit comprise entre 17 5 et 18 5 La proportion p est l observation d une variable al atoire qui suit une loi normale de moyenne 0 18 et d cart type 0 012 Vo 18 1 0 18 1000 la probabilit cherch e est donc de 0 32 On en d duit que la probabilit que sept sondages de t
39. uver dans ces conditions on ne peut pas r aliser un v ritable tirage al atoire parmi les lecteurs le taux de r ponse est de 10 20 en pratique dans le cas du t l phone enfin les fausses d clarations d intention ne sont pas n gligeables en particulier sur les intentions de vote pour l extr me droite Les sondeurs croient ou feignent de croire que gr ce l utilisation de quotas et au redressement des chantillons leur pr cision pourrait tre meilleure que par exemple ces 3 En effet les sondeurs utilisent g n ralement la m thode empirique des quotas Il ne s agit pas d une m thode al atoire L unique contrainte est que l chantillon respecte les r partitions connues sur la population de quelques variables dites de quotas Constituons par exemple un chantillon d adultes fran ais de taille 1 000 repr sentatif de la population fran aise par rapport au sexe classes d ge et PCS du chef de m nage POPULATION CHANTILLON Hommes 480 Femmes 520 Ensemble 1 000 lt 35 270 35 65 510 gt 65 220 Ensemble 1 000 PCS PCS Inactif Ensemble Un groupe d enqu teurs dans le central t l phonique de l institut de sondage compose alors des milliers de num ros de t l phones et demande aux personnes qui acceptent de r pondre en plus des questions qui font l objet de l enqu te quel est leur sexe leur ge et la PCS du chef de m nage jusqu boucle
40. versit s fran aises des th ses ont t soutenues et des colloques sur la th orie et la pratique des sondages sont r guli rement organis s ils permettent de rassembler statisticiens sociologues politologues th oriciens ou praticiens C est peut tre partir de telles rencontres qu il sera possible de rediscuter du contr le de qualit des sondages lectoraux dont une Commission des Sondages cr e en 1977 est charg e de v rifier le suivi LES TH MATIQUES DE TANGENTE Nous saluons cette nouvelle formule de quatre num ros annuels d au moins 52 pages qui servent de base aux H S de la Biblioth que Tangente co diffus e par l A PM E P Son num ro 32 sous la direction de Rapha l DOUADY est un remarquable Math matique et Finance en prise sur l actualit L ouvrage r v pour sur ce sujet tout honn te homme de notre temps Henri BAREIL Annexe 1 Anonymat r ponse al atoire lors d une enqu te partir des documents d accompagnement des nouveaux programmes de Terminales Dans le cadre d une enqu te sur le tabac dans un lyc e la question est ce que vous Jumez plus d un paquet de cigarettes par semaine oui non peut tre consid r e comme sensible certains lyc ens peuvent avoir des difficult s r pondre sinc rement Afin de prot ger l anonymat du lyc en quant sa consommation de tabac y compris vis vis de l enqu teur l enqu

Download Pdf Manuals

image

Related Search

Related Contents

MANUEL D`INSTALLATION ET MANUEL D`UTILISATION  DC 3000 Series Crane Scale Instruction Manual  NuGen Applause™ WT  ISTRUZIONI PER L'USO OPERATING INSTRUCTIONS  MANUEL D`UTILISATION INSTRUCTION MANUAL  Betriebsanleitung für das Modell Cap San Diego  CP1815G (EQUIPOS CONTROL REMO  

Copyright © All rights reserved.
Failed to retrieve file