Home

Publication complète - Bundesamt für Statistik

image

Contents

1. 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 11 sp cifi cas standard l autre param tre en est d duit Une proc dure de test en tout point identique est appliqu e au niveau des salaires Enfin les poids weights sont test s S ils n ont pas t sp cifi s ils sont pos s gaux a 1 th thi ce qui correspond aux poids d chantillonnage 3 2 2 M diane et variance A l aide de la fonction computeQuantiles on calcule la m diane not e med En vue du calcul de la variance les valeurs de zhi j et ej sont ensuite calcul es pour chaque salaire zhij lt 1 x lt med ej lt weights zhij 0 5 Les variances intra entreprises Bhi de chaque entreprise sont ensuite tablies On part de la variance empirique des ej pour chaque entreprise et on calcule Bhi pour cela il faut encore calculer mani le nombre de salaires dans le domaine not NDhi dans le code Bhi lt NDhi 1 Bhi NDhi 1 NDhi mhi ehi NDhi 2 1 thi mhi mhi 1 Les Bhi correspondant a des thi qui valent 1 sont pos s gaux 0 comme nous l avons vu a la section 2 4 Les sommes des contributions intra entreprises au niveau des strates B sont ensuite calcu l es S il n y a qu une seule entreprise dans la strate et donc un seul Bhi c est ce Bhi qui est pris en compte m me s il a pour valeur NA la strate n aura dans ce cas aucune contribution a la variance globale Si au contraire la strate comp
2. il est possible d utiliser le package survey pour les calculs d intervalles de confiance de la m diane dans le cadre de la LSE Nous sommes arriv s la conclusion que survey ne constitue pas un outil ad quat pour deux raisons Premi rement certaines fonctions du package svydesign par exemple qui est pourtant indispensable a l utilisation du package n arrivent pas g rer des donn es d une taille aussi importante voir chapitre 5 le fichier total pour la LSE02 est constitu de plus d un milion de salaires et occupe plus de 70 Mo la grande r gion 4 compte 230 443 salaires et l d j la fonction svydesign est d pass e Deuxi mement les m thodes impl ment es ne correspondent pas exactement aux calculs effectu s dans le cadre de la LSE comme par exemple dans le cas de la m diane m me avec le param tre method constant la m diane renvoy e par la svyquantile ne correspond pas a celle calcul e par la m thode de la LSE l tude du package survey a n anmoins motiv l impl mentation d un programme sp cifique et a permis la description d une partie du package laquelle description constitue une grande partie du pr sent rapport Le programme lui offre des performances raisonnables et constitue donc un outil utilisable dans la pratique 28 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 Annexes A Mode d emploi IseComp M diane pour la LSE Description Calcule une moyenne pond
3. sep computes the imputation criteria critgrnog_2 lt as numeric paste data gr data nog_2 sep ret lt data frame gr gr noga noga GESCHLE GESCHLE ANFORNI ANFORNI ta3 ta3 statMed x data mbls strata data stragrs psu data identr nh data nrep th data th mhi data anzlohn thi data thi weights data gewibgrs crit critgrnog_2 return ret calculates a weighted median its variance a 95 confidence interval and three coefficients of variation statMed lt function x strata NULL psu NULL nh NULL th NULL Nh NULL mhi NULL thi NULL Mhi NULL weights NULL crit NULL definition of a counting function compt lt function variable return length unique variable 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 35 if no stratum or no psu assumes there is only one stratum or psu if is null strata strata lt rep 1 length x if is null psu psu lt rep 1 length x stra lt tapply strata psu unique checks the data PSU level ifelse is null nh assumes domain corresponds to strata nh lt tapply psu strata compt nh lt tapply nh strata unique ifelse is null Nh ifelse is null th Nh lt tapply Nh strata unique th lt tapply th strata unique Nh lt tapply Nh strata unique th lt nh Nh JF ifelse is null th th lt tapply th strata unique Nh lt nh th assumes total sampling th lt rep 1
4. var lt attr total var sum data gewibgrs 2 se lt sqrt var pour des donn es ne n cessitant pas d imputation 4 3 2 svyratio La fonction svyratio calcule un ratio pond r Elle prend sept arguments numerator num rateur du ratio estimer denominator d nominateur du ratio estimer design design de l enqu te separate si TRUE traite chaque strate s par ment na rm si TRUE enl ve les valeurs manquantes formula alternative numerator covmat si TRUE calcule la matrice de covariance des ratios Les param tres separate na rm et covmat sont par d faut fix s FALSE Si separate TRUE la fonction s appelle elle m me pour chaque strate Les param tres numerator et denominator sont ensuite mis sous forme de matrice apr s quoi si na rm TRUE les valeurs manquantes sont limin es Les totaux pond r s de numerator et de denominator sont ensuite calcul s gr ce la fonction svytotal et le ratio est enfin effectu C est cette valeur qui est retourn e par la fonction L tape suivante est celle du calcul de la variance La fonction svyrecvar est appliqu e a numerator ratio xdenominator 1 3 denominator design prob design prob ou ratio d signe le ratio qui vient d tre calcul Les autres valeurs pass es en arguments sont les param tres habituels Pour terminer si covmat TRUE la matrice de covariance des ratios est calcul e 20 PROGRAMMES R POUR LINTERVALLE DE
5. 1 alors Ah est pos gal a z ro Finalement tous les Ah sont multipli s par nh 1 th 12 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 3 2 4 Valeurs retourn es Pour terminer la variance de chaque strate V2sth est calcul e ainsi que la variance globale SV2st dont on d duit l cart type sep V2sth lt Ah th Bh SV2st lt sum V2sth sum svh 2 sep lt sqrt SV2st notons que lors du calcul de SV2st les strates pour lesquelles V2sth NA ne sont pas prises en compte De cet cart type et gr ce la fonction computeQuantiles on tire le coefficient de variaton du percentile CVperc les bornes d un intervalle de confiance 95 1 1imit et u limit ainsi que celles d un intervalle de confiance 68 62 c1 et cu CVperc lt 100 sep 0 5 l limit lt computeQuantiles x weights 0 5 1 96 sep u limit lt computeQuantiles x weights 0 5 1 96 sep cl lt computeQuantiles x weights 0 5 sep cu lt computeQuantiles x weights 0 5 sep Enfin a partir de ces intervalles de confiance on calcule les coefficients de variation synth tiques a 95 et a 68 62 cv_s95 et cv_s cv_s95 lt 100 max med l limit u limit med 1 96 med CV_S lt 100 max med cl cu med med Les valeurs retourn es sont les bornes de l intervalle de confiance 95 1 1imit etu limit la m diane med les coefficients de variation synth tiques 95 et 68 62 cv_s95 et c
6. Proc dure d esti mation pour l enqu te de 1994 sur la structure des salaires Peters R 1996 Sch ma de pond ration des indices PAUL Hulliger B Peters R 1996 Enqu te sur le comportement de la population suisse en mati re de transport en 1994 plan d chantillonnage et pond ration Hulliger B 1996 G tertransportstatistik 1993 Schatzverfahren mit Kompensation der Antwortausfalle Salamin PA 1995 Estimation des flux pour le module II des comptes globaux du march de travail Peters R 1995 Enqu te de structure sur les loyers tablissement d un plan d chantillonnage strati fi Hulliger B 1995 Konjunkturelle Mietpreiserhebung Stichprobenplan und Schatzverfahren Schwendener P 1995 Verbrauchserhebung 1990 Vertrauensintervalle Peters R Hulliger B 1994 La technique de pond ration des donn es application l enqu te suisse sur la sant Hulliger B Peters R 1994 Enqu te sur la structure des salaires en Suisse strat gie d chantillon nage pour le secteur priv 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 43 Publikationsprogramm BFS Programme des publications de l OFS Das Bundesamt f r Statistik BFS hat als zentrale Statistikstelle des Bundes die Aufgabe statistische Informationen breiten Benutzerkreisen zur Verf gung zu stellen Die Verbreitung der statistischen Information geschieht gegliedert nach Fachbe
7. d signe la fonction de r partition inverse Pour le coefficient de variation synth tique 95 not CVeyng5 ON prend le plus grand demi intervalle que l on divise par 1 96 med max med bi bs med 1 96 med CV syn95 100 Enfin pour le coefficient de variation synth tique 68 62 que l on note CH on calcule l intervalle suivant cj cs F 0 5 sep 0 5 sep et on proc de comme pour CVayn95 max med ci cs med CVayn 100 med pour plus de d tails voir 1 chapitre 3 2 3 Equivalence des traitements des domaines Les variances que nous avons calcul es jusqu pr sent 4 et Bni comportent une somme de deux termes dont le premier d pend d une variance empirique et le deuxi me du carr d une somme qui est en fait le carr d une moyenne Le deuxi me terme correspond au traitement des domaines qui ne sont pas constitu s de strates enti res c est le cas par exemple si on ne consid re qu un seul sexe ou seulement certains niveaux de qualifications On constate en effet dans le cas de A un facteur 1 nan nx qui est nul si les salaires chantillonn s de la strate sont tous consid r s et un facteur nan 1 na 1 qui vaudra 1 dans le m me cas la situation est analogue pour Bpi Il existe une autre m thode pour calculer ces variances Soit s l chantillon de donn es et n sa taille Consid rons un domaine d on a alors un sous chantillon s
8. plus haut puis un cart type est calcul a partir de la va riance renvoy e par svymean pct design La variable sep stocke cart type obtenu en ap pliquant getpse a Quantile Cet cart type permet le calcul d un intervalle de confiance a 68 62 qui divis par 2 donne l estimation de l cart type qui sera retourn e Enfin toujours a partir de sep un intervalle de confiance a 95 est calcul avec qnorm Finalement les valeurs de quantiles param tre Quantile calcul par computeQuantiles se intervalle 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 23 de confiance 68 62 divis par 2 1 1imit et u limit intervalle de confiance a 95 sont renvoy es Pour r sumer on a un quantile calcul a l aide de la fonction approxfun avec le param tre method linear un cart type calcul par division d un intervalle de confiance a 68 62 par deux cet intervalle de confiance ayant lui t construit par la fonction approxfun avec le param tre method linear avec un cart type calcul par svymean et un inter valle de confiance a 95 construit lui aussi par approxfun toujours avec le param tre method linear avec qnorm et un cart type calcul par svymean 4 5 Application ala LSE Comme nous l avons vu la m thode de calcul de la variance appliqu e dans le cadre de la LSE correspond a ce qui a t impl ment dans le package survey except pour ce qui est de l imp
9. 5674 5587 5778 29 6608 6527 6695 6608 6526 6695 30 7341 6977 7677 7341 6976 7677 33 6338 6226 6482 6338 6226 6482 36 5496 5396 5582 5496 5396 5582 40 7047 6973 7158 7047 6973 7158 45 5666 5598 5744 5666 5598 5744 5 Performances Nous avons mesur a l aide de la fonction system time les temps que mettent le pro gramme et le package plus pr cis ment svydesign et svytotal pour traiter diff rentes classes de salaires Pour l utilisation du package l ajout de la colonne NrSalaire ainsi que le calcul de la m diane par computeQuantiles n ont pas t pris en compte Consid rons pour commencer le temps de lecture des donn es Le fichier de type csv pour la LSE02 contient 1 031 538 salaires La commande data lt read table pathname sep header TRUE met 530 18 secondes a tre effectu e Consid rons un nombre de salaires relativement petit La classe NOGA 10 de la grande r gion 4 en compte 300 La sp cification du design par la commande design lt svydesign ids identr NrSalaire strata stragrs data data weights gewibgrs fpc th thi prend 0 08 secondes et le calcul de la variance par la fonction svytotal total lt svytotal x data mbls lt med 0 5 design design dure 0 12 secondes La fonction 1seComp met elle 0 09 secondes pour traiter ce cas Passons
10. 5739 815 5591 5960 Comme on pouvait s y attendre on voit sur les tableaux 1 et 2 que ce sont les valeurs interval type Wald method constant et f 1 qui donnent les r sultats les plus proches de ceux de 1seComp Dans le tableau 3 on trouve les r sultats de 1seComp et de svyquantile avec les param tres interval type Wald method constant et f 1 pour chaque classe NOGA 2 de la grandes r gion 4 nog d signe la classe NOGA 2 m1 bil et bs1 la m diane et les bornes de l intervalle de confiance calcul es 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 25 Tableau 2 R sultats pour la classe NOGA 2 40 de la grande r gion 4 med bi bs 1seComp 7047 6973 7158 Wald constant O 7037 6929 7154 Wald constant 5 7042 6951 7156 Wald constant 1 7047 6973 7158 Wald linear 7037 124 6951 948 7157 108 score constant O 7037 6985 7158 score constant 5 7042 6985 7158 score constant 1 7047 6985 7158 score linear 7037 124 6985 7158 par 1seComp ms bis et bss la m diane et les bornes de l intervalle de confiance calcul es par svyquantile On remarque que les r sultats correspondent souvent Notons que ce n est qu avec la ver sion 3 6 6 du package survey qu il a t possible d approcher autant les r sultats de la LSE avec la fonction svyquantile En effet dans les versions pr c dentes le code d
11. CONFIANCE DELAMEDIANE OFS 2007 4 3 3 svymean La fonction svymean calcule une moyenne pond r e Elle prend quatre arguments x variable dont on calcule la moyenne design design de l enqu te na rm si TRUE enl ve les valeurs manquantes deff si TRUE calcule l effet du design Pour commencer les donn es x sont mises sous forme de matrice puis les valeurs man quantes sont limin es si na rm TRUE Enfin la moyenne pond r e est calcul e la somme pond r e des donn es par design prob est divis e par la somme des poids C est cette valeur qui est retourn e La fonction traite ensuite la variance svyrecvar est appliqu e aux carts a la moyenne pond r s sweep x 2 average e 1 7 1 design prob ES design prob avec 1 1 average lt colSums x I design prob gt SE Les autres arguments de svyrecvar sont les param tres habituels Pour terminer si le param tre deff a t sp cifi l effet du design est tabli La variance empirique des don n es a nouveau calcul e par svyvar est cette fois ci divis e par nobs dans le cas ou deff replace et multipli e par sum weights design nobs sum weights design nobs si deff TRUE C est a nouveau le rapport entre la variance obtenue avec svyrecvar et la valeur qui vient d tre calcul e qui est renvoy 4 3 4 svyquantile La fonction svyquantile calcule des quantiles pond r s Elle prend huit param tres
12. compt stra Nh lt nh checks the data SSU level ifelse is null mhi assumes domain corresponds to strata mhi lt tapply x psu compt mhi lt tapply mhi psu unique ifelse is null Mhi ifelse is null thi Mhi lt tapply Mhi psu unique thi lt tapply thi psu unique Mhi lt tapply Mhi psu unique thi lt mhi Mhi gt ifelse is null thi thi lt tapply thi psu unique Mhi lt mhi thi assumes total sampling thi lt rep 1 compt psu Mhi lt mhi 36 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA M DIANE OFS 2007 checks the data weigths if is null weights computes sampling weights weights lt 1 th thi computation of the median med lt computeQuantiles x weights 5 for each SSU zhij lt 1 x lt med ej lt weights zhij 5 computation of the intra PSU variance for each PSU ehi lt tapply ej psu sum Bhi lt tapply ej psu var number of SSU in the domain NDhi lt tapply rep 1 length x psu sum Bhi lt NDhi 1 Bhi NDhi 1 NDhi mhi ehi NDhi 2 1 thi mhi mhi 1 avoids NA if thi 1 Bhi thi 1 lt 0 sum of the weights in the PSU svhi lt tapply weights psu sum sum of the intra PSU variances if there is only one psu in the stratum and only one Bhi returns this Bhi otherwise returns the sum of the Bhi in the stratum which are different from NA Bh lt tapply Bhi str
13. ensuite d finie TRUE si des strates ont t mentionn es FALSE sinon Si aucune valeur pour le param tre variables n a t pr cis il prend la valeur de data Ensuite afin que les unit s de sondage du niveau n 1 ne soient pas a cheval sur plusieurs unit s de sondage du niveau n les identificateurs des unit s du niveau n 1 sont renomm es en Un Un 1 O Un et Un 1 d signent les identificateurs des unit s de niveau n et n 1 Apr s cela N 1 colonnes s il y a N niveaux d chantillonnage sont ajout es a strata Ce sont des identificateurs de sous strates compos s des identificateurs des strates d une part et des identificateurs des unit s d chantillonnage sauf le dernier d autre part ces colonnes sont utilis es dans la fonction as fpc La fonction as fpc est ensuite appel e fpc lt as fpc fpc strata ids nous verrons ce qu elle fait dans la section suivante Dans le cas oU ni probs ni weights n ont t sp cifi fpc est utilis pour calculer des probabilit s d chantillonnage elles sont fix es gales a fpc sampsize fpc popsize Si les tailles de populations totales ne sont pas disponibles non plus probs est fix a 1 Enfin les valeurs suivantes sont retourn es ids strata has strata allprob qui correspond a probs prob qui contient les produits par ligne de probs Si probs a plusieurs colonnes variables et fpc D sormais on parlera de strates pour d signer a la fois les s
14. pr sent e Mots cl rapport de m thodes LSE R intervalle de confiance Compl ment d information Monique Graf t l 032 713 66 15 Monique Graf bfs admin ch R alisation Service de m thodes statistiques OFS Diffusion Office f d ral de la statistique CH 2010 Neuchatel T l 032 713 60 60 Fax 032 713 60 61 Order bfs admin ch Internet http www statistik admin ch Num ro de commande 338 0045 Prix gratuit S rie Statistique de la Suisse Domaine 0 Bases statistiques et produits g n raux Langue du texte original Francais Graphisme Layout OFS Copyright ISBN OFS Neuchatel 2007 La reproduction est autoris e sauf a des fins commerciales si la source est mentionn e 978 3 303 00377 0 Table des mati res Introduction 5 1 Contexte 5 1 1 L enqu te suisse sur la structure des salaires 5 1 2 Description des donn es 5 1 3 Notations sc g m l e e640 Oe Heb eae ee ded ede EE A 3 6 2 Formulation math matique 6 2 1 Calcul de la m diane 6 22 Calcul de la pr cision 24642202444 464 622450 64 4 08 Se 44 9 8 7 2 3 Equivalence des traitements des domaines 9 24 Remarque s sien 3 4 ee bg ea GARANTI ERA ESA EURE MEL 10 3 Le programme 10 3 1 computeQuantiles R 10 Ore StatMedih ya Ac be bees te Se AS OS sa ali bee me EL sua is 11 3 3 IseComp Re rat
15. variance et le traitement des domaines pour enfin passer aux aspects num riques avec pour commencer le programme puis la description de quelques fonctions du package survey de R Ce travail se base sur le rapport de m thodes de Monique Graf Enqu te suisse sur la structure des salaires 2000 Plan d chantillonnage pond ration et m thode d estimation pour le secteur priv 1 On y trouvera tous les d tails relatifs la LSE utiles la compr hension de ce qui suit Le package survey de R et sa documentation ont galement t utilis s 1 Contexte 1 1 L enqu te suisse sur la structure des salaires Dans le cadre de la LSE les entreprises suisses ont t r parties en strates selon la branche d activit classes NOGA 2 la taille en fonction du nombre d employ s de 3 19 de 20 49 et plus de 50 et la grande r gion r gions NUTS 2 Dans ces strates un tirage al atoire simple sans remise a t effectu puis dans chaque entreprise des salaires ont t s lectionn s nouveau selon un tirage simple sans remise Le calcul de l intervalle de confiance de la m diane commence videmment par celui de la m diane Ensuite la m thode utilis e consiste se placer sur l chelle des pourcentages et estimer la variance de l image du salaire m dian par la fonction de r partition On tire de cette variance un cart type partir duquel on calcule le coefficient de variation du percentile et l inter
16. FS sous une forme compatible avec les programmes 11 faut d abord convertir avec Excel les deux fichiers xls en csv ziehungsplan et struktur puis les lire ziehung lt read table file pathname sep header TRUE struktur lt read table file pathname sep header TRUE Calculer ensuite les nombres a passer en arguments a la fonction read fwf struktur Variablen_Bereich lt as numeric substring struktur Variablen_Bereich 7 9 as numeric substring struktur Variablen_Bereich 1 3 1 Effacer la derni re ligne NA struktur lt struktur is na struktur Variablen_Bereich Sp cifier les variables conserv es usefulvariables lt c BURNR_N GESCHLE ANFORNI INITGEW2 MBLS GEWIBGRS NOG_2 ANZLOHN GR STRA_N struktur Variablen_Bereich in struktur Variablen_Name usefulvariables lt struktur Variablen_Bereich in struktur Variablen_Name usefulvariables Lire les donn es data lt read fwf file pathname widths struktur Variablen_Bereich col names struktur Variablen_Name struktur Variablen_Bereich gt 0O buffersize 1000 Ne conserver que les observations avec GESCHLE et ANFORNI renseign data lt data data ANFORNI gt 0 data lt data data GESCHLE gt O0 rm struktur Ajouter les donn es de ziehung data data lt merge data ziehung by x STRA_N by y stra_n rm ziehung Calculer les taux th et thi data th
17. RUE Ce sont ces deux racines qui sont renvoy es comme bornes de l intervalle de confiance Cette partie se termine avec la d finition de la fonction computeWaldCI qui inverse un inter valle de confiance construit sur l chelle des pourcentages Le quantile est d abord calcul a l aide de computeQuantiles puis la variable U est d finie comme T xx gt 00 1 p et sa moyenne est calcul e par svymean Lintervalle de confiance sur l chelle des pourcen tages est alors construit p up lt p qnorm alpha 2 lower tail FALSE SE wtest p low lt p qnorm alpha 2 lower tail TRUE SE wtest ou p est le quantile calculer et SE wtest l cart type renvoy lors du calcul de la moyenne par svymean Les poids sont ensuite ordonn s selon l ordre croissant des donn es les sommes partielles calcul es et divis es par la somme des poids totale Enfin la fonction approx calcule les donn es correspondant p up et p 1ow suivant la m thode correspon dant aux param tres method et f Les deux valeurs obtenues sont retourn es Pour terminer la troisi me partie du code de svyquantile voit le quantile l intervalle de confiance et l cart type calcul s et retourn s Le quantile est d abord obtenu l aide de 22 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 computeQuantiles Si ci FALSE ce quantile est retourn et le programme s arr te Sinon la valeur sp cifi e pour le param tre interva
18. Rapport de methodes Enquete suisse sur la structure des salaires Programmes H pour l intervalle de confiance de la m diane QU oN d NORE LS Sep Ee TSN SES fe L B Zeie A E S Schweizerische Eidgenossenschaft D partement f d ral de l int rieur DFI Conf d ration suisse Office f d ral de la statistique OFS Confederazione Svizzera Confederaziun svizra Neuchatel 2007 Ce rapport comporte deux parties La premi re plus math matique pr sente les calculs effectu s dans le cadre de la LSE la m thode suivie pour le calcul de la m diane les diff rentes tapes n cessaires pour tablir un intervalle de confiance a 95 et trois coefficients de variation ainsi que le traitement des domaines sont d crits La deuxi me partie d crit chaque l ment du programme qui a t impl ment Puis les fonctions du package survey ayant un rapport avec les m thodes de la LSE sont analys es Pour terminer une comparaison des performances du programme et du package est pr sent e Ne de commande Commandes Fax 032 713 60 61 338 0045 032 713 60 60 E Mail order bfs admin ch Prix gratuit ISBN 978 3 303 00377 0 Statistik der Schweiz Statistique de la Suisse Methodenbericht Rapport de methodes Enquete suisse sur la structure des salaires Programmes R pour l intervalle de confiance de la m diane Auteurs Jacques Ferrez et Monique Graf Office f d ral de la statistique Editeur Off
19. a function v if length v 1 return v if length v gt 1 return sum v is na v computation of the inter PSU variances for each stratum eh lt tapply ehi stra sum Ah lt tapply ehi stra var toth lt tapply NDhi stra sum dlh lt tapply NDhi 1 stra sum number of SSU in the domain ne lt toth dlh Ah ne gt 1 lt ne ne gt 1 1 Ah ne gt 1 ne ne gt 1 1 ne ne gt 1 nh ne gt 1 eh ne gt 1 ne ne gt 1 2 nh ne gt 1 1 sum of the weights in the stratum svh lt tapply svhi stra sum checks if the imputation has to be done and if it is necessary does it if is null crit amp any is na Ah amp length Ah Ah NA gt 0 2007 OFS PROGRAMMES R POUR L INTERVALLE DE CONFIANCE DE LA M DIANE 37 computes a relative Ah variance Abrel lt Ah svh72 crit lt tapply crit strata unique takes the mean of the relative variances for each value of crit m_Ahrel lt tapply Ahrel is na Ahrel crit is na Ahrel mean proceeds to the imputation for i in 1 length Ah me 1 lab lt names Ah ne 1 i lab lt crit names crit lab imputes the computed value if it exists if lab in names m_Ahrel Ah ne 1 i lt svh ne 1 i 72 m_Ahrel names m_Ahre1 lab avoids NA if th 1 Ah ne 1 amp abs th 1 lt 0 0000001 lt 0 Ah lt Ahxnh x 1 th final computations computes the variances of the strata V2sth lt ifelse abs th 1
20. a fonction met en m moire les valeurs de gr nog_2 GESCHLE ANFORNI et ta3 afin de les afficher avec les statistiques qui seront calcul es Le crit re d imputation est construit par concat nation des colonnes gr et nog_2 puis stock dans la variable critgrnog_2 Pour finir la fonction statMed est appel e statMed x data mbls strata data stragrs psu data identr nh data nrep th data th mhi data anzlohn thi data thi weights data gewibgrs crit critgrnog 2 Le r sultat est retourn ainsi que les diff rentes valeurs qui avaient t mises en m moire Si le fichier data contient les donn es relatives la LSEO2 pour le secteur secondaire de la grande r gion 4 alors le code 1seComp data GESCHLE affichera le r sultat du tableau ci dessous gr noga GESCHLE ANFORNI ta3 l limit u limit median 4 10 45 1 2 1 4 1 3 5890 6004 5953 4 10 45 1 1 4 1 3 6066 6206 6131 4 10 45 2 1 4 1 3 4970 5143 5057 cv_s95 cv_s CVperc Nstrata Npsu Nssu 0 5399438 0 5711406 1 440844 51 1829 57266 0 6241283 0 7176643 1 620436 51 1739 43689 0 8777488 1 0480522 1 994509 51 1496 13577 14 PROGRAMMES R POUR L INTERVALLE DE CONFIANCE DE LA M DIANE OFS 2007 svyquantile svyratio svytotalQ ped 4 Le package survey Le package survey de Thomas Lumley 4 est destin aux calculs de statistiques pour des enqu tes stratifi es plusieurs niveaux Le nombre de niveaux n est en th orie pas limit Les fonctions du
21. a nog_2 sep et 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 13 statMed data mbls strata data stragrs psu data identr nh datafnrep th data th mhi data anzlohn thi data thi weights data gewibgrs crit critgrnog 2 renverront les valeurs du tableau ci dessous l limit u limit median cv_s95 cv_s CVperc 5890 6004 5953 0 5399438 0 5711406 1 440844 Nstrata Npsu Nssu 51 1829 57266 3 3 lseComp R La fonction 1seComp calcule une m diane pond r e et plusieurs statistiques sur sa pr cision Elle prend trois arguments data donn es traiter donn es en fonction desquelles les r sultats seront d taill s noga_spec Vecteur de listes de classes NOGA 2 Le fichier data doit contenir les colonnes suivantes mbls stragrs identr nrep th anzlohn thi gewibgrs gr et nog_2 Si un vecteur de listes est sp cifi pour noga_spec le calcul sera effectu pour chacune de ces listes La fonction ne s effectue que si le nombre de lignes de data est positif Si des donn es sont sp cifi es hormis data et noga_spec la fonction s applique elle m me aux sous ensembles de data correspondant la premi re de ces donn es avec les autres donn es en param tre Ensuite de mani re similaire si une valeur a t sp cifi e pour noga_spec la fonction s appelle elle m me pour chaque liste contenue dans noga_spec en adaptant data et noga_spec Enfin si aucun de ces param tres n a t sp cifi l
22. bgrs s chantillon d domaine med m diane pond r e des salaires F fonction de r partition empirique des salaires Mpi Nombre de salaires sond s dans l entreprise i anzlohn Mani Nombre de salaires sond s dans l entreprise dans le domaine thi taux de sondage de l entreprise i thi Nh nombre d entreprises sond es dans la strate h nrep nan nombre d entreprises sond es dans la strate h dans le domaine th taux de sondage effectif de la strate h th Bhi variance intra entreprise de l entreprise de la strate h Bh somme des contributions intra entreprises de la strate h Ah variance inter entreprises de la strate h ej 9 Ly lt med 0 5 avec Li lt mea 1 Si yj lt med et 0 sinon Chi somme des e au niveau de l entreprise de la strate h eqni Somme des e dans le domaine au niveau de l entreprise i eh somme des e au niveau de la strate h eqn Somme des e dans le domaine au niveau de la strate h 2 Formulation math matique 2 1 Calcul de la m diane ll existe plusieurs m thodes pour le calcul d une m diane pond r e Nous en d taillons deux celle qui a t adopt e dans le cadre de la LSE et celle qui est utilis e par d faut dans le package survey Dans le contexte de la LSE les poids gewibgrs sont d abord class s dans l ordre croissant des salaires mb1s Les sommes partielles de ces poids sont ensuite calcul es et divis es par la somme totale des poids Enfin si une des sommes partiell
23. chantillonnage Elle prend neuf arguments x variable dont on calcule la variance clusters identificateurs des unit s d chantillonnage stratas identificateurs des strates nPSUs tailles originales des populations chantillonn es fpcs tailles des populations totales lonely psu d finit le traitement des strates avec un seul l ment one stage si TRUE ne traite qu un seul niveau de sondage stage niveau de sondage en traitement cal contient les d tails de la calibration 18 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 La fonction onestage est d abord appliqu e au premier niveau d chantillonnage ce qui cor respond au calcul de 4 puis s il y a un niveau d chantillonnage suppl mentaire la fonction multistage s appelle elle m me pour chaque valeur diff rente des identificateurs d unit s d chantillonnage en adaptant les colonnes des diff rents param tres Les valeurs obtenues sont multipli es par un facteur correspondant au t qui multiplie B dans la formulation de V2 1 7 ala section 2 2 1 Toutes ces variances sont somm es et retourn es Remarquons que la fonction multistage peut g rer une calibration 4 2 4 svyrecvar La fonction svyrecvar g re la poststratification et appelle multistage Elle prend sept arguments x variable dont on calcule la variance clusters identificateurs des unit s d chantillonnage stratas identificateurs des strates fpcs tailles des pop
24. e de donn es rende le calcul de la variance impossible En ce qui concerne l expression B elle est fix e a O si tai 1 chantillon exhaustif pour supprimer des valeurs manquantes qui pourraient appara tre si mp 1 il y aurait division par mp 1 0 OU Si man 1 il n y aurait qu un seul salaire et la variance empirique ne pourrait pas tre calcul e Lors du calcul de Bp les Bpi qui n ont pas pu tre calcul s si ta lt 1 et si mn 1 OU Si Mani 1 Ne sont pas pris en compte Dans le cas de la variance A on proc de a une imputation voir la section 3 2 3 avant de poser A 0 si t 1 chantillon exhaustif et ng 1 le cas t 1 et n 1 est aussi trait car si n 1 alors ng 1 3 Le programme Le programme qui a t impl ment pour le calcul des intervalles de confiance dans le cadre de la LSE est constitu de trois fonctions computeQuantiles R qui calcule des quantiles pond r s statMed R qui calcule un intervalle de confiance et des coefficients de variation et 1seComp R qui permet le calcul de ces statistiques pour diff rents domaines de salaires 3 1 computeQuantiles R La fonction computeQuantiles calcule des quantiles pond r s Elle prend trois arguments xx donn es dont on calcule les quantiles mb1s ww poids gewibgrs par d faut fix s a 1 qq quantiles calculer par d faut fix a 0 5 10 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 Si les p
25. e estimation for the Swiss population census 2000 Estimation methodology and results Order number 338 0027 Kilchmann D 2004 Revision des Schweizerischen Lohnindex Schatzmethoden der Lohnindices und deren Varianzschatzer Bestellnummer 338 0026 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 41 Graf M 2004 Enqu te suisse sur la structure des salaires 2002 Plan d chantillonnage et extrapola tion pour le secteur priv Num ro de commande 338 0025 Renaud A 2004 Analyse de donn es d enqu tes Quelques m thodes et illustration avec des don n es de OFS Num ro de commande 338 0024 Renaud A Potterat J 2004 Estimation de la couverture du recensement de la population de l an 2000 Echantillon pour l estimation de la sous couverture P sample et qualit du cadre de sondage des batiments Num ro de commande 338 0023 Graf M 2004 Fusion de donn es Etude de faisabilit Num ro de commande 338 0022 Potterat J 2003 Mietpreis Strukturerhebung 2003 Entwicklung des Stichprobenplans und Ziehung der Stichprobe Bestellnummer 338 0021 Potterat J 2003 Landwirtschaftliche Betriebszahlung 2003 Stichprobenplan der Zusatzerhebung Bestellnummer 338 0020 Renaud A 2003 Estimation de la couverture du recensement de la population de l an 2000 Echan tillon pour l estimation de la sur couverture E sample Num ro de commande 338 0019 Hulliger B 2003 Bereini
26. e la fonction svyquantile comportait un bug qui ne permettait pas le calcul avec method constant Ajoutons enfin que la fonction svyquantile fournit bien un quantile un intervalle de confiance a 95 et un cart type mais pas d intervalle de confiance a 68 62 ni aucun coefficient de variation Les calculs ont galement t effectu s pour les classes NOGA 2 de la grande r gion 4 avec la fonction 1seComp en rempla ant 1 96 par qnorm Les r sultats obtenus sont identiques a ceux retourn s par la fonction 1seComp originale 26 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 Tableau 3 Comparaison entre lseComp et svyquantile avec interval type Wald method constant et f 1 pour quelques classes NOGA 2 de la grande r gion 4 ml et ms repr sentent les m dianes bil et bis les bornes inf rieures de l intervalle de confiance et bs1 et bss les bornes sup rieures 1seComp svyquantile nog ml bil bal ms bis bss 10 5740 5616 5977 5740 5616 5977 15 5312 5093 5497 5312 5093 5498 17 4588 4487 4720 4588 4487 4720 18 4533 4282 4767 4533 4282 4767 19 8942 7415 10060 8942 7054 10569 20 5383 5232 5575 5383 5232 5575 21 5551 5305 5735 5551 5305 5735 22 6718 6591 6890 6718 6589 6890 23 6382 6252 6476 6382 6252 6476 25 5285 5187 5439 5285 5187 5439 26 5596 5480 5712 5596 5480 5712 27 5674 5587 5778
27. ebnisse Bestellnummer 338 0037 Potterat J 2006 Kosten und Nutzen der Berufsbildung aus Sicht der Betriebe im Jahr 2004 Stichpro benplan Gewichtung und Sch tzverfahren Bestellnummer 338 0036 Kilchmann D 2006 Vierteljahrliche Wohnbaustatistik Stichprobenplan statistische Datenaufarbei tung und Sch tzverfahren 2005 Bestellnummer 338 0035 Kilchmann D 2006 Erhebung Uber Forschung und Entwicklung in der schweizerischen Privatwirt schaft 2004 Bereinigung der Stichprobe Ersatz fehlender Werte und Sch tzverfahren Bestellnummer 338 0034 Kilchmann D Eichenberger P Potterat J 2005 Volkszahlung 2000 Statistische Einsetzungsverfah ren Band 2 Bestellnummer 338 0033 Kilchmann D Eichenberger P Potterat J 2005 Volksz hlung 2000 Statistische Einsetzungsverfah ren Band 1 Bestellnummer 338 0032 Graf M Matei A 2005 Enqu te suisse sur la structure des salaires 2002 La pr cision du salaire brut standardis m dian Num ro de commande 338 0031 Graf E Renfer J P 2005 Enqu te suisse sur la sant 2002 Plan d chantillonnage pond ration et estimation de la pr cision Num ro de commande 338 0030 Potterat J 2005 Mietpreis Strukturerhebung 2003 Gewichtung und Sch tzverfahren Bestellnum mer 338 0029 Potterat J 2005 Landwirtschaftliche Betriebszahlung 2003 Schatzverfahren f r die Zusatzerhebung Bestellnummer 338 0028 Renaud A 2004 Coverag
28. ec noga_spec detc lt det 1 detc lt model frame detc data data 1 for i in unique detc ret lt rbind ret lseComp data detc i det 1 noga_spec noga_spec return ret if a noga specification has been mentionned calls lseComp for each group of noga class a group may contain only one class if is null noga_spec ret lt NULL for i in 1 length noga_spec ret lt rbind ret lseComp data data nog 2 in noga_spec i noga_spec NULL return ret 34 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 if none of the precedent conditions is TRUE applies statMed to the whole dataset gr lt unique data gr gr lt ifelse length gr 1 as character gr paste as character min gr as character max gr sep noga lt unique data nog_ 2 noga lt ifelse length noga 1 as character noga paste as character min noga as character max noga sep GESCHLE lt unique data GESCHLE GESCHLE lt ifelse length GESCHLE 1 as character GESCHLE paste as character min GESCHLE as character max GESCHLE sep ANFORNI lt unique data ANFORNI ANFORNI lt ifelse length ANFORNI 1 as character ANFORNI paste as character min ANFORNI as character max ANFORNI sep ta3 lt unique data ta3 ta3 lt ifelse length ta3 1 as character ta3 paste as character min ta3 as character max ta3
29. entre elles consiste a sp cifier le design de l enqu te Ensuite il s agit de calculer les statistiques voulues ainsi que leurs variances c est ce que font les fonctions onestrat onestage mulstistage et svyrecvar 4 2 1 onestrat La fonction onestrat calcule la variance dans une unit d chantillonnage Elle prend huit arguments x variable dont on calcule la variance cluster identificateurs des unit s d chantillonnage nPSU tailles originales des populations chantillonn es fpc tailles des populations totales lonely psu d finit le traitement des unit s avec un seul l ment stratum identificateurs des strates stage niveau de sondage en traitement cal contient les d tails de la calibration La valeur par d faut du param tre lonely psu est fail dans les options globales de R ce qui correspond l envoi d un message d erreur et l arr t du programme lorsqu une strate ne contient qu un l ment La valeur qui correspond le mieux au contexte de la LSE est remove parce que les entreprises avec un seul salaire voient leurs variances Bp fix es z ro si tni 1 ou n glig es Il faut donc modifier la valeur de l option dans R Le param tre stage n a que peu d importance il n apparait que dans les messages d erreur affich s soit dans le cas du traitement d un domaine lorsqu il ne reste qu un l ment dans une strate et qu l origine elle en contenait plusieurs soit dans le cas o la
30. er P 2002 Estimation de la couverture du recensement de la population de l an 2000 Proc dure d enqu te et plan d chantillonnage de l enqu te de couverture Num ro de com mande 338 0009 Kilchmann D Hulliger B 2002 Stichprobenplan f r die Obstbaumzahlung 2001 Bestellnummer 338 0008 Graf M 2002 Passage du concept tablissement au concept entreprise Num ro de commande 338 0007 Salamin P A 2001 La technique de la double enqu te pour la statistique du transport routier de marchandise Num ro de commande 338 0006 Peters R Renfer J P et Hulliger B 2001 Statistique de la valeur ajout e 1997 1998 Proc dure d extrapolation des donn es Num ro de commande 338 0005 Potterat J Hulliger B 2001 Sch tzung der Sagereiproduktion mit der Sagerei Erhebung PAUL Bes tellnummer 338 0004 Graf M 2001 D saisonnalisation Aspects m thodologiques et application a la statistique de l emploi Num ro de commande 338 0003 42 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 H sler J M ller S 2001 Schlussbericht Betriebsz hlung 1995 BZ 95 Mehrfach imputierte Um satzzahlen Bestellnummer 338 0002 Renaud A 2001 Statistique suisse des b n ficiaires de l aide sociale Plan d chantillonnage des communes Num ro de commande 338 0001 Hulliger B Eichenberger P 2000 Stichprobenregister f r Haushalterhebungen Umstellung auf Te lefonnu
31. es vaut exactement 0 5 alors la m diane est d finie comme la moyenne du salaire correspondant et du salaire suivant si ce n est pas le cas la m diane est d finie comme le salaire correspondant la premi re somme 6 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 partielle qui d passe 0 5 med ig u SC 0 5 Yli 1 si F yp lt 0 5 lt F Yfi41 ou F y d signe la somme partielle correspondant au salaire y Cette d finition correspond celle qui est impl ment e dans la proc dure SAS Univariate Dans le package survey ou plus pr cis ment dans la fonction svyquantile sur laquelle nous reviendrons la section 4 3 4 par d faut la m diane est calcul e comme suit Les poids sont galement class s dans l ordre croissant des salaires et les sommes partielles calcul es puis divis es par la somme totale des poids Mais cette fois ci une interpolation lin aire est effectu e avec comme premi res coordonn es les sommes partielles et comme deuxi mes coordonn es les salaires C est en calculant l image de 0 5 par cette fonction que la m diane est calcul e meg YW si F ya 05 ayia F 1 a Yi41 SI F yp lt 0 5 lt F Yi4L avec F yi 1 0 5 F ypi 1 F ya Remarquons que ces deux m thodes ne se limitent pas au calcul de la m diane mais per mettent de calculer n importe quel quantile q il suffit de remplacer 0 5 par q Les deux m thodes donnent presque
32. g s N d de taille nu Posons 1 Cie ua d Y Yk Ysa Nsq rs o Ys repr sente la moyenne des y sq Lestimation de la variance donn e par la formule Ns 1 2 Ns Ns Y V n 1 d S 4 1 d s nl Ysa ns 1 ns Ysa 2 section 10 3 exemple 10 3 1 o f repr sente le taux de sondage peut tre directement obtenue par le calcul de la variance des donn es auxquelles on ajoute ns ns z ros on a alors nouveau n donn es Notons s l chantillon auquel on a ajout les z ros J la moyenne des vy s et S2 la variance empirique de ces nouvelles donn es On a alors ys 2007 OFS PROGRAMMES R POUR INTERVALLE DE CONFIANCE DE LA M DIANE 9 1 S X Yk Ja ns 2 1 Nsa Ne 1 K n Zen ar 1 Nsa gt Ns _ 8 ns 1 s ou E Ns Baa R u Ns Ysa d s sq 1 S Nsq S n 2 n 1 gt Yk Ysa F Ysa o Ja ns Msa 2 Vsa d s 2 2 1 _ 2 _9 Ns n _2 n 1 Yk Ysa nl d ns Nsg Ysa d s 8 1 2 2 Ns Nsa n Nns 1 Nsa L Ysa sa Ns ns nsa 7 _ nalo 1 _ Nsg Ns Nsa ns Si ns 1 4 8a n2 ns Nsa Nsa Ns 2 Nsg Ns 2 1 mal i Ze ls et les deux m thodes de calcul donnent bien la m me estimation de la variance 2 4 Remarque Dans certaines entreprises ou dans certaines strates il se peut que le manqu
33. gung der Stichprobe Ersatz fehlender Werte und Sch tzverfahren Erhebung ber F E in der schweizerischen Privatwirtschaft 2000 Bestellnummer 338 0018 Renfer J P 2003 Enqu te 2000 sur la recherche et le d veloppement dans l conomie priv e en Suisse Plan d chantillonnage Num ro de commande 338 0017 Potterat J 2003 Kosten und Nutzen der Berufsbildung aus Sicht der Betriebe Schatzverfahren Bes tellnummer 338 0016 Graf M Mate A 2003 Strat gie de choix des mod les de d saisonnalisation Application aux s ries de l emploi total Num ro de commande 338 0015 Potterat J Salamin PA 2002 Betriebszahlung 2001 Methoden f r die Datenbereinigung Bestell nummer 338 0014 Renaud A 2002 Programme international pour le suivi des acquis des l ves PISA Plans d chan tillonnage pour PISA 2000 en Suisse Num ro de commande 338 0013 Renfer J P 2002 Enqu te 2001 sur les co ts et l utilit de la formation des apprentis du point de vue des tablissements Plan d chantillonnage Num ro de commande 338 0012 Potterat J Salamin P A 2002 Betriebszahlung 2001 Stichprobenplan und Sch tzverfahren f r die provisorischen Ergebnisse Bestellnummer 338 001 1 Graf M 2002 Enqu te suisse sur la structure des salaires 2000 Plan d chantillonnage pond ration et m thode d estimation pour le secteur priv Num ro de commande 338 0010 Renaud A Eichenberg
34. i lt 1 data INITGEW2 data lt data names data INITGEW2 data th lt data nrep data burnh data lt data names data burnh Renommer les colonnes conform ment aux programmes names data names data BURNR_N lt identr names data names data MBLS lt mbls names data names data GEWIBGRS lt gewibgrs names data names data NOG_2 lt nog _2 names data names data ANZLOHN lt anzlohn names data names data GR lt gr names data names data STRA_N lt stragrs 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 33 Charger le code des programmes CImedLSE R et ex cuter lseComp source pathname lseComp data Et voici a pr sent le code des programmes proprement dit returns the median the 95 confidence interval and three coefficients of variation lseComp lt function data noga_spec NULL Nssu lt dim data 1 if Nssu gt 0 det lt list if a column name has been specified makes the computation for each value of this column if length det gt 0 if length det 1 ret lt lseComp data noga_spec noga_spec det lt det 1 det lt model frame det data data 1 for i in unique det ret lt rbind ret lseComp dataldet i noga_spec noga_spec return ret else more than one column have been specified ret lt lseComp data det 1 noga_sp
35. ice f d ral de la statistique Neuch tel 2006 Pr ambule Ce travail est le r sultat d un stage organis par le service de m thodes statistiques Le theme provient d une question pos e par Peter Moser directeur de recherche a l Office cantonal de statistique du canton de Zurich sur l utilisation possible du logiciel R pour faire les calculs d intervalle de confiance de la m diane des salaires pour l enqu te suisse sur la structure des salaires Lohnstrukturerhebung LSE tels qu ils sont r alis s OFS l aide de SAS Le logiciel R tant facile a installer et d usage libre et gratuit la question nous a sembl m riter une r pon se circonstanci e Les pages qui suivent d crivent la solution pratique propos e a l usage des utilisateurs de la LSE ainsi qu une comparaison avec le package survey de T Lumley R sum Ce rapport comporte deux parties La premi re plus math matique pr sente les calculs effectu s dans le cadre de la LSE la m thode suivie pour le calcul de la m diane les diff rentes tapes n cessaires pour tablir un intervalle de confiance a 95 et trois coefficients de variation ainsi que le traitement des domaines sont d crits La deuxi me partie d crit chaque l ment du programme qui a t impl ment Puis les fonctions du package survey ayant un rapport avec les m thodes de la LSE sont analys es Pour terminer une comparaison des perfor mances du programme et du package est
36. l type est lue par l interm diaire de la forme un argument de la fonction match arg pour davantage de d tails voir l aide de R au sujet de la fonction match arg Apr s cela la variable computeCI prend la valeur de computeScoreCI ou de computeWaldCI suivant la valeur de interval type score OU Wald Lintervalle de confiance est ensuite calcul par computeCI Enfin l cart type est obtenu par la division de la longueur de l intervalle de confiance par 2 qnorm alpha 2 lower tail FALSE 1 Le quantile l intervalle de confiance et l cart type sont enfin retourn s 4 4 Autres fonctions Les fonctions suivantes font galement partie du package survey et peuvent se r v ler utiles lors du calcul d un intervalle de confiance pour les donn es d une enqu te avec un design complexe La fonction update permet de mettre a jour un design en y ajoutant une variable son code est accessible via la commande getS3method update survey design La fonction subset permet de restreindre le design a une sous population et ainsi la va riable manipul e sera moins volumineuse de mani re similaire son code est accessible via getS3method subset survey design La fonction weights a deux formes sp cifiques au package survey La premi re permet d ex traire les poids d un design pour cela il suffit de l appliquer un objet de classe survey design La deuxi me elle calcule des poids d extrapola
37. le de donn es correspondant Toutefois les m thodes de calcul reposant sur des principes de convergence asymptotiques les r sultats obtenus pour des domaines de taille restreinte sont interpr ter avec prudence R f rences Graf M 2002 Enqu te suisse sur la structure des salaires 2000 Plan d chantillonnage pond ration et m thode d estimation pour le secteur priv Rapport de m thode 338 0010 Office f d ral de la statistique http www bfs admin ch bfs portal fr index infothek erhebungen__quellen methodenberichte Document 50660 pdf 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 31 Exemple Voici la sp cification a utiliser dans le cadre de la LSE Enqu te suisse sur la structure des salaires Soit data un data frame contenant toutes les donn es mb1s tant la variable dont la m diane doit tre tablie stragrs identr etc tant les donn es correspondant aux strates aux PSU etc Finalement supposons que l imputation doit se faire selon les valeurs de gr et nog_2 critgrnog 2 lt as numeric paste data gr data nog_2 sep statMed x data mbls strata data stragrs psu data identr nh data nrep th data th mhi data anzlohn thi data thi weights data gewibgrs crit critgrnog 2 32 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 B Code R Voici pour commencer un script qui pourra tre utilis pour mettre les donn es fournies par la section LOHN de l O
38. lications visent d une part documenter les m thodes uti lis es ou envisag es dans un souci de transparence et de rigueur scientifique et d autre part a favoriser la collaboration avec le monde scientifique et universitaire Les r sultats num riques pr sent s dans les rapports de m tho des illustrent les concepts math matiques d crits mais ne sont pas des r sultats officiels des enqu tes concern es De m me les m thodes r ellement appliqu es peuvent diff rer l g rement de celles d crites dans ces rapports Les rapports de m thodes sont disponibles sous forme lec tronique sur le site internet de l OFS Ce rapport comporte deux parties La premi re plus math matique pr sente les calculs effectu s dans le cadre de la LSE la m thode suivie pour le calcul de la m diane les diff rentes tapes n cessaires pour tablir un intervalle de confiance a 95 et trois coefficients de variation ainsi que le traitement des domaines sont d crits La deuxi me partie d crit chaque l ment du programme qui a t impl ment Puis les fonctions du package survey ayant un rapport avec les m thodes de la LSE sont analys es Pour terminer une comparaison des performances du programme et du package est pr sent e Ne de commande Commandes Fax 032 713 60 61 338 0045 032 713 60 60 E Mail order bfs admin ch Prix gratuit ISBN 978 3 303 00377 0
39. lished by the SFSO s Statistical Methods Unit Ferrez J Graf M 2007 Enqu te suisse sur la structure des salaires Programmes R pour l intervalle de confiance de la m diane Num ro de commande 338 0045 Renaud A 2007 Harmonisation de la scolarit obligatoire en Suisse HarmoS Design g n ral de l enqu te et chantillon des coles Num ro de commande 338 0044 Potterat J 2007 Betriebszahlung 2005 Statistische Methoden zur Schatzung der provisorischen Er gebnisse Bestellnummer 338 0043 Hulliger B 2006 Umweltschutzausgaben der Unternehmen 2003 Stichprobenplan Datenaufberei tung und Schatzverfahren Bestellnummer 338 0042 Renfer J P 2006 Enqu te sur les chiffres d affaires du commerce de d tail Plan d chantillonnage et m thodes d estimation Num ro de commande 338 0041 Salamin P A 2006 Statistique de l aide sociale dans le domaine de l asile Plan de sondage et extra polations pour l enqu te pilote 2005 Num ro de commande 338 0040 Renaud A 2006 Statistique suisse des b n ficiaires de l aide sociale Pond ration des communes 2004 Num ro de commande 338 0039 Graf M 2006 Swiss Earnings Structure Survey 2002 2004 Compositional data in a stratified two stage sample Analysis and precision assessment of wage components Order number 338 0038 Potterat J 2006 Pensionskassenstatistik 2004 Statistische Methoden zur Schatzung der provisori schen Erg
40. lt 0 0000001 Bh Ah th Bh total sum of weights denom lt sum svh the global variance SV2st lt sum V2sth is na V2sth denom2 the standard error sep lt sqrt SV2st the 95 confidence interval l limit lt computeQuantiles x weights 0 5 1 96 sep u limit lt computeQuantiles x weights 0 5 1 96 sep the three coefficients of variation cv_s95 lt 100 max med 1 limit u limit med 1 96 med cl lt computeQuantiles x weights 0 5 sep cu lt computeQuantiles x weights 0 5 sep cv_s lt 100 max med cl cu med med CVperc lt 100 sep 0 5 the number of strata PSU and SSU Nstrata lt compt strata Npsu lt compt psu Nssu lt length x return cbind 1 limit u limit median med cv_s95 cv_s CVperc Nstrata Npsu Nssu PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 calculates weighted quantiles computeQuantiles lt function xx ww qq 0 5 if no weights have been specified returns non weighted quantiles if missing ww return quantile xx probs qq na rm T otherwise computes the partial sums of ww ord lt order xx cum w lt cumsum ww ord is na xx sum ww is na xx tmpS lt data frame matrix rep NA 2 length qq nrow 2 tmpO lt data frame matrix rep NA 2 length qq nrow 2 res lt c rep NA length qq and computes each quantile for i in 1 length qq records the two sums directly greater than
41. mmern ohne Namen und Adressen Ablaufe fiir Erstellung und Stichprobenziehung Bestellnum mer 338 0000 de Rossi F X 1998 M thodes statistiques pour le compte routier suisse Hulliger B Kassab M 1998 Evaluation of Estimation Methods for the Survey on Environment Pro tection Expenditures of Swiss Communes Salamin P A 1998 Etablissement d une clef de passage pond r e entre l ancienne NGAE 85 et la nouvelle nomenclature NOGA 95 g n rale des activit s conomiques Peters R 1998 Extrapolation des donn es de l enqu te de structure sur les loyers Bender A Hulliger B 1997 Enqu te suisse sur la population active rapport de pond ration pour 1996 Salamin PA 1997 Evaluation de la Statistique de l emploi Peters R 1997 Etablissement du plan d chantillonnage pour l enqu te 1996 sur la recherche et le d veloppement dans l conomie priv e en Suisse Peters R 1997 Enqu te 1996 sur la structure des salaires en Suisse tablissement du plan d chan tillonnage Peters R 1996 Pond ration des donn es de l enqu te sur la famille en Suisse Comment T Hulliger B Ries A 1996 Gewichtungsverfahren f r die Schweizerische Arbeitskraftee rhebung 1991 1995 Hulliger B 1996 Haushalterhebung Familie 1994 Stichprobenplan Stichprobenziehung und Reser vestichproben Peters R Hulliger B 1996 Schatzverfahren f r die Lohnstruktur Erhebung 1994
42. n Elle se trouve sur Internet l adresse www statistique admin ch Actualit s Publications Methodenberichte des Dienstes Statistische Methoden Rapports de m thodes du Service de m thodes statistiques Methodology Reports by the Statistical Methods Unit Die Methodenberichte beschreiben die mathematischen und statistischen Methoden die den Resultaten und Analysen der ffentlichen Statistik zu Grunde liegen Sie enthalten ausserdem die Evaluation und Entwicklung von neuen Methoden im Hinblick auf eine zuk nftige Anwendung Diese Publikationen sollen einerseits die verwendeten Methoden dokumentieren um Transparenz und Wissenschaftlichkeit sicher zu stellen und sie sollen andererseits die Zusammenarbeit mit den Hochschulen und der Wissenschaft f rdern Zur lllustration der beschriebenen mathematischen Konzepte werden im Bericht numerische Resultate aufgef hrt Diese sind allerdings nicht als offizielle Resultate der betreffenden Erhebungen zu verstehen Ebenfalls k nnen die tats chlich angewendeten Methoden leicht von den hier beschriebenen abweichen Die Methodenberichte sind auf der Internetseite des BFS in elektronischer Form verf gbar Les rapports de m thodes d crivent les m thodes math matiques et statistiques la base des r sultats et des analyses de la sta tistique publique lls pr sentent galement l valuation et le d ve loppement de nouvelles m thodes en vue d une application future Ces pub
43. nction svyquantile utilise l cart type renvoy par svymean qui est donc l cart type des carts la moyenne et le r sultat de qnorm pour la construction de l in tervalle de confiance sur l chelle des pourcentages alors que selon la m thode de la LSE l cart type du percentile est calcul de mani re diff rente puis multipli par 1 96 De plus l in version de l intervalle de confiance ne se fait pas de la m me fa on Enfin l cart type renvoy par svyquantile est obtenu en divisant l intervalle de confiance a 95 par 2 alors que dans le cadre de la LSE pour le calcul de CVperc on utilise l cart type du percentile et pour le calcul des coefficients de variation synth tiques on utilise le plus grand demi intervalle de confiance 4 5 1 R sultats Dans cette section nous allons d abord pr senter les r sultats obtenus avec 1seComp et avec svyquantile pour tous les param tres method et f possibles pour les classes NOGA 2 10 et 40 de la grande r gion 4 Tableau 1 R sultats pour la classe NOGA 2 10 de la grande r gion 4 med bi bs 1seComp 5740 5616 5977 Wald constant O 5739 5608 5960 Wald constant 5 5739 5 5608 5968 5 Wald constant 1 5740 5616 5977 Wald linear 5739 815 5608 5965 985 score constant O 5739 5591 5960 score constant 5 5739 5 5591 5960 score constant 1 5740 5591 5960 score linear
44. ne d Pour calculer la variance globale il est n cessaire d tablir d une part la variance des salaires dans les entreprises ou variance intra entreprises et d autre part la variance des salaires entre les entreprises ou variance inter entreprises 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 7 D apr s 1 p 28 la variance intra entreprise de l entreprise i de la strate h not e Bri se calcule ainsi Mahi 1 Md hi Md hi Ed hi Bni Varle SE 1 s a Mhi Mhi 1 Mhi Md hi OU ea ni d signe la somme des e correspondant aux salaires de l entreprise dans le domaine d et ou la variance Var e est prise sur les indices j correspondant aux salaires de l entreprise i notons que ea ni ma ni correspond alors la moyenne des e La contribution de l entreprise i ala variance totale est donn e par Bii Mpill tri Bri 2 Madhi Madhi Madhi edhi d hi Var e 4 d hi 1 ari an Mpi 1 Mpi 1 Mhi Md hi Ces contributions sont somm es afin d obtenir B la somme des contributions intra entreprises au niveau de la strate Mhill tha By K By Y mail thi Brg Passons pr sent la variance inter entreprises dans une strate not e 4 Celle ci se calcule de mani re analogue voir 1 p 28 21 2 An 7 Var eni 2 1 a Ga N 1 Nh Nd h ou eq repr sente la somme des e correspondant aux salaire
45. oids ne sont pas sp cifi s la fonction renvoie des quantiles non pond r s Si au contraire les poids ont bien t mentionn s la m thode utilis e dans le contexte de la LSE et d crite a la section 2 1 est appliqu e dans une boucle for qui est effectu e pour chaque quantile a calculer Les valeurs obtenues sont alors retourn es Si data est un fichier contenant par exemple les donn es du secteur secondaire de la grande r gion 4 pour la LSEO2 alors la commande computeQuantiles data mbls data gewibgrs 0 5 renverra la m diane 5953 3 2 statMed R La fonction statMed calcule un intervalle de confiance a 95 des coefficients de variation synth tiques a 95 et 68 62 et le coefficient de variation du percentile Elle prend onze arguments x donn es dont on calcule la m diane mb1s strata identificateurs de strates stragrs psu identificateurs d entreprises identr nh nombre d entreprises chantillonn es dans la strate h nrep th taux effectif d chantillonnage de la strate h th Nh nombre total d entreprises dans la strate h nrep th mhi nombre de salaires chantillonn s dans l entr i anzlohn thi taux d chantillonnage de l entreprise i thi Mhi nombre total de salaires dans l entreprise anzlohn thi weights poids a utiliser lors des calculs gewibgrs crit crit re a utiliser lors de l imputation de la variance Il n est pas n cessaire que tous ces arguments soient sp cifi s l
46. or Enfin il reste la division par sum denominator design prob qui pose galement probl me Dans le cas de svymean svyrecvar est appel avec sweep x 2 average 1 design prob sum 1 design prob comme premier argument ou x 1 cols C ronan a sum 1 design prob Pour que le r sultat soit celui que Ton attend il faudrait poser x data mbls lt med et average 0 5 24 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 ll y ade nouveau la diff rence entre la valeur th orique 0 5 et la valeur calcul e average De plus il y a le facteur 1 sum 1 design prob qui ne correspond a rien Enfin pour terminer voici les diff rences entre les calculs effectu s dans le cadre de la LSE et ce que la fonction svyquantile permet de faire Lors du calcul des donn es correspondant un pourcentage un quantile ou une borne d intervalle il y a d j une diff rence m me si l on sp cifie method constant et f 1 l exemple suivant en est une illustration Consid rons le vecteur x lt 1 10 et les poids associ s w lt rep 1 10 Selon la m thode de la LSE la m diane vaudra 5 5 voir la description de la m thode de la LSE section 2 1 alors que la fonction svyquantile renverra 5 car elle proc de a une interpolation autour entre autres du point 5 0 5 Au niveau de l intervalle de confiance en sp cifiant interval type Wald il y a plusieurs diff rences La fo
47. ors de l appel de statMed Par cons quent ils ont une valeur par d faut fix e NULL except x qui est videmment indispensable Le code se divise en quatre parties Pour commencer les donn es sont test es et mises sous une forme coh rente puis le calcul de la m diane celui des variances ainsi que la proc dure d imputation sont effectu s Enfin les indicateurs de pr cision sont calcul s et retourn s Remarquons que les donn es fournies par la section LOHN de l OFS ne contiennent pas toutes les variables list es ci dessus il s agit donc de les calculer A cet effet on trouvera un script au d but de l annexe 5 3 2 1 Tests Les donn es sont contr l es d abord au niveau global puis au niveau des entreprises et enfin au niveau des salaires Si les identificateurs de strates strata n ont pas t sp cifi s il est suppos qu il n y a qu une seule strate Le m me processus est appliqu aux identificateurs d entreprises psu Si le nombre d entreprises chantillonn es dans la strate n a pas t sp cifi on suppose que le domaine est constitu de strates enti res les entreprises sont compt es dans chaque strate et le r sultat obtenu est d fini comme le nombre d entreprises chantillonn es dans la strate Dans le cas o ni le nombre total d entreprises Nh ni le taux de sondage th n ont t sp cifi s le taux est suppos gal a 1 et Nh gal a nh Si un seul de ces param tres a t
48. orte plusieurs entreprises et donc plusieurs Bhi Bh prend la valeur de la somme des Bhi diff rents de NA Un processus similaire est appliqu pour le cas de la variance inter entreprises not e Ah On part de la variance empirique des sommes de ej pour chaque entreprise ehi on calcule nap le nombre d entreprises dans le domaine ne et on calcule les variances Ah Ah lt ne 1 Ah ne 1 ne nh eh ne 2 nh 1 C est ce stade qu intervient l imputation si elle est n cessaire 3 2 3 Imputation Si le crit re d imputation a t sp cifi si certains Ah ont pour valeur NA et si d autres ont pu tre calcul s alors on proc de l imputation selon le crit re pass en argument lors de l appel de statMed Dans le cadre de la LSE imputation se fait sur les strates de la m me grande r gion et de la m me classe NOGA 2 Pour commencer une variance relative not e Abrel est calcul e pour chaque strate Ah est divis par le carr de la somme des poids de la strate not svh Abrel lt Ah svh 2 ensuite de quoi la moyenne des Abrel diff rents de NA est calcul e pour chaque valeur du crit re d imputation crit on la noten Abrel Enfin pour chacune des strates ne contenant qu une entreprise ne 1 Ah prend la valeur den Abrel qui lui correspond selon le crit re crit multipli e par le carr de la somme des poids de sa strate svh 2 Ah lt svh 2 m_Ahrel Enfin si ne 1 et th
49. our le calcul de la variance Cette derni re appelle la fonction multistage qui appelle onestage qui enfin appelle onestrat Notons encore que svyquantile appelle svymean pour le calcul de la variance et svyratio appelle svytotal pour le calcul du ratio 4 1 Le design 4 1 1 svydesign La fonction svydesign permet de sp cifier le design d une enqu te Son r le se r sout es sentiellement tester les donn es et les mettre sous une forme ad quate pour la suite des calculs Elle prend neuf param tres 2007 OFS PROGRAMMES R POUR L INTERVALLE DE CONFIANCE DE LA M DIANE 15 ids identificateurs des unit s d chantillonnage probs probabilit s d chantillonnage strata identificateurs des strates variables variables mesur es lors de l enqu te fpc taux de sondage ou tailles des populations totales data donn es nest si TRUE emp che les PSU d tre dans plusieurs strates check strata si TRUE v rifie que les PSU sont dans une strate weights poids d chantillonnage Pour commencer le param tre ids s il n a pas t sp cifi est pos gal a 1 n avec n le nombre de lignes de data Ensuite si les arguments probs et weights ont tous deux t sp cifi s le programme s arr te stop Can t specify both sampling weights and probabilities Si par contre weights a t sp cifi mais pas probs ce dernier est pos gal a l inverse de weights La variable bool enne has strata est
50. package peuvent en g n ral traiter plusieurs variables simultan ment Certaines fonctions permettent de calculer l effet du design d effectuer une poststratification ou encore une calibration Les poids pris en compte sont g n raux il ne doit pas forc ment s agir des poids d extrapolation Par contre aucune imputation n est possible l utilisation du package survey n cessite deux tapes Il faut commencer par sp cifier le de sign de l enqu te a l aide de la fonction svydesign pour ensuite lancer le calcul d sir a l aide de l une des fonctions svyquantile svymean svyratio OU svytotal le pa ckage survey comporte d autres fonctions mais elles ne seront pas trait es dans ce rapport Le code de ces fonctions est disponible a l adresse http cran ch r project org src contrib Descriptions survey html dans le fichier Multistage R qui se trouve dans l ar chive survey_3 6 5 tar gz Le code de svytotal est disponible via la commande survey svytotal survey design2 cette commande fonctionne aussi pour svyratio et svymean Pour svyquantile il faut utiliser la commande getS3method svyquantile survey design Notons que ces fonc tions sont d crites dans le manuel de r f rence du package 4 qui est disponible l adresse cit e plus haut Ainsi nous ne d taillerons que les aspects qui nous semblent importants Les fonctions svymean svyratio et svytotal font toutes appel svyrecvar p
51. poids sont pris dans l ordre croissant des donn es et leurs sommes partielles sont calcul es puis divis es par la somme des poids totale Une fonction de r partition empirique cdf est ensuite calcul e a l aide de la fonction approxfun Si method linear cdf sera une approximation lin aire par morceaux et si method constant cdf sera une fonction constante par morceaux continue a droite si f 0 a gauche si f 1 voir l aide de R au sujet de la fonction approxfun pour davantage de d tails Enfin cdf p est retourn C est ensuite la fonction computeScoreCI qui est d finie Elle permet le calcul d un intervalle de confiance selon la m thode de l inversion d un test du score robuste qui est d crite dans 5 Pour commencer la fonction U est d finie comme UTC 1 p et la fonction scoretest glimit comme umean ae SE umean Re O umean svymean U 0 design et SE umean correspond l cart type renvoy par la fonc tion svymean La diff rence interquartile iqr est ensuite calcul e grace la fonction IQR cette derni re ne permet pas de sp cifier de poids iqr est donc la diff rence des quartiles non pond r s Cette valeur est utilis e pour la construction de l intervalle lower min xx igr 100 upper max xx iqr 100 dans lequel la fonction uniroot cherchera la racine de la fonction scoretest avec d abord qlimit qnorm alpha 2 lower tail FALSE puis qlimit qnorm alpha 2 lower tail T
52. pr sent au secteur secondaire de la grande r gion 4 ce qui repr sente 57 266 salaires La fonction svydesign a besoin de 613 14 secondes pour en d terminer le design 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA M DIANE 27 svytotal sans effectuer d imputation traite ces salaires en 105 11 secondes alors qu il suffit de 1 55 secondes 1seComp En ce qui concerne la grande r gion 4 en entier il s agit l de 230 443 salaires le package atteint ses limites En effet lors de l ex cution de la fonction svydesign un message d erreur apparait sans que le design n ait pu tre sp cifi Erreur impossible d allouer un vecteur de taille 900 Ko Messages d avis Reached total allocation of 765Mb La fonction 1seComp par contre met 7 40 secondes pour traiter ces salaires Enfin pour les 1 031 538 salaires 1seComp a besoin de 61 38 secondes Notons que seules les valeurs relatives de ces temps sont importantes car ils d pendent de l ordinateur sur lequel les calculs ont t effectu s Tableau A Performances du programme et du package survey pour quelques classes de salaires gr4 nog10 gr4 sect sec gr4 CH salaires 300 57 266 230 443 1031538 svydesign 0 08 613 14 impossible impossible svytotal 0 12 105 11 impossible impossible 1seComp 0 09 1 55 7 40 61 38 Conclusion Le but poursuivi au d but de ce travail tait de d terminer s
53. qq tmpS i lt cum w cum w gt qq i 1 2 and the corresponding orders tmpO i lt ord cum w gt qq i 1 2 if a sum is equal to qq returns the mean of the two xx corresponding to otherwise the lowest res i lt ifelse abs tmpS 1 i qqli lt 1le 010 mean xx tmpO i xx tmp0 1 i return res 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE R f rences 40 1 Graf M 2002 Enqu te suisse sur la structure des salaires 2000 Plan d chantillon nage pond ration et m thode d estimation pour le secteur priv Rapport de m thode 338 0010 Office f d ral de la statistique Neuch tel 2 Sarndal C E Swensson B amp Wretman J 1992 Model Assisted Survey Sampling Springer Series in Statistics 3 R Development Core Team 2006 R A language and environment for statistical compu ting R Foundation for Statistical Computing Vienna Austria ISBN 3 900051 07 0 URL http www R project org 4 Lumley T 2006 The survey Package URL http faculty washington edu tlumley survey 5 Binder D A 1991 Use of estimating functions for interval estimation from complex sur veys Proceedings of the ASA Survey Research Methods Section 1991 34 42 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 Methodenberichte des Dienstes Statistische Methoden des BFS Rapports de m thodes du Service de m thodes statistiques de l OFS Methodology reports pub
54. r e ainsi qu un intervalle de confiance et plusieurs coefficients de variation pour les salaires de la LSE x Usage lseComp data noga_spec NULL Arguments data Data frame contenant une colonne pour chacun des l ments suivants mb1s stragrs identr nrep th anzlohn thi gewibgrs gr et nog_2 voir D tails pour plus d informations mee Donn es selon lesquelles les r sultats seront d taill s noga_spec Vecteur sp cifiant les groupes de classes noga pour lesquelles la m diane doit tre calcul e D tails La fonction 1seComp appelle la fonction statMed qui calcule la m diane pond r e l aide de la fonction computeQuantiles l intervalle de confiance 95 les coefficients de variation synth tiques 95 et 68 62 et le coefficient de variation du percentile mb1s d signe les salaires stragrs les strates identr les identificateurs d entreprises nrep le nombre d en treprises ayant fourni au moins un salaire th les taux de sondage effectifs dans les strates anzlohn le nombre de salaires fournis par entreprises thi les taux de sondage effectifs dans les entreprises gewibgrs le produit des taux d occupation et des poids d extrapolation gr les r gions NUTS II et nog_2 les regroupements NOGA2 utilis s dans la LSE Valeur Renvoie un data frame Remarque ll est possible d obtenir la m diane pond r e d un domaine en appliquant directement 1seComp au sous ensemble de donn es correspondant Tou
55. reichen vgl Umschlagseite 2 und mit verschiedenen Mitteln En sa qualit de service central de statistique de la Conf d ration l Office f d ral de la statistique OFS a pour t che de rendre les informations statistiques accessibles a un large public L information statistique est diffus e par domaine cf verso de la premi re page de couverture elle emprunte diverses voies Diffusionsmittel Kontakt Moyen de diffusion N composer Individuelle Ausk nfte 0327136011 Service de renseignements individuels info bfs admin ch Das BFS im Internet Medienmitteilungen zur raschen Information der Offentlichkeit ber die neusten Ergebnisse Publikationen zur vertieften Information zum Teil auch als Diskette CD Rom Online Datenbank www statistik admin ch www news stat admin ch 032 713 60 60 order bfs admin ch 032 713 60 86 L OFS sur Internet Communiqu s de presse information rapide concernant les r sultats les plus r cents Publications information approfondie certaines sont disponibles sur disquette CD Rom Banque de donn es accessible en ligne www statweb admin ch Nahere Angaben zu den verschiedenen Diffusionsmitteln liefert das laufend nachgef hrte Publikationsverzeichnis im Internet unter der Adresse www statistik admin ch Aktuell Publikationen La liste des publications mise a jour r guli rement donne davantage de d tails sur les divers moyens de diffusio
56. s B oa ue ee e A f AT el MERS ae SA ARE ES 14 4 Le package survey 15 4i Ledesigi E tg Henke ate Bd 2 ee Be ete aie 2 aero ee 15 4 2 Le calcul de la variance 17 4 3 Le calcul des statistiques 19 4 4 Autres fonctions 23 4 5 Application la LSE 0 0 0 4446454645 4 04 24 5 Performances 27 Conclusion 28 Annexes 29 A Mode emploi cx cs bce te ee ay ak eee oe es ek EE Sic EE 29 D COGe EE 33 R f rences 40 Introduction Les calculs d intervalles de confiance de la m diane dans le cadre de la LSE Enqu te suisse sur la structure des salaires sont effectu s l aide de la macro icmed02 sas de Monique Graf Pour certains offices cantonaux disposant d une partie seulement des donn es suisses des calculs par le logiciel R 3 ont t envisag s Dans le but de leur fournir les outils ad quats nous avons tudi les possibilit s qu offre le logiciel R et le package survey de Thomas Lumley 4 Les difficult s rencontr es lors de l application de ce package ont motiv l impl mentation d un programme sp cifique Ce rapport a pour but la description de la partie du package qui a t tudi e ainsi que la pr sentation du programme qui a t impl ment Apr s une br ve description de la LSE et des donn es sur lesquelles nous avons travaill nous d taillerons quelques aspects math matiques le calcul de la m diane celui de la
57. s de la strate h nouveau d n Nd h correspond a la moyenne des e La contribution inter entreprises de la strate h la variance totale est donn e par Aj np 1 th An _1 2 nah IVar bet Nda 4 _ Pdh d h np 1 Np 1 Nh Nd h Pour obtenir la contribution totale de la strate h la variance on somme les contributions inter et intra entreprises nal tn Maat Ah tn Bh voir 1 section 3 3 4 ou 2 r sultat 4 3 1 Enfin pour la variance globale on divise la somme des variances des strates par le carr de la somme totale des poids 5 Vost h SVost Ro 2 2 2 Intervalle de confiance et coefficients de variation De la variance SV on tire l cart type du percentile sep V S Vst qui va nous permettre d tablir l intervalle de confiance 95 et les trois coefficients de va riation Pour obtenir le coefficient de variation du percentile not CV perc on divise simplement l cart type par 0 5 la valeur th orique du percentile de la m diane sep C Vperc 100 z 0 5 8 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 les diff rents coefficients de variation seront exprim s en pourcents Pour obtenir l intervalle de confiance a 95 not b bs on calcule un intervalle de confiance sur l chelle des pour centages et on en prend la pr image par la fonction de r partition empirique b bs F 0 5 1 96 sep 0 5 1 96 sep o F
58. soient sp cifi s correctement c est dire x gewibgrs mbls lt med 0 5 cluster NrSalaire OU identr nPSU tailles originales des chantillons nrep OU anzlohn fpc tailles des populations totales lonely psu remove stratum identificateurs de strates NrSalaire correspond en fait un vecteur 1 n avec n le nombre de salaires Cette variable joue le r le d identificateur de salaire fpc correspond nrep th et anzlohn thi Les diff rents param tres sont calcul s par la fonction svydesign Les valeurs de stage et de cal ne sont pas importantes 4 2 2 onestage La fonction onestage ne fait qu appeler onestrat pour chaque unit d chantillonnage d un niveau de sondage et renvoyer la somme des variances obtenues Comme onestrat elle prend huit arguments x variable dont on calcule la variance strata identificateurs des strates clusters identificateurs des unit s d chantillonnage nPSU tailles originales des populations chantillonn es fpc tailles des populations totales lonely psu d finit le traitement des strates avec un seul l ment stage niveau de sondage en traitement cal contient les d tails de la calibration Tous ces param tres sont pass s tels quels lors de l appel de onestrat au d tail pr s que seules les lignes correspondant l unit en traitement sont s lectionn es 4 2 3 multistage La fonction multistage elle applique onestage aux diff rents niveaux d
59. t la m diane est calcul e strata Identificateurs des strates psu Identificateurs des PSU nh Tailles d chantillonnage nettes des strates dans l chantillon original ind pendamment de toute d finition de domaine Nh Tailles totales des strates th Taux d chantillonnage nets des strates nh Nh mhi Tailles d chantillonnage des PSU dans l chantillon original ind pendam ment de toute d finition de domaine Mhi Tailles totales des PSU thi Taux d chantillonnage des PSU mhi Mhi weights Poids des SSU tenant compte mais pas n cessairememt gaux aux poids d chantillonnage crit Crit re utilis pour l imputation de la variance pour les strates ne contenant qu un seul PSU D tails Pour commencer la m diane pond r e est calcul e par computeQuantiles Puis la variance intra PSU est calcul e pos e gale O si le taux de sondage vaut un La variance inter PSU est galement calcul e avec une imputation pour les strates ne contenant qu un seul PSU bas e sur les strates appartenant au m me crit re crit l Iimputation n a lieu que s il n y a qu un seul PSU dans la strate Pour terminer un intervalle de confiance 95 des coefficients de variation synth tiques 95 et 68 62 et le coefficient de variation du percentile sont calcul s Valeur Renvoie un data frame Remarque Il est possible d obtenir la m diane pond r e d un domaine en appliquant directement 1seComp au sous ensemb
60. taille originale d une population chantillonn e vaut un Dans le contexte de la LSE le param tre cal ne rev t aucune importance puisque aucune calibration n est effectu e Passons pr sent l analyse du code Pour commencer une valeur f est calcul e Elle cor respond au facteur 1 t ou 1 tni que nous avons vu la section 2 2 1 Ensuite le facteur scale est calcul Il correspond lui 1 tp nn nn 1 Si f 0 une matrice de z ros est renvoy e Les donn es x sont alors somm es par valeur de cluster et nsubset stocke le nombre de cluster Si nsubset est inf rieur nPSU x est compl t par des z ros cela correspond un domaine et le traitement appliqu a t d crit la section 2 3 La fonction calcule ensuite les carts la moyenne de x pour tre pr cis ce sont les carts aux moyennes par colonnes qui sont calcul s dans le cadre de la LSE x ne contient qu une seule colonne Si dans l chantillon original la strate contient plus d un l ment mais pour cause de traite ment d un domaine il n en reste qu un un message d erreur est envoy 2007 OFS PROGRAMMES R POUR L INTERVALLE DE CONFIANCE DE LA M DIANE 17 Pour terminer la valeur scale crossprod x scale Y xi x 2 est renvoy e On constate que except pour l imputation les calculs effectu s par onestrat correspondent la th orie appliqu e dans le cadre de la LSE pour autant que les param tres
61. tefois les m thodes de calcul reposant sur des principes de convergence asymptotiques les r sultats obtenus pour des domaines de taille restreinte sont a interpr ter avec prudence R f rences Graf M 2002 Enqu te suisse sur la structure des salaires 2000 Plan d chantillonnage pond ration et m thode d estimation pour le secteur priv Rapport de m thode 338 0010 Office f d ral de la statistique http www bfs admin ch bfs portal fr index infothek erhebungen__quellen methodenberichte Document 50660 pdf Exemples Soit data le fichier contenant l ensemble des donn es La commande suivante calcule la m diane pond r e de l ensemble des donn es 2007 OFS PROGRAMMES R POUR L INTERVALLE DE CONFIANCE DE LA M DIANE 29 lseComp data Afin d effectuer le calcul uniquement pour la r gion NUTS II 4 on utilisera lseComp data data gr 4 et pour la classe noga 10 14 de la r gion NUTS Il 4 cod e par 10 dans le jeu de donn es lseComp data data gr 4 amp data nog_2 10 Pour traiter l ensemble des donn es mais avec la m diane calcul e pour chaque classe noga s par ment lseComp data nog 2 Dans les exemples suivants GESCHLE est un nom de colonne qui sp cifie le sexe des employ s Il pourrait s agir de n importe quel nom de colonne pour laquelle des r sultats d taill s sont voulus La commande suivante effectue le calcul pour l ensemble des donn es mais avec la m diane calcul e po
62. tion a l aide d un objet de type fpc Cette der ni re est d ailleurs appel e dans la fonction svydesign si ni probs ni weights n ont t sp cifi s Les codes de ces deux fonctions sont accessibles via getS3method weights survey design et getS3method weights survey_fpc le code de la fonction s ap pliquant a un objet de type fpc est galement disponible dans le fichier Multistage R dont il est sujet au d but du chapitre 4 La fonction svyvar effectue un calcul de variance empirique Elle appelle svymean qui calcule d abord la moyenne pond r e des donn es xbar puis la moyenne pond r e de x xbar 2 n n 1 o n est le nombre d observations Le code de svyvar est accessible via la commande getS3method svyvar survey design Enfin nous avons trouv l adresse http www dcs napier ac uk peas R myRfunctions R le code d une alternative a la fonction svyquantile my svyquantile Les donn es y sont d abord mises sous une forme ad quate puis une fonction computeQuantiles est d finie Cette derni re appelle approxfun avec le param tre method linear et est tout de suite utilis e pour le calcul du quantile La fonction getpse est ensuite d finie dans laquelle le design est mis jour par l ajout de la variable pct 1 x lt rv o x d signe les donn es et rv le param tre pass en argument a la fonction getpse ce sera la variable Quantile qui contient le quantile calcul
63. toujours des r sultats diff rents la m diane calcul e par la m thode de la LSE tant toujours sup rieure ou gale celle calcul e par la m thode du package survey m_survey lt m_LSE 2 2 Calcul de la pr cision Quatre indicateurs de pr cision sont calcul s un intervalle de confiance 95 des coeffi cients de variation synth tiques 95 et 68 62 et le coefficient de variation du percentile Pour cela on commence par calculer la variance du percentile correspondant la m diane la m thode appliqu e est celle de la lin arisation pour davantage de d tails voir 1 section 3 3 et 2 section 5 6 pour ensuite en d duire l intervalle de confiance et les coefficients de variation 2 2 1 Calcul de la variance On d finit pour chaque salaire j la variable e ej gj LUyj lt med 05 o y repr sente le j me salaire gj son poids associ et med la m diane Soit mp le nombre de salaires de l entreprise i dans l chantillon et ma i le nombre de salaires de l entreprise i qui se trouvent dans l chantillon et dans le domaine d dont on calcule la m diane il se peut que les salaires d une strate ou d une entreprise ne soient qu en partie dans le domaine d tude nous reviendrons sur ce cas la section 2 3 De mani re analogue soit ou le nombre d entreprises de la strate h dans l chantillon et ra le nombre d entreprises de la strate h dans l chantillon et dans le domai
64. trates et les sous strates 4 1 2 as fpc La fonction as fpc renvoie une liste de deux l ments popsize les tailles des populations totales et sampsize les tailles des populations chantillonn es Elle prend trois arguments df taux de sondage ou tailles des populations totales strata identificateurs des strates ids identificateurs des unit s d chantillonnage C est d abord sampsize qui est construit Pour chaque niveau d chantillonnage et dans chaque strate les diff rentes valeurs de l identificateur de l unit de sondage sont compt es et stock es dans une matrice nomm e sampsize de m me taille que ids Si le param tre df n a pas t mentionn la fonction s arr te la Sinon les donn es pass es dans le param tre df sont test es Si df contient des valeurs strictement inf rieures a un et d autres valeurs strictement sup rieures a un ou si toutes les valeurs sont gales a un la fonction s arr te 16 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 stop Must have all fpc gt 1 or all fpc lt 1 Si df comprend des valeurs strictement sup rieures a un popsize prend la valeur de df sinon sampsize df Pour terminer le programme v rifie que les valeurs de popsize sont bien constantes dans les strates a chaque niveau 4 2 Le calcul de la variance Le package survey d compose le traitement des donn es en plusieurs parties Comme nous venons de le voir la premi re d
65. tres na rm et deff ont FALSE comme valeur par d faut Pour commencer le param tre x est mis sous forme de matrice Ensuite sina rm TRUE les valeurs manquantes sont t es des donn es Enfin le calcul du total est effectu grace la fonction colSums qui calcule les sommes par colonnes de x design prob C est cette valeur qui est retourn e par la fonction La variance du total est calcul e par la fonction svyrecvar 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 19 svyrecvar x design prob design cluster design strata design fpc postStrata design postStrata Pour terminer l effet du design est calcul Pour cela la variance empirique des donn es ob tenue grace a svyvar est multipli e par sum weights design 2 si deff replace et par sum w 2 sum w nobs sum w o w weights design et o nobs repr sente le nombre d observations si deff TRUE Le rapport entre la variance obtenue avec svyrecvar et la valeur qui vient d tre calcul e est alors renvoy Enfin les diff rentes statistiques calcul es sont retourn es Pr cisons que c est avec cette fonction qu il a t possible de faire les calculs de variance pour la LSE l aide des commandes design lt svydesign ids identr NrSalaire strata stragrs data data weights gewibgrs fpc th thi med lt computeQuantiles data mbls data gewibgrs total lt svytotal x data mbls lt med 0 5 design design
66. ulations totales postStrata d tails concernant la poststratification lonely psu d finit le traitement des strates avec un seul l ment one stage si TRUE ne traite qu un seul niveau de sondage En premier lieu le programme proc de la poststratification La fonction multistage est ensuite appel e C est ce moment l que l option survey lonely psu est lue et pass e en argument multistage 4 3 Le calcul des statistiques Nous d taillons pr sent les fonctions svytotal svyratio svymean etsvyquantile qui permettent comme leurs noms l indiquent de calculer des totaux des ratios des moyennes et des quantiles Elles peuvent traiter des donn es contenant plusieurs colonnes et donc calcu ler une statistique pour chacune d elles Toutefois pour davantage de clart nous parlerons du total du ratio et de la moyenne calcul s m me s il peut y en avoir plusieurs suivant le format des donn es Notons que pour le calcul de la variance ces fonctions appellent svyrecvar que nous avons vu la section 4 2 4 3 1 svytotal La fonction svytotal calcule un total pond r Elle prend quatre arguments x variable dont on calcule le total design design de l enqu te na rm si TRUE enl ve les valeurs manquantes deff si TRUE calcule l effet du design Le param tre design est cens tre un objet de type survey design et doit donc avoir t calcul a l aide de la fonction svydesign Les param
67. ur chaque sexe s par ment lseComp data GESCHLE Pour l ensemble des donn es mais avec la m diane calcul e pour chaque classe noga et chaque sexe s par ment lseComp data nog 2 GESCHLE Il est possible de m langer des classes noga et des groupes de classes noga lseComp data noga_spec c 10 15 37 list 15 37 Pour obtenir les r sultats pour l ensemble des donn es pour chaque classe noga et pour quelques groupes de classes noga lseComp data noga_spec c list unique data nog_2 1 list 10 45 list 10 14 list 15 37 15 45 list 50 93 list 50 52 50 55 list 60 64 60 64 list 65 67 65 67 list 70 74 70 85 list 90 93 90 93 Idem mais pour chaque sexe s par ment lseComp data GESCHLE noga_spec c list unique data nog 2 1 list 10 45 list 10 14 list 15 37 15 45 list 50 93 list 50 52 50 55 list 60 64 60 64 list 65 67 65 67 list 70 74 70 85 list 90 93 90 93 30 PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DELAMEDIANE OFS 2007 StatMed M diane pour plan de sondage complexe Description Calcule une m diane pond r e avec un intervalle de confiance et plusieurs coefficients de va riation pour des donn es issues d un plan de sondage complexe pour un domaine quelconque et un sch ma de poids g n ral Usage statMed x strata NULL psu NULL nh NULL th NULL Nh NULL mhi NULL thi NULL Mhi NULL weights NULL crit NULL Arguments x Variable d tude don
68. utation au niveau des strates Cependant c est grace a svytotal qu il est pos sible d effectuer le calcul de variance plut t qu avec svyquantile svyratio OU encore svymean m me s il s agit du calcul de la variance d une m diane et qu il se rapproche davan tage du calcul d un ratio que de celui d un total Nous allons d tailler les raisons pour lesquelles svytotal est la seule fonction permettant de reproduire les calculs de la LSE La premi re variable a passer en argument a svyrecvar pour obtenir la bonne variance est data gewibgrs data mbls lt med 0 5 La fonction svytotal passe x design prob en premier argument lors de l appel de la fonc tion svyrecvar Si on sp cifie x data gewibgrs lt med 0 5 lors de l appel de svytotal la variance retourn e sera la bonne il faudra encore la diviser par le carr de la somme des poids totale voir la section 4 3 1 Dans ce cas le calcul de la m diane doit tout de m me tre effectu a part Dans le corps de la fonction svyratio svyrecvar est appel avec numerator ratio denominator 1 sum denominator design prob design prob comme premier argument Pour obtenir la bonne variance il faudrait sp cifier numerator data mbls lt med et denominator 1 Il faudrait encore que ratio 0 5 mais 0 5 n est ou une valeur th orique et ratio sera en g n ral diff rent rappelons que ratio est le quotient de svytotal appliqu a numerator et a denominat
69. v_s le coefficient de variation du percentile CVperc le nombre de strates Nstrata le nombre d entreprises Npsu et enfin le nombre de salaires Nssu 3 2 5 statMedM R Dans certains cas il peut se r v ler utile d identifier les composantes inter entreprises et intra entreprise de la variance globale La contribution inter entreprises est ais ment calculable II suffit de sp cifier lors de l appel de la fonction statMed le param tre thi 1 Les variances Bhi seront donc toutes fix es O et la variance globale ne tiendra compte que des variances inter entreprises Afin d tre en mesure d identifier la part intra entreprises de la variance glo bale une version modifi e de statMed R a t mise au point statMedM R qui permet de passer en argument la m diane par rapport laquelle la variance doit tre calcul e il ne suffit pas de faire le calcul avec statMed sur les donn es de chaque entreprise s par ment car c est la variance de la m diane de l entreprise qui serait calcul e et non pas la variance de la m diane globale dans l entreprise La seule diff rence avec statMed r side dans le fait que la m diane n est pas calcul e dans le programme En revanche il faut passer en argument une valeur pour med la m diane 3 2 6 Exemple Si data est un fichier contenant les donn es du secteur secondaire de la grande r gion 4 pour la LSEO2 alors les commandes critgrnog_2 lt as numeric paste data gr dat
70. valle de confiance a 95 de la m diane On calcule enfin les coefficients de variation synth tiques 68 62 et 95 On trouvera davantage de d tails la section 2 et dans 1 chapitre 3 1 2 Description des donn es Les fichiers de donn es sur lesquels nous avons travaill sont constitu s de quinze colonnes identr identificateur de l entreprise GESCHLE sexe du salari ANFORNI niveau de qualifications requises pour le poste nog_2 secteur d activit classe NOGA 2 de l entreprise mbls montant du salaire mensuel brut standardis gewibgrs poids d extrapolation tenant compte du taux d occupation ukto canton de l entreprise 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 5 stragrs identificateur de la strate nrep nombre d entreprises r pondant par strate ta3 taille de l entreprise grs r gion de l entreprise gr grande r gion NUTS 2 de l entreprise anzlohn nombre de salaires communiqu s par l entreprise th taux de sondage effectif dans la strate thi taux de sondage dans l entreprise On trouvera plus de d tails a ce sujet dans 1 Pour travailler avec le package survey une colonne a t ajout e NrSalaire constitu e d entiers de 1 an n tant le nombre de lignes du fichier Cette colonne joue le r le d identificateur de salaire 1 3 Notations Dor navant on utilisera les notations suivantes Yj montant du j me salaire mbls gj poids associ au j me salaire gewi
71. x donn es dont il faut calculer les quantiles design design de l enqu te quantiles quantiles a calculer ci si TRUE calcule des intervalles de confiance alpha 1 le niveau de confiance des intervalles method voir ci dessous f voir ci dessous interval type voir ci dessous Les param tres alpha et ci ont 0 05 et FALSE comme valeurs par d faut Les param tres method par d faut gal linear et f par d faut gal 1 sont pass s tels quels en argu ment lors de l appel des fonctions approx et approxfun dans le corps de svyquantile Le param tre interval type d termine la m thode utilis e pour la construction de l intervalle de confiance score correspond l inversion d un test du score robuste et Wald a l inver sion d un intervalle de confiance construit sur l chelle des pourcentages Le code de svyquantile comprend trois parties Dans la premi re les donn es x sont mises sous forme de dataframe et les poids du design sont lus grace a la fonction weights dont il est sujet a la section 4 4 2007 OFS PROGRAMMES R POUR LINTERVALLE DE CONFIANCE DE LA MEDIANE 21 Dans la deuxi me partie sont d finies les fonctions computeQuantiles computeScoreCI et computeWaldCI La fonction computeQuantiles comme son nom l indique calcule des quantiles pond r s Les poids consid r s sont ceux du design alors que les donn es et les quantiles a calculer sont des param tres de la fonction xx et p Les

Download Pdf Manuals

image

Related Search

Related Contents

\{ILL - Villefranche-sur-Mer  marches publics de fournitures courantes et services  IBM UPS1481 User's Manual    Série RL Manual do utilizador  La consommation durable - Bibliothèque nationale de France    Aplicaciones de medición de potencia DSOX3PWR Guía del usuario  Panasonic TH-42LF20E  Substantial Improvement - Illinois Association for Floodplain and  

Copyright © All rights reserved.
Failed to retrieve file