Estimation
Estimation
Estimation
Enqutes et sondages
UE STA 108
MANUEL
DEXERCICES
Sylvie Rousseau
5
7
16
20
29
35
40
44
Exercice 1
Un passager du mtro mesure son temps de trajet domicile-travail pendant 10 jours et relve
successivement (en minutes) : 32 ; 25 ; 28 ; 36 ; 30 ; 26 ; 37 ; 25 ; 33 ; 28 .
Quel est en moyenne la dure du trajet ? valuer aussi la variabilit de cette dure.
Comparer avec un autre itinraire emprunt par notre voyageur pendant les jours suivants et qui lui
prend : 46 ; 21 ; 24 ; 38 ; 44 ; 22 ; 37 ; 20 ; 25 ; 23 minutes.
Exercice 2
Loi binomiale
Exercice 3
Loi hypergomtrique
Le responsable qualit dune usine contrle 20 objets dans chaque lot de 1000 objets avant de le
laisser partir vers le client. Il accepte seulement les lots pour lesquels il ne trouve aucun objet non
conforme dans lchantillon ; dans le cas contraire, le lot est tri unit par unit.
1. Si p% des pices fabriques sont dfectueuses, quelle est la probabilit den trouver k dans
un lot donn de taille 20 ?
2. Quelle est la probabilit pour quun lot contenant une proportion p = 0,05 dobjets non
conformes soit accept ?
3. Mme question pour p = 0,1.
Exercice 4
La moyenne empirique
Exercice 5
1 n
X i . Calculer E (X ) et V (X ).
n i =1
Exercice 6
Pour prserver lanonymat dans certaines enqutes par sondage, le procd suivant peut tre suivi.
Admettons que lon veuille estimer la proportion de personnes qui remplissent leur dclaration fiscale
de manire honnte. On demande alors chaque personne interroge de se retirer dans une pice
isole, et de jouer pile ou face.
- si elle obtient pile alors elle doit rpondre honntement par oui ou non la
question Votre dclaration fiscale est-elle honnte ?
- si elle obtient face , elle devra lancer la pice une nouvelle fois et rpondre par oui ou
non la question Avez-vous obtenu face au deuxime tirage ? .
Grce ce procd, il est impossible lenquteur de savoir quelle question se rapporte la rponse
de la personne interroge, celle-ci peut donc fournir sans crainte une rponse sincre.
1. On note p la proportion inconnue de dclarations fiscales remplies honntement dans la
population et la proportion de rponses oui . Montrer que = p/2 + 1/4 .
2. Soit X la variable alatoire dsignant le nombre de rponses oui dans une enqute auprs
de n personnes. Quelle est la loi de X ? Donner un estimateur de et un estimateur de p.
Calculer leur esprance et variance respectives.
3. En dduire un intervalle de confiance de niveau 1- pour p. On utilisera lapproximation
normale de la loi binomiale.
4. Application numrique avec n = 1000 et 600 rponses affirmatives. Donner une estimation de
p et un intervalle de confiance pour p au niveau 95%. Quel est le prix pay pour la
confidentialit ?
Cov( X , Y ) = XY = E [X E ( X )] E [Y E (Y )]
P( X =k )=Cnk p k (1 p )
nk
avec k{0,1,...,n}
E(X)=np
Var(X)=np(1 p)
Variance :
N.B. : une loi binomiale de paramtres n et p est aussi la somme de n lois de Bernoulli indpendantes
et de mme paramtre p.
5
Loi de probabilit :
P( X =k )=
Esprance :
E(X)=np
Variance :
Var(X)=np(1 p) N n
N 1
( )
2
1 exp 1 xm
2
2
E(X)=m
Esprance :
Variance :
Var(X)=
f(x)=
N (0,1)
np (1 p)
En pratique, on considre que l'approximation est correcte ds que n p(1-p) > 18, d'autant plus que n
est grand et p proche de 0,5.
Xi m
n i =1
Autrement dit, la moyenne d'une variable sur un chantillon alatoire simple tend vers la moyenne
dans la population, quand la taille de lchantillon tend vers l'infini. Par exemple, si l'on pouvait jouer
indfiniment "pile ou face" avec une pice bien quilibre, le pourcentage de "pile" obtenu tendrait
vers 50 %.
Thorme central limite
Si (X1,X2,,Xn) sont des variables i.i.d. selon une loi quelconque de moyenne m et de variance ,
n X n m N(0,1)
Loi
alors:
, lintervalle
3) Construction
Pour construire un intervalle de confiance, on utilise une variable alatoire dont on connat la
distribution de probabilit.
Dfinition : une fonction pivotale pour le paramtre est une fonction des observations ( X 1,..., Xn) et
du paramtre dont la loi ne dpend pas du paramtre .
On recherche dans la suite des fonctions pivotales particulires adaptes aux cas tudis.
la variable alatoire mesure n'est pas normale et le nombre de ralisations est important.
Dans ce cas, la distribution de la moyenne empirique tend vers une loi normale d'aprs le
thorme central limite. On parlera dintervalle de confiance asymptotique.
7
dfinit
S n' 2 =
1
n 1
la
moyenne
( X
empirique
Xn =
1
n
et
la
variance
empirique
modifie
i =1
Xn) .
2
i =1
Xn m
u = 1
On a : P u n
Ce qui revient :
Xn m
N ( 0,1)
de la loi N ( 0,1) .
P X n u
m Xn + u
= 1 .
n
n
Quand la variance est connue, lintervalle de confiance bilatral symtrique pour lesprance dune loi
normale scrit donc au niveau 1 sous la forme suivante :
, xn + u
IC ( m ) = x n u
n
n
Remarque : si = 5% , le fractile dordre 0,975 de la loi normale centre rduite correspond 1,96.
si = 10% , le fractile dordre 0,95 de la loi normale centre rduite vaut environ 1,64.
Xn m
S n'
St (n 1)
Xn m
P t n
t = 1
S n'
de la loi St (n 1)
S n'
S n'
= 1 .
et donc P X n t
m Xn + t
n
n
Quand la variance est inconnue, lintervalle de confiance bilatral symtrique pour lesprance dune
loi normale scrit donc au niveau 1 sous la forme suivante :
sn'
sn'
IC ( m ) = x n t
, xn + t
n
n
sur lchantillon.
Remarque : quand n , on approxime la loi de Student par la loi normale centre rduite. On
retrouve alors le cas prcdent.
~B(n, p ) . Notons Fn =
i =1
X
estimateur sans biais de p.
n
loi N ( 0,1) .
Fn p
N (0,1) .
loi
p(1 p)
de la
u = 1 o u est le fractile dordre 1
2
p(1 p)
Fn p
Fn p
p (1 p )
u
u
u
u
u
u
+ f n (1 f n ) f n +
+
+ f n (1 f n )
fn +
2n
2n
n 4n
n 4n
,
IC(p) =
u
u
1+
1+
n
n
IC ( p) = f n u
f n (1 f n )
, fn + u
n
f n (1 f n )
Do : P u n
Fn p
Fn (1 Fn )
Fn p
Fn (1 Fn ) p 1 p .
p
N (0,1) .
loi
Fn (1 Fn )
u = 1
de la loi N ( 0,1) .
Quand n est grand, lintervalle de confiance bilatral symtrique pour une proportion scrit donc
au niveau 1 sous la forme :
f n 1 f n
IC (p) = f n u
f n 1 f n
, fn + u
S n* 2 =
1
n
( X i m) 2 .
On a
i =1
S n*2
Do P 2 1 n 2 2 2
1
2
2
S n* 2
= 1
2 ( n)
Quand lesprance est connue, lintervalle de confiance bilatral pour la variance dune loi normale
scrit donc au niveau 1 sous la forme suivante :
sn*2
sn*2
, n 2
IC ( 2 ) = n 2
1
2
1 2
2
S n' 2
1
=
n 1
( X
i =1
pour .
On sait que
( n 1) S n' 2
2 ( n 1) .
S n' 2
On a donc P 2 1 ( n 1) 2 2 2
2
2
2
2
= 1 o 1 est le fractile dordre 1 de la loi ( n 1)
s n' 2
s n' 2
(
)
(
)
IC ( ) = n 1 2
, n 1 2
2
1
2
2
2
10
Un petit exemple
Lexercice propose de retrouver sur un exemple les rsultats de la thorie pour un sondage alatoire
simple sans remise de taille fixe. On considre pour cela tous les chantillons possibles de taille 2 pris
dans une population de taille N = 5. On connat par ailleurs les valeurs de la variable dintrt Y pour
chaque unit de la population, savoir respectivement : 8, 3, 11, 4 et 7.
1. Calculer la moyenne Y et la dispersion S Y du caractre dintrt sur la population.
2. Lister tous les chantillons possibles de taille 2.
2
()
( )
5. Calculer la variance V Y .
( )
V (Y )
( )
Exercice 2
Rappels de cours
Lexercice propose de dmontrer des rsultats prsents dans le cours et dinsister sur des
techniques de raisonnement usuelles en sondage. Considrons quon veuille estimer le total et la
moyenne dune grandeur Y dans une population U de taille N. Pour cela, on procde un sondage
alatoire simple sans remise de taille n et on note S lchantillon alatoire obtenu.
1. Combien y a-t-il dchantillons possibles ? Quelle est la probabilit de tirer chacun dentre
eux ?
2. On considre un individu k quelconque dans U. Combien y a-t-il dchantillons contenant cet
individu ? En dduire la probabilit de tirage de k.
3. On note I k la variable alatoire valant 1 si k appartient lchantillon et 0 sinon.
a. Que vaut E (I k ) ?
k S
partir des I k ?
4. En dduire que :
a.
N
ty =
n
k S
b. et que Y =
k U
1
1
Yk estime sans biais la vraie moyenne Y =
n k S
N
k U
Cov(I k , I l ) .
11
6. On note S y =
2
1
(Yk Y )2 et f = Nn . Montrer que :
N 1 k U
a. Var (ty ) = N ( N n )
b.
()
S y2
n
S
Var Y = (1 f )
n
2
y
7. Quel est lintrt du sondage sans remise par rapport au sondage avec remise ?
8. Montrer que s =
2
1
Yk Y
n 1 k S
()
( )
Exercice 3
Estimation de la surface agricole utile dun canton
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )
On veut estimer la surface moyenne cultive dans les fermes dun canton rural. Sur 2010 fermes que
comprend ce canton, on en tire 100 par sondage alatoire simple. On mesure Yk la surface cultive
par la ferme k en hectares et on trouve :
k S
= 2907 ha et
k S
2
k
= 154 593 ha 2
1
N
k U
Exercice 4
Estimation dune retombe touristique
(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )
145 mnages de touristes sjournant en France dans une rgion donne ont dpens 830 en
moyenne par jour. Lcart type estim de leurs dpenses slve 210 . Sachant que 50 000
mnages de touristes ont visit la rgion o a t effectue lenqute, que peut-on dire de la dpense
totale journalire de lensemble de ces mnages ? On supposera pour cela que lchantillon est issu
dun plan alatoire simple probabilits gales.
Exercice 5
Taille dchantillon pour un sondage dopinion
(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )
= 30%
Un sondage sur la popularit dune personnalit politique lui accorde un pourcentage p
dopinions favorables. En admettant quil sagisse dun sondage alatoire simple sans remise et que la
taille de lchantillon est ngligeable au regard de celle de la population, combien de personnes ontelles t interroges pour que lon puisse dire avec un degr de confiance de 95% que la vraie
de plus de deux points ?
proportion dopinions favorables dans la population ne scarte pas de p
12
Exercice 6
Taille dchantillon pour une proportion
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )
On sintresse lestimation de la proportion P dindividus atteints par une maladie professionnelle
dans une entreprise de 1500 salaris. On sait par ailleurs que trois personnes sur dix sont
ordinairement touches par cette maladie dans des entreprises du mme type. On se propose de
slectionner un chantillon au moyen dun sondage alatoire simple.
1. Quelle taille dchantillon faut-il slectionner pour que la longueur totale dun intervalle de
confiance avec un niveau de confiance 0,95 soit infrieure 0,01 pour un plan simple :
a. avec remise ?
b. sans remise ?
2. Que faire dans le cas du plan sans remise si on ne connat pas la proportion dindividus
habituellement touchs par la maladie ?
Exercice 7
Nombre despaces de stationnement prvoir
(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )
Une entreprise de promotion immobilire dsire estimer le nombre despaces de stationnement requis
pour une nouvelle tour devant abriter des bureaux. Elle dcide de procder un sondage alatoire
simple sans remise. Elle sait que le nouveau btiment abritera 5 000 personnes et que, dans des
entreprises de mme type que celles devant emmnager dans les futurs locaux, la proportion de
personnes se rendant leur bureau en utilisant les moyens de transport en commun est toujours
suprieure 75%. Quelle doit tre la taille de lchantillon pris au sein des futurs occupants des
bureaux pour pourvoir estimer le nombre despaces de stationnement prvoir avec une marge
derreur symtrique dau plus 150 places au niveau de confiance 90% ?
Exercice 8
Application au marketing direct
(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )
Les sondages sont trs largement utiliss dans le marketing direct : il arrive souvent que lon estime
par sondage le rendement dun fichier donn, ou que lon souhaite comparer les rendements de
plusieurs fichiers, ou encore, que disposant de plusieurs fichiers, on souhaite estimer par sondage le
rendement global de lensemble de ces fichiers. Dans cet exercice, on suppose lexistence d'un fichier
de N = 200 000 adresses. On note p le rendement inconnu du fichier une offre dabonnement prix
rduit avec calculette offerte en prime ; cest donc la proportion dindividus qui sabonneraient si loffre
est lestimation de p obtenue partir dun
tait offerte tous les individus du fichier. Selon lusage p
test fait sur un chantillon de n adresses choisies probabilits gales et sans remise sur le fichier.
1. On sait par exprience que les rendements ce type doffre sur ce fichier ne dpassent pas
gnralement 3%. Quelle taille dchantillon doit-on prendre pour estimer p avec une
prcision absolue de 0,5 point et un degr de confiance de 95% ?
2. Mmes questions pour une prcision de 0,3 point et 0,1 point.
3. Le test a port sur 10 000 adresses et on a not 230 abonnements. En dduire lintervalle de
confiance bilatral 95% pour le rendement p ainsi que le pour le nombre total
dabonnements si la mme offre tait faite sur lensemble du fichier.
Rappel : on appelle prcision absolue au niveau de confiance 1-- la quantit t1 V ( p ) o t1
2
13
Exercice 9
Un cas denqute rpte
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )
On considre une population de 10 stations-services et on sintresse au prix du litre de
supercarburant que chacune dentre elles affiche. Plus exactement, sur deux mois conscutifs, mai et
juin, les donnes de prix figurent dans le tableau ci-dessous :
Prix du litre de supercarburant
Station
Mai
Juin
1
5,82
5,89
2
5,33
5,34
3
5,76
5,92
4
5,98
6,05
5
6,20
6,20
6
5,89
6,00
7
5,68
5,79
8
5,55
5,63
9
5,69
5,78
10
5,81
5,84
On veut estimer lvolution du prix moyen du litre entre mai et juin. On choisit, comme indicateur de
cette volution la diffrence des prix moyens On propose deux mthodes concurrentes:
-
Mthode 1 : on chantillonne n stations (n < 10) en mai et n stations en juin, les deux
chantillons tant totalement indpendants ;
Exercice 10
chantillonnages successifs
En cours de collecte, la taille dun chantillon savre parfois insuffisante pour assurer la prcision
attendue. Une solution naturelle est denquter un chantillon complmentaire. Intressons-nous au
plan de sondage final obtenu aprs :
Suivi dun second tirage simple sans remise de n2 units parmi N-n1 probabilits gales
La slection des n = n1 + n2 units ainsi retenues obit-elle un plan simple sans remise et
probabilits gales dans la population de taille N?
Exercice 11
On souhaite estimer la moyenne et le total d'une variable y sur un domaine U0 dune population finie U
de taille N. Ces quantits sont notes :
t y0 =
kU 0
et
Yo =
t y0
N0
1
N0
kU 0
14
2.
N
ty 0 =
n
1
Y0 =
n0
Yk
et
et
ks0
ks0
ty 0
N
Y0 =
=
Yk
N 0 N 0 n ks0
N
ty 0 = N 0 Y0 = 0
n0
ks0
N 0 = 984 ,
kU 0
=154814 ,
kU 0
2
k
= 42148912
n0 = 89 ,
y
is0
= 13782 ,
y =4530306
2
i
is0
Donner les valeurs des deux estimateurs de la moyenne et calculer les valeurs de leur variance
estime.
15
II/ Notations
1. Dans la population (ou univers) U = {1,2,..., k ,..., N }
Variable dintrt : Y de caractristique individuelle Yk
Total : TY =
Moyenne: Y =
kU
Yk
TY 1
=
N N
Variance : y =
2
1
N
Y
kU k
(Y
kU
)2
2
Dispersion (variance modifie) : S y =
(Y
1
N 1
k U
Y ) =
2
N
2y
N 1
p( s ) 0, s S , et
Moyenne : y =
1
n
sS
p( s ) = 1.
Y
kS k
Dispersion empirique : s y =
2
1
n 1
(Y
k S
k = P(k s ) = sS / ks p(s )
kl = P (k s , l s ) = sS / k ,ls p (s )
kl = kl k l
16
p(s) = 1/ CNn
Paramtre
dintrt
Statistique
Proportion
p = N0/N
Moyenne
Estimateur du
paramtre dintrt
1
y =
n
Vraie variance
dchantillonnage
de cet estimateur
n Sy
Var y = 1
N n
Estimateur
de la variance
dchantillonnage
n sy
Var y = 1
N n
k S
n
= f (taux de sondage)
N
Yk = y (s)
p =
Total
1
n
yk = 0
n
n ks
N
ty = N y =
n
Y
kS k
()
S
n N p(1 p)
Var( p ) = 1
y = N 1 n y
Var
t
N N 1 n
N n
()
n p (1 p )
Var( p ) = 1
N n 1
( )
2
n s y
Var t y = N 1
N n
( )
()
()
()
y Y
N (0, 1)
Var ( y )
17
Exercice 1
On considre une population U et on sintresse lestimation du total dune variable dintrt Y not
ty =
Yk . Pour cela, on prlve un chantillon s avec des probabilits individuelles de slection
kU
notes ( k )kU .
1. Rappeler lexpression de lestimateur dHorvitz-Thompson (ou -estimateur ou encore
estimateur des valeurs dilates ).
2. tudier son esprance et sa variance.
Exercice 2
On considre une population U = {1,2,3} ,sur laquelle on dfinit le plan de sondage suivant :
p({1,2}) =
1
1
1
, p({1,3}) = , p({2,3}) =
2
4
4
Y est une variable dfinie sur U, telle que : Y1 = Y2 = 3,Y3 = 6 dont on veut estimer le total t y .
1. Calculer les probabilits d'inclusion simple k et double kl .
2. Donner la distribution de probabilit de l'estimateur de Horvitz-Thompson tY du total.
Calculer la variance de cet estimateur.
3. Donner la distribution de probabilit d'un estimateur de variance de tY (il est conseill de
choisir l'estimateur le plus simple calculer). On pourra vrifier que cet estimateur est sans
biais.
Exercice 3
Volume darchives
On dsire estimer lchelle dun canton le nombre de kilomtres linaires darchives stockes dans
les mairies. Pour cela, on procde un tirage de 4 communes parmi les 9 du canton,
proportionnellement leur population.
1. Calculer les probabilits dinclusion de chaque communes, partir des donnes suivantes :
N de commune
1
2
3
4
5
6
7
8
9
Nom de la commune
Val le Grand
Les Gries
Les Combres
Flins
Villers le Lac
Fortin
Montlebon
Sanzeau
Aumont
Population
1100
650
500
2300
4000
5500
1900
200
150
2. Estimer le mtrage total des archives du canton partir des rsultats suivants :
N de commune
2
4
5
6
Nom de la commune
Les Gries
Flins
Villers le Lac
Fortin
Mtres darchives
17
38
55
70
18
Exercice 4
On veut slectionner un chantillon de taille 4 dans une population de 8 entreprises dont on connat la
taille, mesure en termes deffectif salari. Lchantillon est tir probabilits proportionnelles la
taille.
Entreprise
Taille
1
300
2
300
3
150
4
100
5
50
6
50
7
25
8
25
Exercice 5
Tirage de Poisson
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003)
Lorsquon effectue des tirages probabilits ingales, on utilise en gnral des mthodes
dchantillonnage de taille fixe. Il existe cependant des algorithmes trs simples permettant des
tirages probabilits ingales mais confrant lchantillon une taille variable. On sintresse ici au
tirage de Poisson dont le principe consiste effectuer une loterie sur chaque individu de la population
indpendamment dun individu lautre. Ainsi, pour une population de taille N o les probabilits
dinclusion individuelles k sont connues pour tout k, on simule N alas indpendants dans la loi
uniforme sur [0,1] et on retient lindividu k si et seulement si u k k
1. Vrifier que lalgorithme de tirage respecte les probabilits dinclusion dordre 1 en calculant la
probabilit pour que lindividu k soit slectionn.
2. La taille de lchantillon est une variable alatoire note n S .
a. crire n S en fonction des variables indicatrices de Cornfield.
b. Que vaut lesprance et la variance de n S ?
c.
Quelle est la probabilit pour que lchantillon ait une taille au moins gale 1 ?
Yk
kS
des N loteries.
a. Vrifier que Y estime le vrai total sans biais.
b. Quelle est la variance de Y ? Comment peut-on lestimer sans biais ?
c. Que valent les probabilits dinclusion dordre 2 ?
4. Comparer un plan gnral de taille fixe n de mmes probabilits dinclusion. Quelles sont
les inconvnients dun plan de taille non-fixe ?
19
III/ Formulaire
Probabilit de slectionner lindividu k :
- Pour un plan probabilits proportionnelles une variable X de taille (corrle positivement Y)
kU, k =P(kS)=n X k
Xk
kU
=n
k
kU
Paramtre
dintrt
Moyenne
Total
Statistique
Si la taille N est connue :
y = 1 Yk = ty
N ks k N
Estimateur
dHorvitz-Thompson
du paramtre dintrt
(-estimateur)
ty = Yk
ks
yH
= 1 Y =
=t
N 1 N
ks
ks
k
k
ks
En particulier :
Estimateur
de la variance
dchantillonnage
N = 1
ks
Cas gnral
Vraie variance
dchantillonnage de
cet estimateur
Cas gnral :
Var( ty )= Yk Yl kl
Var( y )= 1 Yk Yl kl
N kU lU k l
kU lU
k l
Var( y )= 1 Yk Yl kl
2N kU lU k l
Var( ty )= 1 Yk Yl kl
2 kU lU k l
Cas gnral
Cas gnral
Yk Yl kl
ar1( y )= 1
V
N
ks ls k l kl
Si la taille de lchantillon est fixe
Yk Yl kl
ar2( y )= 1
V
2N
k l kl
ks ls
2
ar1( ty )= Yk Yl kl
V
ks ls
k l kl
ar2( ty )= 1 Yk Yl kl
V
2 ks ls k l kl
2
Utiliser diffrents algorithmes de tirages dchantillons pour des plans simples sans remise et
des plans probabilits ingales ;
valuer le paramtre dintrt et la prcision de cette estimation ;
Valider de manire empirique certaines proprits de la thorie des sondages ;
Comparer les mthodes dchantillonnage.
Donnes utilises
La population tudie est celle des 771 communes rurales dle-de-France recenses en 1999. On
cherche estimer le nombre total dhabitants rsidant dans ces communes ainsi que le nombre
moyen dhabitants par commune. Les donnes datent des recensements de 1999 et de 1990.
Partie II : Simulations
1) On choisit dabord dchantillonner les communes selon un plan simple sans remise.
a. Slectionner 100 chantillons de taille 50. Pour chaque chantillon, estimer le paramtre
dintrt ainsi que la variance dchantillonnage.
b. Vrifier empiriquement labsence de biais de lestimateur de la moyenne.
c. Tracer la distribution de lestimateur de la moyenne et commenter.
d. Vrifier empiriquement labsence de biais de lestimateur de la variance dchantillonnage.
2) On choisit maintenant de slectionner les communes proportionnellement leur taille,
mesure en nombre dhabitants recenss en 1990.
a. Slectionner 100 chantillons de taille 50. Pour chaque chantillon, estimer le paramtre
dintrt.
b. Vrifier empiriquement labsence de biais de lestimateur de la moyenne.
c. Tracer la distribution de lestimateur de la moyenne.
3)
Le choix du logiciel est libre. A toutes fins utiles, la suite de lnonc propose deux modes demploi :
lun sous Excel (des macros pr-programmes sont mises disposition),
lautre sous SAS qui appelle aux procdures SURVEYSELECT et SURVEYMEANS.
21
TP1.xls
Entre
La base de sondage est dcrite dans l'onglet BS . Par commodit, le contenu de cette base se
limite l'identifiant, la variable d'intrt, voire la variable auxiliaire utile au calcul de probabilits
ingales proportionnelles.
Paramtres
L'utilisateur spcifi le nombre d'chantillons tirer ainsi que leur taille dans l'onglet Paramtres
prvu cet effet.
Dans le cas de simulations, un paramtre supplmentaire permet galement de spcifier si les tirages
systmatiques sont probabilits gales ou ingales.
Algorithmes pr-programms
Les macros mises disposition permettent de slectionner un ou plusieurs chantillon(s) selon
diffrents algorithmes de tirage. Elles fournissent galement les estimations de total et de moyenne de
la variable d'intrt sur l'(les) chantillon(s) obtenu(s). Dans le cas de simulations, elles dressent aussi
le bilan de l'ensemble des tirages.
Les algorithmes pr-programms sont ceux-ci :
Mthode du tri alatoire pour un plan simple sans remise (macro Tri_alatoire) ;
Mthode de slection-rejet pour un ou plusieurs plan(s) simple(s) sans remise (macros
Slection_rejet et Simulations_SAS_SR) ;
Tirage de Bernouilli pour un plan probabilits gales et sans remise (macro Bernoulli) ;
Algorithme de Sunter pour un plan probabilits ingales, de taille fixe et sans remise (macro
Sunter) ;
Tirage systmatique pour un ou plusieurs plan(s) probabilits ingales, de taille fixe et sans
remise (macros Tirage_systmatique et Simulations_systmatique) ;
Tirage de Poisson pour un plan probabilits ingales, sans remise (macro Poisson).
Sorties
Les rsultats de chaque macro alimentent un onglet prcis. Avant lancement de chaque macro, il
convient donc de vrifier la prsence de la feuille vierge ad-hoc ainsi que labsence dun onglet portant
le nom rserv aux sorties. Plus prcisment, les onglets rservs par chaque mthode sont :
Algorithme
Tri alatoire
Systmatique
Slection-Rejet
Sunter
Bernoulli
Poisson
Simulation de plans simples sans remise
Simulation de plans probabilits ingales
Nom de longlet
en entre
Feuil1
Feuil2
Feuil3
Feuil4
Feuil5
Feuil6
Feuil7
Feuil8
Nom de longlet
en sortie
Ech.Tri_Alatoire
Ech.Systmatique
Ech. Slection-Rejet
Ech.Sunter
Ech.Bernoulli
Ech. Poisson
Simul_SAS_SR
Simul_Systmatique
22
Mise en uvre
1. A l'ouverture du fichier Excel, cliquer sur Activer les macros ;
2. Renseigner la feuille BS en indiquant l'identifiant de chaque unit de la base de sondage
en 1re colonne, la variable d'intrt en 2me colonne, voire la variable auxiliaire en 3me
colonne si le plan est probabilits ingales proportionnelles cette donne ;
3. Renseigner les paramtres souhaits dans la feuille Paramtres ;
4. Vrifier la disponibilit des onglets requis dans le classeur ;
5. Cliquer sur Outils, puis Macro suivi de Macros ;
6. Slectionner la mthode voulue, puis cliquer sur Excuter pour lancer la macro retenue ;
7. Consulter les rsultats dans la feuille correspondante la mthode choisie.
Remarques
1. Au 1er lancement, il est conseill de limiter le nombre de simulations afin de contrler le
temps d'excution des macros.
2. Pour modifier le contenu des macros,
a. Cliquer sur Modifier aprs Outils > Macro > Macros
b. Saisir le nouveau code.
NB : des commentaires permettent de comprendre le rle de chaque action.
3. Pour tracer un histogramme, une possibilit est d'utiliser l'utilitaire d'analyse d'Excel. Pour
cela, cliquer sur Outils, puis Macro Complmentaire. Cocher Utilitaire d'analyse et valider par
OK. Ensuite, cliquer sur Outils, puis Utilitaire d'analyse. Choisir histogramme dans le menu
droulant qui s'affiche et suivre les indications.
tp1.sas7bdat
Procdures SAS
d'chantillonnage.pdf
23
V. PLANS STRATIFIES
Exercice 1
Rappels de cours
2y =
1
N
(Y
k U
Y ) =
2
1
N
N
h =1
2yh +
1
N
N (Y
H
h =1
Y )
nh
n
n
=
(en supposant que N h
soit entier).
Nh N
N
a. Comment scrivent alors les estimateurs du total et de la moyenne ?
b. Que vaut leur variance ?
c.
2
2y S y2 et 2yh S yh
pour tout h, lallocation
4. Le point de vue envisag maintenant est celui dune allocation optimale afin de satisfaire un
H
n
h =1
= n,
Exercice 2
Estimation du poids des lphants dun cirque
(daprs P.Ardilly et Y.Till, Exercices corrigs de mthode de sondage, Ellipses, 2003 )
Un directeur de cirque possde 100 lphants classs en deux catgories : "mles" et "femelles". Le
directeur veut estimer le poids total de son troupeau, car il veut traverser un fleuve en bateau. Il a la
possibilit de faire peser seulement 10 lphants de son troupeau. Cependant, en 1998, ce mme
directeur a pu faire peser tous les lphants de son troupeau, et il a obtenu les rsultats suivants (en
tonnes) :
Mles
Femelles
Effectif
60
40
Moyenne
6
4
Variance
4,00
2,25
24
Exercice 3
Lge du personnel
Une grande entreprise veut raliser une enqute auprs de son personnel qui comprend 10 000
personnes. Des tudes prliminaires ont montr :
-
que les variables que lon cherche analyser dans lenqute sont trs contrastes selon les
catgories de personnel et quil y a donc intrt stratifier selon ces catgories. Pour
simplifier, on considrera quil y a 3 grandes catgories qui formeront les strates,
que ces variables sont galement trs fortement lies lge des individus.
On va donc proposer des plans dchantillonnage comme si on voulait tudier lge des individus : si
une stratgie est meilleure que dautres pour estimer lge moyen, alors on a de bonnes raisons de
penser quelle le sera aussi pour les variables dintrt. Comme on connat lge des membres du
personnel, on peut raisonner en faisant les comparaisons exactes.
On dispose des renseignements suivants :
Catgorie
de personnel
1
2
3
Ensemble
cart type
des ges
18,0
12,0
3,6
16,0
1. Soit Y lge moyen et Y lestimateur issu dun chantillon alatoire simple sans remise
Exercice 4
proportion
Estimation dune
Sur les 7500 employs dune entreprise, on souhaite connatre la proportion p dentre eux qui
possdent au moins un vhicule. Pour chaque individu de la base de sondage, on dispose de la
valeur de son revenu. On dcide alors de constituer trois strates dans la population : individus de
faibles revenus (strate 1), de revenus moyens (strate 2) et de revenus levs (strate 3).
25
On note :
- Nh la taille de la strate h,
- nh la taille de lchantillon dans la strate h,
h lestimateur de la proportion dindividus possdant au moins un vhicule dans la strate h.
- p
On obtient le rsultat suivant :
h=1
h=2
h=3
Nh
3500
2000
2000
nh
500
300
200
p h
0,13
0,45
0,50
Exercice 5
0ptimalit pour une diffrence
(daprs J-M. Grosbras, Mthodes statistiques des sondages, Economica, 1987)
Le but de lexercice est de montrer que si une stratgie est optimale pour estimer prcisment une
quantit dans lensemble dune population stratifie, elle peut ne plus ltre tout fait si lobjectif du
sondage est justement de comparer les strates entre elles. La bonne dfinition des objectifs
atteindre est donc essentielle au choix de la technique employer. Considrons une population de
taille N forme de deux strates, de taille N1 et N2 et intressons-nous la moyenne X dune variable
le tirage effectu est un sondage alatoire simple sans remise de nh units parmi Nh dans la
strate h (h =1 ou 2),
la fonction de cot scrit C1n1 + C2n2 o Ch dsigne le cot unitaire dans la strate h.
()
Quelle rpartition (n1, n2) de lchantillon donne une variance V X minimale ? Que
()
vaut alors V X ?
()
()
Avec les mmes donnes numriques, valuer la perte relative de prcision par
rapport lchantillon optimal.
26
3. En fait, on cherche valuer lcart entre les moyennes des deux groupes : X 1 X 2 .
()
()
Exercice 6
Choix des allocations
(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )
Cet exercice est une application du principe : " chaque objectif son chantillon". Une entreprise
comporte 400 excutants et 100 cadres. La direction de l'entreprise dsire valuer un indice de
satisfaction, assimilable une variable numrique positive Y, mesurable pour chaque individu partir
d'un ensemble de questions : elle dcide pour cela de faire raliser une enqute auprs de 100
personnes employes dans l'entreprise, l'aide d'un plan de sondage stratifi, avec un sondage
alatoire simple dans chaque strate. Le cot d'une interview est le mme dans les deux strates.
On pense a priori que la dispersion de la variable Y doit tre la mme au sein de chacun des deux
groupes. Comment rpartir l'chantillon entre les deux groupes, selon que l'on vise l'un des objectifs
suivants :
a. obtenir la meilleure prcision possible sur la valeur moyenne de l'indice de satisfaction dans
l'entreprise ;
b. obtenir la mme prcision sur la valeur moyenne de l'indice de satisfaction dans chacune des
deux catgories ;
c. obtenir la meilleure prcision possible sur la diffrence entre les valeurs moyennes de l'indice
de satisfaction dans les deux catgories.
Exercice 7
h =1
H
Nh
Yh = wh Yh .
N
h =1
On ralise un sondage stratifi, avec sondage alatoire simple sans remise dans chaque strate, de
taux de sondage f h = n h / N h . La taille de l'chantillon total est n =
n
h =1
27
L'objectif est de comparer une strate particulire U i la population totale : on veut estimer
Di = Yi Y
1. Donner l'expression de l'estimateur de Horvitz-Thompson de Di , not
D i , ainsi que
l'expression de sa variance.
2. Pour une taille d'chantillon fixe n, trouver l'allocation optimale n1 K n h K n H , qui minimise la
28
Uh
S1
UH
Sh
SH
Constituer des strates homognes en intra au regard de la variable dintrt permet de gagner en
prcision.
II/ Notations
1. Dans la population
H
U =h=1U h
et
N =Nh
h=1
t =N y
Total : ty =
yh
h h
h=1
h=1
yh = 1 yk
Nh kU h
Moyenne:
y= ty = Nh yh
N h=1 N
Variance :
avec
H
avec
N kU
h=1
h=1
(yk yh )
Nh k
U h
yh2 = 1
2. Dans lchantillon
H
S =h=1Sh
et
n=nh
h=1
Moyenne dans Sh :
Dispersion dans Sh :
yh= 1 yk
nh kSh
2= 1
Syh
yk yh
nh1k
Sh
29
Moyenne
Proportion
Estimateur du
paramtre
dintrt
Total
y = Nh yh
h=1 N
[ ]
[]
H
H
Var y =Var Nh yh=Var Nh yh
N
h=1 N h=1
[ ] ( )(
2
S2
Var y = Nh 1 nh yh
Nh nh
h=1 N
[ ] ( )(
h=1
h=1
[ ]
( )( )
2
p (1 ph) strate :
Var[p ]= Nh 1 nh Nh h
H
Nh Nh1 nh
2
h=1 N
Var[ty]=Nh21 nh Syh
Nh nh
h=1
( )
( )( )
H
2
p (1 ph)
Var[p ]= Nh 1 nh h
Nh nh1
h=1 N
( )
H
S2
Var[ty]=Nh21 nh yh
Nh nh
h=1
()
()
()
y Y
N (0, 1)
Var ( y )
nh = Nh h{1,...H }
n N
Allocations proportionnelles :
NhSyh
H
N S
l =1
[]
Vraie variance
dchantillonnage
de cet estimateur Si plan simple dans chaque strate :
H
ty =Ny =tyh=Nh yh
p = Nh ph
h=1 N
nh=C
l yl
NhSyh
H
Ch NlSyl Cl
l =1
30
Exercice 1
Lobjet de cet exercice est de rappeler le formulaire tabli en cours et de revenir sur les notions deffet
de sondage et deffet de grappe.
Un sondage en grappes se pratique sur une population partitionne en groupes dindividus appels
grappes : il consiste slectionner certaines grappes, selon un plan quelconque, et retenir tous
les individus des grappes dsignes dans lchantillon final. Procder de la sorte permet de rduire
les cots denqute. On sintresse ici au cas particulier o m grappes sont choisies par sondage
alatoire simple sans remise parmi les M grappes de taille Ni dune population de taille N.
On cherche estimer le total t y et la moyenne y sur la population dun caractre dintrt Y.
1. Partie 1 : gnralits
1.1. Quelle est la probabilit pour quun individu appartienne lchantillon ?
1.2. Que pouvez-vous dire de la taille finale de lchantillon ? Mme question si toutes les
grappes sont de mme taille N0 .
1.3. Quels estimateurs sans biais
1.3.1.
1.3.2.
ty et y proposez-vous ?
Var(y )= M m y int er .
M 1 m
1.3.3. En dduire comment constituer les grappes pour obtenir des rsultats prcis.
1.4. Comment estimez-vous sans biais la prcision des estimateurs du total et de la moyenne ?
1.5. Dans le cas o N est inconnue, quel estimateur de y proposez-vous ? Cet estimateur est-il
sans biais ? Approcher son esprance et son erreur quadratique moyenne.
2. Partie 2 : effet de sondage
On souhaite caractriser la prcision de lchantillonnage par grappes par rapport au sondage
alatoire simple de mme taille dans le cas o les grappes sont deffectifs gaux N0.
2.1. Montrez que leffet de sondage dfini par Deff =
Var(y )
vaut N0 o dsigne le
Varsas(y )
N (Y
Y )
(Y
Y )
i =1
M N0
i =1 k =1
y2 inter
y2
2.2. En dduire quand le plan par grappes est plus prcis que le sondage alatoire simple.
3. Partie 3 : effet de grappe
On dfinit le coefficient de corrlation intra-grappes par :
M
N0
N0
(Y
i =1 k =1 l =1,l k
Y )(Yl Y )
( N 0 1)( N 1) S Y2
= 1 N0 y int2 er 1
N0 1
y
2
n 1 2
S y [1 + ( N 0 1)] .
Nn
s y2 = 1 (yk y) possde
n1kS
un biais sous un plan complexe de taille fixe et probabilits gales (comme ici avec des
grappes de mme taille) donn par :
E[s y2 ]= n y2 Var(y )
n1
eff =
4.2. En dduire que lexpression D
Var(y )
est justifie si n est assez grand.
s y2
n
1
N n
( )
Exercice 2
(Extrait de Cochran, Sampling Technics)
On a collect des signatures pour une ptition sur 676 feuilles. Sur chacune dentre elles, il y a la
place pour 42 signatures, mais beaucoup ne sont pas trs remplies. Le nombre de signatures par
feuille a t tudi sur un chantillon de 50 feuilles ( peu prs 7% de lensemble donc). A partir des
rsultats sont consigns dans le tableau cicontre, estimer le nombre total de signatures et donner un
intervalle de confiance pour ce nombre 95% et 80% .
Nombre
de signatures
42
41
36
32
29
27
23
19
16
15
14
11
10
9
7
6
5
4
3
Frquence
23
4
1
1
1
2
1
1
2
2
1
1
1
1
1
3
2
1
1
32
Exercice 3
Slection dlots
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
Lobjectif est destimer le revenu moyen des mnages dans un arrondissement dune ville compose
de 60 lots de maisons (un lot est un pt de maison , de taille variable). Pour cela, on slectionne
3 lots par sondage alatoire simple sans remise et on interroge tous les mnages qui y rsident. On
sait en outre que 5 000 mnages rsident dans cet arrondissement. Le rsultat est donn dans le
tableau ci-dessous.
1. Estimez le revenu moyen et le revenu total des mnages de larrondissement par lestimateur
dHorvitz-Thompson.
2. Estimez sans biais la variance de lestimateur dHorvitz-Thompson de la moyenne.
3. Estimez le revenu moyen des mnages de larrondissement par le ratio de Hjek, et
comparez lestimation issue de 1. Le sens de variation tait-il prvisible ?
Numro de
llot
1
2
3
Nombre de mnages
dans llot
120
100
80
Exercice 4
Emprunts bancaires
Une socit bancaire structure en 3 980 succursales gre 39 800 clients, raison de 10 clients par
agence. On choisit 40 succursales par sondage alatoire simple sans remise pour lesquelles on
compte le nombre de clients ayant obtenu un prt durant une priode donne.
On note t yi le nombre obtenu dans la succursale i et on observe :
40
yi
=185 et
i =1
40
2
yi
=1263 .
i =1
1. Estimer le nombre total de clients de la banque qui ont obtenu un prt durant la priode de
rfrence ainsi que leur proportion dans lensemble de la clientle. On notera ces estimateurs
ty et p .
2. Calculer la variance des estimateurs
ty et p .
3. Estimer ces variances et fournir un intervalle de confiance approch 95% pour chacune des
quantits estimes.
4. Calculer leffet de sondage dfini comme le ratio mesurant la perte de variance estime par
rapport un sondage alatoire simple sans remise de mme taille (indication : on
commencera par estimer la dispersion S y2 ). On pourra commenter le rsultat en comparant
les amplitudes des intervalles de confiance 95% obtenus pour la proportion dintrt entre
les deux plans de sondage.
5. Calculer le coefficient de corrlation intra-grappe.
Exercice 5
Influence de la taille et du nombre de grappes chantillonnes
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
Un statisticien souhaite raliser une enqute sur la qualit des soins assurs dans les services de
cardiologie des hpitaux. Pour cela, il tire par sondage alatoire simple 100 hpitaux parmi les 1 000
hpitaux rpertoris , puis, dans chacun des hpitaux tirs, il recueille lavis de tous les malades du
service de cardiologie.
1. Comment se nomme ce plan de sondage et quelle est sa raison dtre ?
33
34
U1
Ug
UM
S
Rgle : constituer des grappes htrognes en intra au regard de la variable dintrt.
II/ Notations
1. Dans la population U constitue de M grappes et N individus
M
U = g=1U g
et
N = N g
g =1
g =1
g =1
t y =t yg = N g yg
1
yk
y = t y = N g yg avec yg =
N g kUg
N g =1 N
M
SG2 = 1 t yg t y
M 1 g =1
M
S = g
Ug
SG
et
ns = N g
gSG
35
III/ Formulaire du plan par grappe dans le cas dun plan simple de grappes
Paramtre
dintrt
Statistique
Estimateur du
paramtre
dintrt
Vraie variance
dchantillonnage
de cet estimateur
Estimateur
de la variance
dchantillonnage
Total
Moyenne
y = 1 ty = M N g yg
Nm gSG
N
ty = M t yg
m gSG
( )
M
Var[ty ]= M 1 m 1 1 t yg t y
M m M 1 g =1
M
( )
Var[ty ]=M 1 m 1 1 t yg t y
M m m1 gS G
M
[]
Var y = 1 Var[ty]
N
[]
Var y = 1 Var[ty ]
N
()
()
()
36
Exercice 1
Probabilits dinclusion et plans de sondage
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
On considre une population U = {1,2,3,4,5,6,7,8,9}, sur laquelle on dfinit le plan de sondage
suivant :
p({1,2}) =
1
1
1
, p({1,3}) = , p({2,3}) =
6
6
6
1
1
1
p({4,5}) = , p({4,6}) = , p({5,6}) =
12
12
12
1
1
1
p({7,8}) = , p({7,9}) = , p({8,9}) =
12
12
12
1. Calculer les probabilits d'inclusion simple k .
2. Ce plan de sondage est-il simple, stratifi, en grappes, deux degrs, ou aucun de ces plans
particuliers?
Exercice 2
Rappels de cours
Exercice 3
Un camion transporte des vis sur 500 palettes, chacune d'elles contenant 40 botes de vis. L'industriel
rceptionnant ces palettes souhaite estimer le nombre moyen de vis par bote. Pour cela, il tire un
chantillon de 100 palettes, selon un sondage alatoire simple sans remise, puis il tire dans chacune
de ces 100 palettes un chantillon de 5 botes, selon un sondage alatoire simple sans remise
galement, et enfin il compte le nombre de vis dans les botes ainsi tires.
37
L'industriel, et nanmoins statisticien, calcule pour chaque palette i de son chantillon le nombre
moyen de vis par bote, et la dispersion du nombre de vis par bote (ces deux quantits sont calcules
partir des 5 botes chantillonnes dans la palette).
Il calcule ensuite les moyennes, sur les 100 palettes, de ces deux quantits :
moyenne du nombre moyen de vis par bote = 50
moyenne de la dispersion du nombre de vis par bote = 455.
Il calcule aussi la dispersion des 100 estimations du nombre de vis par palette et obtient 375 000.
1. Donner un estimateur sans biais du nombre moyen de vis par bote.
2. Donner la prcision de cet estimateur.
3. Donnez un intervalle de confiance 95% pour le nombre moyen de vis par bote.
Exercice 4
Nombre de caractres par enregistrement
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
Sur un disque dur de micro-ordinateur, on compte 400 fichiers, chacun comprenant exactement 50
enregistrements. Pour estimer le nombre moyen de caractres par enregistrement, on dcide de tirer
par sondage alatoire simple 80 fichiers, puis 5 enregistrements dans chaque fichier. On note m = 80
et n = 5 .
On mesure aprs tirage :
-
la dispersion des estimateurs du nombre total de caractres par fichier, soit s I = 905000 ,
Exercice 5
En vue de prparer le lancement dun nouveau produit financier, une socit bancaire ayant un
rseau de M succursales souhaite mener une tude approfondie auprs de particuliers possesseurs
de comptes chez elle . Les variables dintrt de lenqute ont trait aux caractristiques de la clientle
et ses motivations ventuelles. On cherche estimer la proportion p de personnes potentiellement
intresses par la nouvelle offre. Lenqute opre selon un plan 2 degrs : dans un premier temps,
on choisit m succursales pour participer lopration parmi lesquelles, au second temps, on dsigne
des chantillons de titulaires de comptes interroger. Le plan de sondage est le suivant :
-
38
ST2 1 f 2
M
V
p
(
)
(
1
f
2. Montrer que
1)
m
Nf1 f 2
N
2
sT2 1 f 2
M
V
(
p
)
(
1
f
+
3. Montrer que
1)
m Nf1 f 2
N
i =1
iS1
Ni
pi (1 pi )
N
Ni
p i (1 p i )
N
4. Application numrique : donner un intervalle de confiance 95% pour p avec les rsultats
denqute suivants :
Ni
y =102 , s =1200 , N
k
kS
2
T
p i (1 p i ) = 0,01
isI
Exercice 6
Une population de 1010 saucisses est partitionne en deux units primaires, de tailles respectives
1000 et 10. Pour estimer le nombre moyen de bouts de saucisses dans cette population, on emploie
le plan de sondage suivant :
on slectionne une UP selon un sondage alatoire simple,
on slectionne deux saucisses dans l'UP tire selon un sondage alatoire simple sans remise.
La premire UP est slectionne. On observe que chacune des deux saucisses tires dans l'UP
possde deux bouts.
Le statisticien A calcule le nombre moyen de bouts sur son chantillon de deux saucisses et trouve 2.
Il affirme que cette valeur est une estimation sans biais du nombre moyen de bouts dans la
population.
Le statisticien B propose comme estimation sans biais de ce nombre moyen de bouts la valeur :
1000
4 = 3.96
1010
Discuter les deux mthodes d'estimation, en prcisant les logiques qui les sous-tendent.
39
Ui
UM
Si
SM
Rgle : constituer des units primaires htrognes en intra au regard de la variable dintrt.
II/ Notations
1. Dans la population U constitue de M units primaires et N individus
M
U =
Ui
i =1
et
i =1
i =1
N = Ni
i =1
t y =t yi = Ni yi
M
y = t y = Ni yi
N i =1 N
avec
M
SI2 = 1 t yi t y
M 1 i =1 M
yi = 1 yk
Ni kUi
Ni
et
Si2 = 1 ( yk yi )
Ni 1 k =1
S = USi
iSUP
et
ns =ni
iSi
sI2 = 1 tyi t y
m1iSUP M
et
si2 = 1 yk yi
ni 1kSi
40
III/ Formulaire du plan deux degrs dans le cas dun plan simple des units primaires et
des units secondaires
Paramtre
dintrt
Statistique
Total
Moyenne
y = 1 ty = M N g y g
N Nm gSG
Estimateur du
paramtre
dintrt
yk
ty = = M tyg = M Ni yk
m iSUP
m iSUP ni kSi
kS k
Vraie variance
dchantillonnage
de cet estimateur
M
2
2
1
Estimateur
de la variance
dchantillonnage
( )
( )
Var[ty ]=M(1 m )s + M N (1 n )s
M m m
N n
2
I
2
i
2
i
iSUP
[]
[]
Var y = 1 Var[ty ]
N
()
()
()
41
X. REDRESSEMENTS
Exercice 1
Post-stratification
Un institut de sondage est charg de mesurer laudience dun nouveau magazine. Il interroge pour
cela un chantillon de taille n selon un procd que lon assimilera un plan simple probabilits
gales et sans remise au sein de la population franaise des individus gs de 15 ans et plus. On
supposera de plus quil ny a pas de non-rponse. Pour satisfaire la demande de lditeur, les
rsultats sont ventils selon le critre habitant en zone urbaine ou habitant en zone rurale . Les
donnes recueillies se prsentent ainsi :
Lecteurs
Non lecteurs
Total
Total
540
1 460
2 000
Exercice 2
Chiffre daffaires et effectif salari
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
Dans une population de 10 000 entreprises, on veut estimer le chiffre daffaires moyen Y . Pour cela,
on chantillonne n=100 entreprises par sondage alatoire simple. On dispose par ailleurs de
linformation auxiliaire nombre de salaris note x par entreprise. Les donnes issues du sondage
sont :
-
1.
a.
.
Comment dfinissez-vous
c.
a. Rappeler lexpression de
et seulement si
C V(x)
o les C V estiment les coefficients de variation.
2 C V(y)
> 1
Exercice 5
Comparaison destimateurs
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
On se propose destimer la moyenne Y dun caractre dintrt au moyen dun chantillon slectionn
selon un plan alatoire simple sans remise de taille 1 000 dans une population de taille 1 000 000. On
connat la moyenne X =15 dun caractre auxiliaire x et on donne, avec les notations usuelles,
y =10 ; x =14 ; s x2 = 25 ; s y2 = 20 et s xy = 15
1. Estimez Y au moyen des estimateurs dHorvitz-Thompson, par diffrence, par le quotient et
par la rgression. Estimez les variances de ces estimateurs.
2. Quel estimateur choisiriez-vous pour estimer Y ?
43
Mthode
Estimateur du total
( ) = N 1 Nn Sny
Estimateur
dHorvitz-Thompson
yk
ty = = N yk
n kS
kS k
Var ty
Estimateur par la
diffrence
tyD=ty +tx tx
Var ty
Estimateur par le
ratio (ou le quotient)
Estimateur par la
rgression
Estimateur poststratifi
tx
tyQ=ty
tx
2
2
( D ) = N 1 Nn (S y + Snx 2Sxy )
n (S + R S 2RS )
Var t = N 1
tyD=ty +b(tx tx )
avec
sxy
b=
sx2
yQ
2
y
2
x
avec
R=ty = Y
tx X
2
n Sy
N n
xy
= sxy
sx sy
N Nh S 2
2 + N n N
ty post =Nh yh = Nh yk Var(ty post )= N n NhSyh
h
n
N
n
N yh
n
h=1
h=1
h=1
h=1
kSh
H
()
()
()
44
Exercice 1
Un institut spcialis a ralis une enqute auprs des salaris d'une entreprise, qui compte 230
salaris rpartis sur deux tablissements A (70 salaris) et B (160 salaris). L'institut a effectu un
sondage alatoire simple dans chaque tablissement, de taux de sondage respectifs 1/10 (A) et 1/20
(B). Le but est destimer la proportion de salaris prts montariser une partie de leurs congs.
Pour chaque salari enqut, on dispose de :
son identifiant (variable ID), 3 caractres : le premier indique l'tablissement, les deux suivants
constituent un numro d'ordre dans l'tablissement ;
la variable SERVICE indiquant si le salari travaille dans un service productif (1) ou administratif
(2) ;
la variable CATEG qui indique la catgorie de personnel laquelle appartient le salari :
employs (1), ouvriers (2), autres (9) ;
la variable SEXE ;
la variable SALAIRE annuel brut ;
la variable Y indiquant si lemploy est intress par le paiement de jours de son compte-pargne
temps (oui = 1, non = 0).
Par ailleurs, la direction de l'entreprise a aimablement fourni les informations suivantes sur ses
salaris : l'entreprise compte 80 employs, 90 ouvriers, 140 hommes, 100 personnes travaillent dans
le secteur productif, et le salaire total annuel vaut 47 000.
On vous demande d'utiliser cette information auxiliaire, en ralisant diffrents calages :
par la mthode linaire ;
par la mthode raking ratio :
par la mthode logit LO=0.5 UP=2.2.
Comment estimez-vous le paramtre dintrt ?
tp2_exercice1.sas7b
dat
45
Exercice 2
Exercice 2
Vous disposez dune base de sondage de 11 600 individus dcrits par la rgion, lge, le niveau
scolaire, la catgorie socio-professionnelle, etc. (cf. tableau ci-dessous).
Le but de lexercice est den slectionner un chantillon, puis de procder des estimations et des
redressements, en faisant comme si linformation dintrt avait t collecte sur lchantillon
seulement. Les variables dintrt mesurent limportance consacre aux activits sportives et
culturelles.
Ci-dessous le contenu de la base de donnes :
Nom
Identifiant
TRAGE
Tranche dge
1 : de 15 25 ans
2 : de 25 29 ans
3 : de 30 39 ans
4 : de 40 49 ans
5 : de 50 64 ans
6 : de 65 69 ans
7 : plus de 70 ans
NIVSCO2
CS
REGION
Rgion
ZEAT
CINEMA
Nombre de fois o lindividu est all au cinma au cours des 12 derniers mois
EXPO
SPORT
LECTURE
TELE
IDENTIND
Niveau scolaire
1 : infrieur au baccalaurat
2 : suprieur au baccalaurat
Catgorie socio-professionnelle
1 : agriculteurs
2 : artisans, commerants, chefs dentreprises, professions librales
3 : cadres
4 : professions intermdiaires
5 : employs
6 : ouvriers
7 : retraits
tp2_exercice2.sas7b
dat
46
3 / A partir de lchantillon, estimer la rpartition de la population par tranche dge et niveau scolaire.
valuer galement le nombre moyen dheure par semaine consacres la lecture, au sport, passes
devant la tlvision ainsi que le nombre moyen dexpositions visites en une anne et le nombre
moyen de sances de cinma en un an.
Pour rappel, la syntaxe de la procdure SURVEYMEANS de SAS est la suivante :
PROC SURVEYMEANS DATA = nom de la table-chantillon
N = Effectif de la population
MEAN STDERR CLM CV = Statistiques dites en sortie;
VAR listes de variable dintrt;
WEIGHT variable de pondration;
RUN;
4 / Caler lchantillon sur la vraie structure par tranche dge et niveau scolaire. Pourquoi ces
variables de calage sont-elles pertinentes ?
47
Modalits
Age
3-4 : Junior
5-6 : Jeune adulte
7-8 : Adulte
9-11: Senior
1 : Homme
2 : Femme
1-4 : Bas revenus
5-6 : Moyens revenus
7-8 : Bons revenus
9-11: Hauts revenus
1 : Fume quotidiennement
2 : Ayant fum quotidiennement
3 : Fume occasionnellement
4 : Ayant fum occasionnellement
5 : Jamais fum
1-2 : Excellente
3 : Bonne
4-5 : Passable
Sexe
Revenu
Tabac
Sante
tp3.sas7bdat
Exercice 1
l'chantillon complet est constitu de la runion des trois sous-chantillons ainsi obtenus.
ns de l'chantillon.
2. On ralise maintenant un tirage bernoullien directement dans U, tel que chaque lment a la
probabilit d'tre slectionn.
a. Dterminer pour que l'esprance de la taille de l'chantillon, sous ce plan de
sondage, soit gale l'esprance de la taille de l'chantillon calcule la question
prcdente.
b. Calculer alors la variance de la taille de l'chantillon, et comparer cette variance
celle de la question prcdente.
Exercice 2
Tendance linaire et tirage systmatique
(daprs J-M. Grosbras, Mthodes statistiques des sondages, Economica, 1987)
On considre une population de taille N avec N = n k o n est la taille souhaite de lchantillon et k
un nombre entier. On suppose que pour tout individu k de la population, on a Yk= k pour k = 1 N.
1. On note respectivement
Y de la moyenne ?
(k 1)( N + 1) .
b. Montrer que sa variance vaut : V Y =
12
a. Quel est lestimateur classique
()
49
( )
V (Y ) V (Y )
et
sys
( )
k 2 1
V Ysys =
12
et commenter
Exercice 3
On veut estimer le poids moyen de 10 lphants dun cirque. Pour cela, on ralise un sondage
alatoire simple sans remise de taille 5 laide dun tri alatoire. On simule donc une variable
alatoire uniforme U ~ U[0,1] sur la population des lphants, puis on trie les ralisations obtenues
par ordre croissant (ou dcroissant) et on retient lchantillon correspondant aux 5 plus grandes
valeurs (ou plus petites). La simulation a t effectue partir de la fonction ALEA() sous Excel et a
donn les ralisations ci-dessous :
N de l'lphant
Valeur gnre
1
2
3
4
5
6
7
8
9
10
0,84
0,12
0,36
0,60
0,68
0,11
0,87
0,44
0,21
0,77
Exercice 4
Algorithme de slection-rejet
Tant que j est strictement infrieur la taille dchantillon voulue, on a gnr un nombre
alatoire u selon une loi uniforme sur [0,1[ pour lindividu de rang k+1 sur lequel on est
positionn et on dcide :
-
Si on obtient
u<
n j
, alors on slectionne lunit de rang k+1 . On incrmente donc
N k
Sinon, lunit k+1 nest pas tire et on passe lindividu suivant en incrmentant k.
50
1. Montrer que le plan est de taille fixe n et quil suffit effectivement donc dau plus N oprations
pour slectionner ces n units
2. Montrer que le plan est simple. En dduire que les probabilits dinclusion individuelles sont
bien gales :
k =
n
, k U .
N
3. Application : slectionner un chantillon de taille 4 dans une population de taille 10 selon cette
mthode en utilisant les ralisations suivantes dune variable alatoire U uniforme sur [0,1[ :
Individu
k
10
uk
0,375
0,620
0,518
0,0454
0,633
0,246
0,927
0,326
0,646
0,178
Exercice 5
Non-rponse dans les enqutes par quotas
(A-M. Dussaix, J-M. Grosbras, 1992, Exercices de sondage, Economica)
Lobjet de cet exercice est de montrer lexistence de biais pouvant dcouler de non-rponses dans les
enqutes par quotas. On considre une enqute o sont imposs des quotas relatifs une variable
qualitative donne. Pour fixer les ides, on supposera, par exemple, quil y a dans la population, H
variables dge ou de poids en proportion Nh/N pour h = 1 H. On demande aux enquteurs de
complter un chantillon reprsentatif, cest--dire tel que nh/n = Nh/N. A la fin de lenqute, la
moyenne Y de la variable dintrt est estime par la moyenne simple sur lchantillon y , ce qui peut
encore scrire :
n
N
y = h y h = h y h
h =1 n
h =1 N
H
1
y h =
nh
kS h
Pour tudier linfluence de la non-rponse, on fait lhypothse quil existe dans la population un
partage en 2 catgories :
La 1re est celle des personnes accessibles et rpondant volontiers lenqute caractrise
par les effectifs N 1 et
Y0 et Yh 0 .
Naturellement, les quantits N 1 ,
1. Si on fait lhypothse que les nh rponses constituent un chantillon dun plan alatoire simple
sans remise prlev dans un ensemble deffectif
pour
Exercice 6
Nombre de titulaires de comptes CODEVI interroger
(daprs A-M. Dussaix et J-M. Grosbras, Exercices de sondage, Economica, 1992 )
Une banque dsire tudier par sondage (interviews par enquteur) les caractristiques sociodmographiques (ge, catgorie sociale,) et les comportements financiers des titulaires de comptes
CODEVI. Leur rpartition en fonction des montants moyens annuels des comptes est la suivante :
51
Nombre de comptes
15 000
15 000
30 000
60 000
Pour chacun des trois groupes, on veut tudier la rpartition des titulaires par classe dge, catgorie
sociale, etc. Par exemple, on sintresse la proportion de titulaires ayant entre 25 et 35 ans. Quelle
taille dchantillon doit-on prvoir dans chaque strate sil sagit de dterminer les diffrentes
proportions avec une prcision de 2,5% au niveau de confiance 95% ?
Exercice 7
Tirage des UP avec remise Taille de mnages
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
Pour estimer le nombre moyen
2 degrs :
1er degr : tirage alatoire avec remise de m = 4 villages parmi M = 400 proportionnellement
leur taille. La taille dun village est le nombre de mnages quil contient. Ainsi, chacun des
4 tirages indpendants, un village est slectionn avec une probabilit proportionnelle sa
taille.
2me degr : tirage alatoire simple de ni mnages parmi les Ni si le village i est tir.
Le nombre total de mnages dans le pays est N = 10 000. Les donnes sont reprsentes dans le
tableau ci-dessous ;
lchantillon.
Yi
1
20
2
23
3
25
4
18
5
1. a. Quelle est la probabilit de tirage pi de chacun des 4 villages slectionns ? (on appelle
probabilit de tirage la probabilit qua le village dtre choisi lors de chacun des 4 tirages
indpendants raliss successivement dans les mmes conditions).
b. Calculer Pr(iS) en fonction de (1- pi). En dduire la probabilit dinclusion
fonction de pi . Examiner le cas o pi est petit.
2. Quelle est lexpression de
i =Pr(iS) en
3. Estimer la variance de cet estimateur. Quel intrt a-t-on utiliser un tirage avec remise au 1er
degr ?
Exercice 8
(Ardilly P, Till Y, 2003, Exercices corrigs de mthodes de sondage, Ellipses)
Raking-ratio
On sintresse la population des 10 000 tudiants inscrits en 1re anne dans une universit. On
connat le nombre total dtudiants dont les parents ont un diplme dtudes primaires, secondaires et
suprieures (respectivement 5000, 3000 et 2000). On effectue un sondage selon un plan alatoire
simple sans remise de 150 tudiants. On ventile ces 150 tudiants selon le diplme des parents et
leurs rsultats (chec ou russite) lexamen de 1re anne et on obtient le rsultat ci-dessous :
Niveau dtudes
Primaire
Secondaire
Suprieure
chec
45
25
10
Russite
15
25
30
52
Un leveur de poissons souhaite connatre le poids moyen de ses poissons. Il dispose de 3 bassins
selon lge des animaux : n1 pour ceux de petite taille , n2 de taille moyenne et n3 de
grande taille . Le nombre total de poissons par bassin est respectivement de 1000, 900 et 950.
Notre pisciculteur appelle un statisticien sa rescousse pour estimer le poids moyen des poissons.
Arm de son puisette, le statisticien attrape 20 poissons dans le bassin n1, 15 dans le n2 et 10
dans le n3. Ensuite, il calcule le poids moyen sur les 3 chantillons relatifs aux 3 bassins. Il trouve :
0.152 Kilo pour le bassin N1, 0.255 Kilo pour le n2 et 0.305 Kilo pour le n3. Il calcule galement la
dispersion corrige des poids des poissons sur les 3 chantillons et trouve respectivement: (0.05)
Kilo, (0.02) Kilo et (0.01) Kilo pour les bassins N1, 2 et 3.
On admettra que le mode de tirage des chantillons de poissons dans chacun des trois bassins est
assimilable un sondage alatoire simple de taille fixe.
1)
a) Proposer un estimateur sans biais du poids moyen des poissons relativement un bassin.
b) Donner les 3 estimations des poids moyens relatifs aux 3 bassins puis les 3 intervalles de
confiance 95% correspondants.
c) Pour estimer le poids moyen relatif lensemble des 3 bassins, le statisticien a mis en uvre
lestimateur stratifi. Aprs avoir rappel la forme gnrale de cet estimateur et prcis les
strates adoptes par le statisticien, donner lestimation recherche et lintervalle de confiance
95% correspondant.
2)
a) Est-ce que lallocation dfinie par le statisticien correspond lallocation proportionnelle?
b) Compte tenu des mesures effectues sur les chantillons, expliquer (qualitativement)
pourquoi lallocation du statisticien semble tre lgitime.
c) A partir des rsultats obtenus sur les trois chantillons, calculer lallocation de Neyman pour
une taille totale de lchantillon de poissons de 45.
3) Le pisciculteur propose destimer le poids moyen des poissons sur lensemble des 3 bassins en
faisant la moyenne arithmtique des poids des poissons sur lensemble des 3 chantillons.
a) Calculer lestimation fournie par le pisciculteur.
b) Montrer que cet estimateur est en ralit biais (on exprimera ce biais thorique en fonction
des vrais poids moyens des poissons relatifs aux bassins, des vrais effectifs de poissons et
des tailles des chantillons de poissons relatifs aux bassins).
c) Donner une estimation de ce biais.
4) Le statisticien apprend par hasard, en discutant avec lun des employs, quun contrle de la taille
des poissons a t ralis rcemment. Ce contrle a t effectu dans chacun des bassins et de
faon quasi-exhaustive. Il rvle que la taille moyenne des poissons par bassin est de : 25 cm pour le
bassin n1, 40 cm pour n2 et 50 cm pour le n3.
a) Expliquer pourquoi la connaissance de cette nouvelle information est intressante par rapport
au phnomne tudi.
b) A partir de cette nouvelle information, proposer un nouvel estimateur du poids moyen des
poissons pour un bassin fix . Donner les 3 nouvelles estimations du poids moyen relatives
chacun des bassins. On donne pour cela les tailles moyennes des poissons mesures sur les
chantillons : 23 cm (bassin n1), 42 cm (n2), 51 cm (n3).
c) Proposer une nouvelle estimation du poids moyen pour lensemble des 3 bassins.
53