CoursSondagesReunion PDF
CoursSondagesReunion PDF
CoursSondagesReunion PDF
Echantillonnage et Redressement
Guillaume Chauvet
27 avril 2015
Notations
Notations
U = {1, . . . , k, . . . , N }
Notations
Exemples
Paramètre d’intérêt
θ(yk , k ∈ U ) ≡ θ.
θ̂(yk , k ∈ S) ≡ θ̂(S)
≡ θ̂,
Paramètre d’intérêt
Total et moyenne
Exemple :
Chiffre d’affaires total des entreprises d’un secteur d’activité, pourcentage
d’étudiants fumeurs, ...
Paramètre d’intérêt
Estimation sur domaine
ou d’une moyenne
1 X
µyd = yk
Nd
k∈Ud
Ud
Echantillonnage en population finie Notations
Paramètre d’intérêt
Estimation par substitution
Exemple 1 :
ty t̂y
R= estimé par R̂ = .
tx t̂x
Paramètre d’intérêt
Estimation par substitution
Exemple 2 :
pA p̂A
1−pA 1−p̂A
OR = pB estimé par OR
d=
p̂B
.
1−pB 1−p̂B
Il est également possible d’estimer des paramètres plus complexes tels que
des fractiles (médianes), ou des indices (Gini, utilisé comme indicateur d’in-
égalité).
Plan de sondage
Exemple
Soit la population U = {1, 2, 3, 4}, et p(·) le plan de sondage défini par :
{{1, 2}, {1, 4}, {3, 4}, {1, 2, 3}, {2, 3, 4}} .
On a par exemple
N = {0, 1, 2, . . .} .
On a pour k ∈ N :
λk
P(X = k) = exp−λ × .
k!
L’espérance de X correspond à la valeur moyenne de ses valeurs possibles,
pondérées par leurs probabilités :
X
E[X] = k × P(X = k)
k∈N
= λ.
Mesures de précision
Mesures de précision
Quelques simulations
200
200
190
190
190
180
180
180
170
170
170
● ●
● ●
taille
taille
taille
● ● ● ●
● ● ● ●
● ● ● ●
160
160
160
● ● ●● ● ● ● ●● ●
●● ● ●●● ● ●
● ●●● ●●● ●● ● ●●● ● ●
● ●●● ●●●
● ●● ●●
● ●●●●●● ● ● ●● ●●
● ●●●●●● ●
●● ●
●●
●●
●●●●
●●●●●●●
●
●●
●
●
● ●●●●●●● ●● ● ●● ●
●●
●●
●● ●
●●●●●●●
●
●● ●
● ●●●●●●● ●● ●
●●● ● ●● ●●●●●●●● ●● ●● ●
● ●● ●●● ● ● ●● ●●
●●●●●●● ●● ●● ●
● ●●
● ●●●
●
●●●●●●●●
● ●●
●●●●
●●●●●●●●●●
●
●● ●● ● ●●●
●
●●●●●●●●
● ●●
●●●●
●●●●●●●●●●
●
●● ●●
●● ●● ●
●●●
●●
●
●
●●●
●
●
●●
●●●
●
●
●
● ●●●●●● ●●●●● ●● ●● ●
●● ●● ●● ●
●●●
●●
●
●
●●●
●
●
●●
●●●
●
●
●
● ●●●●●● ●●●●● ●● ●● ●
●●
●●
●●
● ●●
●● ●●●
●●●●
● ●●
●
●
●●●●●● ●
●●
●
●●
●●
●
●●
●●●●●● ●
●●
●●
● ●●
●● ●●●
●●●●
● ●●
●
●
●●●●●● ●
●●
●
●●
●●
●
●●
●●●●●● ●
●●●●●
● ●● ●● ●
●● ●
●●
●●●
●● ●
●●●
●
●
●
●●●●●
●
●
●●● ●●● ●●●●●
● ●● ●● ●
●● ●
●●
●●●
● ●
●●●
●
●
●●●●●
●
●
●●● ●●●
● ● ● ●
●●●●●
●●●
●●●●
●●
●
●
●
●
●●●
●●● ●●
●●
●
●●●
●
●
●●
●●
● ● ● ●● ● ● ● ● ●
●●●●●
●●●
●
●
●●●
●●
●
●
●
●
●●
●●
●●● ●●
●●
●
●●●
●
●
●●
●●
● ● ● ●● ●
150
●● ●
150
●● ●
150
● ● ●●
●● ●
●●
●
●
●
●●
●●
●●●
●●● ●●
● ●●●●●●
● ●
●● ● ● ● ●●
●● ●
●●
●
●
●
●●
●●
●●●
●●● ●●
● ●●●●●●
● ●
●● ●
● ●●
●● ●● ● ●
●●
●
●●
●●●
●
●● ●
●●
●
●● ●●
●●●
●●●● ●
●●
● ●● ● ●●
●● ●● ● ●
●●
●
●●
●●●
●
●● ●
●●
●
●● ●●
●●●
●●●● ●
●●
● ●●
●●● ●●
●● ●
●
●
●
●● ●
●
●
●
●
●●
●
●
●●●
●●●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●●
●● ●
●●
●
●
●●●
● ●
●
●
●●
●
●●●
●
●●●
● ●●●
●●● ● ●●● ●●
●● ●
●
●
●
●● ●
●
●
●
●
●●
●
●
●●●
●●●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●●
●● ●
●●
●
●●
● ●
●
●
●●
●
●●●
●
●●●
● ●●●
●●● ●
● ●
●● ●●
● ● ●
● ● ●
● ● ●● ● ● ●
●● ●●
● ● ●● ●
● ● ●
● ● ●● ●
●●
●●● ●
●●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●●
●●
●
●●●
●●
●●
●
●
●
●
●
●●
●●● ●
●●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●●
●●
●
●●●
●●
●●
●
●
●
●
● ●
●● ●● ●●● ●●
●●●
●●
●●
●●●
●●
●
●
●●
●●●
●●
●
●
●
●
●●●
●●●
●
●
●●
●●●
● ●
●
●
●●
● ●● ●● ●● ●●● ●●
●●●
●●
●●
●●●
●●
●
●
●●
●●●
●●
●
●
●
●
●●●
●●●
●
●
●●
●●●
● ●
●
●
●●
● ●●
● ●
● ●● ●●●● ●●
● ●●
● ● ●● ●
● ● ● ● ● ● ●●
● ●●
● ● ●● ●
● ● ● ●
●●●●● ●●● ●●● ● ●● ● ● ●● ●●●● ●●● ● ●●● ●●● ● ●● ●
● ●
●● ● ●● ●● ●
●
●●
●
●
●●
●●
●●● ●●●●
●●
●
● ● ● ● ●
●● ● ●● ●● ●
●●
●●
●
●
●●
●●
●●● ●●●●
●●
●
● ● ●
●● ● ● ●●● ●●● ●● ● ● ●●● ●●●
140
140
●
140
● ● ●● ●●●●● ●●●● ● ● ●● ●●●●● ●●●●
●● ●
● ●● ●● ●
● ●●
●
● ● ●● ● ● ● ●
● ● ●● ● ● ●
● ●●● ● ● ●●● ●
●● ●●
● ●
130
130
130
50 60 70 80 90 100 50 60 70 80 90 100 50 60 70 80 90 100
200
200
190
190
190
●
● ●
●
● ●● ● ●●
● ● ● ● ● ●
● ●●● ● ●● ● ●●● ● ●●
180
180
180
●● ●● ●● ● ●● ●● ●● ●
●●●● ● ●●●●● ●● ● ●● ●●●● ● ●●●●● ●● ● ●●
● ●● ●
●● ●●
●● ●●● ● ●● ● ● ●● ●
●● ●●
●● ●●● ● ●● ●
● ●●●●●● ● ●
●● ●
●●●
● ●●
●● ●
● ● ●●●●●● ● ●
●● ●
●●●
● ●●
●● ●
●
●●● ●● ●● ● ●
●
● ● ●●● ●● ●● ● ●
●
● ●
● ● ●● ● ● ●●
● ●●●● ●●●●●
●
●● ●
● ● ●● ● ● ● ●● ● ● ●●
● ●●●● ●●●●●
●
●● ●
● ● ●● ●
●● ● ●
●●
●●
●●●
●
●
●
●●●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
● ●●●
● ●●
●
●●● ●● ● ●
●●
●●
●●●
●
●
●●●
●
●
●
●
●
●●
●●
●●●
●
●
●
●
●
●
●
●●●
●
●
●
●●
● ●●●
● ●●
●
●●●
●●● ●●●
●●
●●
●●●
●
● ● ●
●
●
● ●●●●
●
●●
● ●●
●
●
●●●●
●
●
●● ●● ●
● ●●● ●●●
●●
●●
●●●
●
●
● ● ●
●
●
●
● ●●●●
●
●●
● ●●
●
●
●●●●
●
●
●● ●● ●
●
● ●● ●●
● ●●
●● ●●
●●
●
●
●
●●
●●
●●●
●●
●
●●●●
●
●●●
●●
●●
● ●●●
●●
●●● ●
● ● ●● ●●
● ●●
●● ●●
●●
●
●
●
●●
●●
●●●
●●
●
●●●●
●
●●●
●●
●●
● ●●●
●●
●●● ●
●
●● ●●●● ●
●●●
● ●●●●
●
●●●
●●●●●
●
●
●
●
●●
●●●●
●
●
●
●●●
● ●● ●● ●●●● ●
●●●
● ●●●●
●
●●●
●●●●●
●
●
●
●
●●
●●●●
●●
●●●
● ●●
● ● ● ● ● ● ●● ●● ● ● ● ● ● ●●●● ●●
170
●
170
170
● ●
●●●●●●●●●●●
●●
● ●
●●●
●●●● ● ●●
● ●●●
●●●●
● ● ● ● ● ●
●●●●●●●●●●●
●●
● ●
●●●
●●●● ● ●●
● ●●●
●●●●
● ● ● ●
●●
● ●●
●
●●●
●
●
●
●
●
●●●
●
●●
●
●●
●
●●●
●
●●
●●●
●●●●●
●●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●●●
● ●● ● ● ● ●●
● ●●
●
●●●
●
●
●
●
●
●●●
●
●●
●
●●
●
●●●
●
●●●●
●●●●●
●●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●●●
● ●● ● ● ● ●
●●● ●● ●
●●
●
●●●●●
● ●
●
●●●
●●
●●
●●
●●
●
●●
●
●
●
● ●
● ●
●
●●●
●
●
●●
●●
●
●● ●
● ●●●● ●●
● ●●● ●● ●
●●
●
●●●●●
● ●
●
●●●
●●
●●
●●
●●
●
●
●
●
●
●
●
● ●
● ●
●
●●●
●
●
●●
●●
●
●● ●
● ●●●● ●●
●
● ●●●●●●
●●●
●
● ●
●●●
●
●
●
●●
●●
●●
●
●
● ●●
●●
●
●●
●●●
●
●
●
●●
●●
●●
●●
●●●
●
●●●
●● ●●● ●● ● ● ● ●●●●●●
●●●
●
● ●
●●●
●
●
●
●●
●●
●●
●
●
● ●●
●●
●
●●
●●●
●
●
●
●●
●●
●●
●●
●●●
●
●●●
●● ●●● ●● ● ●
●● ●
●●
● ●●
●●
●●
● ●
●
●●
●
●● ●
●●
● ●
●●●
●
●
●●●●
●●
● ●●●
●●● ●● ●
●●
● ●●
●●
●●
● ●
●
●●
●
●● ●
●●
● ●
●●●
●
●
●●●●
●●
● ●●●
●●●
taille
taille
taille
● ●
●● ●● ●●
●●
●
● ●
● ●
● ●
●
●●
●●
●● ●●
●●●
● ● ● ● ●
●● ●● ●●
●●
●
● ●
● ●
● ●
●
●●
●●
●● ●●
●●●
● ● ●
●●●● ● ●
●●
●●●
●●●●
●●●●●
●
●
● ●●● ●●
●
●
●●
●
●●
●●
●●●
●●●●●
●●●● ● ●
●●
●●●
●●●●
●●●●●
●
●
● ●●● ●●
●
●
●●
●
●●
●●
●●●
●●●●●
●●
● ●●●
● ●
●●●
●●●●● ●
●● ●
●●●
●
●●
●
●
●● ● ● ●●
● ●●●
● ●
●●●
●●●●● ●
●● ●
●●●
●
●●
●
●
●● ● ●
●● ●● ● ●●●● ●● ●
●●● ●●● ● ●● ●● ● ●●●● ●● ●●● ●●● ●
●● ● ●●● ●● ●●
● ●
●●●●●●
● ●● ● ●●● ●●●
●●
● ●
●●●●●●
●
● ●● ●●● ●●● ● ● ● ● ●● ●●● ●●● ● ● ●
●●● ● ●●● ●●● ● ●●●
160
160
160
● ●●● ●●
●●● ●● ●
● ●●● ●●
●●● ●● ●
● ● ●●●●●● ● ● ●● ● ● ●●●●●● ● ● ●●
● ● ●● ● ● ● ● ●● ● ●
●● ●●
● ●
150
150
150
140
140
140
130
130
130
50 60 70 80 90 100 50 60 70 80 90 100 50 60 70 80 90 100
200
200
190
190
190
180
180
180
● ● ● ●
●● ●
●●
● ● ●● ●
●●
● ●
● ●●● ●● ●●
● ●● ● ●●● ●● ●●
● ●●
●●
●●
● ●●●●●●●●●
● ●●
●●
● ●●●●●●●●●
●
●●●●
●●
● ●●
●●
●●
●
●●
●●
●●●● ● ●●●●
●●
● ●●
●●
●●
●
●●
●●
●●●● ●
●●● ●
●●●●
●
●
●
●●
●●
●
●
●●
●●
●
●●●
●
●● ●●● ●●● ●
●●●●
●
●
●
●●
●●
●
●
●●
●●
●
●●●
●
●● ●●●
●●●
●
●●●●
●●
●
● ●
●
●●
●
●●
●
●
●
●●
●●
●●
●
●●●
●
● ●
● ●●●
●
●●●●
●●
●
● ●
●
●●
●
●●
●
●
●
●●
●●
●●
●
●●●
●
● ●
●
● ●●●
●●
●
● ●
●●●
●
●●
●
●●
●
●●
● ● ●
●●●● ● ●●●
●●
●
● ●
●●●
●
●●
●
●●
●
●●
● ● ●
●●●●
●● ● ● ●
●
● ● ● ●● ● ● ●
●
● ● ●
170
● ● ●
●
170
● ● ●
●
170
●●
● ●
●
●
●●
●
●●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●●
●●
●
●●
●●●
● ●●
● ●
●
●
●●
●
●●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●●
●●
●
●●
●●●
●
●
●
●●●
●●
●●
●●
●●●
●●
●●
●●
●
●●●
●
●
● ●
●
●
●●
●●
●●
●
●●
●
● ●●●● ●
●
●●●
●●
●●
●●
●
●●
●●
●●
●
●●●
●
●
● ●
●
●
●●
●●
●●
●
●●
●
● ●●●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●●
●
● ● ●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●●
●
● ●
●●●● ● ●● ●●● ●●● ●● ●●●● ● ●● ●●● ●●● ●●
●● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●● ●● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●●
●●● ●
●● ●●
●●
●●
●● ● ●
●●●
●● ●●● ●
●● ●●
●●
●●
●● ● ●
●●●
●●
taille
taille
taille
● ●
●●
●
●●●
●
●●
●
●
●●
●●
●●
●
●●
●●
●●●
● ●
●
●● ● ●
●●
●
●●●
●
●●
●
●
●●
●●
●●
●
●●
●●
●●●
● ●
●
●●
●● ●● ●● ●● ●● ●●
●● ●
●●●
●●●● ●
●
●
●●
●
●
●
●
●
●●●●
●
●
●
●●
●
●●
●
● ●
●
●● ●
●●●
●●●● ●
●
●
●●
●
●
●
●
●
●●●●
●
●
●
●●
●
●●
●
● ●
●
●
160
160
160
150
150
150
140
140
140
130
130
130
Application
des unités 1 et 2,
des unités 1 et 4,
des unités 2 et 4.
Variables indicatrices
Ep (Ik ) = πk ,
Vp (Ik ) = πk (1 − πk ),
Covp (Ik , Il ) = πkl − πk πl
≡ ∆kl .
En résumé
Un plan de sondage est une loi de probabilité sur les parties de U . L’alea
porte sur le sous-ensemble S d’individus observés.
πk = P(k ∈ S),
πkl = P(k, l ∈ S).
Estimation de Horvitz-Thompson
Objectif
La π-estimation
Biais de couverture
Sans-domicile : personne qui dort dans un lieu non prévu pour l’habitation
ou prise en charge par un organisme fournissant un hébergement gratuit ou
à faible participation.
Variance
Définitions
Définition
Un plan de sondage p(·) est dit de taille fixe, égale à n, si seuls les échan-
tillons de taille n ont une probabilité non nulle d’être tirés :
Card(s) 6= n ⇒ p(s) = 0.
Définition
Un plan de sondage p(·) est dit simple si deux échantillons de même taille
ont la même probabilité d’être sélectionnés :
Exemples
Exemple 1 :
p({1, 2}) = 0.2 p({1, 4}) = 0.1 p({3, 4}) = 0.3
p({1, 2, 3}) = 0.3 p({2, 3, 4}) = 0.1
Exemple 2 :
p({1, 2}) = 1/3 p({1, 4}) = 1/3 p({3, 4}) = 1/3
Exemple 3 :
p({1, 2, 3}) = 1/4 p({1, 2, 4}) = 1/4 p({1, 3, 4}) = 1/4
p({2, 3, 4}) = 1/4
Variance
yl 2 ∆kl
1 X yk
vY G t̂yπ = − − (5)
2 πk πl πkl
k6=l∈S
Proposition
Pour un plan de sondage quelconque, on a :
X
Ep vHT t̂yπ = Vp t̂yπ + yk yl .
k,l∈U
πkl =0
yl 2
1 X yk
Ep vY G t̂yπ = Vp t̂yπ − πk πl − .
2 k,l∈U πk πl
πkl =0
Unité 1 2 3 4 5 6
x 200 80 50 50 10 10
Intervalle de confiance
Intervalle de confiance
avec z1− α2 le quantile d’ordre 1− α2 d’une loi normale centrée réduite N (0, 1).
Rappel :
α = 0.05 ⇒ z0.975 = 1.96
α = 0.10 ⇒ z0.95 = 1.64
Intervalle de confiance
Comme la vraie variance Vp t̂yπ est généralement inconnue, on la remplace
par un estimateur noté v t̂yπ .
Coefficient de variation
La précision de l’estimation du total peut également être donnée sous la
forme du coefficient de variation
q q
V p yπt̂ v t̂yπ
ˆ t̂yπ =
CV p t̂yπ = estimé par CV .
ty t̂yπ
En résumé
La connaissance des probabilités d’inclusion d’ordre 1 permet de calculer
l’estimateur de Horvitz-Thompson du total
X yk
t̂yπ = .
πk
k∈S
Pour un plan de sondage quelconque, sa variance est estimée sans biais par
X yk yl ∆kl
vHT t̂yπ =
πk πl πkl
k,l∈S
θ̂π = f (t̂yπ ).
Technique de linéarisation
Estimation de variance
Pour un plan de sondage quelconque, on obtient :
h i
Vp θ̂π ' Vp t̂uπ
X uk ul
= ∆kl .
πk πl
k,l∈U
Calcul de variance :
h i X uk ul
Vp θ̂π ' ∆kl ,
πk πl
k,l∈U
h i X ûk ûl ∆kl
v θ̂π = .
πk πl πkl
k,l∈S
Guillaume Chauvet (ENSAI) Echantillonnage 27 avril 2015 50 / 198
Echantillonnage en population finie Estimation d’une fonction de totaux
Exemple
k xk yk
1 5 1
2 1 3
3 4 2
4 8 10
x̄ = 4.5 ȳ = 4
s2x = 8.3 s2y = 16.7
v t̂xπ = N 2 1−f 2
t̂xπ = N x̄ = 45 n sx = 125
1−f
v t̂yπ = N 2 n s2y = 250
t̂yπ = N ȳ = 40
Exemple
v t̂xπ = N 2 1−f 2
t̂xπ = N x̄ = 45 n sx = 125
1−f
v ht̂yπi = N 2 n s2y = 250
t̂yπ = N ȳ = 40
ȳ
R̂ = x̄ = 0.89 v R̂ = N 2 1−f 2
n sû = 0.07
Méthodes d’échantillonnage
Le tirage de Bernoulli
Principe
C’est un principe de piles ou faces indépendants, avec une même pièce mais
un lancer différent pour chaque unité.
Estimateur de Horvitz-Thompson
En utilisant les propriétés d’une loi U ([0, 1]), on a :
πkl = π 2 pour k 6= l,
1−π X 2
Vp t̂yπ = yk .
π
k∈U
D’autre part, la taille d’échantillon n(S) est aléatoire et suit une loi B(N, π).
Guillaume Chauvet (ENSAI) Echantillonnage 27 avril 2015 56 / 198
Méthodes d’échantillonnage Tirage de Bernoulli
Application
Unité 1 2 3 4 5 6 7 8
πk 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25
uk 0.07 0.44 0.52 0.19 0.95 0.24 0.54 0.07
yk 0 0 1 2 2 2 2 4
Tirage
t̂yπ 1 X
µ̂yπ = = yk ,
N E[n(S)]
k∈S
t̂yπ 1 X
µ̃y = = yk .
N̂π n(S)
k∈S
On peut montrer que ces deux estimateurs sont non biaisés pour ty , mais que
l’estimateur par substitution µ̃y est généralement préférable en termes de
variance :
1 1 1 X 2
Vp (µ̂yπ ) = − × yk ,
n N N
k∈U
1 1 1 X
Vp (µ̃y ) ' − × (yk − µy )2 .
n N N
k∈U
Méthodes d’échantillonnage Sondage aléatoire simple
Définition-propriété
Il existe un unique plan de sondage p(·) vérifiant les propriétés :
1 p(·) est un plan simple,
2 p(·) est un plan de taille fixe n.
On l’appelle plan de sondage aléatoire simple sans remise
SRS de taille n dans U ≡ SRS(U ; n).
Il s’agit donc du plan qui donne la même probabilité à tous les échantillons
de taille n d’être sélectionnés. On a :
n
1/CN si n(s) = n,
p(s) =
0 sinon.
Estimateur de Horvitz-Thompson
Proposition
Soient k et l deux unités distinctes quelconques. Alors :
n n(n − 1)
πk = , πkl = .
N N (N − 1)
Variance du π-estimateur
1X
ȳ = yk .
n
k∈S
A retenir
Dans une enquête avec un faible taux de sondage, la variance est (approxi-
mativement) inversement proportionnelle à la taille d’échantillon.
Proposition
Dans le cas d’une variable indicatrice (0/1) y, on a :
N
Sy2 = P (1 − P ),
N −1
n
s2y = P̂ (1 − P̂ ).
n−1
On peut toujours se placer dans le pire des cas en prenant P = 0.5, mais il
est préférable de disposer d’un a priori (même vague) sur le paramètre P .
Application
Parmi les 350 étudiants de l’Ensai, on veut estimer la proportion qui portent
des lunettes. Quelle taille d’échantillon faut-il sélectionner pour que cette
proportion soit estimée à 10% près, avec un niveau de confiance de 0.95 :
1 en utilisant l’information suivante : 50% des personnes de la population
française portent des lunettes ;
2 en utilisant maintenant l’information suivante : 20% des 15 − 25 ans
portent des lunettes.
Algorithmes de sélection
2 Pour k = 1, . . . , N , faire :
n−j
Avec une probabilité , on sélectionne l’unité k et j = j + 1.
N − (k − 1)
2 Pour k = n + 1, . . . , N , faire :
n
Avec une probabilité , on sélectionne l’unité k.
k
On tire à probabilités égales une unité dans l’échantillon, qui est
remplacée par k.
Information auxiliaire
Principales questions :
1 Comment construire les strates ?
2 Quelle taille d’échantillon sélectionner dans chaque strate ?
3 Quel plan de sondage utiliser dans chaque strate ?
Définition
La population U est dite stratifiée quand les unités peuvent être partition-
nées en H sous-populations disjointes U1 , . . . , UH appelées strates.
Décomposition
nh nh (nh − 1)
πk = πkl = .
Nh Nh (Nh − 1)
La variance s’obtient par sommation (les tirages sont indépendants dans les
strates) :
H
X
Vp t̂yπ = Vp t̂yhπ .
h=1
On suppose que la taille globale d’échantillon n est fixée, et que les strates
ont été définies.
Allocation Proportionnelle
Allocation Proportionnelle
Allocation Proportionnelle
Chaque unité de la population possède la même probabilité d’inclusion πk =
n/N , et l’estimateur stratifié de la moyenne est identique à la moyenne
simple sur l’échantillon :
H H
X Nh X nh
µ̂yπ = ȳh = ȳh = ȳ.
N n
h=1 h=1
PH Nh 2 PH Nh
' h=1 N Syh + h=1 N (µyh − µy )2
Notons que la dispersion globale Sy2 est fixée. Le poids de chacune des deux
composantes dépend de la variable de stratification choisie.
Exemple
k 1 2 3 4 5 6 7 8
yk 1 1 1 1 5 5 5 5
x1k 0 0 0 0 1 1 1 1
x2k 0 0 1 1 1 1 0 0
Allocation de Neyman
Principe
Principe
Principe
Calcul de l’allocation
Dans ce cas :
1 on effectue un recensement dans les strates concernées (on fixe nh =
Nh ),
2 on recalcule l’allocation d’échantillon dans les autres strates.
Principe
Allocation de compromis
Imaginons que l’on souhaite obtenir la même précision dans chaque strate,
par exemple si les strates sont des domaines d’estimation.
On veut obtenir
1 1 2
V (ȳh ) = − Syh = Cste.
nh Nh
Il s’agit d’un problème réaliste (contraintes imposées par Eurostat dans les
enquêtes).
Principales questions
Introduction
En pratique, il peut subsister une forte hétérogénéité dans les strates. Dans
ce cas, on peut rechercher une stratégie d’échantillonnage plus efficace en
individualisant les probabilités de sélection πk de chacun des individus.
On doit ensuite faire le choix d’un algorithme de tirage, i.e. d’une méthode
pratique de sélection respectant les probabilités d’inclusion choisies.
Algorithmes de tirage
le tirage poissonien,
le tirage systématique.
Le tirage de Poisson
Principe
Estimation de Horvitz-Thompson
πkl = πk πl si k 6= l.
Le plan de sondage peut être entièrement spécifié. Pour une partie quel-
conque s = {i1 , . . . , ip } de U , on a :
Y Y
P(S = s) = πk (1 − πk ).
k∈s k∈u\s
Application
Unité 1 2 3 4 5 6 7 8
πk 0.1 0.1 0.1 0.1 0.4 0.4 0.4 0.4
uk 0.07 0.44 0.52 0.19 0.95 0.24 0.54 0.07
yk 0 0 1 2 2 2 2 4
Tirage
Estimateur de Horvitz-Thompson
X yk 2
Vpois t̂yπ = πk (1 − πk ), (8)
πk
k∈U
X yk 2
v t̂yπ = (1 − πk ).
πk
k∈S
X ek 2
v t̂yR = (1 − πk ) (10)
πk
k∈S
t̂yπ
avec ek = yk − .
N̂π
Guillaume Chauvet (ENSAI) Echantillonnage 27 avril 2015 110 / 198
Méthodes d’échantillonnage Tirage à probabilités inégales
1 X Ek 2
Vpois [µ̃y ] ' πk (1 − πk ). (11)
N2 πk
k∈U
1 X ek 2
v [µ̃y ] = (1 − πk ). (12)
N̂π2 πk
k∈S
Utilisation
Le tirage systématique
Principe
Principe :
Pk
On pose Vk = l=1 πl pour k ∈ U , avec la convention V0 = 0.
On tire une variable aléatoire u selon une loi uniforme U [0, 1].
On sélectionne toutes les unités k telles que, pour un entier i ∈ {1, . . . , n} :
Vk−1 ≤ u + (i − 1) < Vk .
Exemple
Population U de taille N = 14 avec n = 4 :
π1 = π2 = π5 = π6 = π7 = π8 = π12 = 1/7,
π3 = π4 = π9 = π10 = π11 = π13 = π14 = 3/7.
0 1 2 3 4
? ? ? ?
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11V12 V13 V14
Probabilités d’inclusion
Les probabilités d’inclusion d’ordre deux sont plus difficiles à calculer (Tillé,
2006, p. 126).
On a en particulier
n/N si k ≡ l [p],
πkl =
0 sinon.
Exemple
0 1 2 3
? ? ?
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
ui = {i, i + p, . . . , i + (n − 1)p}.
1 − f SY2
Vsys t̂yπ = N 2
n n
avec
X ty 2
1
SY2 = Yi − .
p−1 p
ui ∈Ug
Le tirage systématique sera donc efficace par rapport au SRS si dans l’équa-
tion (13), le terme de dispersion intra est grand, autrement dit si les grappes
sont hétérogènes en intra. Ce sera par exemple le cas si la population est
triée avant le tirage selon une variable auxiliaire xk corrélée avec la variable
d’intérêt.
Exemple
Unité 1 2 3 4 5 6 7 8 9 10 11 12
y1 10 10 10 15 45 45 50 50 60 60 60 65
y2 10 45 60 15 50 65 10 50 60 10 45 60
y3 15 45 10 60 60 50 45 65 10 50 10 60
Exemple
On obtient comme valeurs échantillonnées possibles pour y1
{10, 50} {10, 50} {10, 60} {15, 60} {45, 60} {45, 65},
pour y2
{10, 10} {45, 50} {60, 60} {15, 10} {50, 45} {65, 60},
et pour y3
{15, 45} {45, 65} {10, 10} {60, 50} {60, 10} {50, 60}.
On obtient également :
y1 y2 y3
DEFFp (y) 0.50 2.18 1.39
Méthodes de redressement
Principe
SRS ⇒ dk = N/n
SRS stratifié ⇒ dk = Nh /nh pour k ∈ Uh
Principe
Principe
Exemples :
Principe
On suppose ici que l’on dispose d’un vecteur xk = [x1k , . . . , xpk ]> de va-
riables auxiliaires, dont les totaux tx = [tx1 , . . . , txp ]> sur la population sont
connus.
Solution théorique
On choisit une fonction de distance G telle que G(wk /dk ) mesure la distance
entre le poids initial dk et le poids final wk . Nous supposons que
G(1) = 0,
G est positive et convexe (i.e, plus wk /dk s’éloigne de 1, plus G(wk /dk )
est grand)
Le Lagrangien s’écrit
!
X X
L= dk G(wk /dk ) − λ> wk x k − t x
k∈s k∈s
wk = dk F [λ> xk ]
= t̂yπ + b̂>
π tx − t̂xπ
avec
" #−1
X xk x> X xk yk
k
b̂π = .
πk πk
k∈S k∈S
t̂xw = tx .
Elle est approximativement sans biais pour les autres variables d’intérêt :
Ep t̂yw ' ty .
h i
Ep t̂y,greg ' Ep t̂yπ + b> {tx − t̂xπ }
= ty ,
h i
' Vp t̂yπ − b> t̂xπ
Vp t̂y,greg
= Vp t̂Eπ .
On se place dans le cas d’un SRS(n). On suppose que l’on utilise les variables
auxiliaires xk = [1, xk ]> , de totaux connus. Le modèle de régression sous-
jacent est :
yk = a + b xk + Ek .
On obtient
P
(x −µx )(yk −µy ) Sxy
b= P k
k∈U
2 = a = µy − b µ x
k∈U (xk −µx ) Sx2
P
(x −x̄)(yk −ȳ) sxy
b̂ = P k
k∈S
2 = â = ȳ − b̂ x̄
k∈S (xk −x̄) s2x
Sxy
En notant ρ = Sx Sy le coefficient de corrélation linéaire, on a :
1−f 2
Vsrs t̂y,greg ' N 2 Sy (1 − ρ2 ).
n
Guillaume Chauvet (ENSAI) Echantillonnage 27 avril 2015 142 / 198
Méthodes de redressement Variance d’un estimateur calé
Estimation de variance
Estimation de variance
Exemple
Echantillon de taille n = 5 tiré selon un SRS dans une population de taille
N = 100. On suppose connu le total tx = 320.
x0k x1k yk
1 1 3
1 3 1
1 2 8
1 5 15
1 4 3
1−f 2
t̂xπ = 300 t̂yπ = 600 v(t̂yπ ) = N 2 s = 6.08 104
n y
Exemple
Echantillon de taille n = 5 tiré selon un SRS dans une population de taille
N = 100. On suppose connu le total tx = 320.
1−f 2
t̂xπ = 300 t̂yπ = 600 v(t̂yπ ) = N 2 s = 6.08 104
n y
â = 0.3 b̂ = 1.9
1−f 2
t̂yw = 638 v(t̂yw ) = N 2 s = 4.365 104
n e
Guillaume Chauvet (ENSAI) Echantillonnage 27 avril 2015 148 / 198
Application des méthodes de redressement
tx
avec wk = dk × t̂xπ
.
Motivation
L’estimateur par le ratio est motivé par le modèle
yk = β xk + k avec Vm [k ] = σ 2 xk .
Exemple de données
y y/x
4
●● ●
●● ● ●
● ●●●●●
100
●● ● ●
●
●●● ●
●●
●
●
●
●● ●
●●●
● ●●●●●
●
● ●
●●●● ●
●●●●●●●●●
●●
3
●●●
●●●●●
●●
● ●
●
●●●●●●●● ●●
● ●
●●●● ●
●●
●●
●●●●●
● ●● ●
●●●●●
●●
●
●●
●●●
●●
●
●
●
●●●● ●
● ●
●●
● ●●●●●●
●
●●
●●
●●●
●●
● ●●●●●●●●
●● ●●● ●
60
● ●●
●●● ●●
●●● ●
●●●● ● ●
2
●●●
●●
●●● ●●●
●●●●
●
● ●
● ●
●● ● ● ●●
● ●●●
●
●●●
●
●●
●
●●●
●
●
●●●●
●
●
●
●
● ●●
●●● ● ●● ●
● ●
● ●● ●●
●●
●●
●●
●●●
●●●
● ●●●●●
●●
●●●●●●
● ● ●
●●●
● ●
●●●
●●●
● ●●● ●
●
●●●●●
●
●●●
●●●
●● ●
● ●●●●
●● ● ●●●●●●●
● ●● ●●
●● ●● ● ●
● ●●
●●●●
●
●
●
● ●●
●●
●●
●●●●●
●●
● ●● ●●
●●●
●●
●●
●
●● ● ●●●
●
●●
●●●
●●
●●
●
●●
●
●
●●
●●
●●
●
●●●
●
●
●●●●
●
●●
●
●●●
●
●
●● ●
●●●●● ●
●●
●● ●●
●●●
●●●
●●
●
●●
●
●
●●
● ●●
●●
●
● ●● ●●
●
● ●●
●●●
●
●●
● ●● ●●●● ●
● ●
●●
●●
● ●
● ●●●● ●
● ●●●
● ●●●
● ●●●
●●
●● ●●
●●●● ●
●●● ●
●●●
●●●
1
●
● ●
●● ● ● ● ● ● ●●● ●
● ●
●● ●
●●
●
● ●
● ● ●● ●●
●●●● ●
●●●
●●
●●
●
●●● ●●
●● ●
●
●
●●
●● ●
●
●
●
●●●● ●●●●● ●●●
●
● ●
●
● ●●●●●
●●●
● ●
●●
● ●
●●
●
●●
●
●
●
●
● ●●
●●
●
●●
● ●
●
●●
●●●
●●
●
●
●●●
●
● ●
●
●●
●●
●
●
●●
●●
●●
●●
●●●
●●
●
●●●
●
●●●●
●●●
● ●●●
●●
●● ● ●● ●●● ● ● ● ●
0 20
●
●●●
●●
●
●●
●●●
● ● ● ●● ● ● ● ● ●
●
●●
● ●
●●
●●●
●
●
● ● ●● ●
●●● ●
● ●
●●
● ●
●● ●
●
●
●
●
●
●●
●
●●
●
●●●
●●●
●
●
●●
●
●●
●●
●●
●●
● ●●
●●● ●
● ●
●
●●
●
●●●●●●
●
●
x x
t̂xR = tx .
1−f 2
Vp t̂yR ' N 2
SE .
n
On peut l’estimer par
1−f 2
ṽ t̂yR = N 2
sE ,
n
mais Ek = yk − R xk n’est pas calculable sur l’échantillon. On la remplace
par la variable donnant les résidus estimés ek = yk − R̂π xk pour obtenir
l’estimateur de variance final :
1−f 2
v t̂yR = N 2
se .
n
Exemple
xk yk t̂xπ = 300
1 3 t̂yπ = 600 v(t̂yπ ) = N 2 1−f
n sy
2
= 6.08 10 4
3 1
2 8
5 15
4 3
Exemple
= 6.08 10 4
3 1 -5
2 8 4
5 15 5 R̂π = 2
4 3 -5 t̂yR = 640 v(t̂yR ) = N 2 1−f
n se
2
= 4.37 10 4
Sx 2
21 − f 2
Vsrs t̂yR − Vsrs t̂y,greg ' N Sy ρ − R ,
n Sy
avec ek = yk − R̂π xk .
D’un autre côté, si les totaux par strate txh sont connus, on peut appliquer
un redressement par le ratio strate par strate.
Estimateur post-stratifié
Principe
avec Sh l’intersection de S et de Uh .
Guillaume Chauvet (ENSAI) Echantillonnage 27 avril 2015 166 / 198
Application des méthodes de redressement Estimateur post-stratifié
Principe de post-stratification
avec
P yk
k∈Sh πk t̂yh
µ̃yh = P 1 =
k∈Sh πk N̂h
Chaque post-strate peut être vue comme un domaine, non pris en compte
lors de l’échantillonnage. L’estimateur post-stratifié s’obtient à l’aide d’un
redressement par le ratio dans chaque post-strate.
Motivation
et
ek = yk − b̂>
π xk ≡ yk − µ̃yh pour k ∈ Uh .
N̂hpost = Nh ∀h = 1, . . . , H.
Les variables auxiliaires les plus explicatives doivent être utilisées pour
le calage (sélection avec une PROC GLM, par exemple).
Les variables utilisées pour concevoir le plan de sondage doivent être
utilisées pour le calage (ex : variables de stratification).
Si le calage est utilisé pour compenser de la non-réponse, les variables
explicatives de la probabilité de réponse devraient être incluses dans le
calage.
En principe, plus on utilise de variables de calage, plus les résidus sont faibles
et donc plus la variance de l’estimateur calé diminue. En pratique :
le nombre de variables de calage doit rester faible devant la taille de
l’échantillon,
les variables les plus explicatives sont généralement suffisantes pour
obtenir une forte diminution de la variance.
C’est possible avec la macro CALMAR 2, qui permet d’utiliser jusqu’à trois
niveaux d’information auxiliaire. Par exemple, pour une enquête auprès des
ménages :
POIDS = variable
PONDQK = variable
IDENT = variable
EFFTOT = valeur
M = 1,2,3 or 4
Fonction de distance :
1 Méthode linéaire
2 Méthode Raking Ratio
3 Méthode Logit
4 méthode linéaire tronquée
LO = valeur
UP = valeur
SEUIL = valeur
POIDSFIN = variable
Nom de la variable donnant les poids calés.
LABELPOI = label
Label associé à la variable donnant les poids calés.
Un petit exemple
Bibliographie
Ardilly, P. (2005). Panorama des principales méthodes d’estimation sur petits do-
maines. Actes des Journées de Méthodologie Statistique, Insee.
Ardilly, P. (2006), Les Techniques de Sondage, Technip, Paris.
Ardilly, P., et Tillé, Y. (2003), Exercices corrigés de méthodes de sondage Sondage,
Technip, Paris.
Cochran, W.G (1977), Sampling Techniques, Wiley, New-York.
De Peretti, P. et al (2006). L’enquête sans-domicile 2001. Insee Méthodes, 116,
Paris.
Deville, J-C. (1991). Une théorie des enquêtes par quotas. Techniques d’Enquête,
17, 177-195.
Hajek, J. (1964). Asymptotic theory of rejective sampling with varying probabilities
from a finite population. Annals of Mathematical Statistics, 35, 1491-1523.
Bibliographie