Partie 1

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 44

Cours de

Statistique
« Statistique inférentielle »

Mme J. BENABBOU
Plan du cours:
Introduction
Partie 1: Théorie de l’échantillonnage
Partie 2: Estimation
Partie 3: Tests d’hypothèses
Introduction

Un phénomène aléatoire sera entièrement déterminé


si on connaît la loi de probabilité suivie par la variable
aléatoire X donnée dans la population.

On a alors deux cas de figure :


 soit la loi suivie par X est inconnue, dans ce cas, il est
nécessaire d’estimer les paramètres de cette loi à partir des
paramètres établis sur un échantillon de la population.
(partie 2 : estimation)
Pour résoudre les problèmes d’estimation de ces paramètres
inconnus, il faut étudier la distribution d’échantillonnage
la loi de probabilité suivie par l’estimateur
(partie 1: théorie d’échantillonnage).

 Soit la loi suivie par X est connue et on vérifie si les


observations faites à partir d’un échantillon sont en accord
avec elle. On effectue alors un test d’ajustement entre la
distribution théorique et la distribution observée
(partie 3: test d’hypothèses).
Partie 1: Théorie de l’échantillonnage
I- Echantillonnage
La population cible est généralement trop nombreuse et pour des
raisons de coûts, de délais, il est pratiquement impossible d'effectuer un
recensement. L'échantillonnage est donc une partie importante de la
statistique. Elle nous permet de comprendre la population sans avoir à
Interroger tous les individus de la population.

Un échantillon représentatif est un échantillon qui reproduit les caractéristiques


d'une population de manière à ce que les conclusions obtenues avec cet
échantillon se généralisent à la population

La statistique inférentielle ne conduit jamais à une conclusion Stricte, elle


attache toujours une probabilité à cette conclusion. Cela provient du fait que l’on
tente de tirer des conclusions sur une population à Partir des observations
réalisées sur un échantillon.
Méthodes de prélèvement d’un échantillon
Pour avoir de bonnes analyses statistiques, il est important de savoir et
de comprendre le type d'échantillonnage utilisé. Il existe deux méthodes
pour constituer un échantillon:

Méthode probabiliste
Les échantillons probabilistes ou aléatoires sont constitués par tirage au sort
dans la population mère pour laquelle on dispose de la liste Complète de toutes
les unités de sondage qui la composent (individus, familles, entreprises, etc.).
Chaque membre de la population a une chance égale d'être inclus à l'intérieur
de l'échantillon. On distingue 4 méthodes :
 Echantillonnage aléatoire simple
 Echantillonnage aléatoire systématique
 Echantillonnage stratifié
 Echantillonnage en grappes
 Echantillonnage aléatoire simple

Mode d'administration

on doit dresser une liste de toutes les unités incluses dans la

Population observée pour sélectionner un échantillon aléatoire

simple. La sélection peut s'effectuer avec ou sans remise.

Avantages : facile à mettre en œuvre.

Inconvénients : La non-représentativité, le coût.

Remarque: pour la sélection on utilise des logiciels qui possèdent

Des fonctionnalités permettant de faire la sélection au hasard (Excel,

SPSS,…).
 Echantillonnage systématique
Il existe un écart, ou un intervalle, entre chaque unité sélectionnée qui
Est incluse dans l'échantillon.

Mode d'administration

1- Numéroter de 1 à N les unités incluses dans votre base de sondage (où N

est la taille de la population ).

2 - Déterminer l'intervalle d'échantillonnage ou pas de sondage (K ) en


divisant la population N par la taille de l'échantillon que vous désirez

obtenir(K=N/n)

3- Sélectionner au hasard un nombre de la population.

4- Sélectionner chaque K ième unité après ce premier nombre.


Avantages : La probabilité d'être sélectionnée = celle d'un EAS.

Inconvénients : Le coût, problème si la population est ordonnée.


 Echantillonnage stratifié

Mode d'administration
1- On divise la population en groupes homogènes (appelés
strates), qui sont mutuellement exclusifs (selon l'âge, le sexe, la
province de résidence, le revenu, etc.)

2- On sélectionne à partir de chaque strate des échantillons


indépendants.
3- La méthode d'échantillonnage peut varier d'une strate à une autre.

Avantages :

 La probabilité d'être sélectionnée = celle d'un EAS.

 Echantillon plus représentatif.


Inconvénients : Le coût.
Exemple:
Si on s’intéresse à un caractère qui dépend de l’âge des
individus :

Population Echantillon

[0,10[ 20% 20%

[10, 20[ 25% 25%

[20, 50[ 25% 25%

[50 et plus[ 30% 30%


 Echantillonnage en grappes:
Une grappe est un ensemble d'unités d'une population qu'on constitue à l'aide de
Critères bien définis.
- un ménage est une grappe de personnes physiques
- une entreprise est une grappe de salariés
- une association est une grappe de membres
Principe
Limiter les zones géographiques qui font l'objet de l'enquête
Mode d'administration
Chaque grappe devrait être une population « miniaturisée ». comme c’est rarement le cas,
On effectue un tirage aléatoire de plusieurs grappes, tous les individus appartenant aux
grappes sélectionnées étant interrogés

Avantages : réduire les coûts

Inconvénients : effet de grappe (variance intra qui est faible) dû à l'existence de


similarité Entre individus d'une même grappe.
Méthode non-probabiliste
La méthode d'échantillonnage non-probabiliste est utilisée lorsqu'il
n'est pas possible de constituer une liste exhaustive de toutes les unités
du sondage
 Echantillonnage par quotas
Il s'effectue jusqu'à ce qu'un nombre précis d'unités (de quotas) pour
diverses sous-populations ait été sélectionné.
Les quotas peuvent être fondés sur des proportions de la population.
(par exemple 50% d'hommes et 50% de Femmes).
Avantages : L'échantillonnage par quotas est généralement moins
coûteux que l'échantillonnage aléatoire. Il est également facile à
administrer.
Inconvénients : Certaines unités peuvent n'avoir aucune chance d'être
sélectionnées.
Remarque: on retient qu'un nombre restreint de quotas. Au delà de 2
ou 3 quotas, on complique la tâche des enquêteurs.
II- Distribution d’échantillonnage des moyennes

1-Définition:
La distribution d'échantillonnage des moyennes est la distribution
des moyennes arithmétiques de tous les échantillons possibles de
taille donnée n pouvant être formés à partir de la population.

La variation de ces moyennes est appelée variation


d'échantillonnage.

Remarque :

Il y a trois types de distributions de probabilité .


Distribution de la population (Recensement)
Dans le cas où la population suit une loi Normale

La taille de la population est N, sa moyenne µ et son


Ecart type σ

La distribution de la population est unique et fixe


Distribution d’échantillon (sondage)
Moyenne = x
Écart type = S

La taille de l’échantillon = n

 Il y autant de distributions qu'il y a d'échantillons différents


possibles
 Chaque échantillon a ses indices particuliers
Distribution d’échantillonnage
Moyenne = X
Écart type =  X

Elle est unique et fixe pour un n donné


L'écart type dépend de la taille de l'échantillon (n1 < n2 < n3)
2- Exemple introductif:
Un relevé complet, du nombre d’automobiles par résidence,
pour les 50 maisons d’un certain quartier précise que pour 30
d’entre elle il y a une voiture, pour les 20 autres 2 voitures.

a- Calculer la moyenne, la variance et la proportion d’avoir


une voiture par résidence
b- Calculer l’espérance mathématique et la variance.
c- Prélever l’ensemble des échantillons de taille 3 de la
variable X.
d- Déterminer la distribution de l’échantillonnage.
a- Soit X i le nombre de voitures par résidence :

Xi ni
1 30
2 20


 n X i i

30  1  20  2
 1,4
N 50 Voiture par résidence.

2 
i i
n X 2

 2 
30  12
 20  2 2
 (1,4) 2  0,24
N 50
30
p  0,6 Proportion des maisons ayant une voiture
50
b- Soit X la V.A nombre de voiture par résidence
X 1 2
p(X) 3/5 2/5

3 2
E ( X )  1  2   1,4  
5 5
V ( X )  [ (1)  (2) 2 ]  1,4   0,24   2
3 2 2 2

5 5
c- Prélevons l’ensemble des échantillons de taille 3
Echantillon prob réalisé de 2
Xi s p
chaque échantillon

(1,1,1)
(1,1,2)
(1,2,1)
(1,2,2)
(2,1,1)
(2,1,2)
(2,2,1)
(2,2,2)
c- Prélevons l’ensemble des échantillons de taille 3
Echantillon prob réalisé de 2
Xi s p
chaque échantillon
(1,1,1) (3/5)3 1 0 1
(1,1,2) (3/5)2(2/5) 4/3 2/9 2/3
(1,2,1) (3/5)2(2/5) 4/3 2/9 2/3
(1,2,2) (3/5)(2/5)2 5/3 2/9 1/3
(2,1,1) (3/5)2(2/5) 4/3 2/9 2/3
(2,1,2) (3/5)(2/5)2 5/3 2/9 1/3
(2,2,1) (3/5)(2/5)2 5/3 2/9 1/3
(2,2,2) (2/5)3 2 0 0

d- Distribution de l’échantillonnage:

X 1 4/3 5/3 2
p X  x  (3/5)3 3(2/5)(3/5)2 3(2/5)2(3/5) (2/5)3
3- Propriété :
Soit X une V.A quantitative, de moyenne  et variance  2 connues. Par
sondage, on tire un échantillon de taille n . On obtient ainsi n valeurs de
X 1  X 2  .....  X n
X  ( X 1 , X 2 ,......, X n ) . La moyenne X  est elle-même
n
une V.A, dépendant de l’échantillon choisi, telle que :

* E( X )   X  

* X  si le tirage est avec remise ou la population infinie.
n
 N n
* X  si le tirage est sans remise et la population est finie.
n N 1
4- Forme de distribution: Théorème centrale limite

* Si n ≥ 30 X  N (  X ,  X ) quelle que soit la distribution de la


population.

* Si la distribution de la population est normale, la distribution


d'échantillonnage des moyennes est une distribution normale n
III- Distribution de la proportion de l’échantillonnage
Propriété: Théorème centrale limite

Si :

np  5  pq 
n  30 et  alors p  N  p, 

nq  5  n 
Partie 2: Estimation
On va étudier deux méthodes d’estimation à

savoir :

I- Estimation ponctuelle : Calcul d’une valeur


unique (estimateur).

II- Estimation par intervalle : Il est alors


nécessaire de déterminer la précision de ces
estimations en établissant un intervalle de
confiance autour des valeurs prédites
I- Estimation ponctuelle

1. Moyenne :
De manière générale, on choisit la
moyenne d’un échantillon prélevé au
hasard dans une population comme
meilleure estimation ponctuelle de la
moyenne inconnue  de cette
population.
2. Variance. Ecart-type
n
On choisit le nombre s  n  1 s ² ,
2
n

où n est l’effectif et s² la variance d’un


échantillon prélevé au hasard dans une
population, comme meilleure estimation
ponctuelle de la variance inconnue ² de
cette population.
n
s s
On prend n
n  1 comme meilleure
estimation ponctuelle de l’écart-type 
inconnue de cette population.
3. Proportion
De même, on choisit la proportion des
éléments possédant une certaine propriété
dans un échantillon prélevé aléatoirement
dans une population comme meilleure
estimation ponctuelle de la proportion
inconnue p des éléments de cette population
ayant cette propriété.
Exemple :
Le nombre moyen de cartes de crédits qu’utilisent 50
individus d’un échantillon prélevé chez les clients d’un
magasin est de 2,28 et la variance est de 4,362 cartes.
De plus 28% des clients utilisent plus de 2 cartes de
crédits.
Quelle sont la moyenne, la variance des cartes de crédits
utilisées par l’ensemble des clients du magasin et la
proportion de l’ensemble des clients qui utilisent plus de 2
cartes.
Réponse
^
  X  2,28 cartes de crédits

n 50
s 
2
s 
2
 4,362
n 1
n
49
^
   2,11 carte
^
p  28%
II - Estimation par intervalle de
confiance

Les estimations ponctuelles sont liées au


choix de l’échantillon ; il faut donc rechercher
un nouveau type d’estimation de la moyenne
d’une population ou d’un pourcentage.
1- Définition:
L ’estimation par intervalle de confiance consiste
à établir un intervalle de valeurs qui nous permet
d ’affirmer, avec un certain niveau de confiance ou de
certitude 1   prédéterminé (en général: 90%, 95%
ou 99%), que la vraie valeur du paramètre de la
population se trouve dans cet intervalle.
2-Estimation par intervalle de confiance
Paramètre Conditions
Intervalle de confiance
à estimer d’application Loi utilisée
 2 connu
X    
 X  N (0,1)

normale
    X  z1 / 2 
 ou
n  30 n  n

  2 inconnu X 
 Tn 1  sn 
 X  t ( n 1)(1 / 2 )
sn
 X normale


n  30
n  n 
 2 inconnu X 
 N (0,1)    X  z Sn 
n  30 (TCL) sn  1 / 2 
 n
n
 connue
(X  )   ( X i   )2  ( X   ) 
2 2

 2
 i

 2
X normale
i
  n2  2
;
1 
 2

 inconnu (n  1) sn2  (n  1) sn2 (n  1) sn2 


  n21  2

1 
;
 
X normale  2 2

n  30
p  np  5 et nq  5 p p 
  N (0,1) pq 
 ou pq p   p  z1/2 
npq  15  n 
 n
3- Exemples :
A- Cas ou  la variance de la population est connue, et qu’on
2

cherche à estimer 

Exercice :
La durée d’un type de pile est distribuée « normalement »
avec un écart-type de 2 heures. Pour estimer la moyenne de cette
distribution, on prélève au hasard un échantillon de 20 piles dont
on relève la moyenne. La durée moyenne est de 10 heures.
Donner un IC à 95% degré de certitude de  durée
moyenne de l’ensemble des piles.
Réponse : Soit X la durée des piles, X suit la loi normale N (  , 2),
X 
 N (0,1) donc
/ n

Donc : IC95% 
 10  1,96
2
; 10  1,96
2 
 20 20 
Remarque :

Les intervalles de confiance donnés pour  doit être


obligatoirement centrés sur X .
B- Cas où  2 est inconnue et qu’on cherche à estimer  :

Exercice:

On sait que la consommation d’essence (en L/ 100Km) d’un


certain model d’auto est distribué selon une loi normale.

On note la consommation de 25 voitures, on obtient une moyenne


de 8,7 L/100 km et un écart-type de 0,09 L/100km.

Estimer la consommation moyenne de ce modèle à l’aide d’un IC


de 90% de certitude.
Réponse :

Soit X la consommation d’essence des automobiles, X suit une loi


N (  ,  ) avec  ,  inconnues et n = 25 < 30.
2

Soit X la consommation moyenne d’essence de l’échantillon.


X 
sn suit la loi de Student Tn-1 = T24 .
n

D’où :
 sn sn 
IC 90% (  )   X  1,711     X  1,711 
 n n
soit 8,67;8,73
C- Cas où  est connue et qu’on cherche à estimer  2

Exercice :

On analyse le PH d’un parfum, variable ayant un aspect


« normal » de moyenne 2,8. On prélève 25 unités de ce parfum
dont on mesure le PH on trouve :

X =3 et  i
( X   ) 2
 0,0625.

Donner une estimation par IC (95%) de  .


2
Réponse :

Soit X le PH du parfum, X suit une loi N(2,8 ;  )  2


inconnue.
 i
( X   ) 2
  25
2
2

  ( X i   )2 (X   )2 
 p 2  i
  95%
 40,6 13,1 

IC95% ( ) = [0,0015 ; 0,0048].


2
D’où :
D- Cas où la moyenne et la variance sont inconnues et qu’on
cherche à estimer la variance de la population :

Exercice :

La consommation d’essence d’un certain modèle de voiture est


distribuée selon une loi normale N(  ,  ) , où  et  2 inconnues.
On donne n = 25 , X = 8,72L/100km et sn= 0,09 L/100km.

Donner une estimation par IC (90%) de  2 de X.


Réponse :

Soit X la consommation d’essence des auto, X suit une loi


(n  1) sn2
N(  ,  ) avec  et  inconnues. 
2
2
  2
n 1

 24(0,09) 2 24(0,09) 2 
 p  
2
  90%
 36, 42 13,85 

IC90% ( 2 ) = [0,0053 ; 0,0140 ].

Donc il y a 90% de chances pour que la variance de la


population ait une valeur comprise entre 0,0053 et 0,0140.
E- Estimation de p :

Exercice :

Une enquête faite sur un échantillon de 1000 adultes révèle


que 110 d’entre eux effectuent du travail au noir.

A l’aide de ce résultat, estimer la proportion de la population


adulte qui travaille au noir avec 95% de certitude.
Réponse :

p  0,11 est la proportion de l’échantillon. p et q sont des


estimateurs efficaces de p et q. On calculera n p et n q .

np  110  5 p p
 donc  N (0,1)
nq  890  5 pq / n

 pq pq 
 p  p - 1,96  p  p  1,96   0,95
 n n 

Donc : IC95% (p) = ]0,09 ; 0,13[.

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy