Cours Statistique Et Probabilité Complet PDF

Université Hassan Premier
École Nationale des Sciences Appliquées de

Khouribga
Probabilité & Statistique
Mohammed BADAOUI
Table des matières
1 Analyse combinatoire 5
1.1 Notions fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Produit cartésien . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Cardinal d’un ensemble . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Factoriel d’un nombre . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Arrangements sans répétition . . . . . . . . . . . . . . . . . . 7
1.2.2 Arrangements avec répétition . . . . . . . . . . . . . . . . . . 7
1.3 Permutations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Permutations sans répétition . . . . . . . . . . . . . . . . . . . 8
1.3.2 Permutations avec répétition . . . . . . . . . . . . . . . . . . . 8
1.4 Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Combinaison sans répétition . . . . . . . . . . . . . . . . . . . 8
1.4.2 Combinaison avec répétition . . . . . . . . . . . . . . . . . . . 9
2 Calcul de probabilité 10
2.1 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Algèbre des événements . . . . . . . . . . . . . . . . . . . . . 10
2.2 Probabilité dans le cas général . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Probabilité uniforme sur Ω . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . 12
2.2.2.1 Formules des probabilités composées . . . . . . . . . 13
2.2.2.2 Indépendances d’événements . . . . . . . . . . . . . 14
3 Variables aléatoires discrètes 15

3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.2 Loi de probabilité associée à une v.a.d . . . . . . . . . . . . . 16
1
2 TABLE DES MATIÈRES
3.1.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . 18

3.2 Lois de probabilités usuelles . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.2 Loi Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3 Loi Binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.5 Loi Géométrique . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.6 Loi Hypergéométrique . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Intégration des variables aléatoires discrètes . . . . . . . . . . . . . . 24
3.3.1 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . 24
3.3.2 Application : Moments d’ordre p, p ≥ 1 . . . . . . . . . . . . 27
3.3.3 Variance d’une variable aléatoire discrète . . . . . . . . . . . . 28
3.4 Variables aléatoires discrètes indépendantes . . . . . . . . . . . . . . 29
4 Variables aléatoires réelles 32

4.1 Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.1.1 Loi d’une v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Lois de probabilités usuelles . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.1 Loi Uniforme sur [a,b], −∞ < a < b < +∞ . . . . . . . . . . 34
4.2.2 Loi Normale de paramètres, m ∈ R, σ 2 ≥ 0 . . . . . . . . . . 34
4.2.3 Loi Exponentielle de paramètre λ, λ > 0 . . . . . . . . . . . . 34
4.2.4 Loi de Cauchy de paramètres a, b ∈ R, a 6= 0 . . . . . . . . . . 35
4.2.5 Loi de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.6 Loi Gamma de paramètres p > 0 et θ > 0 . . . . . . . . . . . . 35
4.2.7 Loi du Khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.8 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.9 Loi de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Intégration des v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3.1 Espérance Mathématique . . . . . . . . . . . . . . . . . . . . . 37
4.3.2 Variance d’une v.a.r, Moments d’une v.a.r . . . . . . . . . . . 38
4.3.3 Médiane, Quantiles, modes d’une v.a.r . . . . . . . . . . . . . 39
4.3.3.1 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.3.2 Mode d’une v.a.r . . . . . . . . . . . . . . . . . . . . 40
4.3.3.3 Quantiles d’ordre α, α ∈]0, 1[ . . . . . . . . . . . . . 40
4.3.4 Inégalités de Markov et de Bienaymé-Tchebychef . . . . . . . 40
4.4 Types de convergences . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . 41
4.4.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.3 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . 42
4.4.4 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . 43
M.Badaoui UH1-ENSAK
3 TABLE DES MATIÈRES
4.4.5 Théorème central-imite . . . . . . . . . . . . . . . . . . . . . . 43

4.4.6 Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5 Estimation 46
5.1 Échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1.1 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1.2 Méthodes de sondage . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.2.1 Méthodes probabilistes . . . . . . . . . . . . . . . . . 47
5.1.2.2 Méthodes non probabilistes . . . . . . . . . . . . . . 49
5.1.2.3 Sources d’erreurs dans une enquête . . . . . . . . . . 49
5.1.3 Échantillon aléatoire . . . . . . . . . . . . . . . . . . . . . . . 50
5.1.4 Statistique de l’échantillon . . . . . . . . . . . . . . . . . . . . 50
5.1.5 Distributions échantillonnales . . . . . . . . . . . . . . . . . . 50
5.1.5.1 Moyenne empirique . . . . . . . . . . . . . . . . . . . 50
5.1.5.2 Variance empirique . . . . . . . . . . . . . . . . . . . 51
5.1.5.3 Fonction de répartition empirique . . . . . . . . . . . 51
5.2 Estimateur et propriétés d’un estimateur . . . . . . . . . . . . . . . . 52
5.2.1 Estimateur et estimation . . . . . . . . . . . . . . . . . . . . . 52
5.2.2 Propriétés d’un estimateur . . . . . . . . . . . . . . . . . . . . 53
5.2.3 Trois exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.4 Vraisemblance d’un échantillon . . . . . . . . . . . . . . . . . 56
5.2.4.1 Information de Fisher . . . . . . . . . . . . . . . . . 57
5.3 Estimateurs ponctuelles . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3.1 Méthode du maximum de vraisemblance . . . . . . . . . . . . 59
5.3.1.1 Estimateur du maximum de vraisemblance . . . . . . 59
5.3.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . 61
5.4 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . 63
5.4.0.1 Exemple introductif . . . . . . . . . . . . . . . . . . 63
5.4.0.2 Principe de construcion . . . . . . . . . . . . . . . . 64
5.4.1 Estimation usuels . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.4.1.1 Estimation de la moyenne : cas de la loi normale . . 65
5.4.1.2 Estimation de la variance : cas de la loi normale . . . 67
5.5 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . 68
6 Les Tests 71
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.2 Hypothèses nulle et alternative . . . . . . . . . . . . . . . . . . . . . 71
6.3 Risque de 1er et 2eme espèce . . . . . . . . . . . . . . . . . . . . . . . 72
6.4 Exemples d’utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.4.0.3 Comparer un échantillon à une référence théorique . 74
6.4.0.4 Comparer plusieurs échantillons . . . . . . . . . . . . 74
M.Badaoui UH1-ENSAK
6.5 Choix d’un test suivant le procédure de Neyman . . . . . . . . . . . . 74
6.6 La classification des tests . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.7 Quelques tests paramétriques usuels : cas d’un échantillion . . . . . . 76
6.7.1 Test d’une espérence . . . . . . . . . . . . . . . . . . . . . . . 76
6.7.2 Test d’un écart-type . . . . . . . . . . . . . . . . . . . . . . . 78
6.7.3 Test d’un pourcentage . . . . . . . . . . . . . . . . . . . . . . 79
6.8 Tests d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.8.1 Test de comparaison de deux variances ou test de Fisher-
Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.8.2 Test de comparaison de deux moyennes . . . . . . . . . . . . . 82
6.8.3 Test de comparaison de deux proportions . . . . . . . . . . . . 84
6.9 Tests de comparaison d’échantillon appariés . . . . . . . . . . . . . . 85
6.10 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.10.1 Analyse de la variance à un facteur. Comparaison de plusieurs
moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.10.1.1 Variance résiduelle et Variance factorielle . . . . . . . 87
6.11 Test de Khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.11.1 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . 90
6.11.2 Test d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.12 Le test de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Chapitre 1
Analyse combinatoire
1.1 Notions fondamentales

1.1.1 Produit cartésien
Définition 1.1 Soient E et F deux ensembles. On note E × F (on lit E croit F )
ou produit cartésien, l’ensemble des couples (x; y) où x ∈ E et y ∈ F .
E × F = {(x; y)/x ∈ E et y ∈ F }
Exemple 1.1 Soient E et F telque E = {1, 2, 3} et F = {5, 6, 7} alors on a le

produit cartésien
E × F = {(1; 5), (1; 6), (1; 7), . . . , (3; 7)}
Plus généralement si E1 , . . . , En désigne n ensembles. On note E1 × E2 × · · · × En ,

l’ensemble formé des n-uplets de la forme (x1 ; . . . ; xn ) avec xi ∈ Ei pour tout i ∈
{1, 2, . . . , n}.
Si E1 = E2 = · · · = En alors
E1 × E2 × · · · × En = E n .
1.1.2 Cardinal d’un ensemble

Définition 1.2 Soit A un ensemble fini, on dit que A est dénombrable si on arrive
à compter ses éléments. Le nombre d’éléments de A est noté Card(A) ou |A| ou
encore ]A.
Proposition 1.1 Soit E un ensemble fini et A et B deux sous ensemble de E alors

on a :
– Card(A) ≤ Card(E)
5
6 Statistique et Probabilité
– Card(A) = Card(E) si A = E
– Card(A ∪ B) = Card(A) + Card(B) − Card(A ∩ B)
– Card(A × B) = Card(A) × Card(B)
1.1.3 Factoriel d’un nombre

Définition 1.3 Si une action peut être obtenue par de n1 façon différentes, puis sui-
vant cette action, de n2 façon différentes indépendantes des précédentes puis ... alors
Yn
le nombre de possibilités correspondant à l’ensemble de ces actions est N = ni .
i=1
n
Y
On appelle factorielle et on le note n! = i par convention on a 0! = 1.
i=1
Exemple 1.2 5! = 5 × 4 × 3 × 2 × 1 = 120, le nombre de façon de placer 5 étudiants

dans 5 places différentes est 120.
Propriété 1.1
n! = n × (n − 1)!
= n × (n − 1) × (n − 2)!
= n × (n − 1) × (n − 2) × . . . × 1
Cette propriété permet de couper la factorielle en n’importe quelle partie de son

développement.
Remarque 1.1 Dès que n dépasse la dizaine n! se compte en millier ? Il est bon
des fois d’utiliser la formule d’approximation dites de Sterling :
n n √
n! = 2πn
e
avec π ' 3.14 et e ' 2.71.
1.2 Arrangements
Définition 1.4 Etant donné un ensemble E de n éléménts, on appelle arrangement
de p éléments toute suite ordonnée pris parmi les n éléments.
Le nombre d’arrangements de p éléments pris parmi n éléments est noté Apn .
Remarque 1.2 On a nécessairement 1 ≤ p ≤ n, p ∈ N∗ . Si n < p alors Apn = 0.
M.Badaoui UH1-ENSAK
1.2.1 Arrangements sans répétition

Définition 1.5 Lorsque chaque objet ne peut être observé qu’une seule fois dans un
arrangements sans répétition (sans remise) de p éléments parmi n est alors
n!
Apn = avec 1 ≤ p ≤ n.
(n − p)!
Dénombrement de Apn
Pour le premier élément tiré, il y a n manières de ranger l’élément parmi n. Pour
le second élément tiré, il n’existe que n − 1 manières de ranger l’élément, car le
premier élément ne plus être pris en compte ( on parle aussi de tirage sans remise).
Ainsi pour les éléments tirés parmi n.
Si 1 ≤ p ≤ n il aura :
Apn = n(n − 1)(n − 2) . . . (n − p + 1)

(n − p)(n − p − 1) · · · 1
= n(n − 1)(n − 2) . . . (n − p + 1)
(n − p)(n − p − 1) · · · 1
n!
=
(n − p)!
Exemple 1.3 Dans un course de 10 chevaux, il y a A310 = 10×9×8 = 720 manières

d’avoir un tiersé dans l’ordre.
Propriété 1.2
Apn = Apn−1 + pAn−1
p−1
1.2.2 Arrangements avec répétition

Définition 1.6 Lorsqu’un élément peut être observé plusieurs fois dans un arran-
gement, le nombre d’arrangements avec répétition (ou avec remise) de p éléments
pris parmi n est alors
Apn = np .
Dénombrement de Apn
Pour le premier élément tiré, il y a n manières de le faire, si on le remait il va y
avoir encore n manières de le faire comme il y’en a p, il va y avoir n | ×n× {z· · · × n}
p f ois
p fois arrangements possible soit np . En effet on a n possibilités pour chaque place.
Exemple 1.4 Si on considère une urne qui contient 9 boules (3 rouges, 3 noires et
3 blanches). On tire 4 boules avec remise de cette urne. Il s’agit d’un arrangement
avec répétition, le nombre de tirage possible est de 94
M.Badaoui UH1-ENSAK
1.3 Permutations
1.3.1 Permutations sans répétition
Définition 1.7 Etant donné un ensemble E de n éléments ; on appelle permutation
de n éléments distincts, toute suite ordonnée de n éléments ou tout arrangement n
à n de ces éléments. Le nombre de permutation de n éléments est noté Pn = n!.
Remarque 1.3 La permutation sans répétition constitue un cas particulier d’ar-
rangement lorsque n = p.
Exemple 1.5 Le nombre de façons de placer 3 étudiants dans 3 places différentes
est de 3! = 3 × 2 × 1.
1.3.2 Permutations avec répétition

Soit EPun ensemble tel que Card(E) = n et soit n1 , n2 , . . . , nr des entiers naturels
tels que ri=1 ni = n. On appelle (n1 , n2 , . . . , nr )-permutations avec répétition de E
une disposition ordonnée de n éléments. Parmi les n éléments on trouve n1 éléments
a1 , n2 éléments a2 ,. . ., nr éléments ar .
 
 
(a1 , . . . , a1 ); (a2 , . . . , a2 ); . . . ; (ar , . . . , ar )
| {z } | {z } | {z }
n1 n2 nr
Le nombre de permutations est

n!
Pn1 ,n2 ,...,nr = .
n1 !n2 ! . . . nr !
Exemple 1.6 Combient de mots différents peut on écrire en permutant les lettres
du mot ”Yassine”.
Le nombre de mots que l’on peut former est le nombre des {1, 1, 2, 1, 1, 1}-permutations
(avec répétition) de l’ensemble des lettres ”Yassine”, soit
7! 7!
P1,1,2,1,1,1 = = = 2520.
1!1!2!1!1!1! 2!
1.4 Combinaison
1.4.1 Combinaison sans répétition
Définition 1.8 Etant donné un ensemble de n éléments ; on appelle combinaison
de p éléments, tout ensemble de p éléments pris parmis les n éléments sans remise.
Le nombre de combinaison de p éléments pris parmi n est noté Cnp .
M.Badaoui UH1-ENSAK
Dénombrement de Cnp
Pour une disposition ordonnée de p éléments parmis n sans répétition, il y a Apn
possibilités. Parmi celle ci p! permutations correspondant à la même disposition non
ordonnée. On en déduit que ∀(n; p) ∈ N2 avec p ≤ n
Apn n!
Cnp = = .
p! p!(n − p)!
4
Exemple 1.7 Dans un jeu de 32 cartes, on tire 4 cartes au hazard, on a donc C32
tirages possibles.
4 32 × 31 × 30 × 29
C32 = = 35960.
4×3×2×1
Propriété 1.3
– C01 = Cnn = 1
– Si n ≥ 1, Cn1 = Cnn−1 = n
– Si n ≥ 2, Cn2 = Cnn−2 = n(n−1)
2
– Si n ≤ p, Cnp = Cnn−p
p p−1
– Si 0 ≤ n ≤ p − 1, Cnp = Cn−1 + Cn−1
1.4.2 Combinaison avec répétition

Définition 1.9 Le nombre de combinaison de p éléments parmis n éléments avec
répétition (remise) est
p (n + p − 1)!
Cn+p−1 = .
p!(n − 1)!
Exemple 1.8 Soit la constitution de mots de 3 lettres à partir d’un alphabet à 5

lettres avec remise, on distingue 3 cas possibles.
C53 : nombre de mots de 3 lettres différents.
2.C52 : nombre de mots de 2 lettres différents et 1 lettre redondante.
C51 : nombre de mots de 3 lettres identiques.
D’àù au total C53 + 2.C52 + C51 = C73 soit 35 mots.
C73 = C5+3−1
3 n
= Cn+p−1 n = 5, p = 3
M.Badaoui UH1-ENSAK
Chapitre 2
Calcul de probabilité
2.1 Terminologie
Définition 2.1 Une expérience aléatoire ξ est une expérience qui est répétée dans
des conditions apparement identiques, peut produire des résultats différents.
L’ensemble des résultats possibles d’une expérience aléatoire ξ s’appelle ensemble
fondamental (ou univers ou espace des résultats) et on le note Ω. Ses éléments sont
appelés résultats ou événements élémentaires.
Exemple 2.1 On lance une pièce de monnaie Ω={P ; F}, lancer la pièce est une
expérience aléatoire.
Définition 2.2 Un événement aléatoire, un événement qui peut ou non se réaliser

au cours d’une expérience aléatoire ; c’est un ensemble d’éventualités qu’on note
souvent par A ; c’est donc aussi une partie de Ω ; A ∈ P(Ω).
Exemple 2.2
Jet de dé : expérience aléatoire.
Univers Ω = {1, 2, 3, 4, 5, 6}.
Eventualités : {1}, {2}, {3}, {4}, {5}, {6}.
Evénement A : tomber sur un pair {2, 4, 6}.
2.1.1 Algèbre des événements

– Événement contraire A : A se réalise si et seulement si A n’est pas réalisable.
– Événement A ∩ B : A ∩ B est réalisé si et seulement si A et B sont simul-
tanément réalisés.
Si A ∩ B = ∅ c-à-d la réalisation simultanée des événements A et B est im-
possible ; les événements A et B sont dits incompatibles.
10
– Événement A ∪ B : A ∪ B est réalisé si et seulement si l’un au moins des

événements A ou B est réalisé.
– Événement A ⊂ B signifie dans tout les cas où B est réalisé A est aussi réalisé.
On arrive au point éssentiel de définir la probabilité d’un événement A (A ⊂ Ω),

qui doit mésurer la chance que l’événement A à de se réaliser lors qu’on effectue une
experience.
La complixité de la définition dépend de celle de Ω : Ω fini ; Ω infini dénombrable
où Ω infini non dénombrable.
2.2 Probabilité dans le cas général

Définition 2.3 Soit Ω un univers, P(Ω) (l’ensemble des parties de Ω) et A ⊂ P(Ω).
On appelle probabilité P sur (Ω, A) une application :
P : A → [0, 1]
ω 7−→ P(ω)
telle que,
– P(Ω) = 1
– Si A et B deux événements incompatibles (A ∩ B = ∅) alors P(A ∪ B) =
P(A) + P(B).
(Ω, P(Ω), P) est appelé espace probabilisé.
Propriété 2.1
1. P(Ā) = 1 − P(A)
2. ∀A ∈ P(Ω); 0 ≤ P(A) ≤ 1
3. P(∅) = 0
4. A ⊂ B ⇒ P(A) ≤ P(B)
5. P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
2.2.1 Probabilité uniforme sur Ω

Définition 2.4 Lorsque Ω est de cardinal fini et que l’on affecte la même probabilité
à chaque événement élémentaire, on dit qu’on choisit une probabilité P uniforme,
on dit aussi qu’on a une équiprobabilité. On a alors :
1
1. ∀ω ∈ Ω, P(ω) = Card(Ω)
.
Card(E) nombre de cas favorables
2. Pour tout événement E : P(E) = = .
Card(Ω) nombre de cas possibles
M.Badaoui UH1-ENSAK
Principe à suivre pour résoudre un exercice en probabilité :

1. Définir l’éxpérience aléatoire E et trouver l’univers Ω. C’est la phase la plus
importante.
2. Chercher le Cardinal de Ω : Card(Ω).
3. Définir l’événement dont on veut lui calculer la probabilité en lui attribuant
un nom ”A” par exemple.
4. Chercher le Cardinal de A en s’appuyant sur le dénombrement (chapitre précédent).
5. Appliquer la formule de probabilités pour répondre aux questions.
Exemple 2.3 Une urne contient 7 boules blanches et 5 boules noires, on tire 3
boules de l’urne simultanément et sans remise. Quelle est la probabilité d’avoir 3
boules blanches.
L’expérience aléatoire ξ est de tirer 3 boules de l’urne contenant au total 12 boules

sans remise et sans ordre.
Ω= Ensemble de toutes les événentualités possibles, c-à-d tirer 3 boules parmi 12,
comme le tirage se fait sans remise et l’ordre n’a pas d’importance, il s’agit bien du
3
nombre de combinaison de 3 parmi 12, le cardinal de Ω est C12 .
Soit E l’événement ”avoir 3 boules blanches”.
On a, Card(E)= le choix de 3 boules blanches parmi 7 c’est C73 .
C73
Finalment P(E) = Card(E)
Card(Ω)
= C3
.
12
2.2.2 Probabilité conditionnelle

Définition 2.5 Soit (Ω, P(Ω), P) un espace probabilisé fini et A un événement donné
tel que P(A) 6= 0, B un événement quelconque. On appelle probabilité conditionnelle
de B sachant que A est réalisé le nombre :
P(A ∩ B)
P(B | A) =
P(A)
Exemple 2.4 On tire au hasard une carte parmi 10 (numérotées de 1 à 10).
soit S l’événement ”le numéro tiré est multiple de 3 à condition qu’il soit supérieur
ou égal à 7”
Soient E l’événement ”le numéro tiré est multiple de 3” et F l’événement ”le numéro
tiré est supérieur ou égal à 7”.
On a Ω l’esemble de toute les ventualités possibles, c’est l’ensemble {1, 2, . . . , 10},
3
son cardinal est 10. On a E = {3, 6, 9} donc Card(E) = 3 et P(E) = 10 .
4 1
On a F = {7, 8, 9, 10} donc P(F ) = 10 , comme E ∩ F = {9}, donc P(E ∩ F ) = 10 .
1
P(E∩F ) 1
Si on cherche la probabilité conditionnelle P(E | F ) = P(F )
= 10
4 = 4
10
M.Badaoui UH1-ENSAK
Remarque 2.1
1. L’événement contraire de A | B est Ā | B.
2. Cas particulier si A ⊂ B alors P(A) ≤ P(B) et P(A ∩ B) = P(A) d’où
P(A ∩ B) P(A)
P(A | B) = = .
P(B) P(B)
2.2.2.1 Formules des probabilités composées

Si A et B sont tels que P(A) > 0, P(B) > 0 on peut écrire :
P(A ∩ B)
P(A | B) = =⇒ P(A ∩ B) = P(A | B).P(B).
P(B)
De même :
P(A ∩ B)
P(B | A) = =⇒ P(A ∩ B) = P(B | A).P(A).
P(A)
– A : l’événement dont on cherche à prévoir la probabilité.

– B : l’élément additionnel qui aide à prévoir la probabilité de A.
– P(A) : c’est la probabilité à priori.
– P(A | B) : probabilité à posteriori de A contenu de B.
– P(B) : à calculer par la formule des probabilités totale.
– P(B | A) : fiabilité informationnelle de B par rapport à A.
Propriété 2.2 (Formules des probabilités totale)

Soit Ω un univers muni d’une probabilité P. Si des parties B1 , B2 . . . Bn constituent
une partition de Ω (i.e Bi ∩ Bj = ∅ pour i 6= j et B1 ∪ B2 ∪ . . . ∪ Bn = Ω) alors pour
tout élément A on a :
n
X n
X
P(A) = P(A ∩ Bk ) = P(A | Bk )P(Bk ).
k=1 k=1
Théorème 2.1 (de Bayes)

n
[
Soit {Bi , i = 1 . . . n} tel que Bi = Ω et Bi ∩ Bj = ∅ pour tout i 6= j avec
k=1
P(Bi ) > 0. Soit A ∈ P(Ω) on a :
P(A | Bk ) P(Bk )
P(Bk | A) = Pn .
i=1 P(A | Bi ) P(Bi )
M.Badaoui UH1-ENSAK
Exemple 2.5 Chez une banque 20% des employés ont un diplôme en Finance ;
parmi ceux-si ; 70% ont des postes de cadre. Toute fois, parmi ceux qui n’ont pas
de diplôme en finance ; 15% occupent un poste de cadre. Si un cadre de cette banque
est séléctionné au hazard ; quelle est la probabilité qu’il soit un diplômé de finance ?
Les employés sont divisés en deux catégories disjointes :

B1 : employé ayant un diplôme en finance.
B2 : employé n’ayant pas de diplôme en finance.
D’aprés l’information initiale : P(B1 ) = 0.2 et P(B2 ) = 0.8 (1 − P(B1 )).
Notons par A l’événement l’employé choisi est un cadre. On sait que : P(A | B1 ) =
0.7 et P(A | B2 ) = 0.15.
On cherche à déterminer, pour un événement observé ”l’employé choisi est un cadre”,
la probabilité qu’une cause donné ”l’employé diplômé en finance” en soit l’origine :
P(B1 | A) = P(l’employé soit diplômé en finance sachant qu’il est cadre). Par la
formule de Bayes pour le cas n = 2, on a
P(A | B1 )P(B1 )
P(B1 | A) =
P(A | B1 )P(B1 ) + P(A | B2 )P(B2 )
0.2 × 0.7
=
0.2 × 0.7 + 0.8 × 0.15
= 0.5384
2.2.2.2 Indépendances d’événements

Définition 2.6 On dit que 2 événements A et B (de probabilité non nulles) sont
indépendants, lorsque la réalisation de l’un n’a pas d’influence sur la probabilité de
la réalisation de l’autre, c-à-d P(B | A) = P(B) et P(A | B) = P(A).
Théorème 2.2 (Critère d’indépendance)

Deux événements A et B sont indépendants si et seulement si P(A∩B) = P(A)P(B)
M.Badaoui UH1-ENSAK
Chapitre 3
Variables aléatoires discrètes
3.1 Généralités
3.1.1 Définition
Définition 3.1 Soit (Ω, P(Ω), P) un espace probabilisé fini.
On appelle variable aléatoire discrète (v.a.d) toute application
X : Ω → R ou C
ω → X(ω) = a
telle que :
1. Elle prend un nembre fini ou infini dénombrable de valeurs, c-à-d si l’image
X(Ω) de Ω est fini ou infini dénombrable. Autrement dit il existe une suite de
réelles (xi )i∈N distinctes telque X(Ω) = {xi , i ∈ N}
2. Pour tout xk ∈ S : X −1 ({xk }) ∈ P(Ω)
Notation : l’événement X −1 {xk } = {ω ∈ Ω/X(ω) = xk } sera

noté (X = xk ).
Remarque 3.1
1. Le plus souvent, on aura X : Ω → N ou X : Ω → Z.
X
2. Si on note, pour k ∈ N, pk = P(X = xk ) on doit avoir pk = 1.
k∈N
En effet :
[ [ [
S= {xk } ⇒ X −1 (S) = X −1 ({xk }) = (X = xk ) = Ω
k≥1 k≥1 k≥1
15
or P(Ω) = 1 donc P(X −1 (S)) = 1, mais

X X
P(X −1 (S)) = P(X −1 ({xk })) = P(X = xk ) = 1
k≥1 k≥1
3. On note S = X(Ω) = {x1 , . . . , xk , . . .}, alors ∀xk ∈ S : X −1 ({xk }) ∈ P(Ω).

4. Si B ∈ P(S) alors [
B= {xk }
k: xk ∈B
donc [
X −1 (B) = X −1 {xk } ∈ P(Ω)
k: xk ∈B
et
!
[
P(X −1 (B)) = P X −1 ({xk })
k: xk ∈B
X
= P(X −1 ({xk }))
k: xk ∈B
X
= P(X = xk ).
k: xk ∈B
5. X : Ω −→ R ou C et Y : Ω −→ R ou C deux v.a.d avec X(Ω) = S et

Y (Ω) = S 0 .
Alors αX + βY (α, β ∈ R ou C), XY, X ◦ Y sont des v.a.d.
Exemple 3.1 On jet deux dés bien équilibrés simultanément. Soit X la v.a.d qui
vaut la somme des numéros obtenus.
Ω = {1, . . . , 6} × {1, . . . , 6} = {ω = (ω1 , ω2 ), ωi ∈ {1, . . . , 6}, i = 1, 2}.
X(ω) = ω1 + ω2 , ω ∈ Ω.
X(ω) = {2, 3, . . . , 12} = S et X −1 ({x}) ∈ P(Ω) si x ∈ S.
3.1.2 Loi de probabilité associée à une v.a.d

Définition 3.2 Soit P une probabilité sur un univers Ω.
Soit X une v.a.d définie sur Ω telle que X(Ω) soit fini de cardinal n. Lorsque à
chaque valeur xk (1 ≤ k ≤ n) de X on associé les probabilités pk de l’événement
(X = xk ). On dit qu’on définit la loi de probabilité PX de la v.a.d X.
M.Badaoui UH1-ENSAK
Théorème 3.1 {(xk ; pk ); 1 ≤ k ≤ n} est la loi de probabilité d’une v.a.d si et

n
X
seulement si pk sont positives et pk = 1.
i=k
Remarque 3.2 kkk

La loi de probabilité d’une v.a.d X est entièrement déterminée par :
X(Ω) et PX ({xk }), xk ∈ X(Ω)
Exemple 3.2 On lance successivement 2 fois une pièce de monnaie. Soit la v.a.d
X représentant le nombre de faces obtenues après ces 2 lancements
1. Donner les valeurs de X.
2. Définir la loi de probabilité de X.
Solution : Ω = {(P ; P ); (P ; F ); (F ; P ); (F ; F )} événement équiprobable.
X : Ω −→ R et X(Ω) = {0; 1; 2}
Valeur de X 0 1 2
1 1 1
PX 4 2 4
Remarque 3.3 Soit X : Ω −→ R une v.a.d, on peut définir la loi de probabilité

PX de X comme étant une fonction d’ensembles par :
PX : P(S) −→ [0, 1], S = X(Ω).
B ; P(X −1 (B)) = PX (B)
PX est une probabilité sur (S, P(S)), en effet :
1) PX (Ω) = P(X −1 (S)) = P(Ω) = 1.
2) Si (Bn )n≥1 est une suite d’événements deux à deux disjoints alors
! !! !
[ [ [
PX Bn =P X −1 Bn =P X −1 (Bn ) PX kkkkk
n≥1 n≥1 n≥1
X
PX kkkkkkkkkkkkkkkkk = P(X −1 (Bn ))
n≥1
X
PX kkkkkkkkkkkkk = PX (Bn ).
n≥1
Notation : on écrira :
PX (B) = P(X −1 (B)) = P(ω/X(ω) ∈ B) = P(X ∈ B)
M.Badaoui UH1-ENSAK
3.1.3 Fonction de répartition

Définition 3.3 Soit X une v.a.d, on appelle fonction de répartition de X (f.d.r),
la fonction réelle FX définie sur R par :
FX (x) = PX (] − ∞, x]) = P(X ≤ x).
Remarque 3.4 Il est facile de voir que

X
FX (x) = P(X = xk ),
k: xk ∈S
xk ≤x
et si X(Ω) = S = {x1 , . . . , xn } alors :



 0 x < x1

P(X = x1 ) x1 ≤ x < x2





 ..
 .
FX (x) =

 P(X = x1 ) + . . . + P(X = xi−1 ) xi−1 ≤ x < xi
.

 ..





1 x ≥ xn

Proposition 3.1 FX est à valeurs dans [0,1], croissante et continue à droite en

tout point de R.
Exemple 3.3 On lance successivement 2 fois une pièce de monnaie. Soit la v.a.d
X représentant le nombre de faces obtenues après ces 2 lancements.
– Déterminer la fonction de répartition de X.
Solution : d’aprés ce qui précède la loi de probabilité de X est
Valeur de X 0 1 2
1 1 1
PX 4 2 4
la fonction de répartition de X est définit comme suit



 0 x<0
 1

0≤x<1
4
FX (x) = 3
 1≤x<2
 4


1 x≥2
M.Badaoui UH1-ENSAK
3.2 Lois de probabilités usuelles

3.2.1 Loi de Bernoulli
Soit (Ω, P(Ω), P) un espace probabilisé, A ∈ P(Ω) tel que P(A) = p (0 ≤ p ≤ 1)
on note :
1, ω ∈ A;
IA (x) =
0, ω 6∈ A.
IA est une v.a.d telle que X(Ω) = {0, 1}, on l’appellera variable aléatoire indicatrice.
P(IA = 0) = P(ω /ω 6∈ A) = P(Ac ) = 1 − p
P(IA = 1) = P(ω /ω ∈ A) = P(A) = pkkkk
Définition 3.4 X : (Ω, P(Ω), P) −→ R est une v.a.d qui suit une loi de Bernoulli
de paramètre p (0 ≤ p ≤ 1) si :
1) X(Ω) = {0, 1}.
2) PX ({1}) = P(X = 1) = p, PX ({0}) = P(X = 0) = 1 − p.
On écrira : X ∼ B(p).
Exemple 3.4 On jette une fois une pièce de monaie dont la probabilité d’avoir pile
est p (0 ≤ p ≤ 1), on considère la v.a.d X définie par :

1, si la pièce fait pile ;
X(ω) =
0, sinon.
comme Ω = {π, F }, π : pile, F : f ace.
Si ω ∈ {π, F } alors

P(X = 1) = p, si ω = π ;
PX ({ω}) =
P(X = 0) = 1 − p, si ω = F .
3.2.2 Loi Uniforme

Définition 3.5 On dit qu’une v.a.d X suit la loi Uniforme sur S = {x1 , . . . , xn }
si :
1) X(Ω) = S.
1 1
2) P({X = xk }) = n
= Card(S)
, ∀k = 1, . . . , n.
On écrira : X ∼ U{x1 ,...,xn } .
M.Badaoui UH1-ENSAK
Exemple 3.5 On jette un dé bien équilibré, on considère la v.a.d X définie par X
= le point marqué par le dé.
Ω = {1, . . . , 6}, X(Ω) = {1, . . . , 6} = S,

si k ∈ S,
1 1
PX ({k}) = P(X = k) = =
6 Card(S)
3.2.3 Loi Binomiale

Définition 3.6 On dit qu’une v.a.d X définie sur (Ω, P(Ω), P) suit une loi Binomiale
de pramètres n, p (0 ≤ p ≤ 1) si :
1) X(Ω) = S = {0, 1, . . . , n}.
2) ∀k ∈ S PX ({k}) = P(X = k) = Cnk pk (1 − p)n−k .
On note : X ∼ B(n, p).
Remarque 3.5 kkk

On vérifie facilement que P est une probabilité sur ({0, 1, . . . , n}, P({0, 1, . . . , n})).
Exemple 3.6 kkk

On jette une pièce de monnaie n fois dans les mêmes conditions.
La probabilité d’avoir pile est p (0 ≤ p ≤ 1).
On considère la v.a.d X égale au nombre de piles lors des n jets.
Ω = {(ω1 , . . . , ωn )/ωi ∈ {π, F }, i = 1, . . . , n}

p, si ωi = π 5cmi = 1, . . . , n ;
P({ωi }) =
1 − p, si ωi = F .
et P({ω}) = pk (1 − p)n−k où k est le nombre de piles, k = 0, 1, . . . , n.
X(Ω) = S = {0, 1, . . . , n}, B = P(S).

Si k ∈ S,
PX ({k}) = P(X = k).
Considérons l’événement (X = k), s’il est réalisé, on a donc k piles et (n − k)
faces.
Les k piles ont été obtenue lors des jets numéros n1 , . . . , nk .
Soit Bn1 ,...,nk = {les jets de rangs n1 , . . . , nk f ont piles et les autres f ont f aces}.
Or
Bn1 ,...,nk = An1 ∩ . . . ∩ Ank ∩ Acnk+1 ∩ . . . ∩ Acn
M.Badaoui UH1-ENSAK
où Anj = {le j ième jet fait pile}.

Les événements Anj sont indépendants, donc
P(An1 ) . . . P(Ank )P(Acnk+1 ) . . . P(Acn ) = pk (1 − p)n−k .
Or
[
(X = x) = Bn1 ,...,nk ,
n1 ,...,nk ⊂{1,...,n}
réunion disjointe ; donc :

X
P(X = x) = P(Bn1 ,...,nk )
n1 ,...,nk ⊂{1,...,n}
X
P(X = x)k = pk (1 − p)n−k
n1 ,...,nk ⊂{1,...,n}
= Cnk pk (1 − p)n−k .
Remarque 3.6 kkk

Si A1 , . . . , An sont des événements indépendants de même probabilité p, alors la
v.a.d n
X
X= IAk ∼ B(n, p),
k=1
la somme de n Bernoulli B(p) est un Binomiale B(n, p).
3.2.4 Loi de Poisson

Considérons une loi Binomiale B(n, p), 0 < p < 1, telle que np = λ > 0,
quand n −→ +∞, le produit np restant égale à λ, on a
n! p k k k
Cnk pk (1 − p)n−k = (1 − p)n ( ) C p (1 − p)n−k kkkkkkk
(n − k)!k! 1−p n
λ λk n(n − 1) · · · (n − k + 1) λ −k −λ λ
k
kkkkkkkCnk pk (1 − p)n−k = (1− )n . . .(1− ) −→ e , (n → +∞)
n k! λk n k!
k
Donc si X ∼ B(n, p), np = λ ( n est grand et p est petit ), alors P(X = k) ' e−λ λk! ,
on obtient ainsi une nouvelle loi.
Définition 3.7 On dit qu’une v.a.d X définie sur (Ω, P(Ω), P) suit une loi de
Poisson de paramètre λ (λ > 0) si :
M.Badaoui UH1-ENSAK
1) X(Ω) = N.
k
2) ∀k ∈ N, PX ({k}) = P(X = k) = e−λ λk! .
On note X ∼ P(λ).
On vérifie facilement que PX est une loi de probabilité.
3.2.5 Loi Géométrique

Définition 3.8 On dit qu’une v.a.d X définie sur (Ω, P(Ω), P) suit une loi Géométrique
de paramètres p (0 < p < 1) si :
1) X(Ω) = N∗ .
2) ∀l ∈ N∗ , PX ({l}) = P(X = l) = p(1 − p)l−1 .
On note X ∼ G(p).
On vérifie que PX est une probabilité sur (N∗ , P(N∗ )).
Exemple 3.7 kkk

On jette une pièce de monnaie une infinité de fois dans les même conditions telle
que la probabilité de faire pile vaut p (0 < p < 1).
On considère la v.a.d X définie par :
X : le premier indice i tel que pile apparaı̂t.
Ω = {(ω1 , . . . , ωn , . . .)/ωi ∈ {π, F }, i ≥ 1},
X(Ω) = N∗ .
Si l ∈ N∗ , (X = l) = Ac1 ∩ . . . ∩ Acl−1 ∩ Al
où Aj = {pile apparaı̂t au jème jet} avec P(Aj ) = p.
(Aj )j≥1 sont indépendants.
Donc
P(X = l) = PX ({l})P(X = l)
P(X = l)kkkk = P(Ac1 ∩ . . . ∩ Acl−1 ∩ Al )
P(X = l)kkkk = P(Ac1 ) . . . P(Acl−1 )P(Al )
k = p(1 − p)l−1
Proposition 3.2 Si X ∼ G(p) (0 < p < 1) alors ∀k ≥ 1,
P(X = n + k | X > n) = P(X = k), ∀n.
M.Badaoui UH1-ENSAK
Démonstration
P(X = n + k, X > n) P(X = n + k)

P(X = n + k | X > n) = =
P(X > n) P(X > n)
car (X = n + k, X > n) = (X = n + k).
mais
P(X > n) = 1 − P(X ≤ n)

n
X
P(X > n)kk = 1 − P(X = j)
j=1
n
X
P(X > n)kkkk = 1 − p(1 − p)j−1
j=1
p
P(X > n)kkkk = 1 − (1 − (1 − p)n )
p
M = (1 − p)n
donc
p(1 − p)n+k−1
P(X = n + k | X > n) = = p(1 − p)k−1 .
(1 − p)n
3.2.6 Loi Hypergéométrique

Définition 3.9 On dit qu’une v.a.d X définie sur (Ω, P(Ω), P) suit une loi Hypergéométrique
de paramètres N, n, k si :
1) X(Ω) = {l ∈ N/l ≤ k, l ≤ k, k − l ≤ N − n} = S.
l C k−l
Cn N −n
2) ∀l ∈ S, PX ({l}) = P(X = l) = CNk .
On note X ∼ H(N, n, k).
Exemple 3.8 kkk

Dans un lot de N objets, dont n sont déféctueux, on tire au hasard et sans remise
k objets parmi N . On considère la v.a.d X égale au nombre d’objets défectueux dans
l’échantillon tiré.
Ω = {les sous ensembles de k objets parmi N}, P : probabilité Uniforme.
Si l ∈ S, (X=l)=(l objets déféctueux parmi n et (k-l) objets non déféctueux
parmi N-n)=A.
cardA C l C k−l
−n
P(X = l) = = n N k
cardΩ CN
M.Badaoui UH1-ENSAK
Remarque 3.7 kkk

n
Lorsque N −→ +∞ et N
−→ p on a :
P(X = l) −→ Clk pl (1 − p)k−l
3.3 Intégration des variables aléatoires discrètes

3.3.1 Espérance mathématique
Définition 3.10 Soit X une v.a.d définie sur (Ω, P(Ω), P), X(Ω) = S au plus
dénombrable, si X
|x|P(X = x) < +∞,
x∈S
on appelle espérance mathématique de X (e.m) et on note E(X) la quantité

X
x P(X = x).
x∈S
Remarque 3.8 kkk

1) Si on suppose que S = {x1 , . . . , xn , . . .}, alors la condition
X
|x|P(X = x) < +∞,
x∈S
revient à affirmer que la série

X
xn P(X = xn ),
n≥1
est absolument convergente.

2) Si S = {un nombre fini d’éléments}, alors E(X) existe toujours.
3) Si X = c (c constante) alors E(X) = c, car S = {c} et
X
E(X) = x P(X = x) = c P(X = c) = c, car P(X = c) = 1 .
x∈S
4) Si X = IA , A ∈ P(Ω), alors E(X) = P(A), car S = {0, 1} et

X
E(X) = x P(X = x) = 0×P(X = 0)+1×P(X = 1) = P(X = 1) = P(A).
x∈S
Exemple 3.9 kkk
M.Badaoui UH1-ENSAK
1) X ∼ U{x1 ,...,xn } alors

n
1X
E(X) = xi ,
n i=1
car S = {x1 , . . . , xn } et P(X = xi ) = n1 , ∀i = 1, . . . , n.

En particulier si X ∼ U{1,...,n} alors E(X) = n1 ni=1 i = n+1
P
2
.
2) X ∼ B(p), 0 ≤ p ≤ 1 alors E(X) = p, car S = {0, 1} et
E(X) = 0 × P(X = 0) + 1 × P(X = 1) = P(X = 1) = p.
3) X ∼ B(n, p), 0 ≤ p ≤ 1 alors E(X) = np, car
n
X
S = {1, . . . , n}, E(X) = k Cnk pk (1 − p)n−k
k=0
n
X (n − 1)!
E(X) = np pk−1 (1 − p)n−k
k=1
(k − 1)!(n − k)!
n
X (n − 1)!
E(X)llllllllllllllll = np pk−1 (1 − p)n−1−(k−1)
k=1
(k − 1)!(n − 1 − (k − 1))!
on a écrit n − k = n − 1 − (k − 1) donc,
n−1
X (n − 1)!
kkkkkkkE(X) = np p` (1 − p)n−1−`
`=0
`!(n − 1 − `)!
= np(p + (1 − p))n−1
= npkkkkkkkkkkkkkk
4) X ∼ P(λ), λ > 0 alors E(X) = λ, car S = N et
∞ ∞ k ∞
X X
−λ λ −λ
X λk−1
k P(X = k) = ke =e λ < +∞.
k=0 k=0
k! k=1
(k − 1)!
En plus
∞ ∞
X λk−1 X λ`
= = eλ ,
k=1
(k − 1)! `=0
`!
donc E(X) = λe−λ eλ = λ.
Propriété 3.1
M.Badaoui UH1-ENSAK
1) ∀a, b ∈ R ou C et si X, Y sont deux v.a.d possédant chacune une e.m alors la

v.a.d Z = aX + bY possède une e.m et on a,
E(aX + bY ) = aE(X) + bE(Y ).
2) Si X, Y sont deux v.a.d possédant chacune une e.m et vérifient X ≤ Y alors,
E(X) ≤ E(Y ).
3) S’il existe M > 0 tel que |X| ≤ M alors X possède une e.m et on a,
E(|X|) ≤ M.
La démonstration est laissé au lecteur à titre d’exercice.
Si X est une v.a.d et Y = φ(X) est une v.a.d fonction de X, alors nous allons
donner une proposition qui ramène le calcul de E(Y) en fonction de celui de E(X),
plus précisément :
Proposition 3.3 kkk

Soit X une v.a.d définie sur (Ω, P(Ω), P), X(Ω) = S, φ : S = X(Ω) −→ R
telle que φ(X) = Y est une v.a.d. On suppose que
X
|φ(x)|P(X = x) < +∞,
x∈S
alors, X
E(Y ) = E(φ(X)) = φ(x)P(X = x).
x∈S
Démonstration : On pose Y (Ω) = S 0 , on a,

[
∀y ∈ S 0 , (Y = y) = (X = x) (∗)
x∈S
φ(x)=y
en effet,
ω ∈ (Y = y) ⇔ Y (ω) ∈ {y} ⇔ X(ω) ∈ φ({y})
ω ∈ (Y = y) ⇔ X(ω) ∈ S et X(ω) ∈ φ−1 ({y})
ω ∈ (Y = y)llllllllll ⇔ ∃ x ∈ S/X(ω) = x et X(ω) ∈ φ−1 ({y})
ω ∈ (Y = y) ⇔ ∃ x ∈ S/X(ω) = x et φ(x) = y
M.Badaoui UH1-ENSAK
[
ω⇔ω∈ (X = x),
x∈S
φ(x)=y
la dérnière réunion est dénombrable.

Supposons que X
|φ(x)|P(X = x) < +∞,
x∈S
et montrons que X
|y|P(Y = y) < +∞,
y∈S 0
pour cela, d’après (*)

X X X
|y|P(Y = y) = |y| P(X = x)
y∈S 0 y∈S 0 x∈S
φ(x)=y
X X X
|y|P(Y = y) = |y|P(X = x)
φ(x)=y
X XX
|y|P(Y = y)llllllll = |y|I{φ(x)} (y)P(X = x)
|y|I{φ(x)} (y)}P(X = x), (d0 après F ubini)

P P P
y∈S 0 |y|P(Y = y)llllllllllllllllllllllllll = x∈S { y∈S 0
or X
|y|I{φ(x)} (y) = |φ(x)|
y∈S 0
donc X X
|y|P(Y = y) = |φ(x)|P(X = x) < +∞.
y∈S 0 x∈S
En conséquences X
E(Y ) = φ(x)P(X = x).
x∈S
3.3.2 Application : Moments d’ordre p, p≥1

Définition 3.11 Soit X une v.a.d définie sur (Ω, P(Ω), P), X(Ω) = S.
Le moment d’ordre p (p ≥ 1) de X est définie par
X
E(X p ) = xp P(X = x)
x∈S
M.Badaoui UH1-ENSAK
à condition que X
|x|p P(X = x) < +∞.
x∈S
Proposition 3.4 Soit X une v.a.d définie sur (Ω, P(Ω), P), X(Ω) = S,
p, q ∈ R, 1 ≤ p < q.
On suppose que E(|X|q ) < +∞ alors E(|X|p ) < +∞.
Démonstration |X|p = |X|p I{Ω} , Ω = {(|X| ≤ 1) ∪ (|X| > 1)},

donc
|X|p = |X|p I(|X|≤1) + |X|p I(|X|>1) ≤ 1 + |X|q ,
car
E(|X|p ) ≤ 1 + E(|X|q ) < +∞.
Remarque 3.9 kkk

Si q = 2 et p = 1 alors
E(|X|2 ) < +∞ ⇒ E(|X|) < +∞.
3.3.3 Variance d’une variable aléatoire discrète

Définition 3.12 Soit X une v.a.d définie sur (Ω, P(Ω), P), X(Ω) = S,
telle que E(|X|2 ) < +∞.
2
On appelle variance de X et on note V(X), σX la quantité :
X
E[(X − E(X))2 ] = (x − E(X))2 P(X = x).
x∈S
Remarque 3.10 kkk

– E(|X|)p< +∞ car E(|X|2 ) < +∞ en vertu de la proposition 3.4
– σX = V (X) est appelé ecart-type de X.
– X possède une variance si et seulement si E(|X|2 ) < +∞.
Propriété 3.2 Soit X une v.a.d telle que E(|X|2 ) < +∞.
1) V (X) ≥ 0
2) ∀a, b ∈ R ou C, V (aX + b) = a2 V (X).
3) V (X) = E(X 2 ) − (E(X))2 .
X−E(X)
4) On pose Y = σX
, on dit qu’on a centré et réduit X et on a :
E(Y ) = 0, V (Y ) = 1.
M.Badaoui UH1-ENSAK
Démonstration
On propose la démonstration de la propiété 3), les autres sont laissés au lecteur.
X
V (X) = (x − E(X))2 P(X = x)V (X)kkkkkkkkkkkkkkkkk
x∈S
X
V (X) = [(x2 − 2xE(X) + (E(X))2 ]P(X = x)V (X)kkkkk
x∈S
X X X
V (X)kkkkkkkkkkkk = x2 P(X = x)−2E(X) xP(X = x)+(E(X))2 P(X = x).
x∈S x∈S x∈S
2
On a pu partager les sommes car E(X ) < +∞ et E(|X|) < +∞ car V(X)
existe.
Or X
x2 P(X = x) = E(X 2 ),
x∈S
X
xP(X = x) = E(X)
x∈S
et X
P(X = x) = PX (S) = P(X −1 (S)) = P(Ω) = 1.
x∈S
Donc
V (X) = E(X 2 ) − 2(E(X))2 + (E(X))2 = E(X 2 ) − (E(X))2 .
Exemple 3.10 kkk

(n+1)(2n+1)
1) X ∼ U{1,...,n} alors V (X) = 6
.
2) X ∼ B(p) alors V (X) = p(1 − p).
3) X ∼ B(n, p) alors V (X) = np(1 − p).
4) X ∼ P(λ) alors V (X) = λ.
3.4 Variables aléatoires discrètes indépendantes

La notion d’indépendance de deux v.a.d X et Y est liée naturellement aux
événements (X = x) et (Y = y), x ∈ X(Ω) et y ∈ Y (Ω). On dira que X et Y sont
indépendantes si ∀x ∈ X(Ω), ∀y ∈ Y (Ω), (X = x) et (Y = y) sont indépendants.
Plus généralement on a la définition suivante :
M.Badaoui UH1-ENSAK
Définition 3.13 Soit X1 , . . . , Xn n v.a.d définies sur (Ω, P(Ω), P), X(Ω) = S,
elles sont indépendantes si et seulement si :
n
Y
∀xi ∈ Xi (Ω), i = 1, . . . , n, P(X1 = x1 , . . . , Xn = xn ) = P(Xi = xi ).
i=1
Proposition 3.5 Si X1 , . . . , Xn n v.a.d indépendantes alors :

1) g1 (X1 ), . . . , gn (Xn ) sont n v.a.d indépendantes, avec gi : Si = Xi (Ω) ; Ti sont
des fonctions continues.
2) Pour tout 1 < m1 < . . . < mk = n, Y1 , . . . , Yk sont indépendantes où
Y1 = (X1 , . . . , Xm1 ), Y2 = (Xm1 +1 , . . . , Xm2 ), . . . , Yk = (Xmk−1 +1 , . . . , Xn ).
Exemple 3.11 kkk

1) Si X1 , X2 , X3 , X4 sont quatre v.a.d à valeurs dans N, alors, si elles sont
indépendantes, il en est de même de (X1 , X3 ), (X2 , X4 ) et de X1 +X3 , X2 −X4 .
2) Si X, Y deux v.a.d indépendantes telles que X ∼ P(λ) et Y ∼ P(µ) alors
X + Y ∼ P(λ + µ).
Proposition 3.6 Si X1 , . . . , Xn sont n v.a.d indépendantes, telles que E(Xi2 ) <

+∞ alors !
Xn Xn
V Xi = V (Xi ).
i=1 i=1
Démonstration Par reccurence sur n :

n=2:
V (X1 + X2 ) = E((X1 + X2 )2 ) − (E(X1 ) + E(X2 ))2 V (X1 + X2 )kkkk

V (X1 + X2 )kkkkkkkk = E(X12 +2X1 X2 +X2 )−(E(X1 ))2 −(E(X2 ))2 −2E(X1 )E(X2 )
V kk = V (X1 ) + V (X2 ) + 2(E(X1 X2 ) − E(X1 )E(X2 ))
mais E(X1 X2 ) = E(X1 )E(X2 ), (proposition 3.5)
H.R : !
n
X Xn
V Xi = V (Xi ).
i=1 i=1
Montrons que !
n+1
X n+1
X
V Xi = V (Xi )
i=1 i=1
M.Badaoui UH1-ENSAK
mais ! ! !
n+1
X n
X n
X
V Xi =V Xi + Xn+1 =V Xi + V (Xn+1 )
i=1 i=1 i=1
Pn
car i=1 Xi et Xn+1 sont indépendantes (proposition 3.5).
Pn Pn
HR ⇒ V ( i=1 Xi ) = i=1 V (Xi ).
Donc !
n+1
X n+1
X
V Xi = V (Xi ).
i=1 i=1
M.Badaoui UH1-ENSAK
Chapitre 4
Variables aléatoires réelles
4.1 Définition et propriétés

Définition 4.1 Soit f une fonction de R −→ R, on dit que f est une densité de
probabilité si et seulement si :
1. f ≥ 0 sur R.
2. f est continue sur R sauf en nombre fini de points.
R +∞
3. −∞ f (x)dx = 1.
Définition 4.2 Une application X : Ω → R est appelée variable aléatoire continue

(ou de loi continue) s’il existe une fonction de densité f telque :
pour tout (a, b) ∈ R
Z b
P(a ≤ X ≤ b) = f (x)dx.
a
Propriété 4.1
– ∀a ∈ R, P(X = a) = 0.
– ∀a, b ∈ R, P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b).
Remarque 4.1 Soit (Ω, P(Ω), P) un espace probabilisé, X une variable aléatoire :
X : Ω −→ E
1. Si E = R : X est une v.a.r ssi ∀a ∈ R (X < a) ∈ P(Ω).

2. Si E = C : X est une v.a.c ssi X = u + i v, u, v v.a.r .
k
3. Si E = R : X est un vecteur aléatoire ssi ∀a1 , . . . , ak (X < a1 , . . . , X <
ak ) ∈ P(Ω).
32
4.1.1 Loi d’une v.a.r

Définition 4.3 Soit X : Ω −→ E une v.a. On appelle loi de X sous P
la probabilité image de P par X. Elle sera notée PX si
B ∈ P(E) PX (B) = P(X −1 (B)) = P(ω/X(ω) ∈ B) = P(X ∈ B)
Remarque 4.2
1. PX est une probabilité sur E.
2. Si E = R, le calcul de la loi d’une v.a.r X se ramène au calcul de
PX (] − ∞, x]), x ∈ R.
4.1.2 Fonction de répartition

Définition 4.4 Même Définition que pour une v.a.d. Si X est continue de densité
f alors
Rx
1. ∀x ∈ R FX (x) = P(X ≤ x) = −∞ f (x)dx.
2. FX est croissante et continue à droite.
3. On remarque que FX0 (x) = f (x).
Rb
4. P(a ≤ X ≤ b) = a f (x)dx = FX (b) − FX (a).
Ra
5. P(X > a) = 1 − P(X ≤ a) = 1 − −∞ f (x)dx = 1 − FX (a).
Remarque 4.3
1. La fonction de répartition FX est une application de R vers R+ , qui tend vers

0 quand x → −∞ et tend vers une limite ` ∈ R+ quand x → +∞.
2. Si X est une v.a.r, PX sa loi, la f.d.r FX associée à X est définie par FX (x) =
PX (] − ∞, x]), x ∈ R.
3. On a aussi
P(X < x) = lim FX (x + h) = lim FX (x + hn )

h→0 hn %0
car FX est %.
En effet si hn % h donc (x + hn ) % (x + h), (n → +∞), ∀x ∈ R.
[
An =] − ∞, (x + hn )], hn % 0, An ⊂ An+1 ⇒ An % An .
n≥1
Or [
An =] − ∞, x],
n≥1
M.Badaoui UH1-ENSAK
d’où
PX (An ) % PX (] − ∞, x].
Si bien que FX (x + h) % FX (x− ) = P(X < x).
Le calcul de la loi d’une v.a.r X se résume au calcul de sa f.d.r FX , la proposition

suivante renforce cette idée par le fait que FX caractérise la loi.
Proposition 4.1 Soit X et Y deux v.a.r définies sur (Ω, P(Ω), P), FX , FY leurs
f.d.r si ∀x ∈ R FX (x) = FY (y) alors PX = PY .
4.2 Lois de probabilités usuelles

4.2.1 Loi Uniforme sur [a,b], −∞ < a < b < +∞
X v.a.r suit une loi Unif orme sur [a, b], si elle apour densité la fonction f (x) =
 0, x<a
1 x−a
I
b−a [a,b]
(x), on note X ∼ U[a,b] . Sa f.d.r F X (x) = , a ≤x≤b
 b−a
1, x>b
4.2.2 Loi Normale de paramètres, m ∈ R, σ 2 ≥ 0

X v.a.r suit une loi normale (de Gauss ou Gaussiènne), si elle a pour densité la
(x−m)2
1
fonction f (x) = √2πσ exp −1
2 σ2
, ∀x ∈ R. On écrit X ∼ N (m, σ 2 ).
Si m = 0, on dit que X est centrée.
Si m = 0 et σ 2 = 1, on dit que X est centréeR réduite, on écrit X ∼ N (0, 1), sa
u
f.d.r FX notée souvent Φ est donnée par Φ(u) = −∞ fX (x)dx, et on montre que
Φ(u) + Φ(−u) = 1, ∀u ∈ R.
4.2.3 Loi Exponentielle de paramètre λ, λ > 0

X v.a.r suit une exponentielle de paramètre λ, si elle a pour densité la fonction
f (x) = λe−λx I[0,+∞[ (x),

on écrit X ∼ E(λ).
Sa f.d.r FX est donnée par FX (x) = (1 − e−λx )I[0,+∞[ .
M.Badaoui UH1-ENSAK
4.2.4 Loi de Cauchy de paramètres a, b ∈ R, a 6= 0

X v.a.r suit une loi de Cauchy, si elle a pour densité la fonction
1 a
f (x) = , x ∈ R.
π a + (x − b)2
2
On écrit X ∼ C(a, b) ; si a =1, b=0, on écrit X ∼ C(1).

Sa f.d.r FX est donnée par :
a x x−b
Z Z
a dλ(t) dt a 1
FX (x) = 2 2
= 2 2
= arctan( )+ .
π ]−∞,x] a + (t − b) π −∞ a + (t − b) π a 2
4.2.5 Loi de Laplace

X v.a.r suit une loi de Laplace, si elle a pour densité la fonction
1
f (x) = e−|x| , x ∈ R.
2
Sa f.d.r est donnée par 1 x
2
e , x < 0;
FX = 1 −x
1 − 2 e , x ≥ 0.
4.2.6 Loi Gamma de paramètres p > 0 et θ > 0

X v.a.r suit une loi de gamma γ(p, θ) de paramètres p > 0 et θ > 0, si elle a
pour densité la fonction
θp p−1 −θx
f (x) = x e I[0,+∞[ (x),
Γ(p)
R∞
où Γ(p) est la fonction eulérienne définie par l’intégrale pour p > 0 Γ(p) = 0
tp−1 e−t dt.
Propriété 4.2 (de la fonction Γ )
– Γ(1) = 1. √
– Γ(1/2) = π.
– Γ(x) = (x − 1)Γ(x − 1) pour x > 1.
– Si x = n ∈ N∗ alors Γ(n) = (n − 1)!.
4.2.7 Loi du Khi-deux

X v.a.r suit une loi du Khi-deux χ2 (ν) à ν degrés de liberté, si elle a pour densité
la fonction
1 ν x
f (x) = ν ν
x 2 −1 e− 2 I[0,+∞[ (x),
2 Γ( 2 )
2
M.Badaoui UH1-ENSAK
Théorème 4.1 Soit X1 ; X2 ; . . . ; Xk des variables aléatoires indépendantes et iden-

tiquement distribuées selon une loi normale N (0, 1). Alors la variable aléatoire
Y = X12 + X22 + . . . + Xk2 suit une loi du khi-deux à k degrés de liberté.
Théorème 4.2 (Additivité la loi du khi-deux) Soient X1 ; X2 ; . . . ; Xp des v.a.
khi-deux à k1 ; k2 ; . . . ; kp degrés de liberté respectivement. Alors Y = X1 +X2 +. . .+Xp
suit une loi du khi-deux à k = k1 + k2 + . . . kp degrés de liberté.
4.2.8 Loi de Student

X v.a.r suit une loi de Student T (ν) à ν degrés de liberté, si elle a pour densité
la fonction
− ν+1
1 Γ( ν+1 x2

2
) 2
f (x) = √ ν 1+ , x∈R
νπ Γ( 2 ) ν
Propriété 4.3
– La fonction de densité f (x) est symétrique par rapport à sa moyenne 0.
– La loi T (ν) est approximativement identique à une loi normale N (0, 1) lorsque
ν est grand.
Théorème 4.3 Soit X une variable aléatoire normale N (0, 1) et Y une variable
aléatoire du khi-deux à k degrés de liberté. Si X et Y sont indépendantes alors la
variable aléatoire
X
T =p
Y /k
suit une loi T (k) de Student avec k degrés de liberté.
4.2.9 Loi de Fisher

X v.a.r suit la loi de Fisher F(ν1 ; ν2 ), si elle a pour densité la fonction
ν21 ν22
1 ν1 x ν1 x
f (x) = 1− I[0,+∞[ (x),
β ν21 , ν22 x ν1 x + ν2

ν1 x + ν2
R 1 ν1 ν2
où β ν21 , ν22 = 0 t 2 −1 (1 − t) 2 −1 dt
Propriété 4.4 Par la définition de la loi de Fisher, 1/X ∼ F(ν2 ; ν1 )
Théorème 4.4 Soient X et Y deux variables aléatoires indépendantes suivant une
loi du khi-deux avec u et v degrés de liberté, respectivement. Alors la variable aléatoire
X/u
Z=
Y /v
suit une loi de Fisher à u et v degrés de liberté.
M.Badaoui UH1-ENSAK
4.3 Intégration des v.a.r

4.3.1 Espérance Mathématique
Soit X une v.a.r définie sur (Ω, P(Ω), P).
Si X ≥ 0 ou X ∈ L1 (P) 1 , on définit l’espérance mathématique de X par le
nombre Z
E(X) = X(ω)dP(ω).
Ω
Pour le calcul de l’e.m on dispose de la proposition suivante :
Proposition 4.2 Si X admet une densité f alors

E(g(X)) existe si et seulement si fg est intégrable et on a
Z Z
E(g(X)) = g(X)dP = f (x)g(x)dx.
Ω R
Remarque 4.4
1- E(X) n’existe pas toujours.

Exemple : X ∼ C(1) donc X admet la densité f donnée par
1
f (x) = π(1+x 2) , x ∈ R.
|x|
Z
E(|X|) = dx = +∞,
R π(1 + x2 )
|x|
car la fonction h(x) = π(1+x2 )
est paire, et on a :
+∞ +∞
|x|
Z Z
x
dx = 2 dx
−∞ π(1 + x2 ) 0 π(1 + x2 )
x
mais 1+x2
∼ x1 (au voisinage de + ∞),
et Z +∞ Z +∞
dx xdx
= +∞ ⇒ = +∞ ⇒ E(|X|) = +∞.
1 x 0 π(1 + x2 )
2- X = c (c une constante) alors E(X) = c.
3- X, Y ∈ L1 (P), α, β ∈ R E(αX + βY ) = αE(X) + βE(Y ).
1. L1 (P) = {f /
R
Ω
|f (ω)|dP(ω)} < ∞
M.Badaoui UH1-ENSAK
4.3.2 Variance d’une v.a.r, Moments d’une v.a.r

Soit n ≥ 1, on défnit le moment d’ordre n d’une v.a.r X quand il existe
Z
n
E(X ) = xn f (x)dx.
R
Le moment centré d’ordre n, est µn = E[(X − E(X))n ].

Si n = 2, E[(X −RE(X))2 ] = V (X) = σX 2
= variance de X.
2 2
Et nous avons σX = R (x − E(X)) f (x)dx.
Proposition 4.3 Soit X une v.a.r définie sur (Ω, P(Ω), P), n ≥ 1.
1- Si E(|X|n ) < +∞ alors ∀k : 1 ≤ k ≤ n E(|X|k ) < +∞.
2- E(X n ) existe si et seulement si E(X − a)n existe ∀ a ∈ R.
2
3- σX existe si et seulement si E(X 2 ) < +∞ et on a V (X) = σX
2
= E(X 2 ) −
2
(E(X)) .
2
4- σX = 0 si et seulement si X = c presque partout (c constante réelle).
Démonstration
1- On a |X|k = |X|k I{(|X|≥1)} + |X|k I{|X|<1} ≤ |X|n + 1,
donc E(|X|k ) ≤ 1 + E(|X|n ) < +∞.
2- On constate que (X − a)n = nk=0 Cnk (−a)n−k X k ,
P
comme E(|X|k ) < +∞, ∀k : 0 ≤ k ≤ n, on en déduit le résultat.
2
3- Si σX = V (X) existe donc E(X) existe et on a :
X 2 = (X − E(X) + E(X))2 ≤ (X − E(X))2 + 2XE(X)

⇒ E(X 2 ) ≤ V (X) + 2(E(X))2 < +∞.
Si E(X 2 ) < +∞ donc E(|X|) < +∞ d’après 1), on a aussi
(X − E(X))2 ≤ X 2 + 2|XE(X)| + (E(X))2
⇒ E[(X − E(X))2 ] ≤ E(X 2 ) + 2E|XE(X)| + (E(X))2 < +∞.

Il est facile de voir que V (X) = E(X 2 ) − (E(X))2 .
4- Si X = c ⇒ E(X) = c et V (X) = E(X − c)2 , V (X) = E(X 2 ) − c2 .
Or X 2 = c2 ⇒ E(X 2 ) = c2 d’où V (X) = 0. R
Réciproquement si V (X) = 0 ⇒ E[(X − E(X))2 ] = 0 = (X − E(X))2 dP,
donc (X − E(X))2 = 0 ⇒ X = E(X) = c
Exemple 4.1 kkk
M.Badaoui UH1-ENSAK
1- X ∼ U[a,b] , Z Z
1
E(X) = xf dλ(x) = xI[a,b] (x)dλ(x),
b−a
donc Z b
1 (a + b)
E(X) = xdx = ,
b−a a 2
de même
(b − a)2
V (X) = .
12
2- X ∼ N (m, σ 2 ), m ∈ R, σ 2 ≥ 0.
−1 (x − m)2 −(x − m)2

Z Z
1 x 1
E(X) = √ exp dλ(x) = √ x exp dλ(x) = m,
2π R σ 2 σ2 2πσ R 2σ 2
de même V (X) = σ 2 .
Remarque 4.5 kkk

Si σ 2 = 0 alors X est une constante.
4.3.3 Médiane, Quantiles, modes d’une v.a.r

Soit X une v.a.r définie sur (Ω, P(Ω), P), de loi PX .
4.3.3.1 Médiane
On appelle valeur médiane de X tout réel λ tel que :
1
PX (] − ∞, λ]) = FX (λ) ≤
2
et
1
PX ([λ, +∞[) = P(X ≥ λ) ≤ ,
2
donc λ est une valeur médiane si et seulement si FX (λ− ) ≥ 12 ≥ FX (λ),
si FX est continue sur R donc FX (λ− ) = FX (λ), par conséquent λ est une valeur
médiane si et seulement si FX (λ) = 12 .
Exemple 4.2 kkk

1- X v.a.r telle que PX = 21
(δ0 + δ1 ).
 0, x < 0
1
Dans ce cas FX (x) = , 0≤x<1
 2
1, x ≥ 1
M.Badaoui UH1-ENSAK
Soit λ ∈ R,
si λ > 1 alors PX ([λ, +∞[) = P(X ≥ λ) = 0,
si 0 < λ ≤ 1 alors PX ([λ, +∞[) = P(X ≥ λ) = 12 ,
si 0 ≥ λ alors PX ([λ, +∞[) = P(X ≥ λ) = 1.
En conclusion si λ est tel que 0 ≤ λ ≤ 1 alors
1 1
P(X ≥ λ) = et P(X ≤ λ) ≥ .
2 2
Si bien que toutes les valeurs de l’intervalle [0, 1] sont des valeurs médianes.
2- Soit X une v.a.r telle que X ∼ C(1).

1
Donc elle admet la fonction f (x) = π(1+x 2) , x ∈ R comme densité.
0 est la médiane de X, en effet,
P(X ≥ λ) = 1 − P(X ≤ λ) = 1 − FX (λ),
car FX continue, donc λ est une valeur médiane si et seulement FX (λ) = 12
si et seulement si π1 arctan λ + 12 = 12
si et seulement si arctan λ = 0
si et seulement si λ = 0.
3- En général si X est une v.a.r de densité f alors si f (x) = f (−x), ∀x ∈ R,
donc 0 est la médiane de X.
4.3.3.2 Mode d’une v.a.r

Si X une v.a.r admet une densité f , le mode de X quand il existe est la valeur
pour laquelle f est maximale.
4.3.3.3 Quantiles d’ordre α, α ∈]0, 1[

Le quantile d’ordre α, α ∈]0, 1[, d’une v.a.r X est le réel qα tel que :
P(X ≥ qα ) ≥ 1 − α et P(X ≤ qα ) ≥ α.
Si α = 21 , q 1 = médiane de X.
2
4.3.4 Inégalités de Markov et de Bienaymé-Tchebychef

Proposition 4.4
1- Si X est une v.a.r positive et g : R+ −→ R+ strictement croissante alors
E(g(X))
∀ λ > 0 P(X ≥ λ) ≤ . (Inégalité de Markov)
g(λ)
M.Badaoui UH1-ENSAK
2- Si X possède une variance finie alors

2
σX
∀λ > 0 P(|X − E(X)| ≥ λ) ≤ λ2
(Inégalité de BT )
Démonstration
1- On a
Z Z Z
E(g(X)) = g(X)dP = g(X)dP + g(X)dP
(g(X)≥g(λ)) (g(X)<g(λ))
Z
≥ g(X)dP
(g(X)≥g(λ))
car Z
g(X)dP ≥ 0.
(g(X)<g(λ))
Or
Z Z
g(X)dP ≥ g(λ) dP = g(λ)P(g(X) ≥ g(λ)),
(g(X)≥g(λ)) (g(X)≥g(λ))
mais g est strictement croissante donc si
X(ω) ≥ λ ⇔ g(X(ω)) ≥ g(λ),
donc
(X ≥ λ) = (g(X) ≥ g(λ)),
par conséquent
E(g(X)) ≥ g(λ)P(X ≥ λ).
Si g ≡ id on obtient l’inégalité :
E(X) ≥ λP(X ≥ λ).
2- Considérer Y = |X − E(X)|, g(x) = x2 , x ≥ 0 et appliquer 1).
4.4 Types de convergences

4.4.1 Convergence en probabilité
Soit (Xn ) une suite de variables aléatoires
Définition 4.5 On dit que la suite (Xn ) converge en probabilité vers une constante
p
a, qu’on note Xn −→ a, si :
M.Badaoui UH1-ENSAK
∀ > 0 lim P (|Xn − a| ≥ ) = 0

n→+∞
Ce qui revient à dire que :

∀ > 0 lim P ({ω ∈ Ω/|Xn (ω) − a| ≥ }) = 0
n→+∞
Ou encore :
∀ > 0, ∀η > 0, ∃n0 > 0 tel que n > n0 =⇒ P (|Xn − a| ≥ ) < η
On dit aussi que la suite (Xn ) converge en probabilité vers une variable aléatoire X,
qu’on note :
p
Xn −→ X,
si et seulement si la variable aléatoire Xn − X converge vers la constante 0 :
p p
Xn −→ X ⇔ Xn − X −→ 0.
4.4.2 Convergence en loi

C’est une convergence liée aux fonction de répartitions des variables concernées.
Définition 4.6 On dit que la suite (Xn ) de v.a., de fonction de répartitions Fn ,
converge en loi vers une variable aléatoire X, de fonction de répartition F , on note
L
Xn −→ X, si :
lim Fn (x) = F (x)
n→+∞
pour tout point x de continuité de F .
4.4.3 Convergence presque sûre

Définition 4.7 On dit que la suite (Xn ) de v.a., converge presque sûrement vers
p.s
une variable X, on note Xn −→ X, si :

P lim Xn = X = 1
n→+∞
ce qui revient à dire :

P lim Xn 6= X =0
n→+∞
Remarque 4.6 On dit que deux variables Xet Y sont équivalantes si :

P (X 6= Y ) = 0
Propriété 4.5 On a :
convergence p.s ⇒ convergence en probabilité ⇒ convergence en loi
M.Badaoui UH1-ENSAK
4.4.4 Loi faible des grands nombres

Théorème 4.5 Soit (Xn ) une suite de v.a. deux à deux indépendants, telles que
n
2 1X p
σ = V (Xi ) et m = E(Xi ) soient finies. posons X n = Xi , alors : X n −→ m
n i=1
4.4.5 Théorème central-imite

Le théorème central-limite est le théorème le plus important de la théorie de la
probabilités et qui joue un rôle primordial en statistique.
Théorème 4.6 Soient X1 ; . . . ; Xn n v.a. indépendantes, et équiditribuées telles que

n √
1X
2
σ = V (Xi ) et m = E(Xi ) soient finies. posons X n = Xi , alors : n(Xσn −m)
n i=1
converge en loi vers la loi normale N (0, 1) quand n tend vers l’infini.
Ce qui veut dire qu’une fois n est suffisamment grand (n > 30), on peut rapprocher
la distribution de la variable :
n
X
Zn = Xi par une loi normale N (E(Zn ), V (Zn ))
i=1
On signale que :
E(Zn ) = n.m et V (Zn ) = n.σ 2
4.4.6 Approximation
Sur un plan plus général, les lois de probabilités mentionnées dans ce chapitre
satisfont à un ensemble de convergences, essentielles pour les applications en statis-
tique, et qui s’énoncent comme suit :
– La loi Hypergéométrique converge, pour N grand, vers la loi Binomiale B(n, p)
(condition le plus souvent satisfaite dès lors qu’on est amené à pratiquer un
sondage).
N
Pratiquement, cette convergence est satisfaite pour n
≥ 10.
– La loi Binomiale B(n, p) converge, pour n assez grand et p ni trop voisin de 1

ni de 0 vers la loi normale N (m = n.p, σ 2 = n.p.q).
C’est le théorème de MOIVRE-LAPLACE qui résulte de l’application du

théorème central limite au cas particulier de la somme de n variables aléatoires
M.Badaoui UH1-ENSAK
de Bernoulli indépendantes.
Au plan pratique, plusieurs conditions de validité de cette convergence sont

applicables. On peut retenir entre autres, n ≥ 30 et n.p > 5 et n.q > 5, ou,
n ≥ 30 et n.p ≥ 15 et n.p.q > 5.
– La loi Binomiale B(n, p) converge, pour n assez grand, et p faible (ou voisin
de 1) vers la loi de Poisson de paramètre λ = n.p.
Au plan pratique, on peut citer, entre autres, la condition n ≥ 30 et p ≤ 0, 1

et n.p < 15.
– La loi de Poisson de paramètre λ converge, pour n assez grand, vers la loi

normale N (m = λ, σ 2 = λ).
Au plan pratique, la convergence en question devient satisfaisante dès que

λ > 15.
– La loi de Student, T (n), converge, pour n assez grand, vers la loi normale
centrée réduite N (0, 1).
Au plan pratique, cette approximation devient satisfaisante dès que n ≥ 30.
– La loi de Khi-deux, χ2 (n), converge, pour n assez grand, vers la loi normale
N (0, 1).
Ici encore, cette approximation est vérifiée à partir de n = 30.
Le schéma ci-dessous résume les propriétés de convergence susmentionnées :
M.Badaoui UH1-ENSAK
M.Badaoui UH1-ENSAK
Chapitre 5
Estimation
Le calcul des probabilités apporte les outils nécessaires aux techniques de la

statistique mathématique, c’est-à-dire les modèles qui vont être utilisés pour décrire
des phénomènes réels où le hasard intervient. La statistique est un ensemble de
méthodes permettant de prendre de bonnes décisions en présence de l’incertain.
5.1 Échantillonnage
Une étude statistique portant sur tous les éléments d’une population étant, soit
impossible à réaliser (trop grand nombre d’individus à étudier), soit trop onéreuse, il
faut obtenir des résultats fiables sur les caractéristiques d’une population en se limi-
tant à l’étude des éléments ou unités d’un échantillon. Cet échantillon doit non seule-
ment donner des estimations non biaisées des paramètres mais permettre, de plus,
d’évaluer la marge d’erreurs dues aux fluctuations d’échantillonnage. L’échantillon
doit être représentatif de la population ; il en résulte, en particulier, que chaque
unité doit avoir une probabilité non nulle d’être tirée, un tel échantillon est qualifié
d’aléatoire.
5.1.1 Terminologie
• Population : ensemble des unités sur lesquelles porte l’étude (notons N la taille
de la population).
• Échantillon : sous-ensemble d’unités de population (notons n la taille de l’échantillon).
• Sondage : toute forme d’échantillonnage qui permet de constituer un échantillon
à partir de la population.
• Base de sondage : liste des unités de la population. Il existe de types de bases :
46
– Les nomenclatures : Liste de noms et d’adresses qui donnent directement

accès à des unités (exemple : liste des élèves inscrit au cycle ingénieur de
l’ENSAK)
– Les bases aléatoires : Liste de régions qui donnent accès indirectement à
des unités (exemple : Départements de l’ENSAK)
• Taux de sondage : rapport entre la taille de l’échantillon et la taille de la popula-
tion.
• Estimateur : résultat estimé à partir des données observées dans l’échantillon qui
représente la valeur vraie du phénomène dans la population, avec un certain
degré d’incertitude.
5.1.2 Méthodes de sondage

Toute démarche statistique consiste à prélever un échantillon représentatif de la
population par des techniques appropriées. Les différentes méthodes utilisées pour
obtenir un tel échantillon relèvent de la théorie de l’échantillonnage.
L’ensemble des techniques de prélèvement de l’échantillon se compose essentiel-
lement de deux approches :
– Méthodes aléatoires (probabiliste).
– Méthodes non aléatoires (non probabiliste).
5.1.2.1 Méthodes probabilistes

Ensemble de méthodes appelées sondages probabilistes, parce que chaque unité
échantillonnée (sélectionnée) a une probabilité connue à l’avance de figurer dans
l’échantillon.
Ceci permet de généraliser l’estimation du phénomène à la population dont est
issu l’échantillon d’apprécier la marge d’erreur, le degré d’incertitude de l’estimateur.
• Sondage aléatoire simple : consiste à choisir des individus de telle sorte que chaque
membre de la population a une chance égale à Nn de figurer dans l’échantillon.
Ce choix peut se faire avec remise (N n échantillons possibles) ou sans remise
n
(CN échantillons possibles).
– Avantage de cette méthode : On peut espérer un échantillon représentatif
puisque la méthode donne à chaque individu de la population une chance
égale.
– Désavantages : la méthode n’est applicable que lorsqu’il existe une liste
exhaustive de toute la population.
• Sondage systématique (pseudo-aléatoire) : est une méthode qui exige aussi l’exis-
tence d’une liste de la population où chaque individu est numéroté de 1 jusqu’à
N . L’entier voisin de N/n sera noté r et appelé raison de sondage ou pas de
M.Badaoui UH1-ENSAK
sondage.
Pour constituer l’échantillon, on choisit au hasard un entier naturel d entre 1
et r (cet entier sera le point de départ). L’individu dont le numéro correspond
à d est le premier individu, pour sélectionner les autres, il suffit d’ajouter à d
la raison de sondage : les individus choisis seront alors ceux dont les numéros
correspondent à d + r, d + 2r, d + 3r, etc.
– Avantages : facile à sélectionner parce qu’un seul individu est choisi au
hasard, ainsi on peut obtenir une bonne précision parce que la méthode
permet de répartir l’échantillon dans l’ensemble de la liste.
– Désavantages : Les données peuvent être biaisées à cause de la périodicité.
• Sondage avec une probabilité proportionnelle à la taille : Si la base de sondage
renferme de l’information sur la taille de chaque unité (comme le nombre des
élèves d’une école) et si la taille des ces unité varie, on peut utiliser cette
information pour accroı̂tre l’efficacité de l’échantillonnage. Plus la taille de
l’unité est grande, plus sa chance d’être incluse dans l’échantillon est élevée.
• Sondage stratifié : lorsque la population est très hétérogène, cette procédure per-
met d’améliorer la précision des estimateurs retenus à partir d’un sondage
aléatoire. La stratification consiste à découper la population étudiée en groupes
homogènes, appelés strates, et à tirer indépendamment un échantillon aléatoire
dans chaque strate.
– Avantages : Il est peu probable de choisir un échantillon absurde puisqu’on
s’assure de la présence proportionnelle de tous les divers sous-groupes com-
posant la population.
– Désavantages : La méthode suppose l’existence d’une liste de la population.
Il faut aussi connaı̂tre comment cette population se répartit selon certaines
strates.
• Sondage en grappes : Dans certains cas, il est difficile d’obtenir un échantillon
d’individus indépendants les uns des autres. Il peut être plus facile d’enquêter
dans un lieu où ils sont rassemblés (exemple : les sujets d’un même foyer). Le
sous-groupe de la population définit une grappe. Ce sont les grappes qui sont
tirées au sort dans la population et l’ensemble des sujets d’une grappe tirée
au sort sera enquêté.
– Avantages : il n’est pas nécessaire de disposer d’une base de sondage des
individus, une liste des grappes suffit ce qui permet de réduire les coûts de
déplacement, de suivi et de supervision.
– Désavantages : le sondage est moins précis que le sondage aléatoire simple
et l’analyse doit prendre en compte l’effet grappe, ce qui est plus complexe.
• Sondage à plusieurs degrés : Les données de base sont collectées auprès d’un
échantillon d’unité de grande taille, ensuite pour un sous-échantillon de ces
M.Badaoui UH1-ENSAK
unités, la collecte des données est plus détaillée. Le plus couramment on utilise
deux phase ou échantillonnage double
5.1.2.2 Méthodes non probabilistes

Les méthodes non aléatoires sont des méthodes où le concept de chance égale est
absent, en générale ces méthodes sont peu fiables. Elles ne nécessite pas de base de
sondage et elles sont souvent utilisées pour des études exploratoires, pour réduire
les coûts ou lorsqu’il est impossible ou non envisageable d’utiliser les méthodes
aléatoires. On distingue :
• Sondage à l’aveuglette ou de commodité (exemple : déguster un échantillon de
boisson).
• Sondage de volontaires (exemple : expériences médicales ou psychologiques).
• Sondage au jugé : cette méthode implique la sélection d’individus en fonction de
l’idée qu’on se fait de la composition de la population. On le fait pour des
essais auprès des groupes cibles.
• Sondage par quotas : il est largement utilisé dans les enquêtes d’opinion et les
études de marché notamment parce qu’il ne suppose pas de liste des individus
de la population. On parle aussi de sondage dirigé ou par choix raisonné. On
demande aux enquêteurs de faire un nombre d’entrevues dans divers groupes
établis en fonction du secteur géographique, de l’âge, du sexe ou d’autres
caractéristiques etc. L’enquêteur doit respecter son quota.
5.1.2.3 Sources d’erreurs dans une enquête

Les méthodes de sondage peuvent être sources d’erreurs. Un certain nombre
d’erreurs pourront être éliminées, certaines pourront être réduites, mais d’autres
persisteront. On distingue :
• Erreur d’échantillonnage : Le fait d’étudier un échantillon plutôt qu’un autre
engendre forcément une erreur. Cette erreur est inévitable.
• Erreur de mesure : erreur due à l’appareil de mesure. Un instrument est fidèle s’il
répond exactement de la même façon quand il est placé dans deux situations
identiques. Exemple le thermomètre. Une question claire est dite fidèle quand
tout le monde la comprend de la même façon. Il est valide lorsqu’il mesure
vraiment ce qu’il est censé mesurer.
• Erreur de couverture : erreur liée au fait que la population échantillonnée n’est
pas celle que l’on voulait étudier.
• Non-réponses : absence de mesure pour certaines unités de l’échantillon.
M.Badaoui UH1-ENSAK
5.1.3 Échantillon aléatoire

Soit X une variable aléatoire réelle. Un échantillon aléatoire d’effectif n ≥ 1 est
un vecteur aléatoire Xn = (X1 , X2 , . . . , Xn ) à n composantes qui sont n variables
aléatoires indépendantes suivant la même loi que X, appelée variable aléatoire pa-
rente.
Remarque 5.1 Pour des raisons de commodité, nous avons supposé que les Xi
sont mutuellement indépendantes. Dans certains cas, l’indépendance deux à deux
sera suffisante.
5.1.4 Statistique de l’échantillon

Toute variable aléatoire T, fonction de l’échantillon aléatoire Xn = (X1 , X2 , . . . , Xn ),
est appelée statistique de l’échantillon.
Remarque 5.2
1. Une statistique peut être à valeurs dans R ou Rp . Dans le dernier cas, nous
parlerons de statistique vectorielle.
2. La difficulté de cette notion est la suivante : nous avons une double concep-
tion, qui est la base de la statistique mathématique. Les valeurs observées
(x1 , x2 , . . . , xn ) (noter que ce sont des minuscules) constituent n réalisations
indépendantes d’une variable aléatoire X ou encore, une réalisation unique du
vecteur aléatoire Xn = (X1 , X2 , . . . , Xn ) à n composantes où les Xi sont n
variables aléatoires indépendantes et de même loi.
La théorie de l’échantillonnage se propose d’étudier les propriétés du vecteur aléatoire

à n composantes et des caractéristiques le résumant, encore appelées statistiques, à
partir de la distribution supposée connue de la variable parente X, et d’étudier en
particulier ce qui se passe lorsque la taille de l’échantillon est de plus en plus élevée.
C’est généralement ce qui préoccupe les statisticiens bien que depuis quelques années
des théories concernant les petits échantillons se développent également.
5.1.5 Distributions échantillonnales

5.1.5.1 Moyenne empirique
Par définition la moyenne empirique d’un échantillon aléatoire X1 , X2 , . . . , Xn
est la statistique suivante :
n
1X
Xn = Xi
n i=1
M.Badaoui UH1-ENSAK
Puisque les variables de l’échantillon X1 , X2 , . . . , Xn ont la même loi que X, alors

E (Xi ) = E (X) ∀i
En plus, ces variables sont indépendantes, ce qui veut dire que leurs covariances sont
nulles :
Cov (Xi ; Xj ) = 0 ∀ i 6= j
Propriété 5.1 Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une loi parente X
alors :
V X n = n1 V (X) Cov X n ; Xj = n1 V (X)

E X n = E (X), et
Ces résultats découlent directement des règles de combinaisons linéaires.
5.1.5.2 Variance empirique

On appelle variance empirique de l’échantillon aléatoire X1 , X2 , . . . , Xn la statis-
tique suivante :
n
1X
Sn2 = (Xi − X n )2
n i=1
Propriété 5.2 Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une loi parente X

alors :
n−1 n−1
(X − E (X))3

E (Sn2 ) = n
V (X) et Cov X n ; Sn2 = n2
E

Donc Cov X n ; Sn2 = 0 si la distribution de X est symétrique.
5.1.5.3 Fonction de répartition empirique

On considère un échantillon X1 , X2 , . . . , Xn d’une variable aléatoire X. On note
F la fonction de répartition de X, c’est-à-dire :
∀t ∈ R ; F (t) = P (X ≤ t) = P (Xi ≤ t)
Définition 5.1 La fonction de répartition empirique associée à cet échantillon est
la fonction :
R −→ [0; 1]
n
1X
t → Fn (t) = I{Xi ≤t}
n i=1
M.Badaoui UH1-ENSAK
Remarques 5.1
– Pour tout t ∈ R, la variable aléatoire nFn (t) suit la loi Binomiale B(n, F (t)).
– Pour représenter la fonction Fn , on introduit la statistique d’ordre X(1) , X(2) , . . . , X(n)
associée
à l’échantillon (X 1 , X2 , . . . , Xn ) définie par
X(1) , X(2) , . . . , X(n) = {X1 , X2 , . . . , Xn } et X(1) ≤ X(2) ≤ . . . ≤ X(n)
On a alors : n
1X
∀t ∈ R; Fn (t) = I{X(i) ≤t}
n i=1
5.2 Estimateur et propriétés d’un estimateur

Un aspect important de la statistique mathématique (dite aussi statistique inférentielle)
consiste à obtenir des estimations fiables des caractéristiques d’une population à
partir d’un échantillon extrait de cette population. C’est un problème de décision
concernant des paramètres tels que :
– l’espérance mathématique notée m ou µ (pour un caractère mesurable),
– la variance ou l’écart-type notée σ,
– la proportion p (pour un caractère dénombrable).
Comme un échantillon ne peut donner qu’une information partielle sur la population,
les estimations ainsi obtenues seront inévitablement entachées d’erreurs que l’on doit
minimiser autant que possible. En résumé :
Estimer un paramètre θ, c’est donner une valeur approchée de θ, à partir des résultats
obtenus sur un échantillon aléatoire extrait de la population.
5.2.1 Estimateur et estimation

Estimateur
Si (X1 , . . . , Xn ) est un échantillon aléatoire d’effectif n de loi parente la loi de X,
alors nous appelons estimateur du paramètre θ. toute fonction hn de l’échantillon
aléatoire (X1 , . . . , Xn ), noté θbn :
θbn = hn (X1, . . . , Xn)
Remarque 5.3
1. priori l’estimateur θbn est à valeurs dans un ensemble Θ, contenant l’ensemble
des valeurs possibles du paramètre θ.
2. θbn est une v.a. de loi de probabilité qui dépend du paramètre θ.
3. θbn peut être univarié ou multivarié.
M.Badaoui UH1-ENSAK
Estimation
Une fois l’échantillon prélevé, nous disposons de n valeurs observées x1 , . . . , xn , ce
qui nous fournit une valeur hn (x1 , . . . , xn ) qui est une réalisation de θbn et que nous
appelons estimation.
Remarque 5.4
1. Nous distinguons la variable aléatoire θbn de sa valeur observée, notée θbn (x1 , . . . , xn ).
2. Nous utiliserons les notations suivantes :
(i) (X1 , . . . , Xn ) désigne l’échantillon aléatoire de taille n et les n observations
ne sont pas encore à disposition.
(ii) (x1 , . . . , xn ) désigne une réalisation de l’échantillon aléatoire et les n ob-
servations sont à disposition
3. Il faut systématiquement se demander : suis-je entrain de manipuler une
variable aléatoire ou l’une de ses réalisations ?
5.2.2 Propriétés d’un estimateur

Le choix d’un estimateur va reposer sur ses qualités. Le premier défaut possible
concerne la possibilité de comporter un biais.
• Bias d’un estimateur
Le biais de θbn se définit par b(n, θ) = E(θbn ) − θ
• Estimateur sans biais
θbn est un estimateur sans biais (ou non biaisé) du paramètre θ si b(n, θ) = 0
c’est-à-dire si E(θbn ) = θ
• Estimateur asymptotiquement sans biais
Un estimateur θbn est asymptotiquement sans biais pour θ si lim E(θbn ) = θ
n→+∞
• Écart quadratique moyen

Si θbn est un estimateur de θ, nous mesurons la précision de θbn par l’écart
quadratique moyen, noté EQM :

EQM (θbn ) = E (θbn − θ)2 = V (θbn ) + b(n, θ)2
Remarque 5.5 Si θbn est un estimateur sans biais, c’est-à-dire si b(n, θ) = 0,

alors :EQM (θbn ) = V (θbn )
Propriété 5.3 Entre deux estimateurs de θ, nous choisissons celui dont l’écart
quadratique moyen ou le risque est le plus faible.
M.Badaoui UH1-ENSAK
• Estimateur relativement plus efficace

Un estimateur θbn1 est relativement plus efficace qu’un estimateur θbn2 s’il est plus
précis que le second, c’est-à-dire si :

EQM θbn1 ≤ EQM θbn2
• Estimateur sans biais optimal

Nous appelons estimateur sans biais optimal parmi les estimateurs sans biais,
un estimateur θbn préférable à tout autre au sens de la variance c’est-à-dire
l’estimateur le plus efficace parmi tous les estimateurs sans biais.
• Estimateur convergent
Un estimateur θbn est un estimateur convergent s’il converge en probabilité vers
θ quand n tend vers l’infini.
Propriété 5.4 Si un estimateur est sans biais et que sa variance tend vers
zéro quand n tend vers l’infini, alors cet estimateur est convergent.
5.2.3 Trois exemples

Soit (X1 , . . . , Xn ) un échantillon aléatoire de loi parente la loi de X.
• Estimateur de la moyenne
L’estimateur X n est égal à
n
1X
Xn = Xi
n i=1
Propriété 5.5 Pour un échantillon aléatoire dont la loi parente admet une
espérance notée µ, X n est un estimateur sans biais de la moyenne µ, c’est-
à-dire E(X n ) = µ. Lorsque la loi parente admet une variance, notée σ 2 , la
variance de lestimateur µbn est égale à V (X n ) = σ 2 /n et X n est un estimateur
convergent de la moyenne µ.
• Estimateur de la variance
L’estimateur Sn2 est égal à
n
1X
Sn2 = (Xi − X n )2
n i=1
espérance notée µ et une variance notée σ 2 , Sn2 est un estimateur biaisé de la
variance σ 2 et le biais b(n, σ 2 ) est égal à −σ 2 /n.
M.Badaoui UH1-ENSAK
Sn2 est donc un estimateur asymptotiquement sans biais.
En effet :
On a
n
1X
Sn2 = (Xi − X n )2
n i=1
n
1X 2 2
= (Xi − 2Xi X n + X n )
n i=1
n n n
1X 2 Xn X 1X 2
= X −2 Xi + X
n i=1 i n i=1 n i=1 n
n
1X 2 Xn 1 2
= Xi − 2 n X n + nX n
n i=1 n n
n
1X 2 2
= Xi − X n
n i=1
d’autre part
E(X 2 ) = V (X) + (E(X))2
donc
n
!
1 X 2
E(Sn2 ) = E X2 − Xn
n i=1 i
n
1X 2
E Xi2 − E X n

=
n i=1
n
1 X 2
2
= V (Xi ) + (E(Xi )) − V (X n ) + E(X n )
n i=1

2 1 2
= V (X) + (E(X)) − V (X) + (E(X))
n
1 1
= V (X) − V (X) = σ 2 − σ 2
n n
• Estimateur corrigé de la variance
2
L’estimateur corrigé de la variance Snc est égal à
n
2 n Sn2 1 X
Snc = = (Xi − X n )2
n−1 n − 1 i=1
M.Badaoui UH1-ENSAK
espérance notée µ et une variance notée σ 2 , Sn,c
2
est un estimateur sans biais
2
de la variance σ .
En effet
1 2
E(Sn2 ) = σ 2 − σ
n
n
E(Sn2 ) = σ 2
n
− 1
n 2
E S = σ2
n−1 n
2
= σ2

E Snc
5.2.4 Vraisemblance d’un échantillon

La vraisemblance des observations x = (x1 , . . . , xn ) d’un échantillon aléatoire de
loi parente la loi de X est définie de la façon suivante :
– Si X est une variable aléatoire continue :
n
Y
θ ∈ Θ 7→ L(x1 , . . . , xn |θ) = f (xi , θ),
i=1
où Θ et l’ensemble des valeurs possibles du paramètre θ.

– Si X est une variable aléatoire discrète :
n
Y
θ ∈ Θ 7→ L(x1 , . . . , xn |θ) = P(X = xi ).
i=1
Remarque 5.6 Les expressions des vraisemblances ci-dessus ne sont valables que
parce que les variables aléatoires X1 , . . . , Xn sont indépendantes par définition d’un
échantillon aléatoire.
En fait, vu la forme des densités des lois usuelles de probabilité, il est aussi aisé
d’utiliser le logarithme de la vraisemblance, log L(x1 , . . . , xn |θ), si f (x, θ) > 0, pour
tout x ∈ Rn , pour tout θ ∈ Θ :
n
!
Y
log L(x1 , . . . , xn |θ) = log f (xi , θ)
i=1
n
X
= log (f (xi , θ))
i=1
M.Badaoui UH1-ENSAK
5.2.4.1 Information de Fisher

Définition 5.2 L’information de Fisher, quand elle existe, apportée par les n ob-
servations x1 , . . . , xn sur le paramètre θ est :
" 2 #
∂ log(L(x|θ))
In (θ) = E
∂θ
Evidement, que le log(L(x|θ)) soit défini et dérivable par rapport à θ. Si de plus

cette fonction est deux fois dérivables, on a la propriété suivante :
Proposition 5.1 Si le domaine de définition de la densité de probalité f (x, θ) de

la variable X est indépendante de θ, alors :
2
∂ log(L(x|θ))
1. In (θ) = −E si cette dernière expression existe,
∂θ2
2. In (θ) = nI1 (θ) où I1 (θ) est l’information relative à un xi .
Exemple 5.1 Soit X une variable aléatoire de loi exponentielle de paramètre 1/θ
avec θ > 0, de densité pour x > 0 :
1 −x/θ
f (x, θ) = e
θ
la vraisemblance admet ici pour expression :
n n
!
Y 1 1X
L(x1 , . . . , xn |θ) = f (xi , θ) = n exp − xi
i=1
θ θ i=1
pour calculer la quantité d’information de Fisher nous écrivons la log-vraisemblance :

n
1X
log L(x1 , . . . , xn |θ) = −n log θ − xi
θ i=1
nous dérivons par rapport au paramètre :

n
∂ log L n 1 X
= − + 2 xi
∂θ θ θ i=1
Comme X(Ω) = R+ est indépendant de θ, on peut utiliser l’expression de la propo-

sition,
n
∂ 2 log L n 2 X
= 2− 3 xi
∂θ2 θ θ i=1
M.Badaoui UH1-ENSAK
ce qui permet d’obtenir :

n
!
∂ 2 log L

n 2 X
In (θ) = −E = −E − Xi
∂θ2 θ2 θ3 i=1
n
!
n 2 X
= − 2 + 3E Xi
θ θ i=1
Pn
comme E ( i=1 Xi ) = nE (X) = nθ on obtient :
n 2 n
In (θ) = −2
+ 3 nθ = 2
θ θ θ
Le théorème suivant va préciser la borne inférieure pour la variance des estima-
teurs sans biais, sous certaines hypothèsess de régularités de la loi de probabilité
de X et que nous appellerons hypothèses de Cramer-Rao. Nous ne donnerons pas
le détail de ces hypothèses qui sont essentiellement des conditions techniques sur la
densité f de X.
Théorème 5.1 sous les hypothèses de Cramer-Rao, en particulier si X(Ω) est
indépendant du paramètre à estimer θ, pour tout estimateur θbn de θ on a :
2
h i 1 + ∂b(n,θ)
∂θ
E (θbn − θ)2 ≥
In (θ)
Si l’estimateur θbn est sans bias, alors
h i 1
E (θbn − θ)2 = V (θbn ) ≥
In (θ)
2
(1+ ∂b(n,θ)
∂θ )
La quantité BF (θ) = In (θ)
est la borne inférieure de Fréchet-Darmois-
Cramer-Rao (FDCR en abrégé).
La variance d’un estimateur sans biais est minorée par une quantité indépendante
de cet estimateur, elle ne peut donc pas être inférieure à une certaine borne.
Remarque 5.7 Si on estime g(θ) au lieu de θ, ou g est une fonction supposé
connue est dérivable, et si la statistique T est l’estimateur de g(θ), alors l’inégalité
précédente de FDCR devient :
2
0 ∂b(n,θ)
g (θ) + ∂θ
E (T − g(θ))2 ≥

In (θ)
2
(g0 (θ)+ ∂b(n,θ)
∂θ )
et BF (θ) = In (θ)
M.Badaoui UH1-ENSAK
Définition 5.3 (Estimateur efficace) Un estimateur sans biais θbn est dit efficace
si sa variance est égale à la borne inférieure de FDCR :
1
V (θbn ) =
In (θ)
Exemple 5.2 Si on reprenons l’exemple de la loi exponentielle de paramètre 1/θ,

comme E(X) = θ, on sait que θbn = X n est un estimateur sans biais et convergent.
De plus :
V (X) θ2 1
V (θbn ) = V (X n ) = = =
n n In (θ)
donc X n est efficace.
5.3 Estimateurs ponctuelles

L’estimation θb d’un paramètre quelconque θ est ponctuelle si on lui associe une
seule valeur à partir d’un échantillon aléatoire donné.
5.3.1 Méthode du maximum de vraisemblance

La vraisemblance L(x1 , . . . , xn |θ) représente la probabilité d’observer le n-uplet
(x1 , . . . , xn ) pour une valeur fixée de θ. Dans la situation inverse ici où on a observé
(x1 , . . . , xn ) sans connaı̂tre la valeur de θ, on va attribuer à θ la valeur qui paraı̂t la
plus vraisemblable, compte tenu de l’observation dont on dispose, c’est-à-dire celle
qui va lui attribuer la plus forte probabilité. On se fixe donc la règle suivante : à
(x1 , . . . , xn ) fixé, on considère la vraiszemblance L comme une fonction de θ et on
attribue à θ la valeur qui maximise cette fonction.
5.3.1.1 Estimateur du maximum de vraisemblance

Définition 5.4 Un estimateur du maximum de vraisemblance (EMV) du paramètre
θ est une statistique de l’échantillon :
n
θbn : DX → Θ
x = (x1 , . . . , xn ) 7→ θbn (x1 , . . . , xn )
telle que ∀θ ∈ Θ, L(x1 , . . . , xn |θbn ) ≥ L(x1 , . . . , xn |θ).
Remarques 5.2
1. L(x|θ) n’a aucune raison d’être différentiable en θ.
M.Badaoui UH1-ENSAK
2. L(x|θ) étant une densité de probabilité, cette méthode revient à supposer que
l’événement qui s’est produit était le plus probable.
3. Il n’y a aucune raison pour qu’un EMV soit sans biais.
4. Un EMV n’a aucune raison d’être unique.
Remarque 5.8 Le principe de vraisemblance, à la base de la procédure d’estima-
tion du maximum de vraisemblance, revient à rechercher la valeur de θ, fonction des
observations (x1 , . . . , xn ), qui assure la plus grande probabilité d’obtenir ces obser-
vations.
La recherche d’un maximum de la vraisemblance n’est pas forcément réduite à un
simple calcul des zéros de la dérivée de L.
Cependant, ce cas étant le plus fréquent, il est logique de poser l’hypothèse suivante :
n
♣ ∀x ∈ DX , ∀θ ∈ Θ, L est deux fois continûment dérivable par rapport à θ.
Alors θbn , EMV, est solution du système d’équations en θ suivant :
∂L


 (x|θ) = 0 (1)
∂θ
2
 ∂ L (x|θ) < 0 (2)

∂θ2
Ainsi, on préfère souvant travailler avec la fonction Logarithme qui est rappelons
le strictement croissante, par conséquent notre système d’équations devient
∂ log L
(1) ⇔ (x|θ) = 0
∂θ
et
∂ 2 log L
(2) ⇔ (x|θ) < 0
∂θ2
Exemple 5.3 Soit X une variable aléatoire de loi exponentielle de paramètre 1/θ
avec θ > 0, de densité pour x > 0 :
1 −x/θ
f (x, θ) = e
θ
la vraisemblance admet ici pour expression :
n n
!
Y 1 1X
L(x1 , . . . , xn |θ) = f (xi , θ) = n exp − xi
i=1
θ θ i=1
pour faciliter le calcul de la quantité, nous écrivons la log-vraisemblance :

n
1X
log L(x1 , . . . , xn |θ) = −n log θ − xi
θ i=1
M.Badaoui UH1-ENSAK
Cherchons l’EMV pour la famille de lois exponentielle . La log-vraisemblance est

indéfiniment dérivable pour θ > 0 :
n
∂ log L n 1 X
= − + 2 xi
∂θ θ θ i=1
1
Pn
qui s’annule en changeant de signe pour θ = n i=1 xi = xn , avec :
n
∂ 2 log L n 2 X n
2
= 2− 3 xi = 3 (θ − 2xn )
∂θ θ θ i=1 θ
soit pour θ = xn :
∂ 2 log L

n
= − <0
∂θ2 θ=xn x2n
donc l’EMV est θbn = X n
Propriété 5.8
– propriété d’invariance fonctionnelle : Si θbn est l’estimateur de θ par la méthode
du maximum de vraisemblance, f (θbn ) est l’estimateur de f (θ) par la méthode
du maximum de vraisemblance.
– Si un estimateur θbn de θ est efficace et sans biais alors nécessairement il est
donné par la méthode du maximum de vraisemblance.
– propriété asymptotique de l’EMV : Si θbn est l’estimateur de θ par la méthode
p
du maximum de vraisemblance, La variable aléatoire θn − θ b In (θ) suit la
loi normal centrée et réduite N (0, 1), quand n tend vers l’infini.
5.3.2 Méthode des moments

Dans le cas où le paramètre à estimer est θ = E(X), moyenne théorique de la
loi, nous avons vu que l’estimateur naturel était la moyenne empirique, ou moyenne
de l’échantillion, X n . De même, pour estimer le paramètre θ = V (X), variance de
la loi, nous retenons logiquement comme estimateur la variance empirique Sn2 . Plus
généralement, si l’un des moments d’ordre k ∈ N∗ , non centré mk = E(X k ) = mk (θ),
ou centré µk = E(X −m1 )k = µk (θ), dépend de θ, nous allons chercher un estimateur
par résolution de l’équation en θ obtenue en égalant moment théorique et moment
empirique correspondant, soit :
n n
1X k 1X
mkn = Xi = mk (θ) ou µkn = (Xi − X n )k = µk (θ)
n i=1 n i=1
M.Badaoui UH1-ENSAK
La solution de l’équation, si elle existe et est unique, sera appelée estimateur

obtenu par la méthode des moments. Dans les exemples introductifs où θ = E(X)
et θ = V (X), les équations à résoudre s’écrivaient sous sous forme résolue θ = X n
et θ = Sn2 .
Exemple 5.4 Si X suit une loi exponentielle de paramètre θ, on sait que E(X) =
1/θ et l’équation à résoudre s’écrit X n = 1/θ, de solution immédiate θ = 1/X n qui
correspond à l’estimateur obtenu par la méthode des moments :
1
θbn =
Xn
Bien entendu, on pourrait utiliser cette méthode avec des moments d’ordres plus
élevés et obtenir ainsi d’autres estimateurs. En utisant par exemple la variance
V (X) = 1/θ2 on obtient le nouvel estimateur θbn = 1/Sn .
Cette méthode intuitive se justifie par les propriétés de convergence des moments
empiriques vers les moments théoriques correspondants au chapitre précédent (les
deux théorèmes fondamentaux de la statistique asymptotique : la loi des grands
nombres et le central limite).
D’une manière générale, pour construire des estimateurs θb = (θb1 , θb2 , . . . , θbK ) relatifs
aux paramètres θ = (θ1 , θ2 , . . . , θK ) en utilisant la méthode des moments, on est
amené à résoudre un système à K équations et K inconnus :
n
1X
1. m1 = E(X) = Xi = m1n
n i=1
n
1X 2
2. m2 = E(X 2 ) = X = m2n
n i=1 i
3. . . . . . .
n
1X K
K
K. mK = E(X ) = X = mKn
n i=1 i
Ainsi, à partir de ces K équations et K inconnus θ1 , θ2 , . . . , θK on trouve les solutions
θb1 , θb2 , . . . , θbK qui forment les estimateurs, suivant la méthode des moments, des
paramètres θ1 , θ2 , . . . , θK .
Exemple 5.5 Soit (X1 , . . . , Xn ) un échantillon d’une v.a. X de loi gamma γ(p, θ).
On sait que :
p p
E(X) = et V (X) = 2
θ θ
On voit clairement qu’aucun des paramètres p et θ ne représente un moment de
la variable X, cependant les deux paramètres apparaissent dans la moyenne et la
M.Badaoui UH1-ENSAK
variance de cette variable. Ainsi, la méthode des moments nous donne le systèm
suivant :
p
1. = X n
θ
p
2. 2 = Sn2
θ
se qui donne facilement la solution :
(X n )2 Xn
pb = et θb = 2
Sn2 Sn
5.4 Estimation par intervalle de confiance

5.4.0.1 Exemple introductif
Un industriel commande un lot de tiges métalliques qu’il ne peut utiliser que si
leur longueur est comprise entre 23.60 mm et 23.70 mm. Ces tiges ont été fabriquées
par une machine qui, lorsqu’elle est réglée à la valeur m, produit des tiges dont la
longueur peut être considérée comme une v.a. X de loi normale N (m, σ), où l’écart
type σ est une caractéristique de la machine, de valeur connue, ici σ = 0.02 mm.
Compte tenu de la symétrie de la distribution normale, la proportion des tiges
utilisables par l’industriel sera maximale si le réglage a été effectué à m0 = 23.65 mm.
Ne connaissant pas cette valeur, à la réception d’un lot de tiges l’industriel prélève
au hazard n tiges dont il mesure les longueurs X1 , . . . , Xn pour se faire une idée de
la valeur du paramètre de réglage m. Il calcule la moyenne des longueurs observées
et ayant obtenu la valeur X n = 23.63, il en conclut que, s’il est peu réaliste de
croire que la valeur de m est exactement 22.63 mm, elle doit malgré tout être très
proche de cette valeur moyenne observée sur l’échantillon. Il lui paraı̂t raisonnable
d’aboutir à une conclusion de la forme ”il y a 95 chances sur 100 que la valeur
de m soit comprise entre 23.63 − a et 23.63 + b”. Le problème consiste alors à
fixer des valeurs précises pour a et b et on conçoit bien qu’elles doivent dépendre des
”chances” que l’on a attribué à cet intervalle de contenir effectivement la vraie valeur
de m. L’intervalle ainsi obtenu s’appellera intervalle de confiance et sa probabilité qui
permis de le déterminer, niveau de confiance. La longueur de cet intervalle sera bien
sûr proportionnelle à ce niveau de confiance. On peut par exemple toujours fournir
un intervalle qui contient avec certitude le paramètre en le choisissant suffisamment
large ; mais dans ce cas, cet intervalle ne nous renseigne en aucune façon sur la vraie
valeur du paramètre. Il faut donc arriver à un compromis entre un intervalle pas
trop grand et une probabilité assez élevée de contenir la paramètre.
Pour une famille quelconque de lois de probabililté (Pθ ; θ ∈ Θ) on peut donner la
définition suivante
M.Badaoui UH1-ENSAK
Définition 5.5 Un intervalle de confiance pour le paramètre θ, de niveau de confiance

β = 1 − α ∈]0, 1[, est un intervalle qui a la probabilité β de contenir la vraie valeur
du paramètre θ.
La probabilité complémentaire α mesure le risque d’erreur de l’intervalle, c’est-à-dire
la probabilité que l’intervalle ne contienne pas la vraie valeur de θ.
5.4.0.2 Principe de construcion

La donnée de départ, outre l’échantillon, sera la connaissance de la loi de proba-
bilité de la statistique T, Fonction d’un ”bon” estimateur ponctuel θb de θ, utilisée
pour l’estimation par intervalle de confiance du paramètre θ. En réalité il n’existe
pas une méthode de résolution générale de ce problème ; cependant on peut citer la
démarche suivante :
Dans l’exemple précédent, nous avions abouti à un intervalle de la forme X n − a <
m < X n + b qui correspond à la réalisation d’un événement devant se produire avec
une probabilité fixée 1 − α. La détermination des valeur a et b va donc se faire à
partir de la valeur 1−α de la probabilité, fixé par le staticien, à partir de la condition
qui s’écrit ici :
1 − α = P (X n − a < m < X n + b)
qui est équivalente à :
1 − α = P (−b < X n − m < a)
Il n’y a donc qu’une seule condition pour déterminer ces deux valeurs ; cependant, la
loi de la v.a. X n − m qui sert à construire cet intervalle étant symétrique, on choisit
b = a et on utilise la variable centrée et réduite pour déterminer la valeur de a qui
vérifie la condition :

a Xn − m a
1−α = P − √ < √ < √
σ/ n σ/ n σ/ n
Si F est la fonction de répartition de la loi N (0, 1), alors a est solution de :
√ √ √
1 − α = F (a n/σ) − F (−a n/σ) = 2F (a n/σ) − 1
√ √
ou 1 − α/2 = F (a n/σ), soit a n/σ = F −1 (1 − α/2). Pour un niveau de confiance
de 0.95, soit α = 0.05, et pour une taille d’échantillon n = 100, le fractille d’ordre
0.975 de la loi N (0, 1) a pour valeur 1.96 et on en déduit a = 0.004, d’ou l’intervalle :
23.626 < m < 23.634
obtenu pour cet échantillon particulier.
M.Badaoui UH1-ENSAK
5.4.1 Estimation usuels

5.4.1.1 Estimation de la moyenne : cas de la loi normale
Soit X1 , . . . , Xn un échantillon aléatoire simple extrait d’une variable X suivant
la loi normale N (m, σ). Cette fois-ci le paramètre θ = m, on distingue deux cas :
a) Variance σ 2 connue :
La moyenne empirique X n est le meilleur estimateur de m et on sait que√X n suit
pour tout n exactement la loi normale N (m, √σn ). Donc la statistique T = n X nσ−m
suit la loi normale centrée et réduite N (0, 1). Dés lors pour α donnée on peut trouver
u telle :
√ X n − m

P n
<u
= 1−α
σ
qui est équivalente à :

σ σ
P Xn − √ u < m < Xn + √ u = 1−α
n n
Par conséquent, l’intervalle de confiance cherché est le suivant :

σ σ
X n − √ u, X n + √ u
n n
b) Variance σ 2 inconnue :
√
La statistique T = n X nσ−m utilisée dans la situatuion précédente, et dont la loi
était connue, était la variable centrée et réduite. Elle ne peut convenir ici puisque
le paramètre σ est inconnu et va donc devoir être remplacé par un estimateur, basé
sur la variance empirique modifiée qui est un estimateur sans biais de la variance
théorique σ 2 .
n
2 1 X
Snc = (Xi − X n )2
n − 1 i=1
On utilise donc comme nouvelle statistique :

√ Xn − m
Tn−1 = n
Snc
qui suit la loi de Student à n − 1 degrés de liberté. Dés lors pour α donnée on peut
déterminer la valeur de t, par lecture du tableau de fractile de la loi de student, telle
M.Badaoui UH1-ENSAK
que :
√ Xn − m

P −t < n <t = 1−α
Snc
L’intervalle a bien sûr été choisi symétrique puisque la loi utilisée est symétrique.
Par inversion de cet intervalle, on obtient :

Snc Snc
P Xn − t√ < m < Xn + t√ = 1−α
n n
ce qui fournit l’intervalle de confiance pour m de niveau 1 − α, centré en X n et de

longueur aléatoire Ln = 2t S√ncn :

Snc Snc
Xn − t√ , Xn + t√
n n
Remarque 5.9 Pour n > 30, et grâce au théorème central-limite, les deux procédures
précédentes restent encore valables même si l’échantillon n’est pas nécessairement
extrait d’une loi normale.
Exemple 5.6 Sur un échantillon de n = 30 durées de vie d’un certain modèle

de lampe on a obtenu comme moments empiriques x30 = 2000h et s30 = 300h.
L’intervalle de confiance de niveau 0.95 pour la durée de vie moyenne m est donc :
s30 s30
x30 − t √ < m < x30 + t √
30 30
où t est défini par P (−t < T29 < t) = 0.95 ou P (T29 < t) = 0.975 soit t = 2.045
d’où l’intervalle :
1888 < m < 2112
de longueur l = 224h observé sur cet échantillon. Si σ avait été connu, de même
valeur que celle observée sur l’échantillon, soit σ = 300, l’intervalle correspondant
aurait été :
σ σ
x30 − u √ < m < x30 + u √
30 30
avec u = F −1 (0.975) = 1.96 soit l’intervalle 1893 < m < 2107, de longueur l =
214h, inferieure à la précédente. Ainsi, la connaissance du paramètre σ conduit
logiquement à un intervalle plus précis.
M.Badaoui UH1-ENSAK
5.4.1.2 Estimation de la variance : cas de la loi normale

a) La moyenne m connue :
On a θ = σ, or le meilleur estimateur de σ 2 est σ bn2 = n1 ni=1 (Xi − m)2 cet un
P
estimateur sans biais, convergent et efficace. De plus la statistique :
n
X b2
σ
T = (Xi − m)2 = n n2
i=1
σ
est de loi connue χ2n à n degrés de liberté. Dès lors pour α donnée on peut déterminer
les valeurs de a et b telles que :
bn2

σ
P a<n 2 <b = 1−α
σ
ce qui conduit à l’intervalle de confiance défini par :
2
bn2

σ
bn 2 σ
P n <σ <n = 1−α
b a
Par conséquent l’intervalle de confiance cherché est le suivant :
2
bn2

σ
bn σ
n ,n
b a
Cependant, il n’y a qu’une seule condition pour déterminer les deux valeurs a et b et
il reste à un degré d’incertitude puisque loi utilisé n’est pas symétrique. si on pose
α1 = P (χ2n < a) et α2 = P (χ2n > b), la soule contrainte dans le choix de α1 et α2
est α1 + α2 = α.
Exemple 5.7 Pour estimer la précision d’un thermomètre, on réalise 15 mesures
independantes de la température d’un liquide qui maintenu à température constante,
égale à 20 degrés celsius. Compte tenu des erreurs de mesure, la valeur indiquée
par le thermomètre peut être considérée comme une v.a normale dont la moyenne
m est la valeur exacte de la température, soit ici m = 20, et dont l’écart type σ est
inconnu et caractérise la précision du thermomètre. On a observé sur l’échantillion
2
de taille 15 la valeur σ b15 = 18 et qu’on retient un intervalle à erreurs symétriques
(choix le moins arbitraire), pour un niveau de confiance 1 − α = 0, 99 on lit dans la
table des fonction de répartition de la loi χ2n les valeurs a = 4, 60 et b = 32, 8 d’où
l’intervalle :
8, 23 < σ 2 < 58, 70
Mais compte tenu de l’interprétation du paramètre qui mesure ici un degré d’imprécision,
on souhaite qu’il soit le plus faible possible et on retient plus logiquement un inter-
valle unilatéral à gauche, de la forme σ 2 < constante, ce qui corresppond au choix
α1 = α = 0, 01 et α2 = 0, soit a = 5, 23 et l’intervalle :
σ 2 < 51, 63
M.Badaoui UH1-ENSAK
b) La moyenne m inconnue :
bn2 , ainsi
On a m est inconnue donc on va la remplacer par son estimateur X n dans σ
l’estimateur sans biais et convergent de qu’il faut retenir est :
n
2 1 X
Snc = (Xi − X n )2
n − 1 i=1
Or on sait que la statistique

2
Snc
T = (n − 1) 2
σ
suit une distribution de χ2n−1 à n − 1 degrés de liberté, et on doit donc déterminer
les valeurs de a et b telles que :
2

Snc
P a < (n − 1) <b = 1−α
σ
ce qui conduit un intervalle de confiance défini par :

2 2

Snc Snc
P (n − 1) < σ < (n − 1) = 1−α
b a
Par conséquent l’intervalle de confiance cherché est le suivant :

2 2

Snc Snc
(n − 1) , (n − 1)
b a
Là encore, il n’y a qu’une seule contrainte pour déterminer

les valeurs de a et b ; si
2 2
nous posons α1 = P χn−1 < a et α2 = P χn−1 > b , la contrainte est α1 + α2 = α.
Exemple 5.8 Sur un échantillion de seize chifres d’affaires de magasins d’une

chaine de grandes surfaces on a observé s216 = 72, 53. L’intervalle de niveau 0, 95 à
risques symétriques est définit à partir de α1 = α2 = 0, 025 et on lit dans la table
de fonction de répartition de la loi de χ2n−1 , a = 6, 26 et b = 27, 49 d’où l’intervalle
39, 59 < σ < 173, 79. Si on fait le choix d’un intervalle unilatéral à gauche, soit
α = α1 = 0, 05 et α2 = 0 on obtient a = 7, 26 et l’intervalle σ 2 < 149, 86 qui est de
longueur plus grande que le précédent.
5.5 Estimation d’une proportion

Soit une population formé d’individus ayant ou non un caractère A avec une
propbabilité p d’obtenir le caractère (paramètre d’une loi Binomiale). On cherche à
M.Badaoui UH1-ENSAK
déterminer cette probabilité inconnue en prélevant un échantillon (avec remise si la

population est finie) de taille n dans cette population. On constate que x éléments
pami les n idividus possèdent le caractère A. On considére maintenant la variable
fréquence X/n, elle a les propriétés d’un estimateur sans biais de p et convergent.
Soit une population où une proportion des individus possède un caractère A avec
une propbabilité p d’obtenir le caractère (paramètre d’une loi Binomiale), cette po-
pulation est supposée infinie (ou finie si le tirage s’effectue avec remise). Le problème
consiste à déterminer un intervalle de confiance pour la probabilité p à partir des
résultats apportés par un échantillon de taille n. cet échantillon, on associe la va-
riable aléatoire X qui compte le nombre de succès (avoir ce caractère) au cours de
n essais indépendants, cette variable suit la loi Binomiale B(n; p). Le paramètre à
estimer est la probabilité p de succès au cours d’une épreuve.
Un estimateur sans biais du paramètre p est la fréquence f = X/n de succès à
l’issue de n épreuves, X étant le nombre de succès (de personnes ayant le caractère
A) obtenus au cours de ces n épreuves :
r
p(1 − p)
E(f ) = p V (f ) =
n
Selon les valeurs de n et de p, cette loi admet différentes lois limites qui sont utilisées
pour déterminer un intervalle de confiance. Dans la pratique, on peut :
– utiliser les tables statistiques qui donnent les limites inférieures et supérieures
d’un intervalle de confiance calculées pour différents seuils et différentes valeurs
de n et k,
– utiliser et justifier l’approximation normale.
Intervalle de confiance d’une proportion calculée avec l’approximation normale : si
n ≥ 50, np > 5 et n(1−p) > 5, la loi de la variable aléatoire f (fréquence des succès)
peut être approchée par la loi normale :
r !
p(1 − p)
N p,
n
Donc la statistique T = q f −p suit asymptotiquement une loi normale centrée

f (1−f )
n
réduite N (0, 1) (théorème de Stutsky).
Un intervalle bilatéral à risques symétriques (f est la fréquence observée sur l’échantillon)
est donné par :
 
f −p
P −t < q < t = 1 − α
f (1−f )
n
M.Badaoui UH1-ENSAK
ce qui fournit l’intervalle de confiance suivant :

" r r #
f (1 − f ) f (1 − f )
f −t ,f + t
n n
Exemple 5.9 Soit un échantillon de taille n = 100 et une proportion estimée f =

0.6. Quel intervalle qui donne une confiance de 0.9 ?
On a ici : 1 − α = 0.9 donc α = 0.1 et t = 1.96.
L’intervalle de confiance autour de la proportion estimée est donc :
" r r #
f (1 − f ) f (1 − f )
f −t ,f + t = [0.5194, 0.6808] .
n n
M.Badaoui UH1-ENSAK
Chapitre 6
Les Tests
6.1 Introduction
La théorie de tests d’hypothèses a un intérêt primordial en pratique. En fait elle
consiste à partir d’un échantillon de prendre une décision concernant la population
tout entière. Cette décision est sous forme d’une réponse à une question par oui
ou non. Puisque la réponse sera due uniquement aux informations données par un
échantillon de la population, alors on accepte évidemment un risque d’erreur, fixé
d’avance, concernant notre réponse. Ces décisions peuvent concerner différents do-
maines d’applications.
Si la loi de probabilité PX de la population d’où il est extrait l’échantillon est sup-
posée appartenir à une famille connue de lois de probabilités mais dépendre d’un
paramètre θ, on parle alors des tests paramétriques. Par contre si cette loi appar-
tient plutôt à une large classe de lois de probabilités qui ne met pas en évidence
des paramétriques, on parle alors des tests non paramétriques. Ces derniers test ne
mettent aucun hypothèses sur l’origine de provenance de l’échantillon, en plus ils
restent en général valables même si la taille de celui-ci est petit.
6.2 Hypothèses nulle et alternative

Un test statistique est une procédure qui, à partir d’un échantillon, permet de
prendre une décision en choisissant entre deux possibilités que nous avons définies
nous même. Ces possibilités sont dites des hypothèses, et notées H0 et H1 :
H0 s’applelle hypothèse nulle, et H1 s’appelle hypothèse alternative.
L’hypothèse nulle H0 est souvent l’hypothèse priviligiée, c’est celle qu’on souhaite
prendre comme décision.
Dans un modèle paramétrique, la loi de probabilité Pθ de la variable alétoire X est
supposée appartenir à une famille connue de lois de probabilités mais dépendante
71
d’un paramètre inconnu θ ∈ Θ. C’est ce paramètre θ qui nous intéresse. Ainsi, on

partition l’ensemble Θ en deux parties disjoints Θ0 et Θ1 , pour tester l’hypothèse
nulle :
H0 : θ ∈ Θ0
Contre l’hypothèse alternative :
H1 : θ ∈ Θ1
Définition 6.1 Une hypothèse Hi (i=0 ou 1) est dite simple si Θi contient qu’un
seul élément, et elle est dite composite sinon.
Exemple 6.1 Deux tests d’hypothèses sont intéressants en pratique, il s’agit des
tests suivants :
– Test d’une hypothèse simple contre une hypothèse simple :
H0 : θ = θ0
H1 : θ = θ1
– Test d’une hypothèse simple contre une hypothèse composite :
H0 : θ = θ0
H1 : θ 6= θ0 (ou bien H1 : θ > θ0 )
6.3 Risque de 1er et 2eme espèce

Pour effectuer un test, on doit choisir une statistique T (critère de test) conve-
nable de telle manière que :
– On accepte l’hypothèse nulle H0 si T ∈ I0 S T
– On accepte l’hypothèse alternative H1 si T ∈ I1 , où I0 I1 = R et I0 I1 = ∅
Définition 6.2 On appelle région critique, la partie R de R qui permet de refuser

H0 en faveur H1 . Elle est donnée par : R = {t ∈ R/T ∈ I1 }
Donc, l’ensemble des valeurs observées pour lesquelles l’hypothèse nulle est admis-
sible forme la région d’acceptation ou de non-rejet et les autres valeurs constituent
la région de rejet ou domaine de rejet ou région critique.
Dans ce cas la statistique T s’appelle aussi le test T . En autre, suite à un test on
doit choisir une seule décision à savoir : accepeter H0 ou bien H1 . par suite, on peut
distinguer quatre possibilités suivantes :
M.Badaoui UH1-ENSAK
Tableau des erreurs
Réalité H0 vraie H0 fausse

Décision
Accepter H0 Bonne décision erreur de 2eme espèce
Refuser H0 erreur de 1er espèce Bonne décision
Tableau des risques

Réalité H0 vraie H0 fausse
Décision
Accepter H0 1−α β
Refuser H0 α 1−β
Le risque de 1er espèce, notée α, est la probabilité de refuser l’hypothèse H0 , alors

qu’elle est vraie :
α = P (T ∈ I1 /H0 vraie)
Le risque de 2eme espèce, notée β, est la probabilité d’accepter l’hypothèse H0 , alors

qu’elle est fausse :
β = P (T ∈ I0 /H1 vraie)
Définition 6.3 On appelle puissance d’un test T , la probabilité de refuser H0 lors-

qu’elle est fausse. C’est donc la quantité : 1-β.
Remarques 6.1
i. Le choix de l’hypothèse nulle est fait de façons à pouvoir déterminer la loi du
critère T.
ii. Ne pas rejeter l’hypothèse nulle ne signifie pas qu’on doit automatiquement l’ac-
cepter et la considérer comme vraie ! Cela signifie simplement qu’au vue des
informations disponibles, on n’a pas de raison de la considérer comme fausse.
iii. Lorsque le critère de test appartient à la zone de rejet, il se peut que
– l’hypothèse H0 soit fausse.
– H0 soit vraie mais que l’échantillon corresponde à l’un des cas rares obser-
valbes sous cette hypothèse,
– l’échantillon n’ait pas été tiré au hazard.
M.Badaoui UH1-ENSAK
6.4 Exemples d’utilisation

6.4.0.3 Comparer un échantillon à une référence théorique
L’hypothèse H0 consiste à supposer que les différences observées sont suffisement
faibles pour être explicables par le hazards du tirage au sort. Il s’agit d’un test de
conformité.
6.4.0.4 Comparer plusieurs échantillons

L’hypothèse H0 consiste à supposer qu’il proviennent d’une même population,
c’est-à-dire que les différences observées sont explicables par la fluctuations d’échantillonage.
Il s’agit d’un test d’homogénité.
Exemple 6.2 (Risque du vendeur, risque de l’acheteur) en économie, le rsique

de première espèce α s’appelle le risque du vendeur, et le risque de deuxième espèce
β le risque d’acheteur. Pourquoi ?
Un acheteur passe une commande très importante, avec des spécifications à respec-
ter.
À la livraison, l’acheteur ne peut pas tout contrôler. Il analyse un échantillon de
produits, en faisant attention au caractère aléatoire du prélèvement.
En général, il n’y a pas de problème. Mais deux types de décision erronée peuvent
apparaı̂tre :
♣ Le prélèvement ne respecte pas les spécifications et la commande est refusée, alors
qu’elle était globalement bonne (H0 est déclarer fausse, alors qu’elle est vraie).
C’est le risque α ; supporté par le vendeur.
♣ Le prélèvement respecte les spécifications et la commande est accpetée, alors
qu’elle était globalement mauvaise (H0 est déclarer vraie, alors qu’elle est
fausse). C’est le risque β ; supporté par l’acheteur.
6.5 Choix d’un test suivant le procédure de Ney-

man
Pour effectuer un test il faut en premier lieu :
– Choisir une statistique pour effectuer ce test.
Mais, pour que cette statistique soit convenable, il faut, en principe, avoir à la fois
une puissance maximale et une erreur de 1er espèce minimal. Cependant, ces deux
grandeurs ne sont pas symétriques, d’où l’impossibilité de satisfaire ces deux condi-
tions en mêmes temps. C’est pour cette raison que les deux statisticiens Neyman et
Pearson ont proposé, pour effectuer un test, de :
M.Badaoui UH1-ENSAK
1. Préciser l’hypothèse nulle H0

2. Choisir le test statistique T approprié pour tester H0
3. Trouver la distribution d’échantillonnage de la statistique T sous H0
4. Spécifier un niveau α de signification
5. Sur la base de 2, 3 et 4 définir la région critique par α = P (T ∈ I1 /H0 vraie)
6. Finalement, determiner la valeur t0 de la statistique T à partir de l’échantillon
disponible. Si t0 ∈ I1 on rejète l’hypothèse nulle H0 sinon on accepte H0 .
6.6 La classification des tests

Très vaste est la palette des tests qui peuvent être mis en œuvre pour traiter des
problèmes ayant pour objet :
– la conformité d’un paramètre à une valeur standard donnée, les cas les plus
courants étant ceux d’une moyenne, d’une proportion, et d’une variance ;
– la comparaison d’un paramètre ou plus généralement d’une distribution de
probabilités entre K groupes (populations, échantillons...), le cas K = 2 étant
plus particulièrement développé ici ;
– l’ajustement d’une distribution théorique donnée aux données observées ;
– l’indépendance entre variables aléatoires ;
– ···
• A cet effet, les deux grandes familles à considérer sont celles ;
– des tests paramétriques qui portent sur le paramètre de la distribution as-
sociée aux données considérées ;
– des tests non paramétriques qui ne font pas d’hypothèse sur ladite distribu-
tion.
• Le choix du test à utiliser est également fonction de la nature des données pro-
posées :
– paramétrique ou non, dans le cas de valeurs représentatives des écarts, telles
des mesures (variables dites quantitatives) ;
– non paramétrique, dans le cas contraire de variables qualitatives ou ordi-
nales à valeurs en nombre fini, telles oui-non, homme-femme, peu satisfait-
satisfait-très satisfait...
• Enfin, dans le cadre des problèmes de comparaison, on distinguera :
– les échantillons indépendants dans lesquels les observations faites sont indépendantes
à l’intérieur d’un groupe et entre les groupes considérés ;
– les échantillons appariés dans lesquels d’un groupe à l’autre les données sont
liées, tel le cas le plus courant où il est procédé à des mesures répétées sur
les mêmes sujets (par exemple, le poids d’une personne avant et après un
régime).
M.Badaoui UH1-ENSAK
6.7 Quelques tests paramétriques usuels : cas d’un

échantillion
On suppose dans ce chapitre que les échantillons sont issus d’une loi normale ou
peuvent être approximés par une loi normale.
6.7.1 Test d’une espérence

On suppose que l’on a un échantillon de loi parente la variable X, qui suit une
loi normale N (m, σ). On propose de tester si la moyenne m de X est égale à une
valeur m0 donnée ou une valeur plus grande que m0 . Donc on a :
l’hypothèse nulle H0 : m = m0
l’hypothèse alternative H1 : m > m0 (test unilatéral).
Ainsi, à partir d’un échantillion X1 , X2 , . . . , Xn extrait de X. On distinguera deux
cas :
a) le cas où l’écart-type σ est connu.
b) le cas où σ est inconnu.
a) σ connu :
La moyenne empirique X n est le meilleur estimateur de m et sous l’hypothèse nulle
H0 il suit pour tout n exactement la loi normale N (m, √σn ). Donc la statistique
√
T = n X nσ−m suit la loi normale centrée et réduite N (0, 1). Dés lors pour un niveau
de signification α donnée on peut trouver la région critique par :
√ Xn − m

α = P T ∈ I1 H0 vraie = P n > uα
σ
où 1 − α = FN (0,1) (uα ). Donc la région critique est définie par :

σ
X n > m0 + √ uα
n
ce qui veut dire qu’on rejette l’hypothèse nulle si la valeur de X n pour notre
échantillion est supérieure à m0 + √σn uα .
Exemple 6.3 En supposant que la variable X suit une loi normale N (m, 1), on
désire tester si la moyenne m = 2 contre l’hypothèse unilatéral m > 2. Pour le faire,
on dispose l’échantillion suivant :
2.099 2.771 2.306 2.011 1.236 1.591 1.362 1.868 3.018 2.181
2.513 2.74 1.984 2.279 2.162 2.428 1.525 1.304 5.048 1.714
M.Badaoui UH1-ENSAK
au niveau α = 0.05, en regardant la table de la loi normale N (0, 1) on trouve uα =

1.75. Donc k = m0 + √σn uα = 2+0.37 = 2.37. Or la valeur de X n pour cet échantillion
est : X n = 2.205 qui inférieur à k = 2.37. Donc on accepte l’hypothèse nulle m0 = 2.
Remarque 6.1 pour le test de l’hypothèse nulle
H0 : m = m0 contre l’hypothèse alternative
H1 : m 6= m0 (test bilatéral). On aura :
√ X n − m

α = P T ∈ I1 H0 vraie = P n > uα
σ 2
Donc la région critique sera définie cette fois-ci par la réunion de deux parties :
X n > m0 + √σ u α et X n < m0 − √σ u α
n 2 n 2
b) σ inconnu :
Puisque σ est inconnu, on utilise alors la statistique :
√ X n − m0
Tn−1 = n
Snc
qui suit la loi de Student à n − 1 degrés de liberté. Dés lors pour α donnée on peut
déterminer la valeur de tα , telle que :
√ Xn − m

P n > tα = α
Snc
Donc la région critique est définie par :
√ X n − m0
Tn−1 = n > k = tα
Snc
Exemple 6.4 On reprend l’exemple précédent. On a n = 20, donc au niveau
α = 0.05 si on regarde la table de la loi de Student de n − 1 = 19 de degrés de
libertés on trouve k = tα = 1.729. En autre, nous avons
√
X n = 2.205 et Snc = √20 0.838.
19
Donc :
√ X n − m0
Tn−1 = n = 1.068 < k = 1.729
Snc
donc on accepte l’hypothèse nulle H0 m0 = 2.
Remarque 6.2 pour n > 30, et grâce au théorème central limite, les deux pràcédures
précedentes restent encore valables même si l’échantillion n’est pas extrait d’une loi
normale.
M.Badaoui UH1-ENSAK
6.7.2 Test d’un écart-type

On suppose toujours avoir une variable normale N (m, σ), pour laquelle on s’intéresse
à l’écart-type σ : on désir tester si l’écart-type σ de X est égale à une valeur, c-à-d :
l’hypothèse nulle H0 : σ = σ0
l’hypothèse alternative H1 : σ > σ0 (test unilatéral)

a) m est connue :
On a θ = σ, or le meilleur estimateur de σ 2 est D = n1 ni=1 (Xi − m)2 cet un
P
estimateur sans biais, convergent et efficace. De plus la statistique :
n
X D
T = (Xi − m)2 = n 2
i=1
σ0
est de loi connue χ2n à n degrés de liberté. Dès lors pour un niveau α donnée on peut
déterminer la valeurs de aα telle que :

D
P n 2 > aα = α
σ0
ce qui définie la région critique par

1 2
D> σ aα
n 0
Remarque 6.3 Si on a une hypothèse alternative H1 : σ 6= σ0 on fera un test
bilatéral, Pour un risque d’erreur α fixé on a donc (en choisissant un intervalle
symétrique) :

D
P a 2 < n 2 < b1− 2
α α = 1−α
σ0
avec a α2 et b1− α2 les quantiles d’ordre α2 et 1 − α2 de la loi χ2n . Donc la région de rejet
est
[0; a α2 [∪]b1− α2 ; +∞[
b) m est inconnue :
On a m est inconnue donc on va la remplacer par son estimateur X n dans D, ainsi
nous obtenons l’estimateur :
n
1X
Sn2 = (Xi − X n )2
n i=1
M.Badaoui UH1-ENSAK
Or on sait que la statistique

Sn2
T = n 2
σ0
suit une distribution de χ2n−1 à n − 1 degrés de liberté. Ce qui détermine la région
critique par :
2
Sn
P n > aα = α
σ
ce qui conduit à
1 2
Sn2 > k =
σ aα
n 0
Exemple 6.5 On garde toujours le même exemple ; pour lequel on veut tester :
l’hypothèse nulle H0 : σ = 1
l’hypothèse alternative H1 : σ > 1 (test unilatéral)
Sous l’hypothèse nulle H0 , notre échantillion est issu d’une loi normale N (m, 1).
On a n = 20, donc au niveau α = 0.05 si on regarde la table de la loi de χ2n−1 de
n − 1 = 19 de degrés de libertés on trouve aα = 30.1 ce qui done k = n1 σ02 aα = 1.505.
Or :
Sn2 = 0.701 < k
Donc on accepte l’hypothèse nulle H0 .
6.7.3 Test d’un pourcentage

On dispose d’une population dans laquelle chaque individu présente ou non un
certain caractère, la proportion d’individus présentant le caracère étant notée p0 ,
et un échantillon aléatoire de taille n extrait de cette population. La proportion f
calculée à partir de l’échantillon est considérée comme une réalisation d’une v.a. de
loi Binomiale B(n;
p) qu’on peut assimiler, si n est assez grand, à une loi normale
q
N p, p(1−p) n
. On veut tester
Hypothèses :
H0 : p = p0
H1 : p 6= p0 ,
dans le cas bilatéral. On obtient la région de rejet pour un risque α
" r " # r "
p0 (1 − p0 ) p0 (1 − p0 )
−∞; p0 − q1− α2 ∪ p0 + q1− α2 ; +∞
n n
M.Badaoui UH1-ENSAK
α
avec q1− α2 le quantile d’ordre 1 − 2
de la loi N (0; 1).
Exemple 6.6 Sur un échantillon de 730 poussins d’une entreprise productrice des
poulets, 570 arrivent à survivre. Les responsables de l’usine proposent de tester au
niveau α = 0.05 l’hypothèse nulle H0 : p = 0.75 contre l’hypothèse H1 : p 6= 0.75
(test bilatéral). q q
570 p0 (1−p0 ) 0.75(1−0.75)
On a f = 730
= 0.767 et q1− α2 n
= 1.96 730
= 0.031 et comme
f = 0.767 ∈
/ [−∞; 0.75 − 0.031[ ∪ ]0.75 + 0.031; +∞[
on accepte l’hypothèse nulle H0 au niveau α = 0.05.
6.8 Tests d’homogénéité

La comparaison des résultats de deux groupes est naturellement une tâche fon-
damentale dans les études statistiques, épidémiologiques, sociologiques· · · .
A cet effet, le schéma le plus classique, est de s’appuyer sur un critère quan-
titatif donné (par exemple, les résultats sportifs entre hommes et femmes) et de
raisonner à travers deux échantillons (X1 ; . . . ; Xn1 ) et (Y1 ; . . . ; Yn2 ) issus respective-
ment des deux populations considérées et formés pour chacun de variables aléatoires
indépendantes et de même loi. En outre, on suppose dans cette partie que les Xi et
les Yi sont indépendantes deux à deux, c’est à dire l’indépendance des observations
entre les deux populations en cause.
A la question de l’identité ou non des distributions des variables parentes X et Y
dans chacune des deux populations considérées, les tests non paramétriques offrent
une réponse sans faire d’hypothèse spécifique sur le type de loi considéré.
Autrement, la comparaison de moyennes, proportions, et variances, par le biais
de tests paramétriques, reste fondamentale ici, l’hypothèse d’échantillons de type
gaussien (loi normale) étant supposée vérifiée ci-après (encore que ce champ d’ap-
plication peut être élargi lorsqu’on travaille sur de grands échantillons, n1 ≥ 30,
n2 ≥ 30, et que le théorème central limite est applicable).
Le test de comparaison de variance est nécessaire lors de la comparaison de deux
moyennes lorsque les variances des populations σ12 et σ22 ne sont pas connues (on
teste l’hypothèse dite ”d’homoscédasticité” σ12 = σ22 ). C’est également la statistique
associee à l’analyse de variance. C’est donc plutôt par la comparaison des variances
qu’il convient logiquement de commencer, en principe.
M.Badaoui UH1-ENSAK
6.8.1 Test de comparaison de deux variances ou test de

Fisher-Snedecor
On suppose que l’on a deux échantillons (X1 ; . . . ; Xn1 ) et (Y1 ; . . . ; Yn2 ) qui suivent
une loi normale N (m1 ; σ12 ) et N (m2 ; σ22 ).
On teste l’hypothèse :
H0 : σ12 = σ22
H1 : σ12 6= σ22 .
On considère
n1 n2
1 X 1 X
Sn21 = (Xi − X n1 )2 et Sn22 = (Xi − Y n2 )2
n1 i=1 n2 i=1
2
Sn
et on sait que n1 σ12
1
suit une distribution de χ2n−1 à n − 1 degrés de liberté et la
S2
même chose pour la statistique n2 σn22 .
2
Donc, sous l’hypothèse H0 : σ12 = σ22 la statistique
2
n1 Sn 1
(n1 −1)σ12 n1 (n2 − 1)Sn21
F = 2 =
n2 Sn 2 n2 (n1 − 1)Sn22
(n2 −1)σ22
suit une loi de Fisher-Snedecor à (n1 − 1, n2 − 1) degrés de liberté. On a l’habitude

de choisir le numérateur plus grand que le dominaeur, le rapport des variances doit
être supérieur à 1. Ainsi, en regardant la table de la distribution de Fisher-Snedecor,
pour un risque d’erreur α fixé on obtient la région critique
[0; t1 [ ∪ ]t2 ; +∞[

Comme on peut le constater à travers la table de la distribution, la loi de Fisher-
Snedecor n’est pas symétrique. Mais, dans le cas du test bilatéral considéré ici, on se
contentera pour trouver t1 et t2 de raisonner suivant la symétrie des risques (et non
des valeurs), les risques P (F ≤ t1 ) et P (F ≥ t2 ) étant donc supposés être égaux à
α
2
. La lecture dans la table des valeurs de t1 pour P (F ≤ t1 ) = α2 , et de t2 pour
P (F ≤ t2 ) = 1 − α2 permet de conclure quant à la détermination de cette région
critique et à la décision à retenir en conséquence.
Exemple 6.7 On propose deux échantillons de tailles respectivement n1 = 11 et

n2 = 15 extraits de deux variables X et Y de lois normales :
– Premier échantillon :
0.521; 2.332; 1.158; −0.656; 2.356; 1.287; 1.514; 1.223; 1.727; 0.866; 0.094
M.Badaoui UH1-ENSAK
– Deuxième échantillon :
1.915; 2.557; 2.563; 0.918; 1.118; 0.528; 1.538; 2.421;
1.563; 2.940; 3.124; 2.336; 1.475; 2.261; 3.583
On a :
Sn21 = 0.862 et Sn22 = 0.743
Donc
n1 (n2 − 1)Sn21
F = = 1.078,
n2 (n1 − 1)Sn22
pour α = 0.05 on trouve t1 = 0.282 et t2 = 3.147 puisque F14;10 (0.282) = 0.025 et
F14;10 (3.147) = 0.975.
Ainsi, on a t1 < F < t2 donc on accepte l’hypothèse nulle H0 : σ12 = σ22
Remarque 6.4
– Lorsque m1 et m2 sont connues on utilise sous l’hypothèse H0 : σ12 = σ22
σ
bn2 /σ 2 σ
bn2
1
la fonction discriminante F = 1
bn2 /σ22
σ 2 = σ
bn2
1
qui suit une loi de Fisher-Snedecor
2
à (n1 , n2 ) degrés de liberté, où les statistiques σ bn2 1 et σ
bn2 2 sont définies par
n1 n2
1 X 1 X
σbn2 1 = (Xi − m1 )2 et σ bn2 2 = (Xi − m2 )2
n1 i=1 n2 i=1
– Il existe d’autres statistiques que celle de Fisher-Snédecor pour comparer deux
variances, notamment le test de Hartley qui impose l’égalité de la taille des
échantillons comparés n1 = n2 mais que nous ne développerons pas dans ce
cours.
6.8.2 Test de comparaison de deux moyennes

On propose de tester :
Hypothèse :
H0 : m1 = m2
H1 : m1 6= m2 .
Comme les variances σ12 et σ22 sont inconnues ; alors on les remplaces par leurs esti-
mateurs non biaisés :
n1 n2
1 X 1 X
Sn21 c = (Xi − X n1 )2 et Sn22 c = (Xi − Y n2 )2
n1 − 1 i=1 n2 − 1 i=1
(n1 −1)S 2 (n2 −1)S 2
or, les variables σ12
n1 c
et σ22
n2 c
suivent une loi de Khi-deux χ2 à (n1 − 1) et
à (n2 − 1) degrés de libertés respectivement, iI s’ensuit que la variable
(n1 − 1)Sn21 c (n2 − 1)Sn22 c
T = +
σ12 σ22
M.Badaoui UH1-ENSAK
suit une loi de Khi-deux χ2 à n1 + n2 − 2 degrés de libertés.

σ2 σ2
D’autre part, la variable de décision X n1 −Y n2 suit la loi normale N m1 − m2 ; n11 + n22 ,
(X n1 −Yrn2 )−(m1 −m2 )
d’où la variable U = σ2 σ2
suit la loi normale centrée réduite N (0; 1),
1+ 2
n1 n2
ce qui prouve que la statistique

U
Z=q
T
n1 +n2 −2
suit la loi de Student de n1 + n2 − 2 degrés de libertés.

Si le test de Fisher-Snedecor a permis de conclure à l’égalité des variances des deux
populations σ12 = σ22 = σ 2 (homoscédasticité), et sous l’hypothèse H0 la statistique
Z se réduit à
X n1 − Y n2 √
Z=r n1 + n2 − 2
1 1
(n1 − 1)Sn21 c + (n2 − 1)Sn22 c n1 + n2
et constitue la fonction de décision cherchée.

Pour un risque d’erreur α fixé et pour un test bilatéral, la région critique est de la
forme |Z| > tα , c-à-d P (|Z| > tα ) = α.
Exemple 6.8 On garde les deux échantillons de l’exemple précédent pour lesquels
on a accepté σ12 = σ22 . On tente cette fois-ci de tester l’hypothèse nulle H0 : m1 = m2 .
On a X 11 = 1.022 et Y 15 = 1.811, donc :
X n1 − Y n2 √
Z=r
n1 + n2 − 2 = −2.653
1 1

(n1 − 1)Sn21 c + (n2 − 1)Sn22 c n1
+ n2
Or pour α = 0.05 et d’après la table de Student à 24 degrés de libertés, on a tα =

2.064, donc on rejette l’hypothèse nulle en faveur de l’ypothèse alternative H1 : m1 6=
m2 .
Remarque 6.5
– Si les deux échantillons ont la même taille n1 = n2 . Le test se ramène à une
test à une moyenne nulle de l’échantillon (Z1 ; . . . ; Zn ), avec Zi = Xi − Yi .
– Lorsque σ12 et σ22 sont connues on utilise sous l’hypothèse H0 : m1 = m2
la fonction
X n − Y n2
U = q 12 ,
σ1 σ22
n1
+ n2
qui suit la loi normale centrée réduite, comme fonction de décision.
M.Badaoui UH1-ENSAK
– Lorsque σ12 6= σ22 on utilise, sous l’hypothèse H0 : m1 = m2 , comme fonction

de décision la statistique
X n − Y n2
Z=p 2 1 ,
Sn1 c /n1 + Sn22 c /n2
qui suit une loi de Student à n degrés de liberté, où n est l’entier le plus proche
de 2
Sn21 c /n1 + Sn22 c /n2
(n1 − 1)Sn41 c /n41 + (n2 − 1)Sn42 c /n42
– Lorsque n1 et n2 sont supérieurs à 30, on utilise, sous l’hypothèse H0 : m1 =
m2 , la fonction de décision
X n − Y n2
Z=p 2 1 ,
Sn1 c /n1 + Sn22 c /n2
qui peut être approximé par une loi normale centrée réduite.
6.8.3 Test de comparaison de deux proportions

On veut comparer deux proportions p1 et p2 à partir de deux échantillons. Le
modèle mathématique est le suivant. On considère les proportions f1 et f2 associés
aux deux échantillons. On veut tester
H0 : p1 = p2 contre
H1 : p1 6= p2 .
On prend la statistique
f1 − f2 n1 f1 + n2 f2
Z=p avec F =
F (1 − F )(1/n1 + 1/n2) n1 + n2
On obtient la région de rejet pour un risque α ; |Z| > q1− α2 c-à-d

−∞; −q1− α2 ∪ q1− α2 ; +∞
α
avec q1− α2 le quantile d’ordre 1 − 2
de la loi N (0; 1).
Exemple 6.9 Dans un échantillon de 328 étudiants (118 qui n’ont pas assisté aux
cours et 210 qui y ont assisté), on observe que 71 parmi ceux qui n’ont pas assisté
aux cours échouent contre 45 seulement parmi ceux qui y ont assisté.On propose
de tester l’hypothèse nulle selon laquelle le taux de réussite est le même dans la
population des étudiants qui n’assistent pas (P1 ) aux cours que dans la population
des étudiants qui y assistent (P2 ).
M.Badaoui UH1-ENSAK
On a : n1 = 118, n2 = 210 et n1 + n2 = 328,

f1 = 118−71
118
= 0.4 (taux de réussite pour (P1 )), et f2 = 210−45
210
= 0.79 (taux de
réussite pour (P2 )),
d’autre part F = n1nf11 +n
+n2 f2
2
= 47+165
328
= 0.65.
Ainsi au niveau α = 0.05 du test, on a
f1 − f2 0.39
Z=p = = 6.84 > 1.96
F (1 − F )(1/n1 + 1/n2) 0.057
Par conséquent, on rejète l’hypothèse nulle pour laquelle le taux de réussite est le
même pour les deux populations.
6.9 Tests de comparaison d’échantillon appariés

Dans ce paragraphe, on reprend les notations du paragraphe antérieur avec no-
tamment les deux échantillons (X1 ; . . . ; Xn1 ) et (Y1 ; . . . ; Yn2 ), mais c’est désormais
sur les mêmes individus que portent les comparaisons dans les deux échantillons
(un seul groupe qui a subi deux expériences ou épreuves différentes), ce qui suppose
n1 = n2 = n et les variables Xi et Yi non indépendantes.
Par exemple, un régime testé sur n individus est-il efficace ou non, le caractère me-
suré avant régime X et après régime Y étant le poids de la personne considérée.
Le but est de comparer ces deux échantillons cependant on se contante de tester
l’égalité des moyennes m1 = m2 .
Hypothèses :
H0 : m1 = m2
H1 : m1 6= m2
La dépendance de ces deux échantillons ne permet pas d’utiliser les méthodes précedentes.
On propose alors d’introduire la variable aléatoire Z = X − Y , qui suit une loi nor-
male d’espérance E(Z) = m1 − m2 et de variance σ 2 , et de tester
Hypothèses :
H0 : E(Z) = 0
H1 : E(Z) 6= 0
La comparaison de la moyenne de deux échantillons appariés est fondée sur l’analyse
des différences observées pour chacune des n paires d’observations i, zi = (xi − yi ).
Comme on ne connaı̂t pas, en général, la variance σ 2 , on fait un test de Student sur
la moyenne des différences :
√ Z
Tn−1 = n−1
Snc
M.Badaoui UH1-ENSAK
avec v
u n
u 1 X
Snc =t (Zi − Z)2
n − 1 i=1
On rejette H0 si |Tn−1 | > k, la valeur critique k dépend du seuil α choisi.
Exemple 6.10 Un éleveur de bovins désire tester un nouveau régime pour ces
bétails. Ainsi, il sole 10 boeufs adultes pour leur proposer le régime pondant une
période de deux mois. Les données avant et après le régime sont les suivants :
Boeuf num. 1 2 3 4 5 6 7 8 9 10
Avant xi 173 166 150 158 160 160 183 165 142 155
Après yi 182 177 155 165 169 171 185 162 143 153
zi = yi − xi 9 11 5 7 9 11 2 -3 1 -2
Si on admet que les variables X et Y suivent des lois normales. Il est intéressant de
tester : Hypothèses :
H0 : m1 = m2
H1 : m1 < m2
Pour Z = Y − X, on teste
Hypothèses :
H0 : E(Z) = 0
H1 : E(Z) > 0
En plus, il est intéressant de minimiser le risque de premier espèce, on a donc choisie
le niveau α = 0.01. Comme :
√ Z
T9 = n−1 = 3.024 > k = 2.821,
Snc
ce qui signifie qu’il y a bien une amélioration très significative pour le nouveau régime
sur l’ancien.
6.10 Analyse de la variance

L’analyse de variance (ANalysis Of VAriance=ANOVA) permet de comparer les
moyennes de plusieurs échantillons indépendants à fin de tester l’influence d’un ou
de plusieurs facteurs.
L’analyse de variance n’est valable en toute rigueur que pour des échantillons tirés
de populations normales et de même variance (Homoscédasticité). En général, le non
respect de ces conditions n’a pas trop d’influence sur la validité du test (on dit que
l’analyse de variance est une méthode ”robuste”). L’erreur introduite est cependant
d’autant plus forte que les effectifs des échantillons sont faibles et inégaux.
M.Badaoui UH1-ENSAK
6.10.1 Analyse de la variance à un facteur. Comparaison de

plusieurs moyennes
On dispose de k échantillons indépendants E1 , . . . , Ek extraits de k populations
P1 , . . . , Pk supposées gaussiennes et de mêmes variance σ 2 . Les moyennes respectives
des populations sont notées m1 , . . . , mk .
L’analyse de variance permet de comparer globalement les moyennes des popula-
tions. L’hypothès nulle est donc :
H0 : m1 = m2 = . . . = mk
En général, les k échantillons correspondent à k modalités d’un facteur contrôlé. Par
exemple il peut s’agir de k groupes de malades, chaque groupe recevant un traite-
ment différent : le facteur contrôlé est alors le ”facteur traitement”.
Il est donc équivalent de formuler l’hypothèse nulle sous la forme : H0 : la moyenne
des populations est indépendante du facteur étudié.
6.10.1.1 Variance résiduelle et Variance factorielle

– Pour chaque échantillon Ei , de taille ni , on calcule la moyenne xi et la variance
estimée s2i .
– La réunion de tous les échantillons a pour taille n, pour moyenne x et pour
variance estimée s2 . On a :
k k
X 1X
n= ni et x= ni xi
i=1
n i=1
s2 caractérise la dispersion de l’ensemble des données par rapport à la moyenne
générale x.
– Avec les hypothèses de départ, on dispose d’une première estimation de σ 2
appelée variance résiduelle (ou variance intragroupe) et définie par :
k
1 X
s2R = (ni − 1)s2i .
n − k i=1
s2R est la moyenne des variance estimées s2i affectées des coefficients (ni − 1).
Elle caractérise la dispersion des valeurs à l’interieur des échantillons.
– Sous l’hypothèse H0 , on dispose d’une deuxième estimation de σ 2 appelée
variance factorielle (ou variance intergroupe) et définie par :
k
1 X
s2F = ni (xi − x)2 .
k − 1 i=1
s2F caractérise la dispersion des valeurs d’un échantillon à l’autre, c’est à dire
la variation due à l’influence du facteur étudié.
M.Badaoui UH1-ENSAK
Théorème 6.1 (d’analyse de variance)
(n − 1)s2 = (n − k)s2R + (k − 1)s2F

(n−k) s2R +(k−1) s2F
soit : s2 = n−1
.
s2 est donc une moyenne pondérée de s2R et s2F . Ce théorème permet d’obtenir s2F
après avoir calculé s2R et s2 , ce qui est plus rapide qu’avec la définition.
s2
– Sous H0 , la statistique F = sF2 suit la loi de Snédécor à (k − 1, n − k) degrés
R
de liberté.
– Soit α le risuqe de première espèce choisi.
On lit dans le tableau de Snédécor la valeur fα telle que :
s2
P sF2 ≥ fα = α.
R
s2F
Si s2R
< fα on peut pas écarter H0 .
s2F
Si ≥ fα , on rejette H0 au risue α, c’est à dire que l’on attribue une influence
s2R
significative au facteur étudié.
Exemple 6.11 On étudie l’activité d’un enzyme serique (PDE). On admettra l’hy-
pothèse de normalité et d’égalité des variances des population parentes.
Femmes non enceintes Femmes enceintes
1.5 4.2
1.6 5.5
1.4 4.6
2.9 5.4
2.2 3.9
1.8 5.4
2.7 2.7
1.9 3.9
2.2 4.1
2.8 4.1
2.1 4.6
1.8 3.9
3.7 3.5
1.8
2.1
– La grossesse a t-elle-une influence significative sur l’activité de la PDE ?

On dispose de deux échantillons :
– Femmes non enceintes :
n1 = 15 x1 = 2.17 s21 = 0.387
M.Badaoui UH1-ENSAK
– Femmes enceintes :
n2 = 13 x2 = 4.29 s22 = 0.651
– Total :
n = 28 x = 3.15 s2 = 1.655
La variance residuelle vaut :
1
s2R = 14s21 + 12s22 ' 0.51

26
La variance factorielle peut se calculer :
– Soit avec sa définition :
1
s2F = 15(x1 − x)2 + 13(x2 − x)2 ' 31.47

1
– Soit par le Théorème de l’analyse de variance :
27s2 = 26s2R + s2F

D’où
s2F
F = ' 61.9
s2R
On teste H0 : la grossesse n’a pas d’influence significative sur l’activité de la
PDE.
s2
– Sous H0 , on sait que la statistique F = sF2 suit la loi de Snédécor à (1, 26)
R
degrés de liberté. 2
s
Le nombre fα tel que : P sF2 ≥ fα = α est :
R
f0.05 = 4.23 pour α = 0.05
f0.025 = 5.66 pour α = 0.025
f0.001 = 13.74 pour α = 0.1%
s2
Comme F = sF2 > fα dans tous ces cas l’influence de la grossesse est signifivative
R
même au risque 0.1%.
6.11 Test de Khi-deux

On désigne par les tests de Khi-deux tous les tests qui fonts appelles aux sta-
tistiques qui suivent asymptotiquement la loi de Khi-deux χ2 . On retrouve par
exemple :
• le test d’indépendance : consiste à tester l’indépendance entre deux caractères
qualitatives.
• le test d’ajustement : qui consiste à tester si un échantillon provient ou non d’une
variable aléatoire de loi de probabilité connue.
M.Badaoui UH1-ENSAK
6.11.1 Test d’indépendance

Pour tester l’indépendance de deux caractères X et Y , qualitatifs ou quantitatifs
(répartis alors en classes), à respectivement r etP s modalités, on relève le nombre
r Ps
nij d’individus d’une population de taille n = i=1 j=1 ij qui possède simul-
n
tanément la modalité i, 1 ≤ i ≤ r, du caratère X et la modalité j, 1 ≤ j ≤ s, du
caractère Y . Soit pij la probabilité théorique correspondante, pour un individu tiré
au hazard dans la population, de posséder Ps simulatnémentPces deux modalités i et
r
j. Les probabilités marginales sont pi. = j=1 pij et p.j = i=1 pij . L’indépendance
de ces deux caractères se traduit par l’hypothèse nulle H0 : pij = pi. p.j . Pour tester
cette hypothèse contre l’alternative H1 : pij 6= pi. p.j , on utilise la statistique :
r X s r Xs
!
X (nij − ni. n.j /n)2 X n2ij
Dn = =n −1
i=1 j=1
n i. n.j /n i=1 j=1
n i. n .j
Sa loi asymptotique,
Ps sous H0 , est la
Ploi du Khi-deux à (r −1)(s−1) degrés de liberté.
r
On a noté ni. = j=1 nij et n.j = i=1 nij les effectifs marginaux. La région critique
de ce test est de la forme :
Dn ≥ C
Pour un risque de première espèce α = P (Dn ≥ C | H0 ), la valeur de C est approxi-
mativement la fractile d’ordre 1 − α de la loi χ2(r−1)(s−1) .
Exemple 6.12 Pour comparer l’éfficacité de deux médicamnents comparables, mais
de prix très différents, la sécurité sociale a effectué une enquête sur les guérisons
obtenus avec ces deux traitements. Les résulltats sont présentés dans le tableau sui-
vant :
Y Médicament cher Médicament bon marché
X
Guérisons 156 44 200
Non-guérisons 44 6 50
200 50 250
On calcule la valeur de la statistique :

1562 442 62

Dn = 250 +2 4 + − 1 = 2.5
4.104 10 25.102
cette statistique suit asymptotiquement une loi de χ2 à (2 − 1)(2 − 1) = 1 degrés de
liberté.
Pour un risque de première espèce α = 0.05 le fractille d’ordre 1 − α de la loi de χ21
a pour valeur C = 3.84, c’est à dire P (χ21 ≥ 3.84) = 0.05.
Puisque la valeur observée de la statistique Dn est inférieure, on accepte l’hypothèse
nulle d’indépendance du taux de guérison et du coût du médicamnet.
M.Badaoui UH1-ENSAK
6.11.2 Test d’ajustement

Le principe général de ce test est le suivant :
On suppose qu’il y a k alternatives A1 , . . . , Ak pourPune certaine expérience aléatoire.
k
Soient p1 , . . . , pk des nombres positifs tels que i=1 pi = 1. On souhaite tester
l’hypothèse :
H0 : P (Ai ) = pi pour tout i ∈ {1, . . . , k}
Pour cela on procède à n répétitions de l’expérience aléatoire. On note xi nombre
de réalisation de Ai . Cette variable suit une loi Binomiale B(n, pi ) de moyenne et
variance :
E(xi ) = npi
Soit la statistique :
k
X (xi − npi )2
T =
i=1
npi
on peut montrer que cette statistique suit approximativement une loi du χ2 de k − 1
degrés de liberté lorsque tous les npi sont assez grands. Dans la pratique, il suffit
npi > 5 ∀i. Cette statistique est une somme de valeurs positives. Elle est grande si
l’une d’elle est grande, donc si la fréquence d’un des événements Ai est loin de la
fréquence théorique.
Le test du χ2 de niveau α rejette l’hypothèse H0 lorsque la statistique de test T est
plus grande qu’un seuil tα tel que :
P χ2k−1 ≥ tα = α

Les tables statistiques permettent de déterminer ce seuil.

Exemple 6.13 On procède à 120 lancers d’un dé à six faces et veut tester, au
niveau 5%, si ce dé est équilibré. On obtient comme nombre d’apparitions des faces
les valeurs
face N 1 2 3 4 5 6
xi 26 20 16 27 15 16
Réponse : on a : n = 120 et Ai = i pour i = 1, . . . , 6 ⇒ pi = 1/6 ∀i.
La valeur théorique est npi = 20 > 5 ∀i. La statistique T vaut donc :
T = (26 − 20)2 /20 + (20 − 20)2 /20 + . . . + (16 − 20)2 /20 = 7.1
Cette statistique est approximativement distribuées comme un χ25 . En regardant la
table on trouve que :
P χ25 ≥ tα = 0.05 ⇒ tα = 11.07

Donc, tα > T on accepte, au niveau 5%, l’hypothèse nulle pour laquelle le dé est
équilibré.
M.Badaoui UH1-ENSAK
Exemple 6.14 Test d’adéquation à une loi donnée. Soit un échantillon de taille
n = 300 présenté dans le tableau suivant :
classes ≤1 ]1,3] ]3,5] ]5,7] ]7,9] >9
xi 11 38 117 89 41 4
On propose de tester si cet échantillon est issu d’une variable suivant une loi N (5, 2)
Réponse : on a : A1 =] − ∞, 1], A2 =]1, 3], A3 =]3, 5], A4 =]5, 7], A5 =]7, 9],
A6 =]9, +∞[ et n = 300.
Or pour X ∼ N (5, 2), on trouve :
p1 = PX (A1 ) = 0.0228 ; p2 = PX (A2 ) = 0.1359 ; p3 = PX (A3 ) = 0.3413 ;
p4 = PX (A4 ) = 0.1359 ; p5 = PX (A5 ) = 0.0228 ; p6 = PX (A6 ) = 0.0228
k
X (xi − npi )2
T = = 2.55 + 0.19 + 2.08 + 1.75 + 0.001 + 1.17 = 7.75
i=1
npi
En regardant la table on trouve que :

P χ25 ≥ tα = 0.05 ⇒ tα = 11.07

Donc,tα > T on accepte, au niveau 5%, l’hypothèse nulle pour laquelle l’échantillon
est issu d’une variable suivant une loi N (5, 2).
6.12 Le test de Henry

Ce test sert à voir si une série statistique peut être ajustée par une loi normale.
En effet, si X est une variable aléatoire qui suit la loi normale N (m, σ), la va-
riable U = X−mσ
suit la loi normale centrée réduite N (0,
1).
x−m
Ainsi, pour tout x, on a P (X < x) = P U < t = σ = F (t), F (t) étant la fonc-
tion de répartition de la variable U dont la table des valeurs bien connue.
La transformée de la fonction de répartition dans le plan (U, X), sur un papier

gausso-arithmétique, est une droite de pente 1/σ, appelée droite de Henry.
Le papier gausso-arithmétique (voir la fin de l’exemple d’utilisation suivant) est

un papier style ”papier millimétré” comportant trois axes : l’axe des abscisses à
échelle arithmétique et deux axes pour les ordonnées (celui de droite est à échelle
arithmétique, celui de gauche est à échelle gaussienne). Les valeurs de droite ont
pour probabilités les valeurs de gauche suivant la loi normale N (0, 1) (c-à-d l’axe
des ordonnées à droite est gradué selon les valeurs de F mais proportionnellement
aux valeurs de U à gauche), par exemple :
M.Badaoui UH1-ENSAK
U =0 F (0) = 0.5
U =1 F (1) = 0.8417 U = −1 F (−1) = 0.1583
U =2 F (2) = 0.9772 U = −2 F (−2) = 0.0228
On répète ce procédé pour toutes les valeurs de la variable U . On peut, de la même

façon choisir les valeurs de F et en déduire les valeurs de U .
Pour vérifier si un échantillon est extrait d’une population normale, on porte :
– en abscisses, les valeurs des observations, c’est-à-dire les limites supérieures
des classes,
– en ordonnées, les fréquences cumulées correspondantes.
Si les données proviennent d’une loi normale, les points devraient s’aligner. Si la loi
n’est pas normale, les points devraient former une courbe quelconque.
L’approximation de la moyenne m et l’écart-type σ de la variable X à partir de
l’ajustement de ces points (droite de Henry) :
L’intersection de la droite de Henry avec la droite U = 0 (F = 0.50) donne la
valeur de l’espérance mathématique E(X) = m. En faite cette valeur x est une
approximation de la médiane puisque F = P (X < x) = 0.50. Or une loi normale
à la particularité que la moyenne égale la médiane. Nous obtenons donc aussi une
approximation de la moyenne.
Quant à l’approximation de la valeur de σ, elle peut être obtenue de deux façons :
– si U = 1, (F = 0.8415), xi − m = σ.
– si U = −1, (F = 0.1585), xi − m = −σ.
Ces deux valeurs sont indiquées sur le papier gausso-arithmétique.
Exemple 6.15 À la demande de la chambre syndicale des fabricants de produits

surgelés, une enquête portant sur les dépenses mensuelles de produits surgelés chez
les ménages dotés d’un réfrigérateur avec conservateur (***) a été faite.
Les résultats de cette enquête sont les suivants :
Nombre de ménages Dépenses mensuelles
dans l’échantillon (en euros)
25 moins de 20
25 20 à moins de 40
75 80 à moins de 100
85 100 à moins de 120
75 120 à moins de 140
50 140 à moins de 160
45 160 à moins de 200
15 200 et plus
M.Badaoui UH1-ENSAK
Nous allons d’abord calculer les fréquences cumulées et tracer le graphique sur le
papier gausso-arithmétique page suivante :
l’effectif total N = 500
borne de la classe fréquence cumulée croissante
moins 0
20 0.05
40 0.10
60 0.19
80 0.31
100 0.46
120 0.63
140 0.78
160 0.88
200 0,97
plus 1
M.Badaoui UH1-ENSAK
Papier gausso-arithmétique
M.Badaoui UH1-ENSAK
Le graphique nous indique que les points d’abscisse les dépenses et d’ordonnées
(axe de droite) les fréquences cumulées correspondantes sont pratiquement alignés.
L’ajustement de ces points donne la droite de Henry.
Sur notre graphique à la hauteur F = 0.50 sur l’échelle verticale de gauche (ou
U = 0 sur l’échelle de droite), on peut lire environ m = 103 et Pour obtenir une
approximation de l’écart type, on lit à la hauteur F = 0.8415 sur l’échelle verticale
de gauche (ou U = 1 sur l’échelle de droite) la valeur xi = 151, et comme xi −m = σ
on trouve σ = 148.
Autre méthode :
Nous pourrions aussi utiliser la méthode des moindres carrés pour déterminer
l’équation de cette droite mais le graphique nous montre que deux points (40; 0.10)
et (160; 0.88) doivent être situés sur cette droite de Henry.
Nous allons donc plus vite en résolvant le système suivant

0.10 → t = −1.282 et x = 40
0.88 → t = 1.175 et x = 40
Pour trouver son équation du type t = ax + b, il suffit de résoudre le système

suivant :
−1.282 = 40a + b a = 0.0205
⇒
1.175 = 160a + b b = −2.1010
Comme a = σ1 et b = −m σ
, la distribution observée suit approximativement une
loi normale de paramètres m = 102, 61 et σ = 48, 84.
M.Badaoui UH1-ENSAK

Cours Statistique Et Probabilité Complet PDF

Transféré par

Droits d'auteur :

Formats disponibles

Cours Statistique Et Probabilité Complet PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Statistique Et Probabilité Complet PDF

Transféré par

Droits d'auteur :

Formats disponibles

Université Hassan Premier

École Nationale des Sciences Appliquées de

Probabilité & Statistique

3 Variables aléatoires discrètes 15

3.1.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . 18

4 Variables aléatoires réelles 32

4.4.5 Théorème central-imite . . . . . . . . . . . . . . . . . . . . . . 43

1.1 Notions fondamentales

Exemple 1.1 Soient E et F telque E = {1, 2, 3} et F = {5, 6, 7} alors on a le

Plus généralement si E1 , . . . , En désigne n ensembles. On note E1 × E2 × · · · × En ,

1.1.2 Cardinal d’un ensemble

Proposition 1.1 Soit E un ensemble fini et A et B deux sous ensemble de E alors

1.1.3 Factoriel d’un nombre

Exemple 1.2 5! = 5 × 4 × 3 × 2 × 1 = 120, le nombre de façon de placer 5 étudiants

Cette propriété permet de couper la factorielle en n’importe quelle partie de son

Remarque 1.2 On a nécessairement 1 ≤ p ≤ n, p ∈ N∗ . Si n < p alors Apn = 0.

1.2.1 Arrangements sans répétition

Apn = n(n − 1)(n − 2) . . . (n − p + 1)

Exemple 1.3 Dans un course de 10 chevaux, il y a A310 = 10×9×8 = 720 manières

1.2.2 Arrangements avec répétition

1.3.2 Permutations avec répétition

Le nombre de permutations est

1.4.2 Combinaison avec répétition

Exemple 1.8 Soit la constitution de mots de 3 lettres à partir d’un alphabet à 5

Définition 2.2 Un événement aléatoire, un événement qui peut ou non se réaliser

2.1.1 Algèbre des événements

– Événement A ∪ B : A ∪ B est réalisé si et seulement si l’un au moins des

On arrive au point éssentiel de définir la probabilité d’un événement A (A ⊂ Ω),

2.2 Probabilité dans le cas général

2.2.1 Probabilité uniforme sur Ω

Principe à suivre pour résoudre un exercice en probabilité :

L’expérience aléatoire ξ est de tirer 3 boules de l’urne contenant au total 12 boules

2.2.2 Probabilité conditionnelle

2.2.2.1 Formules des probabilités composées

– A : l’événement dont on cherche à prévoir la probabilité.

Propriété 2.2 (Formules des probabilités totale)

Théorème 2.1 (de Bayes)

Les employés sont divisés en deux catégories disjointes :

2.2.2.2 Indépendances d’événements

Théorème 2.2 (Critère d’indépendance)

Variables aléatoires discrètes

Notation : l’événement X −1 {xk } = {ω ∈ Ω/X(ω) = xk } sera

or P(Ω) = 1 donc P(X −1 (S)) = 1, mais

3. On note S = X(Ω) = {x1 , . . . , xk , . . .}, alors ∀xk ∈ S : X −1 ({xk }) ∈ P(Ω).

5. X : Ω −→ R ou C et Y : Ω −→ R ou C deux v.a.d avec X(Ω) = S et

3.1.2 Loi de probabilité associée à une v.a.d

Théorème 3.1 {(xk ; pk ); 1 ≤ k ≤ n} est la loi de probabilité d’une v.a.d si et

Remarque 3.2 kkk

X(Ω) et PX ({xk }), xk ∈ X(Ω)

Remarque 3.3 Soit X : Ω −→ R une v.a.d, on peut définir la loi de probabilité

3.1.3 Fonction de répartition

FX (x) = PX (] − ∞, x]) = P(X ≤ x).

Remarque 3.4 Il est facile de voir que

et si X(Ω) = S = {x1 , . . . , xn } alors :

Proposition 3.1 FX est à valeurs dans [0,1], croissante et continue à droite en

la fonction de répartition de X est définit comme suit

3.2 Lois de probabilités usuelles

P(IA = 0) = P(ω /ω 6∈ A) = P(Ac ) = 1 − p

P(IA = 1) = P(ω /ω ∈ A) = P(A) = pkkkk