Cours Statistique Déscriptive L1 2023
Cours Statistique Déscriptive L1 2023
Cours Statistique Déscriptive L1 2023
1- Définitions :
a- On appelle population , un ensemble d’éléments homogènes auxquels on
s’intéresse. Par exemple, les étudiants d’une section, les familles des
travailleurs, les enseignants d’une université, les élèves d’une école…., cet
ensemble (population) est noté par
b- Les éléments de la population sont appelées individus ou unités statistiques.
Ces éléments sont notés : i
c- Chaque individu d’une population, peut être décrit selon une ou plusieurs
variables qui peuvent être des caractéristiques qualitatives ou quantitatives.
Des observations concernant un thème particulier ont été effectuées sur ces
individus. La série de ces observations forme ce que l’on appelle une variable
statistique. Par exemple, les notes des étudiants à l’examen, les Mentions qu’ils
ont obtenues à leur Bac, leur Sexe, les Couleurs de leurs Yeux, le Nombre
d’enfants par famille, ….. . Il s’agit d’étudier un caractère . Les réponses
possibles données sont appelés modalités. Il y a deux types de caractère (ou
variable) :
Qualitatif : Si les modalités sont des qualités (ne sont pas mesurables), par
exemple :
Couleur des Yeux, les modalités de la variable sont : Bleu, Marron,
Noir et Vert .
Mention au Bac, les modalités de la variable sont : TB, B, AB et P.
Quantitatif :
Un caractère est dit quantitatif si toutes les modalités sont mesurables,
On distingue 2 types de caractères quantitatifs :
Caractère quantitatif discret, si les modalités sont des valeurs isolées,
appartiennent à un ensemble dénombrable. Par exemple le nombre
d’enfants par famille.
caractère quantitatif continu, les modalités peuvent prendre toute valeur
dans un intervalle. Par exemple la moyenne obtenue appartient à l’intervalle
[0, 20].
Population
Caractère
Qualitatif Quantitatif
2- Variable statistique :
On appelle statistique à une dimension, l’application notée X, définie d’un ensemble
fini appelé population, vers un ensemble appelé ensemble des valeurs du
caractère.
X
X:
X
Pour chaque individu , on associe la valeur prise par le caractère mesuré X .
Exemples :
1- : les étudiants admis au baccalauréat
X : La mention du bac
X :{passable, AB , B, TB, Excellent }
3- Tableau statistique :
a. Cas discret :
Soit X une statistique à une dimension, supposons que :
X( ) = x1 , x 2 ,..., x k .
Effectif de la valeur xi : c’est le nombre de fois que cette valeur se répète dans
la population, ce nombre est noté ni .
Effectif cumulé en xi : c’est la somme de tous les effectifs précédents, ce
i
nombre est noté n~i n j = n1 n2 ... ni .
j 1
ni
Fréquence de la valeur xi , le nombre noté fi .
n
k
nest la taille de l’échantillon ( n ni n1 n2 .....nk ).
i 1
~ i n~i
Fréquence cumulée en xi : f i f j .
j 1 n
Les résultats concernant les observations, sont présentés dans un tableau, en
présentant les modalités numériques en ordre croissant, et en donnant les
effectifs, effectifs cumulés, fréquences et fréquences cumulées.
Exemple 1 :
On a noté le nombre d'enfants X de 20 familles.
On a les résultats suivants:
X 1 1 2 1 2 0 3 2 0 2
2 1 3 2 4 1 3 4 3 2
xi ni ni fi fi
0 2 2 0.1 0.1
1 5 7 0.25 0.35
2 7 14 0.35 0.7
3 4 18 0.2 0.9
4 2 20 0.1 1
total 20 1
b. Cas continu :
Soit X une statistique à une dimension, supposons que X( ) = [a , b] tel que cet
intervalle soit subdivisé en k classes :
a0 , a1, a1, a2 ,....,ak 1 , ak . Avec : a0 a et ak b
classe ai 1 , ai , c’est le nombre de valeurs du caractère qui
ème
a- Effectif de la i
sont dans cette classe.
Exemple 2:
Soient les données suivantes relevées sur un échantillon de 100 étudiants:
Compléter Le tableau statistique suivant:
Taille (cm) ni ni fi fi
[150 ; 160 [ 5
[160 ; 170 [ 10
[170 ; 180 [ 40
[180 ; 190 [ 30
[190 ; 200 [ 15
4- Séries statistiques :
Définition :
Le couple xi , ni i 1, p est appelé série statistique discrète.
Le couple ai 1 , ai , ni i 1, p est appelé série statistique continue.
5- Représentations graphiques :
a. Caractère qualitatif :
Exemple 3 :
Le tableau suivant donne la répartition selon le groupe sanguin de 1000 individus
pris au hasard
A
B
AB
O
600
500
400 O
AB
300
B
200
A
100
0
AB O
6- Paramètres de caractérisation :
a- Etendu :
Etendu de la série, est le nombre noté e X max X min .
b- Amplitude :
Soit ai 1 , ai , ni i 1, p une série statistique continue, on appelle amplitude
e
de la classe ai 1, ai , le nombre noté am , ou k est le nombre de classes.
k
Remarque :
Pour le moment, on choisit des classes de même amplitude. Diverses formules
empiriques permettent d’établir le nombre de classes pour un échantillon de taille
n . On choisit le nombre de classes k E n . (E : la partie entière)
Exemple 4 :
On a noté la moyenne (X) obtenue de 30 étudiants. On a les résultats suivants:
La moyenne ni ni fi fi
[2 ; 5 [ 4 4 0.13 0.13
[5 ; 8 [ 5 9 0.17 0.3
[8 ; 11 [ 11 20 0.37 0.67
[14 ; 17 ] 2 30 0.06 1
total 30 1
12
10
[2 ; 5 [
8
[5 ; 8 [
6 [8 ; 11 [
[11 ; 14 [
4
[14 ; 17 ]
2
7. Fonction de répartition :
a- Cas discret :
On appelle fonction de répartition, la fonction notée F :
F : R 0 ,1
x F ( x) f i
x xi
F est une fonction en escalier, continue sur chaque intervalle xi 1 , xi , et les xi
sont les points de discontinuité.
b- Cas continu :
On appelle fonction de répartition, la fonction notée F :
F : R 0 ,1
i 1 x ai 1
x F ( x) f j f i , x ai 1 , ai
j 1 ai ai 1
La moyenne ni ni fi fi
[2 ; 5 [ 4 4 0.13 0.13
[5 ; 8 [ 5 9 0.17 0.3
[8 ; 11 [ 11 20 0.37 0.67
[14 ; 17 ] 2 30 0.06 1
total 30 1
i 1 x ai 1
F ( x) f j fi , x ai 1 , ai
j 1 ai ai 1
0 x 2
x2
0 . 0.13 x 2,5
52
x 5
0.13 . 0.17 x 5,8
8 5
x 8
F x 0.3 . 0.37 x 8,11
11 8
x 11
0.67 14 11 . 0.27 x 11,14
0.94 x 14 . 0.06 x 14, 17
17 14
1 x 17
Remarque :
Le graphe de la fonction de répartition, appelé courbe cumulative, peut s’obtenir
directement à partir de l’histogramme des fréquences cumulées en joignant les
sommets internes des rectangles.
Cas continu :
On appelle classe modale, la classe qui correspond à l’effectif le plus élevé.
Si la classe modale est unique, alors le mode est calculé par la formule
d’interpolation suivante :
d1
M 0 LM 0 am
d1 d 2 0
Avec :
LM 0 la borne inferieure de la classe modale.
d1 : l’effectif de la classe modale – l’effectif précédent.
d 2 : l’effectif de la classe modale – l’effectif suivant.
am0 : l’amplitude de la classe modale
La moyenne ni ni fi fi
[2 ; 5 [ 4 4 0.13 0.13
[5 ; 8 [ 5 9 0.17 0.3
[8 ; 11 [ 11 20 0.37 0.67
[14 ; 17 ] 2 30 0.06 1
total 30 1
M 0 LM 0
d1
a m0 8
11 5 3 8 4 .3 10
d1 d 2 11 5 11 8 6
Le plus grand nombre d’étudiants, ont eu une moyenne 10
b- La médiane :
Cas discret :
Soit x1 x2 ... xn un échantillon discret.
n
On appelle médiane de cette série, la valeur notée M ed , telle que
2
n
valeurs sont inferieurs et valeurs sont supérieurs.
2
xn xn
2 1
2
si n pair
M ed 2
x n 1 si n impair
2
xi ni ni fi fi
0 2 2 0.1 0.1
1 5 7 0.25 0.35
2 7 14 0.35 0.7
3 4 18 0.2 0.9
4 2 20 0.1 1
total 20 1
x x 22
M ed 10 11 2
2 2
50% de familles ont le nombre d’enfants 2
Cas continu :
On appelle classe médiane, la 1° classe dont l’effectif cumulé soit supérieur
n
ou égal à . On calcule la médiane par la formule d’interpolation
2
n
ncummed
suivante : M ed LM
2 a
ed med .
nmed
Avec : LMed : la borne inferieure de la classe médiane.
ncummed : l’effectif cumulé jusqu’à la classe médiane
nmed : l’effectif de la classe médiane.
a med : l’amplitude de la classe médiane
La moyenne ni ni fi fi
[2 ; 5 [ 4 4 0.13 0.13
[5 ; 8 [ 5 9 0.17 0.3
[8 ; 11 [ 11 20 0.37 0.67
[14 ; 17 ] 2 30 0.06 1
total 30 1
n
ncummed
M ed LM ed
2 a 15 9 .3 9.63
med 8
nmed 11
50% d’étudiants ont eu une moyenne 9.63
c. Les quantiles :
Soit X une statistique telle que x1 x2 ... xn , et soit 0 ,1 .
On appelle quantile d’ordre , la valeur notée Q tel que n valeurs sont Q et
n n valeurs sont Q .
En pratique :
x n x n 1
si n N
Cas discret : Q 2
x E n 1 si n N
Cas continu :
On détermine d’abord la classe l1 ,l2 , la 1° classe dont l’effectif
cumulé soit n .
n ncuml1
Q l1 am
nl1 l 2
ncum l1 : l’effectif cumulé jusqu’à l1
nl1 ,l2 : l’effectif de la classe l1 ,l 2
am : l’amplitude de la classe l1 ,l 2 .
Remarque :
On peut déterminer graphiquement les quantiles d’ordre , à partir du graphe de la
courbe cumulative.
Cas particuliers :
i. Les quartiles :
Il y a 3 quartiles Q1 , Q2 , Q3 .
Le premier quartile Q1 est le quantile d’ordre 0.25
Le deuxième quartile Q2 est le quantile d’ordre 0.5
Le troisième quartile Q3 est le quantile d’ordre 0.75
ii. Les déciles :
i
Il y a 9 déciles D1 , D2 ,...., D9 . Le i ème décile est le quantile d’ordre .
10
iii. Les centiles :
i
Il y a 99 centiles C1 , C 2 ,...., C99 . Le i ème centile est le quantile d’ordre .
100
Exemples :
Pour les deux exemples 1 et 2 ,vu précédemment, calculer les quantiles d’ordre
0.25, 0.7 et 0.75
[5 ; 8 [ 5 9 0.17 0.3
[8 ; 11 [ 11 20 0.37 0.67
[14 ; 17 ] 2 30 0.06 1
total 30 1
7.5 4
0.25 n 7.5 Q0.25 5,8 Q0.25 5 .3 7.1 25%
5
ont eu une moyenne 7.1
La médiane : M ed 9.63
21 20
0.7 n 21 Q0.7 11,14 Q0.75 11 .3 11.37
8
70% ont eu une moyenne 11.37 ? donc 30%ont eu une moyenne 11.37
d. La moyenne arithmétique :
Soit xi , ni i 1, p respectivement ai 1 , ai , ni i 1, p une série statistique
discrète (respectivement continue).
xi ni ni xi
0 2 0
1 5 5
2 7 14
3 4 12
4 2 8
total 20 39
1 k 39
X ni X i 1.95
n i 1 20
Cas continu :
La moyenne Le ni ni Ci
centre
[2 ; 5 [ 3.5 4 14
[5 ; 8 [ 6.5 5 32.5
[8 ; 11 [ 9.5 11 104.5
[14 ; 17 ] 15.5 2 31
total 30 282
1 k 282
X ni Ci 9.4
n i 1 30
Forme de la distribution :
Distributions uni-modales dissymétriques (à droite ou à gauche)
mod med Moy :la distribution est presque symétrique, un très léger étalement à gauche .
b. L’étendue interquartile :
Par les définitions des quartiles, l’intervalle interquartile Q1 , Q3
Contient 50% des observations centrales, sa longueur EIQ (Etendue
interquartile) est un indicateur de dispersion :
EIQ= Q3 Q1
Plus généralement, les longueurs des fourchettes définies par les déciles
extrêmes et les centiles extrêmes, constituent des indicateurs de dispersion
contenant respectivement 80% et 98% des observations centrales.
c. La variance- L’écart-type :
On appelle variance de cette série, le nombre noté V (x) ou 2 X
défini par :
2 2
X ni xi X (Respectivement ni Ci X ).
2 1 k 1 k
n i 1 n i 1
ni xi2 X 2 2 xi X
1 k
n i1
1 k 1 k 1 k
ni xi ni X 2 ni xi X
2 2
1 k 39
X ni X i 1.95
n i 1 20
1 k 101
V X ni xi2 X 2 1.95 2 1.247 1.25
n i 1 20
[2 ; 5 [ 3.5 4 14 49
1 k 282
X ni Ci 9.4
n i 1 30
1 k
V X ni ci2 X 2
2983 .5
9.42 11.09 : Une dispersion
n i 1 30
d- Coefficient de variation :
On appelle coefficient de variation, le nombre : CV . Prend ses valeurs dans
X
l’intervalle 0 , 1. Ce coefficient n’a pas d’unité, il mesure la dispersion relative
par rapport à la moyenne, plus le coefficient de variation est faible c’est-à-dire
proche de 0 , plus on a une concentration des observations proches de la moyenne
et plus le coefficient de variation est proche de 1 plus on a une dispersion des
observations.
Le coefficient de variation nous permet également de comparer les distributions
des deux groupes qui n’ont pas la même unité.
Exemple
Soit trois groupes d’étudiants qui ont obtenus les notes suivantes :
1 10 120
Groupe 1 : 7 8 10 11 11 13 13 14 15 X
10 i1
Xi
10
12
Groupe 2 : 3 4 4 7 7 17 19 20 20 X 12
Groupe 3 : 11 11 12 12 12 12 12 13 13 X 12
Groupe 1 :
total
xi 7 8 10 11 11 13 13 14 15 18 120
xi X -5 -4 -2 -1 -1 1 1 2 3 6
xi X 2 25 16 4 1 1 1 1 4 9 36 98
xi X
1 10
V X
2 98
9.8
10 i 1 10 X la var iance ( X ) 3.13
Cela veut dire qu’en moyenne les étudiants sont à 3,13
de la moyenne trouvée :
Si on prend un étudiant au hasard, on s’attend que sa note soit égale à 12 3.13
3.13
CV 0.26 : Une dispersion de l’ordre de 26%
X 12
Groupe 2 :
total
xi 3 4 4 7 7 17 19 19 20 20 120
xi X -9 -8 -8 -4 -4 5 7 7 8 8
81 64 64 16 16 25 49 49 64 64 492
V X
1 10
xi X 2 492 49.2
10 i 1 10
X la var iance ( X ) 7.01
Cela veut dire qu’en moyenne les étudiants sont à 7,01 de la moyenne trouvée :
Si on prend un étudiant au hasard, on s’attend que sa note soit égale à 12 7.01
7.01
CV 0.58 : Une dispersion de l’ordre de 58%
X 12
Groupe 3 :
total
xi 11 11 12 12 12 12 12 12 13 13 120
xi X -1 -1 0 0 0 0 0 0 1 1
xi X 2 1 1 0 0 0 0 0 0 1 1 4
V X
1 10
xi X 2 4 0.4
10 i 1 10
X la var iance ( X ) 0.63
Cela veut dire qu’en moyenne les étudiants sont à 0,63 de la moyenne trouvée :
Si on prend un étudiant au hasard, on s’attend que sa note soit égale à 12 0.63
0.63
CV 0.05 : Une dispersion de l’ordre de 5%
X 12
9- Les Moments :
a- On appelle moment d’ordre r , le nombre :
1 k 1 k
mr ni xir (respectivement : mr ni Cir .
n i 1 n i 1
Si 0 étalement à droite
0 symétrie
0 étalement à gauche.
r ( Z ) ni zi Z a r r X
1 n 2
n i 1
r ( Z ) ni zi Z a r r X
1 n r
n i1
Démonstration :
k k k
1 k
ni a xi b
1 1 1
Z
n
i 1
ni zi
n
i 1
ni 1
a ni xi ni b
n i1
1 k 1 k
a ni xi b ni
n i1 n i1
a X b
ni zi Z ni (a xi b) (a X b)
n n
V Z
1 1
2
2
n i 1 n i 1
ni axi X
n
1
2
n i 1
ni xi X
n
1
a
2 2
n i 1
a2 V X
r Z ni zi Z ni (a xi b) (a X b) r
1 n r 1 n
n i1 n i1
ni axi X r
1 n
n i1
r
a r ni xi X
1 n
n i1
ar r X
Exercice:
On a relevé entre les années 1974 et 1984, la production de blé (X en quintaux), On a
obtenu les résultats suivants :
Valeurs 200 184 225 250 240 195 210 225 250 230
de X
Réponse :
Les classes Ci Yi ni ni yi ni yi 2
[184, 206[ 195 -1 3 -3 3
[206,228[ 217 0 3 0 0
[228,250] 239 1 4 4 4
1 7
e 66
am 22
k 3
La coordinatrice Mme Laboudi
Page 21
L1 : Module Proba/Stat. Coordination - Statistique descriptive
1 3 1
Y ni yi 0.1
n i 1 10
1 n
V Y ni yi2 Y 2 . 7 0.12 0.69
1
n i 1 10
X 217 1
Y X 9.86
22 22
X 217 1 1
Y X 9.86 0.1 X 9.86 0.1 9.96
22 22 22
X 219 .2
2
1
V Y 0.69 V X V X 22 2 .. 0.69
22
V X 333 .96
X 18.3