STATISTIQUE
STATISTIQUE
STATISTIQUE
1- Données statistiques :
Une donnée statistique est une information codifiée, figée et transmissible
Les données statistiques peuvent être des données numériques ou des données
alphanumériques.
Une donnée statistique peut être une donnée à caractère quantitatif ou qualitatif.
a. Données quantitatives :
Les données quantitatives sont des données qui peuvent être mesurées (taille,
poids…) ou repérées (température…).
b. Données qualitatives :
Les données qualitatives sont des données auxquelles on ne peut pas attribuer
une valeur ou une caractéristique. Par exemple : couleur, texture, odeur…
Age 7 8 9 10
EFFECTIF 13 9 6 2
(7 × 13) + (8 × 9) + (9 × 6) + (10 × 2)
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 =
13 + 9 + 6 + 2
91 + 72 + 54 + 20
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 =
30
237
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 =
30
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 = 7,9 𝑎𝑛𝑠 𝑝𝑎𝑟 é𝑙é𝑣𝑒.
Finalement, l'âge moyen des élèves de ce groupe est de 7,9 ans, ce qui équivaut
à 7 ans et presque 11 mois.
La moyenne pour des données groupées en classe :
Lorsque les données sont regroupées par classes (intervalles), cela implique
un nombre infini de valeurs. Pour relativiser le tout, on considère seulement la
valeur médiane de chacune des classes. De cette façon, on peut
déterminer la moyenne à l'aide de la formule suivante :
𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑝𝑟𝑜𝑑𝑢𝑖𝑡𝑠 𝑑𝑒𝑠 𝑚𝑖𝑙𝑖𝑒𝑢𝑥 𝑑𝑒 𝑐ℎ𝑎𝑞𝑢𝑒 𝑐𝑙𝑎𝑠𝑠𝑒 𝑝𝑎𝑟 𝑙𝑒𝑢𝑟 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 =
𝑁𝑜𝑚𝑏𝑟𝑒 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑜𝑛𝑛é𝑒𝑠
Exemple :
Voici la durée (en minute) du trajet en autobus effectué par 337 élèves pour se
rendre à leur école.
Lorsque les données sont présentées en classes, il faut utiliser le milieu de chacune
d'elles. Par la suite, c'est avec ces nouvelles valeurs médianes qu'il faudra faire les
calculs. Exemple : = 12,5
Afin d'avoir la note finale d'Alexandre, calcule la moyenne associée à ces trois
résultats.
Pour faciliter le reste de la démarche, il est idéal d'écrire chacun des
pourcentages en nombre décimale.
Ainsi, 20 % = 0,20, 35 % = 0,35 et 45 % = 0,45.
Ainsi, la note globale d'Alexandre serait de :
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 = (82 × 0,20) + (75 × 0,35) + (86 × 0,45)
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 = 16,4 + 26,25 + 38,7
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 = 81,35
Nombre de personnes 12 17 10 6 3 48
Il est plus facile d'identifier le mode qui correspond à 1 animal. En effet, c'est la
valeur dont l'effectif est le plus élevé (17).
Nombre de personnes 5 17 10 8
Dans ce cas, la classe modale est [5,10[ puisque c'est la classe qui a l'effectif
le plus élevé.
Fait à noter, cette classe inclut les personnes qui ont précisément 5 ans, mais
elle exclut celles qui sont âgées d'exactement 10 ans. Il en est ainsi par
l'orientation des crochets de cet intervalle.
Pour ce qui est du mode, on peut seulement en faire une estimation en
calculant le milieu de la classe modale :
5 + 10
= 7,5 𝑎𝑛𝑠
2
iii. La médiane
La médiane est la mesure de tendance centrale qui indique le centre de la série de
données. En d'autres mots, c'est la valeur qui sépare une distribution ordonnée en
deux groupes qui contiennent le même nombre de données.
Valeur Effectif
1 6
2 12
3 5
4 2
Total 25
On applique la formule pour trouver la position de la médiane.
25 + 1
𝑅𝑎𝑛𝑔 𝑑𝑒 𝑙𝑎 𝑚é𝑑𝑖𝑎𝑛𝑒 = = 13 é𝑚𝑒 𝑑𝑜𝑛𝑛é𝑒
2
Donc, la médiane est la 13e donnée de la distribution ordonnée.
On additionne les effectifs (effectif cumulé) à partir du début jusqu'à ce que l'on
dépasse ou égalise la valeur de la position de la médiane.
Valeur Effectif
1 9
2 16
3 19
4 6
Total 50
Valeur Effectif
[0,10[ 7
[10,20[ 12
[20,30[ 8
[30,40[ 14
Total 41
On applique la formule pour trouver la position de la médiane.
41 + 1
𝑅𝑎𝑛𝑔 𝑑𝑒 𝑙𝑎 𝑚é𝑑𝑖𝑎𝑛𝑒 = = 21 é𝑚𝑒 𝑑𝑜𝑛𝑛é𝑒
2
Ce qui signifie que la médiane se situe exactement à la 21éme position de la
distribution ordonnée.
On additionne les effectifs (effectif cumulé) à partir du début jusqu'à ce que l'on
dépasse ou égalise la valeur de la position de la médiane.
Valeur Effectif
[0,5[ 32
[5,10[ 28
[10,15[ 41
[15,20[ 23
Total 124
Dans cet exemple, la 62éme et la 63éme données sont situées dans le même
intervalle, soit [10, 15[. Ainsi, la classe médiane est [10, 15[, mais la donnée
médiane estimée correspond à la valeur se situant au milieu de cet intervalle :
10 + 15
𝑉𝑎𝑙𝑒𝑢𝑟 𝑚é𝑑𝑖𝑎𝑛𝑒 é𝑠𝑡𝑖𝑚é𝑒 = = 12,5.
2
3- Paramètre de dispersion :
On appelle dispersion statistique, la tendance qu'ont les valeurs de la distribution
d'un caractère à s'étaler, à se disperser, de part et d'autre d'une valeur centrale.
Les paramètres de dispersion absolue indiquent de combien les valeurs d'une
distribution s'écartent en général de la valeur centrale de référence. Un paramètre de
dispersion absolue s'exprime toujours dans l'unité de mesure.
Les trois paramètres de dispersion absolue les plus courants sont l'étendue,
l'intervalle inter quantile, et l'écart type.
i. L’étendue ou amplitude :
Soit 𝑋 une série statistique, qui correspond à l’ensemble de la population
étudiée. On appelle étendue de la série, le réel défini par :
𝑒(𝑋) = 𝑚𝑎𝑥(𝑋) – 𝑚𝑖𝑛(𝑋)
Il s’agit de la première mesure de la dispersion d’une série statistique. Son
principal mérite a longtemps été d’exister, et de fournir une information sur la
dispersion très simple à obtenir.
ii. L’intervalle inter-quantile :
Les quantiles :
On appelle quantile d’ordre 𝛼%, on dit aussi fractiles, et qu’on note 𝑄 , la
valeur 𝑥 du caractère telle que 𝛼% des valeurs observées soient inférieures
strictement à 𝜒 .
Autrement dit un quantile d’ordre 𝒏 est une série ayant 𝑛 groupes d’effectifs
égaux. Ainsi la médiane est un quantile d’ordre 2.
Les quantiles les plus fréquemment utilisées dans la statistique
descriptive sont :
- La médiane 𝑀 : est le quantile d’ordre 50%. Elle partage la série des
valeurs observées en deux séries de même taille.
- Les quartiles, c’est-à-dire les quantiles d’ordre 4, notée 𝑄 , 𝑄 , 𝑄 , elle
partage la série en 4 séries de même taille :
25% des observations sont inférieures au 1er quartile 𝑄 .
50% des observations sont inférieures au 2ème quartile 𝑄 .
75% des observations sont inférieures au 3ème quartile 𝑄 .
- Les déciles ; ce sont les quartiles d’ordre 10, ils partagent l’effectif total en
dix groupes égaux. Il y en a neuf déciles notés 𝐷 , 𝐷 , 𝐷 …..𝐷 .
Les intervalles inter-quantiles :
La différence 𝑄 − 𝑄 s’appelle écart interquartile.
L’intervalle interdécile noté 𝐼 ou 𝐼. 𝐼𝑑 est la différence entre 𝑄 et
𝑄 , et on a :
𝐼 =𝑄 − 𝑄 , cet intervalle contient 80% des observations.
La différence 𝑄 −𝑄 s’appelle écart interdécile.
L’intervalle interdécile noté 𝐼 ou 𝐼. 𝐼𝐶 est la différence entre 𝑄 et
𝑄 , et on a :
𝐼 =𝑄 − 𝑄 , cet intervalle contient 98% des observations.
La différence 𝑄 − 𝑄 s’appelle écart intercentile.
Tous ces écarts permettent de mesurer la dispersion de la série
autour de la médiane.
iii. L’écart type :
La variance :
La variance d’une série statistique 𝑋 (correspondant à la toute la
population) est le nombre noté 𝜎²(𝑋) obtenu comme moyenne des carrés
des écarts constatés par rapport à la moyenne de la série :
𝑛 (𝑥 − 𝑥̅ ) + 𝑛 (𝑥 − 𝑥̅ ) + ⋯ + 𝑛 (𝑥 − 𝑥̅ )
𝜎 (𝑋) =
𝑛 + 𝑛 + ⋯+ 𝑛
1
𝜎 (𝑋) = 𝑛 (𝑥 − 𝑥̅ )
𝑁
1
𝜎 (𝑋) = 𝑛 𝑥 ² − 𝑥̅
𝑁
La variance est égale à la moyenne des carrés moins le carré de la
moyenne.
Elle quantifie la dispersion statistique des données autour de la moyenne.
L’écart type :
On appelle écart-type (ou déviation standard 𝜎) d’une série statistique 𝑋
(correspondant à la population) le réel noté 𝜎(𝑋) défini par :
𝜎(𝑋) = 𝜎(𝑋)²
Exemple :
Note 1 2 3 4 5 6 7 8 9 10
Effectif 2 1 6 5 2 9 7 1 0 1
ii. Variable classée :
L’histogramme :
- Les bandes sont collées les unes contre les autres.
- Sur l’axe vertical, on indique la fréquence de chaque valeur.
- Sur l’axe horizontal, on indique les classes.
- Ils sont généralement utilisés pour représenter des variables quantitatives
continues qui sont regroupées en classes.
Exemple :
Dans la série : 7 2 9 9 3 La médiane est La médiane est La moyenne est La moyenne est
7 9 9 6
La série est donnée par le tableau : La médiane est La médiane est La moyenne est La moyenne est
Nombre 5 6 10 6 10 7 8
Effectif 4 5 11
On considère la série statistique : 11 5 8 11 13
; 8 ; 15 ; 4 ; 9 ; 11 ; 13 ; 6.
L’étendue de cette série statistique
est égale à :
On considère la série statistique : 11 9 11 13 15
; 8 ; 15 ; 4 ; 9 ; 11 ; 13 ; 6. Le
troisième quartile de cette série
statistique est :
On considère la série statistique : 11 50% des 63,2% des 88% des valeurs 20% des valeurs
; 8 ; 15 ; 4 ; 9 ; 11 ; 13 ; 6. Entre le valeurs de la valeurs de la de la série de la série.
premier quartile Q1 et le troisième série. série.
quartile Q3 de cette série
statistique, il y a exactement :
𝑥 , 𝑥 , … , 𝑥 les valeurs prise par L’écart-type de La moyenne de Le mode
une variable et 𝑛 , 𝑛 , … , 𝑛 les la série la série
effectifs correspondants. Soit statistique. statistique.
( . )
𝑀𝑥 =
𝑀𝑥 est …