Cours Statistiques P1
Cours Statistiques P1
Cours Statistiques P1
But du cours :
I faire quelques rappels et connaître le vocabulaire
I savoir décrire et représenter un ensemble de données
I vous réconcilier avec les probabilités et les statistiques ... ?
I comprendre le lien entre les deux
mi 1 2 3 4 5 6
ni 2 3 0 2 3 2
1, 2, 3, 4, 5, 6, 7, 8, 9
x ⇥ (1 p) ⇥ (1 + p) = x ⇥ (1 p2) x
) Pour p = 12% on obtient une baisse d’environ 1, 5%.
Crédits : N. Gauvrit
Kévin Polisano Cours de Statistiques de L1 – MAP 201 33/229
Méfiez-vous des statistiques !
Variations relatives et absolues
« Les statistiques ont une particularité majeure : elles ne sont jamais les
mêmes selon qu’elles sont avancées par un homme de gauche ou par un
homme de droite » – Jacques Maillot.
Crédits : N. Gauvrit
Kévin Polisano Cours de Statistiques de L1 – MAP 201 35/229
Méfiez-vous des statistiques !
Variations relatives et absolues
employés
ouvriers cadres
salaire 200e 2000e
2017
effectif 1000 100
salaire 180e 1800e
2018
effectif 600 500
⇢
200 ! 180
) baisse de 10%
2000 ! 1800
employés
ouvriers cadres
salaire 200e 2000e
2017
effectif 1000 100
salaire 180e 1800e
2018
effectif 600 500
⇢
200 ! 180
) baisse de 10%
2000 ! 1800
8
>
> 200 ⇥ 1000 + 2000 ⇥ 100
>
< = 363, 64
1100
) augmentation de 152%
>
> 180 ⇥ 600 + 1800 ⇥ 500
>
: = 916, 34
1100
Crédits : D. Louaprre
Kévin Polisano Cours de Statistiques de L1 – MAP 201 41/229
Paradoxe de Simpson
À vos boitiers de vote !
taille tumeur
traitement guérison
Kévin Polisano Cours de Statistiques de L1 – MAP 201 45/229
Paradoxe de Simpson
En résumé
Crédits : D. Louaprre
Kévin Polisano Cours de Statistiques de L1 – MAP 201 46/229
1 Introduction
2 Bases de la statistique descriptive
Vocabulaire
Tableaux statistiques
Méfiez-vous des statistiques ! Le paradoxe de Simpson
3 Représentations graphiques
Histogrammes
Fonction de répartition empirique
4 Indicateurs statistiques
Indicateurs de localisation ou de tendance centrale
Indicateurs de dispersion ou de variabilité
5 Corrélation et causalité
Régression linéaire
Exemples de corrélations
30
modalité fréquence
mi nb pers. fi (en %)
25
1 31.0
20
2 31.1
15
3 16.2
4 13.8
10
5 5.5
5
6 et plus 2.4
0 1 2 3 4 5 6
modalité fréquence 1
mi nb pers. fi (en %)
1 31.0
2
2 31.1
6
3 16.2 5
4 13.8
5 5.5 4
6 et plus 2.4
3
Définition de l’histogramme
L’histogramme est la figure constituée de rectangles dont les bases sont
les classes et dont les aires sont égales aux fréquences de ces classes.
Autrement dit, la hauteur du ième rectangle est ni /nhi .
Kévin Polisano Cours de Statistiques de L1 – MAP 201 51/229
Histogramme
Variable continue : durée de vie d’ampoules
x = 91.6, 35.7, 251.3, 24.3, 5.4, 67.3, 170.9, 9.5, 118.4, 57.1
x ⇤ = 5.4, 9.5, 24.3, 35.7, 57.1, 67.3, 91.6, 118.4, 170.9, 251.3
Choix du nombre de classes k : k ⇡ 1 + log2 n (règle de Sturges)
Choix des bornes pour a0 et ak : x1⇤ ± 0.025(xn⇤ x1⇤ )
Largeur des classes (fixe) h = (ak a0 )/k
n = 10, k = 5, a0 = 0.74 ⇡ 0 et ak = 257.4 ⇡ 260, h = 260/5 = 52.
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 52/229
Histogramme
Variable continue : durée de vie d’ampoules
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Histogram of x
4
3
Frequency
2
1
0
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
0.004 Histogram of x
Density
0.002
0.000
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
0.004 Histogram of x
Density
0.002
0.000
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Histogram of x
0.012
1 ,ai ]
= ni /nh
0.010
R ai
aire rect. i = ni /n = fˆ(x)dx
0.008
ai 1
Density
0.006
ni /n = % obs. dans ]ai 1 , ai ] 0.004
()
0.002
a
P(ai 1 X ai ) = ai i 1 f (x)dx 0 50 100 150 200 250
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006 Histogram of x
Density
0.004
0.002
0.000
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
0.004 Histogram of x
Density
0.002
0.000
classes ]ai 1 , ai ] ]0, 17] ]17, 46] ]46, 79] ]79, 145] ]145, 260]
effectifs ni 2 2 2 2 2
fréquences ni /n 20% 20% 20% 20% 20%
hauteurs ni /nh 0.0118 0.0069 0.0061 0.0030 0.0017
Histogram of x
0.012
0.010
0.008
Density
0.006
0.004
0.002
0.000
0.006
0.004
0.002
0.000
1.0
●
●
0.8
●
0.6
●
Fn(x)
●
0.4
●
0.2
●
0.0
Proposition
Soit F la fonction de répartition d’une loi de probabilité, dépendant d’un
paramètre inconnu ✓. S’il existe des fonctions h, g , ↵ et telles que
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 68/229
Test sur la durée de vie des ampoules
On suppose F (x) = 1 e x. En considérant h(y ) = ln(1 y) :
●
−0.5
●
log(1 − seq(1:9)/10)
●
−1.0
●
−1.5
●
−2.0
●
−2.5
0 50 100 150
Crédits : O. Gaudoin sort(x)[1:9]
n k
1X 1X
x̄n = xi = n i mi
n n
i=1 i=1
Valeurs extrêmes
Un indicateur de localisation à partir de x1⇤ = min xi et xn⇤ = max xi
est
x1⇤ + xn⇤
2
Exemple des ampoules : on trouve 128.35 heures.
Mode
Valeur pour laquelle l’histogramme des fréquences presente un
maximum. Modalité la plus représentée dans l’échantillon.
Valeurs aberrantes
Des valeurs exagéréments grandes ou petites par rapport aux autres
valeurs de l’échantillon peuvent fortement influer sur la moyenne qui
est sensibles aux extrêmes.
Variance empirique
n k
2 1X 2 1X
x = (xi x̄n ) = ni (mi x̄n )2
n n
i=1 i=1
n
2 1X 2
x = xi x̄n2 (moyenne du carré - carré de la moyenne)
n
i=1
Écart type empirique : x (racine de la variance)
Coefficient de variation empirique : cvn = x
x̄n (sans dimension)
Dans R var(x) donne 02 = n 2 (variance sans biais)
x n 1 x
1 Pn
Écart absolu : e = n i=1 |xi c|, minimal quand c = x̃n
1
Écart sup : e = n
n
supi=1 |xi c|, minimal quand c = (x1⇤ + xn⇤ )/2
●
−0.5
●
log(1 − seq(1:9)/10)
●
−1.0
●
−1.5
●
−2.0
●
−2.5
0 50 100 150
sort(x)[1:9]
0.0
●
−0.5
●
log(1 − seq(1:9)/10)
●
−1.0
●
−1.5
●
−2.0
●
−2.5
0 50 100 150
sort(x)[1:9]
Crédits : O. Gaudoin
ˆ1 = 0.01311, ˆ0 = 0.03484
Kévin Polisano Cours de Statistiques de L1 – MAP 201 84/229
Cum hoc ergo propter hoc
Corrélation
Deux événements (appelons les X et Y) sont corrélés si l’on observe une
dépendance, une relation entre les deux. Par exemple, le nombre de
cheveux d’un homme a tendance à diminuer avec l’âge : âge et nombre
de cheveux sont donc corrélés.
Corrélation ou causalité ?
Une erreur de raisonnement courante consiste à dire : « X et Y sont
corrélés, donc X cause Y ». On confond alors corrélation et causalité car
en réalité, il se pourrait aussi que :
Y cause X
X et Y aient une cause commune Z
X et Y soient accidentellement liés mais n’aient aucun lien de
causalité.
« c’est bien ce que révèle le récent sondage réalisé par le réseau social
Skout, également site de rencontres, mené sur 4600 personnes.
Interrogées sur leur consommation de fromage et la fréquence de leurs
rapports sexuels, l’étude aurait démontré une forte corrélation. Oui, 32%
des mangeurs de Grilled Cheese (ce sandwich grillé au fromage dont
raffolent les Américains) feraient l’amour en moyenne 6 fois par mois. »
CQFR
Corrélation 6= causalité
La statistique peut être comme la langue d’Esope la meilleure ou la
pire des choses. Il convient de se méfier des pièges qu’elle recèle tout
en se servant de ses résultats.
Les représentations graphiques des données statistiques permettent
une analyse visuelle de la répartition des données.
Les indicateurs de localisation, de dispersion et de relation
permettent de les quantifier et de résumer l’information.
Ces deux outils suggèrent une caractérisation de la loi statistique
sous-jacente et donc des modèles théoriques plausibles.