Cours Statistiques P1

Partie I : Statistiques descriptives
Kévin Polisano Cours de Statistiques de L1 – MAP 201 5/229

1 Introduction
2 Bases de la statistique descriptive
Vocabulaire
Tableaux statistiques
Méfiez-vous des statistiques ! Le paradoxe de Simpson
3 Représentations graphiques
Histogrammes
Fonction de répartition empirique
4 Indicateurs statistiques
Indicateurs de localisation ou de tendance centrale
Indicateurs de dispersion ou de variabilité
5 Corrélation et causalité
Régression linéaire
Exemples de corrélations

Introduction
Définition de la statistique
Définition : « Le mot statistique désigne à la fois un ensemble de

données d’observations et l’activité qui consiste dans leur recueil, leur
traitement et leur interprétation » (Encyclopedia Universalis)
Étymologie : « De l’allemand Staatskunde, dérivé de l’italien statista

(homme d’État, statiste), la statistique représentant l’ensemble des
connaissances que doit posséder un homme d’État. » (1785)

Introduction
Histoire de la statistique
Recensements en Chine au XXIIIe siècle av. J.-C. ou en Égypte au

XVIIIe av. J.-C, système de recueil se poursuivant jusqu’au XVIIe.
Rôle prévisionnel des statistiques au XVIIIe siècle avec la
construction des premières tables de mortalité avec Antoine
Deparcieux, l’Essai sur les probabilités de la durée de vie humaine
(1746).
Rôle démographique au XIXe siècle, le Baron de Reiffenberg
présentait en 1842 à l’Académie ses calculs rétrospectifs de
population chez des peuples gaulois, d’après des chiffres donnés par
Jules César dans sa conquête des gaules.

Introduction
Histoire de la statistique mathématique
Premiers textes connus sur le calcul des hasards (ou des chances) au
XVIe siècle avec Cardan et au XVIIe siècle avec Galilée.
Début officiel avec Pascal, Fermat et Huyguens au XVIIe siècle.
Tournant au XVIIIe siècle avec Montmort (combinatoire), Bernoulli
(loi des grands nombres) puis De Moivre et Laplace (traitement
analytique des probabilités et théorèmes limites).
Théorie des ensembles et de la mesure par Borel et Lebesgue et
calcul des probabilités par Lévy au XXe siècle
Axiomatisation de la théorie des probabilités par Kolmogorov (1933).
Pour aller plus loin :

Brigitte Chaput et al., Autour de la modélisation en probabilités,
Histoire 81, 2005.
Ian Hacking, The emergence of probability : A philosophical study of
early ideas about probability, induction and statistical inference,
Cambridge University Press, 2006.
Introduction
Objectifs du cours
But du cours :
I faire quelques rappels et connaître le vocabulaire
I savoir décrire et représenter un ensemble de données
I vous réconcilier avec les probabilités et les statistiques ... ?
I comprendre le lien entre les deux

Introduction
Divers domaines d’application
Economie, assurance, finance : études quantitatives de marchés,

prévisions économétriques, analyse de la consommation des
ménages, taxation des primes d’assurances et de franchises, gestion
de portefeuille, évaluation d’actifs financiers, ...
Biologie, médecine : essais thérapeutiques, épidémiologie,
dynamique des populations, analyse du génôme, ...
Sciences de la terre : prévisions météréologiques, exploration
pétrolière, ...
Sciences humaines : enquêtes d’opinion, sondages, étude de
population, ...
Sciences de l’ingénieur : contrôle qualité, sûreté de
fonctionnement, évaluation des performances, ...
Sciences de l’information : traitement des images et des signaux,
reconnaissance de forme et parole, machine learning, ...
Crédits : O. Gaudoin
Introduction
But de la Statistique
Les données sont entâchées d’incertitudes et présentent des variations

pour plusieurs raisons :
le déroulement des phénomènes observés n’est pas prévisible à
l’avance avec certitude
toute mesure est entâchée d’erreur
seuls quelques individus sont observés
...
) données issues de phénomènes aléatoires
) intervention du hasard et des probabilités
Objectifs : maîtriser au mieux cette incertitude pour extraire des

informations utiles des données, par l’intermédiaire de l’analyse des
variations dans les observations.

Introduction
Deux classes de méthodes statistiques
1 Statistique descriptive : elle a pour but de résumer l’information

contenue dans les données de façon synthétique et efficace par :
Représentations graphiques
Indicateurs de position, de dispersion et de relation
) permet de dégager les caractéristiques essentielles du phénomène
étudié et de suggérer des hypothèses pour une étude ultérieure plus
poussée. Les probabilités n’ont ici qu’un rôle mineur.
2 Statistique inférentielle : elle a pour but de faire des prévisions et
de prendre des décisions au vu des observations par :
Estimation paramétrique
Intervalles de confiance, tests d’hypothèse
) Nécessite de définir des modèles probabilistes du phénomène
aléatoire et savoir gérer les risques d’erreurs.

Probabilité vs. Statistique
la statistique repose sur l’observation de phénomènes concrets et

utilise les probabilités comme outils d’analyse et de
généralisation
la théorie des probabilités permet de modéliser efficacement certains
phénomènes aléatoires et d’en faire l’étude théorique.

Probabilité vs. Statistique
Le calcul des probabilités propose des modèles simplificateurs du

comportement d’un phénomène
les données observées sont souvent imprécises. Le modèle
probabiliste permet de représenter comme des variables aléatoires les
déviations entre “vraies" valeurs et valeurs observées.
la répartition statistique d’une variable au sein de la population est
souvent voisine de modèles mathématiques proposés par le calcul
des probabilités (ex : supposer que la durée de vie d’un composant
electronique suit une loi exponentielle).
Le calcul des probabilités fournit des théorèmes si le processus

d’échantillonnage equiprobable des individus parmi la population est
respecté.

Résumé de la démarche statistique
1 Recueil des données ) construction d’un échantillon

2 Statistique exploratoire ) formulation d’hypothèses sur la nature
du phénomène aléatoires
3 Choix d’un modèle probabiliste ) test d’adéquation
4 Estimation des paramètres inconnus du modèle ) construction
d’estimateurs
5 Prévision sur les observations futures ) associer un degré de
confiance

1 Introduction
Vocabulaire
Histogrammes

Vocabulaire
Faire de la statistique suppose que l’on étudie un ensemble d’objets

équivalents sur lesquels on observe des caractéristiques appelées
variables.
Le groupe ou l’ensemble d’objets équivalents est appelé la
population.
Les objets sont appelés des individus.
En général, la population et trop vaste pour pouvoir être observée
exhaustivement. On étudie alors la variable sur une sous partie de la
population. On étudie alors un échantillon.

Vocabulaire
On souhaite étudier un caractère X prenant ses valeurs dans ⌦, sur une

population P.
Exemple : si l’échantillon est un groupe de TD de MAP 201 ...
un individu est un étudiant
la population peut être l’ensemble de étudiants de MAP 201, des
L1, de Grenoble, de France etc.
les variables étudiées peuvent être le sexe, la taille, la moyenne
d’année, le nombre de cafés consommés, etc.

Vocabulaire
En général, on ne peut pas observer ce caractère sur tous les individus

d’une grande population, mais seulement sur une sous-population de P
de taille n. On notera alors :
la sous population : {i1 , ..., ij , ..., in } un ensemble de n individus
choisis au hasard dans P.
l’échantillon de données : x1 , ..., xj , ..., xn les n valeurs observées du
caractère X sur les individus de la sous-population.
Deux problèmes se posent alors :

1 Quelles informations sur le caractère X peut-on tirer de
l’échantillon ?
2 Quelle prévision pourrait on faire sur un individu non observé de P
à partir des données observées x1 , ..., xj , ..., xn ?

Vocabulaire
Chaque individu est décrit par un ensemble de variables X . Ces

variables peuvent être classées selon leur nature :
variable qualitative s’exprimant par l’appartenance à une modalité.
⌦={Homme, Femme} ; ⌦={Rap, chanson française, classique, etc.}
variable quantitative, s’exprimant par des nombres réels, par exemple
la taille des individus ou les résultats d’un examen.
On distingue les variables quantitatives discrètes lorsque ⌦ est une
suite finie ou infinie d’éléments de N (ex : ⌦ = {1, 2, 3} ; ⌦ = N)
des variables quantitatives continues si toutes les valeurs d’un
intervalle de R sont acceptables.

Vocabulaire
Concept clé en statistique : la variabilité, qui signifie que des individus

en apparence semblables peuvent prendre des valeurs différentes.
Exemple :
Un processus industriel de fabrication ne fournit jamais des
caractéristiques parfaitement constantes.
L’analyse statistique a pour but d’étudier cette variabilité
en tenir compte pour prévoir de façon probabiliste le comportement
d’individus non observés,
chercher à l’expliquer à l’aide de variables extérieures,
chercher à l’augmenter dans le but de distinguer les individus entre
eux.

Tableaux statistiques - variables discrètes ou quantitatives
n la taille de l’échantillon
k le nombre de modalités.
mi , i 2 [1, k] les modalités
ni le nombre d’occurence (l’effectif) de mi dans l’échantillon
et fi la fréquence correspondante.
P P
on a ni = n ; fi = ni /n ; fi = 1.
Exemple du lancer d’un dé

xi = {2, 5, 6, 4, 5, 4, 2, 1, 6, 5, 1, 2}, n = 12
mi 1 2 3 4 5 6
ni 2 3 0 2 3 2
) Vérification empirique qu’un dé est équilibré ?

) Simulation informatique d’une loi uniforme ?
À vos boitiers de vote !
Mettez le boitier sur le canal 41 :

Pressez le bouton « Channel » puis tapez « 41 »

Choisissez au hasard un chiffre entre 1 et 9
1, 2, 3, 4, 5, 6, 7, 8, 9

Résultats du diagramme en bâtons

Faible choix des valeurs extrêmes 1 et 9 ?
Choix majoritaire du chiffre 7 ?
) L’être humain est en général un piètre générateur de hasard.
Autre test : donnez au hasard une série de 200 « zéro ou un » à la main

puis avec l’aide d’une pièce par « pile ou face ».
) Repérable au nombre de « pile » (ou « face ») consécutifs et au biais

d’alternance sous-jacent.

Tableaux statistiques - variables discrètes ou quantitatives
modalité effectif fréquence

mi nb personnes ni fi en pourcentage
1 7 381 150 31.0
2 7 404 960 31.1
3 3 857 246 16.2
4 3 285 802 13.8
5 1 309 559 5.5
6 et plus 571 444 2.4
Figure: Le recensement de 1999 donne la répartition des n = 23810161 ménages,
selon la variable X nombre de personnes du ménage

Tableaux statistiques - variables continues
On regroupe les valeurs en k classes d’extrémité a0 , a1 , . . . , ak , et on

note pour chaque classe [ai 1 , ai ] l’effectif ni , la fréquencefi .
modalité effectif fréquence

classes d’âge ni fi en pourcent
[0,4] 2 986 925 20.77
[5,9] 3 629 294 25.24
[10,14] 3 833 120 26.65
[15,19] 3 932 101 27.34
Figure: Le recensement de 1999 donne la répartition des n = 14381440
personnes moins de 20 ans, selon la classe d’âge

Tableaux statistiques - fréquences cumulées
modalité xi fréquence fi fréquence cumulée Fi

1 31.0 31.0
2 31.1 62.1
3 16.2 78.3
4 13.8 92.1
5 5.5 97.6
6 et plus 2.4 100
Figure: recensement de 1999 (a) répartition des ménages, selon le nombre de
personnes du ménage (b) fonction de répartition empirique

Tableaux statistiques - tableaux de contingences
femmes hommes total

agriculteurs exploitant 204 209 437 958 1.3 %
artisants, commerçants 484 443 1 174 609 3.4 %
cadres et professions intel. sup. 1 101 537 2 063 798 6.6 %
professions intermédiaires 2 771 948 2 990 937 11 %
employés 5 973 956 1 835 135 16.2 %
ouvriers 1 426 472 5 635 270 15.8 %
retraités 5 434 200 5 200 243 22.1 %
autres sans activité prof. 7 593 554 3 740 108 23.6 %
total 52 % 48 % 48 068 377
Figure: recensement de 1999 - population de 15 ans ou plus par sexe et
catégorie socioprofessionnelle

Votre pouvoir d’achat a diminué de 12% en 2017 mais remontera

de 12% en 2018. Votre pouvoir d’achat en 2018 sera :
A) Plus important qu’en 2017

B) Identique à 2017
C) Plus faible qu’en 2017
D) La réponse D

Méfiez-vous des statistiques !
Variations relatives
Votre pouvoir d’achat a diminué de 12% en 2017 mais remontera

de 12% en 2018. Votre pouvoir d’achat en 2018 sera :
A) Plus important qu’en 2017

B) Identique à 2017
C) Plus faible qu’en 2017
D) La réponse D
Une quantité x subissant une diminution de p% puis une augmentation

de p% s’écrit
x ⇥ (1 p) ⇥ (1 + p) = x ⇥ (1 p2)  x
) Pour p = 12% on obtient une baisse d’environ 1, 5%.

Variations relatives et absolues
La dette de la France, qui avait augmenté de 15% l’an passé, n’a

augmenté cette année que de 14%.
Le gouvernement se félicite de sa gestion exemplaire.
Crédits : N. Gauvrit
La dette de la France, qui avait augmenté de 15% l’an passé, n’a

augmenté cette année que de 14%.
Le gouvernement se félicite de sa gestion exemplaire.
Dette de départ : 100 Me

Déficit 1ère année : 15% ⇥ 100 = 15 Me ) dette = 115 Me
Déficit 2ème année : 14% ⇥ 115 = 16, 1 Me > 15 Me
Augmentation du déficit : de 15 milliards d’euros l’an passé il

dépasse cette année 16 milliards d’euros !
L’opposition déplore la gestion du gouvernement.
« Les statistiques ont une particularité majeure : elles ne sont jamais les
mêmes selon qu’elles sont avancées par un homme de gauche ou par un
homme de droite » – Jacques Maillot.

Le syndicat d’une entreprise déclare :
Les ouvriers touchaient 200e mensuels en 2017, on leur offre

désormais 180e, soit une baisse de 10%. Les cadres gagnaient
l’an dernier 2000e mensuels, et aujourd’hui 1800e, soit là encore
une baisse de 10%
La patron de l’entreprise affirme :
L’an dernier, le salaire mensuel moyen était de 363,64e. Il passe

cette année à 916,34e, soit une augmentation de 152% !
« Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges

et les statistiques » – Mark Twain.
Crédits : N. Gauvrit
employés
ouvriers cadres
salaire 200e 2000e
2017
effectif 1000 100
salaire 180e 1800e
2018
effectif 600 500
⇢
200 ! 180
) baisse de 10%
2000 ! 1800

employés
ouvriers cadres
salaire 200e 2000e
2017
effectif 1000 100
salaire 180e 1800e
2018
effectif 600 500
⇢
200 ! 180
) baisse de 10%
2000 ! 1800
8
>
> 200 ⇥ 1000 + 2000 ⇥ 100
>
< = 363, 64
1100
) augmentation de 152%
>
> 180 ⇥ 600 + 1800 ⇥ 500
>
: = 916, 34
1100
évolution du salaire moyen 6= évolution moyenne du salaire

Variations relatives et absolues : comparer des carottes à des potirons

Variations relatives et absolues : comparer des carottes à des potirons

Paradoxe de Simpson
Taux de guérison moyen d’une tumeur : médicaments vs. chirurgie
Crédits : D. Louapre (ScienceEtonnante)

Paradoxe de Simpson
Taux de guérison de la méthode suivant la taille de la tumeur
Crédits : D. Louaprre
Paradoxe de Simpson
Selon vous, quel traitement marche le mieux ?

A) Médicaments
B) Chirurgie
Paradoxe de Simpson
Résultats
Selon vous, quel traitement marche le mieux ?

A) Médicaments
B) Chirurgie
Paradoxe de Simpson
Kesako ?
Deux observations importantes sur les grosses tumeurs :

1 Elles ont des taux de guérison plus faible que les petites tumeurs
2 Elles donnent plus souvent lieu à une intervention chirurgicale
Paradoxe de Simpson
Gare aux facteurs de confusions !
taille tumeur
traitement guérison
Paradoxe de Simpson
En résumé
Pour que le paradoxe se produise, il faut 2 ingrédients :

Une variable qui influe sur le résultat final (le groupe), et qui
n’est pas forcément explicitée au départ. On appelle cela un facteur
de confusion. Il s’agit de la taille des tumeurs dans cet exemple.
Une distribution non homogène de l’échantillon. Dans cet
exemple la chirurgie est plus souvent adoptée sur les grosses
tumeurs, et les médicaments sur les petites.
1 Introduction
Vocabulaire
Histogrammes

Aperçu des méthodes abordées
Différents type de représentations graphiques :

Diagramme en bâtons et en camembert
Histogramme des fréquences
Graphique des fréquences cumulées (= fonction de répartition)
Boite à moustache
...

Variables discrètes – Diagrammes en bâtons
30
modalité fréquence
mi nb pers. fi (en %)
25
1 31.0
20
2 31.1
15
3 16.2
4 13.8
10
5 5.5
5
6 et plus 2.4
0 1 2 3 4 5 6
Diagrammes en bâtons : à chaque modalité correspond un rectangle

vertical dont la hauteur est proportionnelle à la fréquence relative de la
modalité.
Variables discrètes – Diagrammes sectoriels (ou en camemberts)
modalité fréquence 1
mi nb pers. fi (en %)
1 31.0
2
2 31.1
6
3 16.2 5
4 13.8
5 5.5 4
6 et plus 2.4
3
Diagrammes sectoriels (ou en camemberts) : à chaque modalité

correspond un secteur de disque dont l’aire est proportionnelle à la
fréquence relative de la modalité.
Histogramme
Variable continue
Quand la variable étudiée est continue, les représentations du type
diagramme en bâtons sont sans intérêt, car les données de x sont en
général toutes distinctes, donc les effectifs tous égaux à 1.
) La représentation par histogramme consiste à regrouper les

observations « proches » en classes :
On trie le vecteur x (noté alors x⇤ ), et on partitionne l’intervalle ]a0 , ak ]

(a0 < x⇤1 , ak > x⇤n ) en k intervalles ]ai 1 , ai ] appelés classes. La largeur
de la classe i est notée hi = ai ai 1 (et h = (ak a0 )/k si pas fixe).
Définition de l’histogramme
L’histogramme est la figure constituée de rectangles dont les bases sont
les classes et dont les aires sont égales aux fréquences de ces classes.
Autrement dit, la hauteur du ième rectangle est ni /nhi .
Histogramme
Variable continue : durée de vie d’ampoules
x = 91.6, 35.7, 251.3, 24.3, 5.4, 67.3, 170.9, 9.5, 118.4, 57.1
x ⇤ = 5.4, 9.5, 24.3, 35.7, 57.1, 67.3, 91.6, 118.4, 170.9, 251.3
Choix du nombre de classes k : k ⇡ 1 + log2 n (règle de Sturges)
Choix des bornes pour a0 et ak : x1⇤ ± 0.025(xn⇤ x1⇤ )
Largeur des classes (fixe) h = (ak a0 )/k
n = 10, k = 5, a0 = 0.74 ⇡ 0 et ak = 257.4 ⇡ 260, h = 260/5 = 52.
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Histogramme
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Histogram of x
4
3
Frequency
2
1
0
0 50 100 150 200 250

Histogramme
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
0.004 Histogram of x
Density
0.002
0.000
0 50 100 150 200 250

Histogramme
Mode de l’histogramme
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
Density
0.002
0.000
0 50 100 150 200 250

Histogramme
Approximation de la densité
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Histogram of x
fonction escalier : fˆ|]ai
0.012
1 ,ai ]
= ni /nh
0.010
R ai
aire rect. i = ni /n = fˆ(x)dx
0.008
ai 1
Density
0.006
ni /n = % obs. dans ]ai 1 , ai ] 0.004
()
0.002
proba qu’une obs. soit Rdans ]ai 1 , ai ]

0.000
a
P(ai 1  X  ai ) = ai i 1 f (x)dx 0 50 100 150 200 250

Histogramme
Polygone des fréquences
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
Density
0.004
0.002
0.000
0 50 100 150 200 250 300

Histogramme
Densité (continue) approchant l’histogramme : R density.
classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
Density
0.002
0.000
0 50 100 150 200 250

Histogramme
Classes de même effectif
classes ]ai 1 , ai ] ]0, 17] ]17, 46] ]46, 79] ]79, 145] ]145, 260]
fréquences ni /n 20% 20% 20% 20% 20%
hauteurs ni /nh 0.0118 0.0069 0.0061 0.0030 0.0017
Histogram of x
0.012
0.010
0.008
Density
0.006
0.004
0.002
0.000
0 50 100 150 200 250

Ne passez pas sous les échelles
Graphique à la loupe
Crédits : Cortecs (zététique)

Quand les journaux télévisés présentent leurs courbes du chômage...

Surtout quand il n’y a pas d’échelle !
Crédits : Cortecs (zététique) + xkcd – https://xkcd.com/833/

Histogramme et densité
Approximation de la densité
L’histogramme de même effectif approche une densité exponentielle
f (x) = e x (en vert)
Il en va de même pour son polygone des fréquences (en bleu)
L’approximation continue de la densité (en rouge) n’est pas efficace
sur peu de données
Histogram of x
0.014
0.012
0.010
0.008
Density
0.006
0.004
0.002
0.000
0 50 100 150 200 250

Histogramme cumulé et fonction de répartition
Approximation de la fonction de répartition

Pi
Au lieu des effectifs ni considérer les effectifs cumulés mi = l=1 nl
L’histogramme cumulé construit approche la fonction de répartition
x
F (x) = 1 e
Il en va de même pour son polygone des fréquences cumulées

Histogramme cumulé
Quand Tim Cuisine ses graphiques...
Figure: Tim Cook présente les ventes d’iPhone cumulées

Histogramme cumulé
Quand Tim Cuisine ses graphiques...
Figure: Si Tim Cook présentait les ventes d’iPhone trimestrielles

La fonction de répartition empirique Fn associée à un échantillon
x1 , . . . xn est la fonction définie par :
8
1 X n < 0 si x < x1⇤
i
8x 2 R, Fn (x) = 1{xi x} = si xi⇤  x  xi+1
⇤
n : n ⇤
i=1 1 si x > xn
ecdf(x)
1.0
●
●
0.8
●
0.6
●
Fn(x)
●
0.4
●
0.2
●
0.0
0 50 100 150 200 250
Figure: Fonction de répartition empirique de x (ampoules) approchant F

Fonction de répartition candidate ?
Proposition
Soit F la fonction de répartition d’une loi de probabilité, dépendant d’un
paramètre inconnu ✓. S’il existe des fonctions h, g , ↵ et telles que
8x 2 R, h[F (x)] = ↵(✓)g (x) + (✓)
alors le nuage des points
(g (xi⇤ ), h(i/n)), i 2 {1, . . . , n}
est le graphe de probabilités pour la loi de fonction de répartition F .

Si les points du nuage sont approximativement alignés, on admettra que
F est une fonction de répartition plausible pour les observations.
Preuve : h[Fn (xi⇤ )] = h(i/n) ⇡ h[F (xi⇤ )] = ↵(✓)g (xi⇤ ) + (✓)
Test sur la durée de vie des ampoules
On suppose F (x) = 1 e x. En considérant h(y ) = ln(1 y) :
h[F (x)] = ln(1 F (x)) = x
Le graphe de probabilité pour F est le nuage de points
(xi⇤ , ln(1 i/n)), i 2 {1, . . . , n 1}
La droite qui approche ce nuage de point est y = x

0.0
●
−0.5
●
log(1 − seq(1:9)/10)
●
−1.0
●
−1.5
●
−2.0
●
−2.5
0 50 100 150
Crédits : O. Gaudoin sort(x)[1:9]

1 Introduction
Vocabulaire
Histogrammes

Indicateurs de localisation (ou de tendance centrale)
La moyenne empirique
Définir une valeur autour de laquelle se repartissent les observations

Moyenne empirique
Valeur qu’auraient tous les individus s’ils prennaient la même valeur
n k
1X 1X
x̄n = xi = n i mi
n n
i=1 i=1
Durée de vie moyenne des ampoules

On trouve x̄10 = 83.15 heures en moyenne.
De plus pour une loi exponentielle ⇡ x̄110 = 0.012.

Valeurs extrêmes
Valeurs extrêmes
Un indicateur de localisation à partir de x1⇤ = min xi et xn⇤ = max xi
est
x1⇤ + xn⇤
2
Exemple des ampoules : on trouve 128.35 heures.
Mode
Valeur pour laquelle l’histogramme des fréquences presente un
maximum. Modalité la plus représentée dans l’échantillon.
Valeurs aberrantes
Des valeurs exagéréments grandes ou petites par rapport aux autres
valeurs de l’échantillon peuvent fortement influer sur la moyenne qui
est sensibles aux extrêmes.

La moyenne salariale dans certains médias
La moyenne seule ne permet pas de résumer correctement la

distribution des salaires à l’échelle d’un pays !

La moyenne salariale sensible aux valeurs extrêmes
Crédits : Les statistiques expliquées à mon chat

La médiane
Médiane : valeur partageant la population en 2 effectifs égaux.

(
⇤
x(n+1)/2 si n impair
x̃n = ⇤ + x⇤
(xn/2 n/2+1 )/2 si n pair
Graphiquement peut se lire sur la courbe de F :

Variable continue
q0.5 : F (q0.5 ) = 0.5
Variable discrète : plus petite valeur où F franchit le palier 50%

+
q0.5 : F (q0.5 ) < 0.5, F (q0.5 ) 0.5
Exemple de l’ampoule : x̃10 = (57.1 + 67.3)/2 = 62.2 heures.

Les quantiles empiriques
Quantiles empiriques : valeurs partageant l’échantillon

ordonné en un certain nombre de parties de même effectif.
(
⇤ + x⇤
(xnp np+1 )/2 si np entier
8p 2 [0, 1], q̃n,p = ⇤
xbnpc+1 sinon
Exemple des ampoules : q̃n,1/4 = x3⇤ = 24.3, q̃n,3/4 = x8⇤ = 118.4 .
(quartiles)
Pour p = 1/2 on retrouve la médiane empirique x̃n = q̃n,1/2 .

Boite à moustache
0 50 100 150 200 250

Indicateurs de dispersion (ou de variabilité)
La variance empirique
Variance empirique
n k
2 1X 2 1X
x = (xi x̄n ) = ni (mi x̄n )2
n n
i=1 i=1
n
2 1X 2
x = xi x̄n2 (moyenne du carré - carré de la moyenne)
n
i=1
Écart type empirique : x (racine de la variance)
Coefficient de variation empirique : cvn = x
x̄n (sans dimension)
Dans R var(x) donne 02 = n 2 (variance sans biais)
x n 1 x

Indicateurs de dispersion (ou de variabilité)
L’écart type empirique
Écart type empirique : x (racine de la variance)
L’écart type sert à mesurer la dispersion d’un ensemble de données.
Plus il est faible, plus les valeurs sont regroupées autour de la
moyenne.
Répartition des notes d’une classe

Plus l’écart type est faible, plus la classe est homogène. À l’inverse, s’il
est plus important, les notes sont moins resserrées. Dans le cas d’une
notation de 0 à 20, l’écart type minimal est 0 (notes toutes identiques),
et peut valoir jusqu’à 10 si la moitié de la classe a 0 et l’autre moitié 20

Caractérisation des indicateurs
L’erreur commise en résumant l’observation xi par c peut être quantifiée

par une distance (ou écart) entre ces deux valeurs d(xi , c).
P
Un bon indicateur doit minimiser l’erreur moyenne e = n1 ni=1 d(xi , c).
P
Écart quadratique : e = n1 ni=1 (xi c)2 , minimal quand
n
@e 2X
=0, (xi c) = 0 , c = x̄n
@c n
i=1
1 Pn
Écart absolu : e = n i=1 |xi c|, minimal quand c = x̃n
1
Écart sup : e = n
n
supi=1 |xi c|, minimal quand c = (x1⇤ + xn⇤ )/2

1 Introduction
Vocabulaire
Histogrammes

Rappels : indices de localisation, dispersion, relation
Pour un nuage de points (xi , yi ), 8i 2 {1, . . . , n} on définit :
Les moyennes empiriques (localisation)
n n
1X 1X
x̄n = xi , ȳn = yi
n n
i=1 i=1
Les variances empiriques (dispersion)

n n
2 1X 2 1X 2
x = (xi x̄n ) = xi x̄n2
n n
i=1 i=1
n n
2 1X 1X
y = (yi ȳn )2 = yi2 ȳn2
n n
i=1 i=1
La covariance et corrélation empirique entre les xi et yi (relation)

n n
1X 1X cxy
xy = (xi x̄n )(yi ȳn ) = xi yi x̄n ȳn , rxy =
n n s x sy
i=1 i=1

Le but est de trouver la droite « la plus proche » d’un nuage de points
0.0
●
−0.5
●
log(1 − seq(1:9)/10)
●
−1.0
●
−1.5
●
−2.0
●
−2.5
0 50 100 150
sort(x)[1:9]
L’idée consiste à estimer yi par ŷi = 1 xi + 0 en choisissant 1 et 0 qui

minimise l’erreur quadratique moyenne :
n n
2 1X 1X
= (yi ŷi )2 = (yi 1 xi 0)
2
n n
i=1 i=1
Crédits : Parag Radke
La droite y = ˆ1 x + ˆ0 qui minimise l’erreur quadratique moyenne :
ˆ1 = xy ˆ0 = ȳn xy
2
, x̄n 2
x x
0.0
●
−0.5
●
log(1 − seq(1:9)/10)
●
−1.0
●
−1.5
●
−2.0
●
−2.5
0 50 100 150
sort(x)[1:9]
Taux de décroissance de la loi exponentielle des ampoules

La régression linéaire sur le graphe de probabilité fournit :
ˆ1 = 0.01311, ˆ0 = 0.03484
Cum hoc ergo propter hoc
Corrélation
Deux événements (appelons les X et Y) sont corrélés si l’on observe une
dépendance, une relation entre les deux. Par exemple, le nombre de
cheveux d’un homme a tendance à diminuer avec l’âge : âge et nombre
de cheveux sont donc corrélés.
Corrélation ou causalité ?
Une erreur de raisonnement courante consiste à dire : « X et Y sont
corrélés, donc X cause Y ». On confond alors corrélation et causalité car
en réalité, il se pourrait aussi que :
Y cause X
X et Y aient une cause commune Z
X et Y soient accidentellement liés mais n’aient aucun lien de
causalité.

Cum hoc ergo propter hoc
Effet cigogne
Par exemple, dans les communes qui abritent des cigognes, le taux de
natalité est plus élevé que dans l’ensemble du pays. Conclusion : les
cigognes apportent les bébés ! Voici une explication plus probable : les
cigognes nichent de préférence dans les villages plutôt que dans les
grandes agglomérations, et il se trouve que la natalité est plus forte en
milieu rural que dans les villes.
Crédits : Cortecs (zététique) + xkcd – https://xkcd.com/925/

Bonne Saint-Valentin...
« Après le gingembre et le chocolat, un petit nouveau vient d’entrer dans

le cercle très prisé des aliments aphrodisiaques : le fromage. Oui, vous
avez bien lu. »

« c’est bien ce que révèle le récent sondage réalisé par le réseau social
Skout, également site de rencontres, mené sur 4600 personnes.
Interrogées sur leur consommation de fromage et la fréquence de leurs
rapports sexuels, l’étude aurait démontré une forte corrélation. Oui, 32%
des mangeurs de Grilled Cheese (ce sandwich grillé au fromage dont
raffolent les Américains) feraient l’amour en moyenne 6 fois par mois. »

Exercice : quelle(s) critique(s) formuleriez-vous à l’égard de ces statistiques ?

Le fromage, aphrodisiaque... mais dangereux !
Nombre de personnes handicapées décédées d’une chute de leur fauteuil
corrélé avec
La consommation de fromage par habitant
Crédits : Tyler Vigen – http://www.tylervigen.com/spurious-correlations

Hope it helps
Crédits : xkcd – https://xkcd.com/552/

CQFR : Ce Qu’il Faut Retenir
CQFR
Corrélation 6= causalité
La statistique peut être comme la langue d’Esope la meilleure ou la
pire des choses. Il convient de se méfier des pièges qu’elle recèle tout
en se servant de ses résultats.
Les représentations graphiques des données statistiques permettent
une analyse visuelle de la répartition des données.
Les indicateurs de localisation, de dispersion et de relation
permettent de les quantifier et de résumer l’information.
Ces deux outils suggèrent une caractérisation de la loi statistique
sous-jacente et donc des modèles théoriques plausibles.

Et après ?
Pour aller plus loin dans l’analyse et la généralisation
on a besoin d’outils probabilistes
Suite au prochain épisode ...

Cours Statistiques P1

Transféré par

Droits d'auteur :

Formats disponibles

Cours Statistiques P1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Statistiques P1

Transféré par

Droits d'auteur :

Formats disponibles

Partie I : Statistiques descriptives

Kévin Polisano Cours de Statistiques de L1 – MAP 201 5/229

Kévin Polisano Cours de Statistiques de L1 – MAP 201 6/229

Définition : « Le mot statistique désigne à la fois un ensemble de

Étymologie : « De l’allemand Staatskunde, dérivé de l’italien statista

Kévin Polisano Cours de Statistiques de L1 – MAP 201 7/229

Recensements en Chine au XXIIIe siècle av. J.-C. ou en Égypte au

Kévin Polisano Cours de Statistiques de L1 – MAP 201 8/229

Pour aller plus loin :

Kévin Polisano Cours de Statistiques de L1 – MAP 201 10/229

Economie, assurance, finance : études quantitatives de marchés,

Les données sont entâchées d’incertitudes et présentent des variations

Objectifs : maîtriser au mieux cette incertitude pour extraire des

Kévin Polisano Cours de Statistiques de L1 – MAP 201 12/229

1 Statistique descriptive : elle a pour but de résumer l’information

Kévin Polisano Cours de Statistiques de L1 – MAP 201 13/229

la statistique repose sur l’observation de phénomènes concrets et

Kévin Polisano Cours de Statistiques de L1 – MAP 201 14/229

Le calcul des probabilités propose des modèles simplificateurs du

Le calcul des probabilités fournit des théorèmes si le processus

Kévin Polisano Cours de Statistiques de L1 – MAP 201 15/229

1 Recueil des données ) construction d’un échantillon

Kévin Polisano Cours de Statistiques de L1 – MAP 201 16/229

Kévin Polisano Cours de Statistiques de L1 – MAP 201 17/229

Faire de la statistique suppose que l’on étudie un ensemble d’objets

Kévin Polisano Cours de Statistiques de L1 – MAP 201 18/229

On souhaite étudier un caractère X prenant ses valeurs dans ⌦, sur une

Kévin Polisano Cours de Statistiques de L1 – MAP 201 19/229

En général, on ne peut pas observer ce caractère sur tous les individus

Deux problèmes se posent alors :

Kévin Polisano Cours de Statistiques de L1 – MAP 201 20/229

Chaque individu est décrit par un ensemble de variables X . Ces

Kévin Polisano Cours de Statistiques de L1 – MAP 201 21/229

Concept clé en statistique : la variabilité, qui signifie que des individus

Kévin Polisano Cours de Statistiques de L1 – MAP 201 22/229

Exemple du lancer d’un dé

) Vérification empirique qu’un dé est équilibré ?

Mettez le boitier sur le canal 41 :

Kévin Polisano Cours de Statistiques de L1 – MAP 201 24/229

Choisissez au hasard un chiﬀre entre 1 et 9

Kévin Polisano Cours de Statistiques de L1 – MAP 201 25/229

Résultats du diagramme en bâtons

Autre test : donnez au hasard une série de 200 « zéro ou un » à la main

) Repérable au nombre de « pile » (ou « face ») consécutifs et au biais

Kévin Polisano Cours de Statistiques de L1 – MAP 201 26/229

modalité eﬀectif fréquence

Kévin Polisano Cours de Statistiques de L1 – MAP 201 27/229

On regroupe les valeurs en k classes d’extrémité a0 , a1 , . . . , ak , et on

modalité eﬀectif fréquence

Kévin Polisano Cours de Statistiques de L1 – MAP 201 28/229

modalité xi fréquence fi fréquence cumulée Fi

Kévin Polisano Cours de Statistiques de L1 – MAP 201 29/229

femmes hommes total

Kévin Polisano Cours de Statistiques de L1 – MAP 201 30/229

Votre pouvoir d’achat a diminué de 12% en 2017 mais remontera

A) Plus important qu’en 2017

Kévin Polisano Cours de Statistiques de L1 – MAP 201 31/229

Votre pouvoir d’achat a diminué de 12% en 2017 mais remontera

A) Plus important qu’en 2017

Une quantité x subissant une diminution de p% puis une augmentation