Cours Statistiques P1

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 89

Partie I : Statistiques descriptives

Kévin Polisano Cours de Statistiques de L1 – MAP 201 5/229


1 Introduction
2 Bases de la statistique descriptive
Vocabulaire
Tableaux statistiques
Méfiez-vous des statistiques ! Le paradoxe de Simpson
3 Représentations graphiques
Histogrammes
Fonction de répartition empirique
4 Indicateurs statistiques
Indicateurs de localisation ou de tendance centrale
Indicateurs de dispersion ou de variabilité
5 Corrélation et causalité
Régression linéaire
Exemples de corrélations

Kévin Polisano Cours de Statistiques de L1 – MAP 201 6/229


Introduction
Définition de la statistique

Définition : « Le mot statistique désigne à la fois un ensemble de


données d’observations et l’activité qui consiste dans leur recueil, leur
traitement et leur interprétation » (Encyclopedia Universalis)

Étymologie : « De l’allemand Staatskunde, dérivé de l’italien statista


(homme d’État, statiste), la statistique représentant l’ensemble des
connaissances que doit posséder un homme d’État. » (1785)

Kévin Polisano Cours de Statistiques de L1 – MAP 201 7/229


Introduction
Histoire de la statistique

Recensements en Chine au XXIIIe siècle av. J.-C. ou en Égypte au


XVIIIe av. J.-C, système de recueil se poursuivant jusqu’au XVIIe.
Rôle prévisionnel des statistiques au XVIIIe siècle avec la
construction des premières tables de mortalité avec Antoine
Deparcieux, l’Essai sur les probabilités de la durée de vie humaine
(1746).
Rôle démographique au XIXe siècle, le Baron de Reiffenberg
présentait en 1842 à l’Académie ses calculs rétrospectifs de
population chez des peuples gaulois, d’après des chiffres donnés par
Jules César dans sa conquête des gaules.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 8/229


Introduction
Histoire de la statistique mathématique
Premiers textes connus sur le calcul des hasards (ou des chances) au
XVIe siècle avec Cardan et au XVIIe siècle avec Galilée.
Début officiel avec Pascal, Fermat et Huyguens au XVIIe siècle.
Tournant au XVIIIe siècle avec Montmort (combinatoire), Bernoulli
(loi des grands nombres) puis De Moivre et Laplace (traitement
analytique des probabilités et théorèmes limites).
Théorie des ensembles et de la mesure par Borel et Lebesgue et
calcul des probabilités par Lévy au XXe siècle
Axiomatisation de la théorie des probabilités par Kolmogorov (1933).

Pour aller plus loin :


Brigitte Chaput et al., Autour de la modélisation en probabilités,
Histoire 81, 2005.
Ian Hacking, The emergence of probability : A philosophical study of
early ideas about probability, induction and statistical inference,
Cambridge University Press, 2006.
Kévin Polisano Cours de Statistiques de L1 – MAP 201 9/229
Introduction
Objectifs du cours

But du cours :
I faire quelques rappels et connaître le vocabulaire
I savoir décrire et représenter un ensemble de données
I vous réconcilier avec les probabilités et les statistiques ... ?
I comprendre le lien entre les deux

Kévin Polisano Cours de Statistiques de L1 – MAP 201 10/229


Introduction
Divers domaines d’application

Economie, assurance, finance : études quantitatives de marchés,


prévisions économétriques, analyse de la consommation des
ménages, taxation des primes d’assurances et de franchises, gestion
de portefeuille, évaluation d’actifs financiers, ...
Biologie, médecine : essais thérapeutiques, épidémiologie,
dynamique des populations, analyse du génôme, ...
Sciences de la terre : prévisions météréologiques, exploration
pétrolière, ...
Sciences humaines : enquêtes d’opinion, sondages, étude de
population, ...
Sciences de l’ingénieur : contrôle qualité, sûreté de
fonctionnement, évaluation des performances, ...
Sciences de l’information : traitement des images et des signaux,
reconnaissance de forme et parole, machine learning, ...
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 11/229
Introduction
But de la Statistique

Les données sont entâchées d’incertitudes et présentent des variations


pour plusieurs raisons :
le déroulement des phénomènes observés n’est pas prévisible à
l’avance avec certitude
toute mesure est entâchée d’erreur
seuls quelques individus sont observés
...
) données issues de phénomènes aléatoires
) intervention du hasard et des probabilités

Objectifs : maîtriser au mieux cette incertitude pour extraire des


informations utiles des données, par l’intermédiaire de l’analyse des
variations dans les observations.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 12/229


Introduction
Deux classes de méthodes statistiques

1 Statistique descriptive : elle a pour but de résumer l’information


contenue dans les données de façon synthétique et efficace par :
Représentations graphiques
Indicateurs de position, de dispersion et de relation
Régression linéaire
) permet de dégager les caractéristiques essentielles du phénomène
étudié et de suggérer des hypothèses pour une étude ultérieure plus
poussée. Les probabilités n’ont ici qu’un rôle mineur.
2 Statistique inférentielle : elle a pour but de faire des prévisions et
de prendre des décisions au vu des observations par :
Estimation paramétrique
Intervalles de confiance, tests d’hypothèse
) Nécessite de définir des modèles probabilistes du phénomène
aléatoire et savoir gérer les risques d’erreurs.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 13/229


Probabilité vs. Statistique

la statistique repose sur l’observation de phénomènes concrets et


utilise les probabilités comme outils d’analyse et de
généralisation
la théorie des probabilités permet de modéliser efficacement certains
phénomènes aléatoires et d’en faire l’étude théorique.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 14/229


Probabilité vs. Statistique

Le calcul des probabilités propose des modèles simplificateurs du


comportement d’un phénomène
les données observées sont souvent imprécises. Le modèle
probabiliste permet de représenter comme des variables aléatoires les
déviations entre “vraies" valeurs et valeurs observées.
la répartition statistique d’une variable au sein de la population est
souvent voisine de modèles mathématiques proposés par le calcul
des probabilités (ex : supposer que la durée de vie d’un composant
electronique suit une loi exponentielle).

Le calcul des probabilités fournit des théorèmes si le processus


d’échantillonnage equiprobable des individus parmi la population est
respecté.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 15/229


Résumé de la démarche statistique

1 Recueil des données ) construction d’un échantillon


2 Statistique exploratoire ) formulation d’hypothèses sur la nature
du phénomène aléatoires
3 Choix d’un modèle probabiliste ) test d’adéquation
4 Estimation des paramètres inconnus du modèle ) construction
d’estimateurs
5 Prévision sur les observations futures ) associer un degré de
confiance

Kévin Polisano Cours de Statistiques de L1 – MAP 201 16/229


1 Introduction
2 Bases de la statistique descriptive
Vocabulaire
Tableaux statistiques
Méfiez-vous des statistiques ! Le paradoxe de Simpson
3 Représentations graphiques
Histogrammes
Fonction de répartition empirique
4 Indicateurs statistiques
Indicateurs de localisation ou de tendance centrale
Indicateurs de dispersion ou de variabilité
5 Corrélation et causalité
Régression linéaire
Exemples de corrélations

Kévin Polisano Cours de Statistiques de L1 – MAP 201 17/229


Vocabulaire

Faire de la statistique suppose que l’on étudie un ensemble d’objets


équivalents sur lesquels on observe des caractéristiques appelées
variables.
Le groupe ou l’ensemble d’objets équivalents est appelé la
population.
Les objets sont appelés des individus.
En général, la population et trop vaste pour pouvoir être observée
exhaustivement. On étudie alors la variable sur une sous partie de la
population. On étudie alors un échantillon.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 18/229


Vocabulaire

On souhaite étudier un caractère X prenant ses valeurs dans ⌦, sur une


population P.
Exemple : si l’échantillon est un groupe de TD de MAP 201 ...
un individu est un étudiant
la population peut être l’ensemble de étudiants de MAP 201, des
L1, de Grenoble, de France etc.
les variables étudiées peuvent être le sexe, la taille, la moyenne
d’année, le nombre de cafés consommés, etc.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 19/229


Vocabulaire

En général, on ne peut pas observer ce caractère sur tous les individus


d’une grande population, mais seulement sur une sous-population de P
de taille n. On notera alors :
la sous population : {i1 , ..., ij , ..., in } un ensemble de n individus
choisis au hasard dans P.
l’échantillon de données : x1 , ..., xj , ..., xn les n valeurs observées du
caractère X sur les individus de la sous-population.

Deux problèmes se posent alors :


1 Quelles informations sur le caractère X peut-on tirer de
l’échantillon ?
2 Quelle prévision pourrait on faire sur un individu non observé de P
à partir des données observées x1 , ..., xj , ..., xn ?

Kévin Polisano Cours de Statistiques de L1 – MAP 201 20/229


Vocabulaire

Chaque individu est décrit par un ensemble de variables X . Ces


variables peuvent être classées selon leur nature :
variable qualitative s’exprimant par l’appartenance à une modalité.
⌦={Homme, Femme} ; ⌦={Rap, chanson française, classique, etc.}
variable quantitative, s’exprimant par des nombres réels, par exemple
la taille des individus ou les résultats d’un examen.
On distingue les variables quantitatives discrètes lorsque ⌦ est une
suite finie ou infinie d’éléments de N (ex : ⌦ = {1, 2, 3} ; ⌦ = N)
des variables quantitatives continues si toutes les valeurs d’un
intervalle de R sont acceptables.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 21/229


Vocabulaire

Concept clé en statistique : la variabilité, qui signifie que des individus


en apparence semblables peuvent prendre des valeurs différentes.
Exemple :
Un processus industriel de fabrication ne fournit jamais des
caractéristiques parfaitement constantes.
L’analyse statistique a pour but d’étudier cette variabilité
en tenir compte pour prévoir de façon probabiliste le comportement
d’individus non observés,
chercher à l’expliquer à l’aide de variables extérieures,
chercher à l’augmenter dans le but de distinguer les individus entre
eux.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 22/229


Tableaux statistiques - variables discrètes ou quantitatives
n la taille de l’échantillon
k le nombre de modalités.
mi , i 2 [1, k] les modalités
ni le nombre d’occurence (l’effectif) de mi dans l’échantillon
et fi la fréquence correspondante.
P P
on a ni = n ; fi = ni /n ; fi = 1.

Exemple du lancer d’un dé


xi = {2, 5, 6, 4, 5, 4, 2, 1, 6, 5, 1, 2}, n = 12

mi 1 2 3 4 5 6
ni 2 3 0 2 3 2

) Vérification empirique qu’un dé est équilibré ?


) Simulation informatique d’une loi uniforme ?
Kévin Polisano Cours de Statistiques de L1 – MAP 201 23/229
À vos boitiers de vote !

Mettez le boitier sur le canal 41 :


Pressez le bouton « Channel » puis tapez « 41 »

Kévin Polisano Cours de Statistiques de L1 – MAP 201 24/229


À vos boitiers de vote !

Choisissez au hasard un chiffre entre 1 et 9

1, 2, 3, 4, 5, 6, 7, 8, 9

Kévin Polisano Cours de Statistiques de L1 – MAP 201 25/229


À vos boitiers de vote !

Résultats du diagramme en bâtons


Faible choix des valeurs extrêmes 1 et 9 ?
Choix majoritaire du chiffre 7 ?
) L’être humain est en général un piètre générateur de hasard.

Autre test : donnez au hasard une série de 200 « zéro ou un » à la main


puis avec l’aide d’une pièce par « pile ou face ».

) Repérable au nombre de « pile » (ou « face ») consécutifs et au biais


d’alternance sous-jacent.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 26/229


Tableaux statistiques - variables discrètes ou quantitatives

modalité effectif fréquence


mi nb personnes ni fi en pourcentage
1 7 381 150 31.0
2 7 404 960 31.1
3 3 857 246 16.2
4 3 285 802 13.8
5 1 309 559 5.5
6 et plus 571 444 2.4
Figure: Le recensement de 1999 donne la répartition des n = 23810161 ménages,
selon la variable X nombre de personnes du ménage

Kévin Polisano Cours de Statistiques de L1 – MAP 201 27/229


Tableaux statistiques - variables continues

On regroupe les valeurs en k classes d’extrémité a0 , a1 , . . . , ak , et on


note pour chaque classe [ai 1 , ai ] l’effectif ni , la fréquencefi .

modalité effectif fréquence


classes d’âge ni fi en pourcent
[0,4] 2 986 925 20.77
[5,9] 3 629 294 25.24
[10,14] 3 833 120 26.65
[15,19] 3 932 101 27.34
Figure: Le recensement de 1999 donne la répartition des n = 14381440
personnes moins de 20 ans, selon la classe d’âge

Kévin Polisano Cours de Statistiques de L1 – MAP 201 28/229


Tableaux statistiques - fréquences cumulées

modalité xi fréquence fi fréquence cumulée Fi


1 31.0 31.0
2 31.1 62.1
3 16.2 78.3
4 13.8 92.1
5 5.5 97.6
6 et plus 2.4 100
Figure: recensement de 1999 (a) répartition des ménages, selon le nombre de
personnes du ménage (b) fonction de répartition empirique

Kévin Polisano Cours de Statistiques de L1 – MAP 201 29/229


Tableaux statistiques - tableaux de contingences

femmes hommes total


agriculteurs exploitant 204 209 437 958 1.3 %
artisants, commerçants 484 443 1 174 609 3.4 %
cadres et professions intel. sup. 1 101 537 2 063 798 6.6 %
professions intermédiaires 2 771 948 2 990 937 11 %
employés 5 973 956 1 835 135 16.2 %
ouvriers 1 426 472 5 635 270 15.8 %
retraités 5 434 200 5 200 243 22.1 %
autres sans activité prof. 7 593 554 3 740 108 23.6 %
total 52 % 48 % 48 068 377
Figure: recensement de 1999 - population de 15 ans ou plus par sexe et
catégorie socioprofessionnelle

Kévin Polisano Cours de Statistiques de L1 – MAP 201 30/229


À vos boitiers de vote !

Votre pouvoir d’achat a diminué de 12% en 2017 mais remontera


de 12% en 2018. Votre pouvoir d’achat en 2018 sera :

A) Plus important qu’en 2017


B) Identique à 2017
C) Plus faible qu’en 2017
D) La réponse D

Kévin Polisano Cours de Statistiques de L1 – MAP 201 31/229


Méfiez-vous des statistiques !
Variations relatives

Votre pouvoir d’achat a diminué de 12% en 2017 mais remontera


de 12% en 2018. Votre pouvoir d’achat en 2018 sera :

A) Plus important qu’en 2017


B) Identique à 2017
C) Plus faible qu’en 2017
D) La réponse D

Une quantité x subissant une diminution de p% puis une augmentation


de p% s’écrit

x ⇥ (1 p) ⇥ (1 + p) = x ⇥ (1 p2)  x
) Pour p = 12% on obtient une baisse d’environ 1, 5%.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 32/229


Méfiez-vous des statistiques !
Variations relatives et absolues

La dette de la France, qui avait augmenté de 15% l’an passé, n’a


augmenté cette année que de 14%.
Le gouvernement se félicite de sa gestion exemplaire.

Crédits : N. Gauvrit
Kévin Polisano Cours de Statistiques de L1 – MAP 201 33/229
Méfiez-vous des statistiques !
Variations relatives et absolues

La dette de la France, qui avait augmenté de 15% l’an passé, n’a


augmenté cette année que de 14%.
Le gouvernement se félicite de sa gestion exemplaire.

Dette de départ : 100 Me


Déficit 1ère année : 15% ⇥ 100 = 15 Me ) dette = 115 Me
Déficit 2ème année : 14% ⇥ 115 = 16, 1 Me > 15 Me

Augmentation du déficit : de 15 milliards d’euros l’an passé il


dépasse cette année 16 milliards d’euros !
L’opposition déplore la gestion du gouvernement.

« Les statistiques ont une particularité majeure : elles ne sont jamais les
mêmes selon qu’elles sont avancées par un homme de gauche ou par un
homme de droite » – Jacques Maillot.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 34/229


Méfiez-vous des statistiques !
Variations relatives et absolues

Le syndicat d’une entreprise déclare :

Les ouvriers touchaient 200e mensuels en 2017, on leur offre


désormais 180e, soit une baisse de 10%. Les cadres gagnaient
l’an dernier 2000e mensuels, et aujourd’hui 1800e, soit là encore
une baisse de 10%

La patron de l’entreprise affirme :

L’an dernier, le salaire mensuel moyen était de 363,64e. Il passe


cette année à 916,34e, soit une augmentation de 152% !

« Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges


et les statistiques » – Mark Twain.

Crédits : N. Gauvrit
Kévin Polisano Cours de Statistiques de L1 – MAP 201 35/229
Méfiez-vous des statistiques !
Variations relatives et absolues

employés
ouvriers cadres
salaire 200e 2000e
2017
effectif 1000 100
salaire 180e 1800e
2018
effectif 600 500

200 ! 180
) baisse de 10%
2000 ! 1800

Kévin Polisano Cours de Statistiques de L1 – MAP 201 36/229


Méfiez-vous des statistiques !
Variations relatives et absolues

employés
ouvriers cadres
salaire 200e 2000e
2017
effectif 1000 100
salaire 180e 1800e
2018
effectif 600 500

200 ! 180
) baisse de 10%
2000 ! 1800
8
>
> 200 ⇥ 1000 + 2000 ⇥ 100
>
< = 363, 64
1100
) augmentation de 152%
>
> 180 ⇥ 600 + 1800 ⇥ 500
>
: = 916, 34
1100

évolution du salaire moyen 6= évolution moyenne du salaire


Kévin Polisano Cours de Statistiques de L1 – MAP 201 37/229
Méfiez-vous des statistiques !
Variations relatives et absolues : comparer des carottes à des potirons

Kévin Polisano Cours de Statistiques de L1 – MAP 201 38/229


Méfiez-vous des statistiques !
Variations relatives et absolues : comparer des carottes à des potirons

Kévin Polisano Cours de Statistiques de L1 – MAP 201 39/229


Paradoxe de Simpson
Taux de guérison moyen d’une tumeur : médicaments vs. chirurgie

Crédits : D. Louapre (ScienceEtonnante)


Kévin Polisano Cours de Statistiques de L1 – MAP 201 40/229
Paradoxe de Simpson
Taux de guérison de la méthode suivant la taille de la tumeur

Crédits : D. Louaprre
Kévin Polisano Cours de Statistiques de L1 – MAP 201 41/229
Paradoxe de Simpson
À vos boitiers de vote !

Selon vous, quel traitement marche le mieux ?


A) Médicaments
B) Chirurgie
Crédits : D. Louaprre
Kévin Polisano Cours de Statistiques de L1 – MAP 201 42/229
Paradoxe de Simpson
Résultats

Selon vous, quel traitement marche le mieux ?


A) Médicaments
B) Chirurgie
Crédits : D. Louaprre
Kévin Polisano Cours de Statistiques de L1 – MAP 201 43/229
Paradoxe de Simpson
Kesako ?

Deux observations importantes sur les grosses tumeurs :


1 Elles ont des taux de guérison plus faible que les petites tumeurs
2 Elles donnent plus souvent lieu à une intervention chirurgicale
Kévin Polisano Cours de Statistiques de L1 – MAP 201 44/229
Paradoxe de Simpson
Gare aux facteurs de confusions !

taille tumeur

traitement guérison
Kévin Polisano Cours de Statistiques de L1 – MAP 201 45/229
Paradoxe de Simpson
En résumé

Pour que le paradoxe se produise, il faut 2 ingrédients :


Une variable qui influe sur le résultat final (le groupe), et qui
n’est pas forcément explicitée au départ. On appelle cela un facteur
de confusion. Il s’agit de la taille des tumeurs dans cet exemple.
Une distribution non homogène de l’échantillon. Dans cet
exemple la chirurgie est plus souvent adoptée sur les grosses
tumeurs, et les médicaments sur les petites.

Crédits : D. Louaprre
Kévin Polisano Cours de Statistiques de L1 – MAP 201 46/229
1 Introduction
2 Bases de la statistique descriptive
Vocabulaire
Tableaux statistiques
Méfiez-vous des statistiques ! Le paradoxe de Simpson
3 Représentations graphiques
Histogrammes
Fonction de répartition empirique
4 Indicateurs statistiques
Indicateurs de localisation ou de tendance centrale
Indicateurs de dispersion ou de variabilité
5 Corrélation et causalité
Régression linéaire
Exemples de corrélations

Kévin Polisano Cours de Statistiques de L1 – MAP 201 47/229


Représentations graphiques
Aperçu des méthodes abordées

Différents type de représentations graphiques :


Diagramme en bâtons et en camembert
Histogramme des fréquences
Graphique des fréquences cumulées (= fonction de répartition)
Boite à moustache
...

Kévin Polisano Cours de Statistiques de L1 – MAP 201 48/229


Représentations graphiques
Variables discrètes – Diagrammes en bâtons

30
modalité fréquence
mi nb pers. fi (en %)

25
1 31.0

20
2 31.1

15
3 16.2
4 13.8

10
5 5.5

5
6 et plus 2.4
0 1 2 3 4 5 6

Diagrammes en bâtons : à chaque modalité correspond un rectangle


vertical dont la hauteur est proportionnelle à la fréquence relative de la
modalité.
Kévin Polisano Cours de Statistiques de L1 – MAP 201 49/229
Représentations graphiques
Variables discrètes – Diagrammes sectoriels (ou en camemberts)

modalité fréquence 1

mi nb pers. fi (en %)
1 31.0
2

2 31.1
6

3 16.2 5

4 13.8
5 5.5 4

6 et plus 2.4
3

Diagrammes sectoriels (ou en camemberts) : à chaque modalité


correspond un secteur de disque dont l’aire est proportionnelle à la
fréquence relative de la modalité.
Kévin Polisano Cours de Statistiques de L1 – MAP 201 50/229
Histogramme
Variable continue
Quand la variable étudiée est continue, les représentations du type
diagramme en bâtons sont sans intérêt, car les données de x sont en
général toutes distinctes, donc les effectifs tous égaux à 1.

) La représentation par histogramme consiste à regrouper les


observations « proches » en classes :

On trie le vecteur x (noté alors x⇤ ), et on partitionne l’intervalle ]a0 , ak ]


(a0 < x⇤1 , ak > x⇤n ) en k intervalles ]ai 1 , ai ] appelés classes. La largeur
de la classe i est notée hi = ai ai 1 (et h = (ak a0 )/k si pas fixe).

Définition de l’histogramme
L’histogramme est la figure constituée de rectangles dont les bases sont
les classes et dont les aires sont égales aux fréquences de ces classes.
Autrement dit, la hauteur du ième rectangle est ni /nhi .
Kévin Polisano Cours de Statistiques de L1 – MAP 201 51/229
Histogramme
Variable continue : durée de vie d’ampoules

x = 91.6, 35.7, 251.3, 24.3, 5.4, 67.3, 170.9, 9.5, 118.4, 57.1
x ⇤ = 5.4, 9.5, 24.3, 35.7, 57.1, 67.3, 91.6, 118.4, 170.9, 251.3
Choix du nombre de classes k : k ⇡ 1 + log2 n (règle de Sturges)
Choix des bornes pour a0 et ak : x1⇤ ± 0.025(xn⇤ x1⇤ )
Largeur des classes (fixe) h = (ak a0 )/k
n = 10, k = 5, a0 = 0.74 ⇡ 0 et ak = 257.4 ⇡ 260, h = 260/5 = 52.

classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019

Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 52/229
Histogramme
Variable continue : durée de vie d’ampoules

classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Histogram of x
4
3
Frequency

2
1
0

0 50 100 150 200 250

Kévin Polisano Cours de Statistiques de L1 – MAP 201 53/229


Histogramme
Variable continue : durée de vie d’ampoules

classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
0.004 Histogram of x
Density

0.002
0.000

0 50 100 150 200 250

Kévin Polisano Cours de Statistiques de L1 – MAP 201 54/229


Histogramme
Mode de l’histogramme

classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
0.004 Histogram of x
Density

0.002
0.000

0 50 100 150 200 250

Kévin Polisano Cours de Statistiques de L1 – MAP 201 55/229


Histogramme
Approximation de la densité

classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Histogram of x

fonction escalier : fˆ|]ai

0.012
1 ,ai ]
= ni /nh

0.010
R ai
aire rect. i = ni /n = fˆ(x)dx

0.008
ai 1

Density

0.006
ni /n = % obs. dans ]ai 1 , ai ] 0.004

()
0.002

proba qu’une obs. soit Rdans ]ai 1 , ai ]


0.000

a
P(ai 1  X  ai ) = ai i 1 f (x)dx 0 50 100 150 200 250

Kévin Polisano Cours de Statistiques de L1 – MAP 201 56/229


Histogramme
Polygone des fréquences

classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006 Histogram of x
Density

0.004
0.002
0.000

0 50 100 150 200 250 300

Kévin Polisano Cours de Statistiques de L1 – MAP 201 57/229


Histogramme
Densité (continue) approchant l’histogramme : R density.

classes ]ai 1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
0.004 Histogram of x
Density

0.002
0.000

0 50 100 150 200 250

Kévin Polisano Cours de Statistiques de L1 – MAP 201 58/229


Histogramme
Classes de même effectif

classes ]ai 1 , ai ] ]0, 17] ]17, 46] ]46, 79] ]79, 145] ]145, 260]
effectifs ni 2 2 2 2 2
fréquences ni /n 20% 20% 20% 20% 20%
hauteurs ni /nh 0.0118 0.0069 0.0061 0.0030 0.0017
Histogram of x
0.012
0.010
0.008
Density

0.006
0.004
0.002
0.000

0 50 100 150 200 250

Kévin Polisano Cours de Statistiques de L1 – MAP 201 59/229


Ne passez pas sous les échelles
Graphique à la loupe

Crédits : Cortecs (zététique)


Kévin Polisano Cours de Statistiques de L1 – MAP 201 60/229
Ne passez pas sous les échelles
Quand les journaux télévisés présentent leurs courbes du chômage...

Crédits : Cortecs (zététique)


Kévin Polisano Cours de Statistiques de L1 – MAP 201 61/229
Ne passez pas sous les échelles
Surtout quand il n’y a pas d’échelle !

Crédits : Cortecs (zététique) + xkcd – https://xkcd.com/833/


Kévin Polisano Cours de Statistiques de L1 – MAP 201 62/229
Histogramme et densité
Approximation de la densité
L’histogramme de même effectif approche une densité exponentielle
f (x) = e x (en vert)
Il en va de même pour son polygone des fréquences (en bleu)
L’approximation continue de la densité (en rouge) n’est pas efficace
sur peu de données
Histogram of x
0.014
0.012
0.010
0.008
Density

0.006
0.004
0.002
0.000

0 50 100 150 200 250

Kévin Polisano Cours de Statistiques de L1 – MAP 201 63/229


Histogramme cumulé et fonction de répartition

Approximation de la fonction de répartition


Pi
Au lieu des effectifs ni considérer les effectifs cumulés mi = l=1 nl
L’histogramme cumulé construit approche la fonction de répartition
x
F (x) = 1 e

Il en va de même pour son polygone des fréquences cumulées

Kévin Polisano Cours de Statistiques de L1 – MAP 201 64/229


Histogramme cumulé
Quand Tim Cuisine ses graphiques...

Figure: Tim Cook présente les ventes d’iPhone cumulées

Kévin Polisano Cours de Statistiques de L1 – MAP 201 65/229


Histogramme cumulé
Quand Tim Cuisine ses graphiques...

Figure: Si Tim Cook présentait les ventes d’iPhone trimestrielles

Kévin Polisano Cours de Statistiques de L1 – MAP 201 66/229


Fonction de répartition empirique
La fonction de répartition empirique Fn associée à un échantillon
x1 , . . . xn est la fonction définie par :
8
1 X n < 0 si x < x1⇤
i
8x 2 R, Fn (x) = 1{xi x} = si xi⇤  x  xi+1

n : n ⇤
i=1 1 si x > xn
ecdf(x)

1.0


0.8


0.6


Fn(x)


0.4


0.2


0.0

0 50 100 150 200 250

Figure: Fonction de répartition empirique de x (ampoules) approchant F


Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 67/229
Fonction de répartition candidate ?

Proposition
Soit F la fonction de répartition d’une loi de probabilité, dépendant d’un
paramètre inconnu ✓. S’il existe des fonctions h, g , ↵ et telles que

8x 2 R, h[F (x)] = ↵(✓)g (x) + (✓)

alors le nuage des points

(g (xi⇤ ), h(i/n)), i 2 {1, . . . , n}

est le graphe de probabilités pour la loi de fonction de répartition F .


Si les points du nuage sont approximativement alignés, on admettra que
F est une fonction de répartition plausible pour les observations.
Preuve : h[Fn (xi⇤ )] = h(i/n) ⇡ h[F (xi⇤ )] = ↵(✓)g (xi⇤ ) + (✓)

Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 68/229
Test sur la durée de vie des ampoules
On suppose F (x) = 1 e x. En considérant h(y ) = ln(1 y) :

h[F (x)] = ln(1 F (x)) = x

Le graphe de probabilité pour F est le nuage de points

(xi⇤ , ln(1 i/n)), i 2 {1, . . . , n 1}

La droite qui approche ce nuage de point est y = x


0.0


−0.5


log(1 − seq(1:9)/10)


−1.0


−1.5


−2.0


−2.5

0 50 100 150
Crédits : O. Gaudoin sort(x)[1:9]

Kévin Polisano Cours de Statistiques de L1 – MAP 201 69/229


1 Introduction
2 Bases de la statistique descriptive
Vocabulaire
Tableaux statistiques
Méfiez-vous des statistiques ! Le paradoxe de Simpson
3 Représentations graphiques
Histogrammes
Fonction de répartition empirique
4 Indicateurs statistiques
Indicateurs de localisation ou de tendance centrale
Indicateurs de dispersion ou de variabilité
5 Corrélation et causalité
Régression linéaire
Exemples de corrélations

Kévin Polisano Cours de Statistiques de L1 – MAP 201 70/229


Indicateurs de localisation (ou de tendance centrale)
La moyenne empirique

Définir une valeur autour de laquelle se repartissent les observations


Moyenne empirique
Valeur qu’auraient tous les individus s’ils prennaient la même valeur

n k
1X 1X
x̄n = xi = n i mi
n n
i=1 i=1

Durée de vie moyenne des ampoules


On trouve x̄10 = 83.15 heures en moyenne.
De plus pour une loi exponentielle ⇡ x̄110 = 0.012.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 71/229


Indicateurs de localisation (ou de tendance centrale)
Valeurs extrêmes

Valeurs extrêmes
Un indicateur de localisation à partir de x1⇤ = min xi et xn⇤ = max xi
est
x1⇤ + xn⇤
2
Exemple des ampoules : on trouve 128.35 heures.
Mode
Valeur pour laquelle l’histogramme des fréquences presente un
maximum. Modalité la plus représentée dans l’échantillon.

Valeurs aberrantes
Des valeurs exagéréments grandes ou petites par rapport aux autres
valeurs de l’échantillon peuvent fortement influer sur la moyenne qui
est sensibles aux extrêmes.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 72/229


Indicateurs de localisation (ou de tendance centrale)
La moyenne salariale dans certains médias

La moyenne seule ne permet pas de résumer correctement la


distribution des salaires à l’échelle d’un pays !

Kévin Polisano Cours de Statistiques de L1 – MAP 201 73/229


Indicateurs de localisation (ou de tendance centrale)
La moyenne salariale sensible aux valeurs extrêmes

Crédits : Les statistiques expliquées à mon chat


Kévin Polisano Cours de Statistiques de L1 – MAP 201 74/229
La médiane

Médiane : valeur partageant la population en 2 effectifs égaux.


(

x(n+1)/2 si n impair
x̃n = ⇤ + x⇤
(xn/2 n/2+1 )/2 si n pair

Graphiquement peut se lire sur la courbe de F :


Variable continue
q0.5 : F (q0.5 ) = 0.5

Variable discrète : plus petite valeur où F franchit le palier 50%


+
q0.5 : F (q0.5 ) < 0.5, F (q0.5 ) 0.5

Exemple de l’ampoule : x̃10 = (57.1 + 67.3)/2 = 62.2 heures.


Kévin Polisano Cours de Statistiques de L1 – MAP 201 75/229
Les quantiles empiriques

Quantiles empiriques : valeurs partageant l’échantillon


ordonné en un certain nombre de parties de même effectif.
(
⇤ + x⇤
(xnp np+1 )/2 si np entier
8p 2 [0, 1], q̃n,p = ⇤
xbnpc+1 sinon
Exemple des ampoules : q̃n,1/4 = x3⇤ = 24.3, q̃n,3/4 = x8⇤ = 118.4 .
(quartiles)

Pour p = 1/2 on retrouve la médiane empirique x̃n = q̃n,1/2 .


Kévin Polisano Cours de Statistiques de L1 – MAP 201 76/229
Boite à moustache

0 50 100 150 200 250

Kévin Polisano Cours de Statistiques de L1 – MAP 201 77/229


Indicateurs de dispersion (ou de variabilité)
La variance empirique

Variance empirique
n k
2 1X 2 1X
x = (xi x̄n ) = ni (mi x̄n )2
n n
i=1 i=1

n
2 1X 2
x = xi x̄n2 (moyenne du carré - carré de la moyenne)
n
i=1
Écart type empirique : x (racine de la variance)
Coefficient de variation empirique : cvn = x
x̄n (sans dimension)
Dans R var(x) donne 02 = n 2 (variance sans biais)
x n 1 x

Kévin Polisano Cours de Statistiques de L1 – MAP 201 78/229


Indicateurs de dispersion (ou de variabilité)
L’écart type empirique
Écart type empirique : x (racine de la variance)
L’écart type sert à mesurer la dispersion d’un ensemble de données.
Plus il est faible, plus les valeurs sont regroupées autour de la
moyenne.

Répartition des notes d’une classe


Plus l’écart type est faible, plus la classe est homogène. À l’inverse, s’il
est plus important, les notes sont moins resserrées. Dans le cas d’une
notation de 0 à 20, l’écart type minimal est 0 (notes toutes identiques),
et peut valoir jusqu’à 10 si la moitié de la classe a 0 et l’autre moitié 20

Kévin Polisano Cours de Statistiques de L1 – MAP 201 79/229


Caractérisation des indicateurs

L’erreur commise en résumant l’observation xi par c peut être quantifiée


par une distance (ou écart) entre ces deux valeurs d(xi , c).
P
Un bon indicateur doit minimiser l’erreur moyenne e = n1 ni=1 d(xi , c).
P
Écart quadratique : e = n1 ni=1 (xi c)2 , minimal quand
n
@e 2X
=0, (xi c) = 0 , c = x̄n
@c n
i=1

1 Pn
Écart absolu : e = n i=1 |xi c|, minimal quand c = x̃n
1
Écart sup : e = n
n
supi=1 |xi c|, minimal quand c = (x1⇤ + xn⇤ )/2

Kévin Polisano Cours de Statistiques de L1 – MAP 201 80/229


1 Introduction
2 Bases de la statistique descriptive
Vocabulaire
Tableaux statistiques
Méfiez-vous des statistiques ! Le paradoxe de Simpson
3 Représentations graphiques
Histogrammes
Fonction de répartition empirique
4 Indicateurs statistiques
Indicateurs de localisation ou de tendance centrale
Indicateurs de dispersion ou de variabilité
5 Corrélation et causalité
Régression linéaire
Exemples de corrélations

Kévin Polisano Cours de Statistiques de L1 – MAP 201 81/229


Rappels : indices de localisation, dispersion, relation
Pour un nuage de points (xi , yi ), 8i 2 {1, . . . , n} on définit :
Les moyennes empiriques (localisation)
n n
1X 1X
x̄n = xi , ȳn = yi
n n
i=1 i=1

Les variances empiriques (dispersion)


n n
2 1X 2 1X 2
x = (xi x̄n ) = xi x̄n2
n n
i=1 i=1
n n
2 1X 1X
y = (yi ȳn )2 = yi2 ȳn2
n n
i=1 i=1

La covariance et corrélation empirique entre les xi et yi (relation)


n n
1X 1X cxy
xy = (xi x̄n )(yi ȳn ) = xi yi x̄n ȳn , rxy =
n n s x sy
i=1 i=1

Kévin Polisano Cours de Statistiques de L1 – MAP 201 82/229


Régression linéaire
Le but est de trouver la droite « la plus proche » d’un nuage de points
0.0


−0.5


log(1 − seq(1:9)/10)


−1.0


−1.5


−2.0


−2.5

0 50 100 150

sort(x)[1:9]

L’idée consiste à estimer yi par ŷi = 1 xi + 0 en choisissant 1 et 0 qui


minimise l’erreur quadratique moyenne :
n n
2 1X 1X
= (yi ŷi )2 = (yi 1 xi 0)
2
n n
i=1 i=1
Crédits : Parag Radke
Kévin Polisano Cours de Statistiques de L1 – MAP 201 83/229
Régression linéaire
La droite y = ˆ1 x + ˆ0 qui minimise l’erreur quadratique moyenne :
ˆ1 = xy ˆ0 = ȳn xy
2
, x̄n 2
x x

0.0

−0.5

log(1 − seq(1:9)/10)

−1.0

−1.5


−2.0


−2.5

0 50 100 150

sort(x)[1:9]

Taux de décroissance de la loi exponentielle des ampoules


La régression linéaire sur le graphe de probabilité fournit :

Crédits : O. Gaudoin
ˆ1 = 0.01311, ˆ0 = 0.03484
Kévin Polisano Cours de Statistiques de L1 – MAP 201 84/229
Cum hoc ergo propter hoc
Corrélation
Deux événements (appelons les X et Y) sont corrélés si l’on observe une
dépendance, une relation entre les deux. Par exemple, le nombre de
cheveux d’un homme a tendance à diminuer avec l’âge : âge et nombre
de cheveux sont donc corrélés.

Corrélation ou causalité ?
Une erreur de raisonnement courante consiste à dire : « X et Y sont
corrélés, donc X cause Y ». On confond alors corrélation et causalité car
en réalité, il se pourrait aussi que :
Y cause X
X et Y aient une cause commune Z
X et Y soient accidentellement liés mais n’aient aucun lien de
causalité.

Crédits : Cortecs (zététique)


Kévin Polisano Cours de Statistiques de L1 – MAP 201 85/229
Cum hoc ergo propter hoc
Effet cigogne
Par exemple, dans les communes qui abritent des cigognes, le taux de
natalité est plus élevé que dans l’ensemble du pays. Conclusion : les
cigognes apportent les bébés ! Voici une explication plus probable : les
cigognes nichent de préférence dans les villages plutôt que dans les
grandes agglomérations, et il se trouve que la natalité est plus forte en
milieu rural que dans les villes.

Crédits : Cortecs (zététique) + xkcd – https://xkcd.com/925/


Kévin Polisano Cours de Statistiques de L1 – MAP 201 86/229
Bonne Saint-Valentin...

« Après le gingembre et le chocolat, un petit nouveau vient d’entrer dans


le cercle très prisé des aliments aphrodisiaques : le fromage. Oui, vous
avez bien lu. »

Kévin Polisano Cours de Statistiques de L1 – MAP 201 87/229


Bonne Saint-Valentin...

« c’est bien ce que révèle le récent sondage réalisé par le réseau social
Skout, également site de rencontres, mené sur 4600 personnes.
Interrogées sur leur consommation de fromage et la fréquence de leurs
rapports sexuels, l’étude aurait démontré une forte corrélation. Oui, 32%
des mangeurs de Grilled Cheese (ce sandwich grillé au fromage dont
raffolent les Américains) feraient l’amour en moyenne 6 fois par mois. »

Kévin Polisano Cours de Statistiques de L1 – MAP 201 88/229


Bonne Saint-Valentin...
Exercice : quelle(s) critique(s) formuleriez-vous à l’égard de ces statistiques ?

Kévin Polisano Cours de Statistiques de L1 – MAP 201 89/229


Le fromage, aphrodisiaque... mais dangereux !
Nombre de personnes handicapées décédées d’une chute de leur fauteuil
corrélé avec
La consommation de fromage par habitant

Crédits : Tyler Vigen – http://www.tylervigen.com/spurious-correlations


Kévin Polisano Cours de Statistiques de L1 – MAP 201 90/229
Hope it helps

Crédits : xkcd – https://xkcd.com/552/


Kévin Polisano Cours de Statistiques de L1 – MAP 201 91/229
CQFR : Ce Qu’il Faut Retenir

CQFR
Corrélation 6= causalité
La statistique peut être comme la langue d’Esope la meilleure ou la
pire des choses. Il convient de se méfier des pièges qu’elle recèle tout
en se servant de ses résultats.
Les représentations graphiques des données statistiques permettent
une analyse visuelle de la répartition des données.
Les indicateurs de localisation, de dispersion et de relation
permettent de les quantifier et de résumer l’information.
Ces deux outils suggèrent une caractérisation de la loi statistique
sous-jacente et donc des modèles théoriques plausibles.

Kévin Polisano Cours de Statistiques de L1 – MAP 201 92/229


Et après ?

Pour aller plus loin dans l’analyse et la généralisation

on a besoin d’outils probabilistes

Suite au prochain épisode ...

Kévin Polisano Cours de Statistiques de L1 – MAP 201 93/229

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy