PY0106X Stat Exercices
PY0106X Stat Exercices
PY0106X Stat Exercices
LICENCE 1 DE PSYCHOLOGIE
Exercices de Statistique
Frédéric Ferraty
2
4 Exercices récapitulatifs 23
5 Annales 27
6 Synoptique et formulaire 33
3
4 TABLE DES MATIÈRES
1.1 Introduction
Il s’agit d’une enquête intitulée ”Attachement au quartier” menée en 2010 par
des étudiants inscrits en deuxième année de Psychologie. L’objectif est d’étudier,
parmi une population plutôt jeune (de 14 ans à 35 ans), l’attachement ou le
”désattachement” que les habitants vouent à leur lieu de vie. 189 personnes ont
participé à cette enquête ; elles ont été soumises à un questionnaire permettant de
mesurer plus d’une vingtaine de caractéristiques. Les données recueillies serviront
de fil conducteur pour illustrer les différentes notions abordées dans ce cours de
statistique descriptive.
16- Dans votre quartier, dans quels lieux vous rendez-vous le plus souvent ?
(codez de 1 très souvent à 4 rarement)
un marché une boucherie
une boulangerie un supermarché
une pharmacie une librairie autres …………………………….
16- Dans votre quartier, dans quels lieux vous rendez-vous le plus souvent ?
(codez de 1 très souvent à 4 rarement)
_______ les commerces
_______ les lieux culturels
_______ les lieux de sortie
_______ les lieux de formation
age sexe ppere pmere pnaiss nomville lieuhab typlog modlog durelog ···
16 2 1 2 1 toulouse 1 4 4 16 ···
33 2 1 1 1 toulouse 2 4 3 2 ···
19 2 1 1 1 toulouse 1 2 3 1 ···
34 1 1 1 1 toulouse 2 4 3 4 ···
19 1 1 2 1 toulouse 1 3 3 1 ···
20 2 1 1 1 toulouse 1 2 3 4 ···
20 1 1 1 1 colomiers 2 4 4 13 ···
21 1 2 2 2 toulouse 5 0 3 0.17 ···
20 2 1 1 1 labarthe/lèze 2 4 4 0.5 ···
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
Chaque ligne correspond à un individu ; chaque colonne correspond à une ca-
ractéristique mesurée sur tous les individus. Par exemple, le premier individu
composant ce tableau a 16 ans ; c’est une étudiante (sexe=2) dont le père est
né en France (ppere=1) et la mère à l’étranger (pmere=2). Cette étudiante est
née en France (pnaiss=1), habite le centre ville (lieuhab=1) de Toulouse (nom-
ville=toulouse) dans une maison (modlog=4) de type “T3 ou +” (typlog=4) depuis
16 ans (durelog=16).
4 , 2 , 4 , 4 , 2 , 3 , 4 , 1 , 2 , 4 , 3 , 3 , 4 , 4 , 4 , 2 , 1 , 3 , 2 , 4.
où ”1” = ”chambre universitaire”, ”2” = ”T1”, ”3” = ”T2” et ”4” = ”T3 et
+”. Quelle est le type de cette variable ? Dresser le tableau donnant les effectifs,
fréquences et pourcentages ; quelle est la taille de l’échantillon ?
21, 20, 19, 18, 20, 20, 19, 22, 18, 19, 20, 21, 16, 20, 25, 19, 22, 23, 20, 19, 20, 24, 16, 21, 18.
11
12 Chapitre 2 : Exercices relatifs à la partie I : Statistique descriptive univariée
xi %
”Cité U” 4.8
”HLM” 16.4
”Résidence” 38.6
”Maison” 28.6
”Autre” 11.6
TOTAL 100
Sachant que la taille de l’échantillon N = 189, retrouver les effectifs pour chaque
modalité.
Quel est le type de cette variable ? Quel est son mode ? Représenter le diagramme
en barres des fréquences ainsi que le diagramme unicolonne des fréquences.
xi Locataire Propriétaire
.
ni 134 55
mesurent le niveau d’adéquation avec l’affirmation “Je suis très attaché(e) à cer-
tains endroits de ce quartier”. On a les deux tableaux d’effectifs suivants :
Hommes Femmes
xi 1 2 3 4 5 xi 1 2 3 4 5
ni 14 27 17 19 15 ni 21 23 18 14 21
2. Représenter la distribution de cette variable pour les hommes d’une part, puis
pour les femmes d’autre part.
3. Déterminer la médiane pour chacun de ces deux tableaux ; y-a-t-il une différence
pour ces deux groupes (Femmes/Hommes) du point de vue de la médiane ?
xi [0 ;1[ [1 ;2[ [2 ;3[ [3 ;5[ [5 ;11[ [11 ;16[ [16 ;21[ [21 ;26]
ni 35 36 32 25 20 18 16 7
2. Déterminer la médiane ainsi que les 1er et 3ème quartiles ; interpréter ces
différents indices de position.
Exercice 9 Les notes (variable X) obtenues par une classe d’élèves de 5ème lors
d’un devoir de Français fournissent le tableau suivant :
Ni (eff.
xi ni ni × xi ni × (xi )2
cum.)
4 2
5 3
6 5
7 3
8 2
9 2
10 4
11 4
12 3
14 2
TOTAL 2432
●
Effectifs
2 3 4 5
●
0
7 8 9 10 11
Notes (devoir de Mathematiques)
cul, quelle est d’après vous la variable de plus petite variance ? Pour laquelle
des 2 variables la moyenne est-elle la plus représentative ?
6.b) Déduisez du graphique la valeur de la médiane
6.c) À partir de la figure représentant la distribution de Y , vérifier par le calcul
que la moyenne de Y ' 9.04
0 20 30 40 110
Classes
8
Densite d'effectifs
Densite d'effectifs
Densite d'effectifs
6
6
4
4
2
2
0
0
0 20 30 40 50 70 20 30 40 50 0 20 30 40 50 70 80 90 100
Exercice 13 Soit X le nombre de fautes réalisé lors d’une dictée. A partir d’un
échantillon d’élève, on obtient le diagramme en bâtons suivant pour lequel on a
omis de préciser les effectifs :
● ●
● ●
effectifs
● ●
● ●
1 2 3 4 5 6 7 8 9
modalites
17
18 Chapitre 3 : Exercices relatifs à la partie II : Statistique descriptive bivariée
HH Y
HH
niv. 1 niv. 2 niv. 3 niv. 4 niv. 5
X HH
x1 = “locataire” 22 45 25 20 22
x2 = “propriétaire 13 5 10 13 14
1. Préciser la nature des variables étudiées.
2. Représenter la distribution conjointe de (X, Y ).
3. Compléter le tableau des effectifs conjoints en donnant les lois marginales ;
représenter la distribution marginale de Y .
4. Représenter la distribution de X conditionnellement à Y . Que peut-on dire
à partir de ce graphique concernant la relation entre X et Y ?
Exercice 16 On a interrogé une partie des élèves d’un collège pour connaı̂tre la
distance regroupée selon trois catégories (courte, moyenne et longue) qu’ils doivent
parcourir pour se rendre à l’établissement scolaire (i.e. distance domicile/collège).
On s’intéresse de plus à la variable Y =“niveau scolaire”. L’objectif est d’étudier
l’éventuel impact de la distance domicile/collège sur les résultats scolaires. On
obtient ainsi le tableau suivant :
H Y Marge
HH
faible moyen élevé
X HH
H de X
courte 23 79 127
moyenne 85 223
longue 102 27
Marge
131 161 N=500
de Y
1. Préciser les variables étudiées ainsi que leur type. Quelle est la population
étudiée ? Quelle est la taille de l’échantillon ?
2. Compléter le tableau ci-contre.
3. Représenter la loi marginale de X.
4. Déterminer la distribution de Y conditionnellement à X. Représenter gra-
phiquement cette distribution. Que pouvez-vous dire concernant le lien entre
X et Y ?
y3
y2
y1
100
80
60
20
0
x1 x2
Figure 3.1 –
HH Y
H
niv. 1 niv. 2 niv. 3 niv. 4 niv. 5
X HHH
x1 = “locataire” 22 45 25 20 22
x2 = “propriétaire 13 5 10 13 14
Exercice 20 On a interrogé une partie des élèves d’un collège pour connaı̂tre la
distance regroupée selon trois catégories (courte, moyenne, longue) qu’ils doivent
parcourir pour se rendre à l’établissement scolaire (i.e. distance domicile/collège).
On s’intéresse de plus à la variable Y =“niveau scolaire”. L’objectif est d’étudier
l’éventuel impact de la distance domicile/collège sur les résultats scolaires. On
obtient ainsi le tableau suivant :
HH Y
HH
faible moyen élevé
X HH
courte 23 25 79
moyenne 83 85 55
longue 102 21 27
x2 x2
x1 x1
100
100
82
52
45
42
22
0
0
y1 y2 y3 y1 y2 y3
Figure 3.2 –
Exercices récapitulatifs
1. Préciser la variable étudiée ainsi que son type. Quelle est la population ?
Préciser la taille de l’échantillon.
2. Compléter le tableau ci-dessus.
3. Réaliser le diagramme en bâtons représentant la distribution de X. Que
pouvez-vous déduire de ce graphique concernant la répartition du nombre
de fautes ?
23
24 Chapitre 4 : Exercices récapitulatifs
Exercice 23 . Sur les 6 dictées réalisées par les élèves de CM2 (voir exercice
1), 3 se sont déroulées dans un environnement bruyant et 3 autres dans un en-
vironnement silencieux. Le tableau ci-après donne le nombre de fautes cumulées
(regroupées en trois catégories) selon le type d’environnement :
H Y Marge
HH
bruyant silencieux
X HH
H de X
moins de 25 37 241
de 25 à 30 86 288
plus de 30 21
Marge
N=691
de Y
1. Préciser les variables X et Y étudiées dans cette étude ainsi que leur type
puis compléter le tableau ci-dessus.
2. Déterminer la distribution de X conditionnellement à Y . Représenter gra-
phiquement cette distribution. Que pouvez-vous dire concernant le lien entre
X et Y pour cet échantillon ?
3. Donner le tableau contenant les effectifs théoriques.
4. Calculer le χ2 puis en déduire le coefficient ϕ. Que peut-on dire du lien entre
X et Y ?
Exercice 24 . Une grande entreprise nommée a mené une enquête interne afin
d’étudier, selon différents secteurs d’activités (variable X), le niveau de stress res-
senti par ses employés (variable Y ). Les données ont été regroupées dans la table
de contingence ci-dessous :
HH
Y
HH Faible Moyen Important Extrême Marge de X
X HH
Commercial 2 4 18 13
Production 15 11 5 1
Marge de Y
2. Préciser les variables étudiées ainsi que leur type. Quelle est la population
étudiée ? Quelle est la taille de l’échantillon ?
di : densité
yi ni ci n i ci ni (ci )2 Ni
d’effectifs
[1.8; 2.5[ 11
[2.5; 3[ 25
[3; 3.5[ 32
[3.5; 4[ 23
[4; 5[ 56
[5; 6[ 31
[6; 7[ 22
TOTAL
1. Compléter le tableau.
2. Représenter l’histogramme.
3. Déterminer le(s) mode(s).
4. Calculer la moyenne, variance et écart-type.
5. Déterminer la médiane ainsi que les 1er et 3ème quartiles.
Annales
Exercice 1
On souhaite évaluer la capacité de mémorisation auprès d’élèves scolarisés en CM2.
Dans ce but, on mesure sur un 1er échantillon d’élèves (groupe 1), le temps (variable
X exprimée en minutes) nécessaire pour mémoriser un petit texte. Le tableau suivant
fournit les résultats observés (où ci désigne génériquement les centres des classes et ai
leur amplitude) :
xi ni ci ni × ci ni × (ci )2 Ni (eff. cum.) di = ni /ai
[3 ;4[ 3
[4 ;5[ 7
[5 ;6[ 5
[6 ;11[ 5
[11 ;13[ 6
[13 ;17[ 2
TOTAL S2 = 2005
27
28 Chapitre 5 : Annales
Exercice 2
0n s’intéresse aux 2 variables X=”assiduité” et Y =”niveau des résultats” que l’on a
observées sur un échantillon d’étudiants inscrits en 1ère année. On a obtenu le tableau
suivant :
HH Y Marge
H faible moyen bon
X HHH de X
Assidu 14 42 97
Marge
de Y
1. Préciser les variables étudiées ainsi que leur type. Quelle est la population étudiée ?
Quelle est la taille de l’échantillon ?
2. Compléter le tableau ci-dessus.
3. Déterminer la distribution de Y conditionnellement à X. Représenter graphique-
ment cette distribution. Que pouvez-vous dire concernant le lien entre X et Y
pour cet échantillon ?
4. Compléter les 2 tableaux ci-dessous en détaillant vos calculs sur votre copie.
Tableau des effectifs théoriques Tableau des contributions
Y HH Y
HH H
H faible moyen bon faible moyen bon
X HH H
X HH H
Assidu Assidu
5. Calculer le χ2 d’indépendance.
6. En déduire le V de Cramér φc . Que peut-on dire de l’intensité du lien entre X
(assiduité) et Y (niveau des résultats) pour cet échantillon ?
7. Question bonus (hors barême). Complétez en justifiant votre réponse le tableau
ci-dessous par 2 effectifs conjoints de sorte qu’ils correspondent à la situation où
l’on aurait le V de Cramér φc = 0 :
HH Y
H
faible moyen bon
X HH H
Assidu 14 42 84
Exercice 1
On s’intéresse au temps (variable X exprimée en heure) passé quotidiennement par les
élèves d’un collège sur les différents réseaux sociaux existant sur internet. Dans ce but,
on a interrogé un 1er groupe d’élèves (échantillon 1) de ce collège. Le tableau suivant
fournit les résultats observés (où ci désigne génériquement les centres des classes et ai
leur amplitude) :
1) Quelle est la population étudiée ? Quelle est la taille de l’échantillon ? Préciser la va-
riable étudiée ainsi que son type (en détaillant l’ensemble des valeurs possibles).
2) Compléter le tableau ci-dessus.
3) Représenter la distribution de X ; en déduire le(s) mode(s).
4) Calculer la moyenne, la variance et l’écart-type de X.
5) Déterminer la médiane ; que représente cet indice ?
6) Les 2 figures ci-dessous représentent la distribution de cette variable obtenue à partir
de deux autres échantillons d’élèves :
Echantillon 2 Echantillon 3
106
128
Densite d'effectifs
Densite d'effectifs
56 68
30 40
10
0 0.5 1 5 0 0.5 1 1.5 2 3.5 4 4.5 5
Classes Classes
Sans faire de calculs, répondez aux questions suivantes en les justifiant :
6.a) À partir des trois histogrammes dont vous disposez, quel échantillon d’élèves
possède la plus petite variance ? Pour quel échantillon d’élèves la moyenne est-elle
la plus représentative ?
6.b) Quelle est la médiane pour l’échantillon 3 ?
Exercice 2
On dispose d’un échantillon d’élèves en cours d’étude dans le secondaire pour lesquels
on a observé X=“cycle d’étude”. On leur a demandé d’évaluer leur volume de travail
personnel (faible, moyen ou important), cette dernière variable étant notée Y . On a
obtenu le tableau suivant :
HH Y Marge
H faible moyen important
X HH
H de X
Collège 16 144
Lycée 47 46
Marge
143 290
de Y
1) Préciser les variables étudiées ainsi que leur type. Quelle est la population étudiée ?
Quelle est la taille de l’échantillon ?
2) Compléter le tableau ci-dessus.
Collège Collège
Lycée Lycée
Synoptique et formulaire
33
SYNOPTIQUE DES SITUATIONS ABORDÉES DANS LA PARTIE
STATISTIQUE DU PY0106X
Chapitre 6 : Synoptique et formulaire
Pourcentage = fréquence×100.
1 n o S1
X = (n1 × x1 ) + (n2 × x2 ) + · · · + (nK × xK ) =
N N
1 n o S2
n1 × (x1 )2 + n2 × (x2 )2 + · · · + nK × (xK )2 − (X)2 = − (X)2
V ar(X) =
N N
2 2
La variance est aussi notée SX ou encore σX .
p
Écart-type : σX = V ar(X) . σX est aussi parfois noté SX .
Représentation : diagramme en bâtons.
Médiane et quartiles
qualitatives ordinales
Médiane et quartiles sont définis pour des variables ou ; on suppose que
quantitatives
les modalités sont ordonnées dans l’ordre croissant.
Médiane : modalité séparant l’échantillon de taille N en 2 sous-échantillons de même taille N/2.
Détermination de la médiane :
1) on sélectionne l’effectif cumulé N∗ immédiatement supérieur à N/2,
2) la modalité correspondant à N∗ est la médiane (dans le cas d’une variable quantitative conti-
nue, la classe correspondant à N∗ est applée classe médiane et la médiane est le centre de la
classe médiane).
Quartiles : modalités notées Q1 , Q2 et Q3 séparant l’échantillon de taille N en 4 sous-échantillons
de même taille N/4.
Détermination de Q1 : même procédé que pour la médiane en remplaçant N/2 par N/4.
Détermination de Q2 : par définition, Q2 = médiane.
Détermination de Q3 : même procédé que pour la médiane en remplaçant N/2 par (3 × N )/4.
Mode(s)
Distribution conjointe de (X, Y ) = ensemble des informations contenues dans le tableau four-
nissant les L × C effectifs conjoints n1,1 , n1,2 , . . . , nL,C .
Distribution marginale de X = (x1 , n1• ), (x2 , n2• ), . . . , (xL , nL• ) où n1• , n2• , . . . , nL• sont les
L effectifs marginaux de X (somme des effectifs conjoints ligne par ligne).
Distribution marginale de Y = (y1 , n•1 ), (y2 , n•2 ), . . . , (yC , n•C ) où n•1 , n•2 , . . . , n•C sont les C
effectifs marginaux de Y (somme des effectifs conjoints colonne par colonne).
HH Y HH Y
H H
y1 y2 ··· yC y1 y2 ··· yC TOTAL
X HHH X HHH
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
TOTAL 1 1 ··· 1
Il suffit de multiplier toutes ces quantités par 100 pour obtenir des pourcentages.
HH Y Marge
H y1 y2 ··· yC
X HH de X
HH Y
HH y1 y2 ··· yC
X H
.. .. .. .. ..
. . . . .