Chap1 - 2020
Chap1 - 2020
Chap1 - 2020
EHEC
Plan du Chapitre 1
1.1 Introduction.
1.2 Les concepts et le vocabulaire de base.
1.3 Les échelles de mesure.
1.4 Les tableaux et graphiques.
C’est un outil scientifique qui permet de recueillir, collecter, organiser, résumer, classer et
représenter des données (étape descriptive ou exploratoire) pour pouvoir les analyser et les
interpréter.
La statistique est utilisée dans tous les domaines à savoir les Sciences expérimentales (
Médecine, biologie , physique, chimie, …etc) ; les Sciences Humaines( Sociologie,
Psychologie, …), Les sciences Commerciales, de Gestion et d’économie ( Marketing,
Management, Finance, économie , …etc).
Les (des) statistiques (ou bien une statistique) sont les (des) données utilisées pour mener une
étude.
I- LE VOCABULAIRE DE LA STATISTIQUE :
f- Modalités: On appelle les modalités d’un caractère, les différentes situations possibles
(numérique ou pas) que peut prendre un caractère. Les modalités d'un même caractère
doivent être incompatibles et exhaustives, de sorte qu'un individu appartient à une et
une seule modalité.
Exemples :
le sexe (masculin ou féminin). Il se compose de deux modalités, on parle de caractère
dichotomique. Un caractère est dichotomique s’il ne peut prendre que deux modalités.
L’âge des employés d’une entreprise (de 20 à 30 ans ; de 30 à 40 ans ; 40 à 50 ; 50 et
plus). Ce caractère se compose de quatre modalités.
Le nombre d’Enfants par Ménage ( 0,1,2,3,4 ,5, 6 et plus). Ce caractère se compose de sept
modalités.
C.I.T.I : classification internationale type par industries, de toutes les branches d'activités
économique, élaborée par l ' O.N.U.
C..T.C.I : classification type pour le commerce international, élaborée par la commission
statistique de l’ONU.
C.I.T.P: classification internationale type des professions, mise au point par le bureau
international du travail : B.I.T.
b- Caractère quantitatif : Ses modalités sont mesurables. On distingue deux types : discret
ou continu.
caractère discret
Il prend des valeurs isolées dans son domaine de variations. On peut citer, par exemple :
- Le nombre d’enfants par famille pour le personnel d’une entreprise.
- Le nombre de modules acquis en tronc commun
- Le nombre d'articles vendus d'un magasin en fin de journées durant une semaine.
caractère continu :
Le nombre de valeurs possibles est infini mais dénombrable ; il est donc nécessaire de définir
les modalités en groupant en classes ces valeurs. A titre d'exemple, on peut citer :
- la taille, le poids, ou l'age d'un individu.
- La distance entre deux villes.
- Les salaires des travailleurs.
La longueur de chaque classe est appelée " amplitude "
Les classes ont une amplitude constante ou variable. Par exemple :
Age : 0 à 5 ans, 5 à 10 ans, 10 à 15 ans, ….
Durée du chômage : moins de 3 mois, entre 3 mois et 1 an, et plus d'une année.
Une Série statistique : La mesure d’un caractère ( ou variable ) chez n individus fournit
une série de valeurs observées il s'agit de la série statistique (uni
variée) observée.
On a relevé les résultats (sur 80) de 10 étudiants à un concours. En identifiant chaque étudiant
par un nombre entier compris entre 1 et 10, nous avons alors :
Donc, une série statistique correspond aux différentes modalités d’un caractère sur un
échantillon d’individus appartenant à une population donnée.
Si la variable X est mesurée sur une échelle ordinale ou d'intervalles ou de rapports, une
manière naturelle d'organiser les données consiste à ordonner les valeurs observées de la plus
petite (la moins bonne...) à la plus grande (la meilleure...). On obtient ainsi la série statistique
ordonnée, que l'on note ;
ou
La plus petite observation x1, , est donc l'observation de rang 1 (elle est parfois aussi
notée ) ; la plus grande observation x2, est l'observation de rang (autre notation
possible : ).
Nous allons considérer dans ce qui suit l’analyse d’une seule variable (analyse univariée)
Fréquence (ou bien Fréquence) : c'est le rapport de l’effectif « ni » sur l'effectif total n ,
(aussi appelé : Fréquence relative, appellation rarement utilisée)
n n
fi = i , ou bien en pourcentage : fi = i * 100
n n
n1 n2 n
D’où : f1 f 2 .... f k .... k 1
n n n
Ou bien 100 en poucentage
Remarque : Il est important de ne pas confondre (le nombre d'observations dans la série
statistique (effectif total) et k (le nombre de modalités distinctes de cette série statistique).
N2 = n1 + n 2
N3 = n1 + n 2 + n3
……………………….
Ni = n1 + n 2 +…..+ + ni
On peut également associer à chaque valeur xi la fréquence cumulée Croissante
Fi correspondant à la proportion d'observations, dans la série statistique de
départ, inférieures ou égales à valeur xi Cette fréquence cumulée est définie par
F1 = f 1
F2 = f1 f 2
F3 = f1 f 2 f 3
n1 n2 n
Fk = f1 f 2 .... f k .... k
n n n
Notons que :
: puisque x1 est la plus petite valeur observée, il n'existe aucune observation,
dans la série de départ, qui soit strictement inférieure
Nk = n puisque xk est la plus grande valeur observée, l'ensemble des observations de
la série de départ lui sont inférieures ou égales.
De manière similaire, si l'on raisonne en termes de proportions d'observations plutôt qu'en
termes de nombres d'observations, nous avons F1 = f1 et Fk = 1 ( ou 100).
Remarque :
Modalité k nk fk Nk Fk
Exemple : Le tableau suivant représente la répartition des travailleurs d’une entreprise selon la
Nous pouvons notamment déduire de la lecture de ce tableau que dans 60% des travailleurs de
cette entreprise sont des ouvriers.
Exemple : nombre d’enfants par famille.
Effectif
Nombre d’enfants ( xi) effectif cumulés Fi (%) Fréquences cumulées
30 30 20 20
1 75
45 30 50
2
15 90 10 60
3
60 150 40 100
4
n=150 100
Total n 100%
Exemple :
[ei ei+1 [ Xi ni fi (%) Ni Fi
total 80 100
[0 , 4[ 10 4 10/4
[4 , 10[ 25 6 25/6
[10 , 17[ 45 7 45/,2
[17 , 20[ 20 3 20/3
Remarque : les résultats sont différents mais l’ordre des grandeurs est préservé
Remarque : ce même calcul se fait en utilisant les fréquences (fi ) à la place des effectifs (ni).
Faites le à titre d’exercice.
Exemple : Une étude réalisée auprès de 50 personnes d’un club de volley comportait une
question sur leur taille. La série statistique ci-dessous présente ainsi les tailles de ces
étudiants, arrondies au centimètre le plus proche et saisies dans l'ordre du dépouillement de
l'enquête.
150 166 186 190 180 170 155 166 187 159 169 158 174 172 173 166 171 156 165 174
156 165 182 160 170 160 165 176 177 169 161 151 171 162 170 160 167 155 165 175
151 164 181 170 181 179 159 160 187 188
A première vue, les données sont quantitatives discrètes, cependant, le problème qui se pose
est le nombre de modalités ( dépassant 10). Une solution à ce problème consiste à adopter
une approche plus globale des données en réalisant un groupement de ces dernières en
classes. La question qui se pose est l’amplitude à prendre !
En pratique, si nous disposons de toutes les informations nécessaires ( les spécificités du
problème) , nous proposons des classes en fonction du problème posé ; sinon il existe dans
la littérature statistique des règles empiriques pour aider le praticien à choisir le nombre de
classes.
-Définition de l’amplitude :
Ainsi, l’amplitude se calcule ai = ( Xmax – Xmin)/ k
Exemple :
K= racine( 50)= 7.07=7
Le calcul de l’amplitude :
ai = ( Xmax – Xmin)/ k
ai = (190 – 150)/ 7= 5.71= (l’amplitude de la classe est égale à 6)
le groupement en classe des données de l’exemple cité précédemment est comme suit :
Caractere ni
[150, 156 [
[156, 162 [
……
Plusieurs règles et précautions doivent être présentes à l'esprit de ceux qui construisent,
analysent et utilisent de tels outils. Mentionnons-en les plus importantes :
1. Le graphique doit contenir le maximum d'informations utiles (le titre, légendes,
sources, valeurs numériques, ...) ; il doit être compris par lui-même, sans que l'on soit
obligé de recourir à la lecture d'un texte explicatif.
2. Pour représenter le graphe, il faut utiliser une échelle simple sans recourir aux calculs.
ouvriers
techniciens
ingenieurs
cadres-dirigeants
Caractère quantitatif :
Cas discret: Elle s’effectue de deux manières :
1. Diagrammes en bâtons :
La hauteur des bâtons correspond à l’effectif ni (fréquence fi) associé à chaque modalité.
Le diagramme est sous cette forme.
2. Le polygone des effectifs ( ou des frequences) : C’est la ligne polygonale joignant les
points de la série d’abscisses xi et l’ordonnée fi ( ou l’effectif ni) correspondante.
3. Courbe cumulative :
On porte les valeurs de chaque modalité en abscisses et les valeurs des effectifs cumulés Ni
(fréquences cumulées Fi) en ordonnées. Elle se présente comme une courbe en escalier où
chaque segment est fermé à gauche, et ouvert à droite.
Courbe cumulative
Cas continue :
1. l’histogramme :
C’est un diagramme composé d’un ensemble de rectangles d’aire proportionnelle aux effectifs
(fréquences) et de bases déterminées par les extrémités de classe.
Remarque : Pour une présentation complète des tableaux et graphiques, on doit mettre le titre
en haut et la source des données en bas.
Exemples :
Exemple 1 :Soit un échantillon de 50 achats de boissons non-alcoolisées achetées dans une
grande surface, en notant par : CC=Coca-Cola; S=Sprite; CL=Coke-Light; P=Hamoud
Boualem; PC=Pepsi-Cola.
Les résultats obtenus :
CC S PC CL CC CC PC CL CC CL CC CC CC CL PC CC
CC P P S CC CL PC CL PC CC PC PC CC PC CC CC PC
P PC PC S CC CC CC S P CL P PC CC PC S CC CL
La variable est X=Boisson non-alcoolisée, qui est une variable qualitative nominale.
Tableau statistique des boissons non-alcoolisées
X=Boisson effectif Fréquences
CC 19 0,38
CL 8 0,16
PC 13 0,26
P 5 0,10
S 5 0,10
Total n=50 1
Diagramme à Bandes
120
100
80
60
Série1
40
20
0
Renault Peugeot Citroen Divers VW Fiat Ford Opel
Diagramme circulaire
ni
Renault
Peugeot
Citroen
Divers
VW
Fiat
Ford
Exemple 3: Soit un échantillon de 60 clients qui ont été interrogés sur leur degré de
satisfaction vis-à-vis d’un nouveau produit, sur une échelle de 1 à 7, le 1 correspondant à
<<pas du tout satisfait>> et le 7 correspondant à << extrêmement satisfait>>. On a obtenu les
résultats suivants :
5 7 6 6 7 5 5 7 3 6 7 7 6 6 6 5 5 6 7 76 6 4 4 7 6 7 6 7 6 5 7 5 7 6 4 7 5
7 66 5 3 7 7 6 6 6 6 5 5 6 6 7 7 5 6 6 6 6
La variable « degré de satisfaction » est qualitative ordinale. Ci-joint le tableau de fréquences
ce qui donne :
3 2 0,0333
4 3 0,0500
5 12 0,2000
6 25 0,4167
7 18 0,3000
Total n=60 1,0000
1 10% 10%
2 35% 45%
3 20% 65%
4 17.5% 82.5%
5 12.5% 95%
6 5% 100%
Total 100%
La courbe cumulative
Exemple 5 : Lors d’un contrôle de qualité, on enregistré le nombre d’accidents de travail par
semaine sur une période de 40 semaines. Il a obtenu les résultats suivants :
2 0 4 2 2 1 3 2 0 5 4 3 2 4 5 6 6 4 2 0
3 4 4 2 6 2 4 3 0 4 3 4 3 3 5 5 4 2 2 1
Tableau des fréquences du nombre d’accidents par semaine
Le nombre d’accidents par semaine. effectif Fréquences Fréquences cumulées
0 4 0,100 0,100
1 2 0,050 0,150
2 10 0,250 0,400
3 7 0,175 0,575
4 10 0,250 0,825
5 4 0,100 0,925
6 3 0,075 1,000
Total n=40 1,000
Exemple 6 :
Exemple 3 :Ci-joint le tableau statistique représentant les différentes tranches du salaire
annuel en unité monétaire d’une multi nationale.
Exemple 8 : Soit X, les recettes quotidiennes(en Unité Monetaire) d’un petit magasin. On a
sélectionné un échantillon de taille n=40 jours au hasard qui ont donné les résultats suivants :
16,00 58,50 68,20 78,00 79,45 142,20 145,3 186,70 209,05 216,75
219,70 247,75 249,10 256,00 257,15 262,35 268,60 269,60 270,15 284,45
319,00 332,00 343,29 350,75 354,90 372,60 383,20 389,20 404,55 420,20
428,50 432,40 444,60 446,80 456,10 458,10 493,95 511,95 521,05 621,35
Nous disposons d’une variable discrète avec un grand nombre de modalités. Il est donc
inconcevable de dresser un tableau où on énumère les modalités d’une telle variable. Il faut
donc grouper ces données en classes de valeurs. Deux questions se posent alors :
Combien de classes faut-il former ?
Quelle est l’amplitude de chacune des classes ?
La réponse à la première question, dépend de la taille de l’échantillon.
arrondie à 90.
On arrondit cette amplitude selon les données pour avoir des bornes de classes faciles à
manipuler.
Ce qui donne le tableau des fréquences suivant, où les classes sont des intervalles fermés à
gauche et ouverts à droite sauf le dernier qui est un intervalle fermé des deux côtés.
La courbe cumulative
1.0
0.8
freq.cumul.es
0.6
0.4
0.2
0.0