Introduction À La Statistique Appliquée
Introduction À La Statistique Appliquée
Introduction À La Statistique Appliquée
Introduction la
statistique
applique
Loze-Dion diteur
(450) 679-1955
(450) 679-6339
www.lozedion.com
lozedion@lozedion.com
PRFACE
Cette dition a prserv ses qualits pdagogiques tout en amliorant sa
prsentation matrielle. Nous y retrouverons les points forts et les
caractristiques qui en ont assur le succs au cours des nombreuses
annes.
On retrouvera une approche base sur l'tude et l'analyse de situations
concrtes dont le fil conducteur demeure l'ide de test d'hypothse. En
introduisant le test d'hypothse ds le dbut du livre par un premier
contact avec le khi-deux, nous vitons le pige de le relguer la fin du
parcours didactique. Omniprsente aussi, du moins en filigrane, la notion
de modlisation, l'me mme de toute application des mathmatiques, et
particulirement de la statistique.
Rappelons enfin que ce manuel est rsolument orient vers l'apprentissage
de la statistique. La mise en vidence des mcanismes du raisonnement
statistique est privilgie, et ne sont abords que les sujets et les
dveloppements mathmatiques ncessaires.
Nous avons cru utile de proposer ou de rendre possibles certains choix
de cheminements et donc d'inclure certains lments intressants pour les
applications et dont on peut donner un traitement lmentaire. Ainsi, on
trouvera, en fin de manuel, un chapitre consacr aux techniques de
sondages et un autre aux sries chronologiques.
Ce manuel permettra donc aux tudiantes et tudiants tant de niveau
collgial qu'universitaire de dcouvrir l'univers fascinant de la statistique.
Et, travers les trs nombreux exercices, ils se familiariseront avec les
mthodes et les applications innombrables de cette discipline.
Remerciements Michel Ads, Grard Leduc et Glenn Shorrock pour la
premire et la deuxime dition, et Monsieur Franois Goulet pour sa
lecture de l'dition prcdente.
Note Nous avons marqu d'un astrisque certains exercices demandant un
dveloppement mathmatique un peu plus avanc pour celles et ceux
dsirant pousser leurs limites.
Distributions
1.1 Population et variables
1.2 Distributions
1.3 Reprsentations graphiques
1.4 chantillons et test d'ajustement
1
2
4
9
14
37
38
42
48
58
59
62
78
79
80
81
83
85
86
110
111
118
121
143
144
150
157
163
164
181
182
185
194
197
199
216
217
222
223
225
231
252
253
255
257
262
266
275
278
280
284
286
293
316
318
323
328
331
335
337
348
350
361
367
370
376
391
392
394
397
397
398
399
400
Distributions
1.1
1.2
1.3
1.4
Population et variables
x Variables
Distributions
x Frquences
x Groupement des valeurs
x Classes d'tendues ingales
x Variables continues
Reprsentations graphiques
x Le diagramme btons
x L'histogramme
x Le polygone des frquences
chantillons et test d'ajustement
x Introduction
x nonc formel du problme et procdure de rsolution
x Justification de la procdure
RSUM
EXERCICES
1.1
POPULATION ET VARIABLES
L'objectif principal de la statistique est de fournir de l'information
quantitative sur un ensemble circonscrit et bien dtermin d'tres ou
d'objets appels units statistiques. L'ensemble de ces units statistiques est
appel population.
Exemple 1
Chacun des ensembles suivants peut tre considr comme une population,
dont l'tude intressera, selon le cas, divers utilisateurs de la statistique :
a) l'ensemble de tous les habitants du Qubec ;
b) l'ensemble de tous les mnages de la ville de Laval ;
c) l'ensemble des entreprises industrielles des Cantons de l'Est, qui
emploient moins de cent personnes ;
d) l'ensemble de tous les saumons qui sont venus frayer dans les eaux du
Qubec en 1989 ;
e) l'ensemble des cotes la fermeture quotidienne de la bourse de Toronto,
pour les valeurs minires, en avril et mai 1990 ;
f)
Une population peut tre finie, si elle comprend un nombre fini d'units, ou
infinie si elle en comprend un nombre infini. Dans l'exemple 1 ci-dessus, la
population f) peut tre considre comme infinie, mme si, en ralit, elle est
srement finie.
Variables Comme on voit dans les divers cas prsents l'exemple 1, une
tude statistique doit ncessairement se limiter certains aspects, ou
caractres, des membres de la population, qu'on appelle gnralement
variables. Ds qu'une variable d'une population est choisie, chaque
membre de cette population correspond une valeur de la variable en
question.
1 Distributions
Exemple 2
Exemple 3
discrtes
quantitatives
continues
Une variable est dite qualitative ou quantitative selon que ses valeurs
reprsentent des qualits ou des quantits. La variable langue maternelle
est qualitative, tandis que les variables taille du mnage et revenu
annuel brut sont quantitatives. Cette distinction n'est pas toujours absolue
et parfois se rfre non pas la nature d'une variable mais plutt la faon
dont elle est traite. Le revenu d'une entreprise est une variable quantitative,
mais si on se contente de le classer comme nul , faible , moyen et
lev , alors on en fait une variable qualitative.
Nous ferons une deuxime distinction, celle-ci entre deux sortes de variables
quantitatives : les variables discrtes et les variables continues. Une
variable discrte est une variable qui ne peut prendre que des valeurs
isoles. La variable nombre d'enfants dans une famille est une variable
discrte, car elle ne peut prendre comme valeurs que les entiers 0, 1, 2, ... ;
aucune valeur entre ces entiers n'est possible. La valeur pointure des
souliers est, elle aussi, une variable discrte, mme si les demi-pointures
existent. Une pointure de 6 1/2 existe, mais il n'y a pas de pointure entre
6 1/2 et 7 ou entre 7 et 7 1/2.
Contrairement aux variables discrtes, les variables continues peuvent
thoriquement prendre comme valeurs tous les nombres compris dans un
certain intervalle. La taille d'une personne, par exemple, peut tre de 165 cm
ou de 166 cm, mais elle peut galement tre de 165,5 cm ou de 165,487 3 cm.
Cette notion est videmment thorique puisque les instruments de mesure
usuels ne nous permettent pas de distinguer une personne de 165,487 3 cm
d'une personne de 165,487 4 cm. En pratique, on mesure les tailles en
arrondissant l'entier le plus proche et les donnes prennent la mme allure
que celles qu'on obtiendrait d'une variable discrte. Nanmoins, les variables
continues sont en gnral traites diffremment des variables discrtes du fait
que leurs valeurs possibles, ralises ou pas, sont trs nombreuses. De plus,
la signification des nombres dans le cas continu est diffrente : lorsqu'on
inscrit 165 cm pour la taille de quelqu'un, il est entendu que sa vraie taille
n'est pas 165,000 0 cm mais qu'elle se situe quelque part entre 164,5 cm et
165,5 cm. Les consquences pratiques de la distinction entre une variable
continue et une variable discrte apparatront dans les chapitres suivants.
1.2
DISTRIBUTIONS
Les donnes brutes, dans la forme o elles se prsentent la suite d'une
enqute, sont en gnral impossibles assimiler. Aussi, la premire tape
d'une analyse de ces donnes consiste les rassembler, les rsumer et
les prsenter sous une forme comprhensible, de faon avoir une premire
vue d'ensemble de l'information qu'elles contiennent.
Supposons, par exemple, que pour valuer l'opportunit de construire un
petit centre commercial dans un certain quartier, on procde une enqute
auprs des 770 mnages du quartier. Un interviewer se prsente chacun
des mnages avec un questionnaire contenant des questions comme :
Combien y a-t-il de personnes dans le mnage ? Combien de celles-ci sont
1 Distributions
des adultes ? Combien ont un emploi ? Quel est votre revenu familial ?
Avez-vous une automobile ? O faites-vous vos emplettes habituellement ?
Chacune de ces questions correspond une variable. Le rsultat immdiat
de cette enqute est une pile de 770 fiches. Une version simplifie d'une de
ces fiches ressemblerait l'illustration de la figure 1.1.
En transcrivant l'information contenue dans ces 770 fiches, on peut construire un immense tableau o chaque ligne reprsente un mnage et
chaque colonne une variable. Ce tableau aurait sans doute l'allure du
tableau 1.1.
FIGURE 1.1
nombre de personnes
nombre d'adultes
nombre de personnes ayant un emploi
revenu familial ($) :
F 0 moins de 25 000
F 25 000 ou plus moins de 45 000
________
________
________
F 45 000 ou plus
TABLEAU 1.1
Question
1
770
Le tableau 1.1 prsente donc, pour la population forme des 770 mnages
d'un certain quartier, l'information complte sur quatre variables, les trois
premires tant quantitatives discrtes, et la quatrime, qualitative. Plus
loin, nous verrons comment examiner simultanment plusieurs variables,
mais pour commencer, nous les prenons une la fois.
6+
TOTAL
125
200
295
100
50
770
personnes
Effectif
TOTAL
Frquence
0,162
0,260
0,383
0,130
0,065
Groupement des valeurs Si une variable est continue, ou si ses valeurs sont
trop nombreuses pour tre numres au complet, il faut recourir un
groupement des valeurs. Le tableau 1.4 prsente un exemple o la
population est l'ensemble de tous les enseignants rguliers dans les cgeps
du Qubec en 1986-1987, et o la variable considre est l'ge.
1 Distributions
Classes d'tendues ingales Autant que possible, lorsqu'on groupe les valeurs
d'une variable, on les groupe en classes d'tendues gales. Pour des
raisons d'ordre pratique, on ne le fait pas toujours : parfois les donnes nous
arrivent dj groupes en classes d'tendues ingales, ou encore il peut
tre plus naturel d'utiliser des classes larges pour les grandes valeurs et des
classes troites pour les petites valeurs.
Le tableau 1.5 prsente une distribution o la population est l'ensemble des
hommes canadiens de moins de 70 ans et o la variable est l'ge. Le
groupement des donnes est celui de Statistique Canada. L'tendue des cinq
premires classes est 5, celle des 4 suivantes est 10, et celle de la dernire
est 5.
Variables continues Dans le cas des variables continues, les classes sont
contigus et il faut prendre soin de bien identifier les limites des classes pour
viter toute quivoque quant l'appartenance des points qui limitent les
classes. L'une des conventions possibles est illustre dans le tableau 1.6. La
variable est dnote par X et les classes sont dfinies par des ingalits qui
montrent clairement quelle classe chaque valeur appartient : il est clair,
par exemple, que la valeur 2,0 appartient la quatrime classe et non la
troisime. Remarquons que dans le tableau 1.6 la somme des frquences est
0,999 au lieu de 1,000. Il n'y a l rien d'alarmant, les arrondis dcimaux en
sont responsables.
TABLEAU 1.4
Distribution de l'ge des enseignants rguliers dans les cgeps au Qubec - 1986-1987
ge
Effectif
Frquence
moins de 20 ans
0,000
20-24
23
0,002
25-29
300
0,032
30-34
1 113
0,118
35-39
2 507
0,266
40-44
2 620
0,278
45-49
1 492
0,158
50-54
693
0,074
55-59
468
0,050
60-64
171
0,018
65+
36
0,004
9 424
1,000
TOTAL
SOURCE : Bulletin Statistique (vol. 13, no 4), DGEC, ministre de l'Enseignement suprieur et de la Science du Qubec (1988)
TABLEAU 1.5
Frquence
0,079
5-9
920,1
0,078
10-14
916,8
0,078
15-19
983,3
0,084
20-24
1 131,5
0,096
25-34
2 248,8
0,191
35-44
1 822,0
0,155
45-54
1 276,2
0,108
55-64
1 124,1
0,096
414,5
0,035
11 765,1
1,000
65-69
TOTAL
SOURCE : Annuaire du Canada, 1988
1 Distributions
TABLEAU 1.6
Effectif
Frquence
286
0,003
436
0,005
1 070
0,012
3 853
0,044
15 945
0,183
34 163
0,392
24 187
0,278
6 301
0,072
784
0,009
102
0,001
87 127
0,999
TOTAL
SOURCE : Bureau de la statistique du Qubec, 1984
1.3
REPRSENTATIONS GRAPHIQUES
Presque toute distribution peut avantageusement tre prsente sous la
forme d'un graphique. Un graphique nous permet de saisir en un coup d'oeil
les caractristiques d'une distribution et d'observer d'une manire immdiate
et visuelle les diffrences qu'il peut y avoir entre deux populations. Les
graphiques employs pour prsenter des donnes abondent dans les revues
populaires et sont d'une diversit illimite. Il existe cependant quelques
formes classiques, et nous en dcrivons trois : le diagramme btons,
l'histogramme et le polygone des frquences.
10
FIGURE 1.2
0,30
0,20
0,10
0,00
0
Nombre de personnes
SOURCE : Tableau 1.3
1 Distributions
FIGURE 1.3
0,05
0,10
0,15
0,20
0,25
0,30
2%
Environnement
5%
Transport et communications
7%
Services gnraux
Protection
8%
12%
ducation
13%
Sant
28%
Services sociaux
29%
Autres dpenses
0,3
Frquence
FIGURE 1.4
0,2
0,1
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
11
12
10
15
20
25
35
45
55
414,5
1124,1
1276,2
1822,0
2248,8
1131,5
983,3
916,8
920,1
Distribution de l'ge des hommes canadiens de moins de 70 ans - 1986 (en milliers)
927,8
FIGURE 1.5
65
70
1 Distributions
13
Centre de classe
0,75
1,25
1,75
2,25
2,75
3,25
3,75
4,25
4,75
5,25
Frquence
Garons
Filles
0,003
0,005
0,010
0,040
0,153
0,374
0,310
0,093
0,012
0,001
0,003
0,005
0,012
0,051
0,216
0,413
0,244
0,050
0,005
0,001
1,001
1,000
0,4
Frquence
FIGURE 1.6
0,3
Garon
Filles
0,2
0,1
0
0,25 0,75 1,25 1,75 2,25 2,75 3,25 3,75 4,25 4,75 5,25
Poids (en kg) la naissance
14
FIGURE 1.7
Afrique
11,1%
Amrique du
Nord
8,2%
Asie
60,9%
Amrique du
Ocanie
Sud
0,5%
5,4%
1.4
1 Distributions
15
Nouvelle lune
Premier quartier
Pleine lune
Dernier quartier
TOTAL
Effectif
76
88
100
96
360
0,211
0,244
0,278
0,267
1,000
Frquence
Nouvelle lune
Premier quartier
Pleine lune
Dernier quartier
TOTAL
Effectif
89
88
92
91
360
16
Nouvelle lune
Premier quartier
Pleine lune
Dernier quartier
TOTAL
Effectif
10
20
300
30
360
Dans ce cas, on n'aurait pas d'hsitation affirmer que les naissances sont
plus frquentes, plus probables, la pleine lune. Qu'un tel dsquilibre
puisse s'tre produit par pur hasard est trop invraisemblable.
Ces arguments lmentaires sont parfaitement convaincants lorsque les
tableaux se prsentent sous des formes aussi extrmes. Mais le tableau que
nous avons prsent au dbut de cet exemple est plus problmatique, et
pour en tirer des conclusions nous aurons besoin de techniques plus
raffines. Dans ce qui suit, nous commencerons par donner un nonc
formel du problme tape indispensable et nous prsenterons une
procdure de solution. Ensuite nous discuterons la logique qui justifie la
procdure. Rappelons toutefois que cette logique est essentiellement la
logique intuitive que nous venons d'exposer. Il reste quantifier ces
raisonnements pour qu'ils permettent de conclure, dans des cas moins
vidents.
1 Distributions
17
mme dure, une naissance se produit dans l'une ou l'autre des quatre
phases avec la mme probabilit, soit 1/4. Et c'est prcisment comme cela
que nous pouvons maintenant exprimer l'hypothse nulle :
Hypothse nulle : les naissances se distribuent selon les phases de la lune
selon les probabilits 1/4, 1/4, 1/4 et 1/4.
Il s'ensuit que les 360 naissances devraient thoriquement se rpartir
comme suit :
Phase
Nouvelle lune
Premier quartier
Pleine lune
Dernier quartier
TOTAL
Effectif
90
90
90
90
360
76
88
100
96
360
Effectifs thoriques
90
90
90
90
360
Remarque Le total des effectifs thoriques est toujours gal celui des
effectifs observs : c'est la taille de l'chantillon.
Entre les deux sries d'effectifs, nous observons des carts, dont nous allons
calculer une mesure globale. La mesure que nous allons employer, note F2
( khi-deux ) est dfinie par la formule suivante :
X
O T 2
T
76 90 2
90
88 90 2
90
196 4 100 36
90
3, 73
100 90 2
90
96 90 2
90
18
Q = (nombre de classes) - 1
Note Cette dfinition, purement mathmatique, correspond intuitivement au
fait que, pour les donnes tudies plus haut, par exemple, on pourrait
attribuer librement un effectif 3 des 4 classes ; la valeur de la quatrime
serait alors impose par le respect du total de 360.
Le tableau 1.8 donne, pour plusieurs valeurs de Q, le point critique
correspondant. Dans cet exemple, le nombre de classes est 4, donc Q = 4 1 = 3
et la table nous donne comme point critique le nombre 7,82. Puisque la valeur
de F2 obtenue, 3,73, est infrieure ce point critique, nous ne rejetons pas
l'hypothse nulle. En d'autres termes, l'cart de 3,73 entre la distribution
observe et la distribution uniforme est assez petit pour tre expliqu par le seul
hasard.
TABLEAU 1.8
Point
critique
Degrs de
libert Q
Point
critique
Degrs de
libert Q
Point
critique
3,84
11
19,68
21
32,67
5,99
12
21,03
22
33,92
7,82
13
22,36
23
35,17
9,49
14
23,68
24
36,42
11,07
15
25,00
25
37,65
12,59
16
26,30
26
38,89
14,07
17
27,59
27
40,11
15,51
18
28,87
28
41,34
16,93
19
30,14
29
42,56
10
18,31
20
31,41
30
43,77
Avec ces points critiques, la probabilit de rejeter l'hypothse nulle, si elle est vraie, est de 5 %
1 Distributions
19
20
TABLEAU 1.9
Distribution des revenus (en milliers de dollars) des familles canadiennes 1985
Revenu
0-15
15-25
25-40
40-60
60+
TOTAL
Frquence
0,137
0,175
0,271
0,256
0,161
1,000
TABLEAU 1. 10
Distribution des revenus (en milliers de dollars) des familles immigrantes - 1985
Revenu
0-15
15-25
25-40
40-60
60+
TOTAL
Effectif
80
92
163
110
55
500
0,160
0,184
0,326
0,220
0,110
1,000
Frquence
1 Distributions
21
0,175
0,271
0,256
0,161
0,175 u 500
0,271 u 500
0,256 u 500
0,161 u 500
ou encore
68,5
87,5
135,5
128
80,5
80
92
163
110
55
500
68,5
87,5
135,5
128
80,5
500
Calcul de F2
X
80 68, 5 2
68 , 5
92 87 , 5 2
!
87 , 5
55 80 , 5 2
80 , 5
1, 93 0 , 23 5 , 58 2 , 53 8 , 08
18 , 35
Nombre de degrs de libert : Il y a 5 classes dans la distribution ; le nombre
de degrs de libert est donc
Q=51=4
Le point critique correspondant est 9,49.
Conclusion : La valeur de F2 obtenue, 18,35, est suprieure au point critique
(18,35 > 9,49). Nous devons donc rejeter l'hypothse nulle et conclure que le
revenu des familles immigrantes n'est pas distribu de la mme manire que
celui des familles canadiennes. (Le hasard seul ne peut expliquer l'cart
observ entre les deux distributions.)
i
22
Mise en garde Le test d'hypothse dcrit dans cette section est bas sur des
calculs approximatifs qui ne sont valables que lorsque les effectifs sont
grands. En pratique, on vite d'employer ce test si certains effectifs thoriques
sont infrieurs 5 (ou encore on regroupe des classes afin que tous les
effectifs thoriques soient au moins gaux 5).
RSUM
1. Les lments d'une population sont appels units statistiques. Une
variable fait correspondre une valeur chaque lment de la population.
Une variable est dite qualitative ou quantitative selon que ses valeurs
reprsentent des qualits ou des quantits. Une variable quantitative est
dite discrte si elle ne peut prendre que des valeurs isoles ; elle est dite
continue si elle peut, thoriquement, prendre pour valeur tout nombre
rel compris dans un intervalle.
2. Une distribution fait correspondre chaque valeur x d'une variable X un
effectif ou une frquence, c'est--dire le nombre ou la proportion des
units statistiques pour lesquelles X prend la valeur x. La somme des
effectifs est appele l'effectif total. La somme des frquences est
toujours gale 1. Lorsque les valeurs d'une variable sont trs
nombreuses, on les groupe en classes, et c'est ces classes que la
distribution fait correspondre des effectifs ou des frquences.
3. Le diagramme btons est une reprsentation graphique qui s'applique
aux variables qualitatives et aux variables quantitatives discrtes dont
les valeurs sont relativement peu nombreuses (figure 1.2). Pour les
variables dont les valeurs sont groupes les variables continues et les
variables discrtes valeurs nombreuses l'histogramme est une
reprsentation graphique approprie (figure 1.4). Dans un histogramme,
c'est la surface du rectangle et non sa hauteur qui est proportionnelle
la frquence (figure 1.5). Le polygone des frquences se construit en
joignant les milieux des cts suprieurs des rectangles d'un
histogramme (figure 1.6).
4. Pour tester une hypothse concernant la population d'o est issu
l'chantillon, on suit les tapes ci-dessous :
a) On formule une hypothse nulle, selon laquelle les frquences de la
distribution de la population sont gales certaines frquences
donnes.
1 Distributions
23
F2
(O T ) 2
T
EXERCICES
POPULATION ET
VARIABLES
j)
24
2. Parfois il nous est possible, en faisant appel ce que nous savons d'une
situation familire, de dcrire, a priori, la distribution approximative
d'une variable. Dans chacun des cas suivants, on dfinit une population
et une variable. Tentez de deviner l'allure de la distribution.
a) Population : l'ensemble des salaris de sexe masculin, vivant dans
des rgions urbaines du Canada. Variable : le salaire annuel.
b) Population : l'ensemble des naissances au Canada. Variable : l'ge de
la mre.
c) Population : un ensemble de 1000 Amricains et de 1000 Pygmes.
Variable : la taille.
d) Population : un ensemble de 1000 Amricains et de 1000 Franais.
Variable : la taille (Note : les Franais sont lgrement plus petits que
les Amricains).
e) Population : un ensemble de paquets de 12 oranges, forms partir
d'un grand lot d'oranges dont 5 % sont gtes. Variable : le nombre
d'oranges gtes.
f) Mmes donnes qu'en (e), sauf que le pourcentage d'oranges gtes
dans le lot est 50 %.
g) Population : 36 000 lancers d'un d. Variable : le rsultat du lancer.
h) Population : les soldats canadiens de sexe masculin. Variable : la
taille.
i) Population : les lves d'une classe. Variable : leur note un examen
difficile.
j) Population : des boulons produits par une mme machine. Variable :
leur diamtre, en millimtres.
1 Distributions
25
2,4
9,8
3,8
7,7
6,0
3,3
3,6
4,7
6,9
5,2
2,6
2,9
4,8
9,0
4,3
1,6
2,6
0,8
4,1
4,8
4,4
4,5
3,6
8,2
2,4
3,3
10,3
4,4
5,3
11,6
7,7
4,6
5,6
3,7
5,2
6,4
2,4
0,6
4,6
6,9
0,1
3,5
1,0
3,1
8,2
2,9
6,7
4,5
4,4
5,3
5,7
2,3
4,6
1,4
1,8
5,9
6,5
5,1
6,8
7,8
7,6
7,7
10,8
4,8
2,4
2,0
3,2
4,1
4,5
3,5
3,9
7,9
2,0
5,5
4,8
5,9
1,3
3,9
7,9
0,8
7,4
9,9
3,4
4,4
3,2
11,1
3,6
5,6
2,0
8,2
4,9
4,3
3,3
3,0
5,0
0,3
7,7
4,9
6,2
3,2
4,7
7,9
5,5
8,8
5,7
2,3
3,5
1,5
10,9
4,1
4,2
4,7
0,7
3,5
2,8
4,4
5,9
6,0
6,8
8,1
4,1
8,0
2,8
9,4
5,2
5,4
5,4
0,6
3,9
8,4
2,0
6,7
3,8
1,8
8,3
2,8
2,8
10,3
0,6
3,4
3,7
3,8
4,3
6,5
1,6
8,3
10,4
5,6
4,6
385
418
368
341
427
471
401
519
467
561
427
433
451
411
407
387
451
419
387
467
402
388
379
506
602
376
465
459
502
531
571
393
412
437
617
512
407
519
392
491
552
439
475
462
501
392
419
571
437
718
513
491
567
431
438
368
337
415
352
438
467
550
318
439
398
519
539
315
475
26
TEST DU KHI-DEUX
Jour
Lu
Ma
Me
Je
Ve
Sa
Di
TOTAL
Effectif
50
42
47
42
44
40
35
300
TOTAL
219
7/36
1/4
1 112
5/36
1/9
1 Distributions
27
Amricains blancs
(effectifs)
(frquence)
700-800
601
0,045
600-690
2 001
0,172
500-590
3 190
0,314
400-490
2 788
0,301
300-390
1 309
0,148
200-290
208
0,020
Score
11. Pour savoir si un d est bien quilibr, on le lance 360 fois, et on obtient
la mme distribution qu'au numro 7. Rptez l'exercice. Pouvez-vous
expliquer les conclusions contradictoires ?
28
12. Le tableau suivant donne la distribution des revenus pour les gens ayant
un niveau d'instruction lmentaire (hommes et femmes) au Canada en
1984.
Distribution des revenus selon le sexe pour les gens ayant complt les seules tudes
lmentaires - Canada, 1984
Frquence
Revenu
Hommes
Femmes
0 - 1 000
0,028
0,055
1 000 - 5 000
0,085
0,235
5 000 - 10 000
0,315
0,472
10 000 - 15 000
0,121
0,136
15 000 - 20 000
0,119
0,059
20 000 - 25 000
0,111
0,025
25 000 - 30 000
0,092
0,008
30 000 - 35 000
0,082
0,006
35 000 - 50 000
0,047
0,004
1 Distributions
29
Effectif
ge
Effectif
ge
Effectif
46 159
59 733
14
83 817
60 271
63 002
15
85 831
62 812
64 828
16
88 157
62 754
10
63 817
17
80 105
64 010
11
65 504
18
84 682
60 204
12
69 365
19
81 404
60 001
13
74 630
20
75 453
SOURCE : Le recensement scolaire. Document statistique 53, Direction des tudes conomiques et dmographiques, Secteur de la
planification, ministre de l'ducation du Qubec
Clibataires
15-19
44 827
20
86
44 933
20-24
81 345
175
2 558
84 078
25-29
21 774
391
6 162
28 327
30-34
5 216
394
4 785
10 395
35-39
1 768
425
2 958
5 151
40-44
833
529
2 121
3 483
45-49
521
795
1 589
2 905
50-54
383
932
1 125
2 440
55-59
265
1 041
563
1 869
60-64
176
947
235
1 358
Total
157 108
5 649
22 182
184 939
Veuves
Divorces
Toutes
30
Mortelle
Trs grave
Grave
Pas grave
TOTAL
0,20
0,30
0,30
0,20
0,10
0,30
0,40
0,20
a) Formulez convenablement
reprsentatif.
l'hypothse
que
l'chantillon
est
1 Distributions
31
Rpartition des mnages canadiens selon l'ge et le sexe du chef de la famille - 1976 (en milliers)
Sexe du chef de famille
ge
Tous
Masculin
Fminin
15 - 24
431
154
585
25 - 34
1 457
222
1 679
35 - 44
1 185
154
1 339
45 - 54
1 115
190
1 305
55 - 64
841
238
1 079
65 - 74
567
286
853
75 - 84
153
172
325
5 749
1 416
7 165
Tous
17 642
58 391
57 278
76 217
13 841
91 276
21 367
45 222
64 112
33 914
39 126
77 319
23 440
91 328
21 478
67 315
38 277
77 319
44 839
32 187
85 432
99 877
34 512
34 156
52 111
18 394
27 831
78 989
49 721
96 543
45 678
45 220
72 115
67 313
34 218
15 268
76 677
95 212
53 217
68 221
32 175
46 317
57 322
25 681
47 362
94 323
67 212
42 178
64 392
28 491
18 349
56 122
21 167
95 121
77 777
64 568
69 212
56 319
57 100
86 341
12 224
96 131
21 121
20 351
24 876
87 719
83 212
82 119
83 314
12 133
31 211
32
18. Les deux tableaux suivant prsentent la mme distribution, mais avec
des classes formes de faons diffrentes. Il s'agit de la distribution de
l'ge de la population canadienne de moins de 90 ans. Construisez, sur
la mme chelle, un histogramme correspondant chacun des tableaux.
(Un histogramme n'admet pas d'espaces vides entre les classes. Donc,
dans le graphique, les limites des classes ne devraient pas tre
identiques celles du tableau. Puisque l'ge signifie l'ge au dernier
anniversaire , les intervalles devraient tre [0, 5], [5, 10], etc.)
Deux distributions de l'ge, population canadienne de moins de 90 ans
ge
Effectif (en
milliers)
ge
Effectif (en
milliers)
0-4
1 816
0-4
1 816
5-9
2 254
5-9
2 254
10-14
2 311
10-14
2 311
15-19
2 114
15-19
2 114
20-24
1 889
20-24
1 889
25-29
1 584
25-29
1 584
30-34
1 305
30-34
1 305
35-39
1 264
35-44
2 527
40-44
1 263
45-54
2 292
45-49
1 239
55-64
1 732
50-54
1 053
65-89
1 707
55-59
955
TOTAL
21 531
60-64
777
65-69
620
70-74
457
75-79
326
80-84
204
85-89
100
TOTAL
21 531
1 Distributions
33
19. Dans le cadre d'une tude sur les habitudes de lecture des lves du
secondaire, des chercheurs ont fait complter un questionnaire 1 687
lves
. Avant d'analyser les rponses aux questions principales - celles
traitant des habitudes de lecture - les chercheurs ont procd quelques
comparaisons entre les donnes de leur chantillon et celles du
recensement du Canada, afin de se rassurer sur la reprsentativit de
leur chantillon. L'une des variables examines est le sexe. Selon le
recensement, la proportion de garons dans la population est de 51,95 %.
Dans l'chantillon, le nombre de garons est de 847, soit 50,21 %.
L'chantillon semble-t-il reprsentatif ? (Qualifier un chantillon de
reprsentatif est un abus de langage, car le terme suggre que
l'chantillon est en tous points une rplique exacte de la population, chose
impossible. Voir le numro 15 pour une interprtation correcte du terme.)
20. Les chercheurs (numro 19) ont aussi tudi la rpartition de leur
chantillon selon le niveau scolaire et le sexe. Voici les distributions
conjointes qu'ils ont obtenues :
Population
chantillon
Sexe
Niveau
scolaire
Sec.1
0,104
0,088
Sec. 2
0,089
Sec. 3
0,106
Sec. 4
Sec. 5
TOTAL
Sexe
TOTAL
TOTAL
0,192
0,107
0,099
0,206
0,113
0,202
0,105
0,101
0,206
0,095
0,201
0,110
0,105
0,215
0,110
0,092
0,202
0,100
0,099
0,199
0,092
0,111
0,203
0,086
0,088
0,174
0,501
0,499
1,000
0,508
0,492
1,000
12
13
14
15
16
17
18+
TOTAL
Population
13,53
19,47
20,79
20,58
16,83
5,81
2,55
99,56
chantillon
9,2
19,9
20,1
19,5
20,2
8,2
2,3
99,4
Rapport d'enqute sur les habitudes de lecture des lves du secondaire, Direction gnrale du
dveloppement pdagogique, ministre de l'ducation du Qubec
34
TOTAL
0-7 ans
8 ans ou plus
Recensement canadien
1971
242 187
307 544
549 731
162
625
787
TOTAL
Effectif
1 001
1 035
982
1 033
905
737
894
6 587
Vacances et tourisme, Cahier no 3, Centre de recherches urbaines et rgionales, les Presses de l'Universit du
Qubec.
1 Distributions
35
Autres
TOTAL
Effectif
80
100
130
50
140
500
36
TOTAL
Effectif
129
80
82
81
128
500
TOTAL
Frquence
0,5
0,2
0,1
0,2
Mesures de tendance
centrale et de dispersion
2.1
2.2
2.3
2.4
2.5
2.6
38
2.1
x1 x 2 x n
i 1
ou
au lieu de
n
i 1
x i ou
x .
i
i 1
Exemple 1
39
0 111111 2 2 2 2 2 2 2 2 2 2 2 3 3 4
21
38
21
1, 8
Le mode Dans la figure 2.1, on constate que la valeur 2 est trs frquente,
et on pourrait bien vouloir la considrer comme valeur centrale. Ce genre de
situation se rpte assez souvent pour justifier l'introduction d'une nouvelle
mesure de tendance centrale, le mode. Le mode est la valeur de la variable
ayant la plus grande frquence.
40
FIGURE 2.1
Nombre de mnages
12
10
8
6
4
2
0
0
Exemple 2
2
3
1,8
Nombre d'enfants
Le mode ne se rvle utile que lorsqu'il est plutt prononc, sinon il joue mal
son rle de mesure de tendance centrale. Considrez les donnes suivantes :
3 3 14 15 16 17 18 19 20
Leur mode est 3, mais on peut difficilement dire que c'est une valeur centrale
ou une valeur reprsentative de l'ensemble des donnes.
i
Exemple 3
Exemple 4
41
8 , 5.
2
L'avantage principal de la mdiane, par rapport la moyenne arithmtique,
est qu'elle n'est pas indment influence par quelques donnes extrmes. La
mdiane des donnes de l'exemple 4 est 26,4, une valeur plus raisonnable
que la moyenne arithmtique de 36,3.
, ...,
Notons
les dciles D1, D2, ..., D9 qui sont les quantiles d'ordre
x
les centiles C1, C2, ..., C99 qui sont les quantiles d'ordre
10
1
100
10
100
10
, ...,
;
99
100
42
Exemple 5
2.2
1
2
MESURES DE DISPERSION
Une moyenne donne l'ordre de grandeur d'un ensemble de donnes, mais
cette information se rvle presque toujours insuffisante. Considrez, par
exemple, une classe dont la moyenne un examen est 60. Cette classe peut
tre forme presque entirement d'lves trs faibles et d'lves trs forts. Le
nombre 60 n'tant qu'une moyenne, il peut cacher plusieurs ralits. Un
indice de la dispersion des donnes par rapport la moyenne s'impose.
On se convaincra, dans les trois exemples qui suivent, qu'une moyenne qui
n'est pas accompagne d'un indice de dispersion est beaucoup moins
loquente.
Exemple 6
Exemple 7
Exemple 8
43
ait qu'une seule arrive ou mme aucune et que, durant l'heure suivante il y
en ait 10 ou 15. Si l'on veut viter que le service soit trop souvent dbord,
on doit l'organiser de telle sorte qu'il soit en mesure de traiter, par moments,
beaucoup plus que 5 patients par heure. La demande moyenne d'un service
est un indice inadquat des ressources ncessaires sa prestation.
i
La variance Soit xl, x2, ..., xn une srie de n donnes et x leur moyenne. La
variance s2 de ces donnes est la moyenne arithmtique des carrs des
carts la moyenne :
s
( xi
x)
n
L'cart-type s est la racine carre de la variance :
( xi
x)2
n
Les donnes
3
ont pour moyenne x
calculs) :
s
( 3 5) 2 ( 4 5) 2 ( 4 5) 2 ( 4 5) 2 ( 6 5) 2 ( 9 5) 2
6
4 1 1 1 1 16
6
4
44
TABLEAU 2.1
Calcul de s2
xi
xi x
( xi x ) 2
3
4
4
4
6
9
2
1
1
1
1
4
4
1
1
1
1
16
24
( xi x ) 2
Distribution des donnes
3
2
Effectifs
FIGURE 2.2
0
1
x 2s
xs
x
4
xs
x 2s
10
11
x 3s
45
L'interprtation de la valeur d'un cart-type n'est pas aussi aise que celle
d'une moyenne. En comparant les carts-types de deux sries de donnes,
on peut arriver certaines conclusions qualitatives.
Exemple 10 Voici les revenus moyens des familles pour 5 rgions du Canada, en 1951 et
en 1978 en dollars constants (1971) :
Rgion
Atlantique
Qubec
Ontario
Prairies
ColombieBritannique
1951
3 810
5 337
5 913
4 940
5 559
1978
9 744
11 569
12 921
12 129
13 320
( xi
x)
n
pour la variance d'une srie de donnes constitue la dfinition de la variance
et elle montre clairement ce que la variance mesure. Comme formule de
calcul, cependant, elle ne se rvle pas trs pratique. D'autres formules,
quivalentes celle-ci, sont en gnral plus faciles utiliser. En voici
quelques-unes :
46
x i2
nx 2
n
x i2
s2
( xi ) 2 / n
n
x i2
s2
x2
n
s2
TABLEAU 2.2
x2 x2
x i2
3
4
4
4
6
9
9
16
16
16
36
81
174
30
Ainsi, par exemple,
s
2
i
(
x )
i
/n
174 900 / 6
174 150
4.
47
x2 x 2
trouve s
22
Selon la rgle nonce la page 42, le rang du 1er quartile est l'entier le plus
prs de 9/4 + 1/2, soit 3. On voit que Q1 = 2, Q2 = 3 et Q3 = 4. Donc
E = 4 2 = 2.
i
48
22
E = Q3 Q1 = 6 2 = 4.
2.3
TOTAL
Effectif
11
21
49
0dx5
5 d x 10
10 d x 15
15 d x 20
20 d x 25
0,10
0,17
0,34
0,31
0,08
50
Recherche de Q1
Prsentons d'abord le problme graphiquement :
FIGURE 2.3
10
15
20
25
Q1
On voit que la rpartition de l'aire ombrage correspond l'quation suivante :
0,25 = (aire du ler rectangle) + (aire de la partie du 2e rectangle gauche de
Q1).
Le rapport de cette dernire aire sur l'aire totale du 2e rectangle (soit 0,17)
est gal au rapport de la longueur Q1 5 sur la longueur (5) de la base.
L'quation peut donc se rcrire
0 , 25
0 ,10
Q1 5
( 0 ,17 ) .
5
Aprs quelques manipulations algbriques, on trouve
Q1
5 ( 0 , 25 0 ,10 )
5
0 ,17
| 9 , 41.
Recherche de Q3
Un raisonnement et un calcul analogues nous donnent
Q3
5 ( 0 , 75 0 , 61)
15 | 17 , 26
0 , 31
On notera que le terme 0,61 correspond la frquence totale des classes qui
prcdent la quatrime.
i
51
ni
. Alors la
xi ni
x
i 1
.
n
Donc x
xi
ni
xi ni
0
1
2
3
4
TOTAL
1
6
11
2
1
21
0
6
22
6
4
38
38 21 | 1, 8 .
ni
x n
i 1
Posons f i
x f
i
Lorsque les valeurs sont groupes, les mmes formules s'appliquent, sauf
qu'alors les x i reprsentent les points milieux des classes. Dans ce cas, la
valeur qu'on obtient pour x n'est qu'une approximation de la vritable
moyenne. On a d faire comme si les observations de chaque classe taient
52
effectifs et
s2
( xi x ) ni
n
2
( xi x ) f i
2
x i n i x i n i
n
2
i
2
x fi x
x2 x 2 .
Exemple 17 Voici la distribution du revenu familial de 1 000 Qubcois dont le revenu,
en 1981, tait compris entre 2 000 $ et 25 000 $.
Revenu X
(en milliers de dollars)
2dx<4
4dx<6
6 d x < 10
10 d x < 15
15 d x < 20
20 d x < 25
Point milieu
3,0
5,0
8,0
12,5
17,5
22,5
Effectif
100
116
177
225
217
165
1 000
Frquence
0,100
0,116
0,177
0,225
0,217
0,165
1,000
53
100 116
177
225
10
217
15
165
20
25
x i ni
n
(3 u 100) (5 u 116) (8 u 177) (12,5 u 225) (17,5 u 217) (22,5 u 165)
1 000
12 618 , 5
1 000
12 , 618 5
ou encore par :
x
xi f i
( 3 u 0 ,100 ) ( 5 u 0 ,116 ) ( 8 u 0 ,177 ) (12 , 5 u 0 , 225 ) (17 , 5 u 0 , 217 ) ( 22 , 5 u 0 ,165 )
12 , 618 5
54
xi f i
2
x2 x 2
41, 045 2 et s
s2
6 , 406 7 .
i
55
4,5
9,4
10,3
10,4
21,7
22,2
24,8
29,0
29,5
29,7
33,5
37,5
38,7
44,4
46,3
49,2
58,3
60,9
61,8
70,0
71,1
85,9
169,3
181,6
15
22
29
L'une des charnires est la mdiane des donnes de rang 1 15, l'autre est
celle des donnes de rang 15 29. Ce sont donc les donnes de rang 8 et de
rang 22, soit 10,3 et 58,3. Les chiffres 10,3 ; 29,7 et 58,3 situent les donnes
centrales.
FIGURE 2.5
56
5
4
3
2
1
0
20
40
60
80
100 120
Revenus
140
160
180
200
Nous devons ensuite dterminer des nombres qui situent les extrmits de la
distribution. Comme nous l'avons dit plus haut, la plus petite et la plus
grande donnes pourraient servir, 1,3 et 181,6 dans l'exemple. Mais nous ne
sommes pas trs satisfaits du chiffre 181,6 : c'est bien la plus grande
donne, mais elle est beaucoup trop grande. La prsenter comme limite, c'est
cacher le fait que trs peu de donnes sont de cet ordre de grandeur. Nous
cherchons plutt des limites normales , donc des points qui ne s'loignent
pas trop des charnires. Pour des raisons thoriques, nous dfinirons une
distance normale comme une distance qui ne dpasse pas une fois et demie
l'cart entre les charnires. Dans les donnes ci-dessus, l'cart entre les
charnires est
58,3 - 10,3
48
(-61,7 ; 130,3) .
57
FIGURE 2.6 Moustache reprsentant les revenus annuels de 29 fermes (en milliers de dollars)
0
1,3 10,3
25
29,7
50
75
58,3
100
125
150
85,9
175
200
169,3 181,06
Nous n'allons pas nous en tenir ces limites, pour des raisons videntes la
premire limite est ngative, ce qui n'a pas de sens ; et les deux sont trop
loignes des donnes contenues dans l'intervalle. Nous prsenterons plutt
la plus petite donne et la plus grande donne comprises dans cet intervalle.
La plus petite donne dans l'intervalle (-61,7 ; 130,3) est 1,3 ; la plus grande
est 85,9. Nous prsenterons donc, en dfinitive, les cinq repres suivants :
1,3 ; 10,3 ; 29,7 ; 58,3 ; 85,9.
Nous ajoutons cela l'information qu'il y a deux donnes extrmes, soit :
169,3 et 181,6
Ces chiffres les cinq repres et les deux donnes extrmes peuvent tre
prsents dans un graphique comme celui de la figure 2.6, un type de
graphique que nous appelons moustache. Le rectangle, dont les cts
gauche et droit reprsentent les deux charnires, est divis par une droite
verticale situe au niveau de la mdiane. Des tiges s'tendent vers la gauche
et vers la droite, la premire aboutissant la limite infrieure 1,3 ; la
seconde la limite suprieure 85,9.
Une moustache rvle les caractristiques essentielles d'une distribution : le
rectangle est long ou court selon que les donnes sont concentres ou
disperses ; la position du rectangle est celle de la partie centrale des
donnes. En particulier, lorsque la distribution est symtrique, la barre se
trouve en plein centre et ses deux parties sont gales. Mais une moustache
n'est pas uniquement visuelle : une chelle permet de reprer les cinq
indices et les donnes extrmes. La moustache permet de voir qu'environ la
58
moiti centrale des donnes se situe entre 10,3 et 58,3 (ou peu prs, selon
le dtail de l'chelle) ; que presque toutes les donnes sont entre 1,3 et 85,9 ;
et que celles qui ne s'y trouvent pas sont 169,3 et 181,6.
Dans n'importe quelle analyse, des donnes telles que ces deux dernires ne
doivent pas passer inaperues. Dans cet exemple, nous devrions tenter
d'expliquer pourquoi ces fermes sont si grandes compares aux autres. Les
chiffres sont-ils errons ? Si non, s'agit-il d'une autre forme de culture ?
S'agit-il de fermes coopratives ou corporatives ? Si oui, devrait-on traiter
cette catgorie comme une strate part ? Seul le contexte permet d'expliquer
ces donnes ; mais la moustache a permis de les signaler.
Remarque Lorsque le nombre de donnes est impair, la mdiane intervient
dans le calcul des deux charnires. Sinon, les charnires sont calcules
partir de deux moitis disjointes. Le calcul des mdianes se fait selon les
conventions tablies la section 2.1. Lorsque le nombre de donnes est pair,
la mdiane est la moyenne arithmtique des deux donnes centrales. Cela
s'applique aussi bien au calcul des charnires qu' celui de la mdiane de
l'ensemble des donnes.
2.4
TRANSFORMATION LINAIRE
Le passage des degrs Fahrenheit aux degrs Celsius, la relation entre les
valeurs respectives de deux monnaies, la relation entre la distance
parcourue par un taxi et le montant indiqu au compteur ne constituent que
trois exemples d'une des transformations mathmatiques les plus utilises.
De faon gnrale, soit X une variable, a et b deux constantes et soit Y une
variable dfinie en fonction de X par l'quation
Y
a bX .
s Y2
a bx
b 2 s X2 .
59
b sX
yi
1 000 1,15 x
1 000 1,15 (18 500 )
22 275
L'cart-type sera :
sY
1,15 s X
1,15 ( 2 000 )
2 300
2.5
X x
sX
60
x
sX
1
s
X
sX
et son cart-type est :
sZ
1
s
X
s
X
s
X
Exemple 19 Vous passez un test psychologique et vous obtenez le score x = 70. Si vous
ne connaissez pas bien ce test, vous ne pouvez pas interprter ce rsultat. Si
l'on vous dit que la moyenne de la population est x = 60, vous avez un
premier lment d'information utile : vous savez que vous vous situez
x x 70 60 10 units au-dessus de la moyenne. Mais vous ne savez pas
encore si cet cart la moyenne est important ou non. Pour pouvoir
l'valuer, il faut que vous ayez une mesure de l'cart typique , et c'est
prcisment ce que mesure l'cart-type. Si l'on vous dit que l'cart-type est
sX = 5, alors vous savez que votre cart la moyenne est de 2 fois l'cart
typique. Ce chiffre, 2 , est votre cote Z. Elle s'interprte mieux que le score
brut de 70.
i
La cote Z s'avre particulirement utile lorsqu'on traite de variables dont la
distribution ne nous est pas familire. Il n'est peut-tre pas ncessaire de
calculer une cote Z pour savoir si un Canadien ayant un revenu de 80 000 $
par an est ais ou non. Mais une cote Z serait certainement utile pour situer
un Russe dont le revenu est de 4 000 roubles par annes. Si la cote Z
correspondant 4 000 roubles est 2, le Russe se situe 2 carts-types au
dessus de la moyenne et il est plutt ais relativement ses compatriotes.
En effet, quelle que soit l'unit de mesure originale, une cote Z de 2
reprsente une valeur importante.
En quel sens est-ce important ? C'est important dans le sens o la
proportion des membres d'une population qui se situe 2 carts-types ou
plus de la moyenne est petite. Ceci dcoule d'un thorme, d au
61
1 4
de la
Exemple 21 Une chane de supermarchs annonce tous les jeudis des ventes prix
rduits. Le grant de l'un de ces supermarchs dcide un jour de mettre une
annonce supplmentaire dans un journal local. Habituellement, ce grant
reoit en moyenne 2 000 clients le jeudi ; ce jeudi-l, il en reoit 2 400.
Peut-il conclure que son annonce dans le journal local a eu un effet ? La
question est de savoir si cet cart de 400 est suffisamment grand pour tre
significatif, c'est--dire, pour tre attribu plus qu'un simple hasard.
Supposons que l'cart-type du nombre de clients reus le jeudi est s = 80.
Alors le nombre 2 400 correspond une cote Z de (2 400 2 000)/80 = 5.
Cette cote Z importante porte croire que l'annonce a bien eu l'effet voulu.
62
2.6
Terre-Neuve
le-du-Prince-douard
Nouvelle-cosse
Nouveau-Brunswick
Qubec
Ontario
Manitoba
Saskatchewan
Alberta
Colombie-Britannique
Gains
(en dollars)
Proportion de la
population active
405,89
306,74
381,99
401,98
449,89
455,32
408,06
438,20
496,72
504,43
0,018
0,005
0,031
0,024
0,251
0,379
0,041
0,039
0,099
0,113
1,000
63
10 243
8 505
5 924
7 498
6 242
261
147
272
218
833
1 731
13 505
7 784
5 841
8 882
6 292
41
12
35
32
71
191
Effectif
total
302
159
307
250
904
1 922
7 146
1 731
Un calcul analogue pour les anglophones donne 8 285 $. Cette diffrence de
1 139 $ entre francophones et anglophones pourrait tre l'effet de deux
facteurs : 1) les francophones occupent des emplois moins payants ; 2) pour
une mme catgorie d'emploi, les francophones sont moins bien pays. Il est
vident que le premier facteur joue un rle important ici. On trouve, par
*
64
exemple, que 21 % des anglophones sont des cadres et ingnieurs alors que
seulement 15 % des francophones le sont. D'autre part, 48 % des
francophones sont des employs de production alors que seulement 37 %
des anglophones le sont. Cela a pour effet de baisser la moyenne des
francophones. Nous voudrions calculer deux moyennes de telle sorte que la
diffrence entre francophones et anglophones ne puisse pas tre attribue
des effets comme ceux-ci. En d'autres termes, nous voudrions que la
diffrence entre les deux ne soit pas affecte par des diffrences de
pondration.
La solution consiste employer une mme pondration pour les deux
moyennes. Quelle pondration ? Trois choix s'offrent nous : la pondration
des francophones, la pondration des anglophones ou une pondration qui
reflte la distribution de la catgorie d'emploi dans la population combine
des francophones et des anglophones. Ces mthodes sont toutes valables,
mais nous considrons ici la dernire seulement. Nous supposons encore
une fois que l'ensemble des deux chantillons reprsente bien la population
des anglophones et francophones runis.
Utilisant la pondration donne par les effectifs totaux, la moyenne ajuste
pour les francophones est :
(10 243 u 302 ) ( 8 505 u 159 ) ( 5 924 u 307 ) ( 7 498 u 250 ) ( 6 242 u 904 )
7 170
1 922
7 814
1 922
65
RSUM
1. Soit x1 , x 2 , x n une srie de donnes. La moyenne arithmtique est
dfinie par :
xi
Le mode est la valeur ayant la plus grande frquence. Supposons que les
donnes sont ranges en ordre croissant ou dcroissant. La mdiane est
la donne centrale, lorsque n est impair ; elle est la moyenne
arithmtique des deux donnes centrales lorsque n est pair. Au moins
une moiti des donnes est infrieure ou gale la mdiane ; et au moins
une moiti est suprieure ou gale la mdiane.
Le quantile d'ordre D est soit la donne dont le rang est l'entier le plus
1
prs de Dn
; soit, si Dn est entier, la moyenne des donnes de rangs
2
respectifs est Dn et Dn + 1.
En prenant pour D des multiples de 1/4, on obtient les quartiles ; en
prenant des multiples de 1/10 on obtient les dciles ; en prenant des
multiples de 1/100 on obtient les centiles.
La variance s 2 se dfinit par l'une ou l'autre des formules quivalentes
suivantes :
s
( xi x )
n
2
x i nx
xi ( xi )
x x .
L'cart-type s est la racine carre de s 2 .
L'cart interquartile E est la diffrence des 3e et 1er quartiles :
E = Q3 Q1
2. Soit x1 , x 2 , x k les valeurs distinctes d'une variable, n1 , n 2 , n k les
effectifs correspondants et f 1 , f 2 , , f k les frquences correspondantes.
66
Soit n
xi ni
xi f i .
( x i x ) 2 ni
x 2 ( x i ni ) 2 n
x2 x 2 .
a bX o a
et
a bx
s Y2
b 2 s X2
sY
b sX
X x
sX
67
EXERCICES
MESURES DE
TENDANCE
CENTRALE
a) 2 2 3 3 3 4 4 4 4 4 4 5 5 6 7 8
b) 7,1 8,2 9,4 11,2 14,5 18,3 12,5
c) 2,8 2,7 3,9 4,7 2,8 1,9 7,8 8,4
2. Dterminez la mdiane et le mode de chacune des sries suivantes :
a) 20 21 22 23 24
b) 20 21 22 23 38
c) 5 21 22 23 24
3. Dterminez les trois quartiles de chacune des sries suivantes :
a) 0 1 1 1 2 3 3 3 3 4 7 9 9 9 12
b) 10 8 2 4 10 6 6 4 6
c) 2 2 2 2 2 2 2 8 10 12 20 30 40
4. Dterminez la moyenne arithmtique, la mdiane et les quartiles des
sries suivantes :
a) 1 2 3 4 ... 31
VARIANCE,
CART-TYPE ET
CART
INTERQUARTILE
b) 20 19 18 ... 1 0 1 2 ... 20
5. Calculez la variance et l'cart-type de chacune des sries donnes aux
numros 1 et 2.
6. Laquelle des deux sries suivantes vous semble la plus disperse ?
Confirmez votre rponse en calculant l'cart-type de chacune.
A : 40 49 50 51 60
B : 48 49 50 51 52
68
69
13. Les donnes suivantes reprsentent les revenus moyens des mnages
dans 100 subdivisions de recensement. Construisez une moustache pour
les reprsenter. Quelles sortes de quartiers seront au-del des limites ?
13 441
13 489
13 893
14 052
15 383
16 333
16 347
16 370
16 480
16 510
16 870
17 186
17 353
17 428
17 465
17 617
17 648
17 825
17 875
18 151
18 269
18 365
18 540
18 542
18 555
18 712
18 905
18 966
18 982
19 182
19 366
19 498
19 533
19 725
19 806
19 974
20 139
20 230
20 271
20 306
20 364
20 495
20 754
20 798
20 799
20 877
20 883
21 160
21 232
21 240
21 295
21 410
21 440
21 580
21 597
21 722
21 787
21 888
21 909
22 137
22 196
22 323
22 350
22 361
22 436
22 496
22 533
22 681
22 845
22 914
23 504
23 548
23 580
23 598
24 130
24 299
24 423
24 476
25 002
25 364
26 248
26 385
26 713
26 736
26 789
27 651
28 002
28 041
28 698
28 881
30 214
32 720
33 532
33 750
34 406
35 136
38 275
39 307
44 853
49 754
MESURES
D'UNE
DISTRIBUTION
15
2,6
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,4
3,5
3,5
3,5
3,6
3,7
3,7
3,8
3,8
3,8
3,9
4,1
4,1
4,2
4,3
4,3
4,4
4,4
4,5
4,6
4,6
4,7
4,7
4,8
4,8
4,8
4,9
4,9
5,2
5,3
5,5
5,5
5,6
5,7
6,5
6,7
6,9
6,9
7,4
7,6
7,7
7,7
7,7
7,8
7,9
7,9
8,0
8,1
8,2
8,2
8,4
8,8
9,4
15,2
18,5
25,3
TOTAL
Effectif
10
70
16. Laquelle des deux variables suivantes vous semble la plus disperse ?
Justifiez votre rponse l'aide de graphiques et des deux carts-types :
Variable X
x
TOTAL
Effectif
10
TOTAL
Effectif
10
Variable Y
TOTAL
0,1
0,4
0,2
0,2
0,l
TOTAL
Effectif
11
37
b)
Frquence
TRANSFORMATIONS
LINAIRES
19
0dx<4
4dx<8
8dx<16
16dx<20
0,12
0,37
0,19
0,32
2
Y
2
X
4s .
2 x 10
et que
71
COTE Z
MOYENNES
PONDRES
OU AJUSTES
25. Deux cent cinquante tudiants rpartis en six groupes ont suivi un cours
de statistique. Le nombre d'tudiants et la note moyenne de chaque
groupe sont indiqus dans le tableau suivant :
Groupe
Nombre d'tudiants
Moyenne du groupe
1
2
3
4
5
6
47
38
30
55
40
40
63
61
68
54
72
73
72
30
22
15
11
31
23
14
12
Janvier
Juillet
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
10,0
9,4
5,6
12,2
7,2
13,3
11,1
6,7
6,1
9,8
6,3
11,9
20,0
21,7
22,2
22,2
21,7
23,3
21,7
21,7
21,7
23,3
21,0
23,9
73
Effectif
0
1
2 et plus
293 390
724 975
8 560
TOTAL
1 026 925
Ville de Montral
1
2
3
4 et 5
de 6 9
10 ou plus
120 370
201 110
148 510
240 630
91 035
4 370
84 100
109 905
70 735
93 975
34 265
1 746
TOTAL
806 025
394 726
74
Frquence
< 5 000 $
5 000 - 9 999
10 000 - 11 999
12 000 - 14 999
15 000 - 16 999
17 000 - 19 999
20 000 - 21 999
22 000 - 24 999
25 000 - 26 999
27 000 - 29 999
30 000 - 31 999
32 000 - 34 999
35 000 - 36 999
37 000 - 39 999
40 000 - 44 999
45 000 - 49 999
50 000 - 59 999
0,017
0,063
0,037
0,072
0,047
0,062
0,040
0,062
0,047
0,067
0,045
0,069
0,045
0,062
0,092
0,072
0,101
75
76
Frquence
Hommes
Femmes
0,6
0,5
1,4
1,8
1,5
1,6
2,2
3,6
5,7
9,3
14,6
22,9
34,7
51,9
79,0
118,8
198,5
0,4
0,3
0,6
0,6
0,6
0,9
1,3
2,1
3,0
4,6
7,2
11,0
17,3
28,3
48,1
82,4
163,3
0,114
0,117
0,107
0,096
0,080
0,067
0,064
0,064
0,062
0,053
0,048
0,039
0,032
0,023
0,016
0,010
0,008
1,000
45. Le tableau suivant donne, pour les hommes et pour les femmes, le
revenu annuel moyen en dollars pour l'anne 1971, selon le nombre de
semaines de travail. Il s'agit des personnes de 15 ans et plus ayant
travaill plein temps. Les effectifs sont en milliers.
a) Calculez le revenu moyen des hommes et le revenu moyen des
femmes.
77
Effectif
274,5
352,3
442,4
736,0
3 541,1
Femmes
Revenu
(en dollars)
1 591
2 973
4 788
7 162
8 230
Effectif
234,0
258,7
236,3
323,2
1 276,5
Revenu
(en dollars)
845
1 889
3 026
4 026
4 932
Nombre de contribuables
(en milliers)
1973
1974
1973
1974
571,0
1 702,6
1 662,0
1 975,3
1 669,0
599,9
142,9
34,9
427,8
1 381,7
1 594,4
1 985,8
2 155,2
1 037,7
224,5
50,0
13,8
322,3
777,6
1 721,0
2 582,2
1 713,0
937,9
765,0
1,2
158,2
594,4
1 519,4
3 089,6
2 796,9
1 384,2
1 071,3
Distributions deux
variables qualitatives
3.1
3.2
3.3
3.4
3.5
3.6
Distribution conjointe
Distribution marginale
Distribution conditionnelle
Indpendance
Dpendance et causalit
Un test d'indpendance
x Les effectifs thoriques
x Le khi-deux
RSUM
EXERCICES
79
3.1
DISTRIBUTION CONJOINTE
Soit X et Y deux variables qualitatives dfinies sur une mme population. On
peut prsenter la distribution de chacune l'aide des moyens dcrits dans le
chapitre 1. L'information contenue dans ces deux distributions distinctes se
rvle toutefois insuffisante si l'objectif consiste tudier la relation entre les
variables. Pour cela, l'information essentielle prend la forme d'une
distribution conjointe.
Le tableau 3.1 prsente la distribution conjointe de deux variables dfinies
pour l'ensemble des bbs au Qubec en 1983 ; les variables sont :
X : sexe (garon, fille)
Y : poids la naissance (faible, moyen, lev, trs lev)
80
Nous avons dj examin sparment les distributions des poids pour les
filles et pour les garons, et les avons mme compares en utilisant les polygones de frquences (voir fig. 1.6, page 13). Ici, nous les tudions conjointement, en tant que variables qualitatives. Tout comme la distribution d'une
seule variable, la distribution conjointe de deux variables fait correspondre
un effectif une valeur , sauf qu'ici la valeur est en fait un couple : une
valeur de X et une valeur de Y. Par exemple, au couple (fille, lev), la distribution du tableau 3.1 fait correspondre l'effectif 27 566, ce qui veut dire qu'il
y a eu en 1983 au Qubec 27 566 bbs qui taient des filles et qui avaient
un poids lev la naissance.
TABLEAU 3.1
Faible
Moyen
lev
Trs lev
(0,5-2 kg)
(2-3 kg)
(3-4 kg)
(4+ kg)
TOTAL
Garons
830
8 615
30 784
4 839
45 068
Filles
862
11 183
27 566
2 348
41 959
1 692
19 798
58 350
7 187
87 027
TOTAL
TABLEAU 3.2
Y : poids la naissance
Faible
Moyen
lev
Trs lev
TOTAL
Garons
0,009
0,099
0,354
0,056
0,518
Filles
0,010
0,128
0,317
0,027
0,482
0,019
0,227
0,671
0,083
1,000
TOTAL
SOURCE : Tableau 3.1
3.2
DISTRIBUTION MARGINALE
Le tableau 3.1 (ou 3.2) contient bien plus d'information que ne
contiendraient deux tableaux donnant l'un la distribution de X, l'autre celle
de Y. Du reste, ces deux distributions, appeles distributions marginales
dans ce contexte, se retrouvent intgralement dans les marges du tableau
81
3.1 (ou 3.2). Les effectifs (frquences) de la distribution de X sont les sommes
des lignes du tableau 3.1 (ou 3.2). Les effectifs (frquences) de la distribution
de Y sont les sommes des colonnes du tableau 3.1 (ou 3.2). Ainsi, la
distribution marginale de Y est (voir tableau 3.2) :
Y
Faible
Moyen
lev
Trs lev
TOTAL
Frquence
0,019
0,227
0,671
0,083
1,000
3.3
DISTRIBUTION CONDITIONNELLE
La distribution conjointe de deux variables X et Y contient toute l'information
ncessaire l'tude de la relation entre les variables. Mais elle ne met pas
cette relation clairement en vidence. La notion de relation ou de
dpendance entre deux variables s'exprime en termes de distributions
conditionnelles. Une distribution conditionnelle de Y est la distribution de Y
confine une tranche de la population, cette tranche tant dfinie par une
valeur de X. Par exemple, la distribution conditionnelle de Y tant donn X =
garon est la distribution de Y limite l'ensemble des garons. D'aprs le
tableau 3.1, la distribution de Y pour cette sous-population (les garons) est
la suivante :
Y
Effectif
Faible
Moyen
lev
Trs lev
TOTAL
830
8 615
30 784
4 839
45 068
L'analyse qui suit rclame que l'on exprime cette distribution en frquences.
Lorsqu'on divise chaque effectif par l'effectif total, on obtient la distribution
suivante :
Distribution conditionnelle de Y tant donn X = garon
Y
Faible
Moyen
lev
Trs lev
TOTAL
Frquence
0,019
0,191
0,683
0,107
1 000
82
Distributions conditionnelles des poids la naissance (Y) tant donn le sexe (X)
(en frquences)
X : sexe
Garons
Filles
Toutes naissances
TABLEAU 3.4
Y : poids la naissance
TOTAL
Faible
Moyen
lev
Trs lev
0,019
0,021
0,019
0,191
0,266
0,227
0,683
0,657
0,671
0,107
0,056
0,083
1,000
1,000
1,000
Distributions conditionnelles du sexe (X) tant donn le poids (Y) la naissance (en frquences)
Y : poids la naissance
Faible
Moyen
lev
Trs lev
Toutes naissances
X : sexe
TOTAL
Garon
Fille
0,491
0,435
0,528
0,673
0,518
0,509
0,565
0,472
0,327
0,482
1,000
1,000
1,000
1,000
1,000
83
3.4
INDPENDANCE
En gnral, lorsque les distributions conditionnelles de Y tant donn les
valeurs de X ou les distributions conditionnelles de X tant donn les valeurs
de Y sont diffrentes, on dit que Y dpend de X (ou que X dpend de Y, le
choix entre ces deux affirmations dpendant du contexte intuitif). Dans le
cas contraire, c'est--dire quand les distributions conditionnelles de Y (ou
celles de X) sont identiques, on dit que les deux variables X et Y sont
indpendantes. L'indpendance peut se caractriser de plusieurs faons ;
nous en donnons ici les plus utilises.
a) Si X et Y sont indpendantes, alors les distributions conditionnelles de Y
(exprimes en frquences) sont identiques entre elles, quelle que soit la
valeur de X, et sont alors ncessairement identiques la distribution
marginale de Y.
b) Si X et Y sont indpendantes, alors les distributions conditionnelles de X
(exprimes en frquences) sont identiques entre elles, quelle que soit la
valeur de Y, et sont alors ncessairement identiques la distribution
marginale de X.
c) Si X et Y sont indpendantes, alors, dans le tableau donnant leur
distribution conjointe, l'effectif de chaque case est en fonction des totaux
de la ligne et de la colonne dans lesquelles se trouve la case. L'effectif de
la case situe l'intersection de la ligne i et de la colonne j est gal :
(total de la ligne i) u (total de la colonne j) y (effectif total).
d) Si X et Y sont indpendantes, alors, pour chaque case du tableau, la
frquence de cette case est gale au produit des frquences marginales
de la ligne et de la colonne qui se rencontrent cette case.
84
Exemple 1
Franais
Anglais
Autres
TOTAL
Y : quotient intellectuel
TOTAL
Infrieur 100
18
27
9
54
22
33
11
66
40
60
20
120
Y : quotient intellectuel
Infrieur 100
Franais
Anglais
Autres
TOTAL
0,45
0,45
0,45
0,45
TOTAL
1,00
1,00
1,00
1,00
Puisque les distributions conditionnelles sont gales, nous concluons que les
variables sont indpendantes : le quotient intellectuel ne dpend pas de la
langue maternelle. Remarquez que les distributions conditionnelles sont non
seulement identiques l'une l'autre, mais aussi la distribution marginale.
On observe le mme phnomne dans les distributions conditionnelles de X
tant donn Y :
X : langue maternelle
Y : quotient intellectuel
Infrieur 100
Franais
Anglais
Autres
TOTAL
1/3
1/2
1/6
1
1/3
1/2
1/6
1
85
Remarque Les donnes de l'exemple 1 sont fictives, et pour une bonne raison.
En pratique, des donnes comme celles-ci, avec des distributions
conditionnelles tout fait identiques, ne se produisent jamais. La dfinition
d'indpendance donne ici reprsente une situation idalise qui ne se reflte
pratiquement jamais dans des donnes relles. En pratique, on ne devrait pas
conclure que les variables sont dpendantes ds qu'on observe les moindres
petits carts entre les distributions conditionnelles. Car enfin, des variables
indpendantes, cela existe ! Nous aborderons cette question dans la section
3.6 ; pour l'instant, nous continuerons ne dclarer indpendantes que les
variables dont les distributions conditionnelles sont strictement identiques.
3.5
DPENDANCE ET CAUSALIT
Il est rare que l'on tudie la dpendance entre deux variables sans envisager,
par le fait mme, la possibilit d'un lien de causalit entre les variables.
Considrez, par exemple, les nombreuses tudes qui tablissent, d'une faon
ou d'une autre, l'existence d'un lien entre l'tat de sant et la consommation
de cigarettes. Si, par des moyens statistiques, on dmontre qu'il existe un
lien entre ces deux variables, on rsiste difficilement la tentation de
conclure que la cigarette cause la maladie. Si cette conclusion est
vraisemblable, elle n'est pas vidente, et il demeure important de se rendre
compte des risques qu'il y a identifier trop htivement une variable la
cause, l'autre l'effet. Il peut arriver que la dpendance entre deux variables
soit due, non pas l'effet de l'une sur l'autre, mais l'effet simultan d'une
troisime variable sur les deux premires. Nous illustrons ce phnomne,
encore une fois, l'aide d'un exemple idalis.
Exemple 2
Imaginez une exprience faite avec 300 rats atteints d'une certaine maladie.
Soit X la pression artrielle et Y une variable qui identifie les consquences
ventuelles de la maladie. Supposons que l'exprience donne les rsultats
suivants :
X : pression artrielle
leve
Normale
TOTAL
Y : consquences de la maladie
Succombe
136
64
200
TOTAL
Survit
44
56
100
180
120
300
On constate que le taux de mortalit est de 75,6 % parmi ceux qui ont une
pression leve alors qu'il n'est que de 53,3 % parmi ceux ayant une
pression normale. Peut-on conclure que la pression leve est la cause de ce
taux de mortalit plus lev ? C'est possible, mais avant de tirer cette
conclusion on dcide d'examiner une fois de plus les donnes la lumire de
86
l'information qu'on possde sur l'ge des rats. Il y en a 100 qu'on classifie
comme jeunes et 200 qu'on classifie comme vieux . Pour chacun de ces
deux groupes, on dresse un tableau comme le tableau ci-dessus. On obtient
les rsultats suivants :
Jeunes
X : pression artrielle
Y : consquences de la maladie
Succombe
Survit
8
32
40
12
48
60
leve
Normale
TOTAL
TOTAL
20
80
100
Vieux
X : pression artrielle
Y : consquences de la maladie
Succombe
leve
Normale
TOTAL
128
32
160
TOTAL
Survit
32
8
40
160
40
200
3.6
UN TEST D'INDPENDANCE
Nous attaquons maintenant la question souleve dans la remarque relative
l'exemple 1 (page 84). Deux variables sont indpendantes, selon la dfinition,
si la distribution conditionnelle de l'une tant donn la valeur de l'autre ne
dpend pas de la valeur de cette seconde variable. Or, en pratique, cette
situation ne se produit presque jamais : une certaine dpendance se
manifeste invitablement dans les donnes, mme si les deux variables sont,
en thorie, parfaitement indpendantes (par exemple, les rsultats de
plusieurs lancers simultans d'un d rouge et d'un d vert). Si la dpendance
qui se manifeste dans les donnes exprimentales est si faible qu'elle peut
tre attribue au simple jeu du hasard, rien ne s'oppose ce que les deux
variables soient en ralit parfaitement indpendantes. Cela tient au fait que
toute affirmation relative la dpendance ou l'indpendance de variables
87
se fait propos d'une population, que l'on doit considrer mathmatiquement comme infinie et abstraite et non concrte et finie. Affirmer que
deux variables sont indpendantes (dans la population thorique), malgr
des distributions conditionnelles observes non identiques ne constitue donc
pas une contradiction. Nous illustrons ces notions l'aide des donnes du
tableau 3.5.
TABLEAU 3.5
Distribution de l'ge de la mre (X) et du sexe de l'enfant (Y) naissances au Canada, 1971
X : ge de la mre
19 ans et moins
De 20 24 ans
De 25 29 ans
30 ans et plus
Population totale
Y : sexe de l'enfant
TOTAL
Masculin
Fminin
20 956
63 927
56 153
38 751
179 787
19 524
60 383
52 671
36 503
169 081
40 480
124 310
108 824
75 254
348 868
TABLEAU 3.6
Distributions conditionnelles du sexe de l'enfant (Y) tant donn l'ge de la mre (X)
X : ge de la mre
19 ans et moins
De 20 24 ans
De 25 29 ans
30 ans et plus
Population totale
Y : sexe de l'enfant
Masculin
0,518
0,514
0,516
0,515
0,515
TOTAL
Fminin
0,482
0,486
0,484
0,485
0,495
1,000
1,000
1,000
1,000
1,000
Ce tableau donne, pour la population de 348 868 naissances qui ont eu lieu
au Canada en 1971, la distribution conjointe des deux variables suivantes :
X : ge de la mre
Y : Sexe de l'enfant
88
89
Les effectifs thoriques Les effectifs thoriques sont les effectifs auxquels
on s'attend lorsque les variables sont indpendantes. Il existe une faon
mcanique de les calculer, nous l'illustrerons dans l'exemple suivant. Plus
loin, nous montrerons, l'aide des donnes sur les naissances, par quel
raisonnement on arrive aux effectifs thoriques. Lorsque les variables sont
indpendantes, les distributions conditionnelles sont identiques non
seulement entre elles mais galement la distribution marginale. Autrement
dit, les proportions de garons et de filles devraient tre les mmes pour
chaque groupe d'ge que pour la population entire. La proportion de
garons pour la population entire est, d'aprs le tableau 3.5, 179 787 y
348 868 = 0,515 343 9 (C'est le nombre qu'on retrouve, avec moins de
dcimales, au bas du tableau 3.6). Si les variables sont indpendantes, ce
mme pourcentage devrait s'appliquer tous les groupes d'ge.
Parmi les 40 480 mres de 19 ans et moins, le nombre de garons devrait
tre
40 480 u 0,515 343 9 = 20 861
Parmi les 124 310 mres de 20 24 ans, le nombre de garons devrait tre
124 310 u 0,515 343 9 = 64 062
Parmi les 108 824 mres de 25 29 ans, le nombre de garons devrait tre
108 824 u 0,515 343 9 = 56 082
Nous venons de calculer les effectifs thoriques correspondant trois des
huit cases du tableau 3.5. On pourrait, par le mme raisonnement, remplir
les cinq cases qui restent, mais on peut galement le faire par soustraction
car les effectifs marginaux restent inchangs. Donc, si parmi les 40 480
enfants ns d'une mre de 19 ans et moins on s'attend avoir 20 861
garons, alors on s'attend avoir 40 480 20 861 = 19 619 filles. Le tableau
3.7 donne les effectifs thoriques (sous l'hypothse d'indpendance).
90
TABLEAU 3.7
X : ge de la mre
TOTAL
Masculin
Fminin
20 861
64 062
56 082
38 782
179 787
19 619
60 248
52 742
36 472
169 081
19 ans et moins
De 20 24 ans
De 25 29 ans
30 ans et plus
Population totale
40 480
124 310
108 824
75 254
348 868
(O T ) 2
( 20 956 20 861) 2
20 861
( 56 153 56 082 )
56 082
( 63 927 64 062 ) 2
19 619
2
( 52 671 52 742 )
52 742
( 60 383 60 248 ) 2
64 062
2
( 38 751 38 782 )
38 782
60 248
2
( 36 503 36 472 ) 2
36 472
Il s'agit maintenant de dterminer si cette valeur est trop grande , c'est-dire, de la comparer un certain point critique. Le point critique dpend
du nombre de degrs de libert Q, lequel est fonction du nombre de lignes et
de colonnes dans le tableau. Il est donn par :
Q = (nombre de lignes 1) u (nombre de colonnes 1)
91
Cette formule peut tre dmontre, mais il faudrait pour cela recourir des
techniques passablement avances relevant de la thorie des probabilits. Par
contre, on peut l'illustrer, par exemple, dans le tableau 3.5 : tout en
respectant les totaux des lignes et des colonnes, on peut remplir librement
(4 1) x (2 1) = 3 cases. Voici, schmatiquement, 3 faons de le faire (vrifiez)
x
x
x
x
x
x
x
Les donnes du tableau 3.8 portent sur 252 couples maris amricains,
classifis selon le rang social du pre du mari (X) et le rang social du pre de
l'pouse (Y).
92
TABLEAU 3.8
chantillon de 252 couples amricains - rang social du pre du mari (X) et du pre de l'pouse (Y)
Y : rang social du pre de l'pouse
X : rang social du pre du mari
Professionnel
ou grant
Professionnel ou grant
Commis ou ouvrier spcialis
Ouvrier non spcialis
TOTAL
Commis ou
ouvrier
spcialis
44
21
12
77
39
38
24
101
Ouvrier non
spcialis
TOTAL
13
29
32
74
96
88
68
252
Effectifs thoriques
TOTAL
96 u 77
96 u 101
29 , 333
252
252
88 u 77
26 , 889
252
68 u 77
20 , 778
252
TOTAL
38 , 476
28 ,191
96
25 , 841
88
19 , 968
68
252
88 u 101
252
68 u 101
35 , 270
27 , 254
88 u 74
252
68 u 74
252
252
77
96 u 74
101
74
252
La valeur de F2 est :
F2
( 44 29 , 333 ) 2
29 , 333
( 39 38 , 476 ) 2
38 , 476
(13 28 ,191) 2
28 ,191
( 32 19 , 968 ) 2
19 , 968
93
Professionnel ou grant
Commis ou ouvrier spcialis
Ouvrier non spcialis
Professionnel
ou grant
Commis ou
ouvrier
spcialis
Ouvrier non
spcialis
TOTAL
0,46
0,24
0,18
0,41
0,43
0,35
0,13
0,33
0,47
1,00
1,00
1,00
RSUM
1. La distribution conjointe de deux variables X et Y fait correspondre
chaque paire (x, y), o x est une valeur de X et y une valeur de Y, un
effectif ou une frquence. D'un tableau qui donne la distribution
conjointe de X et Y on peut obtenir, en prenant la somme des lignes et la
somme des colonnes, la distribution de X et la distribution de Y. Ces
distributions sont alors appeles distributions marginales. La
distribution conditionnelle de Y tant donn X = x, est la distribution
de Y confine une tranche de la population, l'ensemble de tous ceux
94
(O T ) 2
T
95
EXERCICES
DISTRIBUTIONS
CONJOINTE,
MARGINALE ET
CONDITIONNELLE
INDPENDANCE
distribution
96
TABLEAU 3.11
Religion de l'poux (X) et de l'pouse (Y) quatre principales religions, Canada 1984
X : religion de
l'poux
Y : religion de l'pouse
TOTAL
Anglicane
Baptiste
Catholique
glise Unie
5 469
480
4 106
2 673
12 728
500
2 031
806
563
3 900
4 270
861
23 632
5 023
33 786
2 740
613
4 898
9 632
17 883
Anglicane
Baptiste
Catholique
glise Unie
Total
12 979
3 985
33 442
17 891
68 297
TABLEAU 3.12
< 20
38 626
316
20-24
111 409
757
25-29
119 239
836
30-34
48 142
402
35-39
14 133
232
40-44
3 333
81
> 45
226
10
97
Emplacement
Niveau des yeux
Emballage
Emballage
Ventes
Bonnes
Mauvaises
Bleu
Rouge
Bleu
Rouge
4
6
36
4
8
32
2
8
a) Emplois techniques
X : sexe
Femmes
Hommes
Emplois administratifs
Y : salaire
< 30 000
t 30 000
25
150
100
125
b) Emplois techniques
X : sexe
Femmes
Hommes
X : sexe
Femmes
Hommes
Y : salaire
< 30 000
t 30 000
75
50
100
275
Emplois administratifs
Y : salaire
< 30 000
t 30 000
22
150
78
150
X : sexe
Femmes
Hommes
Y : salaire
< 30 000
t 30 000
268
82
132
18
98
c) Emplois techniques
X : sexe
Femmes
Hommes
TEST DU
KHI-DEUX
Emplois administratifs
Y : salaire
< 30 000
t 30 000
125
75
175
25
X : sexe
Femmes
Hommes
Y : salaire
< 30 000
t 30 000
15
85
85
315
lmentaire
ou moins
Secondaire
Collgial
Universitaire
lves de
classe
suprieure
108
192
152
137
10
599
lves de
classe
intermdiaire
527
667
392
118
20
1 724
1 752
1 076
318
44
69
3 259
Scolarit
lves de
classe
infrieure
TOTAL
99
12. la page 24 du rapport cit l'exercice 11, les auteurs affirment que le
phnomne drop-out et surtout l'abandon des tudes touchent davantage
les enfants de classe sociale infrieure . Cette affirmation est base sur
les donnes suivantes, qui reprsentent une classification de 6 930
lves de l'lmentaire, du secondaire et du collgial selon leur classe
sociale :
Classe
Niveau
TOTAL
Suprieure
lmentaire
Secondaire
Collgial
31
599
123
Intermdiaire
Infrieure
112
1 724
334
256
3 259
492
399
5 582
949
Y : abonnement renouvel
Oui
Non
janvier
21 749
21 071
fvrier
4 733
2 155
A
X : mois
Oui
janvier
2 918
676
fvrier
704
180
Non
100
Y : abonnement renouvel
B
X : mois
Oui
Non
janvier
14 488
3 876
fvrier
3 907
1 233
Y : abonnement renouvel
C
X : mois
Oui
janvier
4 343
16 519
fvrier
122
742
Non
Franaise
Anglaise
Autres
3 156
2 667
5 823
142
193
335
116
185
301
3 414
3 045
6 459
a) Testez l'hypothse qu'il n'y a pas de diffrence entre les gens d'origine
franaise, anglaise et autres quant au pourcentage d'unilingues.
b) Faites un test pour comparer seulement ceux d'origine anglaise et
ceux d'origine franaise.
15. Dans une certaine exprience en marketing (Carefoot, 1982), on a choisi
800 consommateurs (le groupe exprimental) leur entre dans un
supermarch. On a incit ces consommateurs venir visionner 5
annonces publicitaires dans une roulotte installe sur le terrain de
stationnement avant de faire leurs emplettes. la sortie, ils prsentaient
une carte magntique qui, l'aide d'un appareil branch la caisse
enregistreuse, permettait de dresser une liste complte de leurs achats.
On pouvait donc savoir lesquels des articles dont les consommateurs
101
Groupe tmoin
Groupe exprimental
15
31
12
17
44
24
Pour chacun des produits, testez l'hypothse que l'annonce n'a pas
d'effet. Cette exprience, faite avec un chantillon de 800 personnes pour
chaque groupe, se rvle plutt onreuse. la lumire des rsultats
obtenus pour le dner congel, peut-on dire que des chantillons de cette
taille taient ncessaires ?
16. Les donnes suivantes proviennent d'une tude (Lynn, 1981) qui visait
dterminer les caractristiques de ceux qui lisent les annonces publicitaires
(les lecteurs ) et de ceux qui ne les lisent pas (les non-lecteurs ). Dans
chacun des cas, dites s'il y a un lien entre la variable indique et le fait de
lire les annonces ou pas.
Lecteur ou non des annonces publicitaires
tat matrimonial
Mari
Pas mari
Lecteur
Non-lecteur
666
216
200
48
Lecteur
Non-lecteur
593
276
159
96
Lecteur
Non-lecteur
377
504
177
79
102
Lecteur
Non-lecteur
100
302
192
170
118
27
87
55
54
34
601
2 001
3 190
2 788
1 309
208
10 097
22 564
86 521
158 049
151 466
74 498
9 892
502 990
Degr de fondamentalisme
Zro
Faible
Fort
Trs fort
15
81
25
70
35
60
38
7
Tlvision
Tout sujet devrait pouvoir tre trait la
tlvision
D'accord
Pas d'accord
103
Degr de fondamentalisme
Zro
Faible
Fort
Trs fort
85
13
77
20
59
36
52
47
Degr de fondamentalisme
Zro
Faible
Fort
Trs fort
88
8
80
15
67
27
56
37
Pays
francophones
Pays
anglophones
Autres pays
Taille de
l'chantillon
6 868
133
164
22
Nombre
d'unilingues
3 770
72
32
Y
y1
y2
0,3
0,4
0,7
0,1
0,2
0,3
TOTAL
0,4
0,6
1,0
104
TOTAL
Aux tudes
Au travail
Inactif ou en
chmage
Secondaire ou
moins
808
11 160
591
12 559
Plus que le
secondaire
544
3 727
230
4 501
1 352
14 887
821
17 060
TOTAL
105
35
58
48
27
39
16
5
32
29
Dressez un tableau qui prsente ces donnes sous une forme plus
instructive, et discutez les conclusions qu'on peut en tirer.
24. En 1974, 4 974 hommes baptistes se sont maris, dont 2 222 des
coreligionnaires. Connaissant les donnes pour 1984 (tableau 3.11),
pouvez-vous dire que la tendance chez les hommes baptistes pouser
des coreligionnaires a chang entre 1974 et 1984 ? Commentez.
25. Les donnes suivantes portent sur 17 059 diplms d'universit en 1974
1975, rejoints en 1978 (Service gnral des communications, Relance
l'Universit , ministre de l'ducation du Qubec, 1979). Les diplms
sont classs selon leur statut en 1978 et leur langue maternelle.
Statut du diplm
Langue
maternelle
Franais
Anglais
Autres
TOTAL
Aux tudes
448
757
217
1 422
Au travail
2 294
11 267
1 234
14 795
Inactif ou en
chmage
145
547
150
842
TOTAL
2 887
12 571
1 601
17 059
106
TOTAL
Premier-n
Scientifique
Non-scientifique
TOTAL
51
17
68
Cadet
62
45
107
113
62
175
Mixte
Contre
31
171
116
23
89
39
56
177
74
Moins de 8 ans
Entre 9 et 12 ans
Plus de 12 ans
Mixte
Contre
8
65
37
10
39
18
24
89
43
Protestants
X : scolarit
Moins de 8 ans
Entre 9 et 12 ans
Plus de 12 ans
Mixte
Contre
23
106
79
13
50
21
32
88
31
107
Reste du Canada
et continent
amricain
Hors continent
22
11
33
36
40
76
12
30
42
Scolarit
0-11 ans
12 ans+
TOTAL
TOTAL
70
81
151
108
*31. Arthur affirme pouvoir prdire le temps qu'il fera demain d'aprs
certaines sensations qu'il ressent dans ses articulations. Pour voir si
c'est bien vrai, on observe ses prdictions pendant 150 jours. Il a prdit
de la pluie 100 fois, et de ces 100 fois il a effectivement plu 70 fois. Les
50 autres fois il a prdit du beau temps et le temps a t beau 20 fois.
Peut-on conclure qu'il a vraiment des capacits de prdiction du temps ?
a) Un statisticien amateur procde de la faon suivante : il observe que
les prdictions ont t correctes 90 fois sur 150. Il considre donc ses
effectifs observs comme tant 90 et 60, et il les compare aux effectifs
thoriques 75 et 75, l'aide d'un test d'ajustement. Il trouve F2 = 6
avec 1 degr de libert, ce qui est significatif. Pourquoi cette
procdure est-elle incorrecte ?
b) Faites le test correctement.
*32. La conclusion tire au numro 26 (que les scientifiques ont une plus
forte tendance tre premiers-ns) pourrait bien tre un artifice. Pour
diverses raisons, dont peut-tre les annes auxquelles les diffrents prix
ont t dcerns, les scientifiques sont ns de familles moins
nombreuses. Ce seul fait pourrait suffire expliquer pourquoi ils sont
plus souvent premiers-ns. Considrez les donnes fictives suivantes. On
prlve un chantillon de 360 scientifiques, dont 300 appartiennent
des familles de 2 enfants et 60 des familles de 3 enfants ; et un
chantillon de 360 non-scientifiques, dont 60 appartiennent des
familles de 2 enfants et 300 des familles de 3 enfants. Quel est
thoriquement le nombre de premiers-ns parmi les non-scientifiques ?
*33. Pour rsoudre le problme 17, un tudiant procde de la faon suivante.
Il dtermine la distribution de frquences pour les Amricains de race
blanche :
0,045 ; 0,172 ; 0,314 ; 0,301 ; 0,148 ; 0,020. Il fait ensuite un test
comme celui prsent au chapitre 1 pour tester l'hypothse que la
distribution du score pour les Orientaux est identique celle qu'il a
dtermine pour les Amricains de race blanche.
a) Savez-vous pourquoi ce test n'est pas applicable ?
b) Faites le test de la faon dcrite dans ce numro, et comparez votre
rsultat celui du numro 17. Pouvez-vous expliquer pourquoi les
deux rsultats sont si semblables ?
109
34. Pour comparer deux bires, on fait une exprience avec 100 amateurs de
chaque marque. Chaque groupe affirme connatre la diffrence entre les
deux et prfrer nettement la sienne. On demande chaque sujet
d'identifier sa prfrence, aprs avoir got les deux. Voici les rsultats :
Habituellement boivent
TOTAL
A
65
45
110
35
55
90
100
100
200
Ont prfr
TOTAL
4.2
4.3
Corrlation
Un test d'indpendance
x Le test
x Conditions de validit
RSUM
EXERCICES
111
4.1
112
FIGURE 4.1
45,3
55,6
102,7
38,2
63,6
63,6
41,6
31,3
181,4
89,3
54,9
65
60
140
50
60
80
74
79
275
162
136
136,4
77,5
111,2
186,1
69,3
32,5
92,3
36,6
87,4
44,0
235
125
112
268
150
45
142
69
100
123
88,8
58,1
98,0
39,3
58,8
42,2
45,2
117,4
117,3
122,9
117
160
188
88
103
65
77
188
156
225
29,3
82,0
79,0
64,4
78,0
75,1
86,8
143,5
85,4
86,6
58
132
198
90
110
114
149
315
130
135
Nuage de points (donnes du tableau 4.1) travers par la droite des moindres carrs calcule
dans l'exemple 3
y
350
300
250
200
150
100
50
x
50
100
150
200
113
d3
( x3 ,y 3 )
( x 3 , y 3 )
( x1 , y 1 )
d1
( x 2 , y 2 )
d2
( x2 ,y 2 )
( x 1 , y 1 )
X1
X2
X3
Soit une droite donne y = a+ bx, et soit d1, d2, ..., dn les distances verticales
entre les points et la droite. Ces distances sont reprsentes par les traits
verticaux dans la figure 4.2.
La somme des carrs de ces distances servira de mesure globale de la
distance entre les points et la droite. On dfinit formellement la distance D
entre les points et la droite par
D
d 12 d 22 d n2
d i2 .
a bx i
y i y i
y i y i
2
y i y i
114
FIGURE 4.3
10
(3,10
1
(3,9)
(1,8)
8
7
(2,7)
-2
(2,5)
(1,5)
5
4
3
2
1
0
0
Nous souhaitons que cette distance soit petite : plus elle est petite, mieux la
droite est ajuste aux donnes. Puisque notre objectif est de trouver une
droite qui s'ajuste le mieux possible aux donnes, nous devons chercher la
droite pour laquelle la distance D est minimale.
Nous commettons un lger abus de langage en utilisant le terme distance
pour dsigner la quantit D. En toute rigueur, nous devrions plutt affecter
ce terme
D revient au
Considrons les points (1, 8), (2, 5) et (3, 10) ainsi que la droite y
(voir figure 4.3).
Les trois points correspondants sur la droite ont pour ordonne :
y 1
3 2 (1)
5;
y 2
3 2( 2)
7 ; y 3
3 2 ( 3)
9.
3 2x
115
85
57
3; d 2
10 9
2; d3
1.
d 12 d 22 d 32
3 2 2 2 12
14 .
b
a
x i x y i y
x i x
y bx .
6x i y i n x y
6 x i x
6x i 6x i
2
6x i2
nx ,
116
n6x i y i 6x i 6y i
n6x i2
6x i
6x i y i - 6x i
6y i
2
2
6x i - 6 x i n
6xi y i nx y
2
6xi nx
xy x y
2
x x
xy
Exemple 2
6x i y i ; x 2
1
n
6x i2 .
10
6x i2
6y i
23
6x i y i
1 4 9 14
48 .
8 10 30
Donc :
b
n6x i y i ( 6x i )( 6y i )
n6x i2
( 6x i )
23
3 (14 ) ( 6 )
6
1
3
3
y bx
3 ( 48 ) ( 6 )( 23 )
23 6
17
1,
5 32 .
a bx
5 32 x .
117
L'quation de la droite des moindres carrs est une expression qui permet
d'estimer la valeur de Y qui correspond une valeur de X donne. Il suffit de
remplacer X par la valeur en question dans l'expression y a bx .
Exemple 3
Nous utilisons les donnes du tableau 4.1 pour trouver l'quation qui
permettra d'estimer le prix la vente (Y) d'une maison d'Outremont partir
de son valuation (X). Les calculs donnent :
6x i
6y i
3 238 , 9
6x i y i
508 455 , 6
5 348
41
6x i2
313 698 , 21
6y i2
864 988
Donc :
6 ( x i x )( y i y )
6( xi x )
6x i y i ( 6x i )( 6y i ) n
2
6x i ( 6x i )
57 833 , 009 76
85 976 , 643 9
85 976 , 643 9
57 833 , 009 76
a
y bx
5 348
41
3 238 , 9
41
12 , 998 393 2
13 1, 49 x .
Cette quation peut servir estimer le prix de vente d'une maison partir de
son valuation. Par exemple, nous estimons qu'une maison value 70 500 $
se vendra :
y
13 1, 49 ( 70 , 5 ) 118 , 045
Dans les formules pour la droite des moindres carrs, on ne peut intervertir
les x i et les y i . Chacune des variables joue un rle qui lui est propre. La
variable X, appele variable explicative (ou variable indpendante), servira
ventuellement estimer Y. La variable Y, appele variable explique (ou
variable dpendante), est celle dont on voudra estimer la valeur.
118
4.2
CORRLATION
Il est toujours possible de dterminer la droite des moindres carrs en
utilisant les formules de la section prcdente condition, toutefois, que
les x i ne soient pas tous identiques. Cela ne veut pas dire que les
estimations faites partir de la droite des moindres carrs seront bonnes :
elles seront bonnes seulement dans la mesure o la relation entre X et Y est
linaire et forte, c'est--dire, dans la mesure o les points du nuage sont
proches d'une droite de pente non nulle.
Le coefficient de corrlation, not r, est une mesure de dpendance
linaire dfinie par l'une ou l'autre des formules suivantes :
6 ( x i x )( y i y )
6( xi x )2
6(y i y )2
n6x i y i ( 6x i )( 6y i )
2
2
n6x i ( 6x i )
xy x y
x2 x2
r
2
2
n6y i ( 6y i )
SX
y2 y2
SY
119
5. Plus les points du nuage s'alignent le long d'une droite de pente non
nulle, plus r est loign de 0.
Exemple 4
n6x i y i ( 6x i )( 6y i )
2
2
n 6x i ( 6x i )
2
2
n 6y i ( 6 y i )
0 , 87
120
FIGURE 4.4
121
4.3
UN TEST D'INDPENDANCE
Revenons l'exemple des maisons d'Outremont. Dans la section 4.1,
exemple 3, nous avons dtermin la droite de rgression pour estimer le prix
partir de l'valuation. Dans la section 4.2, exemple 4, nous avons
dtermin le coefficient de corrlation pour nous assurer que la droite de
rgression donnera de bonnes estimations. Ayant trouv un coefficient de
corrlation de 0,87, nous avons conclu que la dpendance entre X et Y est
assez forte pour permettre des estimations relativement bonnes.
Cette conclusion tait un peu htive, car le coefficient de corrlation de 0,87
ne mesure que le dpendance qui se manifeste dans l'chantillon. Or, les
valeurs chantillonnales sont dtermines en bonne partie par le hasard : le
prix auquel se vend une maison est le fruit d'une ngociation dont l'issue est
imprvisible. Il se peut que deux variables soient fondamentalement
indpendantes et que le hasard seul soit responsable de la dpendance
observe dans l'chantillon. Dans le contexte de notre exemple, cette
hypothse est peu vraisemblable, d'abord parce qu'on sait a priori que le prix
d'une maison est fortement li son valuation, et ensuite parce que le
coefficient de corrlation est lev. Dans plusieurs cas, cependant, on ne sait
pas a priori si les variables sont dpendantes ou non, et le coefficient de
corrlation n'est ni trs prs ni trs loin de 0.
Pour ces cas-l, nous avons besoin d'un test pour dcider si le coefficient de
corrlation est assez grand pour tre significatif.
Le test Le test se base sur un raisonnement analogue celui des autres tests
statistiques : si r est petit (en valeur absolue), on attribue la dpendance au
hasard ; si r est grand (en valeur absolue), on attribue la dpendance
chantillonnale une dpendance relle entre les variables. Il s'avre plus
122
commode, cependant, de baser le test non pas sur r lui-mme mais sur une
autre quantit, fonction de r, qui crot lorsque r crot. C'est la quantit
dfinie par
Z
n2
1 r2
Lorsque r est grand, Z est grand et lorsque r est petit, Z est petit. De plus,
r = 0 si et seulement si Z = 0. Donc, un test bas sur Z est quivalent un
test bas sur r. Toutefois, Z a l'avantage d'tre une variable centre rduite et
peut donc tre interprte peu prs comme une cote Z. Une valeur de 3 ou
de 3 est trs loigne de 0 et indique une dpendance relle entre les
variables. Une valeur de 1 ou de 1, par contre, n'est pas excessive : elle peut
tre due au hasard.
Il est habituellement raisonnable de rejeter l'hypothse d'indpendance quand
Z se trouve l'extrieur de l'intervalle (2,2). Si l'hypothse d'indpendance
est vraie, la valeur de Z a tendance tre petite, presque certainement dans
l'intervalle (2,2). Auquel cas on ne rejette pas l'hypothse d'indpendance,
et on a raison. Il peut arriver que Z se trouve l'extrieur de l'intervalle
(2,2), mme si X et Y sont indpendantes. Dans ce cas, on rejette
l'hypothse d'indpendance tort. La probabilit d'une telle erreur est
voisine de 5 %, un risque gnralement considr acceptable.
Si l'hypothse d'indpendance est fausse, Z a tendance sortir de l'intervalle
(2,2), ce qui conduit, comme il le faut, au rejet de l'hypothse. Si Z est dans
l'intervalle, on accepte l'hypothse d'indpendance tort. La probabilit
d'accepter tort, contrairement rejeter tort, ne peut pas tre borne par
une quantit relativement petite comme 5 %. C'est pourquoi on accepte
l'hypothse avec circonspection. Il s'agit plutt d'un non-rejet que d'une
acceptation.
Remarque Si n est vraiment grand, on n'a pas rellement utiliser la
transformation Z. En convenant de rejeter l'hypothse d'indpendance si
nr 2 ! 4 on arrive encore plus rapidement la conclusion et le risque d'erreur
est encore voisin de 5 %.
123
41 2 u 0 , 87
11, 02 .
1 ( 0 , 87 ) 2
Pour une cote Z, cette valeur est norme. Ceci veut dire que r est trop grand
pour qu'on puisse attribuer la dpendance observe au hasard. La
dpendance entre les variables est relle.
Le test bas sur nr 2 conduit la mme conclusion : nr 2 31, 03 tant
beaucoup plus grand que le point critique 4, l'hypothse d'indpendance est
vigoureusement rejete.
124
RSUM
1. Lorsqu'un graphique indique qu'il pourrait y avoir une relation linaire
entre deux variables quantitatives X et Y, il convient de mesurer le degr
de dpendance linaire l'aide du coefficient de corrlation r, que l'on
peut calculer par l'une ou l'autre des formules suivantes :
r
6 ( x i x )( y i y )
6( x i x ) 2
n6x i y i ( 6x i )( 6Y I )
6( yi y ) 2
n6x I2 ( 6x i ) 2
n6y i2 ( 6y i ) 2
n2 r
1 r2
6 ( x i x )( y i y )
6 ( xi x )
n6x i y i ( 6x i )( 6y i )
2
i
n6 x ( 6 x i )
125
6x i y i n x y
2
6x i
n x2
y bx .
EXERCICES
DROITE DES
MOINDRES
CARRS
12
b) y = 2 + 2x
c) y = 3 + 1,1x
11
13
12
Faites un graphique.
3. Sans faire de calculs, dterminez la droite des moindres carrs pour les
donnes suivantes :
x
13
6 ( y i y i ) 2 .
10
15
16
21
126
1,5
2,6
5,4
3,8
1,5
0,7
1,8
1,9
2,7
5,1
3,75
4,3
5,7
4,9
3,75
3,35
3,9
3,95
4,35
5,55
11
13
14
15
16
17
19
20
23
25
11
16
17
16
18
19
10
22
18
14
10
10
14
18
22
127
D'INDEPENDANCE
b) Si r = 0,2
c) Si r = 0,3
d) Si r = 0,4
e) Si r = 0,2
f)
Si r = 0,5
b) Si n = 15
c) Si n = 20
d) Si n = 30
18. Un sondage est fait auprs des pres de 17 lves d'une cole. De
chacun on obtient l'information suivante : le nombre d'annes de
scolarit, et le nombre de revues ou livres lus en un mois. Voici les
donnes :
Scolarit
Scolarit
10
17
10
18
16
11
16
19
14
19
14
12
13
12
13
128
Modle
Modle
Mazda GLC
Tercel
Honcla Civic
Datsun 310
Datsun Nissan
Fiat 2000
Mazda 626
Saab 900
Skylark
Celebrity
Camaro
Toyota Sup.
Datsun 280ZX
1,5
1,5
1,5
1,5
2
2
2
2
2,5
2,5
2,5
2,8
2,8
8,0
8,0
8,0
9,3
9,5
11,0
11,0
11,5
10,3
10,5
10,4
12,8
12,0
Pontiac 6000
Pontiac Phoenix
Cougar
BMW 733i
Thunderbird
Impala
M. Benz 380SL
Granacla
Olds Delta 88
Mustang
Lincoln
Olds 98
2,8
2,8
3,3
3,3
3,3
3,8
3,8
3,8
3,8
5
5
5
11,0
11,5
12,0
14,0
12,5
12,4
13,7
13,0
13,0
14,5
14,0
14,8
72 , 8 ; 6y
288 , 7 ; 6x 2
240 , 54 ; 6y 2
3 429 , 57 ; 6xy
887 , 92.
20. Le tableau suivant donne, pour 15 trimestres conscutifs, les valeurs des
deux variables suivantes :
X : L'indice d'offre d'emploi (1969 = 100). Il s'agit d'un indice calcul
partir des offres d'emploi parues dans les 18 plus grands
journaux canadiens.
Y : Le taux de chmage.
129
Anne
Trimestre
Anne
Trimestre
1978
1
2
3
4
1
2
3
4
159
154
161
187
175
186
198
196
8,40
8,50
8,40
8,16
7,96
7,70
7,13
7,23
1980
1
2
3
4
1
2
3
204
195
204
210
231
221
241
7,50
7,70
7,50
7,40
7,30
7,15
7,13
1979
1981
2 922 ; 6y
115 ,16 ; 6x
578 368 ; 6y
22 277 , 22 .
21. Le tableau suivant donne, pour les fils de cuivre, le diamtre en cm (X) et
l'amprage maximal tolr (Y).
X
1,30
1,40
1,52
1,65
1,85
1,98
245
285
330
385
425
480
2,08
2,21
2,41
2,79
3,05
3,45
530
575
660
740
845
1 000
90
95
95
95
95
100
232
208
220
150
203
252
105
106
108
113
113
114
237
298
279
237
210
211
114
120
120
126
133
201
304
275
284
313
130
1 842 ; 6y
4 114 ; 6x
202 020 ; 6y
451 252.
50
56
58
64
64
68
262
250
265
280
264
256
72
76
78
82
82
86
281
293
271
261
296
268
93
94
95
101
104
108
277
300
305
310
286
301
1 431 ; 6y
5 026 ; 6x 2
118 895 ; 6y 2
403 552 .
131
22
24
29
33
25
31
35
38
27
36
30
20
50
40
80
50
80
30
40
20
41
48
43
46
56
44
57
59
52
54
180
100
140
120
160
160
140
180
100
120
80
65
82
90
60
70
85
68
73
77
320
350
280
400
400
320
350
280
300
300
300 ; 6y
440 ; 6x 2
9 270 ; 6y 2
23 600 ; 6xy
13 200
Deuxime groupe
6x
500 ; 6y
1 400 ; 6x 2
25 372 ; 6y 2
204 00 ; 6xy
57 056 ; 6y 2
70 000
Troisime groupe
6x
750 ; 6y
3 300 ; 6x 2
247 500
132
aient tous suivi le cours de calcul on observe leurs notes (Y). On constate
que ceux qui ont suivi le cours de rattrapage (le groupe A, disons) ont
une moyenne infrieure celle de ceux qui ne l'ont pas suivi (le groupe
B) : 58,8 pour le groupe A et 68,2 pour le groupe B. Dans d'autres
circonstances, ces rsultats auraient men l'tonnante conclusion que
le cours de rattrapage a eu un effet ngatif. Dans ce cas, les tudiants
qui ont suivi le cours taient faibles au dpart c'est prcisment la
raison pour laquelle ils l'ont suivi. Leur faible note en calcul ne dmontre
donc pas que le cours leur a t inutile ou nuisible. Pour tudier la
question plus fond, on prlve des donnes sur la note en
mathmatiques (X) obtenues la dernire anne du secondaire. Voici les
donnes sur X et sur Y pour les deux groupes.
Groupe A
Groupe B
50
51
52
53
54
55
56
57
60
68
57
46
59
58
52
51
65
62
61
77
70
71
74
77
78
81
83
83
87
91
60
53
64
66
64
66
76
75
75
83
556 ; 6y
588 ; 6x 2
31 164 ; 6y 2
35 234 ; 6xy
33 021
682 ; 6x 2
63 619 ; 6y 2
47 228 ; 6xy
54 730
Groupe B
6x
795 ; 6y
133
150
175
210
220
220
80
60
85
70
79
225
230
250
260
275
88
89
81
86
86
290
320
370
380
500
88
90
89
92
95
4 075 ; 6y
1 258 ; 6x 2
1 221 075 ; 6y 2
349 370 .
27. Une faon d'tudier les dterminants gntiques d'un trait humain
consiste mesurer ce trait sur des jumeaux qui ont vcu spars. Dans
une telle tude, 36 paires de jumeaux ayant t spars trs jeunes
passent un test d'aptitudes. On obtient les scores qui paraissent au
tableau voisin.
134
36 ; 6x
887 ; 6y
2
828 ; 6x
2
24 381 ; 6y
21 746 ; 6xy
22 509 .
Premier
Second
Paire
Premier
Second
Paire
Premier
Second
1
2
3
4
5
6
7
8
9
10
11
12
5
8
15
13
14
12
14
15
21
18
22
23
3
6
12
14
5
24
7
23
12
22
25
28
13
14
15
16
17
18
19
20
21
22
23
24
21
23
23
25
25
26
26
27
26
28
28
29
16
29
20
31
19
26
23
25
25
23
32
32
25
26
27
28
29
30
31
32
33
34
35
36
31
30
31
32
32
30
32
36
36
33
37
40
23
29
33
27
31
19
27
27
31
25
36
38
ae bx .
135
Nombre
d'heures
Concentration
(mg/ml)
Nombre
d'heures
Concentration
(mg/ml)
Nombre
d'heures
Concentration
(mg/ml)
0,5
1,0
1,5
2,0
2,5
3,0
0,091 6
0,089 8
0,080 5
0,059 0
0,057 8
0,053 4
3,5
4,0
4,5
5,0
5,5
6,0
0,052 3
0,031 7
0,038 4
0,037 6
0,030 8
0,029 3
6,5
7,0
7,5
8,0
8,5
9,0
0,025 5
0,023 5
0,023 1
0,019 6
0,016 7
0,016 6
85 , 5 ; 6x i2
>
527 , 25 ; 6x i log y i
30 598 ;
199 908.
136
o b est un paramtre qui doit tre estim. Une galit est alors mesure
par la valeur de b, qui est toujours suprieure ou gale 1. Le tableau
suivant donne la valeur de y pour certaines valeurs de x.
X
0,25
0,30
0,35
0,40
0,45
0,032
0,055
0,079
0,115
0,173
0,50
0,55
0,60
0,65
0,70
0,180
0,259
0,275
0,367
0,453
0,75
0,80
0,85
0,90
0,95
0,588
0,618
0,650
0,843
0,860
>
n 15 ; 6log x i
>
6 log y i
8 774 ; 6 logx i
7 535 ; 6log y i
20 714 ;
18 037.
( xy x y ) ( x x )
et
6n i x i y i n et x 2
6n i x i2 n .
137
Effectif
Effectif
Effectif
22
28
33
20
27
2
8
14
20
26
70
68
80
86
85
31
27
37
19
32
4
10
16
22
28
66
74
71
69
90
36
30
41
28
25
6
12
18
24
30
63
76
89
81
92
32. Un spcialiste dveloppe un test dans le but d'tablir une relation entre
la dextrit manuelle et l'aptitude mentale des lves du secondaire.
l'occasion d'une analyse prliminaire il fait passer des tests 25 lves,
obtenant pour chacun le score (X) un test d'aptitude et le score (Y) un
test de dextrit manuelle. Pour s'assurer d'une bonne reprsentation, il
choisit un groupe de chaque niveau du secondaire. Il obtient les rsultats
suivants :
Secondaire 1
b
a
r
Z
Secondaire 2
Secondaire 3
Secondaire 4
Secondaire 5
26
28
32
36
38
25
29
27
25
27
0,04
27,8
0,12
0,20
42
43
44
46
49
37
35
34
35
39
56
57
59
61
62
43
47
45
46
44
68
69
72
73
75
54
56
55
53
55
80
82
84
87
92
61
66
63
62
63
0,39
18,5
0,54
1,11
0,04
42,7
0,06
0,11
0,07
59,3
0,17
0,29
0,01
64,0
0,03
0,05
1 461 ; 6y
1 126 ; 6x 2
94 457 ; 6y 2
54 950 ; 6xy
71 868.
138
5
10
12
12
13
15
18
19
21
23
24
35
29
37
38
29
35
44
38
50
25
27
29
30
32
35
36
36
38
42
60
44
52
57
56
60
67
56
39
39
41
41
42
43
45
45
46
52
70
72
67
61
75
72
79
67
47
48
49
49
51
52
52
53
56
65
81
73
69
75
87
70
85
90
57
57
58
59
59
60
60
61
62
90
70
85
86
92
95
80
90
85
404 ; 6y 1 084 ; 6x 2
6 138 ; 6y 2
Classe B
139
Classe C
5
6
6
7
8
8
10
10
7
8
25
30
30
20
50
55
65
60
40
45
11
12
13
14
15
16
17
17
14
15
20
20
20
25
55
40
55
59
30
40
16
17
18
19
20
21
18
18
19
19
15
20
25
35
45
55
35
25
25
20
8,37
6,91
7,30
20,8
63,1
105,0
0,89
0,89
0,84
5,56
5,44
4,36
*35. Dans le tableau 4.2 nous prsentons des donnes prleves en 1977 sur
les salaires au moment de l'engagement de 93 employs, dont 32 sont de
sexe masculin et 61 de sexe fminin
. Les salaires sont ceux auxquels les
employs ont t engags ; l'exprience est le nombre de mois
d'exprience pralable dans un domaine connexe ; la priode est la date
d'engagement, exprime en nombre de mois depuis le ler janvier 1969.
Voici les moyennes des diffrentes variables pour les hommes et pour les
femmes.
Salaires (1 000 $)
ducation
Exprience
Priode
Femmes
Hommes
Tous
5,139
11,97
99,81
17,44
5,957
13,53
103,05
15,34
5,420
12,51
100,93
16,72
Roberts, H.V. (1979), Harris Trust and Savings Bank : An analysis of employee compensation, Report 7946,
Center for Mathematical Studies in Business and Economics, University of Chicago, Graduate School of Business.
140
leur salaire et non de les diminuer. Il est vident que toute comparaison
de salaires devrait tre faite partir de moyennes ajustes. Dans cet
exercice on vous demande de calculer des moyennes salariales ajustes.
a) Vrifiez que la droite de rgression du salaire (Y) sur la scolarit (X) et
le coefficient de corrlation sont
pour les femmes, Y = 4,382 + 0,063X, r = 0,27
pour les hommes, Y =4,120 + 0,136X, r = 0,37
et que la dpendance est significative dans les deux cas. Calculez la
valeur de Y qui correspond X = 12,51, pour les hommes et pour les
femmes. Les valeurs obtenues sont des moyennes ajustes. Le
concept est identique celui prsent au chapitre 2, mais la
technique change du fait que la variable pour laquelle on ajuste est
quantitative. Interprtez les rsultats.
b) On fait des oprations analogues pour obtenir des moyennes
salariales ajustes qui tiennent compte de la diffrence de priode.
Vrifiez que la droite de rgression du salaire (Y) sur la priode
d'engagement (X) et le coefficient de corrlation sont
pour les femmes, Y = 4,752 + 0,022X, r = 0,43
pour les hommes, Y = 5,550 + 0,027X, r = 0,37
Vrifiez que la dpendance est significative dans les deux cas et
calculez des moyennes ajustes. Commentez.
c) Vrifiez que la droite de rgression du salaire (Y) sur l'exprience (X)
et le coefficient de corrlation sont
pour les femmes, Y = 4,927 + 0,002 1X, r = 0,34
pour les hommes, Y = 5,964 0,000 1X, r = -0,01
Vous constatez que la dpendance n'est pas significative pour les
hommes, ce qui pose un dilemme. moins d'attribuer ce qu'on
observe ici un accident du hasard, nous devons expliquer le fait
que le salaire dpend de l'exprience pour les hommes mais pas pour
les femmes. Cette question ne peut tre tranche ici, mais le lecteur
pourrait trouver instructif de se livrer ses propres spculations.
Autre problme : comment ajuster les donnes ? S'il est certain que Y
ne dpend pas de X, alors ajuster n'a pas de sens. D'autre part, cette
conclusion n'est jamais vraiment certaine. Il est donc raisonnable de
141
Scolarit
(annes)
12
10
12
8
8
12
12
12
15
8
12
12
8
12
12
12
12
12
12
12
12
16
8
8
12
12
15
15
16
12
8
Exprience
(mois)
0,0
44,0
5,0
6,2
7,5
0,0
0,0
4,5
75,0
52,0
8,0
52,0
70,0
6,0
11,0
11,0
63,0
144,0
163,0
228,0
381,0
214,0
318,0
96,0
36,0
59,0
115,0
165,0
123,0
18,0
102,0
Priode
(mois)
1
7
30
7
6
7
10
6
2
3
19
3
20
23
12
17
22
24
12
26
1
15
25
33
15
14
1
4
12
12
29
Salaire
(mille $)
5,22
5,28
5,28
5,28
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,40
5,52
5,52
5,58
5,64
5,70
5,70
5,70
5,70
5,70
6,00
6,00
6,12
6,30
6,30
Scolarit
(annes)
12
8
8
12
8
8
12
12
12
12
12
12
15
15
15
15
12
12
12
12
12
12
15
15
15
12
15
12
12
15
Exprience
(mois)
127,0
90,0
190,0
107,0
173,0
228,0
26,0
26,0
38,0
82,0
169,0
244,0
24,0
49,0
51,0
122,0
97,0
196,0
132,5
55,0
90,0
116,5
51,0
61,0
241,0
121,0
78,5
208,5
86,5
231,0
Priode
(mois)
29
11
1
11
34
33
11
33
22
29
27
1
13
27
21
33
17
32
30
9
23
25
17
11
34
30
13
21
33
15
142
TABLEAU 4.2
Scolarit
(annes)
12
15
12
12
12
12
12
12
15
15
15
8
12
12
12
12
Exprience
(mois)
11,5
14,0
180,0
315,0
29,0
7,0
38,0
113,0
17,5
359,0
36,0
320,0
24,0
32,0
49,0
56,0
Hommes
Priode
Salaire
(mois)
(mille $)
22
6,00
3
6,00
15
6,00
2
6,00
14
6,00
21
6,00
11
6,00
3
6,00
8
6,30
11
6,60
5
6,60
21
6,60
2
6,84
17
6,90
8
6,90
33
8,10
Scolarit
(annes)
12
12
15
15
15
15
15
16
15
15
15
15
15
12
15
16
Exprience
(mois)
252,0
272,0
25,0
35,5
56,0
64,0
108,0
45,5
72,0
64,0
84,0
215,5
41,5
175,0
132,0
54,5
Priode
(mois)
11
19
13
32
12
33
16
3
17
16
33
16
7
10
24
33
Variables alatoires et
probabilits
5.1
5.2
5.3
5.4
5.5
144
Introduction Nous avons vu, dans les premiers chapitres, comment prsenter
des donnes quantitatives tires d'une population et comment en extraire
certaines caractristiques. Nous avons vu aussi que dans la plupart des cas,
une tude statistique se restreint la considration d'un chantillon et
l'tablissement des conditions mathmatiques selon lesquelles les
conclusions tires de l'examen de l'chantillon peuvent s'tendre la
population entire. Une telle dmarche suppose l'usage d'un certain nombre
d'outils mathmatiques, et en particulier de ceux qui rgissent l'tude des
phnomnes alatoires et des probabilits.
On peut prvoir le moment exact d'une clipse de soleil, on peut aussi
dterminer l'avance la trajectoire d'un projectile si l'on connat les
conditions de son envol. De tels phnomnes sont dterministes. De
nombreux autres phnomnes par contre sont alatoires
, c'est--dire qu'on
ne peut pas en prvoir l'issue. Ainsi en est-il des jeux de hasard, comme du
nombre de naissances qui surviendront l'an prochain dans une clinique
donne d'obsttrique. C'est cette dernire catgorie de phnomnes qu'tudie
la statistique.
Nous nous intresserons donc dans ce chapitre aux expriences alatoires,
c'est--dire toute opration dont on peut dcrire, ou numrer, l'ensemble
des rsultats possibles, mais dont on ne peut prvoir lequel arrivera. Cela
nous amnera naturellement dfinir les probabilits et en tudier les lois
lmentaires, ainsi que les variables alatoires, c'est--dire les quantits
dont la variation est soumise au hasard.
5.1
Exemple 1
On lance un d ordinaire.
Exemple 2
Exemple 3
145
Sous-ensemble correspondant
{PPP}
(sous-ensemble vide)
On a moins de 4 faces.
146
AB
Ac
AB
On utilise les diagrammes de Venn pour visualiser les oprations sur les
ensembles.
A
B
AB
A
B
AB
A
B
AB
147
148
:
C
(A B) (A C)
Exemple 7
Exemple 8
Exemple 9
149
( 2 ,1) ( 2 , 2 ) ( 2 , 3 ) ( 2 , 4 ) ( 2 , 5 ) ( 2 , 6 )
( 3 ,1) ( 3 , 2 ) ( 3 , 3 ) ( 3 , 4 ) ( 3 , 5 ) ( 3 , 6 )
( 4 ,1) ( 4 , 2 ) ( 4 , 3 ) ( 4 , 4 ) ( 4 , 5 ) ( 4 , 6 )
( 5 ,1) ( 5 , 2 ) ( 5 , 3 ) ( 5 , 4 ) ( 5 , 5 ) ( 5 , 6 )
( 6 ,1) ( 6 , 2 ) ( 6 , 3 ) ( 6 , 4 ) ( 6 , 5 ) ( 6 , 6 )
150
5.2
PROBABILITS
Afin de complter le modle probabiliste qui permettra de dcrire le comportement du rsultat de l'exprience alatoire considre, il faut maintenant
trouver une faon de dterminer la probabilit de chacun des vnements
que nous aurons considrer.
On peut dj dire que la probabilit d'un des rsultats d'une exprience
alatoire sera une mesure de l'importance de ce rsultat dans l'ensemble de
tous les rsultats possibles de l'exprience.
Il est souvent commode de se reprsenter la probabilit d'un vnement
comme une sorte de poids . Un poids total de 1 est rparti sur les lments
de l'espace chantillon.
Plus le poids d'un rsultat est grand, plus grande est la probabilit que
l'exprience alatoire donne ce rsultat. Une fois dtermine la probabilit de
chacun des rsultats, c'est--dire de chaque lment de :, il sera ais de
calculer la probabilit d'un vnement, c'est--dire d'une partie de :.
Notons par P(r) la probabilit (ou le poids) du rsultat r. Les probabilits
ngatives (ou suprieures 1) tant manifestement absurdes, on doit avoir,
pour tout lment r de : :
0 d P ( r ) d 1.
P (r )
1.
r :
Remarque La notation
r :
151
P ( r ).
r A
Le poids d'un objet est bien la somme des poids de ses parties ; ainsi en
est-il de la probabilit d'un vnement.
Exemple 10 On lance un d. : = {1, 2, 3, 4, 5, 6}. Si on suppose que le d est bien
quilibr, chacun de ces 6 rsultats doit avoir la mme probabilit. Le poids
total de 1 sera donc divis en 6 parties gales et on obtient :
P (1)
P ( 2)
P ( 3)
P ( 4)
P (5)
P (6)
1
6
P(r )
P ( 2) P ( 4) P ( 6)
1
6
r A
Il y a donc une chance sur deux que le rsultat du d soit un nombre pair
(et une chance sur deux qu'il soit impair).
i
Il arrive frquemment que, par un simple argument de symtrie, on puisse
facilement admettre que tous les lments de : sont quiprobables. La
probabilit de chaque rsultat est alors ncessairement 1/n, o n est le
nombre d'lments de :. Dans ce cas, appel modle uniforme, la
probabilit de n'importe quel vnement A s'obtient par la formule :
P ( A)
152
C'est ce qui arrive dans la plupart des situations relies aux jeux de hasard :
les faces d'un d, les cartes d'un jeu sont au dpart quiprobables. Les
calculs de probabilit se ramnent alors des problmes de dnombrement.
La symtrie de telles situations, c'est--dire le fait que chaque rsultat ait la
mme importance, permet alors d'attribuer une probabilit a priori
chacun des rsultats.
Exemple 11 Un vase contient 3 boules blanches et 7 boules noires. On tire une boule au
hasard. Considrons l'vnement A = la boule tire est blanche .
En utilisant des indices qui permettent de bien distinguer chacune des
boules, on peut crire :
: = {b1, b2, b3, n1, n2, n3, n4, n5, n6, n7}
et
Toutes les boules ayant exactement le mme statut, le modle uniforme peut
tre appliqu et on obtient :
P ( A)
Card( A )
Card( : )
10
Exemple 12 Considrons une classe qui compte 25 lves, dont 5 sont blonds et
20 bruns. Alors l'exprience observer la couleur des cheveux d'un lve tir
au hasard est de mme nature que celle de l'exemple 11. On aura
P( blond ) = 5
0 , 2 et P( brun ) = 20
0 ,8 .
i
25
25
La plupart des situations concrtes, par contre, ne dbouchent pas sur des
rsultats aussi symtriques et ne permettent pas d'identifier des probabilits
a priori. La probabilit de chaque rsultat doit alors tre estime de faon
empirique ; c'est le plus souvent la frquence de ce rsultat, telle que calcule
partir de donnes dj disponibles ou des rsultats d'une suite
d'expriences ad hoc.
Exemple 13 Supposons que nous nous demandions quelles sont les chances qu'il pleuve
un 10 juillet. L'exprience alatoire ici est l'observation du temps le 10 juillet
et, pour simplifier, on peut dire que : = {pluie, beau temps}. Nous
consultons les archives mtorologiques et nous y trouvons qu'il a plu
22 fois durant les 117 dernires annes, un 10 juillet. Personne ne sera alors
surpris si nous disons qu'une estimation raisonnable de la probabilit qu'il
pleuve un 10 juillet est de 22 sur 117 , donc de 0,188.
i
153
A
C
154
prend
une
forme
155
B
AB
AB
maintenant
valuer
la
probabilit d'une
156
157
Exemple 15 Dans une manufacture, trois systmes d'alarme sont installs de telle faon
que n'importe lequel des trois va sonner si quelque chose d'anormal se
produit. Si chacun des trois systmes a une probabilit de 0,95 de bien
fonctionner, quelle est la probabilit que l'alarme soit dclenche si c'est
ncessaire ?
Solution
P(l'alarme sonne)
= P(au moins un des systmes fonctionne)
= 1 P(aucun des systmes ne fonctionne)
En supposant que les trois systmes fonctionnent indpendamment, on a :
P(aucun des systmes ne fonctionne)
= P(1er ne fonctionne pas et 2e non plus et 3e non plus)
= P(1er ne fonctionne pas) u P(2e non plus) u P(3e non plus)
= 0,000 125.
Donc P(Falarme sonne) = 1 0,000 125 = 0,999 875.
5.3
PROBABILITS CONDITIONNELLES
Quand deux vnements A et B sont indpendants, on value la probabilit
que l'un et l'autre se produisent par la formule P(A B) = P(A)P(B). Dans la
mesure o un calcul de probabilit se ramne trs souvent un exercice de
dnombrement, cette identit correspond au principe de base de la
combinatoire, qu'on pourrait formuler ainsi :
Si une opration peut tre faite de n faons et si une deuxime peut l'tre
indpendamment de m faons, alors les deux ensembles peuvent tre faites
de m u n faons.
Ainsi, quelqu'un ayant 4 pantalons et 5 chemises peut arborer 20 (= 4 u 5)
tenues vestimentaires diffrentes. Toutefois, il peut arriver que le choix de la
chemise dpende du pantalon choisi, ce qui modifie les calculs. En somme, il
arrive que des vnements ne soient pas indpendants. Voyons d'abord un
exemple technique avant d'laborer une formule pour le calcul de P(A B)
dans les cas de dpendance.
158
3
6
4
6
2
6
1
3
=
4
6
2
9
2
6
indpendants).
3
5
3
10
.i
159
P( A B)
P(B)
Symtriquement, P(B|A) est la probabilit conditionnelle de B sachant que A
est ralis. On obtient de la mme faon
P ( B A)
P( A B)
P ( A)
Comme le montrent ces formules, les probabilits conditionnelles P(A|B) et
P(B|A) mesurent respectivement l'importance relative de A B par rapport
B et A.
Le traitement des probabilits conditionnelles est donc tout fait analogue
ce qu'on a dj fait, dans le chapitre 3, au sujet des distributions
conditionnelles : la donne d'une condition B fait qu'on ne considre plus, de
l'espace chantillon :, que la tranche o la condition B est ralise.
Exemple 18 On lance un d qui donne X points. Calculer : P(X est pair |X t 4).
Dfinissons les vnements :
A = X est pair .
B = X t 4 .
160
P( A B)
P(B)
Rsultat du premier d
1
2
3
4
5
6
3
36
10
36
, P(B) =
161
25
36
et
. On trouve donc :
P( A B)
P( A B)
P(B)
25
36
25
36
P( A B)
P ( A) P ( B )
P(B)
P(B)
P( A B)
P ( A) P ( B )
P ( A)
P ( A)
P ( A)
et
P ( B A)
P(B)
Rsultat du premier d
Rsultat du deuxime d
1
AB
AB
AB
162
P ( A) P ( B ) P ( A B )
0,5 0,3 0, 2
0,6
B
P(A B)
P(Ac B)
P(B)
A
Ac
P(A)
P(Ac)
1
o il est facile de voir que chaque ligne (chaque colonne) est forme
d'vnements incompatibles ; par exemple, A B et Ac B sont
incompatibles (car A et Ac le sont) et leur union (A B) (Ac B) est
gale B. On a donc
P(B) = P(A B) + P(Ac B).
Si l'on revient au problme pos, on complte le tableau comme suit :
B
0,2
A
A
B
0,5
A
0,3
1,0
0,2
A
c
B
0,5
0,5
5.4
163
VARIABLES ALATOIRES
Une variable alatoire est une caractristique numrique rsultant d'une
exprience alatoire. toutes fins pratiques, une variable alatoire est donc
simplement une quantit qui varie au hasard.
Comme pour les variables statistiques dj rencontres dans les quatre
premiers chapitres, les variables alatoires sont conventionnellement
reprsentes par des lettres majuscules habituellement choisies vers la fin
de l'alphabet (X, Y, Z, S, ... ), alors qu'on rserve les premires lettres (A, B,
C, ... ) pour identifier les vnements.
Une variable alatoire peut tre discrte ou continue. Nous ne traiterons ici
que des variables discrtes ; le cas continu sera abord dans le chapitre 7.
Le comportement d'une variable alatoire X discrte est compltement dcrit
par la donne de deux listes :
a) la liste des valeurs x1, x2, ... , xn possibles pour X ;
b) la liste des probabilits p(x1), p(x2), ... , p(xn) de chaque valeur possible.
L'expression p(xi) est une notation concise qui reprsente P(X = xi), la
probabilit que la variable alatoire X prenne la valeur xi. On peut aussi
crire simplement p1, p2, ... pn, au lieu de p(x1), p(x2), ... , p(xn).
Rappelons que le P majuscule s'applique aux vnements ; on peut crire
P(A) ou P(X d 2), jamais p(A) ou p(X d 2). Le p minuscule, lui, s'applique
directement aux nombres ; on peut crire p(3), jamais p(X d 3).
Les probabilits p1, p2, ... pn tiennent le mme rle, dans la description du
comportement de la variable alatoire X, que celui tenu par les frquences f1,
f2, ... fn dans la description de la distribution des donnes exprimentales.
On peut se reprsenter la probabilit pi comme tant la valeur thorique vers
laquelle convergerait la frquence fi si l'on pouvait rpter l'exprience une
infinit de fois.
La fonction p(x) est appele fonction de masse ou fonction de probabilit.
Puisque les nombres p(x1), p(x2), ... , p(xn) reprsentent des probabilits, ils
doivent satisfaire aux deux conditions suivantes :
1.
2.
p ( xi )
n
i 1
164
5.5
ESPRANCE ET VARIANCE
Combien de points, en moyenne, un d donne-t-il ? Pour rpondre cette
question, imaginons que le d est lanc un trs grand nombre de fois ;
disons 6 000 fois. Normalement, chacune des faces devrait apparatre
environ 1 000 fois. Ce sont l les effectifs thoriques que nous savons dj
calculer.
Puisque chacune des valeurs 1, 2, 3, 4, 5, 6 apparatra environ 1 000 fois, la
somme des 6 000 rsultats obtenus du d devrait tre voisine de :
(1 000 u 1) + (1 000 u 2) + (1 000 u 3) + (1 000 u 4) + (1 000 u 5) + (1 000 u 6) = 21 000
0,5
0,4
Frquence
FIGURE 5.1
0,3
0,2
0,1
0
1
10
11
165
6 000
3, 5
On conviendra sans peine que si l'on pouvait lancer le d une infinit de fois,
la moyenne de tous les rsultats serait exactement 3,5. Cette moyenne
thorique porte le nom d'esprance mathmatique.
En fait, on n'a pas vraiment besoin d'imaginer une infinit d'observations
d'une variable alatoire X pour pouvoir en calculer l'esprance
mathmatique, note E(X). On n'a qu' appliquer la formule
E( X )
x i p ( x i ).
xi f i
xi p ( xi )
4
3
2
1
1 u 2 u 5 u 10 u
10
10
10
10
3.
166
E (( X P ) 2 )
( xi
P ) 2 p ( x i ).
( xi
x )2 fi
On n'a fait que remplacer les fi par leur quivalent thorique p(xi) ainsi que
remplacer x par son quivalent thorique P.
Exemple 23 Considrons encore le sac contenant 4 billets de 1 $, 3 billets de 2 $, 2 de
5 $ et 1 de 10 $. On a dj calcul, dans l'exemple 22, que P = 3. On peut
maintenant calculer que :
Var ( X )
( xi
2
P ) p ( xi )
2
(1 3 ) ( 0 , 4 ) ( 2 3 ) ( 0 , 3 ) ( 5 3 ) ( 0 , 2 ) (10 3 ) ( 0 ,1)
( 4 u 0 , 4 ) (1 u 0 , 3 ) ( 4 u 0 , 2 ) ( 49 u 0 ,1)
7 , 6.
En moyenne, le billet tir vaut 3 $ ; de plus, comme on vient de calculer, le
carr de la distance entre X et 3 vaut, en moyenne, 7,6. C'est une mesure de
dispersion.
i
La variance Var(x) est aussi note V X2 (V = sigma, le s grec) ou V 2 s'il n'y a
pas d'ambigut. Comme c'tait le cas avec les donnes exprimentales, la
racine carre V X (respectivement V) de la variance thorique est aussi
appele cart-type (ou cart-type thorique).
Exemple 24 Considrons le nombre X de points donns par un d.
On veut calculer P et V.
167
xi p ( xi )
1
1
1
1
1
1
1u 2 u 3 u 4 u 5 u 6 u
6
6
6
6
6
6
21
3, 5
Var ( X )
( xi
P ) p ( xi )
xi p ( x i )
2
7
1
7
1
7
1
1 u 2 u 6 u
2
6
2
6
2
6
25 1 9 1 1 1 1 1 9 1 25 1
u u u u u
u
4 6 4 6 4 6 4 6 4 6 4 6
70
35
24
12
V2
2 , 916 67
1, 707 8.
i
E ( X 2 ) ( E ( X )) 2
E( X 2 ) P 2 .
168
xi
p ( xi )
2 1 2 1 2 1 2 1 2 1 2 1
1 u 2 u 3 u 4 u 5 u 6 u
6
6
6
6
6
6
91
15 ,166 67.
6
Donc
V2
E( X 2 ) P 2
15 ,166 67 ( 3, 5 ) 2
2 , 916 67
169
E ( X 1 X 2 X 1 000 )
E ( X 1 ) E ( X 2 ) E ( X 1 000 )
3, 5 3, 5 3, 5
1 000 u 3, 5
3 500.
170
2 916 , 67
54 , 01 .
20 000 = 141,42.
171
Var ( X )
1
Var ( X 1 X 2 )
2
2
1
>Var ( X 1 ) Var ( X 2 ) @
2
2
1
( 80 2 80 2 )
2
3 200
Var(Y) = 1 800. Donc E(X Y) = 630 600 = 30 et Var(X Y) = Var(X) + Var(Y)
= 3 200 + 1 800 = 5 000. L'cart-type de X Y est donc
5 000 = 70,71.
RSUM
1. L'espace chantillon d'une exprience alatoire est l'ensemble de tous
les rsultats possibles de cette exprience.
2. Un vnement est un nonc relatif au rsultat d'une exprience.
Chaque vnement correspond un sous-ensemble de l'espace
chantillon.
3. chaque rsultat r est associe une probabilit P(r) qui est un nombre
compris entre 0 et 1. La somme des probabilits de tous les rsultats de
l'exprience vaut 1. La probabilit d'un vnement A est la somme des
probabilits des lments de A.
4. Si tous les lments de : sont quiprobables (modle uniforme), la
probabilit d'un vnement A peut tre obtenue en calculant :
P ( A)
5.
Card( A )
Card( : )
172
P( A B)
(si P(B) z 0)
P( B)
ou
P ( B | A)
P( A B)
(si P(A) z 0)
P ( A)
8. Si deux vnements A et B sont indpendants, alors
P(A|B) = P(A) et P(B|A) = P(B).
9. On appelle variable alatoire une caractristique numrique des
rsultats d'une exprience alatoire. Une variable alatoire est donc une
quantit qui varie au hasard.
10. Soit X une variable alatoire discrte dont l'ensemble des valeurs
possibles est {x1, x2, ..., xn}. On appelle fonction de masse p la fonction
dfinie par
p(xi) = P(X = xi).
11. L'esprance mathmatique E(X) de X est dfinie par
P
E( X )
xi p ( xi )
Var ( X )
( xi
E ( X )) 2 p ( x i )
E ( X 2 ) ( E ( X )) 2 .
173
EXERCICES
ESPACE
CHANTILLON
1. Pour chacune des expriences alatoires suivantes, donnez une description rigoureuse de : ; si possible, numrez-en les lments.
a) Lancer 4 sous et observer le rsultat.
b) Interroger des gens sur le parti fdral qu'ils favoriseraient s'il y avait
lection le lendemain.
c) Observer la temprature maximale un 10 janvier.
d) Observer la temprature maximale un 12 juillet.
e) Lancer 3 ds et observer la somme des nombres obtenus.
f)
174
ii) A B
iii) D E
iv) A E
ii) P(b) = 1
iv) P(b) = 0
v) P(v) = P(b)
4. Une exprience alatoire a quatre rsultats possibles : r1, r2, r3, r4.
Lesquelles des donnes suivantes sont acceptables, et pourquoi ?
a)
b)
c)
d)
P(r1)
P(r1)
P(r1)
P(r1)
=
=
=
=
b) P(Ac Bc)
c) P(B Ac)
175
est
est
est
est
un garon.
une fille.
droitier.
gaucher.
176
f)
177
P(B) = 0,3,
20. Une bote contient 5 billes, dont 2 sont marques [1], 1 est marque [2] et
2 sont marques [3]. On tire une bille et on note X son numro ; on tire
une deuxime bille (sans remettre la premire) et on note Y son numro.
Trouvez :
a) E(X)
b) E(Y)
c) E(X + Y)
178
21. Si l'on suppose que les trente lves d'une classe constituent un choix
parfaitement alatoire d'une certaine population, quelle est la probabilit
qu'au moins un lve appartienne au premier centile de la population en
intelligence ?
22. Un petit restaurateur emploie 3 serveurs. Il constate que les 5 dernires
assiettes casses accidentellement l'ont t par le mme serveur, Louis
Lacasse. Peut-il conclure que Louis est particulirement maladroit ?
23. Un marchand de parapluies peut gagner 400 $ par jour quand il pleut, et
perdre 100 $ par jour s'il fait beau. Sachant qu'il y a 3 fois plus de beaux
jours que de jours de pluie, quelle est son esprance de gain quotidien ?
24. On retourne l'une aprs l'autre les 52 cartes d'un jeu ; quelle est la
probabilit que le premier roi rencontr soit
a) la 1re carte retourne.
b) la 3e carte retourne.
c) la 50e carte retourne.
25. Dans une classe de maternelle compose de 15 garons et de 10 filles,
deux enfants sont choisis successivement au hasard pour reprsenter la
classe un concours. Calculez la probabilit :
a)
b)
c)
d)
26. D'un jeu de 52 cartes, on tire une 1ere carte, puis une 2e sans remettre la
1ere dans le jeu. valuez les probabilits suivantes :
a)
b)
c)
d)
27. On vous propose le jeu suivant : vous payez 2 $ pour tenter de deviner le
rsultat du lancer d'un d quilibr. Si vous devinez correctement, on
vous donne K $ plus votre mise ; sinon vous perdez votre mise. Quelle
doit tre la valeur de K pour que votre esprance de gain soit nulle ?
179
b) P(A Cc)
29. Soit A et B deux vnements tels que P(A) = 0,4 et P(B) = 0,3. Dterminez
P(A B) pour chacune des hypothses suivantes :
a) P(A B) = 0,1
b) A et B sont incompatibles
c) P(A|B) = 0,8
e) B A
30. Une bote contient 2 billes noires et 3 blanches. On tire une bille la fois
(sans remise) jusqu' ce qu'apparaisse une bille noire. Soit X le nombre
de tirages requis. Trouvez E(X).
31. Un solide a quatre faces, numrotes de 1 4. Sachant que P(l) = P(3) = p
et P(2) = P(4) = 2p :
a) Trouvez l'esprance mathmatique de : X = Le nombre qui apparat
sur la face infrieure quand on lance le solide.
b) Si vous lancez ce solide 2 fois et que vous notiez la somme des
rsultats obtenus, en identifiant les sous-ensembles suivants de : :
A = {somme paire}, B = {somme impaire}, C = {somme suprieure 5},
valuez :
i) P(B)
ii) P(A B)
iii) P(Bc A)
iv) P(C|B)
v) P(B C)
32. On suppose que le poids (en kg) des adultes se distribue avec une
moyenne de 64 et un cart-type de 12. Soit X le poids total de 14
personnes qui s'entassent dans un ascenseur. Calculez E(X) et Vx.
33. Si l'on suppose que le poids, en grammes, des ufs est de moyenne 56 et
de variance 20, quelle est l'esprance mathmatique et la variance du
poids d'une douzaine d'ufs ?
34. Dans le problme prcdent, si on place au hasard 6 ufs dans chaque
plateau d'une balance, quelle est l'esprance et la variance de la
diffrence de poids entre la premire et la deuxime demi-douzaine ?
180
6.1
6.2
6.3
6.4
6.5
Factorielle et combinaisons
Loi binomiale
Fonction de masse
Justification de la formule
Esprance mathmatique et variance d'une variable binomiale
Justification de la formule
Loi hypergomtrique
Loi gomtrique
Loi de Poisson
Approximation de la loi binomiale par la loi de Poisson
Conditions d'application de la loi de Poisson
RSUM
EXERCICES
182
6.1
FACTORIELLE ET COMBINAISONS
Certaines des formules que nous utiliserons par la suite exigent qu'on
calcule le produit des entiers 1, 2, 3, ..., n. Pour simplifier l'criture, on
reprsente ce produit par le symbole n!, appel factorielle n :
n! = 1 u 2 u ... u (n 1) u n.
Par exemple,
3! = 1 u 2 u 3 = 6,
6! = 1 u 2 u 3 u 4 u 5 u 6 = 720.
Cette dfinition, videmment, ne s'applique qu'aux entiers positifs. Ajoutons
l'utile convention suivante :
0! = 1.
183
Un autre calcul qui figure dans les formules de ce chapitre est celui
symbolis par nx
et dfini par
nx
n!
x!( n x )!
La quantit nx
5!
5!
1u 2 u 3 u 4 u 5
4u5
3! (5 - 3)!
3!2!
(1u 2 u 3 )(1u 2 )
1u 2
10.
,
n
x
aussi appels
,
2
0
2
1
; ainsi de suite. En
, , ..., . Chaque
et
2
2
n
0
n
1
n
n
n=8
21
28
35
56
35
70
21
56
28
n
x
dans la
184
Premire place
Deuxime place
Troisime place
. Par la formule
6
3
n
x
6!
1u 2 u 3 u 4 u 5 u 6
3! ( 6 3 )!
(1u 2 u 3 ) u (1u 2 u 3 )
n!
x !( n x ) !
on obtient :
20.
6.2
185
LOI BINOMIALE
Considrons les quatre expriences alatoires suivantes :
a) On lance 20 pices de monnaie et on obtient X faces .
b) On lance 36 ds ; Y est le nombre de 1 .
c) Il y a 10 naissances dans un hpital ; U est le nombre de filles.
d) 45 % des gens sont en faveur d'un projet de loi. Dans un chantillon de
100 personnes choisies au hasard, on en trouve W qui sont en faveur du
projet de loi.
Ces quatre expriences alatoires ont en commun un certain nombre de
caractristiques fondamentales :
186
p
n
x
(1 p ) n x pour x
0 , 1, 2 , , n .
Avant de justifier cette formule, nous donnons un exemple pour illustrer son
application.
Exemple 3
187
7!
(0,6 ) (0, 4 )
1u 0 , 001 638 4
0 , 001 638 4
7 u 0 , 002 457 6
0 , 017 203 2
0!7!
p (1)
7!
(0, 6 )1 (0 , 4 ) 6
1! 6!
p (2)
7!
(0,6 ) (0, 4 )
0 , 077 414 4
(0,6 ) (0, 4 )
35 u 0 , 005 529 6
0 ,193 536 0
(0, 6 ) (0, 4 )
35 u 0 , 008 294 4
0 , 290 304 0
2!5!
p (3)
7!
3! 4!
p( 4)
7!
4!3!
p (5)
7!
(0, 6 ) (0, 4 )
0 , 261 273 6
5! 2!
p(6)
7!
(0, 6 ) (0, 4)
7 u 0 , 018 662 4
0 ,130 636 8
1u 0 , 027 993 6
0 , 027 993 6.
6!1!
p (7)
7!
(0, 6) (0, 4)
7!0!
FIGURE 6.1
188
0,3
0,2
0,1
X
0
0
i
Les valeurs possibles pour X sont videmment les entiers 0, 1, 2, 3 et 4. Il
reste dterminer la probabilit de chacun de ces rsultats. C'est ce que
nous ferons en considrant au long tous les rsultats exprimentaux
possibles, c'est--dire, tous les lments de l'espace chantillon.
Notant par les lettres S (succs : carte de crdit) ou E (chec : pas de carte de
crdit) les rsultats successifs obtenus chacun des 4 essais ; on voit que
les 16 lments de l'espace chantillon correspondent aux 16 mots de 4
lettres qui peuvent tre forms en utilisant uniquement les lettre S et E. Le
tableau 6.1 donne la liste de ces 16 mots, la probabilit de chacun, ainsi que
la valeur de X (le nombre de S) qui lui est associe.
Dans le tableau 6.1, la probabilit d'un mot est calcule en multipliant les
probabilits des rsultats qui le composent. L'indpendance des essais
justifie ces calculs.
Il est maintenant ais de calculer la probabilit de chacune des valeurs
possibles pour X en effectuant la somme des probabilits de chacun des
mots qui donnent cette valeur de X.
Par exemple, la valeur X = 3 est obtenue de quatre mots diffrents (SSSE,
SSES, SESS et ESSS) et la probabilit de chacun de ces mots est de 2/81.
On obtient donc :
p (3)
P(X
3)
4u
81
81
0 , 098 8.
189
Probabilit du mot
SSSS
1
3
1
3
1
81
SSSE
1
3
u u u
2
3
2
81
SSES
1
3
1
3
1
3
2
81
SSEE
1
3
4
81
SESS
1
3
1
3
1
3
1
3
1
3
2
3
1
3
2
3
2
3
2
3
1
3
1
3
2
81
SESE
1
3
2
3
1
3
2
3
4
81
SEES
1
3
2
3
2
3
1
3
4
81
SEEE
1
3
2
3
2
3
2
3
8
81
ESSS
2
3
1
3
1
3
1
3
2
81
ESSE
2
3
1
3
1
3
2
3
4
81
ESES
2
3
1
3
2
3
1
3
4
81
ESEE
2
3
1
3
2
3
2
3
8
81
EESS
2
3
2
3
1
3
1
3
4
81
EESE
2
3
2
3
1
3
2
3
8
81
EEES
2
3
2
3
2
3
1
3
8
81
EEEE
2
3
2
3
2
3
2
3
16
81
De mme, on trouve :
p (0)
16
81
, p (1)
32
81
, p (2)
24
81
, p (3)
8
81
et p ( 4 )
81
Dans l'exemple qui vient d'tre prsent, il a t possible de calculer les p(x)
en considrant individuellement chacun des 24 = 16 cas possibles. Si l'on
avait eu n = 10, le nombre de cas considrer aurait t 210 = 1 024. Avec
n = 20, on en aurait eu plus d'un million ! On conviendra aisment qu'il est
hors de question d'utiliser pareille mthode de calcul pour des valeurs de n
qui sont le moindrement leves. Il serait commode de pouvoir employer une
formule qui permette de calculer directement les p(x) sans qu'on ait remplir
le tableau, souvent monstrueux, des 2n cas possibles.
190
binme de Newton.
FIGURE 6.2
mots qui
n
x
p
n
x
q nx
pour x = 0, 1, 2, , n
10
x
10 x
1 1
2 2
10
x
10
1
2
1
.
10x 1 024
191
, p (1)
1 024
p (4)
210
, p (5)
45
, p (2)
1 024
1 024
p (8)
10
, p(6)
1 024
1 024
120
, p (3)
1 024
252
10
, p (9 )
45
210
120
, p (7)
1 024
1
, p (10 )
1 024
1 024
,
1 024
.
1 024
i
Exemple 6
p ( 0 ) p (1)
( 0 ,05 )
10
0
( 0 , 95 ) 10
0 , 598 74 0 , 315 12
( 0 ,05 )
10
1
( 0 , 95 ) 9
0 , 913 86.
p ( 2 ) p ( 3 ) p (10 )
1 p ( 0 ) p (1)
1 0 , 913 86
0 , 086 14.
192
x i p ( x i ).
(xi
P ) 2 p ( x i ),
1, 68
npq
7 u 0,6 u 0, 4
1, 68.
np et Var ( X )
V2
npq .
x 0
x 0
( x P ) 2 p ( x ) ( x np ) 2 nx p x q n x .
193
Une preuve plus simple peut cependant tre obtenue en remarquant que le
nombre X de succs obtenus en n essais peut s'exprimer sous la forme
X = X1 + X2 + + Xn
( 0 u q ) (1u p )
et
Var ( X i )
( 0 p ) u q (1 p ) u p
2
p (1 p ) p (1 p )
p (1 p )( p 1 p )
p (1 p )
pq .
E( X1 X 2 X n )
p p p
E( X1 ) E( X 2 ) E( X n )
np .
tant donn que les essais sont indpendants, les variables X1, , Xn sont
indpendantes, et puisque la variance d'une somme de variables
indpendantes est la somme des variances de chacune des variables, on
obtient
Var ( X )
Var ( X 1 X 2 X n )
pq pq pq
Exemple 7
npq .
On suppose que, dans la population d'une grande ville, 30 % des gens sont
partisans d'une certaine option politique. Lors d'un sondage auprs de 1 000
personnes, X personnes se dclarent en faveur de ce parti politique.
Dterminer E(X) et Var(X).
Les preuves ne sont pas strictement indpendantes, puisque les tirages ne
se font pas gnralement avec remise. Cependant, il s'agit d'une grande ville
et d'un chantillon relativement petit. Donc, l'effet d'un tirage sur la
population est ngligeable, la variable X ici considre est peu prs de loi
B(l 000; 0,3),
194
E(X )
V2
Var ( X )
et l'cart-type V vaut
210
np
1 000 u 0 , 3
npq
300
1 000 u 0 , 3 u 0 , 7
210
= 14,49.
6.3
LOI HYPERGOMTRIQUE
Supposons qu'on prlve un chantillon de taille n d'une population de N
individus, dont une proportion p possde une certaine proprit. Notons par
X le nombre d'individus, dans l'chantillon choisi, qui ont la proprit
considre. Alors X est de loi B(n,p), condition que les tirages soient
indpendants. Les tirages sont indpendants s'ils sont faits avec remise ; et
ils sont peu prs indpendants s'ils sont faits sans remise mais dans une
population beaucoup plus grande que l'chantillon.
Supposons, cependant, que la population n'est pas incomparablement plus
grande que l'chantillon. La loi binomiale ne peut plus tre applique. Une
autre loi, appele loi hypergomtrique, s'applique dans ce cas. Nous
commenons par un exemple qui illustre un cas particulier de la loi
hypergomtrique.
Exemple 8
3
2
195
N1
X d N1
Xt0
X t n N2
N1
x
N2
nx
N
n
N1
x
196
np
Var ( X )
npq
N n
N 1
o p
N1
et q
1 p
Exemple 9
N2
792
4 368
p (1)
1 980
p ( 2)
4 368
1 320
p (3)
4 368
264
p( 4)
4 368
12
4 368
276
4 368
| 0,063 2.
Il semble bien que le propritaire ait menti car la probabilit est bien faible
d'obtenir une aussi grande valeur de X.
On aurait pu se contenter de calculer simplement
P = np = 1,25 et V2 = npq(N n)/(N 1) = 0,687 5 (V = 0,829 2).
6.4
197
LOI GOMTRIQUE
Aux sections 6.2 et 6.3, nous avons considr des expriences constitues
d'un nombre fixe d'essais, chaque essai pouvant donner un succs avec
mme probabilit p. La variable alatoire X est le nombre de succs. Ici, nous
considrons une exprience constitue d'une srie d'preuves indpendantes, mais o c'est le nombre d'preuves qui est alatoire et non le nombre
de succs. L'exprience consiste rpter les essais jusqu' ce qu'un premier
succs soit obtenu.
Si l'on dsigne par X le nombre d'essais effectus pour obtenir ce premier
succs, cette variable X est dite de loi gomtrique : X est Gom(p).
La fonction de masse d'une variable de loi gomtrique est aisment
dveloppe. Si x est un entier positif, l'vnement {X = x} se ralise si et
seulement si les x 1 premiers essais ont produit des checs et le x-ime a
produit un succs. En d'autres termes, p(x) est la probabilit du rsultat
EEEE...EES
x 1 fois
q x 1p,
x 1 fois
o
q
1 p.
pq x 1 pour x
1, 2 , 3 ,
qx
198
et donc
P( X d x)
1 q x .
1 P ( X ! x )
Il n'est pas aussi facile d'tablir les formules pour l'esprance et la variance
d'une variable de loi gomtrique. Ainsi nous les donnons sans justification :
si X est Gom(p), alors
P( X ! x)
pour x 1, 2 , 3 ,
,V
Exemple 10 Une compagnie ptrolire effectue des forages. On suppose que chaque puit
creus a une chance sur 5 de donner du ptrole. Si l'on dsigne par X le
nombre de puits qui doivent tre creuss pour obtenir (enfin !) un hit ,
tracer le diagramme btons de p(x) et calculer P(X > 7). Dterminer aussi
E(X) et Var(X). Dans cet exemple, X est de loi Gom(1/5). Pour x = 1, 2, 3, ,
on a donc p(x) = 15 u ( 54 )x 1.
p (1)
0,2 p ( 2)
0 ,16 p ( 3 )
0 ,128 p ( 4 )
P ( x ! 7)
0 ,102 4 p ( 5 )
(0,8)
0 , 065 536 ,
0 , 081 92 p ( 6 )
0 , 209 715 2.
1
p
5 , Var ( X )
V2
20 et V
20
4 , 472.
0,1
0
0
9 10 11 12 13 14 ...
199
6.5
LOI DE POISSON
Il arrive frquemment qu'on ait considrer le nombre d'vnements qui se
produisent, non pas en un nombre fixe d'essais (ce qui relve de la loi
binomiale) mais plutt durant un certain intervalle de temps. Par exemple, le
nombre d'appels tlphoniques reus par un standardiste entre 10 heures et
11 heures ; ou encore le nombre de crevaisons subies par une flotte de taxis
durant une certaine semaine ; ou le nombre de particules mises, en une
seconde, par une substance radioactive. C'est alors la loi de Poisson, plutt
que la loi binomiale, qui s'applique.
Une variable alatoire X suit une loi de Poisson avec moyenne O (lambda)
si sa fonction de masse est
p( x )
e O Ox
pour x
0 , 1, 2 , 3 ,
x!
200
p ( 0 ) p (1) p ( 2 )
0 , 210 24
p ( 0 ) p (1)
3 0 31
e 3
0!
1
!
0 ,199 15.
Pour connatre la distribution d'une variable alatoire qui suit une loi de
Poisson, il suffit de connatre sa moyenne P = O. La variance V2 s'obtient
aussi directement de O.
Si X est de loi Poisson(O), alors
E(X )
O et Var ( X )
O.
201
p
n
x
(1 p ) n x
par
e O Ox
x!
202
203
RSUM
Loi
B (n, p)
Hpg ( n , N 1 , N 2 )
Gom ( p )
Poisson (O )
Valeurs
p(x)
possibles
0 , 1, 2 , ! , n
0dxdn
n N 2 d x d N1
1, 2 , 3 , !
0 , 1, 2 , 3 , !
n
x
q nx
N1
x
N2
nx
np
npq
np
x 1
e O Ox
npq
N n
N 1
N
n
pq
1
p
q
p
x!
204
EXERCICES
FACTORIELLE
ET
COMBINAISONS
1. Calculez
a) 5!
b) 7!
c) 8!
d) 10!
2. Calculez
5
a)
2
b)
3
c)
4
100
98
d)
1 000
e)
LOI BINOMIALE
b) P(X t 3)
205
dans
l'espace
chantillon
sont-ils
13. La probabilit qu'un radar dtecte un avion ennemi est 0,9. Si cinq de
ces radars sont disponibles, quelle est la probabilit :
a) qu'exactement trois d'entre eux dtectent l'avion ennemi ?
b) qu'au moins un d'entre eux dtecte l'avion ennemi ?
206
LOI
GOMTRIQUE
19. Un couple dcide d'avoir des enfants jusqu' ce qu'il ait un garon.
Quelle est la probabilit qu'il ait 4 enfants ? Quelle est la probabilit qu'il
ait 4 enfants ou plus ? Quelle est l'esprance mathmatique du nombre
d'enfants qu'il aura ?
20. On lance un d jusqu' ce qu'apparaisse la face 6 . Quelle est la
probabilit que le d soit lanc exactement 8 fois ? 8 fois ou plus ?
21. Vous avez besoin de monnaie pour un billet d'un dollar. Si l'on suppose
qu'une personne sur trois peut (et accepte de) vous changer votre billet,
quelle est la probabilit que vous deviez solliciter plus de 4 personnes
avant d'obtenir satisfaction ?
207
DIVERS
208
209
33. Deux quipes de hockey s'affrontent dans une srie 4 dans 7 . L'quipe
A, plus forte, a 2 chances sur 3 de vaincre l'quipe B chacune des
parties. Quelle est la probabilit que l'quipe A gagne la srie ?
34. Deux quipes de hockey, de mme force, s'affrontent dans une srie
4 dans 7 . Soit X le nombre de parties ncessaires la dtermination
de l'quipe championne. Dterminez la fonction de masse p(x), calculez
E(X) et Var(X).
35. On suppose que, dans un certain pays, 50 % des gens sont contre la
peine de mort, 30 % sont pour et 20 % sont sans opinion.
a) Lors d'un petit sondage auprs de 10 personnes, calculez la
probabilit d'obtenir au moins 5 rponses favorables la peine de
mort.
b) Lors d'un sondage, plus ambitieux, auprs de 1 000 personnes,
dterminez l'esprance mathmatique, la variance et l'cart-type du
nombre X de rponses favorables la peine de mort.
c) Convient-il de retoucher les hypothses initiales si, en b, on obtient
X = 250 ? Si l'on obtient X = 315 ?
d) Convient-il de retoucher les hypothses initiales si, avec n = 10, on
obtient X = 4 ? Si, avec n = 1 000 on obtient X = 400 ?
36. Soit a et b deux entiers, a d b et X de loi Gom(p).
Montrez que P(X > b|X > a) = P(X > b a).
37. Une partie liminatoire de hockey oppose les quipes A et B. Durant la
saison rgulire (80 parties), l'quipe A a marqu 320 buts et en a
accord 288 ; l'quipe B a marqu 304 buts et en a subi 256.
a) En supposant que les rsultats de la saison rgulire soient
reprsentatifs des forces relles de chaque quipe, l'offensive
comme la dfensive, combien de points chaque quipe devrait-elle
marquer durant la partie ?
b) Quelle est la probabilit qu'aucun but ne soit marqu durant la
premire priode ?
c) Quelle est la probabilit que l'quipe A marque exactement 2 buts en
premire priode ?
d) Quelle est la probabilit que 6 buts ou plus soient marqus durant la
partie ?
210
211
TOTAL
Nombre de tables
15
15
11
14
15
70
TOTAL
Nombre de jours
12
18
20
13
10
10
92
212
213
si p = 0,10
ii) si p = 0,25.
214
215
7.1
7.2
7.3
7.4
7.5
7.1
217
218
FIGURE 7.1
Fonction de densit
f(x)
x
a
219
f ( x)
1 2 si 1 x 3
0 sinon
220
FIGURE 7.3
1/2
x
1
Cette surface totale est donc 1. Enfin, par un simple argument de symtrie,
on voit que P = 2, le point central du rectangle. Si l'on observait un trs
grand nombre de valeurs de X, on sent bien que les petites valeurs de X
(disons, entre 1 et 2) seraient exactement compenses par des valeurs aussi
nombreuses dans la seconde moiti de l'intervalle. Plus le nombre
d'observations sera grand, plus la moyenne des rsultats obtenus aura
tendance s'approcher du point central P = 2.
i
Exemple 2
f ( x)
2 x si 0 x 1
0 sinon
221
0,4
x
0,2
0,8
On vrifie aisment que la surface totale sous le graphique de f(x) est bien
gale 1 puisque c'est la surface d'un triangle de base 1 et de hauteur 2.
La probabilit cherche, P(0,2 < X < 0,8) est donne par la surface de la
rgion ombre dans la figure 7.4. Cette surface S s'obtient aisment par
simple tois. Quand x varie de 0,2 0,8, la densit f(x) = 2x varie (en ligne
droite) de 0,4 1,6. La surface cherche est donc celle d'un trapze de base
0,6 et de hauteur moyenne (0,4 + 1,6)/2 = 1.
On trouve donc P(0,2 < X < 0,8) = S = 0,6.
On obtient aussi P ( 0 X 0 , 2 )
0,2 u 0, 4
0 , 04
et P ( 0 , 8 X 1) 0 , 2 u
1, 6 2 , 0
0 , 36
P (0,2 X d 0,8 )
P 0,2 d X 0,8)
P (0,2 d X d 0,8 )
0 , 6.
222
7.2
LOI UNIFORME
Une variable alatoire X est dite de loi uniforme sur l'intervalle (a, b) si sa
fonction de densit est :
f (x)
1 ( b a ) si a x b
0
sinon
1/(b a)
x
a
ab
2
, V2
(b a) 2
12
223
Notons enfin que la loi uniforme n'est pas d'application trs frquente ; on la
rencontre dans des situations comme celle de l'exemple suivant.
Exemple 3
E(X)
30 , V 2
Var ( X )
300 , V
1
60
7.3
( 9 ,1 1, 3 )
7,8
0 ,13 , etc .
60
LOI EXPONENTIELLE
Une variable alatoire X est dite de loi exponentielle avec moyenne T > 0
(lettre grecque thta) si sa fonction de densit est :
f (x)
1 x T
si x ! 0
e
T
sinon
0
224
FIGURE 7.6
x
0
Exemple 4
et
Exemple 5
T,
P(X ! x)
V
e
x
pour x t 0.
70
40
e 1, 75
0 ,173 77.
7.4
225
f (x)
( x P ) 2 / 2V 2
V 2S
x
PV
P+V
La fonction de densit d'une variable de loi N(P, V2) est symtrique de part et
d'autre de la moyenne P. L'cart-type V est plus malais visualiser : il
correspond la distance entre l'axe de symtrie (x = P) et l'un ou l'autre des
deux points d'inflexion, c'est--dire des deux points o la courbure change de
sens.
Innombrables sont les exemples de variables normales ou pratiquement
normales. Des mesures analogues prises sur des objets semblables ont en
effet souvent tendance se distribuer selon une courbe en cloche : les
valeurs moyennes sont les plus frquentes et, de part et d'autre de ces
valeurs moyennes, les valeurs extrmes sont, symtriquement, de plus en
plus rares.
226
FIGURE 7.8
N(3, 1)
N(0, 1)
N(4, 1)
x
6
f(x)
0,4
0,3
0,2
0,1
N(1, 4)
N(4, 4)
x
-5
f(x)
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
N(3, 1/4)
N(0, 1/4)
N(5/2, 1/4)
0,1
x
6
227
Si, par exemple, on achte une bote de clous de mme format et qu'on
mesure avec prcision la longueur de chaque clou, on obtiendra plusieurs
mesures, vraisemblablement toutes voisines les unes des autres.
L'histogramme des rsultats obtenus sera semblable celui prsent la
figure 7.9.
Histogramme des longueurs de 160 clous
60
50
50
Effectifs
FIGURE 7.9
39
40
30
30
20
10
15
13
0
47
48
49
50
51
52
53
54
Lecture de la table de la loi N(0, 1). la fin de cet ouvrage, on trouve une
table 3 applicable au cas o P = 0 et V2 = 1. Si Z est une variable alatoire de
loi N(0, 1), la table permet de trouver directement les probabilits de la forme
P(Z > z) o z t 0.
Par exemple, P(Z > 0,84) = 0,200 5. Ce rsultat se trouve l'intersection de la
range correspondant z = 0,8 et de la colonne qui permet de raffiner la
seconde dcimale 0,04.
Tirant profit du fait que la densit de Z est symtrique par rapport zro et
que la surface totale sous la courbe donne 1, la table de la loi N(0, 1) est
suffisante pour solutionner tout problme de la forme P(a < N(0, 1) < b).
228
FIGURE 7.10
0,67
FIGURE 7.11
1,22
surface = 0,200 5
z
0
Exemple 6
0,84
1 P ( Z t 1, 22 ) P ( Z t 0 , 67 )
1 0 ,111 2 0 , 251 4
0 , 637 4.
i
La densit d'une variable N(0, 1) tend trs rapidement vers zro gauche
comme droite. Afin d'illustrer la vitesse de cette convergence, qu'il soit
suffisant d'indiquer que :
P ( N ( 0 ,1) ! 4 , 75 )
229
1
1 000 000
P ( N ( 0 ,1) ! 6 , 00 )
1
1 000 000 000
X P
Exemple 7
bP
aP
P
N ( 0 ,1)
V
V
P
N ( 0 ,1)
500
500
P ( 0 , 60 N ( 0 ,1) 1, 40 )
1 P ( N ( 0 ,1) ! 0 , 60 ) P ( N 0 ,1) ! 1, 40 )
1 0 , 274 3 0 , 080 8
0 , 644 9.
Selon nos calculs, environ 64,5 % des bbs psent donc entre 3 kg et 4 kg.i
230
et
Exemple 8
X Y est N ( P X P Y , V 2X V Y2 ).
On suppose que le poids (en grammes) d'un uf se distribue selon une loi
N(56,20). Quelle est la probabilit que la somme des poids de 12 ufs
dpasse 700 grammes ?
Solution : Le poids total X = X1 + ...+ X12 des 12 ufs est tel que E(X) = E(X1 +
+ X12) = 12 u 56 = 672 et Var(X) = Var(X1 + + X12) = 12 u 20 = 240.
Aussi, X tant une somme de variables normales est de loi normale. X est de
loi N(672,240).
On trouve donc
P ( X ! 700 )
700 672
P N ( 0 ,1) !
240
P ( N ( 0 ,1) ! 1, 807 )
0 , 035 3.
i
Remarque La dernire valeur a t obtenue de la table de la loi N(0, 1) en
interpolant entre les valeurs trouves pour z = 1,80 et pour z = 1,81.
7.5
231
X1, X2, , Xn. Alors, sous certaines conditions, leur somme X = X1 + ... + Xn,
suit approximativement une loi normale, mme si ces variables ne sont pas
normales.
Les conditions voques dans l'nonc du thorme se ramnent
essentiellement l'exigence qu'aucune des variables ne soit indment
prpondrante sur les autres. En d'autres termes, ce thorme affirme que si
l'on additionne un grand nombre de petites composantes indpendantes,
leur somme est une variable X approximativement normale.
C'est ainsi, sans doute, qu'on peut expliquer pourquoi un grand nombre de
phnomnes naturels ont une distribution peu prs normale. On peut
prsumer, par exemple, que la taille des individus d'une espce donne est
rsultante d'un grand nombre de facteurs, hrdit, climat, alimentation,
etc., qu'on peut considrer indpendants.
Nous admettons que ces conditions ne sont pas faciles vrifier dans les
situations o seule la somme X est observe et non les termes X1, X2, , Xn.
C'est pourquoi nous ne pouvons pas tre srs a priori de la normalit d'une
variable telle la taille ; nous pouvons souponner que la taille suit une loi
normale, mais nous sentons en gnral le besoin de faire confirmer ces
soupons par des donnes empiriques. Cependant, dans la plupart des
applications du thorme limite central, les variables X1, , Xn dont X est la
somme ne sont pas des variables vaguement dfinies et peine perues. Ce
sont, au contraire, des variables observables et, de plus, elles sont de mme
loi. Dans des cas comme ceux-ci, il est prfrable d'invoquer une autre
version du thorme limite central dont les hypothses sont plus faciles
vrifier. L'nonc suit.
232
Exemple 10 Supposons que le poids (en kg) des adultes se distribue avec une moyenne
de 64 et un cart-type de 12. Dans un ascenseur, une plaque indique
Capacit maximale : 12 personnes ou 1 000 kg . Si 14 personnes
s'entassent dans l'ascenseur, quelle est la probabilit que leur poids total
dpasse 1 000 kg ?
Solution : Si X est le poids total des personnes dans l'ascenseur, alors X est
approximativement normale, avec
P = 14 u 64 = 896 et V2 = 14 u 144 = 2 016.
233
Alors
P ( X ! 1 000 )
p ( 5 ) p ( 6 ) p ( 7 ) p ( 8 ) p ( 9 ) p (10 )
56 134
0 , 856 54.
65 536
234
On trouve enfin :
P ( 5 d X d 10 ) | P ( 4 , 5 N ( 8 , 4 ) 10 , 5 )
10 , 5 8
4,5 8
P
N ( 0 ,1)
2
2
P ( 1, 75 N ( 0 ,1) 1, 25 )
1 ( P ( N ( 0 ,1) ! 1, 75 ) P ( N ( 0 ,1) ! 1, 25 ))
1 0 , 040 1 0 ,105 6
0 , 854 3.
On constate que cette rponse est trs voisine de la valeur exacte 0,856 54
obtenue prcdemment en utilisant directement la loi binomiale.
Si l'on avait nglig d'effectuer la correction pour la continuit (c'est--dire,
si l'on avait conserv les bornes 5 et 10 plutt que de les porter 4,5 et
10,5), on n'aurait compt qu' moiti la surface des btons extrmes placs
5 et 10, ce qui aurait donn une rponse (0,774 5) trop petite et beaucoup
moins prcise.
i
L'exemple prcdent, et en particulier la figure 7.12, illustre bien
l'importance de la correction pour la continuit. Lorsqu'on fait
l'approximation de la distribution d'une variable discrte par la loi normale,
il convient, si ncessaire, de retoucher les bornes et de les placer mi-chemin
entre l'vnement tudi et son complment.
FIGURE 7.12
10
11
12
13
14
15
16
235
0,2
p(x)
0,18
0,16
0,14
B (16; 0,6)
0,12
0,1
0,08
0,06
0,04
0,02
0
0
10
11
12
13
14
15
16
236
0,35
p(x)
0,3
0,25
B (16; 0,1)
0,2
0,15
0,1
0,05
x
0
0
10
237
Exemple 12 Si l'on suppose que le poids, en grammes, des ufs suit une loi N(56,20),
quelle est la probabilit que le poids moyen de 100 ufs choisis au hasard
soit entre 55 et 57 grammes ?
Ici, X est de loi N(56, 20/100).
On obtient donc que
P ( 55 X 57 )
P ( 55 N ( 56 ; 0 , 2 ) 57 )
55 56
57 56
P
N ( 0 ,1)
0,2
0 , 2
P ( 2 , 24 N ( 0 ,1) 2 , 24 )
0 , 975 0.
i
Exemple 13 Les figures 7.14 et 7.15 illustrent, pour diffrentes valeurs de n, la
distribution de la moyenne X = (1/n)6Xi. On voit clairement que, plus n est
grand, plus la distribution de X s'approche d'une distribution normale.
Dans la figure 7.14, les variables Xi sont de loi Exp(l).
f (x)
e x si x ! 0
0
si x d 0
Dans la figure 7.15, les variables Xi suivent une loi triangulaire double
avec la fonction de densit :
f (x)
1 x si 0 x 1
x 1 si 1 x 2
sinon
0
238
FIGURE 7.14
f(x)
n=1
n=2
0
1
f(x)
f(x)
n=3
n=5
0
1
f(x)
f(x)
n = 10
n = 30
0
1
0
1
f(x)
n=1
n=2
0
1
f(x)
f(x)
n=5
n=3
1
0
1
f(x)
f(x)
n = 10
n = 30
0
1
0
1
239
240
RSUM
La probabilit qu'une variable alatoire continue prenne valeur entre deux
bornes a et b est donne par la surface, entre a et b, sous le graphique de la
fonction de densit f(x).
f(x)
Loi
1
U (a, b)
ba
1
Exp (T )
x T
N ( P ,V )
si x ! 0
e ( x P )
V 2S
2
ab
si a x b
P ( a N ( P ,V ) b )
V2
2V
(b a)
12
T2
V2
bP
aP
P
N ( 0 ,1)
V
V
EXERCICES
VARIABLES
CONTINUES
ET
FONCTION
DE
f (x)
b)
f (x)
1 si 3 x 4
0 sinon
DENSIT
1.
c)
f (x)
2 x si 0 x 1
0 sinon
d)
f (x)
1 2 si 6 x 8
0 sinon
f (x)
2 3 si 1 x 0
1
6 si 0 x 2
0 sinon
f)
f (x)
3 2 x si 0 x 1
4
0 sinon
g)
f (x)
x 2 1 si 1 2 x 3 2
0 sinon
e)
f (x)
1 10 si 2 x 10
0 sinon
1 2 si 0 x 2
0 sinon
241
242
x si 0 x 1
1 2 si 2 x 3
0 sinon
Calculez :
LOI UNIFORME
f)
b) P(X < 4)
c) P(X d 4)
d) P(4 < X d 7)
e) P(4 d X < 9)
f)
i)
LOI
EXPONENTIELLE
P(X > P)
b) P(X t 2)
c) P(X > 5)
e) P(1/5 d X < 5)
f)
g) P(1 d X d 10)
243
LA LOI
NORMALE
9.
f)
i)
j)
f)
i)
j)
244
11. Soit X une variable alatoire de loi N(0, 1). Dterminez c tel que :
a) P(X > c) = 0,1
f)
i)
j)
12. Soit X une variable alatoire de loi N(10, 16). Dterminez c tel que :
a) P(X > c) = 1 %
b) P(X < c) = 90 %
c) P(X = 54)
f)
14. Dans un certain cours, une note finale de 80 % assure un A. Une note de
70 79 donne un B, une de 60 69 un C, une de 50 59 un D et une
note infrieure 50 mrite un E.
Les notes des tudiants se conforment une loi N(68, 225). Quelles
proportions des tudiants devraient avoir un A ? un B ? un C ? un D ?
un E ?
15. Si X est une variable alatoire normale, quelle est la probabilit qu'elle se
situe :
a) moins d'un cart-type de la moyenne ?
b) moins de deux carts-types de la moyenne ?
c) moins de trois carts-types de la moyenne ?
d) Comparez la probabilit obtenue en b) et c) avec la borne fournie par
l'ingalit de Tchebychev.
245
16. Les scores d'une population dans un test d'aptitudes sont distribus
normalement avec moyenne P = 60 et cart-type V = 8. Si votre score est
de 76 :
a) Quelle est votre cote Z ?
b) Quel pourcentage de la population a un score suprieur au vtre ?
c) Quel pourcentage de la population a un score entre 44 et 76 ?
d) Quel pourcentage de la population a un score infrieur 40 ?
17. Soit X et Y deux variables alatoires indpendantes, X de loi N(110, 25),
Y de loi N(100, 35). Calculez
a) P(X + Y < 195)
THORME
LIMITE
c) P(X d 98)
e) P(98 d X d 114)
f)
CENTRAL
19. Le poids des pches dans un certain lot est de moyenne 127 grammes et
d'cart-type 20 grammes. Quelle est la probabilit que le poids total de
16 pches soit suprieur 2 200 grammes ?
DIVERS
cx si 0 x 5
0 sinon
246
b) n = 25
c) n = 35
d) n = 50
25. Soit X une variable alatoire de loi Exp(T). Quelle est la valeur de T si
P(X > 5) = 0,2 ?
26. Un cultivateur sme des graines de haricot par rangs de 100 graines. On
suppose que 80 % des graines germeront.
a) Quel est le nombre moyen de plants obtenus par rang ?
b) Quelle est la variance du nombre de plants obtenus dans un rang ?
c) Quelle est la probabilit qu'un certain rang contienne plus de
85 plants ?
d) Quelle est la probabilit qu'un certain rang contienne moins de
70 plants ?
e) Le cultivateur a sem 20 000 rangs de haricots. Combien de ces
rangs devraient, normalement, contenir moins de 70 plants ?
f)
27. Lorsqu'une machine est rgle pour mettre P grammes de petits pois
dans des botes de conserve, elle n'en met pas exactement P grammes. Le
poids rel du contenu varie selon une loi normale de moyenne P et
d'cart-type V grammes.
247
248
249
36. Le diamtre intrieur (en millimtres) d'un cylindre est une variable de loi
N(10; (0,001)2). Le diamtre d'un piston est de loi N(9,995; (0,002)2).
Quelle est la probabilit qu'un cylindre et un piston s'accordent s'il faut
que le cylindre soit plus grand que le piston et qu'il n'y ait pas plus de
0,01 mm d'cart entre les deux diamtres ?
37. Supposez que la dure en heures d'une ampoule est de loi exponentielle
avec T = 1 000.
a) Utilisez le thorme limite central pour calculer la probabilit que la
dure moyenne de 300 ampoules soit infrieure 1 100 heures.
b) Calculez approximativement la probabilit que 130 ampoules ou plus
dans un chantillon de 300 aient une dure de plus de 1 000 heures.
38. Soit X une variable de loi exponentielle. Montrez que P(X > 3 | X t 2)
= P(X > 1). Plus gnralement, si a < b, montrez que P(X > b | X t a)
= P(X > b a). Interprtez.
39. Un marchand assume la garantie d'un an qui accompagne la vente d'une
certaine pice lectronique, ayant reu du fabricant l'assurance que la
dure de vie de ces pices est de 2 ans en moyenne. Aprs quelque
temps, il constate que sur 100 pices vendues, il a d en remplacer 40,
un nombre qui lui semble excessif et lui fait douter de l'affirmation du
fabricant. Supposez que le fabricant dit vrai et que la dure de vie est de
loi exponentielle.
a) Dterminez l'esprance du nombre de pices qui doivent tre
remplaces.
b) Calculez la probabilit d'avoir 40 pices ou plus remplacer. Vous
semble-t-il encore vraisemblable que la dure moyenne de vie soit de
2 ans ?
40. Le contenu moyen P des botes de sauce aux tomates produites dans une
usine peut varier d'un lot l'autre, mais nous admettrons que
l'cart-type reste fixe environ 4 ml.
a) Si, pour un lot donn, P = 200 ml, quelle est la probabilit que la
moyenne d'un chantillon de 10 botes soit infrieure 198 ml ?
b) Ne connaissant pas la valeur de P, on contrle un lot de production
en prlevant un chantillon de taille 10. Quelle est la probabilit que
la moyenne de l'chantillon s'carte de P de plus de 1 ml ?
250
251
Estimation
8.1
8.2
8.3
8.4
8.5
Estimation ponctuelle
Estimation par intervalle de confiance
Estimation d'une proportion
Estimation d'une moyenne
Cas gnral
Cas o les observations sont de loi normale
Estimation d'un paramtre T quelconque
RSUM
EXERCICES
8 Estimation
8.1
253
ESTIMATION PONCTUELLE
Si l'on veut connatre la proportion relle des gens qui, dans une ville, une
province ou un pays entier ont une certaine caractristique donne, il est
habituellement hors de question d'interroger un un tous les individus
composant la population : ce serait trop long, trop coteux. On se contente
alors d'analyser une partie seulement de la population : un chantillon. Si
l'chantillon est convenablement choisi, il devrait reflter assez fidlement les
qualits de la population entire ; la proportion des gens qui, dans
l'chantillon, possdent la caractristique donne (proportion exprimentale)
devrait tre voisine de la proportion relle pour la population entire
(proportion thorique).
Plus prcisment, si l'on note p la proportion relle (inconnue) qu'on veut
estimer, si l'on note n la taille de l'chantillon (c'est--dire : le nombre
d'individus considrs) et si l'on note X le nombre d'individus qui, dans
l'chantillon, possdent la caractristique qui nous intresse, on a, en supposant la population pratiquement infinie, que X est de loi B(n, p).
La proportion exprimentale de succs sera note
p pour bien la
n
p est un estimateur de p, c'est--dire une quantit, issue des rsultats
254
E(
X)
E( X )
np
p.
Var (
1
n
X)
1
n
Var ( X )
npq
n
pq
On remarque que plus n est grand, plus la variance de p , pq/n, est petite et,
par consquent, plus l'estimation sera prcise, conformment ce que
l'intuition nous a dj permis d'affirmer.
Un autre paramtre relativement facile estimer est la moyenne (thorique)
P d'une loi normale. L'estimateur naturel de P est la moyenne exprimentale
obtenue d'un chantillon X1, X2, ..., Xn de taille n. On montre aisment que
X est sans biais pour P. En effet,
8 Estimation
E( X )
255
1
E ( 6X i )
n
1
n
E ( 6X i )
1
n
6E ( X i )
( P P ... P )
nP
P.
1
Var ( 6X i )
n
1
n2
Var ( 6X i )
1
n2
(V 2 V 2 ... V 2 )
n2
nV 2
V2
Plus n est grand, plus la variance de X , V2/n, est petite, ce qui est en accord
avec notre intuition : plus nombreuses sont les observations, meilleures sont
les chances que X soit prs du P.
Exemple 2
5,7
6,4
6,7
8,2
6,0
5,8
8,3
2 1 000 = 0,045 et
8.2
256
1D.
8 Estimation
8.3
257
V p
pq
p est
2
p
est N ( 0 ,1).
V p
Ayant convenu d'un risque D donn, on peut trouver, dans la table de la loi
N(0, 1), un nombre cD, tel que
P ( cD
p p
V p
cD ) | 1 D .
pq n est fonction de
258
Cette difficult est heureusement facile lever. Il suffit d'estimer son tour
la variance thorique V 2p
pq n par la valeur prise par son estimateur
naturel
V 2p
p q
( p r cD
p q n )
Lors d'un sondage auprs de 500 personnes et portant sur leurs opinions
politiques, 180 personnes se sont dclares favorables au parti A. Estimer la
proportion thorique p des gens favorables au parti A au moyen d'un
intervalle de confiance de niveau 90 %.
Solution : On a p = X/n = 180/500 = 0,360.
Aussi, pour avoir D = 10 %, on doit prendre cD = 1,645.
Il ne reste plus qu' employer la formule
p r c
D
p q
n
0 , 360 r 1, 645 0 , 36 u 0 , 64
500
( 0 , 360 r 0 , 035 )
( 0 , 325; 0 , 395 ).
i
8 Estimation
259
l'intervalle de confiance. Une fois calcules, ces bornes ne sont plus des
variables alatoires. Il n'y a plus de hasard ! Prtendre que le paramtre p a
9 chances sur 10 d'tre situ entre tel et tel nombres donns est une
formulation fautive qui laisse entendre que p est une variable alatoire, ce qu'il
n'est pas. Rendu lgitime par l'usage, cet abus de langage est habituellement
tolr.
Remarque La formule que nous utilisons ne donne que des intervalles de
confiance symtriques, c'est--dire, qui partagent le risque D en deux moitis
gales. Le vritable p a donc une probabilit D/2 de se trouver droite de
l'intervalle (erreur de sous-estimation) et une probabilit D/2 de se trouver
gauche de l'intervalle (erreur de surestimation). Il peut arriver qu'on prfre
partager le risque total D de faon non symtrique. Nous ne traiterons pas de
ce cas ici et chaque fois qu'on parlera d'un intervalle de confiance, celui-ci sera
implicitement suppos symtrique.
Remarque Lorsqu'on estime un paramtre au moyen d'un intervalle de
confiance, deux qualits espres, prcision et scurit, sont en opposition.
On ne peut amliorer l'une sans diminuer l'autre. Si l'on exige beaucoup de
scurit (risque D trs petit), on obtiendra un intervalle de confiance plus large
que si l'on se contente d'une scurit plus raisonnable. Si l'on veut beaucoup
de prcision (intervalle troit), il faudra payer cette prcision par un risque
d'erreur plus considrable. La seule faon d'obtenir la fois une bonne
prcision et une grande scurit est de ne pas lsiner sur la valeur de n, ce qui
n'est pas toujours conomique.
Exemple 4
260
TABLEAU 8.1
D
cD
Intervalle de confiance
Longueur
50 %
0,674
0,06
10 %
1,645
(0,14; 0,28)
0,14
5%
1,960
0,16
1%
2,576
(0,11; 0,31)
0,20
0,1 %
3,291
(0,08; 0,34)
0,26
0 , 700 / n .
8 Estimation
261
Combien d'observations doit-on effectuer afin que, quelle que soit la valeur de
p, l'intervalle de confiance de niveau 95 % pour p soit de rayon au plus
0,05 ? 0,03 ? 0,02 ? 0,01 ?
Solution : Le rayon de l'intervalle de confiance de niveau 95 % est
1, 960 p q / n .
Or, la valeur maximale possible pour p q est 1/4 (quand p = q = 1/2 Quelle
que soit la valeur de p , le rayon maximum de l'intervalle de confiance gale
r max
1, 960
4n
0 , 98
262
8.4
V 2 n et le
X P cD V
) | 1 D .
L'intervalle ( X r c D V X ) ( X r
cD V
P X cD V
) | 1 D.
(Xi
n
E (( X P ) 2 ) pourrait
P )2 .
i 1
(Xi
i 1
X )2 .
8 Estimation
263
V 2
(Xi
n 1
X )2 .
i 1
6X i2 nX 2
n 1
n 2
2
X X .
n 1
Revenons l'estimation de P.
On a dj tabli que l'intervalle ( X r c D V X ) ( X r c D V
n ) a une probabilit
par V X
n ) on
( X r c D V
n)
TABLEAU 8.2
Nombre de
passagers
Effectif
TOTAL
230
248
117
76
14
688
264
n)
( 2 ,135 r 0 , 081)
( 2 , 054 ; 2 , 216 ).
Cas o les observations sont de loi normale Pour estimer, par intervalle de
confiance, la moyenne thorique P d'une loi quelconque non spcifie, nous
venons d'utiliser le fait que, pour n grand,
X P
V
et
X P
V
Si l'chantillon Xl, X2, ..., Xn est form de variables qui sont dj de loi
normale, on peut faire beaucoup mieux : on peut obtenir, pour P, un
intervalle de confiance exact plutt qu'approximatif, mme pour des valeurs
de n qui sont petites.
Dans le cas o les variables Xl, X2, ..., Xn sont de loi normale, on sait que
leur moyenne X est aussi de loi normale et que
X P
V
Il s'agit d'une nouvelle loi, la loi de Student, et c'est dans une table conue
pour cette loi que sera trouve la valeur de cD, telle que
8 Estimation
X P
P cD
cD
V X
265
1D.
Comme c'tait le cas pour la loi F Q2 , la loi de Student, note tQ, est
paramtrise par un nombre de degrs de libert Q. Ici, Q = n 1. La loi tQ
ressemble beaucoup la loi N(0, 1). En fait, quand Q est grand, ces deux lois
s'avrent pratiquement identiques.
Le risque D tant convenu, le nombre cD, tel que P(tQ > cD) = D/2 sera trouv
dans la table 4 de la page 399 l'intersection de la ligne correspondant Q
et de la colonne correspondant D/2. Ce nombre cD ayant t obtenu de la
table de la loi de Student, on a alors
P ( cD V X X P cD V X )
1D.
1D.
( X r cD V X )
c V
X r D
266
Exemple 8
On veut connatre le temps moyen que dure une face de disque microsillon.
Ayant chronomtr 5 disques (10 faces), on a obtenu les rsultats suivants
(en minutes) :
17,5
22,4
18,6
24,3
19,5
21,6
15,9
20,4
18,7
20,3
Les
donnes
exprimentales
donnent
6X i
199,2
et
X r D
19 , 92 r 1, 833 5 , 995 1
10
(19 , 92 r 1, 42 )
(18 , 50 ; 21, 34 ).
Avec l'abus de langage habituel, il y a donc 90 chances sur 100 que la
vritable valeur de P se trouve entre 18,50 et 21,34.
8.5
T r c V
D
Dans la grande majorit des cas, l'estimation d'un paramtre T pour une loi
quelconque se fait de la mme faon. Il suffit de trouver un estimateur
8 Estimation
267
p q / n .
Si, pour n grand, l'estimateur T se comporte normalement (ce sera le cas, par
exemple, s'il est fonction de la somme des Xi), la formule gnrale
(T r cD V ) fournira l'intervalle de confiance dsir.
T
Exemple 9
T 2 n
( X r cD X
n).
Exemple 10 Soit X1, X2, , Xn un chantillon de loi Poisson (O). Dterminer la formule
donnant l'intervalle de confiance pour O.
Solution : Puisque E(Xi) = O, l'estimateur naturel utiliser est O X , qui est
sans biais pour O. Puisque Var(Xi) = O, la variance de X est V X2 O n , qui
peut tre estime par V X2
de confiance ( O r cD V O )
O n
( X r cD
268
RSUM
Qualits d'un bon estimateur ponctuel :
a) tre sans biais pour le paramtre considr.
b) Avoir une petite variance.
Intervalle de confiance : Couple de variables (Y1, Y2), obtenues de l'chantillon,
tel que P(Y1 < paramtre < Y2) = 1 D.
Loi
Paramtre
Intervalle de
estim
confiance
p q
Binomiale (n grand)
( p r cD
(X r
Loi normale
(solution exacte)
(X r
Loi quelconque
(n grand)
(T r cD V T )
2
V
n
c D V
n
c D V
n
6( X i X )2
6X i2 nX 2
n 1
n 1
n 1
Source du cD
Loi N(0, 1)
Loi tQ de Student
avec Q = n 1
Loi tQ de Student
avec Q = n 1
Loi N(0, 1)
( X 2 X 2 ).
EXERCICES
ESTIMATION
PONCTUELLE
1. Soit X1, X2, ..., Xn un chantillon de loi Exp(T). Montrez que la moyenne X
est un estimateur sans biais pour T et que sa variance est T 2 n .
2. Soit X1, X2, ..., Xn un chantillon de loi Poisson(O). Montrez que la
moyenne X est un estimateur sans biais pour O et que sa variance est
O/n.
8 Estimation
269
X 1 , T2
( X 1 X 2 ) 2 , T3
5X1 4 X 2 .
ESTIMATION D'UNE
PROPORTION
270
ESTIMATION D'UNE
MOYENNE
10. Un archer a tir 20 flches vers une cible. Selon la prcision du tir,
chaque flche donne plus ou moins de points. En ses 20 lancers, l'archer
a obtenu une seule fois 5 points, 3 fois 3 points, 7 fois 2 points, 7 fois 1
point, et a rat 2 fois la cible (aucun point). Estimez, par un intervalle de
confiance de niveau 90 %, la moyenne thorique P de points qu'il obtient
chaque tir.
11. Un leveur de lapins veut connatre le nombre moyen P de lapereaux qui
sont produits par porte. Au cours des quelques derniers mois, 240
lapines ont mis bas, donnant, en moyenne 6,13 lapereaux, avec un
cart-type de 1,31. Estimez P au moyen d'un intervalle de confiance de
niveau 95 %.
12. Un fabricant de pneus d'automobile veut connatre la qualit de sa
production. Dix pneus ont t soumis des preuves de rsistance
l'usure. Les rsultats (en milliers de kilomtres parcourus) sont
95, 108, 86, 92, 94, 101, 79, 89, 91 et 96.
Calculez un intervalle de confiance de niveau 90 % pour la dure
moyenne d'un pneu.
13. Un organisme de protection du consommateur tudie la qualit de
diffrentes marques de piles de lampe de poche. Plusieurs piles ont t
soumises une mme preuve o l'on mesurait leur temps de service.
12 piles de marque A ont dur en moyenne 3,42 heures, avec un
cart-type de 0,39.
8 piles de marque B ont dur en moyenne 4,16 heures, avec un
cart-type de 0,82.
2 piles de marque C ont dur en moyenne 4,02 heures, avec un
cart-type de 1,04.
30 piles de marque D ont dur en moyenne 2,95 heures, avec un
cart-type de 0,53.
Calculez un intervalle de confiance de niveau 90 % pour chaque
moyenne.
ESTIMATION D'UN
PARAMTRE T
QUELCONQUE
8 Estimation
271
*15. Soit X une variable alatoire de loi B(n, p) o p est connu. On veut
estimer le nombre d'essais n. L'estimateur naturel est n X p , qui est
sans biais.
a) Dterminez la formule donnant l'intervalle de confiance pour n.
b) En n lancements d'un d, la face 6 a t obtenue 25 fois. Estimez n
au moyen d'un intervalle de confiance de niveau 90 %.
*16. Une assemble de 300 personnes vote pour se dsigner un prsident.
Deux candidats, A et B, sont en lice. Aprs dpouillement partiel de 200
bulletins de vote (parmi 300), on constate que A a reu 106 votes et B en
a eu 94. Estimez, au moyen d'un intervalle de confiance de niveau 90 %
le nombre total de votes qui iront au candidat A. (Suggestion : utilisez
l'approximation normale pour la loi hypergomtrique).
DIVERS
17. Soit X1, X2, ..., Xn un chantillon de loi U(0, T). On pose T 2 X . Cet
estimateur est-il sans biais pour T ? Quelle en est la variance ? Cet
estimateur n'est pas le meilleur (voir problme 22).
T2
V T2 est minimise.
( V 2 V 2 ) , que
T1
T2
272
*22. Soit X1, X2, ..., Xn un chantillon alatoire de loi uniforme U(0, T). Posons
Y = max{ X1, X2, ..., Xn }.
a) Utilisant le fait que E(Y) =
n
T
n 1
nT
( n 1 ) 2 ( n 2 )
398
398
397
401
394
399
397
399
396
401
398
400
399
402
398
397
394
401
398
8 Estimation
273
0,62
0,58
0,54
0,56
0,52
0,53
0,59
0,63
0,61
TABLEAU 8.3
X (poux)
Y (pouse)
X (poux)
Y (pouse)
X (poux)
Y (pouse)
37
32
39
28
61
55
65
64
25
22
43
42
23
23
40
43
52
47
36
37
45
39
34
33
54
51
31
30
48
51
274
Tests d'hypothses
9.1
9.2
9.3
9.4
9.5
276
9 Tests d'hypothses
277
T0
cart trop grand entre T et T 0
278
x
ou bien rejettera H0 et conclura que les botes sont trop lourdes ou trop
lgres ; peut-tre fera-t-il recalibrer la chane de production (ou rcrire
les tiquettes ... ). Dans tous les cas, s'il se trompe il occasionnera la
compagnie des frais inutiles ; c'est cette erreur qui a probabilit D ;
x
ou bien ne rejettera pas H0 et conclura que le poids marqu est vraisemblablement correct. Il risque alors de continuer inonder le march de
botes trop lourdes (pertes importantes) ou trop lgres, abusant de la
bonne foi des consommateurs. La probabilit de ce type d'erreur n'est
pas contrle.
9.1
Exemple 1
9 Tests d'hypothses
n ( p p 0 )
279
p0 q 0
L'hypothse nulle sera rejete si Z est trop grand ou trop petit, c'est--dire si
Z est hors de l'intervalle (cD, cD) o cD est tel que P(cD < N(0, 1) < cD = 1-D.
H0 est rejete si |Z| ! cD ;
H0 est accept si |Z| d cD.
cD
H0 est accepte si | p p 0 | d
Exemple 2
p0 q 0
n
cD
p0 q 0
p0 q 0 / n
0 , 065 .
Puisque | p p0| = |0,15 0,25| = 0,10 > 0,065, on doit rejeter l'hypothse
nulle. En conclusion, la proportion vritable de gauchers n'est pas 25 % ;
elle est vraisemblablement plus petite.
i
Remarque L'hypothse nulle H0 : p = p0 peut aussi tre teste au moyen de
2
2
F
6 (O T ) / T . Dans l'exemple 2, on a O1 = 18, O2 = 120 18 = 102,
T1 = 120p0 = 30, T2 = 120q0 = 90 et on trouve F2 = 6,4. On peut montrer que F2
est algbriquement quivalent au carr de Z = ( p p0)/ p 0 q 0 / n et observer
que le point critique pour F2, 2,706, est exactement le carr du point critique
utilis pour Z, soit 1,645. Les deux tests sont donc rigoureusement
quivalents.
280
pq / n , a t approxim par
p 0 q 0 / n . Il peut
donc arriver que, dans certains cas o la dcision est serre, les deux
mthodes ne mnent pas rigoureusement la mme conclusion.
9.2
Exemple 3
Dans son dition du 30 mars 1987, la revue TIME rapportait les rsultats
d'une tude effectue par des chercheurs de l'Universit du Maryland et de
l'Universit de Pennsylvanie et qui portait sur le taux de mortalit de
92 patients atteints de troubles cardiaques srieux. 53 de ces patients
possdaient un animal familier (chien, chat, poissons rouges, ... ) ; 3 de ces
patients ont survcu moins d'un an. Parmi les 39 patients qui ne
possdaient pas d'animal familier, 11 sont dcds durant la mme priode
d'un an. Les probabilits de dcs sont-elles gales pour les deux groupes ?
Les rsultats exprimentaux donnent p = 3/53 = 0,057 pour ceux qui
possdent un animal et p = 11/39 = 0,282 pour ceux qui n'en ont pas.
Compte tenu des tailles des deux chantillons, l'cart est-il significatif ?
Nous y reviendrons plus loin, quand nous aurons dvelopp un test qui
permettra de rpondre cette question.
i
9 Tests d'hypothses
281
H0 : pX = pY.
et
pX qX
nX
pY q Y
nY
V p2 ) ,
Y
p X p Y ( p X pY )
V p2
V p2
estimes par V p2
grands,
p X q X / n X et V p2
p Y q Y / n Y et on obtient, si nx et ny sont
282
p X p Y ( p X pY )
V p2
V p2
p X p Y
V p2
p X p Y
2
V p
p X q X
nX
p Y q Y
nY
p X p Y
p X q X
nX
0 , 057 0 , 282
p Y q Y
2 , 86 .
0 , 001 01 0 , 005 19
nY
Cas o les donnes sont apparies Il arrive parfois que les donnes soient
prleves de telle sorte qu'on doive tester l'hypothse H0 : pX = pY d'une autre
faon. Ce sera le cas, par exemple, si les donnes sont apparies,
c'est--dire, si c'est le mme chantillon qui a servi estimer chacune des
deux proportions pX et pY .
Exemple 5
9 Tests d'hypothses
283
serait incorrect d'utiliser le test prcdent qui n'est valide que si les
estimateurs pX et pY sont indpendants, ce qui n'est pas le cas ici , car c'est
le mme chantillon de foyers qui a servi estimer pX et pY. Intuitivement,
les familles riches ont beaucoup de chances de possder les deux
appareils alors que les familles pauvres ont beaucoup de chances de n'en
possder aucun. Pour un foyer tir au hasard, les deux variables qualitatives
possder un four micro-ondes et possder un magntoscope sont
sans doute dpendantes.
La probabilit pX qu'un foyer possde un four micro-ondes est la somme de
deux composantes :
pX = P(possder les deux appareils) + P(four et pas de magntoscope).
De mme, on a
pY = P(possder les deux appareils) + P(magntoscope et pas de four).
L'hypothse nulle H0 : pX = pY peut donc tre reformule d'une autre faon :
H0 : P(four et pas de magntoscope) = P(magntoscope et pas de four).
Pour tester H0, nous ne considrons donc que le sous-chantillon form des
foyers qui possdent un des appareils et ne possdent pas l'autre et nous
allons tester si, parmi ces foyers particuliers, la probabilit p qu'il soit du
type four et pas de magntoscope est gale 1/2. L'hypothse nulle H0 :
pX = pY est devenue H0 : p = 1/2 et l'chantillon a t rduit aux seuls foyers
qui ne possdent qu'un des deux appareils.
Le tableau suivant indique la distribution conjointe des deux variables, pour
les 773 foyers formant l'chantillon :
Pas de magntoscope
Magntoscope
TOTAL
Four M.-O.
TOTAL
231
64
295
40
438
478
271
502
773
284
104 ( 0 , 615 0 , 5 ) / 1
2 , 35 .
Puisque |Z| > cD, l'hypothse nulle est rejete et on conclut que plus de
foyers possdent un four micro-ondes qu'un magntoscope. Remarquons
que si l'on avait (erronment) fait comme si pX et pY taient indpendants, on
aurait obtenu
Z
( p X p Y ) / p X q X / n X p Y q Y / n Y
1, 27
9.3
H0 : P
P0
X P
V
o V 2
1
n 1
X P
V / n
Nous savons aussi que, si les observations X1, X2, .... Xn sont de loi normale,
X P
V
X P
V / n
9 Tests d'hypothses
285
Mme si les variables X1, X2, .... Xn ne sont pas rigoureusement de loi
normale, il est prfrable d'utiliser quand mme la loi de Student (plutt que
la loi normale) car elle conduit gnralement des rsultats plus prs des
valeurs exactes. C'est ce que nous ferons dans toute la suite en traitant le
cas d'un chantillon de loi non spcifie comme s'il s'agissait d'un
chantillon de loi normale et en laissant sous-entendu que si l'chantillon
est vraiment de loi normale, les rsultats seront exacts, mme pour les
petites valeurs de n.
Si l'hypothse H0 : P = P0 est vraie, on peut donc considrer que, si n est
assez grand, la variable
X P0
V
X P0
V / n
L'hypothse nulle sera rejete si T est trop grand ou trop petit, c'est--dire si
T est hors de l'intervalle (cD, cD) o cD est tel que P(cD < tn1 < cD) = 1 D.
H0 est rejete si |T| > cD.
H0 est accepte si |T| d cD.
Cette procdure peut aussi tre prsente sous la forme :
H 0 est rejete si | X P 0 |
c D V
H 0 est accepte si | X P 0 |d
Exemple 6
n
c D V
286
n ( X P0 )
10 ( 8 , 07 7 , 7 )
1, 392.
0 , 840 7
9.4
Exemple 7
PY .
On sait que si les tailles nx et ny des chantillons sont grandes, les moyennes
exprimentales X et Y sont approximativement de lois N ( P X , V X2 n X ) et
N ( P Y , V Y2 n Y ) , respectivement. X et Y tant indpendants, on obtient que
9 Tests d'hypothses
2
2
V
V
X Y est approximativement de loi N P X P Y , X Y
nX
nY
287
nX
V Y2
nY
Si l'hypothse H 0 : P X
PY
PY )
qui parat au
nX
V Y2
nY
X Y
V X2
nX
V Y2
nY
L'hypothse nulle sera rejete si Z prend une valeur trop grande ou trop
petite, c'est--dire, si Z est hors de l'intervalle (cD,cD) o cD, est tel que
P(cD < N(0, 1) < cD) = 1 D.
H0 est rejete si |Z| > cD.
H0 est accepte si |Z| < cD.
Cette procdure peut aussi tre prsente sous la forme
288
H0 est rejete si | X Y | ! c D
H0 est accepte si | X Y | d c D
Exemple 8
2
V X
nX
V X2
nX
2
V Y
nY
V Y2
nY
( X Y )
V 2 / n X V 2 / n Y
X
1, 9
0 ,145 8 0 , 253 1
3 , 01 .
Puisque |Z| > cD, l'hypothse nulle est rejete. Les poules de l'espce B
pondent des ufs significativement plus lourds que celles de l'espce A.
b) On trouve maintenant Z
1, 9
2 , 247 2 0 , 684 5
Cas o les variances sont supposes gales Il arrive frquemment qu'il soit
naturel de supposer que les variances inconnues V 2X et V Y2 sont gales. Ce
sera le cas, par exemple, si l'on veut tester l'efficacit d'un engrais agricole,
d'un mdicament, d'un traitement particulier. On peut alors supposer que
l'engrais ou le mdicament n'agit que sur la moyenne de la variable mesure,
ne fait que dplacer la courbe des donnes sans en affecter la dispersion.
9 Tests d'hypothses
289
N P X P Y , V 2 ( n1
X
1
nY
) . Si H 0 : P X
X Y
V
1
nX
P Y est vraie,
V 2
n X nY 2
6 ( X i X ) 2 6 (Y i Y ) 2
n X nY 2
6X i2 n X X 2 6Y i 2 n Y Y
n X nY 2
On peut montrer que cet estimateur est sans biais pour V 2 . On peut aussi
montrer que si les observations Xi et Yi sont de loi normale (et si H0 est vraie),
X Y
T
V
1
nX
n x nY 2.
290
X Y
n X nY
n X nY
L'hypothse nulle sera rejete si T prend une valeur trop grande ou trop
petite, c'est--dire, si T est hors de l'intervalle (cD,cD) o cD est tel que
P ( cD t n
nY 2
cD
1 D .
Un jardinier amateur veut savoir si l'engrais qu'il utilise pour ses plants de
tomates est vraiment efficace. Pour ce faire, il a priv d'engrais 2 de ses
plants de tomates, choisis au hasard en dbut de saison, et n'a donn de
l'engrais qu'aux 6 autres plants. Au moment de la cueillette, il a pes la
production de chaque plant.
Les plants sans engrais ont fourni respectivement 12,3 et 13,6 kg de
tomates. Pour les plants traits l'engrais, les rsultats, en kilogrammes,
ont t : 14,1, 12,8, 15,1, 13,7, 13,4 et 15,4.
En supposant que l'engrais n'agit que sur P sans affecter V, tester, avec
D = 10 %, l'hypothse selon laquelle l'engrais n'a aucun effet.
Solution : Notant par X les productions des plants sans engrais et par Y
celles des plants traits l'engrais, on trouve :
nX
2, X
12 , 95 , V X2
0 , 845 , n Y
6, Y
14 , 08 , V Y2
1, 006
9 Tests d'hypothses
291
Cas o les donnes sont apparies Il est souvent avantageux par exemple,
quand on veut savoir si un certain traitement a un effet rel ou non
d'utiliser les mmes units statistiques (les mmes individus) pour mesurer
sur chacun la fois X et Y, la valeur avec traitement et la valeur sans
traitement.
Les deux chantillons sont alors ncessairement de mme taille (nx = ny = n)
et l'hypothse selon laquelle le traitement est sans effet est H0 : PX = PY .
Dans un tel contexte exprimental, chacun des chantillons X1, X2, , Xn, et
Y1, Y2, , Yn, est bien form de variables indpendantes entre elles mais,
d'un chantillon l'autre, la condition d'indpendance n'est plus satisfaite.
La mesure Xi et la mesure Yi provenant toutes deux du mme individu, tout
porte croire qu'elles seront vraisemblablement lies l'une l'autre. Pour
tester H0 : PX = PY, il est donc hors de question d'utiliser les tests qui
viennent d'tre dvelopps, qui ne sont valides que si les deux chantillons
sont indpendants l'un de l'autre. Quand les donnes sont apparies, le test
qu'il convient d'appliquer est, en fait, plus simple que celui qui suppose
l'indpendance : il suffit de calculer, pour chaque individu, l'effet du
traitement
Wi = Xi - Yi
H0 : PW = 0
292
V W
o V W2
2
( 6W i nW
nW
V W
) ( n 1) , puis
10
78
70
90
81
55
68
76
60
73
74
78
69
92
83
55
72
74
63
74
76
On trouve 6W i
T
nW V W
11, 6W i 2
0
43 , W
4
2
1,1, V W
2
3 , 433 , V W
1, 877 .
9 Tests d'hypothses
9.5
293
T T
V
T T 0
V
o V
294
O O 0
X et V 2
O
V 2X
O n . Si H0 est vraie,
O0 n
Il ne reste plus qu' voir si |Z| > cD, puis dcider, selon le cas, de rejeter ou
d'accepter l'hypothse nulle.
Dans notre exemple, n = 50, O0 = 2,3 et 6Xi = 91, ce qui donne O = X = 91/50 =
1,82 et Z - (1,82 2,3)/ 2, 3 50 = 2,24. Avec D = 5 %, on a cD = 1,96 et
Test sur l'galit de Tx et Ty Encore une fois, la loi est spcifie et on compare
deux populations pour savoir si, chez chacune, le paramtre T a la mme
valeur. On dispose de deux chantillons indpendants X1X, X2, ..., Xn et Yl,
Y2, ..., YnY, qui fournissent les estimateurs T X et TY . On suppose que ces
deux estimateurs sont approximativement de lois
N T X , V 2 et N T Y , V 2
TY
TX
9 Tests d'hypothses
295
T X TY (T X T Y )
V 2
TX
V
2
T
T X TY (T X T Y )
V 2
TX
o V 2
TX
V 2
TY
est l'estimateur de V 2
TX
TY
est obtenu de
faon analogue).
Si l'hypothse nulle H0 : TX = TY est vraie, le terme Tx Ty disparat et on
obtient que
T X TY
V 2
TX
2
V
TY
Il ne reste qu'
296
Exemple 12 On suppose que la dure de vie (en heures) d'une certaine pice de
machinerie se distribue selon une loi exponentielle, que 10 pices de marque
A, mises l'preuve, ont dur, en moyenne, 8,4 heures et que 15 pices de
marque B ont dur, en moyenne, 12,3 heures. L'hypothse selon laquelle les
deux marques sont de mme qualit doit-elle tre rejete ? Prendre D = 5 %.
Solution : On sait que l'esprance et la variance d'une variable de loi Exp(T)
sont, respectivement, T et T 2. L'estimateur T X X est donc sans biais pour
Tx et sa variance,
V 2
TX
Var ( X i )
T X2
nx
nX
TX
nx
X2
nX
nX
X Y
T X2
nY
( 8 , 4 12 , 3 )
70 , 56 10 151, 29 15
0 , 94.
RSUM
Test d'hypothse L'hypothse nulle est rejete si les rsultats
exprimentaux s'cartent trop de ce que le hasard devrait permettre. Le
risque D est la probabilit de rejeter H0 quand elle est vraie.
9 Tests d'hypothses
Loi de la
n 1
| Z | ! cD
p0 q 0
P = P0
n ( X P0 )
- T 0
V
n 1
Loi N(0, 1)
| T |! cD
Z
n
6( X i X )2
n ( p p 0 )
T = T0
Quelconque
Source du cD
rejet de H0
p = p0
Normale
Condition de
H0
Binomiale
* V 2
Variable utilise
Hypothse
population
297
Loi de Student
avec Q = n 1
**
| Z | ! cD
Loi N(0, 1)
2
2
( X X ).
Hypothse
Variable
Condition de
Source du
H0
utilise
rejet de H0
cD
| Z | ! cD
Loi N(0, 1)
p X p y
Z
Binomiale
p X q X
pX = p Y
p Y q Y
nX
Normale
(ou non spcifie)
PX = PY
X Y
VX = VY
Normale
(ou non spcifie)
TX = TY
V 2X
| T |! cD
X Y
nX
Loi quelconque
n X nY
n X ny
Z
PX = PY
nY
TX
avec Q = n 1
Loi N(0, 1) ou loi
| Z | ! cD
V Y2
nY
de Student o Q est
le plus petit de
nX 1 et nY 1
**
T X TY
V 2
Loi de Student
V 2
TY
| Z | ! cD
Loi N(0, 1)
298
* V 2
** V T2
n X ny 2
X
EXERCICES
TEST
D'HYPOTHESE SUR
UNE PROPORTION
1.
9 Tests d'hypothses
TEST SUR
L'GALIT DE
DEUX
PROPORTIONS
299
4. Une tude des dcisions rendues par des jurs dans des cas de vols par
effraction o l'accus tait de race noire a rvl les faits suivants : parmi
les 28 cas o les victimes taient de race noire, l'accus a t trouv
coupable dans 12 cas ; parmi les 36 cas o les victimes taient de race
blanche, l'accus a t trouv coupable dans 23 cas. Peut-on conclure que
les jurs ont une plus forte tendance dclarer coupables ceux qui sont
accuss d'avoir commis des vols contre des Blancs? (Utilisez D = 10 %).
5. Dans une classe, 98 tudiants sont ns au Canada et 47 ailleurs. On
constate que 20 des tudiants ns au Canada et 7 de ceux qui sont ns
ailleurs portent des lunettes. La diffrence entre les deux groupes est-elle
significative ? (Utilisez D = 0,05).
6. Pour comparer deux procds de fabrication, on prlve un chantillon
de 300 pices produites par le procd A et 400 pices produites par le
procd B. On trouve que 10 pices du procd A et 15 pices du procd
B sont dfectueuses. La diffrence entre les deux procds est-elle
significative ?
7. Pour valuer l'efficacit d'un somnifre, on fait l'exprience suivante avec
100 sujets. On rpartit les sujets au hasard en deux groupes gaux. Le
premier groupe, appel groupe exprimental , reoit le somnifre un soir
au coucher. Le deuxime groupe, appel groupe tmoin , reoit un
placebo. Le lendemain on pose la question suivante : Avez-vous mieux
dormi que d'habitude ? Dans le groupe exprimental, 30 personnes disent
oui, alors que dans le groupe tmoin seulement 25 personnes disent oui.
Peut-on affirmer que le somnifre a un effet ? (Utilisez D = 0,20).
8. Dans le cadre d'une tude portant sur la scurit routire et la visibilit
nocturne des couleurs, on a conu une exprience dans laquelle deux
objets de mme dimension, l'un rouge et l'autre jaune, taient prsents
des gens qui devaient dclarer s'ils parvenaient ou non les percevoir.
218 personnes ont particip l'exprience ; 138 d'entre elles ont vu les
deux objets, 25 n'ont vu que l'objet jaune, 11 n'ont vu que l'objet rouge,
et les 44 autres personnes n'ont vu aucun des deux objets. Testez
l'hypothse selon laquelle la probabilit de perception est la mme pour
les deux couleurs. (Utilisez D = 5 %).
300
TEST
D'HYPOTHESE SUR
UNE MOYENNE
9. Une revue prtend que ses lecteurs ont un revenu annuel moyen de
45 000 $ Pour vrifier cette affirmation, on prlve un chantillon de
20 lecteurs et on note leurs revenus annuels. Voici les donnes, en
milliers de dollars.
42,1
43,5
41,8
47,2
46,1
39,2
32,3
28,2
49,1
52,2
61,5
31,2
34,3
21,1
31,5
46,2
48,9
31,2
22,7
28,2
95
96
98
100
102
104
105
106
70
80
90
100
110
120
130
140
9 Tests d'hypothses
301
Service gnral des communications, Relance l'universit, Direction politique et plans, MEQ 1979.
302
16. Une nouvelle convention collective prvoit, pour la premire fois, des
congs de maladie remboursables. On s'attend ce que cela rduise le
taux d'absentisme. Pour voir si c'est bien vrai, on prlve des donnes
sur le taux d'absentisme (nombre d'absents par jour par 1 000
employs) dans les 11 usines de la compagnie pendant deux priodes de
6 mois, l'une avant et l'autre aprs l'entre en vigueur de la nouvelle
convention. Voici les donnes :
Usine
10
11
Avant
25
28
29
26
28
27
22
25
27
28
29
Aprs
21
23
22
21
26
29
21
22
23
22
25
Avant
64
54
73
59
64
68
Aprs
61
54
71
58
61
66
18. On suppose que la dure de vie d'une certaine pice de machinerie suit
une loi exponentielle. Le fabricant des pices prtend qu'elles durent en
moyenne 10 heures. Ayant mis 12 pices l'preuve, on a observ que
ces pices ont dur, en moyenne, 7,4 heures. Testez, avec D = 10 %,
l'hypothse selon laquelle le fabricant n'a pas menti.
19. Une compagnie d'assurances reoit, en moyenne, 30,6 rclamations par
semaine.
a) La semaine dernire la compagnie a reu 38 rclamations. Cette
observation s'carte-t-elle significativement de la moyenne gnrale ?
b) Le mois dernier (4 semaines) la compagnie a reu 148 rclamations,
ce qui donne une moyenne de 37 rclamations par semaine. Cette
observation s'carte-t-elle significativement de la moyenne gnrale ?
20. Durant une certaine priode de temps, 35 crimes ont t commis dans la
ville A et 21 dans la ville B. Sachant que les populations de ces villes
sont 58 000 pour A et 22 000 pour B, testez l'hypothse selon laquelle le
taux de criminalit (par 1 000 habitants) est le mme pour ces deux
villes. Prenez D = 5 %.
9 Tests d'hypothses
DIVERS
303
304
TOTAL
Effectif
25
10
12
16
10
100
TOTAL
0,13
0,27
0,27
0,18
0,09
0,04
0,02
1,00
TOTAL
Effectif
30
21
13
15
12
100
9 Tests d'hypothses
305
29. Dans une tude sur la relation entre certains traits de personnalit et
des facteurs astrologiques, Sakofske, Kelly et McKerracher (1982) ont fait
complter le Eysenck Personality Questionnaire 241 tudiants
no-zlandais. L'hypothse, avance antrieurement par des astrologues,
que ces chercheurs se proposaient de vrifier est que les personnes nes
sous un signe positif (Blier, Balance, Gmeaux, Lion, Verseau,
Sagittaire) sont moins introverties que les personnes nes sous un signe
ngatif (Cancer, Capricorne, Poisson, Scorpion, Taureau, Vierge). Sur
l'chelle introversion-extraversion du test, les extravertis ont un score
lev.
a) Parmi les sujets, 117 taient ns sous un signe positif ; ceux-ci ont
obtenu un score moyen de 13,28 avec un cart-type de 4,51. Les
autres 124 sujets taient ns sous un signe ngatif ; ceux-ci ont eu
un score moyen de 14,28 avec un cart-type de 4,41. La diffrence
entre les deux groupes est-elle significative ?
b) L'chantillon tait compos d'hommes et de femmes. Voici les
donnes pour chaque groupe :
Hommes
Signe du zodiaque
Femmes
V X
nX
V Y
nY
Positif
13,50
4,38
38
13,17
4,57
79
Ngatif
15,52
4,21
38
13,73
4,39
86
306
31. Dans une tude sur la sexualit des jeunes en Australie, Hong (1983) a
fait remplir un questionnaire 560 tudiants d'universit. Le
questionnaire rempli permet de calculer un score qui indique dans quelle
mesure l'attitude du rpondant est permissive.
Voici les rsultats :
Vont l'glise
Rgulirement
3,31
1,54
128
De temps en temps
4,73
1,10
230
Jamais
5,24
0,79
202
Orientaux
Blancs
700-800
601
22 564
600-690
2 001
86 521
500-590
3 190
158 049
400-490
2 788
151 466
300-390
1 309
74 498
200-290
208
9 892
TOTAL
10 097
502 990
9 Tests d'hypothses
307
TOTAL
Effectif
procd A
13
27
27
18
100
Effectif
procd B
30
21
13
15
12
100
308
groupe LOGO
Sexe
Score IAR
Sexe
Score IAR
Avant
Aprs
16
29
Avant
15
Aprs
21
20
24
18
22
21
23
21
21
22
21
21
19
22
26
22
20
23
30
22
20
24
26
23
23
24
23
23
30
25
32
26
21
27
34
27
25
28
29
30
27
9 Tests d'hypothses
309
BC
TOTAL
p1
p2
p 1 + p2
p3
p4
p 3 + p4
TOTAL
p1 + p3
p 2 + p4
310
9 Tests d'hypothses
311
10
11
12
13
14
Avant(X) 57
54
62
64
71
65
70
73
68
70
77
74
80
83
Aprs(Y) 55
60
68
69
70
73
74
74
75
76
76
78
81
90
a) Testez l'hypothse que l'alcool n'a pas d'effet en utilisant le test bas
sur la loi de Student.
b) Une autre faon de tester essentiellement la mme hypothse
consiste noter seulement la direction du changement, c'est--dire
s'il y a eu baisse ou augmentation du score. Soit U le nombre de
changements positifs (augmentation du score) et n le nombre de
changements (qui peut tre diffrent du nombre de sujets si certains
sujets n'ont pas chang). Alors U est de loi binomiale de paramtre n
et p.
i)
312
10
11
12
13
14
Tmoin
14
14
18
21
23
24
25
25
29
32
32
32
43
45
Exprimental
17
19
17
23
25
23
27
29
26
35
34
38
45
44
9 Tests d'hypothses
313
Ont suivi
le cours de
sensibilisation
6x
6x
d 11 ans
> 11 ans
60 58 56 54
36 36 33 32
52 50 48 46
30 29 26 26
424 , 6x 2
22 640
6x
248 , 6x 2
7 798
50 48 46 44
30 28 26 24
42 40 38 36
22 20 28 26
344 , 6x 2
14 960
6x
204 , 6x
5 280
314
Valeur
de T
Test 1
Test 2
0,054 0
0,022 0
0,095 2
0,039 2
0,5
0,632 1
0,329 7
0,1
0,993 3
0,864 7
0,05
0,999 95
0,981 7
9 Tests d'hypothses
315
*47. Supposons que le nombre de fautes typographiques dans une page est
de loi de Poisson. Considrez deux procdures pour tester l'hypothse H0
que le nombre moyen T d'erreurs par page dans un livre est 1.
Procdure 1 : on tire une page au hasard ; on rejette H0 si le nombre
d'erreurs X est suprieur ou gal 4.
Procdure 2 : on tire deux pages au hasard ; on rejette H0 si le nombre
total d'erreurs Y dans les deux pages est suprieur ou gal 6.
a) Dterminez la probabilit de rejeter H0 si H0 est vraie : i) lorsqu'on
utilise la procdure 1 ; ii) lorsqu'on utilise la procdure 2. Lequel des
deux tests parat meilleur avec ce critre ?
b) Vrifiez les probabilits dans le tableau suivant :
Probabilit de rejeter H0
Valeur
de T
Procdure 1
procdure 2
1,0
0,019 0
0,016 6
1,2
0,033 8
0,035 7
1,3
0,043 1
0,049 0
1,4
0,053 7
0,065 1
10
Techniques
de sondages
10 Techniques de sondages
317
318
10.1
10 Techniques de sondages
319
remise. Un sondage sur les opinions des Canadiens, par exemple, est
gnralement constitu d'un chantillon d'au plus quelques milliers ; la
population est de plusieurs millions.
Le troisime cas ci-dessus est le plus frquent, et c'est la grande taille de la
population qui motive le recours l'chantillonnage. Il existe toutefois des
cas o la population est petite, assez petite pour que les tirages ne soient
plus indpendants, mme approximativement. Typiquement, c'est le cas o
l'chantillonnage s'impose non pas par la grande taille de la population mais
par le cot lev des observations. Supposons, par exemple, qu'une
municipalit se propose d'tudier la qualit du sol dans ses parcs. Si les
analyses chimiques sont longues et coteuses, on trouvera trop onreux
d'obtenir les donnes sur tous les parcs, mme si le nombre de parcs n'est
pas norme. On se contentera donc d'un chantillon, lequel, bien sr, sera
tir sans remise.
Nous verrons que les proprits des estimateurs se trouvent modifies par le
fait que les observations ne sont pas indpendantes. Heureusement, la
modification est relativement mineure et n'affecte que la variance de
l'estimateur.
1
N
vi ; V
i 1
v i P
i 1
c'est--dire, E X
afin de
V
n
1
n
N
V
n
1 f ,
320
i 1X i X
n
et f
n 1
Facteur de correction 1 f
1
n
N
Xi X
V 2
i 1 X i2 nX 2 .
n 1
10 Techniques de sondages
321
1 f .
V
n
1
n
N
d P d X cD
V
n
1
322
Exemple 1
240,82
232,50
740,81
860,32
224,10
7,15
324,11
240,12
10,02
190,08
182,75
160,20
148,22
41,10
119,25
113,85
108,30
107,10
101,19
9,15
99,21
93,12
88,13
80,15
78,13
72,15
67,13
65,14
132,19
32,17.
Xi
4 968 , 66 / 30
165 , 62 $.
X i nX
n 1
V
V
X
35 930 , 59
189 , 55
30 1
n
35 930 , 59
30
1
1
30
34 , 61 1 0 , 003 56
34 , 55.
8 427
Le facteur de correction n'est pas important ici : s'il avait t omis, l'carttype aurait t estim V X 34 , 61 , assez proche de la valeur 34,55 calcule
plus haut. L'intervalle de confiance est donn par
X c D V X d P d X c D V X .
X
165 , 62 , V X
34 , 55 , et 95 %, c D
165 , 62 1, 96 34 , 55 d P d 165 , 62 1, 96 34 , 55 ,
97 , 90 d P d 233 , 34.
10 Techniques de sondages
323
Estimation d'un total Nous avons, dans le cas fini, un paramtre qui n'est pas
dfinissable dans une population infinie. C'est le total des donnes de la
population, que nous noterons W . Puisque W NP , le problme n'est pas
nouveau. W est estim par W NX , et l'intervalle de confiance pour W est
calcul en multipliant par N les limites de l'intervalle de confiance pour P
Exemple 2
10.2
324
Population
(taille N)
N1
P1
V1
N2
P2
V2
n1
chantillons
Nk
Pk
Vk
n2
nk
x1
x2
xk
V 1
V 2
V k
Donnes chantillonnales
10 Techniques de sondages
325
Pour chacune des strates, les paramtres, les estimateurs et leurs proprits
sont exactement ceux prsents dans la section 10.1. Pour i 1, 2 , , K ,
l'estimateur de P i est X i et l'cart-type de X i est estim par
V X
o f i
V i
i
1
ni
ni
V i
Ni
ni
1 fi ,
N 1 P1 N 2 P 2 N K P K
N1
Les proportions N 1 / N , N 2 / N , , N K N
P1
N2
N
P 2
NK
N
PK .
Ni N :
K
W1 P 1 W 2 P 2 W K P K
Wi P i .
i 1
W1 X 1 W 2 X 2 W K X K
Wi X i .
i 1
V P
2
2
W i V X
i 1
2
Wi
i 1
V i2
n
1 i .
n i
N i
326
Exemple 3
80
N2
10 n 2
200
20 n 3
N3
500
30.
Voici les superficies des maisons ou appartements dans les trois chantillons
(en mtres carrs) ainsi que quelques calculs :
Strate 1
466
428
506
458
408
373
429
397
422 , 6 , X i2
1 803 308 ,
1 933 , 378.
Xi
2
V 1
394
4 226 , X 1
367
Strate 2
301
319
232
228
268
201
233
220
261
203
261
370
214
242
296
234
280
270
259
195
Xi
5 087 , X 2
254 , 35 , X i2
2
V 2
1 330 573
1 931, 292 .
Strate 3
234
178
197
160
156
141
171
194
203
160
224
186
150
182
174
205
190
171
183
155
180
173
212
149
160
139
149
180
182
167
Xi
2
V 3
5 305 , X 3
176 , 83 , X i2
954 313 ,
559 , 040.
10 Techniques de sondages
327
La taille de la population est N =80 + 200 + 500 + 780 ; les tailles relatives
des strates sont W1 N i N = 80/780 = 8/78 | 0,1026, W 2 = N 2 N = 20/78 |
0,2 564, W 3
estime par
P
8
20
50
221, 91.
V P2
10 20 1 931, 292
20
8 1 933 , 378
1
1
78
10
80 78
20
200
30
50 559 , 040
1
30
500
78
14 , 692.
n 1 f
328
Cet intervalle est beaucoup plus long que l'intervalle obtenu correctement plus
haut. Il se trouve que l'erreur n'est pas grave dans la mesure o elle donne une
vision plutt pessimiste : l'estimation est de fait plus prcise que ne laisse
croire l'intervalle. Dans certains cas, une procdure errone peut donner lieu
des rsultats indment optimistes, ce qui est plus grave.
10.3
Exemple 4
allocations
n1 , n 2 , n 3 . Pour
une
allocation
donne
des
60
78 n
2
2
n 20 V 2
1 1
80 78 n 2
2
2
n 50 V 3
1 2
200 78 n 3
1 3 .
500
cart-type de
3,82
(6,15,39)
4,05
(20,20,20)
4,18
(30,10,20)
4,85
(50,5,5)
8,39
10 Techniques de sondages
329
Nous voyons que l'allocation a un effet important sur l'cart-type. Deux types
d'allocation sont utiliss couramment : l'allocation proportionnelle et
l'allocation optimale.
Allocation
proportionnelle
Une
allocation naturelle
est l'allocation
proportionnelle, qui rpartit l'chantillon de la mme faon que la population :
les n i sont proportionnels aux N i , (ou aux W i , ce qui revient au mme). Nous
avons approximativement les galits suivantes :
ni
nWi .
78 | 6, n
60 8
60 20
78
| 15, n
60 50
78
| 39.
Ni
V 1 | Wi V i
Ni 1
330
Exemple 5
Ni
100
200
300
400
Vi
365
38
14
La somme de ces nombres est 50,3, et l'allocation optimale est donne par
n1
36 , 5
50 , 3
50 | 36 ; n 2
7,6
50 , 3
4,2
50 | 8 ; n 3
50 , 3
50 | 4 ; n 4
2, 0
50 | 2.
50 , 3
Pour un chantillon de taille 50, l'cart-type de P est plus petit avec cette
i
Nous pouvons aisment dterminer une formule prcise pour les n i : dire
que les n i sont proportionnels aux Wi V i , c'est dire que pour une certaine
constante a , n i
aWi V i ; puisque n i
aWi V i
n , alors
n a Wi V i
na
n / Wi V i .
Wi V i
k
j 1W j V j
n.
10 Techniques de sondages
331
V i : soit par un chantillonnage conu cette fin, soit en se basant sur des
donnes semblables prises dans d'autres populations.
0 , 81 25 | 20 , n 2 0 ,15 25 | 4
et n 3
0 , 04 25 | 1.
W1 X 1 W2 X 2 W3 X 3 mais
10.4
332
W1 p 1 W 2 p 2 W K p K
W i p i .
i 1
ni
V i2
ni 1
p i 1 p i
ni
ni 1
p i q i | p i q i ,
la dernire galit approximative n'tant vraie que si les n i sont grands. Il n'y
a pas d'autre changement de notation : les formules pour les estimateurs des
carts-types des p i et de p sont identiques celles pour les X i et pour X :
V p
V i
i
1
ni
ni
V i
Ni
ni
1 fi
pour p i et
K
V p
Wi V 2p
i 1
pour p .
V i2
n
1 i
Wi
n i
N i
i 1
K
Wi 2
i 1
p i q i
n
1 i
n i 1
N i
10 Techniques de sondages
333
b) la variance de p est
4 523
10 403
10 12
2
22 22
22 3 456
1
21
4 523 10 403
1 300
10 403
0 , 5 0 , 5
5
1
1 124
1 300 10 403
6
5 12
17 17
17
1
16
3
456
0 , 6 0 , 4
4
1
1 124
5
0 , 005 12.
0 , 005 12
0 , 071 6.
334
Allocation optimale L'allocation optimale est, bien sr, toujours la mme, soit
approximativement
les n i proportionnels aux Wi V i
o V i2
p i 1 p i .
beaucoup de 1/2. Donc, moins que les valeurs des p i soient extrmes,
l'allocation optimale
proportionnelle.
Exemple 8
n'est
pas
tellement
diffrente
de
l'allocation
0 , 05 , p 2
0 ,15 , p 3
Wi
p i 1 p i
0,220 5, leur somme est 0,493 7, et l'chantillon doit tre rparti selon les
proportions 0,085 7/0,493 7, 0,187 5/0,493 7, 0,220 5/0,493 7, ce qui
donne environ n i = 17, 38 et 45. Sous l'hypothse (ii) les n i sont 10, 37, 53.
On voit bien que la premire rpartition, le cas o les p i sont proches de
0,5, est essentiellement la rpartition proportionnelle.
10 Techniques de sondages
10.5
335
CHANTILLONNAGE SYSTMATIQUE
L'chantillonnage systmatique est un mode d'chantillonnage motiv
surtout par des questions de commodit. Supposons que les patients d'une
clinique mdicale sont reprsents dans un fichier alphabtique. On peut
toujours indexer chaque fiche par un numro qui la situe dans le fichier, et
ensuite faire un tirage alatoire des numros. Une faon plus naturelle de
procder consiste tirer les fiches des intervalles rguliers. Par exemple, si
l'on veut tirer n = 50 fiches d'une population qui en contient N = 10 000, on
les tirera des intervalles de 200 fiches. Plus prcisment, la premire est
choisie au hasard parmi les 200 premires du fichier. Aprs elle, les 49
autres suivent des intervalles de 200. Si, par exemple, la premire fiche est
celle du rang 123, les fiches suivantes sont de rangs 323, 523, 723, 923, ...,
9 523, 9 723, 9 923.
Ce mode d'chantillonnage a beaucoup d'attrait, indpendamment des
questions de commodit. On sent qu'un chantillon tir de cette faon a
chantillon
Strate
10
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
336
10 Techniques de sondages
10.6
337
CHANTILLONNAGE EN GRAPPES
Supposons qu'on veuille chantillonner les lves des coles primaires d'une
province pour tester leur connaissance des mathmatiques. Un
chantillonnage stratifi, avec les coles comme strates, exigerait qu'on
prlve un chantillon dans chacune des coles, ce qui peut tre
malcommode et coteux, surtout lorsque les coles sont disperses sur un
grand territoire. Un chantillon alatoire simple d'lves est impossible sans
une liste exhaustive des lves, chose qu'on n'a pas toujours. Une liste
d'coles est facilement disponible, et peut tre exploite pour faire ce qu'on
appelle un chantillonnage en grappes : on commence par faire un choix
alatoire d'coles, qu'on appelle alors des grappes ou units primaires ; et
puis on choisit, l'intrieur de chaque cole, un chantillon d'lves, qu'on
appelle alors units secondaires ou sous-units. La situation est
schmatise dans la figure 10.2.
L'conomie que permet de raliser cette approche est claire. Un chantillon
alatoire simple, une fois choisi, est une liste de n lves qu'on doit aller
chercher dans les coles o ils se trouvent. Cela peut obliger de nombreux
voyages coteux. L'chantillonnage en grappes permet de mieux rentabiliser
ces voyages ; on peut tester plusieurs lves dans chaque cole peu de frais
supplmentaires.
En gnral, on recourt l'chantillonnage en grappes pour des raisons
d'conomie et de commodit et non pour des raisons de prcision dans
l'estimation. Contrairement l'chantillonnage par strates, qui peut tre
choisi uniquement pour son efficacit statistique, l'chantillonnage en
grappes n'est pas en gnral efficace. Prcisons cette affirmation : pour un
mme nombre n d'units secondaires (d'lves), l'chantillonnage en grappes
donne des variances plus grandes que l'chantillonnage alatoire simple.
Mais puisqu'il est plus conomique, on peut au mme cot obtenir un plus
grand nombre d'units secondaires ; et donc en dfinitive atteindre un degr
de prcision suprieur celui que peut fournir un chantillon alatoire
simple de mme cot.
L'chantillonnage en grappes est complexe car il existe plusieurs faons de
prlever les grappes, aucune ncessairement suprieure aux autres. Il est
naturel au premier stade de prlever un chantillon alatoire simple de
grappes dans la population de grappes. Cette approche attache toutefois la
mme importance toutes les grappes, les plus petites comme les plus
grandes. Cela n'est pas le meilleur moyen d'amliorer la prcision.
338
Une autre faon de prlever les grappes consiste les tirer successivement,
avec remise, et avec probabilits proportionnelles aux tailles des grappes :
les plus grandes grappes ont les plus fortes chances d'tre tires. C'est une
faon de donner plus d'importance aux plus grandes grappes.
FIGURE 10.2
chantillon d'coles
chantillon d'lves
dans les coles
10 Techniques de sondages
339
RSUM
1. Soit X la moyenne d'un chantillon alatoire simple tir sans remise
d'une population de taille N de variance V 2 . L'estimateur X est sans
biais et son cart-type est estim par
V X
1
n
N
i 1 X i
n
X
n 1
Lorsque les donnes sont dichotomiques (certaines valent 1, les autres 0), la
moyenne P est la proportion de 1 , note p ; l'estimateur X de p est not
p et V 2 prend la forme plus simple :
V 2
n
n 1
p 1 p
n
n 1
p q | p q .
340
1
n
N
d P d X cD
1
n
N
W1 P 1 W 2 P 2 W K P K
Wi P i
i 1
W1 X 1 W 2 X 2 W K X K
Wi X i .
i 1
W1 p1 W 2 p 2 W K p K
Wi p i
i 1
W1 p 1 W 2 p 2 W K p K
Wi p i .
i 1
Wi 2
i 1
V i2
n
1 i
n i
N i
> n
1 p i q i
nWi .
de
l'effectif
total
10 Techniques de sondages
341
Donc, n i |
Wi V i
K
j 1W j V j
Ni
V i | Wi V i .
Ni 1
n.
EXERCICES
1. Considrez la petite population de taille N = 6 dont les units sont les
suivantes :
^1, 3, 5, 7 , 8, 9`.
a) Calculez P et V 2 .
b) Dressez la liste des 15 chantillons de taille n = 2 qu'on peut prlever
de cette population et calculez X et V 2 pour chacun des
chantillons.
c) Prsentez sous forme de tableau la fonction de masse de X .
d) Vrifiez en utilisant la fonction de masse en c) que X
estimateur sans biais pour P .
est un
Calculez E V 2
et vrifiez que V X2
n 1 n N , avec n = 2 et
342
Demi-largeur de l'intervalle
30
1,920 4
40
2,880 6
50
3,326 2
150
4,294 1
500
4,584 9
10 000
4,698 1
1 000 000
4,703 9
4,704 0
22 , X i
81 X i2
353
chantillon de la strate 2 :
68, 98, 87, 56, 34, 33, 44, 28.
n2
8, X i
448 X i2
29 898
chantillon de la strate 3 :
687, 675, 237, 99, 123, 456, 231, 324, 543, 654, 345, 234.
n3
12 , X i
4 608 X i2
2 271 312
10 Techniques de sondages
343
l'allocation optimale.
6. Les tudiants d'une universit sont rpartis en 4 facults ayant 1 230,
3 000, 2 500, et 8 000 tudiants, respectivement. On prlve un
chantillon de 25, 61, 51 et 163 tudiants dans les 4 strates pour
estimer la proportion p d'tudiants qui ont dj utilis la cooprative
tudiante. On trouve que les nombres d'tudiants qui l'ont dj utilise
dans les 4 chantillons sont 20, 43, 46, et 81, respectivement.
a) Estimez la proportion p d'tudiants dans la population qui ont dj
utilis la coop, ainsi que l'cart-type de l'estimateur.
b) Dterminez un intervalle de confiance 95 % pour p .
344
30 215
12 564
36 598
37 222
36 527
96 532
95 684
69 854
68 594
X1
53 400 , 20 , V 1
28 272 , 321
Strate 2 : Grossistes
3 652
6 598
6 537
5 656
6 644
6 563
6 521
6 549
6 598
6 537
3 268
8 854
6 582
8 457
6 584
9 658
6 532
9 564
9 856
6 598
9 723
6 549
2 147
3 345
5 465
X2
6 601, 48 , V 2
2 035 , 57
10 Techniques de sondages
345
Strate 3 : Dtaillants
325
695
658
423
214
659
854
632
632
654
985
658
745
698
365
256
985
654
965
965
985
658
321
123
365
965
965
856
452
325
445
323
765
139
239
432
871
347
138
325
762
769
126
247
246
235
345
345
345
298
X3
535 , 58 , V 3
275 , 656 8
X2
27
21
18
15
24
24
21
18
27
21
139
103
70
43
112
118
91
64
131
85
c) Dterminez Var X .
346
9. Afin de prdire le volume de transport (en millions de tonnes kilomtriques) qu'elle assurera l'an prochain, une compagnie de camionnage
dcide d'interroger 500 de ses expditeurs rguliers. Les donnes des
annes prcdentes permettent de classer les clients en quatre strates,
selon leur importance. Les effectifs des strates et leurs variances sont :
N i : 50 100 1 000 3 000
V i : 38,0 11,0 5,0 2,5.
10 Techniques de sondages
347
p 1 p n 11 n N
et
11
Sries chronologiques
11 Sries chronologiques
349
350
11.1
TECHNIQUES DE LISSAGE
Lorsqu'une srie chronologique est illustre sous forme graphique, elle
prsente souvent un comportement gnral relativement doux sur lequel est
superpos un comportement local plutt cahoteux qu'il serait souhaitable
d'aplanir. On voudrait pouvoir promener sur le graphique un fer repasser
stochastique qui en effacerait toutes les asprits accidentelles et ne
laisserait subsister que les amples fluctuations gnrales qui, seules, sont
significatives. Un exemple servira illustrer cette situation.
EXEMPLE 1
TABLEAU 11. 1
Heure d'arrive
Xt
Heure d'arrive
Xt
7 h 00
15
14
8 h 05
43
7 h 05
22
15
8 h 10
57
7 h 10
14
16
8 h 15
40
7 h 15
25
17
8 h 20
49
7 h 20
30
18
8 h 25
54
7 h 25
22
19
8 h 30
27
7 h 30
37
20
8 h 35
46
7 h 35
32
21
8 h 40
43
7 h 40
47
22
8 h 45
34
10
7 h 45
38
23
8 h 50
23
11
7 h 50
34
24
8 h 55
37
12
7 h 55
51
25
9 h 00
24
13
8 h 00
32
11 Sries chronologiques
351
t
1
13
19
25
352
1
7
t 3
x t 2 x t 1 x t x t 1 x t 2 x t 3
11 Sries chronologiques
353
15 22 14 3 17 , 0
15 22 14 25 4 19 , 0
15 22 14 25 30 5 21, 2
22 14 25 30 22 5 22 , 6
x1
x2
x3
x4
x 22
x 23
x 24
x 25
46 43 34 23 37 5 36 , 6
43 34 23 37 24 5 32 , 2
34 23 37 24 4 29 , 5
23 37 24 3 28, 0.
Sauf les deux premires et les deux dernires, chaque valeur x t de la srie
lisse est la moyenne de 2r + 1 = 5 termes conscutifs de la srie originale :
x t 2 , x t 1 , x t , x t 1 , x t 2 . Pour t = 1 ou 2, de mme que pour t = 24 ou 25, la
moyenne n'a port que sur les 3 ou 4 termes qui taient visibles dans la
fentre mobile.
La figure 11.2, prsente plus loin, illustre le lissage obtenu.
En gnral, il vaut mieux dfinir x t comme tant une moyenne pondre des
2r + 1 valeurs apparaissant dans la fentre, et qui accorde plus de poids aux
observations situes au centre qu' celles qui sont prs des bords. En
procdant ainsi, chaque nouvelle observation qui entre dans la fentre (ou
qui en sort) le fait d'une faon moins brutale et n'influence que
graduellement la valeur de la moyenne mobile.
En plus de convenir d'un rayon r, on choisira donc aussi des poids
c r , , c 1 , c 0 , c 1 , , c r qui fourniront la pondration dsire. Par symtrie, on
conviendra de prendre c r
c r , c r 1
c r 1 , , c 1
c 1 . En choisissant ces c i
r
c i x t i
i r
r
c i
i r
354
La formule qui prcde n'est videmment applicable que pour des valeurs de
t situes suffisamment loin du dbut ou de la fin de la srie. Pour les toutes
premires valeurs de t (pour t d r) de mme que pour les dernires (pour t >
T - r), cette formule rclame les valeurs d'observations inaccessibles qui
prcdent x 1 ou qui suivent x T . Ces observations n'tant pas disponibles, on
ne peut en tenir compte et, dans le calcul de x t , on cartera, tant au
numrateur qu'au dnominateur, les valeurs de i pour lesquelles l'indice t + i
est infrieur 1 ou suprieur T.
cr
1, c r 1
c 4
c4
1, c 3
2 , , c 1
c r 1
c3
2 , c 2
c2
c1
3, c 1
r, c0
c1
5.
ci
2r
pour i allant de - r + r.
r i
EXEMPLE 3
11 Sries chronologiques
15 u 6 22 u 4 14 u 1 6 4 1 17 , 5
15 u 4 22 u 6 14 u 4 25 u 1 4 6 4 1 18, 2
15 u 1 22 u 4 14 u 6 25 u 4 30 u 1 1 4 6 4 1
22 u 1 14 u 4 25 u 6 30 u 4 22 u 1 1 4 6 4 1
x1
x2
x3
x4
355
19 , 8
23,1
x 22
x 23
x 24
x 25
46 u 1 43 u 4 34 u 6 23 u 4 37 u 1 1 4 6 4 1
43 u 1 34 u 4 23 u 6 37 u 4 24 u 1 1 4 6 4 1
34 u 1 23 u 4 37 u 6 24 u 4 1 4 6 4 29 , 6
23 u 1 37 u 4 24 u 6 1 4 6 28, 6.
34 , 4
30 , 6
i
Poursuivis pour la srie entire, les calculs dvelopps dans les exemples 2
et 3 mnent aux valeurs lisses prsentes dans le tableau 11.2.
On constate (voir figures 11.2 et 11.3) que le second lissage, celui qui utilise
des poids binomiaux, est plus lisse, plus doux que le premier.
Tx t 1 T x t 1
356
TABLEAU 11.2
xt
xt
(poids gaux)
(poids binomiaux)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
15
22
14
25
30
22
37
32
47
38
34
51
32
43
57
40
49
54
27
46
43
34
23
37
24
17,0
19,0
21,2
22,6
25,6
29,2
33,6
35,2
37,6
40,4
40,4
39,6
43,4
44,6
44,2
48,6
45,4
43,2
43,8
40,8
34,6
36,6
32,2
29,5
28,0
17,5
18,2
19,8
23,1
26,2
28,6
32,2
36,8
39,6
39,7
39,9
40,7
41,2
44,1
47,2
47,6
47,1
44,6
40,9
40,3
39,3
34,4
30,6
29,6
28,6
11 Sries chronologiques
FIGURE 11.2
357
60
50
40
30
20
10
0
1
13
19
25
Moyenne mobile avec poids binomiaux (r =2, poids 1, 4, 6, 4, 1) lissant la srie illustre la
figure 11.1
x
FIGURE 11.3
60
50
40
30
20
10
0
1
13
19
25
358
Tx t 1 1 T x t 2
x t 2
xt
Tx t 1 T Tx t 1 1 T x t 2
Tx t T 1 T x t 1 1 T x t 2
2
Tx t T 1 T x t 1 1 T Tx t 2 1 T x t 3
2
Tx t T 1 T x t 1 T 1 T x t 2 T 1 T x t 3
2
Chaque nouvelle valeur lisse x t est donc une moyenne pondre de toutes
les
observations
prcdentes
( x t , x t 1 , x t 2 ,
etc.).
Les
poids
utiliss
observation
x 1 . Cette
une
valeur
11 Sries chronologiques
359
x t x t x t 1
2 x t x t 1 .
Remarque Cette formule, exprime en fonction de x t et de x t 1 peut aussi tre
exprime en fonction de x t et de x t . En effet, puisque x t
x t 1
Tx t
1 T .
Tx t 1 T x t 1 , on a
x t x t x t T
1 T .
Avec T
x1
x1
x2
Tx 2 1 T x 1
1
2
x3
Tx 3 1 T x 2
1
2
u 0 , 441 12 u 0 , 386
0 , 321
0 , 414
etc.
Le tableau 11.3 donne aussi, pour chacun de ces deux lissages, la
prdiction x 21 obtenue en appliquant la formule 2 x 20 x 19 . Les figures
11.4 et 11.5 illustrent ces rsultats d'une faon graphique.
360
On observe que le second lissage est plus doux que le premier. Par contre, il
a plus d'inertie et prend plus de temps s'ajuster aux changements qui
surviennent dans la srie originale.
Remarque En 1998 les Expos ont obtenu une moyenne de 0,401 (65
victoires et 97 dfaites), ce qui est sensiblement infrieurs aux prdictions
fournies par ces deux lissages exponentiels.
TABLEAU 11.3
Proportions de victoires obtenues par les Expos de 1969 1988. Deux lissages exponentiels
et prdictions pour 1989.
Anne
xt
lissage
exponentiel
avec
1969
1
1970
2
1971
3
1972
4
1973
5
1974
6
1975
7
1976
8
1977
9
1978
10
1979
11
1980
12
1981
13
1982
14
1983
15
1984
16
1985
17
1986
18
1987
19
1988
20
1989
21
1990
22
1991
23
1992
24
1993
25
1994
26
1995
27
1996
28
1997
29
Prdictions pour 1998
0,321
0,451
0,441
0,449
0,488
0,491
0,463
0,340
0,463
0,469
0,594
0,556
0,556
0,531
0,506
0,484
0,522
0,484
0,562
0,500
0,500
0,525
0,441
0,537
0,580
0,649
0,458
0,543
0,481
0,321
0,386
0,414
0,431
0,460
0,475
0,469
0,405
0,434
0,451
0,523
0,539
0,548
0,539
0,523
0,503
0,513
0,498
0,530
0,515
0,508
0,516
0,479
0,508
0,544
0,592
0,525
0,534
0,507
0,480
1
2
lissage
exponentiel
avec
0,321
0,364
0,390
0,410
0,436
0,454
0,457
0,418
0,433
0,445
0,495
0,515
0,529
0,529
0,522
0,509
0,513
0,504
0.523
0,515
0,510
0,515
0,490
0,506
0,531
0,567
0,531
0,535
0,517
0,499
1
3
11 Sries chronologiques
FIGURE 11.4
Proportions de victoires obtenues par les Expos de 1969 1988. Lissage exponentiel avec
1
2
x
0,7
0,6
0,5
0,4
95
19
90
19
85
19
80
19
75
Proportions de victoires obtenues par les Expos de 1969 1988. Lissage exponentiel avec T
1
3
x
0,7
0,6
0,5
0,4
95
19
90
19
85
19
80
19
19
75
0,3
19
6
19 9
70
FIGURE 11.5
19
19
6
19 9
70
0,3
361
362
11.2
NOMBRES INDICES
En 1950, la production canadienne de cuivre a t de 239 685 tonnes. En
1985, elle a t de 738 637 tonnes. La comparaison de ces deux grandeurs
est aise : les mines canadiennes ont produit 3,08 fois plus de cuivre en
1985 qu'en 1950. Les units n'ont pas chang : une tonne reste une tonne,
quel que soit le moment o la mesure est effectue.
En 1969, le salaire annuel moyen, au Canada, pour les hommes, tait de
4 746 $. En 1986, ce mme salaire moyen tait de 23 855 $. Peut-on dire
que le travailleur de 1986 tait 5,03 fois plus riche que le travailleur de 1969
? Ce serait vrai si le dollar de 1986 avait le mme pouvoir d'achat que celui
de 1969, mais tel n'est pas le cas. Pour comparer les valeurs relles de ces
deux revenus, il faut pouvoir les exprimer en units quivalentes, en dollars
de la mme anne.
TABLEAU 11.4
Indice
Anne
Indice
Anne
Indice
Anne
Indice
1950
25,2
1963
32,6
1976
62,9
1989
150,9
1951
27,9
1964
33,2
1977
67,9
1990
158,2
1952
28,5
1965
34,0
1978
73,9
1991
167,0
1953
28,3
1966
35,2
1979
80,7
1992
169,6
1954
28,5
1967
36,5
1980
88,9
1993
172,6
1955
28,5
1968
38,0
1981
100,0
1994
173,0
1956
28,9
1969
39,7
1982
110,8
1995
176,7
1957
29,8
1970
41,0
1983
117,2
1996
179,6
1958
30,6
1971
42,2
1984
122,3
1997
182,5
1959
31,0
1972
44,2
1985
127,2
1960
31,4
1973
47,6
1986
132,4
1961
31,7
1974
52,8
1987
138,2
1962
32,0
1975
58,5
1988
143,8
11 Sries chronologiques
363
faon prcise dont cet indice est calcul, disons simplement qu'on imagine
un panier de provision typique qui tient compte des principaux champs
de consommation (alimentation, habitation, vtements, etc.) D'une anne
l'autre, le montant qu'il faut dbourser pour acqurir ce panier de provisions
thorique peut tre mesur. Le tableau 11.4 donne les valeurs de cet indice
pour les annes 1950 1987. Par convention on a fix 100 la valeur de
l'indice pour l'anne 1981.
Les indices prsents dans le tableau 11.4 peuvent tre reprsents comme
tant le prix qu'il fallait payer, chaque anne, pour acqurir ce qui cotait
100 $ en 1981. On voit, par exemple, qu'en 1987 il fallait dbourser 138,2 $
alors qu'en 1950 on pouvait obtenir la mme chose pour seulement 25,2
$. Ce dernier nonc doit cependant tre reu avec circonspection : combien
cotait un magntoscope ou un ordinateur domestique en 1950 ? en 1850 ?
Le panier de provision typique qui sert calculer cet indice porte plutt sur
des biens intemporels , tels l'alimentation et l'habitation, mais mme pour
ces biens fondamentaux on ne peut tre tout fait l'abri d'un certain
dcalage technologique (combien cotaient les fraises, en 1900, au milieu de
l'hiver ?)
Il va de soi que le choix de 1981 comme anne de rfrence (pour laquelle
l'indice vaut 100) est purement arbitraire. Une autre anne de rfrence
ferait tout aussi bien l'affaire. Les donnes du tableau 11.4 peuvent tre
facilement reformules de telle sorte que l'anne de rfrence soit n'importe
quelle autre. Par exemple, si l'on veut que l'indice 100 corresponde l'anne
1985 (pour lequel le tableau 11.4 donne la valeur 127,2), il suffit de diviser
tous les indices du tableau 11.4 par 1,272. L'indice pour 1950, par exemple,
deviendra alors 25,2/1,272 = 19,8.
Nous pouvons maintenant revenir la question pose au dbut de cette
section : comment se comparent les revenus des travailleurs de 1986 ceux
de 1969 ? La comparaison pourra se faire en exprimant chacun des revenus
(4 746 $ en 1969 et 23 855 $ en 1986) en dollars d'une mme anne, par
exemple, en dollars de 1981.
Le tableau 11.4 nous indique que 39,7 $ de 1969 ont le mme pouvoir
d'achat que 100 $ de 1981. On trouve que 4 746 $ de 1969 ont le mme
pouvoir d'achat que 4 746 x 39100, 7 = 11 955 $ de 1981. De la mme faon,
23 855 $ de 1986 ont le mme pouvoir d'achat que 23 855 x
de 1981.
100
132 , 4
= 18 017 $
364
18 017
11 955
11 Sries chronologiques
365
Anne
Indice
Alimentation
Habitation
Vtements
Transports
gnral
Hygine
Tabac et
et Sant
Alcool
1950
25,2
21,6
25,3
35,9
24,3
20,8
32,8
1955
28,5
23,7
29,7
38,9
27,3
25,9
34,3
1960
31,4
25,8
32,2
40,0
32,3
31,6
37,0
1965
34,0
28,7
34,2
43,7
34,0
35,9
39,1
1970
41,0
34,1
42,3
51,5
40,4
44,3
47,0
1975
58,5
55,8
58,9
65,4
54,4
60,2
59,9
1976
62,9
57,3
65,4
69,0
60,3
65,3
64,2
1977
67,9
62,0
71,5
73,7
64,6
70,2
68,7
1978
73,9
71,6
76,9
76,5
68,3
75,2
74,3
1979
80,7
81,0
82,3
83,6
74,9
82,0
79,6
1980
88,9
89,8
89,0
93,4
84,5
90,2
88,6
1981
100,0
100,0
100,0
100,0
100,0
100,0
100,0
1982
110,8
107,2
112,5
105,6
114,1
110,6
115,5
1983
117,2
111,2
120,2
109,8
119,8
118,2
130,0
1984
122,3
117,4
124,7
112,5
124,8
122,8
140,6
1985
127,2
120,8
129,0
115,6
130,8
127,2
154,0
1986
132,4
126,8
132,9
118,8
135,0
132,6
172,3
1987
138,2
132,4
138,3
123,8
139,9
139,2
183,9
1988
143,8
135,9
144,3
130,3
142,5
145,3
197,6
1989
150,9
141,0
151,9
135,5
149,9
151,6
216,0
1990
158,2
146,8
158,8
139,3
158,3
159,0
234,9
1991
167,0
153,9
165,7
152,4
161,1
170,2
275,1
1992
169,6
153,2
168,0
153,8
164,4
174,0
291,4
1993
172,6
155,8
170,2
155,3
169,7
178,7
296,1
1994
173,0
156,5
170,9
156,6
177,2
180,3
247,7
1995
176,7
160,1
173,4
156,4
186,4
180,1
247,4
1996
179,6
162,3
174,8
155,9
193,7
181,1
252,4
1997
182,5
164,9
175,8
157,9
199,7
184,3
260,3
366
TABLEAU 11.6
Taux
(en %)
Anne
Taux
(en %)
Anne
Taux
(en%)
Anne
Taux
(en%)
1950
3,0
1962
1,2
1974
10,9
1986
4,1
1951
10,6
1963
1,7
1975
10,8
1987
4,4
1952
2,3
1964
1,8
1976
7,5
1988
4,1
1953
-0,8
1965
2,4
1977
8,0
1989
4,9
1954
0,6
1966
3,7
1978
8,9
1990
4,8
1955
0,0
1967
3,6
1979
9,2
1991
5,6
1956
1,5
1968
4,0
1980
10,2
1992
1,6
1957
3,1
1969
4,5
1981
12,5
1993
1,8
1958
2,5
1970
3,4
1982
10,8
1994
0,2
1959
1,1
1971
2,8
1983
5,8
1995
2,1
1960
1,3
1972
4,8
1984
4,4
1996
1,6
1961
1,0
1973
7,6
1985
4,0
1997
1,6
19
90
19
80
19
70
19
60
-5
19
50
FIGURE 11.6
11 Sries chronologiques
11.3
367
DSAISONNALISATION
Il arrive frquemment qu'une srie chronologique prsente des fluctuations
rgulires et prvisibles induites par un cycle naturel qui agit directement
sur le phnomne mesur. L'exemple le plus loquent est sans doute celui de
la temprature. Si l'on mesurait, chaque heure et durant plusieurs annes,
la temprature qu'il fait en un point donn, on observerait deux cycles : un
cycle annuel (il fait plus chaud l't que l'hiver) et un cycle journalier (il fait
plus chaud le jour que la nuit). Sur ces deux cycles rguliers se superposent
des variations plus capricieuses, moins systmatiques et qu'on ne peut
prvoir long terme. Une srie chronologique est dsaisonnalise quand on
a soustrait chaque terme de la srie la quantit correspondant ces effets
priodiques.
EXEMPLE 6
368
y 1 , y 2 , , y T
o les
yt
en leur
x xt x j
yt
xt x j x
Le tableau 11.7 donne les taux de chmage dans une certaine rgion, au
cours des 98 derniers mois.
Le taux moyen de chmage est x = 6,6. Remarquons que la moyenne
ordinaire des 98 observations est x = 6,57. La diffrence entre ces deux
moyennes est due au fait qu'on dispose de 9 observations pour les mois de
mai et de juin alors qu'on n'en a que 8 pour chacun des 10 autres mois.
Le taux moyen pour janvier (8,2) dpasse de 1,6 la moyenne annuelle qui est
de 6,6. Pour janvier, l'effet de phase est donc de 1,6. Poursuivant ces calculs
pour chacun des 12 mois de l'anne on obtient que les effets de phase, de
janvier dcembre, sont, respectivement,
1,6
1,8
1,3
0,1
-1,0
-1,3
-1,3
-1,3
-1,3
-0,4
0,3
1,5
11 Sries chronologiques
369
TABLEAU 11.7
Anne
Jan.
Fv.
Mars
Avr.
Mai
Juin
Juill.
Aot
Sept.
Oct.
Nov.
5,2
5,0
5,0
5,5
5,4
6,3
7,2
Dc.
8,8
8,5
8,7
7,9
6,8
6,2
5,9
6,4
6,3
6,5
7,6
7,9
9,4
9,7
9,6
8,4
7,2
6,4
6,1
6,6
6,6
6,2
7,2
7,5
8,5
8,8
8,7
8,2
6,7
5,5
5,2
4,9
4,8
4,9
6,8
6,8
7,9
7,8
7,7
6,9
5,7
5,2
4,4
4,3
4,2
4,4
5,1
6,8
7,0
7,0
7,0
7,0
5,7
4,6
4,6
3,9
4,0
4,1
4,7
5,6
7,0
7,4
8,3
8,3
7,9
6,4
6,0
6,0
5,4
5,3
6,0
6,5
8,0
8,1
8,1
7,9
7,1
6,0
5,2
5,0
5,4
5,3
6,2
6,9
8,4
8,5
8,9
8,3
6,5
5,2
4,9
Moyennes
8,2
8,4
7,9
6,7
5,6
5,3
5,3
5,3
5,3
6,2
6,9
8,1
TABLEAU 11.8
Anne
Jan.
Fv.
Mars
Avr.
Mai
juin
Juill.
Aot
Sept.
Oct.
Nov.
Dc.
6,2
6,3
6,3
6,8
6,7
6,7
6,9
7,3
6,9
6,9
6,6
6,7
7,2
7,2
7,7
7,6
7,8
8,0
7,6
7,9
8,1
7,8
7,1
7,1
7,4
7,4
7,9
7,9
7,5
7,6
7,2
7,0
7,2
6,9
6,9
6,6
6,5
6,5
6,2
6,1
6,2
7,2
6,5
6,4
6,2
5,9
5,6
5,6
6,2
5,7
5,6
5,5
5,7
5,5
6,5
5,5
5,4
5,2
5,7
5,6
5,6
5,9
5,2
5,3
5,4
5,1
5,3
5,5
5,8
6,5
7,0
7,8
7,4
7,3
7,3
6,7
6,6
6,4
6,2
6,5
6,5
6,3
6,6
7,0
7,0
6,5
6,3
6,7
6,6
6,6
6,6
6,9
6,9
7,1
7,0
6,4
6,2
6,2
370
11.4
f t Y t
11 Sries chronologiques
371
tX t t X t
t t
2
X b t T .
6 2 tX t T 1 X t
T T 1
a
X b T 1 2.
a bt 0 . Ce f t 0
Production de
bl
Anne
Production de
bl
1971
1972
1973
1974
1975
1976
1977
1978
1979
1
2
3
4
5
6
7
8
9
14,4
14,5
16,2
13,3
17,1
23,6
19,9
21,1
17,2
1980
1981
1982
1983
1984
1985
1986
1987
1988
10
11
12
13
14
15
16
17
18
19,3
24,8
26,7
26,5
21,2
24,3
31,4
25,9
15,9
Anne
Production de
bl
1989
1990
1991
1992
1993
1994
1995
1996
19
20
21
22
23
24
25
26
24,8
32,1
31,9
29,9
27,2
22,9
25,0
29,8
372
FIGURE 11.7
Production canadienne de bl (en millions de tonnes) de 1971 1996 et prdiction pour l'an 2010.
prdiction 37,7
50
40
30
20
10
0
1970
1975
1980
1985
1990
1995
2000
2005
2010
6 2 tX t T 1 X t
T T 1
a
X b T 1 2
596 , 9
26
6 2 u 8 872 27 u 596 , 9
9 766 , 2
26 676 1
17 550
0 , 556 5 u 13 , 5
0 , 556 5
15 , 445.
37 , 7 .
11 Sries chronologiques
373
1991
1992
1993
1994
Nombre de
Nombre de
Anne
535 000
1995
6 642 000
992 000
1996
12 881 000
1 776 000
1997
19 540 000
3 212 000
1998
36 739 000
sites internet
sites internet
Quel devrait tre le nombre de sites internet dans le monde en l'an 2005 ?
Visiblement, ces donnes ne sont pas en progression linaire. Une
progression exponentielle est beaucoup plus naturelle. Chacune de ces T = 8
donnes sera donc remplace par son logarithme (nous utiliserons les
374
Xt
122, 657 3 et
t Xt
577, 547 0
0 , 609 27
8 u 63
a
122 , 657 3
8
0 , 609 27 u 9
12 , 590 45
15 , onobtient f ( t 0 )
a b t 0
12 , 590 45 0 , 609 27
21, 729 50. Rappelons que cette valeur correspond au logarithme du nombre
de sites internet en l'an 2005. Le nombre de sites internet devrait tre voisin
de e 21, 729 50 2 , 735 milliards.
Les figures 11.8 et 11.9 illustrent graphiquement ces rsultats.
FIGURE 11.8
22
20
18
16
14
12
1990
1995
2000
2005
11 Sries chronologiques
P.N.B. canadien (en milliards de dollars) et extrapolation exponentielle jusqu' l'an 2000.
prdiction 2,735 milliards
2
Milliards
FIGURE 11.9
375
0
1990
1995
2000
2005
Il va de soi que la prdiction qui vient d"tre calcule pour l'an 2005 ne sera
valide que si, entre les annes 1998 et 2005, le nombre de sites internet
parvient conserver le mme taux d'accroissement que celui qui a t
observ durant les annes 1991 1998 (c'est--dire, pratiquement doubler
chaque anne). Cette supposition est hautement irraliste car elle mne,
moyen terme, des rsultats absurdes. Ds 2005, on obtient une prdiction
du nombre de sites internet correspondant prs de 40 % de la population
mondiale. i on voulait faire une prdiction pour l'an 2030, on obtiendrait
environ un million de site internet par habitant de la plante. Disons
simplement, pour conclure, que la nature a horreur des progressions
exponentielles . court terme, a peut aller, mais long terme, il faut tre
prudent et user de son jugement, ce qui dborde du champ des simples
techniques mathmatiques.
376
11.5
X t
f t
observations qui ont la mme phase que X t , c'est--dire, dont les indices
diffrent de t par un multiple exact de la priode k.
Les carts D t
11 Sries chronologiques
377
Dt
Dt
Dt
Dt
0,937
-0,432
11
-0,998
16
0,822
1,883
-0,637
12
-1,183
17
0,358
1,499
0,057
13
-0,507
18
0,227
-0,063
-1,050
14
-0,447
19
-0,623
0,134
10
-0,978
15
0,728
20
0,273
D t+ 1
-1
-2
-2
-1
378
0 , 273 ; X i2
13 , 973 ; Y i
0 , 937 ; Y i 2
13 ,170 et X i Y i
n 2r
1 r 2
3 , 62 ,
bruit blanc.
RSUM
1. Une srie chronologique est une suite de mesures
x1 , x 2 , , x T
r
c i x t i
i r
r
c i
i r
2 x T x T 1 .
11 Sries chronologiques
379
4. Lorsque l'unit de mesure n'a pas une valeur constante, il faut en tenir
compte pour comparer convenablement des mesures effectues des
moments diffrents. On utilise alors une table qui indique les valeurs
successives de l'unit de mesure et qui, par commodit, accorde souvent
une valeur conventionnelle de 100 pour un certain instant de rfrence.
5. Une srie chronologique dans laquelle se manifestent des fluctuations
rgulires de priode k peut tre dsaisonnalise en soustrayant
chaque observation x t l'effet de phase x j x correspondant l'indice t.
La
quantit
xj
est
la
moyenne
de
toutes
les
observations
f t Y t
6 2 tX t T 1 X t
T T 1
a
et f ( t 0 ) peut tre estim par f t 0
X b T 1 2
a bt 0 .
380
EXERCICES
TECHNIQUES DE
LISSAGE
Nombre
Nombre
Nombre
Anne
d'immigrants
Anne
d'immigrants
Anne
d'immigrants
Anne
d'immigrants
1960
104 111
1967
222 876
1974
218 465
1981
128 618
1961
71 689
1968
183 974
1975
187 881
1982
121 147
1962
74 586
1969
161 531
1976
149 429
1983
89 157
1963
93 151
1970
147 713
1977
114 914
1984
88 239
1964
112 606
1971
121 900
1978
86 313
1985
84 302
1965
146 758
1972
122 006
1979
112 096
1986
99 219
1966
194 743
1973
184 200
1980
143 117
1987
152 098
1
3
Quelle
11 Sries chronologiques
381
Nombre de naissances
Anne
Nombre de naissances
1925
249 365
1960
478 551
1930
250 335
1965
418 595
1935
228 396
1970
371 988
1940
252 577
1975
359 323
1945
300 587
1980
370 709
1950
372 009
1985
375 727
1955
442 937
1
2
. Quelle
1
2
. Quelle
382
dollars U.S.
0,9276
0,9282
0,9270
0,9281
0,9287
0,9579
0,9903
1,0096
0,9999
1,0225
0,9830
1,0141
0,9403
0,8770
0,8536
0,8554
0,8340
0,8103
0,8114
0,7723
0,7325
0,7197
0,7541
livres
0,3318
0,3323
0,3372
0,3877
0,3885
0,3997
0,4051
0,4033
0,4076
0,4370
0,4426
0,5615
0,5385
0,4568
0,4023
0,3677
0,4117
0,4634
0,5352
0,5780
0,5649
0,4905
0,4603
francs
4,5454
4,6000
4,6000
4,5956
4,8123
5,2938
5,4555
5,0891
4,4307
4,9140
4,2070
4,8379
4,6189
3,9448
3,6311
3,6088
4,3346
5,3050
6,1576
6,7250
6,5232
4,9751
4,5290
marks
3,7051
3,7120
3,6955
3,7051
3,6417
3,4928
3,4483
3,2175
2,6441
2,6420
2,4131
2,5510
2,1805
1,7572
1,5640
1,5518
1,8804
1,9662
2,0687
2,1911
2,1381
1,5564
1,3543
yens
333,8898
336,1345
335,6831
334,5601
332,7787
342,9355
343,4066
305,8104
270,5628
298,1515
291,5452
300,5711
251,2563
182,4818
186,0465
192,9385
183,4862
201,3693
192,6782
183,2509
173,4004
120,5400
108,8376
11 Sries chronologiques
383
en dollars U.S.
Prix du ptrole
Anne
en dollars U.S.
1970
4,5
1979
60,2
1971
5,8
1980
100,0
1972
6,6
1981
113,4
1973
9,4
1982
116,8
1974
34,4
1983
102,2
1975
37,4
1984
99,3
1976
40,1
1985
99,3
1977
43,3
1986
45,0
1978
44,3
1987
50,0
384
9.
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Samedi
142
89
95
176
316
338
10
11
12
13
(ferm)
108
85
103
178
330
320
14
15
16
17
18
19
20
(ferm)
112
77
86
158
352
307
21
22
23
24
25
26
27
(ferm)
97
82
92
196
308
335
28
29
30
31
(ferm)
130
70
102
11 Sries chronologiques
385
Jan.
Fv.
Mars
Avr.
Mai
Juin
Juill.
Aot
Sept.
Oct.
Nov.
Dc.
-10
-9
-3
13
18
21
20
15
-7
72
65
74
74
66
82
90
92
88
76
81
87
(C)
Prcipitations
(mm)
SOURCE : Environnement Canada
11. Le tableau suivant indique, pour chacune des annes 1980 1987 quel
tait, au Canada, le prix moyen de l'huile chauffage, du gaz naturel et
de l'lectricit.
a) En supposant que la progression des prix de ces trois produits est
linaire, valuez les paramtres des droites de rgression et prdisez
les prix pour 1990, 1995, 2000.
Huile chauffage
Gaz naturel
( par litre)
( par m )
( par kWh)
1980
16,9
10,6
3,3
1981
24,4
13,2
3,7
1982
30,1
15,4
4,1
1983
33,3
18,0
4,2
1984
35,5
18,5
4,8
1985
38,3
19,4
5,0
1986
30,9
19,3
5,2
1987
29,1
18,6
5,4
Anne
lectricit
386
Canada
1951
1961
1971
1981
14 009
18 238
21 568
24 343
Ontario
4 598
6 236
7 703
8 625
Qubec (prov.)
4 056
5 259
6 028
6 438
Montral
1 539
2 216
2 743
2 828
Toronto
1 262
1 919
2 628
2 999
Vancouver
586
827
1 082
1 268
Ottawa-Hull
312
457
603
718
Qubec (ville)
289
379
481
576
1980
Dette fdrale
Dette
per capita
72 159
2 999
Anne
1984
Dette fdrale
Dette
per capita
160 768
6 399
1981
85 681
3 520
1985
199 092
7 850
1982
100 553
4 082
1986
233 496
9 209
1983
128 369
5 158
1987
264 101
10 356
11 Sries chronologiques
387
98
t 1 Dt
0 , 7 ;
98
t 1 D t2
54 , 49 ;
97
t 1 D t D t 1
48 , 22
16. Dterminez les valeurs des rsidus obtenus aprs dsaisonnalisation des
donnes du problme 9 portant sur le nombre de clients qui se sont
prsents chaque jour dans un certain tablissement commercial.
Reprsentez graphiquement ces rsidus. Semblent-ils tre un bruit
blanc ?
17. Le tableau de la page suivante indique (en dollars amricains de l'anne)
les valeurs relatives des prix internationaux de quelques produits
agricoles et miniers. La dernire colonne donne l'indice des prix la
consommation aux tats-Unis. Dans chaque colonne, l'indice vaut 100
pour l'anne de rfrence 1980.
a) Exprimez tous les prix en dollars constants de 1980.
b) En quelle anne chacun de ces produits tait-il le plus cher ? le
moins cher (en dollars constants) ?
388
Sucre
Argent
Cuivre
1970
Caf
33,5
Th
49,0
25,0
8,6
64,4
dollar U.S.
47,12
1971
29,6
47,3
26,0
7,5
49,5
49,15
1972
33,4
47,3
28,4
8,2
49,0
50,77
1973
41,2
47,5
34,3
12,4
81,3
53,93
1974
45,1
62,6
98,2
22,9
94,1
59,85
1975
48,1
62,0
74,8
21,5
56,6
65,32
1976
94,2
69,0
44,3
21,2
64,2
69,08
1977
152,0
120,7
36,6
22,5
59,9
73,58
1978
102,8
98,3
46,5
26,2
62,5
79,17
1979
112,5
96,8
54,7
53,9
90,3
88,13
1980
100,0
100,0
100,0
100,0
100,0
100,00
1981
76,8
90,6
65,7
51,1
79,8
110,35
1982
83,4
86,7
66,3
38,6
67,8
117,15
1983
84,9
104,3
73,4
55,6
72,9
120,91
1984
93,7
155,2
72,4
39,6
63,0
126,07
1985
88,6
89,0
67,8
29,8
64,9
130,55
1986
113,0
86,6
69,8
26,6
62,7
133,06
1987
71,2
76,6
72,7
34,1
112,3
137,90
18. Le tableau suivant indique combien de clients ont fait affaire avec une
certaine agence de voyages durant chacun des trimestres des cinq
dernires annes.
Anne
Jan.-Mars
Avril-Juin
Juill.-Sept.
Oct.-Dc.
1 248
2 172
634
1 038
1 273
1 304
1 029
1 866
1 081
1 614
852
1 578
1 483
2 233
1 234
1 874
2 023
2 607
1 120
1 981
11 Sries chronologiques
389
Appendices
Liste des rfrences
La notation de sommation
du binme de Newton
n
x
TABLE
1 : Coefficients
TABLE
TABLE
TABLE
4 : Loi de Student tv
392
Testing
with
Scanners".
Journal of
Appendices
393
394
La notation de sommation
n
Le symbole
xi
i 1
EXEMPLE 1
Soit x 1
2, x 2
3, x 3
1 . Alors :
5, x 4
xi
x1 x 2 x 3 x 4
2 3 5 1 11
i 1
3
xi
x1 x 2 x 3
2 3 5 10
x2 x3 x4
3 5 1 9
i 1
4
xi
i 2
i
Lorsqu'on manipule le symbole de sommation, il est utile de
retenir les quelques rgles suivantes :
EXEMPLE 2
a)
i 1 kx i
b)
i 1 k
c)
i 1 x i
yi
Soit x 1
2, x 2
n
i 1
3, x 3
x i i 1 y i
5, x 4
1 ; et y 1
i 1 kx i
7, y 2
kx 1 kx 2 kx 3 kx 4
i 1
3 u 2 3 u 3 3 u 5 3 u 1 33
4
k xi
k x1 x 2 x 3 x 4
11 et y 4
5.
et k i 1 x i pour illustrer la
kx i
9, y 3
i 1
3 2 3 5 1 3 11 33
Appendices
n
i 1 k
b) L'expression
395
3333
4 u 3 12
i 1
i 1 x i
4
c) Nous valuons
yi
et
i 1
x i i 1 y i pour illustrer la
x i
yi
y i x 2 y 2 x 3 y 3 x 4 y 4
i 1
2 7 3 9 5 11 1 5
4
i 1
i 1
x i y i x1 x 2 x 3 x 4 y 1 y 2
n
i 1 x i y i
et
y3 y4
2 3 5 1 7 9 11 5
d) Les deux expressions
43
43
n
i 1
xi
n
i 1
yi
ne doivent
xi yi
xi yi x2 y 2 x3 y3 x4 y 4
i 1
2 u 7 3 u 9 5 u 11 1 u 5 101
4
x i
i1
4
y i
i 1
2 3 5 1 7 9 11 5
x i2
2 3 5 1
2 3 5 1 2
11
avec
4 9 25 1 39
i 1
4
x i
i1
i 1 x i2
11 u 32
121
352
n
i 1
xi
396
f)
x i2 y i
389 ;
i 1
x i2
yi
i 1
3 x i2 2 x i y i
y i2
i 1
i 1
i 1
x i2 y i2
315
i 1
i 1
i 1
3 x i2 2 x i y i y i2
595
i
Exercices
Soit x 1
5, x 2
3, x 3
7, x 4
11, x 5
13 ; y 1
8, y 2
5, y 3
Calculez :
a)
i 1 2 x i
b)
i 1 x i
c)
i 1 2 x i
d)
i 1 x i
e)
i 1 2 x i
2
5
2
3 yi
yi
3 yi 8
16 , y 4
18 , y 5
19 .
Appendices
TABLE 1
Coefficients
397
du binme de Newton
n
x
n\x
10
11
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0
0
1
3
6
10
15
21
28
36
45
55
66
78
91
105
120
136
153
171
190
0
0
0
1
4
10
20
35
56
84
120
165
220
286
364
455
560
680
816
969
1 140
0
0
0
0
1
5
15
35
70
126
210
330
495
715
1 001
1 365
1 820
2 380
3 060
3 876
4 845
0
0
0
0
0
1
6
21
56
126
252
462
792
1 287
2 002
3 003
4 368
6 188
8 568
11 628
15 504
0
0
0
0
0
0
1
7
28
84
210
462
924
1 716
3 003
5 005
8 008
12 376
18 564
27 132
38 760
0
0
0
0
0
0
0
1
8
36
120
330
792
1 716
3 432
6 435
11 440
19 448
31 824
50 388
77 520
0
0
0
0
0
0
0
0
1
9
45
165
495
1 287
3 003
6 435
12 870
24 310
43 758
75 582
125 970
0
0
0
0
0
0
0
0
0
1
10
55
220
715
2 002
5 005
11 440
24 310
48 620
92 378
167 960
0
0
0
0
0
0
0
0
0
0
1
11
66
286
1 001
3 003
8 008
19 448
43 758
92 378
184 756
0
0
0
0
0
0
0
0
0
0
0
1
12
78
364
1 365
4 368
12 376
31 824
75 582
167 960
n
x
TABLE 2
n
n x
Degr
s de
libert
Q
D = 10 %
D= 5 %
D= 1 %
1
2
3
4
5
6
7
8
9
10
11
12
13
2,706
4,605
6,251
7,779
9,236
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
3,841
5,991
7,815
9,488
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
6,635
9,210
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
Point critique C
Degr
de
libert
Q
D = 10 %
D=5%
D=1%
14
15
16
17
18
19
20
21
22
23
24
25
26
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
Point critique C
Degr
s de
libert
Q
D = 10 %
D=5%
D = 1%
27
28
29
30
40
50
60
70
80
90
100
36,74
37,92
39,09
40,26
51,81
63,17
74,40
85,53
96,58
107,6
118,5
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,9
113,1
124,3
46,96
48,28
49,59
50,89
63,69
76,15
88,38
100,4
112,3
124,1
135,8
Point critique C
398
TABLE 3
x
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
0,00
0,5000
0,4602
0,4207
0,3821
0,3446
0,3085
0,2743
0,2420
0,2119
0,1841
0,1587
0,1357
0,1151
0,0968
0,0808
0,0668
0,0548
0,0446
0,0359
0,0287
0,0228
0,0179
0,0139
0,0107
0,0082
0,0062
0,0047
0,0035
0,0026
0,0019
0,0013
0,0010
0,0007
0,0005
0,0003
0,0002
0,0002
0,0001
0,0001
0,0000
0,01
0,4960
0,4562
0,4168
0,3783
0,3409
0,3050
0,2709
0,2389
0,2090
0,1814
0,1562
0,1335
0,1131
0,0951
0,0793
0,0655
0,0537
0,0436
0,0351
0,0281
0,0222
0,0174
0,0136
0,0104
0,0080
0,0060
0,0045
0,0034
0,0025
0,0018
0,0013
0,0009
0,0007
0,0005
0,0003
0,0002
0,0002
0,0001
0,0001
0,0000
0,02
0,4920
0,4522
0,4129
0,3745
0,3372
0,3015
0,2676
0,2358
0,2061
0,1788
0,1539
0,1314
0,1112
0,0934
0,0778
0,0643
0,0526
0,0427
0,0344
0,0274
0,0217
0,0170
0,0132
0,0102
0,0078
0,0059
0,0044
0,0033
0,0024
0,0018
0,0013
0,0009
0,0006
0,0005
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,03
0,4880
0,4483
0,4090
0,3707
0,3336
0,2981
0,2643
0,2327
0,2033
0,1762
0,1515
0,1292
0,1093
0,0918
0,0764
0,0630
0,0516
0,0418
0,0336
0,0268
0,0212
0,0166
0,0129
0,0099
0,0075
0,0057
0,0043
0,0032
0,0023
0,0017
0,0012
0,0009
0,0006
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,04
0,4840
0,4443
0,4052
0,3669
0,3300
0,2946
0,2611
0,2296
0,2005
0,1736
0,1492
0,1271
0,1075
0,0901
0,0749
0,0618
0,0505
0,0409
0,0329
0,0262
0,0207
0,0162
0,0125
0,0096
0,0073
0,0055
0,0041
0,0031
0,0023
0,0016
0,0012
0,0008
0,0006
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,05
0,4801
0,4404
0,4013
0,3632
0,3264
0,2912
0,2578
0,2266
0,1977
0,1711
0,1469
0,1251
0,1056
0,0885
0,0735
0,0606
0,0495
0,0401
0,0322
0,0256
0,0202
0,0158
0,0122
0,0094
0,0071
0,0054
0,0040
0,0030
0,0022
0,0016
0,0011
0,0008
0,0006
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,06
0,4761
0,4364
0,3974
0,3594
0,3228
0,2877
0,2546
0,2236
0,1949
0,1685
0,1446
0,1230
0,1038
0,0869
0,0721
0,0594
0,0485
0,0392
0,0314
0,0250
0,0197
0,0154
0,0119
0,0091
0,0069
0,0052
0,0039
0,0029
0,0021
0,0015
0,0011
0,0008
0,0006
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,07
0,4721
0,4325
0,3936
0,3557
0,3192
0,2843
0,2514
0,2206
0,1922
0,1660
0,1423
0,1210
0,1020
0,0853
0,0708
0,0582
0,0475
0,0384
0,0307
0,0244
0,0192
0,0150
0,0116
0,0089
0,0068
0,0051
0,0038
0,0028
0,0021
0,0015
0,0011
0,0008
0,0005
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
0,08
0,4681
0,4286
0,3897
0,3520
0,3156
0,2810
0,2483
0,2177
0,1894
0,1635
0,1401
0,1190
0,1003
0,0838
0,0694
0,0571
0,0465
0,0375
0,0301
0,0239
0,0188
0,0146
0,0113
0,0087
0,0066
0,0049
0,0037
0,0027
0,0020
0,0014
0,0010
0,0007
0,0005
0,0004
0,0003
0,0002
0,0001
0,0001
0,0001
0,0000
Valeurs spciales :
P(N(0,1) > 1,282) | 0,10 P(N(0,1) > 1,645) | 0,05 P(N(0,1) > 1,960) | 0,025
P(N(0,1) > 2,326) | 0,01 P(N(0,1) > 2,576) | 0,005 P(N(0,1) > 3,090) | 0,001
0,09
0,4641
0,4247
0,3859
0,3483
0,3121
0,2776
0,2451
0,2148
0,1867
0,1611
0,1379
0,1170
0,0985
0,0823
0,0681
0,0559
0,0455
0,0367
0,0294
0,0233
0,0183
0,0143
0,0110
0,0084
0,0064
0,0048
0,0036
0,0026
0,0019
0,0014
0,0010
0,0007
0,0005
0,0003
0,0002
0,0002
0,0001
0,0001
0,0001
0,0000
Appendices
TABLE 4
Loi de Student tQ
0,25
0,10
0,05
0,025
0,01
0,005
0,0025
0,001
0,0005
Q
1
2
3
4
1,000
0,816
0,765
0,741
3,078
1,886
1,638
1,533
6,314
2,920
2,353
2,132
12,706
4,303
3,182
2,776
31,821
6,965
4,451
3,747
63,657
9,925
5,841
4,604
127,320
14,089
7,453
5,598
318,310
22,327
10,214
7,173
636,620
31,598
12,924
8,610
5
6
7
8
9
0,727
0,718
0,711
0,706
0,703
1,476
1,440
1,415
1,397
1,383
2,015
1,943
1,895
1,860
1,833
2,571
2,447
2,365
2,306
2,262
3,365
3,143
2,998
2,896
2,821
4,032
3,707
3,499
3,355
3,250
4,773
4,317
4,029
3,833
3,690
5,893
5,208
4,785
4,501
4,297
6,869
5,959
5,408
5,041
4,781
10
11
12
13
14
0,700
0,697
0,695
0,694
0,692
1,372
1,363
1,356
1,350
1,345
1,812
1,796
1,782
1,771
1,761
2,228
2,201
2,179
2,160
2,145
2,764
2,718
2,681
2,650
2,624
3,169
3,106
3,055
3,012
2,977
3,581
3,497
3,428
3,372
3,326
4,144
4,025
3,930
3,852
3,787
4,587
4,437
4,318
4,221
4,140
15
16
17
18
19
0,691
0,690
0,689
0,688
0,688
1,341
1,337
1,333
1,330
1,328
1,753
1,746
1,740
1,734
1,729
2,131
2,120
2,110
2,101
2,093
2,602
2,583
2,567
2,552
2,539
2,947
2,921
2,898
2,878
2,861
3,286
3,252
3,222
3,197
3,174
3,733
3,686
3,646
3,610
3,579
4,073
4,015
3,965
3,922
3,883
20
21
22
23
24
0,687
0,686
0,686
0,685
0,685
1,325
1,323
1,321
1,319
1,318
1,725
1,721
1,717
1,714
1,711
2,086
2,080
2,074
2,069
2,064
2,528
2,518
2,508
2,069
2,492
2,845
2,831
2,819
2,500
2,797
3,153
3,135
3,119
2,807
3,091
3,552
3,527
3,505
3,104
3,467
3,850
3,819
3,792
3,767
3,745
25
26
27
28
29
0,684
0,684
0,684
0,683
0,683
1,316
1,315
1,314
1,313
1,311
1,708
1,706
1,703
1,701
1,699
2,060
2,056
2,052
2,048
2,045
2,485
2,479
2,473
2,467
2,462
2,787
2,779
2,771
2,763
2,756
3,078
3,067
3,057
3,047
3,038
3,450
3,435
3,421
3,408
3,396
3,725
3,707
3,690
3,674
3,659
30
40
60
120
0,683
0,681
0,679
0,677
0,674
1,310
1,303
1,296
1,289
1,282
1,697
1,684
1,671
1,658
1,645
2,042
2,021
2,000
1,980
1,960
2,457
2,423
2,390
2,358
2,326
2,750
2,704
2,660
2,617
2,576
3,030
2,971
2,915
2,860
2,807
3,385
3,307
3,232
3,160
3,090
3,646
3,551
3,460
3,373
3,291
399
f)
0,540 4
0,341 3
0,098 8
0,017 3
0,002 1
0,000 2
11
12
0,000 2
0,002 9
0,120 8
0,225 6
0,120 8
0,002 9
0,000 2
j)
401
c)
50 42 , 86 2
42 , 86
35 42 , 86 2
42 , 86
3, 29.
Bien que ce ne soit pas toujours le sens qu'on lui attribue, le terme
reprsentatif sera considr ici comme synonyme de tir au
hasard . L'hypothse nulle est donc que l'chantillon a t tir au
hasard, auquel cas il devrait comprendre 20 % de blessures
mortelles, 30% de blessures trs graves, 30 % de blessures graves et
20 % de blessures pas graves .
402
b)
17. Une faon parmi d'autres de procder : former les classes 10 000-19 999,
20 000-29 999, ..., 90 000-99 999 et compter le nombre de numros
gagnants dans chacune. F 2 = 1,25 avec 8 degrs de libert, ce qui n'est
pas significatif : on ne peut pas conclure que certaines classes de
numros ont plus de chances de gagner que d'autres. (En fait, la valeur
observe de F 2 est si petite qu'elle veille de nouveaux soupons : la
distribution est trop uniforme.) La mme hypothse peut tre teste en
comptant le nombre de fois que paraissent chacun des chiffres 0, 1, 2,
..., 9. Les effectifs thoriques sont 28,8 pour le chiffre 0 et 36,8 pour
chacun des autres (rappelons que le premier chiffre ne peut pas tre 0).
Les effectifs observs sont 6, 67, 61, 42, 31, 25, 29, 44, 29 et 26, ce qui
donne F 2 = 72,07. Avec Q = 9, la valeur critique est 16,93. L'hypothse
est donc rejete.
19. F 2 = 2,05 avec 1 degr de libert. Les donnes sont conformes
l'hypothse que l'chantillon a t tir au hasard.
20. F 2 = 22,63 avec 9 degrs de libert. Il y a une diffrence significative
entre la population et l'chantillon en ce qui concerne la rpartition selon
le niveau et le sexe.
21. F 2 = 53,1 avec 6 degrs de libert et c = 12,59. L'chantillon semble
avoir t prlev d'une manire telle que certains groupes d'ge ont t
favoriss par rapport d'autres. (Le problme soulev ici est plus
complexe qu'il ne parat. Les chercheurs n'ont pas, en fait, prlev leur
chantillon d'une faon purement alatoire : ils ont utilis un mode
d'chantillonnage appel chantillonnage par grappes. Ce mode
d'chantillonnage n'a pas les mmes proprits probabilistes que
l'chantillonnage alatoire simple et on ne peut pas, sans un examen
plus approfondi, interprter le rsultat de ce test et expliquer la
contradiction entre la conclusion tire ici et celle du numro 19.)
22. F 2 = 175,91, avec 1 degr de libert. L'chantillon est beaucoup plus
scolaris que la population. (Les auteurs du rapport signalent que leur
chantillon a t prlev en 1978 alors que le recensement date de 1971,
et c'est cela qu'ils attribuent la diffrence entre les proportions
chantillonnales et les proportions de la population. Bien que ce facteur
ait srement contribu la diffrence, il est peu vraisemblable qu'il
l'explique entirement.)
403
23. a)
b)
c)
d)
24. a)
b)
c)
d)
25. a)
c)
26. a)
b) Les effectifs thoriques sont 129 ; 80,6 ; 80,6 ; 80,6 et 129. F 2 = 0,04.
Le patron n'a pas raison de dire qu'il y a des abus.
CHAPITRE 2
1. a)
b)
c)
Q1
1, Q 2
3, Q 3
9.
b)
Q1
4, Q 2
6, Q3
8.
c)
Q1
2, Q 2
2, Q3
12 .
4. a)
Q1
8, Q 2
16 , Q 3
b)
x = 0, Q1
24 .
10 , Q 2 = mdiane = 0, Q 3
10.
5. Numro 1 :
a) s2 = 2,562 5 ; s = 1,600 78.
b) s2 = 12,988 57 ; s = 3,603 97.
c) s2 = 5,269 375 ; s = 2,295 51.
Numro 2:
a) s2 = 2 ; s = 1,414 21.
b) s2 = 44,56 ; s = 6,675 33.
c) s2 = 50 ; s = 7,071 07.
6. s = 6,356 1 pour A et s = 1,414 2 pour B ; A est plus dispers.
7. s = 14,142 1 pour A et s = 12,664 9 pour B ; A est plus dispers.
8. s = 7,071 1 pour les deux sries.
9. s = 7,071 068 pour A et s = 35,355 3 = 5(7,071 068) pour B.
11. Numro 3 : a) E = 8. b) E = 8 - 4 = 4. c) E = 12 - 2 = 10.
Numro 4 : a) E = 16. b) E = 20.
16. S X = 1,612 5 ; S Y = 1,095 4.
17. x
2 ,8, x
9, 2, s
x x
9 , 2 2 ,8
1, 36 ; s
405
Q 3 Q1
95
4.
Q 3 Q1 # 16 , 9 5 , 4 11, 5.
b) E
9
5
32 x
32
9
5
18
64 , 4 et s
2
x
9 2
5
2
x
25
9 2
5
9
5
X. Donc
81.
22. Z = 1.
23. x = 8,s = 2. Les cinq cotes Z sont donc -1,5, -0,5, 0, 0,5 et 1,5. Ces cinq
nombres ont, comme il se doit, une moyenne de zro et une variance 1.
24. Votre cote Z est 2,4. La proportion de la population dont la cote Z est, en
1
valeur absolue, suprieure 2,4 est au maximum
= 0,173 61 ce
2
2,4
406
38. L'cart-type dpend de l'unit de mesure. Si, par exemple, X est la taille
en pouces et Y la taille en centimtres, alors Y = 2,54X et SY = 2,54SX. La
cote Z, par contre, reste inchange.
39. A est mieux situ par rapport sa classe que B par rapport la sienne.
40. Celui qui a eu 80 l'intra a un meilleur rsultat global.
41. Il serait raisonnable d'attribuer la baisse des recettes aux travaux
municipaux car une cote Z de -5 est trs significative.
42. La proportion de bons rouleaux rejets sera au maximum de 11,11 %.
43. 1 398 852,50 $.
44. a) Pour les hommes : 9,832 2 ; pour les femmes : 5,837 3.
b) La diffrence 9,832 2 - 5,837 3 = 3,994 9 n'est pas attribuable une
diffrence d'ge. L'ge joue en faveur des hommes.
45. a) Hommes 7 111 $ ; femmes 3 864 $. Diffrence : 3 247 $.
b) Hommes 6 920 $ ; femmes : 4 125 $. La diffrence 6 920 - 4 125 =
2 795 $ ne peut tre attribue qu' une diffrence de traitements, et
non au fait que les femmes ont travaill moins.
46. a) Pour chaque tranche de revenu, le contribuable a pay moins en
1974 qu'en 1973.
b) Impt moyen par contribuable : 1 057 $ en 1973 et 1 198 $ en 1974.
CHAPITRE 3
1. a) vrai. b) vrai.
c) faux : 9,9 % taient des garons et avaient un poids moyen.
d) vrai.
e) faux 12,8 % des bbs taient des filles et avaient un poids moyen ;
0 , 128
56,4 % ( 0 , 227 )des bbs de poids moyen taient des filles.
2. b)
X
Infrieur 100
Total
Franais
0,150
0,183
0,333
Anglais
0,225
0,275
0,500
Autres
0,075
0,092
0,167
Total
0,450
0,550
1,000
Frquence
TOTAL
19 et moins
De 20 24
De 25 29
30 et plus
0,116
0,356
0,312
0,216
1,000
TOTAL
19 et moins
De 20 24
De 25 29
30 et plus
Masculin
0,117
0,356
0,312
0,216
1,001
Fminin
0,115
0,357
0,312
0,216
1,000
Tous
0,116
0,356
0,312
0,216
1,000
408
TOTAL
Anglicane
Baptiste
Catholique
glise Unie
Anglicane
0,421
0,039
0,329
0,211
1,000
Baptiste
0,120
0,510
0,216
0,154
1,000
Catholique
0,123
0,024
0,707
0,146
1,000
glise Unie
0,149
0,031
0,281
0,538
0,999
409
TOTAL
Suprieure
Intermdiaire
Infrieure
lmentaire
0,078
0,281
0,642
1,001
Secondaire
0,107
0,309
0,584
1,000
Collgial
0,130
0,352
0,518
1,000
trois groupes.
410
b)
souvent bilingues.
15. SAVON
un effet : ceux qui voient les annonces sont plus ports acheter le dner
congel.
La proportion d'acheteurs du produit a t de 1,5 % pour le groupe
tmoin et 3 % pour le groupe exprimental. La diffrence entre les deux
est petite et n'aurait pas t trouve significative avec un chantillon plus
petit. Par exemple, si ces mmes proportions avaient t observes avec
des chantillons de 600, la valeur de F 2 aurait t F 2 = 3,07, ce qui
n'est pas significatif.
16. TAT
MATRIMONIAL
sont plus lues par les hommes que par les femmes.
TAILLE DE LA FAMILLE
19. a)
est nettement
anglophones.
b)
411
suprieur
parmi
ceux
qui
viennent
de
pays
148,65
avec
degrs
de
libert.
Les
distributions
X \Y
TOTAL
5-9
0,522
0,403
0,075
1,000
10-49
0,450
0,302
0,248
1,000
50+
0,516
0,172
0,312
1,000
412
413
Revenus faibles :
Direction prise
Scolarit
Qubec
Reste du Canada
Hors
et continent
continent
TOTAL
amricain
0-11 ans
150
75
25
250
12 ans+
150
75
25
250
TOTAL
300
150
50
500
Revenus levs :
Direction prise
Scolarit
Qubec
Reste du Canada
Hors
et continent
continent
TOTAL
amricain
0-11 ans
20
40
40
100
12 ans+
80
160
160
400
TOTAL
100
200
200
500
414
Du beau temps
t prdite
a t prdit
Il pleut
70
30
100
Il fait beau
30
20
50
Total
100
50
150
Temprature
TOTAL
b)
415
b)
c)
de A et ceux de B.
d) Ne peut tre test avec les mthodes prsentes dans ce chapitre.
Cependant, puisque nous concluons en b) que les buveurs de A font
la diffrence, c'est qu'il y en a une.
CHAPITRE 4
1. a) 26. b) 42. c) 6,87. La droite des moindres carrs est y = 3,1 +
1,15x, et pour cette droite D = 6,41.
2. y = 14,45 - 0,71x
3. La droite est horizontale : pour tout x, y = 6.
4. Lorsque n = 2, il existe une droite qui passe par les deux points, et c'est
ncessairement la droite des moindres carrs, puisque dans ce cas D = 0
et que c'est la plus petite valeur possible de D. Si x1 = x2, la droite de
rgression n'est pas dfinie (la pente est arbitraire).
5. La droite des moindres carrs est y = 2,733 + 2,886x. Les y i sont, dans
l'ordre, 5,619, 8,505, 11,390, 14,276, 17,162, 20,048. Les y i y i sont
0,381,
yi
y i
417
8. y = -7,10 + 1,13 (5) = -1,45. Une note ngative ne peut pas tre
considre comme une estimation raisonnable. Le modle que nous
avons adopt, qui suppose que Y est lie X par une quation linaire
n'est pas correct l'extrieur d'un certain intervalle des valeurs de X.
9. r = -0,96.
10. Le coefficient vaut 1 ou -1, car la droite des moindres carrs passera
forcment par les 2 points.
11. Puisque tous les points sont sur la droite, le coefficient de corrlation
vaut 1.
12. Les variables sont visiblement dpendantes. Mais r = 0. La dpendance
n'est pas linaire.
13. Les valeurs de 2 + 4x sont : 6, 22, 34, 46 ; et les valeurs de 30 + 2y sont :
56, 54, 48, 42. Le coefficient de corrlation est r = -0,96, la mme valeur
qu'avec les donnes originales (exercice 9).
14. Si on change X et Y dans la formule, on obtient la mme formule. Donc
le coefficient de corrlation ne change pas.
15. L'chantillon {(1,3),(2,2),(3,1)} donnera r = -1 ;
L'chantillon {(l,l),(2,2),(3,3)} donnera r = 1 ;
L'chantillon {(1,1), (2,2),(3,1)} donnera r = 0 ;
L'chantillon {(l,l),(2,3),(3,3)} donnera r = 0,87.
Dans la population, le coefficient de corrlation vaut r = 0.
16. a) Z = 0,53. b) Z = 1,08. c) Z = 1,66.
d) Z = 2,31. e) Z = -1,08. f) Z = -3,06.
Si nous prenons Z = 2 comme point critique, on peut dclarer que les
variables sont rellement dpendantes seulement dans les cas d) et f).
17. a) Z = 0,76. b) Z = 1,57. c) Z = 1,85. d) Z = 2,31. On peut conclure
que les variables sont dpendantes seulement dans le dernier cas.
18. a) Puisque c'est la scolarit qui peut avoir une influence sur les
habitudes de lecture, et non l'inverse, nous prenons X = scolarit et
Y = nombre de revues ou livres.
b) r = 0,902.
c) y = -3,28 + 0,588x.
418
419
a'
420
35. a) Pour les femmes, y = 5,17 ; pour les hommes, y = 5,82, une
diffrence de 650 $, plus petite que pour les moyennes non ajustes.
Donc mme si l'on tient compte de leur niveau de scolarit infrieur,
les femmes demeurent moins bien payes.
b) Pour les femmes, y = 5,12 ; pour les hommes y = 6,00 ; une
diffrence de 880 $, plus grande que la diffrence de 818 entre les
moyennes non ajustes. Si les femmes n'avaient pas eu l'avantage
d'avoir t engages plus tard, elles auraient eu un salaire infrieur
de 880 $ celui des hommes.
c) Pour les femmes, y = 4,927 + 0,002 1(100,93) = 5,14 ; pour les
hommes, on peut s'en tenir la moyenne non ajuste de 5,96, o
calculer y = 5,964 - 0,000 1(100,93) = 5,95. Tout porte croire que
l'exprience ne joue pas un rle important dans la dtermination du
salaire initial des hommes.
d) La droite de rgression pour les femmes est plus leve que pour les
hommes gauche du point x = 3,74. On ne doit pas attribuer trop de
signification la droite de rgression des valeurs de x trop loignes
de celles qu'on trouve dans l'chantillon. Donc, il demeure vrai que
pour une scolarit donne, les hommes sont mieux pays que les
femmes.
e) Pour les femmes, y = 5,16 ; pour les hommes, 5,86. Si les femmes et
les hommes avaient eu une scolarit moyenne de 12,51 et une date
d'engagement de 16,72, leurs salaires moyens auraient t de
5 160 $ et 5 860 $, respectivement. La diffrence de 700 $ ne peut
tre explique ni par la diffrence de scolarit ni par la date
d'engagement.
CHAPITRE 5
1. a) {(PPPP), (PPPF), (PPFP), (PFPP), (FPPP), (PPFF), (PFPF), (PFFP), (FPPF),
(FPFP), (FFPP), (PFFF), (FPFF), (FFPF), (FFFP), (FFFF)}.
b) {Libral, Conservateur, NPD, autre rponse ou pas de rponse}.
c) L'ensemble des nombres rels dans un intervalle raisonnable, par
exemple, tous les nombres rels entre -30 et 45.
d) L'ensemble dcrit en c) pourrait convenir.
e) {3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18}.
f)
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}.
g){Urbain, Rural}.
2. a) i) La personne choisie est en faveur de la peine de mort pour le
meurtre d'un policier mais pas pour tout meurtre.
iii) D E = : .
b) C A.
3. a) Non. La balle de golf tant plus grande qu'une bille, on a srement
P(b) > P(j) = P(v).
b) i) Vrai. ii) P(b) ne peut pas tre gal 1 moins que P(j) = P(v) = 0.
iii) Ncessairement vrai. iv) Faux. v) Faux. vi) Ncessairement
vrai, si on admet que P(v) = P(j).
4. a) et b) sont inacceptables parce que la somme des probabilits de tous
les rsultats n'est pas gale 1 ; c) est acceptable ; d) est inacceptable
car l'une des probabilits est ngative.
5. A B = : , l'vnement certain.
A C : la personne choisie est une fille aux yeux bleus.
Ac : la personne choisie n'est pas une fille. Ac = B.
C D : la personne choisie a les yeux bleus et les cheveux blonds.
Cc D : la personne choisie a les cheveux blonds mais pas les yeux
bleus.
A C D : la personne choisie est une fille aux yeux bleus et aux
cheveux blonds.
422
A - C : la personne choisie est une fille qui n'a pas les yeux bleus.
D - C : la personne choisie a les cheveux blonds mais pas les yeux bleus ;
D - C = Cc D.
D - B : la personne choisie est une fille aux cheveux blonds.
6. a) 0,1. b) 0,9. c) 0,4.
7. a) 0,3. b) 0,2. c) 0,6.
8. P(F) = 0,5 ; P(D) = 0,9 ; P(F G) = 0,57 ; P(F D) = 0,47.
9. a) A et B sont incompatibles et dpendants.
b) A et B sont incompatibles et dpendants.
c) A et B ne sont pas incompatibles ni indpendants. A est
sous-ensemble de B.
d) A et B ne sont pas incompatibles. Ils sont presque certainement
indpendants.
e) A et B ne sont ni incompatibles ni indpendants. A est sousensemble de B.
f)
10. a)
. b)
1
1140
7
285
. c)
. d)
23
57
. e)
3
95
16
; p(l) =
; p(2) =
; p(3) =
Var(X) = 1.
14. a) E(X) = 0, 10 $ ; Var(X) = 9,99.
b) E(X) = 0,20 $ ; Var(X) = 19,96.
15. a) E(X) = 1, 10 $ ; Var(X) = 1 008,79.
b) E(X) = 2,20 $ ; Var(X) = 2 015,56.
; p(4) =
16
; E(X) = 2 ;
3
8
5
8
18 18
b) 5
423
1
3
8
5
8
1, 25 $.
X1 X 2
2
= 1,50 $ ; Var(X) =
1
4
19. P(Ac Bc) = P [(A B)c] = 1 - P(A B) = 1 - [P(A) + P(B)] = 0,3, ce qui
contredit P(Ac Bc) = 0,2.
20. a) 2. b) 2. c) 4.
21. 1 -
99 100 30
= 0,260 3.
1 5
3
25. a)
15
25
13
. b)
u 14
24
376
7
20
5 525
. c) 0.
10
25
. b)
u 15
24
1
4
. c)
15
25
3
5
P A B P Ac B
P A P B | A P A c P B | A c
15
25
14
24
10
25
15
24
Autre notation :
P(garon choisi au 2e) = P(GG ou FG) = P(GG) + P(FG) =
26. a)
27. Si K
28. a)
13
. b)
221
2
2
15
1
6
5
6
. b)
13
15
. c)
33
221
. d)
188
221
0 , alors K = 10 $.
.
3
5
424
30. p 1
31. p
2
5
; p 2
. a)
8
3
3
10
; p 3
. b) i)
4
9
1
5
; p 4
1
10
; EX
2.
1
4
. v)
29
36
2
X
= 240.
34. 0 ; 240.
35. a) E(X) = 9 $ ; Var(X) = 12 544. b) i) 25 088 $. ii) 50 176 $.
36. 2,857 %.
37. p.
CHAPITRE 6
1. a) 120. b) 5 040. c) 40 320. d) 3 628 800.
2
3. 5 ! = 120.
4. 6 ! = 720.
5.
6. 18 424.
7.
11
5
= 462 faons de
11
6
(FFFPP),
(FPPFF),
(PPFFP),
(PPPFP),
b)
x
p(x)
1/32
9. a) P(X = 2) =
5
2
1 2
3
2 3
3
5/32
10/32
10/32
5/32
1/32
= 0,329 2.
426
12. b) Non. c)
3 3
4
1 2
4
27
1 024
d) Oui. e)
5
3
10.
f)
5
3
27
1 024
31. P(X t 2) = 1
1
2n
n
2n
1
n 1
2n
427
p(7) = 2(20) 1 2
1,027 34.
35. a) 0,150 3.
b) E(X) = 300, Var(X) = 210, cart-type = 14,49.
c) La valeur X = 250 correspond une cote Z de -3,45, ce qui est
excessif. Le pourcentage de gens en faveur de la peine de mort est
vraisemblablement infrieur 30. La valeur X = 315 correspond
une cote Z de 1,04, ce qui est conforme aux hypothses initiales.
d) Avec n = 10, la valeur X = 4 correspond une cote Z de 0,69, ce qui
n'a rien d'exceptionnel. Avec n = 1 000, par contre, la valeur X = 400
correspond une cote Z de 6,9, ce qui met en doute les hypothses
initiales.
36.
P(x > b|x >a) = P(x > b et x > a)/P(x > a)
=P(x > b)/P(x > a)
=(1-p)b/(1 - p)a
=(1 - p)b - a
=P(x > b - a).
37. a) Il est raisonnable de supposer que l'esprance du nombre de buts
compts par A est la moyenne de deux moyennes : le nombre de buts
compts par A et le nombre de buts subis par B. Donc (4 + 3,2)/2 =
3,6. Pour B, par le mme raisonnement, on a (3,8 + 3,6)/2 = 3,7.
b) (e-3,6/3 ) (e-3,7/3) = 0,087 74.
c)
3 , 6 / 3
3, 6 / 3
2!
= 0,216 9.
428
d)
350 , V
291, 67 . e) P
g)
216 , V
46 440 .
3, 25 , V
1, 863 97 . f) P
36 , V
,V
2
1 260.
429
11 6
3, 6
O d 3,00.
430
CHAPITRE 7
1. a) Non, S = f. b) Oui. c) Oui. d) Oui. e) Oui. f) Oui.
1
2
. c)
3. a) 0,5. b) 0,405.
0,52.
. d) 0,3. e) 0. f) 0,05.
c) 0,4.
d) 0,5.
d) 0,097 222.
f) 0.
g) 0,25. h)
5. a) 0,367 88. b) 0,367 88. c) 0,082 08. d) 0,904 84. e) 0,822 75.
f)
e) 0,977 2.
b) 0,521 9.
c) 0,057 9.
d) 0,006 2.
e) 0,016 9.
432
b) 0,974 4.
c) 0,857 7.
d) 0,807 6.
e) 0,172 6.
19. 0,017 9.
20. c = 0,08.
21. a) 0,319 6 0,812 1 0,219 5.
b) 0,333 6 0,806 4 0,236 8.
c) 0,323 3 0,721 8 0,180 4.
22. Soit Xl, X2, X3 et X4 les forces de rupture des 4 cbles. Nous supposons
que pour que tout aille bien, il faut que la force de rupture totale des 4
cbles soit suprieure 7 900 kg. P(X1 + X2 + X3 + X4 > 7 900) = P(N(0,1)
> -2,9) = 0,998 1. Une autre interprtation du problme est la suivante :
puisque chaque cble supporte un quart de la charge totale, soit 7 900/4
= 1 975 kg, il faut que la force de rupture de chacun des cbles soit d'au
moins 1 975. La probabilit est donc
(P(Xi > 1 975))4 = (P(N(0,l) > -1,45))4 = (0,926 5)4 = 0, 736 9.
23. X est Hpg(13,12,40). a) P(X = 4) = 0,213 15.
b)
433
f)
1
2
n 3 , 0 3 , 5
35 12
n 4 , 0 3 , 5
35 12
32.
Z
1, 645
n 4 , 0 3 , 5
35 12
0,9
434
Tchebychev.
42. a) 0,022 8. b) 0,034 0.
43. Nous devons prendre un chantillon de taille 62 ou plus.
44. a) i) 0,161 1. ii) 0,264 3.
b) On acceptera un rouleau si et seulement si sa longueur est
suprieure ou gale 65,02 mm.
c) 0,508 0.
CHAPITRE 8
1. E(Xi) = T, Var(Xi) = T 2 ; donc E( X ) = E(Xi) = T et
Var( X ) = Var(Xi)/n = T 2 /n.
2. E(Xi) = O , Var(Xi) = O ; donc E( X ) = E(Xi) = O et
Var( X ) = Var(Xi)/n = O /n.
3. a) E(T 1) = E(X1) = P X . E(T 2) = ( P X P X )/2 = P X .
E T3
5P X 4P X
PX .
b) Var( T1 ) = Var(X1) = V X2 .
Var T 2
V
1 2
2
2
X
V X2
V X2 / 2. Var T 3
5 2 V X2 4 V X2
2
41V X2 .
5.
6.
7.
8.
9.
cD
2r
r = 0,10
r = 0,05
r = 0,02
r = 0,01
1%
166
664
4 147
16 589
5%
96
384
2 401
9 604
10 %
68
271
1 691
6 765
10. X i
35 ; X
2
i
87 ; X
1, 75 ; V
1, 355 ; v
19 ; cD
1, 729 ; 1, 30 ; 2 , 20 .
436
4 , 72 ; V
15. a)
V n2
npq / p 2
O n
b) X = 25 ; p =
nq / p ; V n2
1
n q / p ; I.C. = n r c D V n .
150. V n2
; n
0 , 0472 ; cD
750 ; cD
1, 645 ;
N 1 = 3X/2 ; V 2
N 1 300 N 1
N1
2 N 1 300 N 1
9u299
598.
N 1
= 6,12 ; c D = 1,645 ;
2X
2 D
D
2
1
p
T X 1 D2 T
T
1
p
2X
D
20. X est N P ,
1D ; P
D
2X
1
T
1 D2
1
X
. p
1
X
1D.
1D.
4
P X 1 P X 1
P n 2 N 0 ,1
n 2.
c 2 V 2 1 c V
2
T1
2
T 2
22. a) T
n1
n
Y.
Var Y
b) Var T
437
n 1 2
n
T2
n n 2
T2
3n
si n t 2.
b)
p h = 0,30 ; V 2p
p f = 0,20 ; V 2p
0 , 493 p h 0 , 507 p f
0 , 249 3.
V 2p
0 , 493 2 V 2p
V 2p
2
0 , 507 V 2 p f ;
0 , 000 58.
Wi
36 ; W i 2
284 ; W
2 , 4 ; V W2
0 , 94 ; v
14 ; c D
1, 761.
42 , 2 ; Y
39 , 8 ; V X2
9 , 94 ; V Y2
9 , 93 ; T
2 , 4 ; V X2 V Y2
19 , 87.
L'cart-type est environ 4,6 fois trop grand. X et Y ne sont pas des
variables indpendantes.
CHAPITRE 9
1. p0 = 0,95 ; p =
498
540
; p
18
30
P 12
1 , 645
4 000
d p d
1
2
1 , 645
4 000
P 2 , 88 d N 0 ,1 d 0 , 38
| p 1 2|
1 4 000
d 1, 645
0 , 646 0.
probabilit
de
rejeter
l'hypothse
nulle
est
4 n | p 1 2 | ! 1, 645 .
1 1, 645
P p !
2
4n
1
2
1 , 645
4n
0 , 90
1 , 645
0 , 52
0 , 52 0 , 48 / n
1
2
0 , 90
1 1, 645
P p !
2
4n
P N 0 ,1 !
4n
0 , 90
0 , 52
0 , 52 0 , 48 / n
1, 282
73,149 n | 5 351.
439
p X
0 , 428 6 ; p Y
0 , 638 9 ; Z
1, 71 ; c D
clut que oui, les jurys ont une plus forte tendance trouver coupables
ceux qui sont accuss d'avoir victimis des Blancs.
5.
p X
0 , 204 1 ; p Y
0 ,148 9 ; Z
0 , 836 ; c D
peut pas conclure qu'il y a une diffrence relle entre les tudiants ns
au Canada et les tudiants ns ailleurs.
6.
p X
0 , 033 3 ; p Y
0 , 037 5 ; Z
0 , 60 ; p
0,5 ; Z
1, 01 ; c D
38 , 925 ; V
10 , 64 ; P 0
45 ; T
2 , 55 ; v
19 ; c D
2 , 093. | T | ! 2 , 093 ,
100 ; v
V 2
b) V 2
8 ; P0
20 , 25 ; T
750 ; T
95.
3, 333. L'hypothse est rejete.
13, 80 ; V X
4 , 384 ; Y
11, 97 ; V Y
4 , 533.
Nous
supposons
les
440
10. T
X ; Var T
T 2 n ; n 12. T
T T
7,4 ; Z
T 02 n
0 , 90 ;
menti.
19. Le nombre de rclamations reues par semaine est modlis par une loi
O0 n .
de Poisson : O 0 30 , 6 ; O X ; Var O O n ; Z O O 0
X ; Var O
O n ; V 2
O
O n .
H0 : OX
OY ; Z
cD = 1,96 ; |Z| d cD
O Y
V 2
OX
2
n X V
OY
nY
441
pas significative.
21. p0 = 0,515 ; p = 68/125 = 0,544 ; Z = 0,649. L'hypothse nulle n'est pas
rejete.
22. |Z| = 22,94. On peut certainement affirmer que le revenu moyen des
familles dont le chef est une femme est infrieur la moyenne des
familles canadiennes en gnral.
23. p0 =
4 , 32 3, 92
1, 07 2
80 0 , 95
50
2 , 22.
La solution en a) est errone, car elle est base sur la supposition que
le nombre de maisons qui utilisent les services d'un jardinier suit une
442
loi B(l 000, p). Or les 1 000 essais ne sont pas indpendants : les 10
mnages d'un mme bloc ne constituent pas 10 essais indpendants.
Si on choisit 10 mnages au hasard dans la ville entire, on s'attend
en trouver environ 3 qui utilisent les services d'un jardinier. On serait
trs tonn d'en trouver 8 ou 9. Mais un tel rsultat n'est pas ce
point impossible si on choisit un bloc de 10 maisons.
28. a) F2 = 34,57 ; Q = 6. L'hypothse est rejete.
b) p0 = 0,020 3 ; p
accepte.
c) Po = 2,03 ; X = 1,89 ; V 2 = 3,149 ; Z = -0,789. L'hypothse est
accepte.
La solution b) est incorrecte car elle est base sur la supposition que
les 10 000 vis constituent autant d'essais indpendants, ce qui n'est
peut-tre pas le cas, puisque les vis ont t prises dans des botes de
100. Les solutions a) et c) sont correctes, mais elles ne testent pas
exactement la mme hypothse. En c) on teste l'hypothse que la
moyenne n'a pas chang, hypothse qui semble tre vraie. En a) on
teste l'hypothse plus forte que la distribution entire n'a pas chang
(ce qui entrane, bien sr, que la moyenne non plus n'a pas chang).
Cette hypothse, beaucoup plus forte, est visiblement fausse.
29. On suppose les variances gales.
a) |T| = 1,74. Non significatif avec D = 5 %.
b) Pour les hommes : |T| = 2,05. Pour les femmes : |T| = 0,80. La
diffrence pour les hommes est, inexplicablement, significative avec
D = 5 %.
30. On ne suppose pas l'galit des variances.
a) |Z| = 0,85. On ne dcle pas plus d'hostilit chez les femmes que
chez les hommes.
b) |Z| = 0,69. On ne dcle pas plus d'agressivit chez les hommes que
chez les femmes.
31. Rgulirement versus de temps en temps : |Z| = 9,21.
Rgulirement versus jamais : |Z| = 13,13. De temps en temps
versus jamais : |Z| = 5,58. Il semble bien que les habitudes de
frquentation de l'glise aient une relation avec l'attitude.
443
32. cause des donnes groupes, les rsultats suivants sont approximatifs.
X = 517,299 ; V X = 116,27 ; Y = 505 762 ; V Y = 113,01 ; |Z| =
a)
V 2n
= 7,755 ; Z =
n Y
V 2n
V 2n
2 , 93 ; cD
1, 96 ; H 0 est
444
7 ; X = 1 ; V X2 = 15 ; nY = 4 ; Y =
p X
p Y = 0,042 6.
b) V 2p
Z
p Y
= 0,004 394 9 ;
p Y
V p
p Y
445
V 2p
p Y
= 2,386 5 u 10-6 ; V p
p Y
p Y
20 pq N 0 ,1 16 , 5 20 p
20 pq .
446
le premier modle et V 1 n X 1 n Y
6 , 335 2
14
0 , 672 7 dans
19 20 20 21 21 21 21 22 23 23 23 24 25 26 26 27 29 29 30 30 32 34
Mdiane
D
Infrieur la mdiane
TOTAL
LOGO
11
Delta Drawing
11
TOTAL
11
11
22
447
= 25,5, V Y2 =
11,142 9.
V 2 = 13,428 6 ; T = 3,00. Pour le policier avec plus de 11 ans de
scolarit, il y a une diffrence significative entre ceux qui ont suivi et
ceux qui n'ont pas suivi le cours.
c) Groupe qui n'a pas suivi le cours de sensibilisation : X = 42, V X2 =
147,6.
Groupe qui a suivi le cours de sensibilisation : Y = 34,25, V =
98,066 7, V 2 = 122,83 ; T = 1,98, Q = 30 ; avec D = 5 %, cD = 2,042. La
diffrence n'est plus significative (de justesse).
46. a) i) 0,048 8. ii) 0,019 8. On prfre le test pour lequel la probabilit de
rejeter H0 lorsque H0 est vraie est petite, donc le test 2.
b) Si le test 2 donne une faible chance de rejeter H0 quand H0 est vraie,
il donne galement une faible chance de rejeter lorsque H0 est fausse.
c) i) P(X d a|T = 10) = 0,05 1 - e-a/10 = 0,05 a = -10 log 0,95 =
0,512 9.
ii) a = - 10 log(0,99) = 0, 100 5. iii) a = -10 log(0,995) = 0,050 1.
448
47. a) Si H0 est vraie, alors X est de loi de Poisson avec O = 1 et Y est de loi
de Poisson avec O = 2.
i) P(X t 4|O = 1) = 0,019 0.
ii) P(Y t 6|O = 2) = 0,016 6.
b) Avec la procdure 2 la probabilit de rejeter H0 est plus faible lorsque
H0 est vraie et plus forte lorsque H0 est fausse. C'est prcisment ce
qu'on souhaite. Ceci reflte bien sr, le fait que la procdure 2 est
base sur deux observations au lieu d'une.
CHAPITRE 10
1. a) P = 5,5 ; V 2 = 7,916 667.
c) La distribution de X est donne par :
X
p X
4,5
5,5
6,5
7,5
8,5
1/15
1/15
2/15
1/15
2/15
1/15
2/15
1/15
1/15
1/15
1/15
1/15
e)
V X2 = 3,166 7.
f)
La distribution de V 2 est
V 2
0,5
4,5
18
12,5
24,5
32
3/15
2/15
1/15
1/15
1/15
n 1 n N
@ E V 3
2
3,166 66
V X2 .
2. Plus N est grand, moins grande est la prcision ; mais pour des valeurs
de N beaucoup plus grandes que n, la perte de prcision ne se fait plus
sentir.
3. W1 = 0,522 691 7 ; W2 = 0,190 923 3 ; W3 = 0,286 385 ; P 1 = 3,681 8 ;
P 2 = 56 ; P 3 = 384 ; V 12 = 2,608 2 ; V 22 = 687 14 ; V 32 = 45 622.
a)
450
g) 479.
7. a)
0,2
0,4
0,6
0,8
Probabilit
5/17
5/17
4/17
3/17
0,2
0,4
0,6
0,8
Probabilit
1/17
1/17
5/17
6/17
3/17
1/17
0,2
0,4
0,6
0,8
Probabilit
4/17
4/17
7/17
1/17
1/17
451
d) carts-type de
0,8
Probabilit
9/17
1/17
7/17
0,2
0,8
Probabilit
5/17
3/17
2/17
7/17
0,2
0,8
Probabilit
11/17
1/17
1/17
4/17
1/6
2/6
3/6
4/6
5/6
6/6
Probabilit
0,031 26
0,173 16
0,340 13
0,302 34
0,127 55
0,024 01
0,001 56
b) E( p ) = 0, 400 0.
c)
V 2p = 0,033 11.
5/225
8/225
9/225
Probabilit
0,032 82
0,197 17
0,467 68
0,302 34
CHAPITRE 11
1. b) 83 462, 85 884, 91 229, 99 758, 124 369, ..., 105 965, 111 873.
c) 89 637, 82 538, 82 725, 95 383, 119 038, ..., 108 610, 126 706.
d) 104 111, 93 304, 87 064, 89 093, 96 931, ..., 98 745, 116 529.
x 29
2 x 28 x 27
134 313.
2. b) 249 688, 244 608, 239 926, 258 534, 306 440, ..., 369 117, 374 054.
c) 249 365, 249 850, 239 123, 245 850, 273 219, ..., 374 762, 375 245.
x 14
4.
x 11
2 x 13 x 12 = 375 728.
4 662 ; x 12
4 041 ; x 13
3 420.
5. Chaque donne est divise par 127,2/100. On trouve 19,8 ; 21,9 ; 22,4 ;
..., 96,1 ; 100,0 ; 104,1 ; 108,6.
6. a) 86,5 $. b) 127 470 $.
c) 36,0 % ; 35,0 % ; 7,0 % ; 10,8 % ; 3,0 % ; 4,9 % ; 3,4 %.
7. a) 1,078 1 ; 1,077 4 ; 1,078 7 ; 1,077 5 ; ... ; 1,365 2 ; 1,389 5 ; 1,326 1.
b) 13,70 ; 13,84 ; 13,64 ; 11,85 ; ... ; 11,55 ; 10,14 ; 9,84.
c) En 1965 : 0,357 7 ; 4,900 2 F ; 3,994 3 DM ; 359,95 ; 1,078 1 $
can. En 1985 : 0,771 2 ; 8,905 4 F ; 2,918 9 DM ; 236,724 ;
1,365 2 $ can.
d) En 1966, le plus : dollar US, -0,065 % ; le moins : franc, -1,187 %.
En 1967, le plus : mark, 0,446 % ; le moins : livre, -1,453 %.
En 1987, le plus : mark, 14,923 % ; le moins : dollar US, -4,562 %.
e) Il a achet 4 338,12 DM et les a revendus 13 314,7 F. Investissement
de 3 ans rapportant 10,01 % par anne.
8. a) 4,0 ; 5,0 ; 5,6 ; 8,0 ; 28,8 ; ... ; 53,5 ; 56,7.
b) 23,9 ; 28,9 ; 30,8 ; 41,2 ; 132,8 ; ...; 98,4 ; 100,0.
c) En monnaie amricaine : 28,9 % ; 13,8 % ; 42,4 % ; 266,0 % ; ...;
-54,7 % ; 11,1 %.
453
454
13. a) Dette totale, prdictions : 500 924 ; 1 327 178 ; 3 516 305.
Dette per capita, prdictions : 19 042 ; 48 367 ; 122 860.
b) Dette totale, prdictions : 406 819 ; 802 861 ; 1 584 455.
Dette per capita, prdictions : 15 465 ; 29 260 ; 55 361.
14. Les rsidus Dt s'obtiennent en soustrayant x = 6,6 chacune des
valeurs dsaisonnalises paraissant au tableau 11.8.
Les 98 rsidus sont -0,4 ; -0,3 ; -0,3 ; 0,2 ; 0,1 ; ...; 0,3 ; 0,5 ; 0,4 ; -0,2 ;
-0,4 ; -0,4.
Posant n = 97, Xi = Di et Yi = Di+1, on trouve Xi = -0,7 - D98 = -0,3 ; Yi =
-0,7 - D1 = -0,3 ; X i2 = 54,49 - D 982 = 54,33 ; Y i 2 = 54,49 - D12 =
54,33 ; XiYi = 48,22 ; r = 0,887 5 et Z = 18,77. Les rsidus ne sont pas
un bruit blanc.
15. Chacune des 38 donnes est remplace par son logarithme.
= 2,930 8 ; b = 0,049 018. Les rsidus sont
0,247
0,300
0,272
0,216
0,174
0,125
0,090
0,072
0,049
0,013
- 0,023
-0,063
-0,102
-0,133
-0,164
-0,189
-0,203
-0,216
-0,225
-0,230
-0,247
-0,267
-0,270
-0,244
-0,0,190
-0,136
-0,113
-0,085
-0,050
-0,011
0,037
0,106
0,159
0,166
0,160
0,150
0,141
0,135
0,126
0,125
0,123
0,128
0,095
0,063
0,017
-0,011
-0,044
-0,077
455
0,027 02.
456
A
Ajustement, 15
Allocation, 328
optimale, 329, 334
proportionnelle, 329,
334
Approximation
de la loi binomiale par la
loi de
Poisson, 200
normale, 233
B
Biais, 254
Binme de Newton, 183
Binomiale, loi, 185
Bruit blanc, 376
C
Caractres, 2
Causalit, 85
Cause et effet, 83
Centiles, 41
Charnires, 55
Chronologique, srie, 349
Classe modale, 48
Coefficient de corrlation,
118, 124
Combinaisons, 183
Complment, 146
Conditions de validit, 123
Confiance
intervalle de, 256, 261
niveau de, 256
Correction pour la continuit,
234
facteur de, 320
Corrlation, 118
coefficient de, 118, 124
ngative, 119
positive, 119
INDEX
Cote Z, 60
D
Dciles, 41
Degrs de libert, 18, 265
Densit, fonction de, 217
Dpendance, 82
et causalit, 85
Dsaisonnalisation, 367
Diagramme btons, 9
Diffrence, 146
Dispersion, 38, 42
Distance, 113
Distribution, 4-9
conditionnnelle, 81, 88
conjointe, 79
d'une moyenne, 236
marginale, 80
moyenne d'une, 51
variance d'une, 52
Donnes apparies
moyennes, 291
proportions, 282
Droite
de rgression, 115
des moindres carrs,
111, 115, 124
E
cart interquartile, 47
cart-type, 43
d'une variable alatoire,
166
chantillon, 14, 253
espace, 144
chantillonnage
alatoire simple, 317
d'une population finie,
318-23
en grappes, 337
stratifi, 323
systmatique, 335
taux d', 320
Effectif, 6
observ, 17
thorique, 17, 19, 89
total, 6
Effets de phase, 368
quation linaire, 111
Espace chantillon, 144
Esprance mathmatique,
165
Estimateur, 253, 277
sans biais, 254
Estimation
de la variance, 263
d'une moyenne, 262,
319, 323
d'une proportion, 257,
331
d'un paramtre T
quelconque, 266
d'un total, 323
par intervalle de
confiance, 255
ponctuelle, 254
vnement, 145
certain, 146
dpendant,158
impossible, 146
incompatible, 154
indpendant,155
Exponentielle
lissage, 355, 358
loi, 223
F
Facteur de correction, 320
Factorielle, 182-3
Fonction de
densit, 217
458
Fonction de
masse, 163
Fraction d'chantillonnage,
320
Frquence(s), 6
observe, 88
polygone des, 12
G
Gomtrique, loi, 197
Graphiques, reprsentations,
9-14
Grappes, 337
Groupement des valeurs, 7
H
Histogramme, 9-10
Hypergomtrique, loi, 194
Hypothse,
d'indpendance, 122
nulle, 16-22
test d', 19, 284-86
I
Indpendance, 83-85, 121
hypothse d', 122
test d', 121
Indices, 362
Inertie, 357
Inflation, taux d', 364
Interpolation, 49
Interquartile, cart, 47
Intersection, 146
Intervalle de confiance, 256,
261
estimation par, 255
rayon d'un, 260
K
Khi-deux, 17
L
Laplace-Gauss, loi de, 225
Libert, degrs de, 18, 265
Limite central, thorme, 231
Linaire
quation, 111
rgression, 370
transformation, 58, 230
Lissage, 350
exponentiel, 355, 358
Logarithmique,
transformation, 373
Loi
binomiale, 185
de Laplace-Gauss, 225
de Poisson, 199
de Student, 264, 284
exponentielle, 223
gomtrique, 197
hypergomtrique, 194
normale, 225
uniforme, 222
M
Masse, fonction de, 163
Mdiane, 41, 49
Mode, 39, 48
Modle, 145
uniforme, 151
Modlisation, 145
Moindres carrs, droite des,
111, 115, 124
Moustaches, 54, 57
Moyenne, 38, 51-52
ajuste, 63
distribution d'une, 236
d'une distribution, 51
estimation d'une, 262,
319, 323
mobile, 351
pondre, 62
test d'hypothse sur une,
284
N
Newton, binme de, 183
Niveau de confiance, 256
Nombres indices, 362
Normale, loi, 225
Nuage de points, 111
O
Optimale, allocation, 329,
334
P
Permutations, 183
Phase, 368
Point critique, 18
Poisson, loi de, 199
Polygone des frquences, 12
Pondration, 63, 64
Population, 2
finie, 318-23
Prdiction, 358
Probabilit, 150
conditionnelle, 159
Proportion
estimation d'une, 257,
331
test d'hypothse sur une,
278
Proportionnelle, allocation,
329, 334
Q
Quantiles, 41, 49
Quartiles, 41
Index
R
Rayon d'un intervalle de
confiance, 260
Rgression
droite de, 115
linaire, 370
Reprsentations graphiques,
9-14
Rsidus, 376
Rsultat, 150
Runion, 146
Risque d'erreur, 124, 277
S
Srie chronologique, 349
dsaisonnalise, 367
Strates, 323
recenses, 331
Student, loi de, 264, 284
T
Taux
d'chantillonnage, 320
d'inflation, 364
Tchebychev, thorme de, 61
Tendance
centrale, 38
gnrale, 370
Test
d'ajustement, 15
d'hypothse, 19, 284-85
rgion d'acceptation,
277
risque d'erreur, 277
sur une moyenne,
284
sur une proportion,
278
d'indpendance, 121
sur l'galit de deux
moyennes, 286
variances gales,
288
sur l'galit de deux
proportions, 280
Test
sur un paramtre T
quelconque, 293
Thorme
limite central, 231
de Tchebychev, 61
Total, estimation d'un, 323
Transformation
linaire, 58, 230
logarithmique, 373
U
Uniforme
loi, 222
modle, 151
Units
primaires, 337
secondaires, 337
statistiques, 2
V
Valeurs, 2
groupement des, 7
Validit, conditions de, 123
Variable, 2
alatoire, 163, 165, 168
cart-type d'une, 166
variance d'une, 166
centre rduite, 59
continue, 4, 7
dpendante, 82-83, 117
discrte, 4
explicative, 117
explique, 117
indpendante, 83, 117,
168
qualitative, 3
quantitative, 3
Variance, 43, 45, 52-54
d'une distribution, 52
d'une variable alatoire,
166
estimation de la, 263
459