Support Analyse de Données 2023

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 43

Institut Africain d’Informatique Cours d’Analyse de Données

Table des matières


Chapitre 1 : Rappels sur la statistique et probabilité ............................. 2
1. La statistique ................................................................................................................... 2
2. Les lois de probabilité...................................................................................................... 3
3. Applications ..................................................................................................................... 4
Chapitre 2 : Tests d’hypothèses............................................................. 8
1. Estimation........................................................................................................................ 8
1. Estimation ponctuelle ..................................................................................................... 8
a. Espérance .................................................................................................................... 8
b. Variance ................................................................................................................... 8
c. Fréquence .................................................................................................................... 9
d. Exemple : .................................................................................................................. 9
2. Tests de conformité ...................................................................................................... 10
Comparaison d’une moyenne à une norme ........................................................................ 10
a. Principe du test .......................................................................................................... 10
b. Variance de la population connue ......................................................................... 10
c. Variance de la population inconnue.......................................................................... 12
d. Comparaison d’une fréquence observée et une fréquence théorique ................. 13
3. Tests d’homogénéité ..................................................................................................... 15
a. Comparaison de deux moyennes .............................................................................. 15
b. Comparaison de deux fréquences ......................................................................... 19
Chapitre 3: Analyse de la variance ...................................................... 22
1. Principe .......................................................................................................................... 22
2. Procédure de résolution................................................................................................ 22
3. Exemple ......................................................................................................................... 23
Chapitre 4 Test d’indépendance de khi deux ..................................... 25
1. Position du problème .................................................................................................... 25
2. Résolution du problème ................................................................................................ 25
a. Les effectifs marginaux .............................................................................................. 25
b. Le tableau théorique .............................................................................................. 25
c. La distance de Khi deux ............................................................................................. 25
d. Lecture de la distance limite D............................................................................... 25
3. Application .................................................................................................................... 25
Exercice................................................................................................................................. 27
Table de Khi deux ................................................................................................................. 28
Chapitre 5 : Regressions ...................................................................... 30
Introduction.......................................................................................................................... 30
Résolution............................................................................................................................. 30
a. Calcul de b l'ordonnée à l'origine .............................................................................. 30
b. Calcul de la pente a ................................................................................................ 30
c. Le coefficient de corrélation r ................................................................................... 31
d. Interprétation des résultats ................................................................................... 31
e. Application ............................................................................................................. 32
Chapitre 6 : Analyse discriminante ...................................................... 34
1. Le partitionnement ou Kmeans..................................................................................... 34
2. Classification Ascendante Hiérarchique(CAH) .............................................................. 38

Réalisé par MATY Maman Enseignant permanent à IAI page : 1


Institut Africain d’Informatique Cours d’Analyse de Données

Chapitre 1 : Rappels sur la statistique et probabilité


1. La statistique

La Médiane 1
(n  1)  FACAi 1
M e  ai  2 i
ni
Le Mode d1
d1  d 2  i
M o  ai  *
k
La Moyenne n x
1 k i i

arithmétique M  xi 
n i 1 ni
1
k

n 1
i

1/ n
Moyenne n 
G x
1 n
= G  n x1 1 .x2 2 ...xk  ln G   ln xi
n n nk

Géométrique i 1 i  n i 1 ni

Moyenne n
H n
ni
Harmonique 
i 1 x i

Moyenne Q
1 n
 ni xi
2

n i 1
Quadratique

La Variance V ( x)   2 ( x) 
1
 ni ( xi  x )2 =q²-m²
n

 X  
n
La covariance  X * Yi Y
COV ( X , Y )  i i

 * x y

La pente  ( x  x)( y  y)
i i
cov( x, y )
a= n =
 ( x i  x)
2
var( x)
1

L'ordonnée à b  y  ax

l'origine
Coefficient de cov(x, y )
r= ; r est compris entre -1 et 1.
corrélation  x * y

Réalisé par MATY Maman Enseignant permanent à IAI page : 2


Institut Africain d’Informatique Cours d’Analyse de Données

2. Les lois de probabilité

Nom Loi Notation E(x) V(x)


1 n 1 n2  1
Uniforne discrete P(x=k)= UD
n 2 12
P ( x  1)  p
LOIS DISCRETES

Bernoulli B(1,p) p pq
p ( x  0)  q
k nk
P( x  k )  c n
k
Binomiale pq B(n,p) np npq
k nk
N n
P( x  k )  c c
Hypergéometriqu n1 N  n1
H(N,n,p) np npq*
N 1
n
e
c N

P( x  k )  e 
k

Poisson P(  )  
k!
k 1 1 q
Géometrique P( x  k )  p q G(p)
p p2

Uniforme ba (b  a )²
f (x) = 1 [a, b] (x) UC
Continue 2 12

Normale N(m,  ) m 
f (µ, ) (x) =
LOIS CONTINUES

Normale Centrée
N(0,1) 0 1
réduite f (0, 1) (u) = e
 ax 1 1
Exponnetielle ae si x>=0 et a>0 E(a)
a a²


n


2

2
Khi deux 2
n
1

Z
n
Student Fisher Tn 0

2
n2
X 2m²( n  m  2)
n m
Fisher Snedecor F(n,m) n(m  2)²( m  4)
Y m2
m

Réalisé par MATY Maman Enseignant permanent à IAI page : 3


Institut Africain d’Informatique Cours d’Analyse de Données

3. Applications
Série1
xi ni FACA FACD nixi nixi² niln(xi) ni/xi ni|xi-m|
1 5
2 5
3 10
4 5
5 5
Total

Mo= G= M= Q=
Me= H= V(x)= σ(x)=

Série 2
xi ni FACA FACD nixi nixi² niln(xi) ni/xi ni|xi-m|

1 380
2 455
3 245
4 230
5 100
6 75
7 10
8 5
Total

Mo= G= M= Q=
Me= H= V(x)= σ(x)=

Série 3
salaire F/h xi ni nixi nixi² ni/xi niln(xi) FACA ni|xi-m|
1200-1250 1 225 20
1250-1300 1 275 10
1300-1350 1 325 32
1350-1400 1 375 25
1400-1450 1 425 8
1450-1500 1 475 5
Total

Mo= G= M= Q=
Me= H= V(x)= σ(x)=

Réalisé par MATY Maman Enseignant permanent à IAI page : 4


Institut Africain d’Informatique Cours d’Analyse de Données

Série 4

bi xi ni xini nixi² ni/xi niln(xi) Faca ni|xi-m|


36,5-37,5 37 3
37,5-38,5 38 7
38,539,5 39 17
39,5-40,5 40 18
40,5-41,5 41 9
41,5-42,5 42 4
42,5-43,5 43 2
Total

Mo= G= M= Q=
Me= H= V(x)= σ(x)=

Partie probabilité

Loi Binomiale n=4 p=1/6


XI PI XIPI XI²PI
0
1
2
3
4
Total

E(x)= V(x)=

Loi Hypergéometrique N=10; n1=6 ; n2=4 et n=5

XI PI XIPI XI²PI
0
1
2
3
4
5
Total

E(x)= V(x)=

Réalisé par MATY Maman Enseignant permanent à IAI page : 5


Institut Africain d’Informatique Cours d’Analyse de Données

Loi de Poisson λ=2

XI PI XIPI XI²PI
0
1
2
3
4
5
6
7
8
Total

E(x)= V(x)=

Réalisé par MATY Maman Enseignant permanent à IAI page : 6


Institut Africain d’Informatique Cours d’Analyse de Données

Réalisé par MATY Maman Enseignant permanent à IAI page : 7


Institut Africain d’Informatique Cours d’Analyse de Données

Chapitre 2 : Tests d’hypothèses


1. Estimation
L’estimation d’un paramètre quelconque est ponctuelle si l’on associe une seule valeur à

l’estimateur Ø à partir des données observables sur un échantillon aléatoire.

L’estimation par intervalle associe à un échantillon aléatoire, un intervalle [Ø1, Ø2 ] qui

recouvre avec une certaine probabilité.

1. Estimation ponctuelle
a. Espérance

Soit X une variable aléatoire continue suivant une loi normale N(m,) dont la valeur des
paramètres n’est pas connue et pour laquelle on souhaite estimer l’espérance m.
Soient X1, X2,…, Xi, ..., Xn , n réalisations indépendantes de la variable aléatoire X, un estimateur

du paramètre m est une suite de variable aléatoire  fonctions des Xi :

= f (X1 , X2 ,…, Xi , ..., Xn)

La moyenne arithmétique constitue le meilleur estimateur de mespérance de


la loi de probabilité de la variable aléatoire X :

nx i i

mx
n

b. Variance

Soit X une variable aléatoire continue suivant une loi normale N (m, pour laquelle on

souhaite estimer la variance 

Soient X1 , X2 ,…, Xi , ..., Xn , n réalisations indépendantes de la variable aléatoire X, un

estimateur du paramètre est une suite de variable aléatoire  fonctions des Xi :

Cas où l’espérance mest connue


La variance observée constitue le meilleur estimateur de variance de la loi de probabilité
de la variable aléatoire X lorsque mest connue :

Réalisé par MATY Maman Enseignant permanent à IAI page : 8


Institut Africain d’Informatique Cours d’Analyse de Données


2 1 n
 
n 1
x  m 
i
2

 Cas où l’espérance mest inconnue

s
2

1 n

n 1 1
X i
X 
2

c. Fréquence

Soit le schéma de Bernoulli dans lequel le caractère A correspond au succès. On note p la


fréquence des individus de la population possédant le caractère A. La valeur de ce
paramètre étant inconnu, on cherche à estimer la fréquence p à partir des données
observables sur un échantillon.
A chaque échantillon non exhaustif de taille n, on associe l’entier k, nombre d’individus
possédant le caractère A.
Soit K une variable aléatoire discrète suivant une loi binomiale B(n,p) et pour laquelle on
souhaite estimer la fréquence p.
La fréquence observée du nombre de succès observé dans un échantillon de taille n
constitue le meilleur estimateur de p:
k
P=
n

d. Exemple :

On a prélevé au hasard, dans une population de lapin, 100 individus. Sur ces 100 lapins, 20
sont atteints par la myxomatose. Le pourcentage de lapins atteints par la myxomatose dans
la population est donc :

k
P= = = 0,2 soit 20% de lapins atteins dans la population
n
Ce résultat n’aura de signification que s’il est associé à un intervalle de confiance.

Réalisé par MATY Maman Enseignant permanent à IAI page : 9


Institut Africain d’Informatique Cours d’Analyse de Données

2. Tests de conformité

Les tests de conformité sont destinés à vérifier si un échantillon peut être considéré comme
extrait d’une population donnée ou représentatif de cette population, vis-à-vis d'un
paramètre comme la moyenne, la variance ou la fréquence observée. Ceci implique que la
loi théorique du paramètre est connue au niveau de la population.

En théorie, si l’on suppose connu la valeur  d’un paramètre relatif à la population

(par exemple p, ) et un estimateur absolument correct de  (par exemple ,(

, s2) obtenu à partir d’un échantillon aléatoire simple de taille n, on cherche à savoir si
l’échantillon est représentatif de la population pour le paramètre considéré.

H0 : 

Comparaison d’une moyenne à une norme


a. Principe du test

Soit X, une variable aléatoire observée sur une population, suivant une loi normale et un
échantillon extrait de cette population.

Le but est de savoir si un échantillon de moyenne , estimateur de m, appartient à une


population de référence connue d’espérance 0 (H0 vraie) et ne diffère de 0 que par des
fluctuations d’échantillonnage ou bien appartient à une autre population inconnue
d’espérance m (H1 vraie).

Pour tester cette hypothèse, il existe deux statistiques : la variance de la population de


référence est connue ou cette variance est inconnue et il faut l’estimer.

b. Variance de la population connue


Statistique du test

Soit la distribution d’échantillonnage de la moyenne dans la population inconnue suit

une loi normale telle que :  N (m, ).


La statistique étudiée est l’écart : S = - 0 dont la distribution de probabilité est la
suivante

Réalisé par MATY Maman Enseignant permanent à IAI page : 10


Institut Africain d’Informatique Cours d’Analyse de Données

S N (0, ) avec sous H0, E(S) = 0 et V(S) =


Nous pouvons établir grâce au théorème central limite la variable Z centrée réduite telle
que

Z= =

Sous H0 : 0 avec connue

Z= suit une loi normale centrée réduite N(0,1)

Application et Décision

L’hypothèse testée est la suivante :


H0 : 0 contre H1 : 
Une valeur z de la variable aléatoire Z est calculée :

z= notée aussi  est comparée avec la valeur T lue dans la

table de la loi normale centre réduite pour un risque d’erreur  fixé.

 si >T  l’hypothèse H0 est rejetée au risque d’erreur  : l’échantillon appartient


à une population d’espérance  et n’est pas représentatif de la population de référence
d’espérance 0 .
 si <=T  l’hypothèse H0 est acceptée: l’échantillon est représentatif de la
population de référence d’espérance 0.

Exemple :
La glycémie d’une population suit une loi normale d’espérance  = 1g/l et d’écart-type 0 =
0,1 g/l.

On relève les glycémies chez 9 patients. On trouve = 1,12g/l. Cet échantillon est-il
représentatif de la population ?

Réalisé par MATY Maman Enseignant permanent à IAI page : 11


Institut Africain d’Informatique Cours d’Analyse de Données

c. Variance de la population inconnue

Statistique du test

La démarche est la même que pour le test précédent mais la variance de la population
n’étant pas connue, elle est estimée par :

La statistique étudiée est l’écart : S = , 0 dont la distribution de probabilité est la


suivante

S N (0, ) avec E(S) = 0 et V(S) =


Nous pouvons établir grâce au théorème central limite la variable T centrée réduite telle
que

X  m0
T 0

2
s
n

Application et Décision

L’hypothèse testée est la suivante :


H0 :  contre H1 : 
Une valeur t de la variable aléatoire T est calculée :
X  m0
T 0

2
s
n

T0 calculée (tobs) est comparée avec la valeur tseuil lue dans la table de Student
pour un risque d’erreur  fixé et (n - 1) degrés de liberté.

 si tobs > tseuil l’hypothèse H0 est rejetée au risque d’erreur  : l’échantillon appartient
à une population d’espérance  et n’est pas représentatif de la population de référence
d’espérance 0 .
 si tobs  tseuil l’hypothèse H0 est acceptée: l’échantillon est représentatif de la
population de référence d’espérance 0.

Réalisé par MATY Maman Enseignant permanent à IAI page : 12


Institut Africain d’Informatique Cours d’Analyse de Données

Remarque : Si n < 30, la variable aléatoire X étudiée doit impérativement suivre une loi
normale N(). Pour n  30, la variable de student t converge vers une loi normale
centrée réduite .
Exemple :
Pour étudier un lot de fabrication de comprimés, on prélève au hasard 10 comprimés parmi
les 30 000 produits et on les pèse. On observe les valeurs de poids en grammes :
0,81 – 0,84 – 0,83 – 0,80 – 0,85 – 0,86 – 0,85 – 0,83 – 0,84 – 0,80

Le poids moyen observé est-il compatible avec la valeur 0,83g, moyenne de la production au
seuil 98% ?

d. Comparaison d’une fréquence observée et une fréquence théorique

1. Principe du test

Soit X une variable qualitative prenant deux modalités (succès X=1, échec X=0) observée sur
une population et un échantillon extrait de cette population.

k
Le but est de savoir si un échantillon de fréquence observée , estimateur de p,
n
appartient à une population de référence connue de fréquence p0 (H0 vraie) ou à une autre
population inconnue de fréquence p (H1 vraie).

Statistique du test

La distribution d’échantillonnage de la fréquence de succès dans la population inconnue,

k
suit une loi normale telle que :
k
suit N (p,
p0 q0 ), les variances étant supposées
n n n
égales dans la population de référence et la population d’où est extrait l’échantillon.

k
La statistique étudiée est l’écart : S = – p0 dont la distribution de probabilité est la
n

pq0 0
pq0 0
suivante S N (0, ) avec sous H0 E(S) = 0 et V(S) =
n n
On établit la variable Z centrée réduite telle que

Réalisé par MATY Maman Enseignant permanent à IAI page : 13


Institut Africain d’Informatique Cours d’Analyse de Données

k
T0 n
-p
0
mais seulement si np0 et nq0  10
pq
0 0

k
-p
Sous H0 : p = p0 et T0 = n 0
suit une loi normale centrée réduite N(0,1)
pq0 0

Application et décision

L’hypothèse testée est la suivante :


H0 : p = p0 contre H1 : p  p0 Une valeur z de la variable aléatoire Z est

k
-p
calculée :z = n 0
notée aussi 
pq
0 0
n

 si > Tseuil l’hypothèse H0 est rejetée au risque d’erreur : l’échantillon appartient à


une population de fréquence p et n’est pas représentatif de la population de référence de
fréquence p0 .
 si α l’hypothèse H0 est acceptée: l’échantillon est représentatif de la
population de référence de fréquence p0.

Exemple :
Une anomalie génétique touche au Gabon 1/1000 des individus. On a constaté dans une
région donnée : 57 personnes atteintes sur 50 000 naissances.
Cette région est-elle représentative du Gabon entier ?

Réalisé par MATY Maman Enseignant permanent à IAI page : 14


Institut Africain d’Informatique Cours d’Analyse de Données

La fréquence de l’anomalie génétique est


p0 = 0,0010 au Gabon
La fréquence observée dans la région étudiée est

= = 0,00114

Cette région est-elle représentative du Gabon entier ?


Hypothèse : H0 p = p0 et H1 p  p0
Conditions : X  B(50 000 ; 0,001) donc np et nq >10

Statistique : = = 0,99
Décision :
Avec un risque d’erreur  = 0,05,  = 1,96 , donc
obs < seuil et donc H0 ne peut être rejetée. On accepte donc l’hypothèse H0.

La région considérée est représentative du Gabon entier en ce qui concerne la fréquence de


cette anomalie génétique.

3. Tests d’homogénéité
Les tests d’homogénéité ou d’égalité destinés à comparer deux populations à l’aide d’un
nombre équivalent d’échantillons sont les plus couramment utilisés. Dans ce cas la loi
théorique du paramètre étudié (par exemple p, ) est inconnue au niveau des
populations étudiées.

a. Comparaison de deux moyennes

1 Principe du test

Soit X un caractère quantitatif continu observé sur 2 populations suivant une loi normale et
deux échantillons indépendants extraits de ces deux populations.
On fait l’hypothèse que les deux échantillons proviennent de 2 populations dont les
espérances sont égales.

Réalisé par MATY Maman Enseignant permanent à IAI page : 15


Institut Africain d’Informatique Cours d’Analyse de Données

Il existe plusieurs statistiques associées à la comparaison de deux moyennes en fonction de


la nature des données.

2 Les variances des populations sont connues

Statistique du test

Sous H0 : 1 = 2 avec m et connues

Z= suit une loi normale centrée réduite N(0,1)

Application et décision
L’hypothèse testée est la suivante :
H0 : 2 contre H1 : 
Une valeur z de la variable aléatoire Z est calculée :

T 0=

 si α, l’hypothèse H0 est rejetée au risque d’erreur α: les deux échantillons sont
extraits de deux populations ayant des espérances respectivement et.
 si ≤ α, l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux
populations ayant même espérance .

Pour l’application de ce test, il est impératif que X  N(,) pour les


Remarque :
échantillons de taille < 30 et que les deux échantillons soient indépendants.

Exemple :

On a effectué une étude, en milieu urbain et en milieu rural, sur le rythme cardiaque
humain :
Effectif de l’échantillon 300 240
Moyenne de l’échantillon 80 77
Variance de la population 150 120

Peut-on affirmer qu’il existe une différence significative entre les rythmes cardiaques
moyens des deux populations ?

Réalisé par MATY Maman Enseignant permanent à IAI page : 16


Institut Africain d’Informatique Cours d’Analyse de Données

3 Les variances des populations sont inconnues et égales

Statistique du test

 Les variances des populations n’étant pas connues, on fait l’hypothèse que les deux
populations présentent la même variance.

Sous H0  avec = = 2

T= suit une loi de Student à (n1 + n2 -2) degrés de liberté


Application et décision

L’hypothèse testée est la suivante :


H0 :  contre H1 : 
Les variances des populations n’étant pas connues, l’égalité des variances doit être vérifiée

H0 : = contre H1 :  test de Fisher-Snedecor.


Une valeur t de la variable aléatoire T est calculée :

t= avec estimation de la variance 2 commune t


calculée (tobs) est comparée avec la valeur tseuil lue dans la table de Student
pour un risque d’erreur  fixé et (n1 + n2 – 2) degrés de liberté.

 si tobs > tseuil l’hypothèse H0 est rejetée au risque d’erreur  : les deux échantillons
sont extraits de deux populations ayant des espérances respectivement 1 et 2.
 si tobs  tseuil l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux
populations ayant même espérance .

Réalisé par MATY Maman Enseignant permanent à IAI page : 17


Institut Africain d’Informatique Cours d’Analyse de Données

Exemple :
Dans le but d’étudier l’influence du type d’atmosphère d’élevage sur la durée de
développement des drosophiles femelles, ces dernières ont été élevées à 14°C sous
atmosphère normale (N) ou enrichie en C02 (C02). Les resultants savants ont été obtenus :

N 864, 768, 912, 804, 924, 984, 888, 816, 840, 936, 792, 876

C02 840, 948, 936, 1032, 912, 948, 1020, 936, 1056, 876, 1032, 918

Que peut-on conclure ?

4 Les variances des populations sont inconnues et inégales

Si les variances des populations ne sont pas connues et si leurs estimations à partir des
échantillons sont significativement différentes (test de comparaison des variances), il faut
considérer deux cas de figure selon la taille des échantillons comparés :

les grands échantillons avec n1 + n2 supérieurs à 30.


les petits échantillons avec n1 et/ou n2 inférieurs à 30.
Cas où n1 + n2 > 30

La statistique utilisée est la même que pour le cas où les variances sont connues.

Sous H0 : 

T0 = suit une loi normale centrée réduite N(0,1)

Comme les variances sont inconnues et significativement différentes ≠ , on remplace


les variances des populations par leurs estimations ponctuelles calculées à partir des

échantillons, et
L’hypothèse testée est la suivante :
H0  contre H1 : 
Une valeur z de la variable aléatoire Z est calculée :

Réalisé par MATY Maman Enseignant permanent à IAI page : 18


Institut Africain d’Informatique Cours d’Analyse de Données

z=

Exemple :
Dans le but d’étudier l’influence éventuelle de la lumière sur la croissance du poisson
Lebistes Reticulus, on a élevé deux lots de ce poisson dans des conditions d’éclairage
différentes. Au 95ème jour, on a mesuré en mm les longueurs xi des poissons. On a obtenu les
résultats suivants :

Lot 1 (180 individus) : éclairage à 400 lux = 3 780 = 84 884

Lot 2 (90 individus) : éclairage à 3 000 lux. = 2 043 = 46 586


Que peut-on conclure ?
Cas où n1 et/ou n2 < 30

Lorsque les variances sont inégales et les échantillons de petites tailles, la loi de probabilité

suivie par n’est pas connue. On a recours alors aux statistiques non
paramétriques.

b. Comparaison de deux fréquences

1 Principe du test

Soit X une variable qualitative prenant deux modalités (succès X=1, échec X=0) observée sur
2 populations et deux échantillons indépendants extraits de ces deux populations. On fait
l’hypothèse que les deux échantillons proviennent de 2 populations dont les probabilités de
succès sont identiques.

Le problème est de savoir si la différence entre les deux fréquences observées est réelle ou
explicable par les fluctuations d’échantillonnage. Pour résoudre ce problème, deux tests de
comparaison de fréquences sont possibles :
2 Statistique du test

 La distribution d’échantillonnage de la fréquence de succès dans la population 1,


suit une loi normale telle que :

Réalisé par MATY Maman Enseignant permanent à IAI page : 19


Institut Africain d’Informatique Cours d’Analyse de Données

suit N (p1, ) et de même pour suit N (p2, )


si et seulement si n1p1, n1q1, n2p2, n2q2 > 10

Sous H0 : p1 = p2 avec p=

Z= suit une loi normale centrée réduite N(0,1)

.3 Application et décision
La valeur p, probabilité du succès commune aux deux populations n’est en réalité pas
connue. On l’estime à partir des résultats observés sur les deux échantillons :

où k1 et k2 représentent le nombre de succès observés


respectivement pour l’échantillon 1 et pour l’échantillon 2.
L’hypothèse testée est la suivante :
H0 : p1 = p2 contre H1 : p1 p2
Une valeur z de la variable aléatoire Z est calculée :

z= avec
z ou calculée ( obs) est comparée avec la valeur seuil lue sur la table
de la loi normale centrée réduite pour un risque d’erreur fixé.

 si α l’hypothèse H0 est rejetée au risque d’erreur : les deux échantillons


sont extraits de deux populations ayant des probabilités de succès respectivement p1 et p2.
 si  ≤ α l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux
populations ayant même probabilité de succès p.

Réalisé par MATY Maman Enseignant permanent à IAI page : 20


Institut Africain d’Informatique Cours d’Analyse de Données

Exemple :
On veut tester l’impact des travaux dirigés dans la réussite à l’examen de statistique.

Groupe 1 Groupe 2
Nbre d’heures de TD 20 h 30 h
Nbre d’étudiants 180 150
Nbre d’étudiants ayant réussi à l’examen 126 129
Reponse
Données :

Groupe 1 : 20h de TD avec n1 = 180 = 0,70

Groupe 2 : 30h de TD avec n2 = 150 = 0,86


Conditions : échantillons indépendants, n1p1, n2p2, n1q1, n2q2  10

Hypothèse : H0 : p1 = p2 contre H1 : p1 < p2


Test unilatéral : la réussite est meilleure avec plus d’heures de TD.

Statistique : T0 = = -3,45 avec = 0,773


Décision :
T0= -3,45 correspond à une probabilité critique obs. < 0,001.
obs < 0,001 donc le risque d’erreur de rejeter H0 alors qu’elle est vraie est très faible. On
peut donc rejeter l’hypothèse H0 avec un risque pratiquement nul de se tromper.
Comme attendu, le taux de réussite est significativement plus grand lorsque le nombre
d’heure de TD est plus élevé (plus de pratique).

Réalisé par MATY Maman Enseignant permanent à IAI page : 21


Institut Africain d’Informatique Cours d’Analyse de Données

Chapitre 3: Analyse de la variance


1. Principe
L’analyse de la variance est une technique statistique fondamentale. Elle vise à comparer des
moyennes sur plusieurs échantillons. Elle s'applique sur un tableau de contingence. C’est la
généralisation de la comparaison des deux moyennes.

L’hypothèse à vérifier (H0) est que tous les échantillons ont la même moyenne. L’hypothèse
alternative H1 est qu’au moins l'un d'eux joue les trouble-fête avec une moyenne
sensiblement différente des autres. Il existe j et i tel que mj différente de mi

2. Procédure de résolution
Etant donné un tableau de contingence, on calcule

n.j=Nombre de modalité par groupe

T.j= effectif du groupe

X  Moyenne du groupe
.j

 Variance du groupe
2
S j

n..=Nombre total de modalité de la population

T..=Effectif de la population

X =Moyenne de la population
..

S²=Variance de la population

SST=S²*(N..-1)

SSW=  (n. j  1). s j


2

SSA=SST-SSW

On remplit le tableau d’analyse comme suit :

SS ddl MS F
A ssa r-1 Ssa/(r-1) MSA/MSW
W ssw n-r Ssw/(n-r)
T sst n-1
On lit dans la table de Fisher snedecor (en ligne la plus petite variance et en colonne la plus
grande) la distance limite d à (r-11) et (n-r) ddl en fonction du risque  .

Réalisé par MATY Maman Enseignant permanent à IAI page : 22


Institut Africain d’Informatique Cours d’Analyse de Données

Si d <D on accepte H0 selon laquelle les moyennes sont sensiblement égales.

3. Exemple
Effectuez une analyse de variance sur ce tableau avec un risque de 5%

22 20 8 12 7
30 18 9 15 8
20 25 21 23 42
10 10 28 22 7
8 9 7 8 10

Résolution

22 20 8 12 7
30 18 9 15 8
20 25 21 23 42
10 10 28 22 7
8 9 7 8 10
N,j 5 5 5 5 5 25,00 N..
T.j 90 82 73 80 74 399,00 T..
M.j 18 16,4 14,6 16 14,8 15,96 M..
S²j 82 46,3 88,3 41,5 232,7 83,37 S²

Tableau d’analyse

TABLEAU D' ANALYSE DE VARIANCE


SS ddl MC F Probabilité D
A 37,76 4 9,44 0,0962 0,9825 2,8661
W 1963,2 20 98,16
T 2000,96 24

Réalisé par MATY Maman Enseignant permanent à IAI page : 23


Institut Africain d’Informatique Cours d’Analyse de Données

Code Python

import pandas as pd
import statsmodels.formula.api
import statsmodels.api
from scipy.stats.distributions import f

av= pd.read_excel("données/application.xlsx", sheet_name="AV1")


av.head()

av=av.melt()
av

fit = statsmodels.formula.api.ols('value ~ variable', data = av).fit()


avr = statsmodels.api.stats.anova_lm(fit)
avr

fo=avr['F'][0]
ddla=avr['df'][0]
ddlw=avr['df'][1]
pvalue=avr['PR(>F)'][0]
print("dda=",ddla,"\nddw=",ddlw,"\nFo=",round(fo,3),'\nPvalue=',round(pvalue,3))

alpha=float(input('Donnez le risque Alpha:'))


D=f.ppf(1-alpha, ddla,ddlw)
print("\nD=",round(D,3))
if fo<= D:
print("H0 est acceptée c'est à dire les moyennes sont égales")
else:
print("H0 est rejetée c'est à dire les moyennes ne sont pas égales")

Réalisé par MATY Maman Enseignant permanent à IAI page : 24


Institut Africain d’Informatique Cours d’Analyse de Données

Chapitre 4 Test d’indépendance de khi deux


1. Position du problème
Le test d’indépendance de khi deux a pour but de savoir si deux ou plusieurs variables
sont indépendantes. Il utilise un tableau de contingence qui est un tableau à deux entrées
dont toutes les entrées sont des variables. L’intersection nij désigne le nombre d’individu
présentant le caractère i de la variable V1 et le caractère j de la variable V2. L’hypothèse de
base H0 suppose que les variables sont indépendantes contre H1 qui suppose que les
variables sont liées.

2. Résolution du problème
Étant donné un tableau de contingence à r lignes et s colonnes, on calcule :

a. Les effectifs marginaux

Ni. =Total ligne


N.j =Total colonne
N..=Total général

b. Le tableau théorique

n .n
  i. .j
ij
n ..

c. La distance de Khi deux

d  
nij  ij    nij 
2 2

n
 ij  ij
..

d. Lecture de la distance limite D

Le degré de liberté ; ddl=(r-1)*(s-1)


Le risque  étant donnée on lit dans la table de Khi deux la distance limite D

e. Conclusion

Si d<=D on accepte l’hypothèse H0 c’est à dire les variables sont indépendantes. Dans le cas
contraire c’est H1 qui est acceptée c'est-à-dire les variables sont liées.

3. Application
Étant donné le tableau observé suivant effectuez le test d’indépendance de Khi deux
pour un risque de 5%

Réalisé par MATY Maman Enseignant permanent à IAI page : 25


Institut Africain d’Informatique Cours d’Analyse de Données

Tableau observé

P1 P2 P3 P4 P5 P6
A1 9 35 44 24 8 13
A2 66 72 171 122 48 71
A3 77 139 380 195 69 233
A4 50 78 155 152 57 85
A6 52 86 274 43 26 48
A6 55 103 191 40 25 46

Les effectifs marginaux ;

P1 P2 P3 P4 P5 P6 Ni.
A1 9 35 44 24 8 13 133
A2 66 72 171 122 48 71 550
A3 77 139 380 195 69 233 1 093
A4 50 78 155 152 57 85 577
A6 52 86 274 43 26 48 529
A6 55 103 191 40 25 46 460
N.j 309 513 1 215 576 233 496 3 342

Tableau théorique
309 *133
Exemple 12.297= n .n
 ij 
i. .j
3342
n ..

12,297 20,416 48,353 22,923 9,273 19,739 133


50,853 84,425 199,955 94,794 38,345 81,628 550
101,058 167,776 397,365 188,381 76,203 162,217 93
53,349 88,57 209,771 99,447 40,228 85,635 577
48,911 81,202 192,32 91,174 36,881 78,511 529
42,531 70,61 167,235 79,282 32,071 68,27 460
309 513 1 215 576 233 496 3 342

Réalisé par MATY Maman Enseignant permanent à IAI page : 26


Institut Africain d’Informatique Cours d’Analyse de Données

La distance de khi deux


2

d= 
nij  n.. d=3598.007-3342=256.007
 ij

 ddl=(6-1)(6-1)=25 et
 La distance limite D=37.652

d>>>>D alors H0 rejetée c'est-à-dire H1 acceptée les variables sont liées

Exercice
Un tableau de contingence indiquant des quantités de CD vendus sur quatre points de vente
en fonction de leur style musical :

Point de Jazz&
Classique Variété Rock Electro
Vente Blues
Libreville 21 340 46 210 9
Port gentil 15 150 20 110 5
FranceVille 17 180 19 99 6
Oyem 22 175 22 187 6

On souhaite savoir si, compte tenu de leur emplacement, ces points de vente attirent ou non
des clientèles différentes pour un risque de 2%.

Réalisé par MATY Maman Enseignant permanent à IAI page : 27


Institut Africain d’Informatique Cours d’Analyse de Données

Table de Khi deux


Khi deux 0,1 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01
1 2,7055 2,8744 3,0649 3,2830 3,5374 3,8415 4,2179 4,7093 5,4119 6,6349
2 4,6052 4,8159 5,0515 5,3185 5,6268 5,9915 6,4378 7,0131 7,8240 9,2103
3 6,2514 6,4915 6,7587 7,0603 7,4069 7,8147 8,3112 8,9473 9,8374 11,3449
4 7,7794 8,0434 8,3365 8,6664 9,0444 9,4877 10,0255 10,7119 11,6678 13,2767
5 9,2364 9,5211 9,8366 10,1910 10,5962 11,0705 11,6443 12,3746 13,3882 15,0863
6 10,6446 10,9479 11,2835 11,6599 12,0896 12,5916 13,1978 13,9676 15,0332 16,8119
7 12,0170 12,3372 12,6912 13,0877 13,5397 14,0671 14,7030 15,5091 16,6224 18,4753
8 13,3616 13,6975 14,0684 14,4836 14,9563 15,5073 16,1708 17,0105 18,1682 20,0902
9 14,6837 15,0342 15,4211 15,8537 16,3459 16,9190 17,6083 18,4796 19,6790 21,6660
10 15,9872 16,3516 16,7535 17,2026 17,7131 18,3070 19,0207 19,9219 21,1608 23,2093
11 17,2750 17,6526 18,0687 18,5334 19,0614 19,6751 20,4120 21,3416 22,6179 24,7250
12 18,5493 18,9395 19,3692 19,8488 20,3934 21,0261 21,7851 22,7418 24,0540 26,2170
13 19,8119 20,2140 20,6568 21,1507 21,7113 22,3620 23,1423 24,1249 25,4715 27,6882
14 21,0641 21,4778 21,9331 22,4408 23,0166 23,6848 24,4855 25,4931 26,8728 29,1412
15 22,3071 22,7319 23,1993 23,7202 24,3108 24,9958 25,8162 26,8479 28,2595 30,5779
16 23,5418 23,9774 24,4564 24,9901 25,5950 26,2962 27,1356 28,1907 29,6332 31,9999
17 24,7690 25,2150 25,7053 26,2514 26,8701 27,5871 28,4450 29,5227 30,9950 33,4087
18 25,9894 26,4455 26,9467 27,5049 28,1370 28,8693 29,7451 30,8447 32,3462 34,8053
19 27,2036 27,6694 28,1814 28,7512 29,3964 30,1435 31,0367 32,1577 33,6874 36,1909
20 28,4120 28,8874 29,4097 29,9910 30,6489 31,4104 32,3206 33,4624 35,0196 37,5662
21 29,6151 30,0998 30,6322 31,2246 31,8949 32,6706 33,5972 34,7593 36,3434 38,9322
22 30,8133 31,3071 31,8494 32,4526 33,1350 33,9244 34,8673 36,0492 37,6595 40,2894
23 32,0069 32,5096 33,0616 33,6754 34,3696 35,1725 36,1311 37,3323 38,9683 41,6384
24 33,1962 33,7077 34,2690 34,8932 35,5990 36,4150 37,3891 38,6093 40,2704 42,9798
25 34,3816 34,9015 35,4721 36,1065 36,8235 37,6525 38,6416 39,8804 41,5661 44,3141
26 35,5632 36,0915 36,6711 37,3154 38,0435 38,8851 39,8891 41,1460 42,8558 45,6417
27 36,7412 37,2777 37,8662 38,5202 39,2593 40,1133 41,1318 42,4066 44,1400 46,9629
28 37,9159 38,4604 39,0577 39,7213 40,4710 41,3371 42,3699 43,6622 45,4188 48,2782
29 39,0875 39,6398 40,2456 40,9187 41,6789 42,5570 43,6038 44,9132 46,6927 49,5879
29 39,0875 39,6398 40,2456 40,9187 41,6789 42,5570 43,6038 44,9132 46,6927 49,5879
30 40,2560 40,8161 41,4304 42,1126 42,8831 43,7730 44,8336 46,1599 47,9618 50,8922

Réalisé par MATY Maman Enseignant permanent


28 à IAI page :
Institut Africain d’Informatique Cours d’Analyse de Données

# Code en Python
import numpy as np
from scipy.stats import chi2_contingency

# Données d'exemple pour le test


data = np.array([[10, 20, 30], [15, 25, 35]])

# Effectuer le test d'indépendance du khi-deux


chi2, p, dof, expected = chi2_contingency(data)

# Afficher les résultats


print("Résultats du test d'indépendance du khi-deux :")
print("Statistique du chi-carré :", chi2)
print("Valeur p :", p)
print("Degrés de liberté :", dof)
print("Fréquences attendues :", expected)

#Code en langage R
# Données d'exemple pour le test
observed_data <- matrix(c(10, 20, 30, 15, 25, 35), nrow = 2, byrow = TRUE)
# Effectuer le test d'indépendance du khi-deux
result <- chisq.test(observed_data)
# Afficher les résultats
print("Résultats du test d'indépendance du khi-deux :")
print("Statistique du chi-carré :", result$statistic)
print("Valeur p :", result$p.value)
print("Degrés de liberté :", result$parameter)
print("Fréquences attendues :", result$expected)

Réalisé par MATY Maman Enseignant permanent à IAI page : 29


Institut Africain d’Informatique Cours d’Analyse de Données

Chapitre 5 : Regressions
Introduction
L'ajustement linéaire simple, également connu sous le nom de régression linéaire simple, est
une méthode statistique utilisée pour modéliser la relation entre une variable indépendante
(X) et une variable dépendante (Y) à l'aide d'une équation linéaire. L'objectif est de trouver la
meilleure ligne droite qui représente au mieux la relation entre les deux variables.

Résolution
L'équation générale d'un ajustement linéaire simple est donnée par :

Y = aX +b

où Y représente la variable dépendante, X représente la variable indépendante, b est


l'ordonnée à l'origine (intercept) et a est la pente de la ligne (coefficient directeur).

L’objet est de minimiser la somme des écarts des yi. S=  ( y  a xi b)


2

En cherchant les coefficients a (la pente) et b (l’ordonnée a l’origine)

a. Calcul de b l'ordonnée à l'origine

s n
 2 ( y  a xi  b)  0
b 1
i

n
  ( y  a xi  b)  0
i
1
n n n
  y  a x   b  0
i
i
1 1 1

=> y  a x  b  0  b  y  a x

b. Calcul de la pente a

S=  y a x  y  a x
i i
2

 y  y  a( x  x)
2
S=
i i
s
 -2  ( xi  x)( y  y  a( xi  x))
a i

n
=>  ( x  x)( y  y)  a ( x  x)( x  x)  0
i i
1
i i

Réalisé par MATY Maman Enseignant permanent à IAI page : 30


Institut Africain d’Informatique Cours d’Analyse de Données

=> a=
 ( x  x)( y  y) a= cov( x, y )
i i

n var( x)
 ( x i  x)
2

c. Le coefficient de corrélation r

 ( x  x)( y
i i
 y)  ( x  x)( y  y)
i i
r= a * a' avec a’= d’où r=
n 2

 ( y i  y)
n 2

 ( yi  y) *  ( xi  x)
2

1 1

; r est compris entre -1 et 1

y
43
43 38
38 33
33
28 y
28
y 23 Y'
23
18
18
13 13

8 8
0 2 4 6 8 10 12 14 16 18 20 22 24 26 0 2 4 6 8 10 12 14 16 18 20 22 24 26

d. Interprétation des résultats

cov(x, y )
 Cas du coefficient de corrélation (r) : r=
 x * y
Le coefficient de corrélation mesure la force et la direction de la relation linéaire entre les
variables X et Y. Sa valeur se situe entre -1 et 1. Voici comment interpréter le coefficient de
corrélation :

Si r est proche de 1, cela indique une corrélation positive forte, ce qui signifie que lorsque les
valeurs de X augmentent, les valeurs de Y ont tendance à augmenter également.

Si r est proche de -1, cela indique une corrélation négative forte, ce qui signifie que lorsque
les valeurs de X augmentent, les valeurs de Y ont tendance à diminuer.

Si r est proche de 0, cela indique une corrélation faible, ce qui signifie qu'il y a peu ou pas de
relation linéaire entre les variables X et Y.

Réalisé par MATY Maman Enseignant permanent à IAI page : 31


Institut Africain d’Informatique Cours d’Analyse de Données
n

 (Y 'i Y )
2

 Cas du coefficient de détermination (R²) : 1


n

 (Y i Y )
2

Le coefficient de détermination mesure la proportion de la variance totale de la variable


dépendante (Y) qui peut être expliquée par la variable indépendante (X). Il est également
compris entre 0 et 1. Voici comment interpréter le coefficient de détermination :

Plus R² est proche de 1, plus le modèle d'ajustement linéaire explique une grande partie de
la variance de la variable dépendante. Cela indique une bonne adéquation du modèle aux
données.

Si R² est proche de 0, cela signifie que le modèle ne parvient pas à expliquer la variance de la
variable dépendante. Il est possible que d'autres facteurs non inclus dans le modèle aient
une influence sur la variable dépendante.

 Cas de la Racine carrée de l'erreur quadratique moyenne (RMSE) :

 (Y 'i Y )
2

RMSE= 1

La RMSE mesure l'écart moyen entre les valeurs prédites par le modèle d'ajustement linéaire
et les valeurs réelles de la variable dépendante. Elle est utile pour évaluer la précision de
prédiction du modèle. Voici comment interpréter la RMSE :

Une RMSE plus proche de 0 indique une meilleure adéquation du modèle et une meilleure
précision de prédiction.

Une RMSE plus élevée indique une plus grande dispersion des valeurs prédites par rapport
aux valeurs réelles, ce qui suggère que le modèle ne s'ajuste pas bien aux données.

e. Application

X Y X² Y² XY Y'=ax+b Y'-Y (Y'-Y)² (y'-ybar)² (y-ybar)²


2 7
5 13
6 15
1 5
4 11
8 19
6 15
5 13

Total
X Y a
Moyenne b RMSE
Variances r
Covariance MSE R²=
Réalisé par MATY Maman Enseignant permanent à IAI page : 32
Institut Africain d’Informatique Cours d’Analyse de Données

Code Python

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Données d'exemple
X = np.array([1, 2, 3, 4, 5]) # Variable indépendante
Y = np.array([2, 4, 5, 4, 6]) # Variable dépendante

# Créer le modèle d'ajustement linéaire


model = LinearRegression()

# Entraîner le modèle
model.fit(X.reshape(-1, 1), Y)

# Effectuer les prédictions


Y_pred = model.predict(X.reshape(-1, 1))

# Calculer la RMSE
rmse = np.sqrt(mean_squared_error(Y, Y_pred))

# Calculer le coefficient de détermination (R²)


r2 = r2_score(Y, Y_pred)

# Obtenir les coefficients de l'ajustement linéaire


intercept = model.intercept_
slope = model.coef_[0]
# le coefficient de correlation r
r= np.corrcoef(X,Y)

# Afficher les résultats


print("Intercept :", intercept)
print("Slope :", slope)
print("RMSE :", rmse)
print("R² :", r2)
print("r= :", r)

Réalisé par MATY Maman Enseignant permanent à IAI page : 33


Institut Africain d’Informatique Cours d’Analyse de Données

Chapitre 6 : Analyse discriminante


1. Le partitionnement ou Kmeans
Définition
Le partitionnement est une méthode d'analyse des données non supervisée qui vise à diviser
un ensemble d'individus ou d'objets en plusieurs groupes distincts (clusters) en fonction de
leurs similarités. Contrairement à la classification ascendante hiérarchique (CAH), le
partitionnement ne vise pas à créer une hiérarchie de groupes, mais plutôt à diviser les
individus en groupes non hiérarchiques.

Le processus de partitionnement commence par sélectionner un nombre donné de clusters


et en attribuant les individus ou les objets au hasard à l'un des clusters. Ensuite, les centres
de chaque cluster sont calculés et les individus ou les objets sont réattribués aux clusters en
fonction de leur distance au centre de chaque cluster. Cette étape est répétée plusieurs fois
jusqu'à ce que les centres des clusters ne se déplacent plus ou que la qualité de la partition
soit considérée comme suffisante.

Il existe plusieurs algorithmes de partitionnement, tels que l'algorithme de k-means,


l'algorithme de k-medoids ou encore l'algorithme de clustering spectral. En fonction de
l'algorithme choisi, la mesure de la similarité entre les individus ou les objets peut varier,
ainsi que la manière dont les centres des clusters sont calculés et les individus ou les objets
sont réattribués aux clusters.

Le partitionnement est largement utilisé dans différents domaines, tels que la biologie, la
géologie, la sociologie, la finance ou le marketing. Il peut être utilisé pour regrouper les
clients en fonction de leurs caractéristiques démographiques ou comportementales, pour
détecter des anomalies dans les données financières, ou encore pour classer les images
médicales en fonction de leurs caractéristiques.

Soient 8 points suivants, effectuez un Kmeans avec U1=A1 ; U2=A4 et U3= A7

Point X Y
A1 2 10
A2 2 5
A3 8 4
A4 5 8
A5 7 5
A6 6 4
A7 1 2
A8 4 9

Réalisé par MATY Maman Enseignant permanent à IAI page : 34


Institut Africain d’Informatique Cours d’Analyse de Données

Etape 1

2 2 8 5 7 6 1 4
10 5 4 8 5 4 2 9
A1 A2 A3 A4 A5 A6 A7 A8

2 - 5,00 8,49 3,61 7,07 7,21 8,06 2,24 C1={A1}


U1=A1 10 C2={A3,A4,A5,A6,A8}

5 3,61 4,24 5,00 - 3,61 4,12 7,21 1,41 C3={A2,A7}


U2=A4 8

1 8,06 3,16 7,28 7,21 6,71 5,39 - 7,62


U3=A7 2

Etape2

2 2 8 5 7 6 1 4
10 5 4 8 5 4 2 9
A1 A2 A3 A4 A5 A6 A7 A8 C1={A1,A8}

2 - 5,00 8,49 3,61 7,07 7,21 8,06 2,24 C2={A3,A4,A5,A6}


U1 10 C3={A2,A7}

6 5,66 4,12 2,83 2,24 1,41 2,00 6,40 3,61


U2 6

1,5 6,52 1,58 6,52 5,70 5,70 4,53 1,58 6,04


U3 3,5

Réalisé par MATY Maman Enseignant permanent à IAI page : 35


Institut Africain d’Informatique Cours d’Analyse de Données

Étape 3
2 2 8 5 7 6 1 4
10 5 4 8 5 4 2 9
A1 A2 A3 A4 A5 A6 A7 A8 C1={A1,A4,A8}

3 1,12 4,61 7,43 2,50 6,02 6,26 7,76 1,12 C2={A3,A5,A6}


U1 9,5 C3={A2,A7}

6,5 6,54 4,51 1,95 3,13 0,56 1,35 6,39 4,51


U2 5,25

1,5 6,52 1,58 6,52 5,70 5,70 4,53 1,58 6,04


U3 3,5

Réalisé par MATY Maman Enseignant permanent à IAI page : 36


Institut Africain d’Informatique Cours d’Analyse de Données

Étape 4
2 2 8 5 7 6 1 4
10 5 4 8 5 4 2 9
A1 A2 A3 A4 A5 A6 A7 A8 C1={A1,A4,A8}

3,67 1,94 4,33 6,62 1,67 5,21 5,52 7,49 0,33 C2={A3,A5,A6}

U1 9,00 C3={A2,A7}

6,50 6,54 4,51 1,95 3,13 0,56 1,35 6,39 4,51

U2 4,33

1,50 6,52 1,58 6,52 5,70 5,70 4,53 1,58 6,04

U3 3,50

Aucun individu n’a changé de classe dont l’algorithme est stable

Réalisé par MATY Maman Enseignant permanent à IAI page : 37


Institut Africain d’Informatique Cours d’Analyse de Données

2. Classification Ascendante Hiérarchique(CAH)

a. Définition

La classification ascendante hiérarchique (CAH) est une méthode d'analyse des données non
supervisée qui vise à regrouper un ensemble d'individus ou d'objets en plusieurs clusters
(groupes) en fonction de leurs similarités.

La méthode de CAH commence par considérer chaque individu ou objet comme un cluster
distinct, puis elle combine progressivement les clusters en groupes plus grands en fonction
de leurs similarités. Le processus de combinaison se poursuit jusqu'à ce que tous les
individus soient regroupés dans un même cluster.

Pour mesurer les similarités entre les individus ou les objets, différentes métriques peuvent
être utilisées, telles que la distance euclidienne, la distance de Manhattan ou la corrélation.
En fonction de la métrique choisie, la CAH peut être utilisée pour regrouper les individus ou
les objets en fonction de leurs caractéristiques ou de leurs comportements similaires.

La CAH peut être utilisée dans différents domaines, tels que la biologie, la géologie, la
sociologie ou le marketing. Par exemple, en marketing, elle peut être utilisée pour regrouper
les clients en fonction de leurs comportements d'achat, afin de créer des segments de
marché et d'adapter les offres en fonction de chaque groupe.

b. Exemple

Soient 8 points suivants, effectuez la Classification Ascendante Hiérarchique

Point X Y
A1 2 10
A2 2 5
A3 8 4
A4 5 8
A5 7 5
A6 6 4
A7 1 2
A8 4 9

Réalisé par MATY Maman Enseignant permanent à IAI page : 38


Institut Africain d’Informatique Cours d’Analyse de Données

Etape 1
2 2 8 5 7 6 1 4
10 5 4 8 5 4 2 9
A1 A2 A3 A4 A5 A6 A7 A8

A1 2 - 5,00 8,49 3,61 7,07 7,21 8,06 2,24


10

A2 2 5,00 - 6,08 4,24 5,00 4,12 3,16 4,47


5

A3 8 8,49 6,08 - 5,00 1,41 2,00 7,28 6,40 Min=1,41


4 A3-A5

A4 5 3,61 4,24 5,00 - 3,61 4,12 7,21 1,41


8 G1={7,5;4,5}

A5 7 7,07 5,00 1,41 3,61 - 1,41 6,71 5,00


5

A6 6 7,21 4,12 2,00 4,12 1,41 - 5,39 5,39


4

A7 1 8,06 3,16 7,28 7,21 6,71 5,39 - 7,62


2

A8 4 2,24 4,47 6,40 1,41 5,00 5,39 7,62 -


9

Etape2 : On va remplacer le couple {A3 ; A5 } par son centre de gravité G1(7.5 ;4.5} et
recalculer les distances.

Réalisé par MATY Maman Enseignant permanent à IAI page : 39


Institut Africain d’Informatique Cours d’Analyse de Données

2 2 7,5 5 6 1 4
10 5 4,5 8 4 2 9
A1 A2 C1 A4 A6 A7 A8

A1 2 - 5,00 7,78 3,61 7,21 8,06 2,24


10

A2 2 5,00 - 5,52 4,24 4,12 3,16 4,47 Min=1,41


5 A4-A8

C1 7,5 7,78 5,52 - 4,30 1,58 6,96 5,70 G2={4,5;8,5}


4,5

A4 5 3,61 4,24 4,30 - 4,12 7,21 1,41


8

A6 6 7,21 4,12 1,58 4,12 - 5,39 5,39


4

A7 1 8,06 3,16 6,96 7,21 5,39 - 7,62


2

A8 4 2,24 4,47 5,70 1,41 5,39 7,62 -


9

Étape 3 : On va remplacer le couple {A4 ; A8 } par son centre de gravité G2(4,5 ;8.5} et
recalculer les distances

2 2 7,5 4,5 6 1
10 5 4,5 8,5 4 2
A1 A2 G1 G2 A6 A7

A1 2 - 5,00 7,78 2,92 7,21 8,06


10
2 5,00 - 5,52 4,30 4,12 3,16
A2
5
7,5 7,78 5,52 - 5,00 1,58 6,96
G1
4,5
4,5 2,92 4,30 5,00 - 4,74 7,38 Min=1,58
G2
8,5 G1 et A6
6 7,21 4,12 1,58 4,74 - 5,39
A6
4 G3(6,75;4,25)
1 8,06 3,16 6,96 7,38 5,39 -
A7
2
Réalisé par MATY Maman Enseignant permanent à IAI page : 40
Institut Africain d’Informatique Cours d’Analyse de Données

Étape 4 : On va remplacer le couple {G1 ; A6} par son centre de gravité G3 (6,75 ;4,25 } et
recalculer les distances.

2 2 7,5 4,5 6 1
10 5 4,5 8,5 4 2
A1 A2 G1 G2 A6 A7

A1 2 - 5,00 7,78 2,92 7,21 8,06


10

A2 2 5,00 - 5,52 4,30 4,12 3,16


5
7,5 7,78 5,52 - 5,00 1,58 6,96
G1
4,5
4,5 2,92 4,30 5,00 - 4,74 7,38 Min=1,58
G2
8,5 G1 et A6

A6 6 7,21 4,12 1,58 4,74 - 5,39


4 G3(6,75;4,25)

A7 1 8,06 3,16 6,96 7,38 5,39 -


2

Étape 5 : On va remplacer le couple {G1 ; A6} par son centre de gravité G4(1,5 ;3,5} et
recalculer les distances.
2 2 6,75 5 1
10 5 4,25 8 2
A1 A2 G3 G2 A7

A1 2 - 5,00 7,46 3,61 8,06


10

A2 2 5,00 - 4,81 4,24 3,16


5 Min=3,16

G3 6,75 7,46 4,81 - 4,14 6,17 A2 et A7


4,25

G2 5 3,61 4,24 4,14 - 7,21 G4(1,5;3,5)


8

A7 1 8,06 3,16 6,17 7,21 -


2

Réalisé par MATY Maman Enseignant permanent à IAI page : 41


Institut Africain d’Informatique Cours d’Analyse de Données

Étape 6 : On va remplacer le couple {A2 ; A6} par son centre de gravité G4(1,5 ;3,5} et
recalculer les distances.

2 1,5 6,75 5
10 3,5 4,25 8
A1 G4 G3 G2

A1 2 - 6,52 7,46 3,61 Min=3,61


10 A1 et G2

G4 1,5 6,52 - 5,30 5,70 G5(3,5;9)


3,5

G3 6,75 7,46 5,30 - 4,14


4,25

G2 5 3,61 5,70 4,14 -


8

Étape 7 : On va remplacer le couple {A1 ; G2} par son centre de gravité G6(3,5 ;9} et
recalculer les distances.
3,5 1,5 6,75
9 3,5 4,25
G5 G4 G3

G5 3,5 - 5,85 5,76 Min=5,30


9 G4 et G3

G4 1,5 5,85 - 5,30 G6(4,125;3,875)


3,5

G3 6,75 5,76 5,30 -


4,25

Étape 8 : On va remplacer le couple {G4 ; G3} par son centre de gravité G4(4,125 ;3.875} et
recalculer les distances.

3,5 4,125
9 3,875
G5 G6

G5 3,5 - 5,16 Min=5,16


9 G5 et G6
Fin
G6 4,125 5,16 - d'algorithme
3,875
Réalisé par MATY Maman Enseignant permanent à IAI page : 42
Institut Africain d’Informatique Cours d’Analyse de Données

Code Python
from matplotlib import pyplot as plt
import pandas as pd
from scipy.cluster.hierarchy import dendrogram, linkage
import scipy
%matplotlib inline

df = pd.read_excel("./données/CAH.xlsx",index_col=0)
df

Z = linkage(df,method='ward',metric='euclidean')

plt.scatter(df.X,df.Y)

#affichage du dendrogramme
fig = plt.figure(figsize=(30, 30))
plt.title("CAH")
dendrogram(Z,labels=df.index,orientation='top',color_threshold=4)
plt.show()

Réalisé par MATY Maman Enseignant permanent à IAI page : 43

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy