Support Analyse de Données 2023
Support Analyse de Données 2023
Support Analyse de Données 2023
La Médiane 1
(n 1) FACAi 1
M e ai 2 i
ni
Le Mode d1
d1 d 2 i
M o ai *
k
La Moyenne n x
1 k i i
arithmétique M xi
n i 1 ni
1
k
n 1
i
1/ n
Moyenne n
G x
1 n
= G n x1 1 .x2 2 ...xk ln G ln xi
n n nk
Géométrique i 1 i n i 1 ni
Moyenne n
H n
ni
Harmonique
i 1 x i
Moyenne Q
1 n
ni xi
2
n i 1
Quadratique
La Variance V ( x) 2 ( x)
1
ni ( xi x )2 =q²-m²
n
X
n
La covariance X * Yi Y
COV ( X , Y ) i i
* x y
La pente ( x x)( y y)
i i
cov( x, y )
a= n =
( x i x)
2
var( x)
1
L'ordonnée à b y ax
l'origine
Coefficient de cov(x, y )
r= ; r est compris entre -1 et 1.
corrélation x * y
Bernoulli B(1,p) p pq
p ( x 0) q
k nk
P( x k ) c n
k
Binomiale pq B(n,p) np npq
k nk
N n
P( x k ) c c
Hypergéometriqu n1 N n1
H(N,n,p) np npq*
N 1
n
e
c N
P( x k ) e
k
Poisson P( )
k!
k 1 1 q
Géometrique P( x k ) p q G(p)
p p2
Uniforme ba (b a )²
f (x) = 1 [a, b] (x) UC
Continue 2 12
Normale N(m, ) m
f (µ, ) (x) =
LOIS CONTINUES
Normale Centrée
N(0,1) 0 1
réduite f (0, 1) (u) = e
ax 1 1
Exponnetielle ae si x>=0 et a>0 E(a)
a a²
n
2
2
Khi deux 2
n
1
Z
n
Student Fisher Tn 0
2
n2
X 2m²( n m 2)
n m
Fisher Snedecor F(n,m) n(m 2)²( m 4)
Y m2
m
3. Applications
Série1
xi ni FACA FACD nixi nixi² niln(xi) ni/xi ni|xi-m|
1 5
2 5
3 10
4 5
5 5
Total
Mo= G= M= Q=
Me= H= V(x)= σ(x)=
Série 2
xi ni FACA FACD nixi nixi² niln(xi) ni/xi ni|xi-m|
1 380
2 455
3 245
4 230
5 100
6 75
7 10
8 5
Total
Mo= G= M= Q=
Me= H= V(x)= σ(x)=
Série 3
salaire F/h xi ni nixi nixi² ni/xi niln(xi) FACA ni|xi-m|
1200-1250 1 225 20
1250-1300 1 275 10
1300-1350 1 325 32
1350-1400 1 375 25
1400-1450 1 425 8
1450-1500 1 475 5
Total
Mo= G= M= Q=
Me= H= V(x)= σ(x)=
Série 4
Mo= G= M= Q=
Me= H= V(x)= σ(x)=
Partie probabilité
E(x)= V(x)=
XI PI XIPI XI²PI
0
1
2
3
4
5
Total
E(x)= V(x)=
XI PI XIPI XI²PI
0
1
2
3
4
5
6
7
8
Total
E(x)= V(x)=
1. Estimation ponctuelle
a. Espérance
Soit X une variable aléatoire continue suivant une loi normale N(m,) dont la valeur des
paramètres n’est pas connue et pour laquelle on souhaite estimer l’espérance m.
Soient X1, X2,…, Xi, ..., Xn , n réalisations indépendantes de la variable aléatoire X, un estimateur
nx i i
mx
n
b. Variance
Soit X une variable aléatoire continue suivant une loi normale N (m, pour laquelle on
2 1 n
n 1
x m
i
2
s
2
1 n
n 1 1
X i
X
2
c. Fréquence
d. Exemple :
On a prélevé au hasard, dans une population de lapin, 100 individus. Sur ces 100 lapins, 20
sont atteints par la myxomatose. Le pourcentage de lapins atteints par la myxomatose dans
la population est donc :
k
P= = = 0,2 soit 20% de lapins atteins dans la population
n
Ce résultat n’aura de signification que s’il est associé à un intervalle de confiance.
2. Tests de conformité
Les tests de conformité sont destinés à vérifier si un échantillon peut être considéré comme
extrait d’une population donnée ou représentatif de cette population, vis-à-vis d'un
paramètre comme la moyenne, la variance ou la fréquence observée. Ceci implique que la
loi théorique du paramètre est connue au niveau de la population.
, s2) obtenu à partir d’un échantillon aléatoire simple de taille n, on cherche à savoir si
l’échantillon est représentatif de la population pour le paramètre considéré.
H0 :
Soit X, une variable aléatoire observée sur une population, suivant une loi normale et un
échantillon extrait de cette population.
Z= =
Application et Décision
Exemple :
La glycémie d’une population suit une loi normale d’espérance = 1g/l et d’écart-type 0 =
0,1 g/l.
On relève les glycémies chez 9 patients. On trouve = 1,12g/l. Cet échantillon est-il
représentatif de la population ?
Statistique du test
La démarche est la même que pour le test précédent mais la variance de la population
n’étant pas connue, elle est estimée par :
X m0
T 0
2
s
n
Application et Décision
T0 calculée (tobs) est comparée avec la valeur tseuil lue dans la table de Student
pour un risque d’erreur fixé et (n - 1) degrés de liberté.
si tobs > tseuil l’hypothèse H0 est rejetée au risque d’erreur : l’échantillon appartient
à une population d’espérance et n’est pas représentatif de la population de référence
d’espérance 0 .
si tobs tseuil l’hypothèse H0 est acceptée: l’échantillon est représentatif de la
population de référence d’espérance 0.
Remarque : Si n < 30, la variable aléatoire X étudiée doit impérativement suivre une loi
normale N(). Pour n 30, la variable de student t converge vers une loi normale
centrée réduite .
Exemple :
Pour étudier un lot de fabrication de comprimés, on prélève au hasard 10 comprimés parmi
les 30 000 produits et on les pèse. On observe les valeurs de poids en grammes :
0,81 – 0,84 – 0,83 – 0,80 – 0,85 – 0,86 – 0,85 – 0,83 – 0,84 – 0,80
Le poids moyen observé est-il compatible avec la valeur 0,83g, moyenne de la production au
seuil 98% ?
1. Principe du test
Soit X une variable qualitative prenant deux modalités (succès X=1, échec X=0) observée sur
une population et un échantillon extrait de cette population.
k
Le but est de savoir si un échantillon de fréquence observée , estimateur de p,
n
appartient à une population de référence connue de fréquence p0 (H0 vraie) ou à une autre
population inconnue de fréquence p (H1 vraie).
Statistique du test
k
suit une loi normale telle que :
k
suit N (p,
p0 q0 ), les variances étant supposées
n n n
égales dans la population de référence et la population d’où est extrait l’échantillon.
k
La statistique étudiée est l’écart : S = – p0 dont la distribution de probabilité est la
n
pq0 0
pq0 0
suivante S N (0, ) avec sous H0 E(S) = 0 et V(S) =
n n
On établit la variable Z centrée réduite telle que
k
T0 n
-p
0
mais seulement si np0 et nq0 10
pq
0 0
k
-p
Sous H0 : p = p0 et T0 = n 0
suit une loi normale centrée réduite N(0,1)
pq0 0
Application et décision
k
-p
calculée :z = n 0
notée aussi
pq
0 0
n
Exemple :
Une anomalie génétique touche au Gabon 1/1000 des individus. On a constaté dans une
région donnée : 57 personnes atteintes sur 50 000 naissances.
Cette région est-elle représentative du Gabon entier ?
= = 0,00114
Statistique : = = 0,99
Décision :
Avec un risque d’erreur = 0,05, = 1,96 , donc
obs < seuil et donc H0 ne peut être rejetée. On accepte donc l’hypothèse H0.
3. Tests d’homogénéité
Les tests d’homogénéité ou d’égalité destinés à comparer deux populations à l’aide d’un
nombre équivalent d’échantillons sont les plus couramment utilisés. Dans ce cas la loi
théorique du paramètre étudié (par exemple p, ) est inconnue au niveau des
populations étudiées.
1 Principe du test
Soit X un caractère quantitatif continu observé sur 2 populations suivant une loi normale et
deux échantillons indépendants extraits de ces deux populations.
On fait l’hypothèse que les deux échantillons proviennent de 2 populations dont les
espérances sont égales.
Statistique du test
Application et décision
L’hypothèse testée est la suivante :
H0 : 2 contre H1 :
Une valeur z de la variable aléatoire Z est calculée :
T 0=
si α, l’hypothèse H0 est rejetée au risque d’erreur α: les deux échantillons sont
extraits de deux populations ayant des espérances respectivement et.
si ≤ α, l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux
populations ayant même espérance .
Exemple :
On a effectué une étude, en milieu urbain et en milieu rural, sur le rythme cardiaque
humain :
Effectif de l’échantillon 300 240
Moyenne de l’échantillon 80 77
Variance de la population 150 120
Peut-on affirmer qu’il existe une différence significative entre les rythmes cardiaques
moyens des deux populations ?
Statistique du test
Les variances des populations n’étant pas connues, on fait l’hypothèse que les deux
populations présentent la même variance.
si tobs > tseuil l’hypothèse H0 est rejetée au risque d’erreur : les deux échantillons
sont extraits de deux populations ayant des espérances respectivement 1 et 2.
si tobs tseuil l’hypothèse H0 est acceptée: les deux échantillons sont extraits de deux
populations ayant même espérance .
Exemple :
Dans le but d’étudier l’influence du type d’atmosphère d’élevage sur la durée de
développement des drosophiles femelles, ces dernières ont été élevées à 14°C sous
atmosphère normale (N) ou enrichie en C02 (C02). Les resultants savants ont été obtenus :
N 864, 768, 912, 804, 924, 984, 888, 816, 840, 936, 792, 876
C02 840, 948, 936, 1032, 912, 948, 1020, 936, 1056, 876, 1032, 918
Si les variances des populations ne sont pas connues et si leurs estimations à partir des
échantillons sont significativement différentes (test de comparaison des variances), il faut
considérer deux cas de figure selon la taille des échantillons comparés :
La statistique utilisée est la même que pour le cas où les variances sont connues.
Sous H0 :
échantillons, et
L’hypothèse testée est la suivante :
H0 contre H1 :
Une valeur z de la variable aléatoire Z est calculée :
z=
Exemple :
Dans le but d’étudier l’influence éventuelle de la lumière sur la croissance du poisson
Lebistes Reticulus, on a élevé deux lots de ce poisson dans des conditions d’éclairage
différentes. Au 95ème jour, on a mesuré en mm les longueurs xi des poissons. On a obtenu les
résultats suivants :
Lorsque les variances sont inégales et les échantillons de petites tailles, la loi de probabilité
suivie par n’est pas connue. On a recours alors aux statistiques non
paramétriques.
1 Principe du test
Soit X une variable qualitative prenant deux modalités (succès X=1, échec X=0) observée sur
2 populations et deux échantillons indépendants extraits de ces deux populations. On fait
l’hypothèse que les deux échantillons proviennent de 2 populations dont les probabilités de
succès sont identiques.
Le problème est de savoir si la différence entre les deux fréquences observées est réelle ou
explicable par les fluctuations d’échantillonnage. Pour résoudre ce problème, deux tests de
comparaison de fréquences sont possibles :
2 Statistique du test
Sous H0 : p1 = p2 avec p=
.3 Application et décision
La valeur p, probabilité du succès commune aux deux populations n’est en réalité pas
connue. On l’estime à partir des résultats observés sur les deux échantillons :
z= avec
z ou calculée ( obs) est comparée avec la valeur seuil lue sur la table
de la loi normale centrée réduite pour un risque d’erreur fixé.
Exemple :
On veut tester l’impact des travaux dirigés dans la réussite à l’examen de statistique.
Groupe 1 Groupe 2
Nbre d’heures de TD 20 h 30 h
Nbre d’étudiants 180 150
Nbre d’étudiants ayant réussi à l’examen 126 129
Reponse
Données :
L’hypothèse à vérifier (H0) est que tous les échantillons ont la même moyenne. L’hypothèse
alternative H1 est qu’au moins l'un d'eux joue les trouble-fête avec une moyenne
sensiblement différente des autres. Il existe j et i tel que mj différente de mi
2. Procédure de résolution
Etant donné un tableau de contingence, on calcule
X Moyenne du groupe
.j
Variance du groupe
2
S j
T..=Effectif de la population
X =Moyenne de la population
..
S²=Variance de la population
SST=S²*(N..-1)
SSA=SST-SSW
SS ddl MS F
A ssa r-1 Ssa/(r-1) MSA/MSW
W ssw n-r Ssw/(n-r)
T sst n-1
On lit dans la table de Fisher snedecor (en ligne la plus petite variance et en colonne la plus
grande) la distance limite d à (r-11) et (n-r) ddl en fonction du risque .
3. Exemple
Effectuez une analyse de variance sur ce tableau avec un risque de 5%
22 20 8 12 7
30 18 9 15 8
20 25 21 23 42
10 10 28 22 7
8 9 7 8 10
Résolution
22 20 8 12 7
30 18 9 15 8
20 25 21 23 42
10 10 28 22 7
8 9 7 8 10
N,j 5 5 5 5 5 25,00 N..
T.j 90 82 73 80 74 399,00 T..
M.j 18 16,4 14,6 16 14,8 15,96 M..
S²j 82 46,3 88,3 41,5 232,7 83,37 S²
Tableau d’analyse
Code Python
import pandas as pd
import statsmodels.formula.api
import statsmodels.api
from scipy.stats.distributions import f
av=av.melt()
av
fo=avr['F'][0]
ddla=avr['df'][0]
ddlw=avr['df'][1]
pvalue=avr['PR(>F)'][0]
print("dda=",ddla,"\nddw=",ddlw,"\nFo=",round(fo,3),'\nPvalue=',round(pvalue,3))
2. Résolution du problème
Étant donné un tableau de contingence à r lignes et s colonnes, on calcule :
b. Le tableau théorique
n .n
i. .j
ij
n ..
d
nij ij nij
2 2
n
ij ij
..
e. Conclusion
Si d<=D on accepte l’hypothèse H0 c’est à dire les variables sont indépendantes. Dans le cas
contraire c’est H1 qui est acceptée c'est-à-dire les variables sont liées.
3. Application
Étant donné le tableau observé suivant effectuez le test d’indépendance de Khi deux
pour un risque de 5%
Tableau observé
P1 P2 P3 P4 P5 P6
A1 9 35 44 24 8 13
A2 66 72 171 122 48 71
A3 77 139 380 195 69 233
A4 50 78 155 152 57 85
A6 52 86 274 43 26 48
A6 55 103 191 40 25 46
P1 P2 P3 P4 P5 P6 Ni.
A1 9 35 44 24 8 13 133
A2 66 72 171 122 48 71 550
A3 77 139 380 195 69 233 1 093
A4 50 78 155 152 57 85 577
A6 52 86 274 43 26 48 529
A6 55 103 191 40 25 46 460
N.j 309 513 1 215 576 233 496 3 342
Tableau théorique
309 *133
Exemple 12.297= n .n
ij
i. .j
3342
n ..
d=
nij n.. d=3598.007-3342=256.007
ij
ddl=(6-1)(6-1)=25 et
La distance limite D=37.652
Exercice
Un tableau de contingence indiquant des quantités de CD vendus sur quatre points de vente
en fonction de leur style musical :
Point de Jazz&
Classique Variété Rock Electro
Vente Blues
Libreville 21 340 46 210 9
Port gentil 15 150 20 110 5
FranceVille 17 180 19 99 6
Oyem 22 175 22 187 6
On souhaite savoir si, compte tenu de leur emplacement, ces points de vente attirent ou non
des clientèles différentes pour un risque de 2%.
# Code en Python
import numpy as np
from scipy.stats import chi2_contingency
#Code en langage R
# Données d'exemple pour le test
observed_data <- matrix(c(10, 20, 30, 15, 25, 35), nrow = 2, byrow = TRUE)
# Effectuer le test d'indépendance du khi-deux
result <- chisq.test(observed_data)
# Afficher les résultats
print("Résultats du test d'indépendance du khi-deux :")
print("Statistique du chi-carré :", result$statistic)
print("Valeur p :", result$p.value)
print("Degrés de liberté :", result$parameter)
print("Fréquences attendues :", result$expected)
Chapitre 5 : Regressions
Introduction
L'ajustement linéaire simple, également connu sous le nom de régression linéaire simple, est
une méthode statistique utilisée pour modéliser la relation entre une variable indépendante
(X) et une variable dépendante (Y) à l'aide d'une équation linéaire. L'objectif est de trouver la
meilleure ligne droite qui représente au mieux la relation entre les deux variables.
Résolution
L'équation générale d'un ajustement linéaire simple est donnée par :
Y = aX +b
s n
2 ( y a xi b) 0
b 1
i
n
( y a xi b) 0
i
1
n n n
y a x b 0
i
i
1 1 1
=> y a x b 0 b y a x
b. Calcul de la pente a
S= y a x y a x
i i
2
y y a( x x)
2
S=
i i
s
-2 ( xi x)( y y a( xi x))
a i
n
=> ( x x)( y y) a ( x x)( x x) 0
i i
1
i i
=> a=
( x x)( y y) a= cov( x, y )
i i
n var( x)
( x i x)
2
c. Le coefficient de corrélation r
( x x)( y
i i
y) ( x x)( y y)
i i
r= a * a' avec a’= d’où r=
n 2
( y i y)
n 2
( yi y) * ( xi x)
2
1 1
y
43
43 38
38 33
33
28 y
28
y 23 Y'
23
18
18
13 13
8 8
0 2 4 6 8 10 12 14 16 18 20 22 24 26 0 2 4 6 8 10 12 14 16 18 20 22 24 26
cov(x, y )
Cas du coefficient de corrélation (r) : r=
x * y
Le coefficient de corrélation mesure la force et la direction de la relation linéaire entre les
variables X et Y. Sa valeur se situe entre -1 et 1. Voici comment interpréter le coefficient de
corrélation :
Si r est proche de 1, cela indique une corrélation positive forte, ce qui signifie que lorsque les
valeurs de X augmentent, les valeurs de Y ont tendance à augmenter également.
Si r est proche de -1, cela indique une corrélation négative forte, ce qui signifie que lorsque
les valeurs de X augmentent, les valeurs de Y ont tendance à diminuer.
Si r est proche de 0, cela indique une corrélation faible, ce qui signifie qu'il y a peu ou pas de
relation linéaire entre les variables X et Y.
(Y 'i Y )
2
(Y i Y )
2
Plus R² est proche de 1, plus le modèle d'ajustement linéaire explique une grande partie de
la variance de la variable dépendante. Cela indique une bonne adéquation du modèle aux
données.
Si R² est proche de 0, cela signifie que le modèle ne parvient pas à expliquer la variance de la
variable dépendante. Il est possible que d'autres facteurs non inclus dans le modèle aient
une influence sur la variable dépendante.
(Y 'i Y )
2
RMSE= 1
La RMSE mesure l'écart moyen entre les valeurs prédites par le modèle d'ajustement linéaire
et les valeurs réelles de la variable dépendante. Elle est utile pour évaluer la précision de
prédiction du modèle. Voici comment interpréter la RMSE :
Une RMSE plus proche de 0 indique une meilleure adéquation du modèle et une meilleure
précision de prédiction.
Une RMSE plus élevée indique une plus grande dispersion des valeurs prédites par rapport
aux valeurs réelles, ce qui suggère que le modèle ne s'ajuste pas bien aux données.
e. Application
Total
X Y a
Moyenne b RMSE
Variances r
Covariance MSE R²=
Réalisé par MATY Maman Enseignant permanent à IAI page : 32
Institut Africain d’Informatique Cours d’Analyse de Données
Code Python
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
# Données d'exemple
X = np.array([1, 2, 3, 4, 5]) # Variable indépendante
Y = np.array([2, 4, 5, 4, 6]) # Variable dépendante
# Entraîner le modèle
model.fit(X.reshape(-1, 1), Y)
# Calculer la RMSE
rmse = np.sqrt(mean_squared_error(Y, Y_pred))
Le partitionnement est largement utilisé dans différents domaines, tels que la biologie, la
géologie, la sociologie, la finance ou le marketing. Il peut être utilisé pour regrouper les
clients en fonction de leurs caractéristiques démographiques ou comportementales, pour
détecter des anomalies dans les données financières, ou encore pour classer les images
médicales en fonction de leurs caractéristiques.
Point X Y
A1 2 10
A2 2 5
A3 8 4
A4 5 8
A5 7 5
A6 6 4
A7 1 2
A8 4 9
Etape 1
2 2 8 5 7 6 1 4
10 5 4 8 5 4 2 9
A1 A2 A3 A4 A5 A6 A7 A8
Etape2
2 2 8 5 7 6 1 4
10 5 4 8 5 4 2 9
A1 A2 A3 A4 A5 A6 A7 A8 C1={A1,A8}
Étape 3
2 2 8 5 7 6 1 4
10 5 4 8 5 4 2 9
A1 A2 A3 A4 A5 A6 A7 A8 C1={A1,A4,A8}
Étape 4
2 2 8 5 7 6 1 4
10 5 4 8 5 4 2 9
A1 A2 A3 A4 A5 A6 A7 A8 C1={A1,A4,A8}
3,67 1,94 4,33 6,62 1,67 5,21 5,52 7,49 0,33 C2={A3,A5,A6}
U1 9,00 C3={A2,A7}
U2 4,33
U3 3,50
a. Définition
La classification ascendante hiérarchique (CAH) est une méthode d'analyse des données non
supervisée qui vise à regrouper un ensemble d'individus ou d'objets en plusieurs clusters
(groupes) en fonction de leurs similarités.
La méthode de CAH commence par considérer chaque individu ou objet comme un cluster
distinct, puis elle combine progressivement les clusters en groupes plus grands en fonction
de leurs similarités. Le processus de combinaison se poursuit jusqu'à ce que tous les
individus soient regroupés dans un même cluster.
Pour mesurer les similarités entre les individus ou les objets, différentes métriques peuvent
être utilisées, telles que la distance euclidienne, la distance de Manhattan ou la corrélation.
En fonction de la métrique choisie, la CAH peut être utilisée pour regrouper les individus ou
les objets en fonction de leurs caractéristiques ou de leurs comportements similaires.
La CAH peut être utilisée dans différents domaines, tels que la biologie, la géologie, la
sociologie ou le marketing. Par exemple, en marketing, elle peut être utilisée pour regrouper
les clients en fonction de leurs comportements d'achat, afin de créer des segments de
marché et d'adapter les offres en fonction de chaque groupe.
b. Exemple
Point X Y
A1 2 10
A2 2 5
A3 8 4
A4 5 8
A5 7 5
A6 6 4
A7 1 2
A8 4 9
Etape 1
2 2 8 5 7 6 1 4
10 5 4 8 5 4 2 9
A1 A2 A3 A4 A5 A6 A7 A8
Etape2 : On va remplacer le couple {A3 ; A5 } par son centre de gravité G1(7.5 ;4.5} et
recalculer les distances.
2 2 7,5 5 6 1 4
10 5 4,5 8 4 2 9
A1 A2 C1 A4 A6 A7 A8
Étape 3 : On va remplacer le couple {A4 ; A8 } par son centre de gravité G2(4,5 ;8.5} et
recalculer les distances
2 2 7,5 4,5 6 1
10 5 4,5 8,5 4 2
A1 A2 G1 G2 A6 A7
Étape 4 : On va remplacer le couple {G1 ; A6} par son centre de gravité G3 (6,75 ;4,25 } et
recalculer les distances.
2 2 7,5 4,5 6 1
10 5 4,5 8,5 4 2
A1 A2 G1 G2 A6 A7
Étape 5 : On va remplacer le couple {G1 ; A6} par son centre de gravité G4(1,5 ;3,5} et
recalculer les distances.
2 2 6,75 5 1
10 5 4,25 8 2
A1 A2 G3 G2 A7
Étape 6 : On va remplacer le couple {A2 ; A6} par son centre de gravité G4(1,5 ;3,5} et
recalculer les distances.
2 1,5 6,75 5
10 3,5 4,25 8
A1 G4 G3 G2
Étape 7 : On va remplacer le couple {A1 ; G2} par son centre de gravité G6(3,5 ;9} et
recalculer les distances.
3,5 1,5 6,75
9 3,5 4,25
G5 G4 G3
Étape 8 : On va remplacer le couple {G4 ; G3} par son centre de gravité G4(4,125 ;3.875} et
recalculer les distances.
3,5 4,125
9 3,875
G5 G6
Code Python
from matplotlib import pyplot as plt
import pandas as pd
from scipy.cluster.hierarchy import dendrogram, linkage
import scipy
%matplotlib inline
df = pd.read_excel("./données/CAH.xlsx",index_col=0)
df
Z = linkage(df,method='ward',metric='euclidean')
plt.scatter(df.X,df.Y)
#affichage du dendrogramme
fig = plt.figure(figsize=(30, 30))
plt.title("CAH")
dendrogram(Z,labels=df.index,orientation='top',color_threshold=4)
plt.show()