Ch2 ACP MEA2 2020 21 1
Ch2 ACP MEA2 2020 21 1
Ch2 ACP MEA2 2020 21 1
Introduction
•Définition :
:
• Ii
• In
I- Présentation des données d’une ACP
normée :
1 n
n
1
et où x j X ij ; 2j X ij x j
2
n i 1 n i 1
I- Présentation des données d’une ACP
normée :
• Matriciellement, on l’ écrit :
~
Z I n 1n 1n M S 1
où I est la matrice identité et où 1 1 1 1
n n
n fois
1
étant la matrice des poids (n n) ; ici : I n
n
1 0 0 0
0 0 0
S la matrice diagonale p p des ecarts types S 0 i 0
0 0 0 0
0 0 p
1
0 0 0
1
0 0 0
1 1
S 0 0
i
0 0 0 0
0 1
0
p
II- Position du problème
• On construit, dans l’ordre, un nombre réduit de
variables « fictives » F1 , F2 , …, Fm , combinaisons
linéaires des variables 𝑍1 , 𝑍2 , … , 𝑍𝑝 , qu’on appelle
composantes principales afin d’en faire une synthèse
du tableau M (où m p).
A l’étape k, Fk s’écrit matriciellement :
𝑢1𝑘
𝐹 𝑘 = 𝑍𝑢𝑘 𝑜ù 𝑢𝑘 = 𝑢2𝑘 ∈ ℝ𝑝
⋮
𝑢𝑝𝑘
𝑝
• Remarques :
• i)- On convient de prendre𝑝des facteurs normés :
2 2
𝑢𝑘 = 𝑢𝑗 𝑘 =1
𝑗 =1
• ii)- Les composantes Fk𝑝 sont centrées
𝐹𝑘 = 𝑍𝑗 𝑢𝑗 𝑘 = 0
𝑗 =1 =0
• iii)- 𝑉 𝐹 𝑘
= 𝑘 2
𝐹 𝑃 = 𝑍𝑢 𝑍𝑢 𝑘 𝑘
1 𝑘′
= 𝑢 𝑍 ′ 𝑍 𝑢𝑘
𝑃 𝑛
′
= 𝑢𝑘 𝑅 𝑢𝑘
1 𝑟𝑖𝑗
1 𝑐𝑜𝑣 𝑋𝑖 , 𝑋𝑗
• où 𝑅𝑝×𝑝 = 𝑍′ 𝑍 = ⋱ 𝑒𝑡 𝑜ù 𝑟𝑖𝑗 = ; 𝑖≠𝑗
𝑛 σi σj
𝑟𝑖𝑗 1
III- Détermination des Facteurs
et des composantes principales
• 1)- Espace des individus (Nn )
1 1 1
𝐺𝑚𝑖 = 𝐺𝑀𝑖 𝑢 𝑢 = 𝐺𝑀𝑖 𝑢
Mi D1
d(Mi , D1 )
d(G,Mi)
mi
G
d(G,mi)=||Gmi||
1 𝑛 2 1 1′ 1′
𝑖=1 𝐺𝑚𝑖 = 𝑢 𝑍 ′ 𝑍 𝑢 = 𝑢 𝑅 𝑢1 =
1
𝑛 𝑛
𝐹1
1 1′ 1 𝑛 1 2
𝐹 𝐹 = 1
𝑖=1 𝐹𝑖 = 𝑉(𝐹1 )=
𝑛 𝑛
• Donc le maximum est atteint lorsque u1 est le vecteur
propre associé à la plus grande valeur propre 1 de la
matrice de corrélation (C’est un problème de
maximisation sous contrainte, on peut le résoudre par
la méthode du multiplicateur de Lagrange (voir CH 1)).
• En conclusion, l’étape1 consiste, grâce à l’ACP, à donner
l’approximation unidimensionnelle du nuage.
• Ensuite, on passe à maximiser la variance dans une
direction orthogonale à D1. Cette droite D2 aura comme
vecteur directeur unitaire u2 u1 et associé à la
deuxième plus grande valeur propre 2 : 1 > 2 …
• ainsi de suite, jusqu’à l’étape k, où on trace la droite Dk
Dk-1, Dk-2, … D2 et D1 et de vecteur directeur unitaire
uk orthogonal au sous espace engendré par les facteurs
(uk-1 , uk-2 , …, u1 ) et associé à la keme plus grande valeur
propre k et tel que k<…< 2 <1
III- Détermination des Facteurs et des composantes principales
Remarque :
𝜆𝑘 = 𝑝
𝑘=1
En effet :
p
1 ′
λk = Tr Z Z = 1+1+⋯+1 = p
n p fois
k=1
III- Détermination des Facteurs et des composantes principales
𝜆𝑘 𝜆𝑘
𝑝 =
𝑘=1 𝜆 𝑘 𝑝
III- Détermination des Facteurs et des composantes principales
F2 F3
Mi Fi3 Mi
F i2
Fi1 F1 Fi1 F1
VI- Les aides à l’interprétation
• 1)- la représentation des individus
• Remarque :
• i)-
2
k 𝐺𝑀𝑖 𝑢𝑘 2 𝑘 k,k ′ ′
QR i = 2 = cos 𝐺𝑀𝑖 ; 𝑢 𝑒𝑡 QR i = cos 2 𝐺𝑀𝑖 ; 𝑢𝑘 + cos2 𝐺𝑀𝑖 ; 𝑢𝑘
𝐺𝑀𝑖
VI- Les aides à l’interprétation
• Remarque :
𝑛
• Remarque :
• un individu supplémentaire est choisi
parmi les points extrêmes du nuage.
VI- Les aides à l’interprétation
F2
𝑅 𝐹 2 , 𝑍𝑗
𝑍𝑗
F1
𝑅 𝐹1 , 𝑍𝑗
2 1 2 2
𝑅 𝐹 , 𝑍𝑗 + 𝑅 𝐹 , 𝑍𝑗 ≤ 1
VI- Les aides à l’interprétation
• Remarques :
𝑍𝑗 ′
• en effet :
𝑘 𝑘 𝑘
𝑐𝑜𝑣 𝐹 , 𝑍 𝑍 ′ 𝐹 𝑍′ 𝑍 𝑢
𝑅 𝐹𝑘 , 𝑍 = 𝑘
= =
𝜎 𝐹 n 𝜆𝑘 n 𝜆𝑘
𝜆𝑘 𝑢𝑘
= = 𝜆𝑘 𝑢𝑘
𝜆𝑘
VI- Les aides à l’interprétation
> dimdesc(res.acp)
• Méthode du coude :
• Posons 𝜀1 = 𝜆1 − 𝜆2 ; 𝜀2 = 𝜆2 − 𝜆3 ; 𝜀3 = 𝜆3 − 𝜆4 ; …
• 𝑒𝑡 𝛿1 = 𝜀1 − 𝜀2 ; 𝛿2 = 𝜀2 − 𝜀3 ; …
• Méthode de Kaiser :
• On prend les axes correspondant aux valeurs propres
supérieures à 1.
•
• C’est la deuxième méthode qu’on retiendra !
VI- Les aides à l’interprétation
• Ou bien :
> library("PerformanceAnalytics")
> chart.Correlation(M, histogram=TRUE, pch=19)
2 6 10 20 60 4 8 12 5 20 35
PAO .
* *** ** ** * **
100 140
Density
PAA ** *** *
Density
x
-0.60 0.90 -0.33 -0.67 0.96 0.77
2
The .
* * *
Density
120
-0.75 0.52 0.79 -0.67 -0.83
x
60
JE ** ** *
Density
-0.42
x
30 40 50
POT
Density
Density LEC * *
8
-0.82 -0.75
x
4
RAI **
Density
14
0.83
4 8
x
PLP
20 35
Density x
5
x
V- Exemple d’application avec
« factoextra »
80 77.6%
60
Percentage of explained variances
40
20
11%
5.2%
3.8%
2.1%
0.2% 0%
0
1 2 3 4 5 6 7
Dimensions
V- Exemple d’application de l’ACP
• > var <- get_pca_var(res.cons)
• > library("corrplot")
• > corrplot(var$cos2, is.corr=FALSE)
Dim.1
Dim.2
Dim.3
Dim.4
Dim.5
0.95
PAO
0.86
PAA 0.76
The 0.67
0.57
JE
0.48
POT
0.38
LEC 0.29
RAI 0.19
0.1
PLP
0
> plot(res.cons, col.var = 1:8)
1.0
POT
0.5
PAA
Dim 2 (11.00%)
The RAI JE
LEC
PAO
0.0
PLP
-0.5
-1.0
Dim 1 (77.60%)
> fviz_pca_var(res.cons, col.var = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE # Avoid text overlapping
)
Variables - PCA
1.0
POT
0.5 PAA
RAI cos2
The
PAO
Dim2 (11%)
JE 0.95
0.85
0.80
-0.5
-1.0
F1 =
V- Exemple d’application avec « XLSTAT »
=
Corrélations entre celle-là et les axes !
V- Exemple d’application de l’ACP
Call:
" res.cons <- PCA(M , scale.unit=TRUE, ncp=5, graph = FALSE)"
Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
Variance 6.208 0.880 0.416 0.306 0.168 0.018 0.003
% of var. 77.599 10.996 5.200 3.831 2.106 0.226 0.043
Cumulative % of var. 77.599 88.595 93.795 97.626 99.731 99.957 100.000
Individuals
Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
AGRI | 3.585 | -3.372 22.889 0.884 | -0.246 0.859 0.005 | 0.840 21.183 0.055 |
SAAG | 3.716 | -3.522 24.973 0.898 | -0.447 2.844 0.014 | 0.352 3.713 0.009 |
PRIN | 1.942 | 1.472 4.363 0.575 | 0.059 0.049 0.001 | -0.553 9.188 0.081 |
CSUP | 4.491 | 4.359 38.255 0.942 | 0.176 0.441 0.002 | 1.029 31.831 0.053 |
CMOY | 1.980 | 1.718 5.944 0.753 | -0.857 10.428 0.187 | -0.175 0.916 0.008 |
EMPL | 1.233 | 0.807 1.310 0.428 | -0.809 9.289 0.430 | -0.345 3.574 0.078 |
OUVR | 1.497 | -0.899 1.628 0.361 | -0.183 0.476 0.015 | -0.978 28.724 0.426 |
INAC | 2.390 | -0.563 0.638 0.056 | 2.307 75.615 0.932 | -0.170 0.870 0.005 |
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
PAO | -0.975 15.312 0.951 | 0.129 1.900 0.017 | 0.104 2.615 0.011 |
PAA | 0.869 12.157 0.755 | 0.413 19.412 0.171 | 0.206 10.237 0.043 |
The | -0.870 12.194 0.757 | 0.189 4.068 0.036 | 0.439 46.326 0.193 |
JE | 0.931 13.960 0.867 | 0.244 6.776 0.060 | 0.047 0.540 0.002 |
POT | -0.614 6.070 0.377 | 0.698 55.328 0.487 | -0.360 31.098 0.129 |
LEC | -0.909 13.310 0.826 | 0.120 1.639 0.014 | 0.021 0.105 0.000 |
RAI | 0.929 13.917 0.864 | 0.306 10.626 0.093 | 0.164 6.464 0.027 | •
PLP | 0.901 13.081 0.812 | -0.047 0.252 0.002 | -0.104 2.614 0.011 |
4
3
Individuals factor map (PCA)
INAC
2
Dim 2 (11.00%)
1
0
AGRI CSUP
PRIN
OUVR
SAAG
CMOY
-1
EMPL
-2
-4 -2 0 2 4
Dim 1 (77.60%)
1.0 Variables factor map (PCA)
POT
0.5
PAA
RAI
The
PAO JE
Dim 2 (11.00%)
LEC
0.0
PLP
-0.5
-1.0
Dim 1 (77.60%)
Description automatique des axes:
dimdesc(res.cons , proba=0.06)
• $Dim.1
• $Dim.1$quanti
• correlation p.value
• JE 0.9309151 7.821882e-04
• RAI 0.9294859 8.308315e-04
• PLP 0.9011429 2.239726e-03
• PAA 0.8687483 5.110853e-03
• The -0.8700402 4.966446e-03
• LEC -0.9089814 1.758745e-03
• PAO -0.9749797 3.842664e-05
• $Dim.2
• $Dim.2$quanti
• correlation p.value
• POT 0.6976447 0.05437981
plot(res.cons,choix="ind",select="contrib 4")
> plot(res.cons , choix="ind" , col.ind=2 , cex=1.1 , select="cos2 .9")
> plot(res.cons,choix="var",lim.cos2.var = 0.95 , col.var=4)
1.0
0.5
Variables factor map (PCA)
RAI
Dim 2 (11.00%)
PAO
0.0
-0.5
-1.0
Dim 1 (77.60%)
> HCPC(res.cons)
Factor map
cluster 1
3
cluster 2
cluster 3
cluster 4
INAC
2
Dim 2 (11.00%)
CSUP
0
PRIN
AGRI OUVR
SAAG
EMPL CMOY
-1
-4 -2 0 2 4
Dim 1 (77.60%)
Hierarchical clustering on the factor map
cluster 1
cluster 2
cluster 3
cluster 4
5
4
3
height
Dim 2 (11%)
2.5
2.0
1
INAC
1.5
1.0
0.5
0.0
PRIN CSUP -0.5
AGRI OUVR
0
SAAG -1.0
EMPL CMOY
-4 -2 0 2 4 6
Dim 1 (77.6%)
Tables
9 86.1 79.5 74.8 70.7 67.4 65.1 62.9 61.1 59.4 57.9 56.5 55.4 54.3
10 84.5 77.5 72.3 68.2 65.0 62.4 60.1 58.3 56.5 55.1 53.7 52.5 51.5
11 82.8 75.7 70.3 66.3 62.9 60.1 58.0 56.0 54.4 52.7 51.3 50.1 49.2
12 81.5 74.0 68.6 64.4 61.2 58.3 55.8 54.0 52.4 50.9 49.3 48.2 47.2
13 80.0 72.5 67.2 62.9 59.4 56.7 54.4 52.2 50.5 48.9 47.7 46.6 45.4
14 79.0 71.5 65.7 61.5 58.1 55.1 52.8 50.8 49.0 47.5 46.2 45.0 44.0
15 78.1 70.3 64.6 60.3 57.0 53.9 51.5 49.4 47.8 46.1 44.9 43.6 42.5
16 77.3 69.4 63.5 59.2 55.6 52.9 50.3 48.3 46.6 45.2 43.6 42.4 41.4
17 76.5 68.4 62.6 58.2 54.7 51.8 49.3 47.1 45.5 44.0 42.6 41.4 40.3
18 75.5 67.6 61.8 57.1 53.7 50.8 48.4 46.3 44.6 43.0 41.6 40.4 39.3
19 75.1 67.0 60.9 56.5 52.8 49.9 47.4 45.5 43.7 42.1 40.7 39.6 38.4
20 74.1 66.1 60.1 55.6 52.1 49.1 46.6 44.7 42.9 41.3 39.8 38.7 37.5
25 72.0 63.3 57.1 52.5 48.9 46.0 43.4 41.4 39.6 38.1 36.7 35.5 34.5
30 69.8 61.1 55.1 50.3 46.7 43.6 41.1 39.1 37.3 35.7 34.4 33.2 32.1
35 68.5 59.6 53.3 48.6 44.9 41.9 39.5 37.4 35.6 34.0 32.7 31.6 30.4
40 67.5 58.3 52.0 47.3 43.4 40.5 38.0 36.0 34.1 32.7 31.3 30.1 29.1
45 66.4 57.1 50.8 46.1 42.4 39.3 36.9 34.8 33.1 31.5 30.2 29.0 27.9
50 65.6 56.3 49.9 45.2 41.4 38.4 35.9 33.9 32.1 30.5 29.2 28.1 27.0
100 60.9 51.4 44.9 40.0 36.3 33.3 31.0 28.9 27.2 25.8 24.5 23.3 22.3
Pourcentage d’inertie si indépendance entre variables (suite)
nbind 17 18 19 20 25 30 35 40 50 75 100 150 200
5 74.9 74.2 73.5 72.8 70.7 68.8 67.4 66.4 64.7 62.0 60.5 58.5 57.4
6 67.0 66.3 65.6 64.9 62.3 60.4 58.9 57.6 55.8 52.9 51.0 49.0 47.8
7 61.3 60.7 59.7 59.1 56.4 54.3 52.6 51.4 49.5 46.4 44.6 42.4 41.2
8 57.0 56.2 55.4 54.5 51.8 49.7 47.8 46.7 44.6 41.6 39.8 37.6 36.4
9 53.6 52.5 51.8 51.2 48.1 45.9 44.4 42.9 41.0 38.0 36.1 34.0 32.7
10 50.6 49.8 49.0 48.3 45.2 42.9 41.4 40.1 38.0 35.0 33.2 31.0 29.8
11 48.1 47.2 46.5 45.8 42.8 40.6 39.0 37.7 35.6 32.6 30.8 28.7 27.5
12 46.2 45.2 44.4 43.8 40.7 38.5 36.9 35.5 33.5 30.5 28.8 26.7 25.5
13 44.4 43.4 42.8 41.9 39.0 36.8 35.1 33.9 31.8 28.8 27.1 25.0 23.9
14 42.9 42.0 41.3 40.4 37.4 35.2 33.6 32.3 30.4 27.4 25.7 23.6 22.4
15 41.6 40.7 39.8 39.1 36.2 34.0 32.4 31.1 29.0 26.0 24.3 22.4 21.2
16 40.4 39.5 38.7 37.9 35.0 32.8 31.1 29.8 27.9 24.9 23.2 21.2 20.1
17 39.4 38.5 37.6 36.9 33.8 31.7 30.1 28.8 26.8 23.9 22.2 20.3 19.2
18 38.3 37.4 36.7 35.8 32.9 30.7 29.1 27.8 25.9 22.9 21.3 19.4 18.3
19 37.4 36.5 35.8 34.9 32.0 29.9 28.3 27.0 25.1 22.2 20.5 18.6 17.5
20 36.7 35.8 34.9 34.2 31.3 29.1 27.5 26.2 24.3 21.4 19.8 18.0 16.9
25 33.5 32.5 31.8 31.1 28.1 26.0 24.5 23.3 21.4 18.6 17.0 15.2 14.2
30 31.2 30.3 29.5 28.8 26.0 23.9 22.3 21.1 19.3 16.6 15.1 13.4 12.5
35 29.5 28.6 27.9 27.1 24.3 22.2 20.7 19.6 17.8 15.2 13.7 12.1 11.1
40 28.1 27.3 26.5 25.8 23.0 21.0 19.5 18.4 16.6 14.1 12.7 11.1 10.2
45 27.0 26.1 25.4 24.7 21.9 20.0 18.5 17.4 15.7 13.2 11.8 10.3 9.4
50 26.1 25.3 24.6 23.8 21.1 19.1 17.7 16.6 14.9 12.5 11.1 9.6 8.7
100 21.5 20.7 19.9 19.3 16.7 14.9 13.6 12.5 11.0 8.9 7.7 6.4 5.7