AD Chap4-SMA2024 (Partie12)
AD Chap4-SMA2024 (Partie12)
AD Chap4-SMA2024 (Partie12)
Chapitre 4-
Analyse Factorielle des Correspondances - AFC -
2023-2024
1
Introduction générale
2
Introduction générale
4
Introduction générale
l’ACP se fait dans un cadre différent; les variables sont quantitatives et donc :
— par contre, il n’est en général pas possible de compter les individus qui
ont une caractéristique donnée (exp: taille=1,83m)
5
1 Analyse conjointe de 2variables qualitatives
6
1 Analyse conjointe de 2variables qualitatives
On considère deux variables qualitatives X et Y de modalités respectives x1 … xr
(r modalités) et y1 … yc (c modalités).
Exemple:
… … …
5385 Marron Chatain
5386 Marron Brun
5387 Noisette Chatain
7
1 Analyse conjointe de 2variables qualitatives
Si on s’intéresse à un traitement uni-variable: Tableau des fréquences et
diagramme en bâtons
X=Couleur des Yeux Nbre Freq Couleur des Yeux
2000
Marron 718 0,13
1500
Noisette 1580 0,29 1000
500
Vert 1774 0,33
0
Bleu 1315 0,24
9
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence
10
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence
F=Tableau de contingence fréquentiel Observé=K/n
Y gr =
y1 …. yj …. yc Marg X
…. …. …. …. …. …. ….
X
11
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence
Exemple :
L’échantillon de 5387 enfants est réparti selon la couleur des cheveux
(blond, roux, châtain clair, châtain foncé, brun), et la couleur des yeux
(bleu, clair, marron, noir). Les résultats de l’observation sont regroupés
dans le tableau de contingence suivant :
K=Tableau de contingence Observé
Couleur des Cheveux
13
1 Analyse conjointe de 2variables qualitatives
Profils-lignes
Répartition de Y pour une valeur donnée de X fixée:
…. …. …. …. …. …. ….
X
…. …. …. …. …. …. ….
fj/i=nij/nio=fij/fio
14
1 Analyse conjointe de 2variables qualitatives
Profils-lignes
Répartition de Y pour une valeur donnée de X fixée:
Exemple:
15
1 Analyse conjointe de 2variables qualitatives
Profils-colonnes
Répartition de X pour une valeur donnée de Y fixée:
B=Profil des colonnes Y (répartition de X pour Y fixé); B(r,c)
Y
y1 …. yj …. yc
X1 f1/1=f11/fo1 …. f1/j=f1j/foj …. f1/c=f1c/foc
…. …. …. …. …. ….
X
fi/j=nij/noj=fij/foj
16
1 Analyse conjointe de 2variables qualitatives
Profils-colonnes
Répartition de X pour une valeur donnée de Y fixée:
Exemple:
17
1 Analyse conjointe de 2variables qualitatives
Matrice des Profils-lignes
Ecriture Matricielle
Marron 0,133 0 0 0
Noisette 0,128 0,022 0,108 0,035 0,001 0,293
Noisette 0 0,293 0 0
Vert 0,064 0,016 0,169 0,076 0,005 0,329
Vert 0 0 0,329 0
Bleu 0,018 0,009 0,075 0,126 0,016 0,244
Bleu 0 0 0 0,244
MargY
0,270 0,053 0,397 0,258 0,022 1,000
18
1 Analyse conjointe de 2variables qualitatives
Matrice des Profils-lignes
A(r,c) = Tableau des Profils Lignes = Dr-1.F
A=Dr-1.F
Profil Lignes
Noir Brun Chatain Roux Blond
Marron
0,454 0,053 0,336 0,153 0,004
Noisette
0,435 0,073 0,370 0,119 0,003
Vert
0,193 0,047 0,512 0,232 0,015
Bleu
0,075 0,037 0,306 0,518 0,065
19
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
• Si X et Y sont indépendants, alors:
1. Le profil de Y = yj ne varie pas quand xi varie:
nij nij '
i 1..r , j , j ' 1..c : fi / j fi / j '
noj noj '
i / nij i .noj
2. Le profil de X = xi ne varie pas quand yj varie:
nij ni ' j
i, i ' 1..r , j 1..c : f j / i f j / i'
nio ni 'o
j / nij j .nio
20
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
3. Donc, si X et Y indépendants, on devrait avoir:
/ i 1..r , j 1..c :
nij .nio .noj
Comme r c
n n
i 1
io n
j 1
oj
On obtient:
nio .noj
X et Y indépendants i 1..r, j 1..c : n ij
n
Ou encore:
21
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
Alors pour décider entre les 2 situations suivantes, on utilise la
statistique :
2
nio .noj
n
c ij
2
D2 n
r
n r c f
nio .noj
i 1 j 1 f f
ij
1
i 1 j 1 io oj
n
Si X et Y sont indépendantes, et si
nio .noj
i, j : 5
n
alors on montre que la distribution de probabilité de D2 est
approximativement une 2 à (r-1)(c-1) degrés de libertés
22
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
p.valeur P 2
( r 1)( c 1) D2
23
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
Remarque:
24
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
Exemple
F Noir Brun Chatain Roux Blond gr
Marron 0,061 0,007 0,045 0,020 0,001 0,133
• r= 4; c= 5 ; Noisette 0,128 0,022 0,108 0,035 0,001 0,293
• ddl= (r-1)(c-1)=12 Vert 0,064 0,016 0,169 0,076 0,005 0,329
2
Bleu 0,018 0,009 0,075 0,126 0,016 0,244
nio .noj
D2
r c nij
n
nio .noj
n
r c f ij2
1
gc’ 0,270 0,053 0,397 0,258 0,022 1,000
i 1 j 1 i 1 j 1 f io f oj
n
• D2= nx0.230 Fth=
=1240 ; gr.gc' Noir Brun Chatain Roux Blond
gr
• P-valeur= 0,0000
Marron
0,036 0,007 0,053 0,034 0,003 0,133
Noisette
• 2(12)<<<1240 Vert
0,079 0,016 0,116 0,076 0,006 0,293
26
2 Analyse Factorielle des correspondances AFC
27
2 Analyse Factorielle des correspondances AFC
Introduction:
nio .noj
i 1..r, j 1..c : n th
ij
n
foj
28
2 Analyse Factorielle des correspondances AFC
Introduction:
…. …. …. …. …. …. ….
X
29
2 Analyse Factorielle des correspondances AFC
Introduction:
• F peut être interprété comme c points (colonnes) dans l’espace des
colonnes Rr. L’information est présentée dans la matrice A(r,c) des
profils lignes.
• Chaque modalité j de Y est représentée par un point de Rr muni de
la masse foj et de coordonnées
{ fi/j=fij/foj ; i=1…r }
• gr =marginale de X
30
2 Analyse Factorielle des correspondances AFC
Introduction:
• F peut aussi être interprété comme r points (lignes) dans l’espace
des lignes Rc. L’information est présentée dans la matrice B(r,c) des
profils colonnes.
{ fj/i=fij/fio; j=1…c }
f
r
gc j
i 1
io . f j /i f
i 1
ij f oj
gc=marginale de Y
31
2 Analyse Factorielle des correspondances AFC
Introduction:
Ecriture Matricielle
1r= vecteur de Rr de composantes toutes égales à 1.
Le barycentre des c colonnes s’écrit:
f1o
...
gr f io F1c BDc1c Dr1r Rr
• Dr= diag(f1o,…, fio ,…, fro) ...
f
• Dc= diag(fo1,…, foj ,…, foc) ro
1c= vecteur de Rc de composantes toutes égales à 1.
Le barycentre des r lignes est:
f o1
...
gc f oj F '1r A' Dr1r Dc1c Rc
...
oc
f
32
2 Analyse Factorielle des correspondances AFC
L’absence d’information (indépendance) est représentée par :
Ath=Profil des lignes X si X et Y indépendants: toutes les lignes
sont confondues avec le barycentre gc
Y
Total
y1 …. Yj …. Yc
X1 fo1 …. foj …. foc 1
…. …. …. …. …. …. ….
Xi fo1 …. foj …. foc 1
X
…. …. …. …. …. …. ….
xr fo1 …. foj …. foc 1
Bth=Profil des colonnes Y si X et Y indépendants: toutes les
colonnes sont confondues avec le barycentre gr
Y
Y1 …. Yj …. Yc
X1 f1o …. f1o …. f1o
…. …. …. …. …. ….
Xi fio …. fio …. fio
X
…. …. …. …. …. ….
xr fro …. fro …. fro
Total 1 …. 1 …. 1 33
2 Analyse Factorielle des correspondances AFC
Introduction:
Remarques:
La démarche est globalement parallèle à l’ACP. Mais, contrairement à
l’ACP, ici :
• Lignes et Colonnes jouent un rôle symétrique.
• On n’utilise pas la distance euclidienne (de matrice In). Mais la
métrique dans Rc: Dc1 et dans Rr : Dr1
• Chaque ligne i de A est munie du poids fio
• Chaque colonne j de B est munie du poids foj
Nous allons mener l’étude d’abord dans l’espace des lignes Rc. Et nous
déduirons ensuite l’étude dans l’espace des colonnes Rr.
34
2 Analyse Factorielle des correspondances AFC
Distance du 2
n0 j n0 j n0 j '
f0 j f0 j f0 j '
Propriété fondamentale des tableaux des profils:
Si les 2 modalités j et j’ ont le même profil, alors :
{d2( i, i’),i, i’=1..r}
doivent rester inchangées si on regroupe les 2 modalités j et j’ en une
nouvelle modalité j°.
35
2 Analyse Factorielle des correspondances AFC
Exemple:
Alors les distances entre les quartiers devraient rester inchangées que
l’on regroupe les 2 partis j et j’ ou non.
36
2 Analyse Factorielle des correspondances AFC
Distance du 2
Alors: f ij f 0 j . f i / j f 0 j . f i / j '
f ij f f ij ' f f f0 j ' fi / j '
i 1...r , f i / j ij 0 j i / j' fi / j ' fi / j
f0 j f0 j f0 j ' f0 j f0 j'
i 1...r , fi / j fi / j ' fi / j
Donc le profil de j° reste inchangée
37
2 Analyse Factorielle des correspondances AFC
1 … j j' … c 1 … j° … c
… …
i i
… …
i' i'
… …
r r
38
2 Analyse Factorielle des correspondances AFC
Distance du 2
Démonstration:
Sans perte de généralités, nous supposons que les 2 colonnes de
même profil sont :j=c-1 et j’=c. Alors la distance euclidienne:
f f j / i'
c
d (i , i ' )
2 2
E j /i
j 1
j 1
c 2
D 20 f
j 1
j /i f j / i ' f j0 / i f j0 / i '
2 2
On calcule = D1 – D0 0
Distance du 2
Cette propriété est vérifiée par la distance du 2 définie par:
f j / i f j / i ' 2
c
1
d 2 (i, i ' )
2
j 1 f oj
C’est cette distance qui sera utilisée dans la suite. En effet, la
différence entre les distances dans les 2 cas est alors:
1
foc1
fc1/ i f c1/ i '
2
fc / i fc / i'
1
foc
2 1
f j / i f j / i' = 0
2
foj
40
2 Analyse Factorielle des correspondances AFC
Distance du 2
f f j / i'
c
1
d 2 (i , i ' )
2
j 1 f oj
j /i
2
f
r
1
d 2 ( j, j ' )
2
i 1 f io
i/ j fi / j'
2
41
2 Analyse Factorielle des correspondances AFC
L’Inertie
L’inertie de l’élément i, représenté par la ième ligne de A, de poids fio, est
définie par rapport à l’absence d’information, représenté par Ath (point
moyen gc de coordonnées fj/i=foj, j=1..c) :
f oj
c
f j / i f oj
j 1
2 c f ij2
f io
j 1 f oj
j 1 f io f oj
f io
j 1 j 1
• r≤c
43
2 Analyse Factorielle des correspondances AFC
44
2 Analyse Factorielle des correspondances AFC
45
2 Analyse Factorielle des correspondances AFC
Remarque :
Le nombre k de valeurs propres non nulles vérifie:
k Inf ( r 1, c 1) r 1
Nous supposons k = r-1 pour simplifier, alors:
r 1
It
j 1
j
46
2 Analyse Factorielle des correspondances AFC
Vc S
0,088 0,036 -0,004 -0,082 -0,148 0,36 0,31 0,27 0,19 0,12
0,007 0,004 0,000 -0,007 -0,013 0,06 0,06 0,05 0,05 0,04
-0,005 0,000 0,018 -0,018 -0,042 0,39 0,40 0,41 0,38 0,35
-0,078 -0,034 -0,012 0,092 0,174 0,18 0,22 0,25 0,35 0,43
-0,012 -0,005 -0,002 0,015 0,028 0,01 0,02 0,02 0,04 0,05
λ0 λ1 λ2 λ3 Somme
1 0,199 0,030 0,001 It=0,230
%Cum 86,6% 99,6% 100,0%
Inertie Totale= Trace(Vc)= Trace(S)-1= λ1+λ2+λ3 47
2 Analyse Factorielle des correspondances AFC
U h' .Dc1.U h 1
48
2 Analyse Factorielle des correspondances AFC
• Ψh est centrée :
• de variance λh :
49
2 Analyse Factorielle des correspondances AFC
f j / i foj 2
c
d 2 i, gc
2 1
j 1 f oj
f i / j f j / i f io f oj
c
j 1
50
2 Analyse Factorielle des correspondances AFC
Remarque:
c 1 r
Q i 1; Ctr i 1
h 1
h
i 1
h
51
2 Analyse Factorielle des correspondances AFC
-0,1
-0,2
-0,2
-0,3 Vert
-0,3
Remarque:
Nous pouvons en déduire un ordonnancement des modalités de X selon
leur relation avec Y.
Dans cet exemple: Bleu, Vert, Marron puis Noisette.
53
2 Analyse Factorielle des correspondances AFC
Vr T gr.1'r
T B.A'
Où T et S ont les mêmes valeurs propres non nulles:
1 ≥ λ1≥ … λh…≥ λr-1≥ 0
54
2 Analyse Factorielle des correspondances AFC
Pour h=1…r-1, les axes factoriels Vh Rr, sont des vecteurs propres
normés (selon la norme Dr-1) associés aux valeurs propres de
T=BA’, et peuvent être déduis de ceux dans Rc par :
1
Vh . B.U h
h
Les projections des c colonnes de B sur Vh sont appelées
coordonnées factorielles et notées:
Φh = B’.Dr-1 .Vh Rc
55
2 Analyse Factorielle des correspondances AFC
Vr T
0,026 0,025 -0,007 -0,035 0,16 0,16 0,13 0,10
λ0 λ1 λ2 λ3 Somme
1 0,199 0,030 0,001 It=0,230
%Cum 86,6% 99,6% 100,0%
Inertie Totale= Trace(Vr)= Trace(T)-1= λ1+λ2+λ3
56
2 Analyse Factorielle des correspondances AFC
fi / j fio 2
r
I j f ojd 2 j, gr fi / j f j / i fio f oj
r
2
Inertie de la colonne j :
i 1
Ctrh j
Remarque: h
r 1 c
Q j 1; Ctr j 1
h 1
h
j 1
h
57
2 Analyse Factorielle des correspondances AFC
Blond
0,3
0,2 Noir
Roux
0,1 Brun
0,0
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8
-0,1
-0,2
Chatain
-0,3
Remarque:
Nous pouvons en déduire un ordonnancement des modalités de Y selon
leur relation avec X.
Dans cet exemple: Blond, Roux, Chatain, Brun puis Noir. 59
2 Analyse Factorielle des correspondances AFC
0,4
Blond
0,3
0,2 Noir
Marron
Roux
Bleu 0,1 Brun Noisette
0,0
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8
-0,1
-0,2 Chatain
Vert
-0,3
Remarque:
En réalité, les projections de X et celles de Y se trouvent dans des
espaces différents. Ce graphique n’explicite pas la dépendance entre les
modalités de X et celles de Y.
60
2 Analyse Factorielle des correspondances AFC
61
2 Analyse Factorielle des correspondances AFC
62
2 Analyse Factorielle des correspondances AFC
63
2 Analyse Factorielle des correspondances AFC
0,5 Brun
0,0
-3,0 -2,0 -1,0 0,0 1,0 2,0
-0,5
-1,0
Chatain
-1,5
-1,0
Chatain 0.336
-1,5
65
2 Analyse Factorielle des correspondances AFC
1,5
Noir 0,435
1,0
Roux 0.119
0,0 Y Noisette
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
-0,5
-1,0
Chatain 0.370
-1,5
66
2 Analyse Factorielle des correspondances AFC
1,5
Noir 0,193
1,0
Roux 0.232
0,5 Brun 0.05
0,0
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5Y Vert 0,0 0,5 1,0 1,5
-0,5
-1,0
Chatain 0.512
-1,5
67
2 Analyse Factorielle des correspondances AFC
1,5
Noir 0,1075
1,0
Roux 0.518
0,5 Brun 0.037
Y Bleu
0,0
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
-0,5
-1,0
Chatain 0.306
-1,5
68
2 Analyse Factorielle des correspondances AFC
69
2 Analyse Factorielle des correspondances AFC
70
Projections Simultanées
0,4
Blond
0,3
Noir
0,2 Marron
Roux
Bleu 0,1 Brun Noisette
0,0
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 -0,1 0,0 0,2 0,4 0,6 0,8
-0,2 Chatain
Vert
-0,3
72
Aide à l’interprétation AFC
Si une modalité soit graphiquement très éloignée des autres, c’est qu’elle
possède dans le tableau de départ un profil tout à fait spécifique.
Sa position dans le plan factoriel étant isolée, elle empêche une étude
précise des positions des autres points qui se retrouvent « en paquet ».
73
Ajout d’une information supplémentaire
74
Variables supplémentaires qualitatives :