AD Chap4-SMA2024 (Partie12)

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 76

Analyse de données

Chapitre 4-
Analyse Factorielle des Correspondances - AFC -

2023-2024

1
Introduction générale

L’AFC s'applique à des tableaux de contingence croisant deux variables


qualitatives avec de nombreuses modalités pour chacune.
Les données sont donc les effectifs des individus croisant deux modalités
données. Pour de tels tableaux nous disposons du test d'indépendance du 2 .
L’AFC consiste à :
- déterminer des éléments structurant les données (axes de projection)
- réduire les dimensions de l’espace de représentation des données
(sélection des p premiers axes)
Remarque :

L'AFC n'a d'intérêt que si il y a dépendance entre les deux variables,


en cas contraire elle n'apporte pas d'information.

2
Introduction générale

L’AFC s’applique sur quels types de données ?


- tableaux de contingence
- tableaux de variables continues (valeurs  0)
- tableaux logiques (présence-absence)
-autres …

Elle existe 2 méthodes :

AFC : Analyse factorielle des correspondances simples pour un


ensemble homogène de valeurs assimilable à un tableau de
contingence entre 2 variables.
AFCM : Analyse factorielle des correspondances multiples pour
un tableau de modalités de q (q>2) variables qualitatives ou
un ensemble non homogène de données. 3
Introduction générale

L'objectif est de faire une synthèse de l'ensemble du tableau


afin de répondre aux questions :

● Pour une variable donnée, certaines modalités sont-elles proches ou éloignées.


■ La proximité de deux modalités se mesure en comparant leur
distribution par rapport à l'autre variable.
Par exemple, yeux bleus et verts sont proches si les deux groupes
ont les mêmes distribution de couleurs de cheveux.

● Entre les deux variables, certaines modalités « s'attirent-elles » davantage ou


au contraire « se repoussent ».
■ On compare la fréquence observée par rapport à la fréquence
attendue sous l'hypothèse d'indépendance, si la fréquence
observée est plus forte il y a une plus forte association entre
les deux et inversement.
Par exemple, les yeux bleus et les cheveux blond « s'attirent »,
au contraire des yeux noirs et des cheveux blond.

4
Introduction générale

Différence avec l’ACP:

l’ACP se fait dans un cadre différent; les variables sont quantitatives et donc :

— il est possible de faire des opérations mathématiques sur les valeurs


des variables ;

— par contre, il n’est en général pas possible de compter les individus qui
ont une caractéristique donnée (exp: taille=1,83m)

5
1 Analyse conjointe de 2variables qualitatives

6
1 Analyse conjointe de 2variables qualitatives
On considère deux variables qualitatives X et Y de modalités respectives x1 … xr
(r modalités) et y1 … yc (c modalités).

Exemple:

X=Couleur des Yeux Y=Couleur des Cheveux


1 Noisette Roux
2 Marron Chatain
3 Marron Noir
4 Bleu Blond

… … …
5385 Marron Chatain
5386 Marron Brun
5387 Noisette Chatain

7
1 Analyse conjointe de 2variables qualitatives
Si on s’intéresse à un traitement uni-variable: Tableau des fréquences et
diagramme en bâtons
X=Couleur des Yeux Nbre Freq Couleur des Yeux

2000
Marron 718 0,13
1500
Noisette 1580 0,29 1000
500
Vert 1774 0,33
0
Bleu 1315 0,24

Total 5387 1,00


Y= Couleur des
Cheuveux Nbre Freq
Couleur des Cheveux

Noir 1455 0,27 2500


2000
Brun 286 0,05
1500
Chatain 2137 0,40 1000
500
Roux 1391 0,26 0
Blond 118 0,02
Total 5387 1,00
8
1 Analyse conjointe de 2variables qualitatives

Nous nous intéressons à l’existence de lien entre les variables X et Y


ainsi qu’aux éventuelles relations entre leurs modalités, cette analyse
s’effectue à partir des données représentées par le tableau de
contingence des fréquences.

9
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence

K=Tableau de contingence Observé


Y Marginale de
y1 …. yj …. yc X (Total)

X1 n11 …. n1j …. n1c n1o


…. …. …. …. …. …. ….
X

xi ni1 …. nij …. nic nio


…. …. …. …. …. …. ….
xr nr1 …. nrj …. nrc nro
Marginale
de Y(Total)
no1 …. noj …. noc n

10
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence
F=Tableau de contingence fréquentiel Observé=K/n
Y gr =
y1 …. yj …. yc Marg X

X1 f11 …. f1J …. f1c f1o

…. …. …. …. …. …. ….
X

Xi fi1 …. fij …. fic fio


…. …. …. …. …. …. ….
xr fr1 …. frj …. frc fro
gc’=Marg Y fo1 …. foj …. foc 1

11
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence
Exemple :
L’échantillon de 5387 enfants est réparti selon la couleur des cheveux
(blond, roux, châtain clair, châtain foncé, brun), et la couleur des yeux
(bleu, clair, marron, noir). Les résultats de l’observation sont regroupés
dans le tableau de contingence suivant :
K=Tableau de contingence Observé
Couleur des Cheveux

K Noir Brun Chatain Roux Blond MargX


Couleur des Yeux

Marron 326 38 241 110 3 718

Noisette 688 116 584 188 4 1580

Vert 343 84 909 412 26 1774

Bleu 98 48 403 681 85 1315


MargY 1455 286 2137 1391 118 5387 12
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence
Exemple :

F=Tableau de fréquences Observé


Couleur des Cheveux
gr=
F Noir Brun Chatain Roux Blond MargX
Couleur des Yeux

Marron 0,061 0,007 0,045 0,020 0,001 0,133

Noisette 0,128 0,022 0,108 0,035 0,001 0,293

Vert 0,064 0,016 0,169 0,076 0,005 0,329

Bleu 0,018 0,009 0,075 0,126 0,016 0,244


gc’=
MargY 0,270 0,053 0,397 0,258 0,022 1,000

13
1 Analyse conjointe de 2variables qualitatives
Profils-lignes
Répartition de Y pour une valeur donnée de X fixée:

A=Profil des lignes X (répartition de Y pour X fixé); A(r,c)


Y
Total
y1 …. yj …. yc

X1 f1/1=f11/f1o …. fj/1=f1j/f1o …. fc/1=f1c/f1o 1

…. …. …. …. …. …. ….
X

Xi f1/i=fi1/fio …. fj/i=fij/fio …. fc/i=fic/fio 1

…. …. …. …. …. …. ….

xr f1/r=fr1/fro …. fj/r=frj/fro …. fc/r=frc/fro 1

fj/i=nij/nio=fij/fio
14
1 Analyse conjointe de 2variables qualitatives
Profils-lignes
Répartition de Y pour une valeur donnée de X fixée:

Exemple:

Profil (fj/2; j=1..c) la ligne X=x2=noisette est:

Couleur des Cheveux


Profil de
Ligne
Noir Brun Chatain Roux Blond Marge Ligne
Noisette
0,435 0,073 0,370 0,119 0,003 1,000

15
1 Analyse conjointe de 2variables qualitatives
Profils-colonnes
Répartition de X pour une valeur donnée de Y fixée:
B=Profil des colonnes Y (répartition de X pour Y fixé); B(r,c)
Y
y1 …. yj …. yc
X1 f1/1=f11/fo1 …. f1/j=f1j/foj …. f1/c=f1c/foc
…. …. …. …. …. ….
X

Xi fi/1=fi1/fo1 …. fi/j=fij/foj …. fi/c=fic/foc


…. …. …. …. …. ….
xr fr/1=fr1/fo1 …. fr/j=frj/foj …. fr/c=frc/foc
…. ….
Total 1 1 1

fi/j=nij/noj=fij/foj

16
1 Analyse conjointe de 2variables qualitatives
Profils-colonnes
Répartition de X pour une valeur donnée de Y fixée:

Exemple:

Profil (fi/3; i=1..r) de de la colonne Y=y3=CC=Chatain est:


Profil de
Colonne Chatain
Marron 0,11
Noisette 0,27
Vert 0,43
Bleu 0,19
Marge
Colonne 1,00

17
1 Analyse conjointe de 2variables qualitatives
Matrice des Profils-lignes
Ecriture Matricielle

• Dr= matrice diagonale d’ordre r


• Dr= diag(f1o,…, fio ,…, fro)
= fréquences marginales de X
• A= matrice (r,c) des Profils lignes: 1
Couleur des Cheveux
A  D .F r

F Noir Brun Chatain Roux Blond MargX


Dr Marron Noisett Vert Bleu
Marron 0,061 0,007 0,045 0,020 0,001 0,133
Couleur des Yeux

Marron 0,133 0 0 0
Noisette 0,128 0,022 0,108 0,035 0,001 0,293
Noisette 0 0,293 0 0
Vert 0,064 0,016 0,169 0,076 0,005 0,329
Vert 0 0 0,329 0
Bleu 0,018 0,009 0,075 0,126 0,016 0,244
Bleu 0 0 0 0,244
MargY
0,270 0,053 0,397 0,258 0,022 1,000
18
1 Analyse conjointe de 2variables qualitatives
Matrice des Profils-lignes
A(r,c) = Tableau des Profils Lignes = Dr-1.F

A=Dr-1.F
Profil Lignes
Noir Brun Chatain Roux Blond

Marron
0,454 0,053 0,336 0,153 0,004

Noisette
0,435 0,073 0,370 0,119 0,003

Vert
0,193 0,047 0,512 0,232 0,015

Bleu
0,075 0,037 0,306 0,518 0,065

19
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
• Si X et Y sont indépendants, alors:
1. Le profil de Y = yj ne varie pas quand xi varie:
nij nij '
i  1..r , j , j '  1..c : fi / j    fi / j '
noj noj '
  i / nij   i .noj
2. Le profil de X = xi ne varie pas quand yj varie:

nij ni ' j
i, i '  1..r , j  1..c : f j / i    f j / i'
nio ni 'o
  j / nij   j .nio

20
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
3. Donc, si X et Y indépendants, on devrait avoir:

 / i  1..r , j  1..c :
nij   .nio .noj

Comme r c
n n
i 1
io  n
j 1
oj

On obtient:
nio .noj
X et Y indépendants  i  1..r, j  1..c : n ij 
n
Ou encore:

X et Y indépendants  i  1..r, j  1..c : fij  fio . foj

21
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
Alors pour décider entre les 2 situations suivantes, on utilise la
statistique :
2
 nio .noj 
n 
c  ij

  2

D2      n
r
n r c f
nio .noj 
 i 1 j 1 f f
ij
 1

i 1 j 1  io oj 
n
Si X et Y sont indépendantes, et si
nio .noj
i, j : 5
n
alors on montre que la distribution de probabilité de D2 est
approximativement une 2 à (r-1)(c-1) degrés de libertés

22
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance

Alors, si on décide de rejeter l’hypothèse que X et Y sont


indépendantes, le risque encouru de s’être trompé (càd qu’en
fait X et Y sont indépendantes et que la valeur D2 est due aux
fluctuations de l’échantillonnage) est:

p.valeur  P  2
( r 1)( c 1)  D2 

23
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance

Si on peut se permettre un risque de se tromper


α  p-valeur ,
on rejettera alors l’hypothèse « X et Y indépendants ».

Remarque:

Même si on ne rejette pas l’hypothèse « X et Y indépendants »,


ce qui suit peut être appliqué, et devrait expliciter le risque
couru.

24
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
Exemple
F Noir Brun Chatain Roux Blond gr
Marron 0,061 0,007 0,045 0,020 0,001 0,133
• r= 4; c= 5 ; Noisette 0,128 0,022 0,108 0,035 0,001 0,293
• ddl= (r-1)(c-1)=12 Vert 0,064 0,016 0,169 0,076 0,005 0,329

2
Bleu 0,018 0,009 0,075 0,126 0,016 0,244
 nio .noj 
  
D2   
r c  nij
n
nio .noj
  n
 
r c f ij2
 1



gc’ 0,270 0,053 0,397 0,258 0,022 1,000
i 1 j 1  i 1 j 1 f io f oj 
n
• D2= nx0.230 Fth=
=1240 ; gr.gc' Noir Brun Chatain Roux Blond
gr
• P-valeur= 0,0000
Marron
0,036 0,007 0,053 0,034 0,003 0,133
Noisette
• 2(12)<<<1240 Vert
0,079 0,016 0,116 0,076 0,006 0,293

0,089 0,017 0,131 0,085 0,007 0,329


• Rejet de Bleu
0,066 0,013 0,097 0,063 0,005 0,244
l'Hypothèse de
l'indépendance gc’ 0,270 0,053 0,397 0,258 0,022 1,00025
1 Analyse conjointe de 2variables qualitatives

On fait le même travail pour les profils-colonnes

26
2 Analyse Factorielle des correspondances AFC

27
2 Analyse Factorielle des correspondances AFC

Introduction:

• Le tableau de contingence F (ou K) contient toute l’information sur les


relations entre les modalités xi de X et yj de Y; i=1…r ; j=1…c.

• L’absence de relation, ou indépendance, entre X et Y est représentée


par un tableau de contingence théorique Fth où :

nio .noj
i  1..r, j  1..c : n th
ij 
n

foj

28
2 Analyse Factorielle des correspondances AFC

Introduction:

F=Tableau de contingence fréquentiel Observé=K/n


Y gr =
y1 …. yj …. yc Marg X

X1 f11 …. f1J …. f1c f1o

…. …. …. …. …. …. ….
X

Xi fi1 …. fij …. fic fio


…. …. …. …. …. …. ….
xr fr1 …. frj …. frc fro
gc’=Marg Y fo1 …. foj …. foc 1

29
2 Analyse Factorielle des correspondances AFC

Introduction:
• F peut être interprété comme c points (colonnes) dans l’espace des
colonnes Rr. L’information est présentée dans la matrice A(r,c) des
profils lignes.
• Chaque modalité j de Y est représentée par un point de Rr muni de
la masse foj et de coordonnées
{ fi/j=fij/foj ; i=1…r }

• gr =barycentre des c points de Rr (colonnes) de coordonnées:


c c
gri  f oj . f i / j   f ij  f io
j 1 j 1

• gr =marginale de X

30
2 Analyse Factorielle des correspondances AFC

Introduction:
• F peut aussi être interprété comme r points (lignes) dans l’espace
des lignes Rc. L’information est présentée dans la matrice B(r,c) des
profils colonnes.

• Chaque modalité i (de X) est représentée par un point de Rc muni


de la masse fio et de coordonnées

{ fj/i=fij/fio; j=1…c }

gc= barycentre des r points (lignes) de Rc de coordonnées:


r

f
r
gc j 
i 1
io . f j /i  f
i 1
ij  f oj

gc=marginale de Y
31
2 Analyse Factorielle des correspondances AFC

Introduction:
Ecriture Matricielle
1r= vecteur de Rr de composantes toutes égales à 1.
Le barycentre des c colonnes s’écrit:
 f1o 
 
 ... 
gr   f io   F1c  BDc1c  Dr1r  Rr
 
• Dr= diag(f1o,…, fio ,…, fro)  ... 
 f 
• Dc= diag(fo1,…, foj ,…, foc)  ro 
1c= vecteur de Rc de composantes toutes égales à 1.
Le barycentre des r lignes est:
 f o1 
 
 ... 
gc   f oj   F '1r  A' Dr1r  Dc1c  Rc
 
 ... 
 
 oc 
f
32
2 Analyse Factorielle des correspondances AFC
L’absence d’information (indépendance) est représentée par :
Ath=Profil des lignes X si X et Y indépendants: toutes les lignes
sont confondues avec le barycentre gc
Y
Total
y1 …. Yj …. Yc
X1 fo1 …. foj …. foc 1
…. …. …. …. …. …. ….
Xi fo1 …. foj …. foc 1
X

…. …. …. …. …. …. ….
xr fo1 …. foj …. foc 1
Bth=Profil des colonnes Y si X et Y indépendants: toutes les
colonnes sont confondues avec le barycentre gr
Y
Y1 …. Yj …. Yc
X1 f1o …. f1o …. f1o
…. …. …. …. …. ….
Xi fio …. fio …. fio
X

…. …. …. …. …. ….
xr fro …. fro …. fro
Total 1 …. 1 …. 1 33
2 Analyse Factorielle des correspondances AFC

Introduction:

Remarques:
La démarche est globalement parallèle à l’ACP. Mais, contrairement à
l’ACP, ici :
• Lignes et Colonnes jouent un rôle symétrique.
• On n’utilise pas la distance euclidienne (de matrice In). Mais la
métrique dans Rc: Dc1 et dans Rr : Dr1
• Chaque ligne i de A est munie du poids fio
• Chaque colonne j de B est munie du poids foj

Nous allons mener l’étude d’abord dans l’espace des lignes Rc. Et nous
déduirons ensuite l’étude dans l’espace des colonnes Rr.

34
2 Analyse Factorielle des correspondances AFC

Distance du 2

Dans Rc, soit j° une nouvelle modalité de Y regroupant les 2 modalités j


et j’ :
j°={j ou j’}
Alors: nij   nij  nij ' ; i  1..r

 n0 j   n0 j  n0 j '

 f0 j   f0 j  f0 j '
Propriété fondamentale des tableaux des profils:
Si les 2 modalités j et j’ ont le même profil, alors :
{d2( i, i’),i, i’=1..r}
doivent rester inchangées si on regroupe les 2 modalités j et j’ en une
nouvelle modalité j°.

35
2 Analyse Factorielle des correspondances AFC

Exemple:

X= quartier; Y=parti politique

Si 2 partis j et j’ ont le même profil (càd la même répartition dans tous


les quartiers i=1..r), il est normal de les considérer comme un seul
nouveau parti j° qui aura encore le même profil.

Alors les distances entre les quartiers devraient rester inchangées que
l’on regroupe les 2 partis j et j’ ou non.

36
2 Analyse Factorielle des correspondances AFC

Distance du 2

Dans Rc, soit j° une nouvelle modalité de Y regroupant les 2 modalités j


et j’ :
j °={ j ou j ’ }
Alors: nij   nij  nij ' ; i  1..r  n0 j   n0 j  n0 j '  f 0 j   f 0 j  f 0 j '

Si les 2 modalités j et j’ ont le même profil :


i  1...r , fi / j  fi / j '

Alors: f ij  f 0 j . f i / j  f 0 j . f i / j '
f ij  f  f ij ' f f  f0 j ' fi / j '
 i  1...r , f i / j    ij  0 j i / j'  fi / j '  fi / j
f0 j  f0 j  f0 j ' f0 j  f0 j'

i  1...r , fi / j  fi / j '  fi / j 
Donc le profil de j° reste inchangée
37
2 Analyse Factorielle des correspondances AFC

1 … j j' … c 1 … j° … c
… …
i i
… …
i' i'
… …
r r

Si les profils de j et de j' sont identiques, j°=j+j'


alors d(i,i') est inchangée,  i et i'

38
2 Analyse Factorielle des correspondances AFC

Distance du 2

Démonstration:
Sans perte de généralités, nous supposons que les 2 colonnes de
même profil sont :j=c-1 et j’=c. Alors la distance euclidienne:

 f  f j / i' 
c
d (i , i ' ) 
2 2
E j /i
j 1

vaut, si les 2 classes restent séparées:


c 2
D1    f j / i  f j / i '    f c 1 / i  f c 1 / i '    f c / i  f c / i ' 
2 2 2

j 1

Et devrait être égale, si les classes c-1 et c sont regroupées en j°, à:

 
c 2
D 20   f
j 1
j /i  f j / i '   f j0 / i  f j0 / i '
2 2

On calcule  = D1 – D0  0

On ne peut pas regrouper les deux profils


39
2 Analyse Factorielle des correspondances AFC

Distance du 2
Cette propriété est vérifiée par la distance du 2 définie par:

 f j / i  f j / i ' 2
c
1
d  2 (i, i ' )  
2

j 1 f oj
C’est cette distance qui sera utilisée dans la suite. En effet, la
différence  entre les distances dans les 2 cas est alors:

 
1
foc1
 fc1/ i  f c1/ i ' 
2
  fc / i  fc / i'  
1
foc
2 1
 f j / i  f j / i'  = 0
2

foj

40
2 Analyse Factorielle des correspondances AFC

Distance du 2

Dans la suite, nous allons utiliser la distance du 2

f  f j / i' 
c
1
d  2 (i , i ' ) 
2

j 1 f oj
j /i
2

f 
r
1
d  2 ( j, j ' ) 
2

i 1 f io
i/ j  fi / j'
2

Dans la suite, un raisonnement parallèle à celui de l’ACP est mené, avec :

• La métrique Dc-1 (au lieu de la métrique euclidienne In pour l’ACP)

• Chaque ligne i est pondéré par fi0=%d’individus qui ont la modalité i de


X (pour l’ACP, tous les individus avaient la même pondération =1/n)

41
2 Analyse Factorielle des correspondances AFC

L’Inertie
L’inertie de l’élément i, représenté par la ième ligne de A, de poids fio, est
définie par rapport à l’absence d’information, représenté par Ath (point
moyen gc de coordonnées fj/i=foj, j=1..c) :

I i  fiod 2 (i, gc)  f io 


2
c f
j /i  f j 
th 2

 f oj
c 
f j / i  f oj 
j 1
2 c f ij2
 f io 
j 1 f oj
 
j 1 f io f oj
 f io

  f j / i fi / j  fio    fi / j f j / i  fio foj 


c c

j 1 j 1

L’inertie total est :


r
 c f ij2  r c f ij2
 
r
It  I i     f io  1

i 1  j 1 f io f oj
 f io f oj
i 1  i 1 j 1

D2 étant la statistique utilisée pour tester l’indépendance entre X et Y.


42
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des lignes Rc

Nous supposons dans la suite que:

• r≤c

• Rc est muni de la norme Dc-1

• F est interprétée comme r lignes dans Rc

• Chaque ligne i (i=1…r) est pondérée par fio (matrice Dr)

• L’inertie totale est contenue dans la matrice profil Lignes A

43
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des lignes Rc


Matrice à diagonaliser dans Rc

La matrice à diagonaliser dans Rc est la matrice de variance


covariance des c colonnes de A :

Vc  A  A  .Dr .A  Ath .Dc1


th '

 F ' .Dr1.F .Dc1  gc1'c


 S  gc .1'c
Avec :

S  F ' .Dr1.F .Dc1  A' B

44
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des lignes Rc

gc est vecteur propre de Vc associé à la valeur propre 0

gc est aussi vecteur propre de S associé à la valeur propre 1

S. gc =1. gc=gc ; Vc.gc=S.gc-gc=0.gc=0

Si 0 et 1 alors: Vc.U=U  S.U=U

45
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des lignes Rc

Ainsi, pour trouver les vecteurs et valeurs propres de Vc, il suffit de


chercher ceux de S, sauf la valeur propre 1 de S (de vecteur propre
associé gc) qui correspond en fait à la valeur propre 0 de Vc, donc
éliminée.

Remarque :
Le nombre k de valeurs propres non nulles vérifie:

k  Inf ( r  1, c  1)  r  1
Nous supposons k = r-1 pour simplifier, alors:
r 1
It  
j 1
j

46
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des lignes Rc


Application

Vc S
0,088 0,036 -0,004 -0,082 -0,148 0,36 0,31 0,27 0,19 0,12

0,007 0,004 0,000 -0,007 -0,013 0,06 0,06 0,05 0,05 0,04

-0,005 0,000 0,018 -0,018 -0,042 0,39 0,40 0,41 0,38 0,35

-0,078 -0,034 -0,012 0,092 0,174 0,18 0,22 0,25 0,35 0,43

-0,012 -0,005 -0,002 0,015 0,028 0,01 0,02 0,02 0,04 0,05

λ0 λ1 λ2 λ3 Somme
1 0,199 0,030 0,001 It=0,230
%Cum 86,6% 99,6% 100,0%
Inertie Totale= Trace(Vc)= Trace(S)-1= λ1+λ2+λ3 47
2 Analyse Factorielle des correspondances AFC

Axes Factoriels et projections dans Rc

Les valeurs propres de S = A’B sont (après élimination de la valeur propre


1 de S):
1 ≥ λ1≥ … λh…≥ λc-1≥ 0

Les axes factoriels Uh  Rc sont les vecteurs propres associés aux


valeurs propres λh de S; h=1,…,c-1; normés par rapport à la métrique Dc-1

U h' .Dc1.U h  1

Les projections des r lignes de A sur Uh sont appelées coordonnées


factorielles et notées:
h  A.Dc1.Uh  R r

48
2 Analyse Factorielle des correspondances AFC

Axes Factoriels et projections dans Rc

• La projection sur Uh de la ième ligne de A (i=1…r) est:

• Ψh est centrée :

• de variance λh :

49
2 Analyse Factorielle des correspondances AFC

Axes Factoriels et projections dans Rc

Similairement à la démarche dans l’ACP, nous calculons:

La distance de la ligne i de A à l’origine gc est :

 f j / i  foj 2
c
d  2 i, gc  
2 1
j 1 f oj

L’inertie de la ligne i : I i  f io d 2 2 i, gc

   f i / j f j / i  f io f oj 
c

j 1

50
2 Analyse Factorielle des correspondances AFC

Axes Factoriels et projections dans Rc

Qualité de la projection de la ième ligne de A (i=1…r) sur la composante


factorielle Uh est:

La contribution de la ligne i de A à la variance de Uh est:

Remarque:
c 1 r

 Q i   1;  Ctr i   1
h 1
h
i 1
h

51
2 Analyse Factorielle des correspondances AFC

Axes factoriels et Projection des Lignes (Couleur des Yeux) dans Rc


Application
U1 U2 U3 Ψ1 Ψ2 Ψ3
0,329 0,271 0,115 Marron 0,400 0,165 0,064
0,028 0,015 -0,214 Noisette 0,441 0,088 -0,032
0,037 -0,476 0,044 Vert -0,034 -0,245 0,006
-0,341 0,155 0,089
Bleu -0,703 0,134 -0,004
-0,054 0,036 -0,034

gr d2(i,gc) Inertie %Inertie C1 C2 C3 Q1 Q2 Q3 ∑Q

Marron 0,13 0,19 0,03 13 11 12 64 84 14 2 100

Noisette 0,29 0,20 0,06 26 29 8 34 96 4 0 100

Vert 0,33 0,06 0,02 9 0 66 1 2 98 0 100

Bleu 0,24 0,51 0,12 52 60 14 1 96 4 0 100

Total 1 It= 0,230 100 100 100 100 52


2 Analyse Factorielle des correspondances AFC
Axes factoriels et Projection des Lignes (Couleur des Yeux) dans Rc

Projection des lignes


0,2 Marron
Bleu
0,2
Noisette
0,1
0,1
0,0
-0,8 -0,6 -0,4 -0,2 -0,1 0,0 0,2 0,4 0,6

-0,1
-0,2
-0,2
-0,3 Vert
-0,3

Remarque:
Nous pouvons en déduire un ordonnancement des modalités de X selon
leur relation avec Y.
Dans cet exemple: Bleu, Vert, Marron puis Noisette.
53
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des colonnes Rr

La démarche est identique à l’analyse dans Rc, en permutant lignes


avec colonnes, Dr avec Dc, …
La matrice (r,r) Vr de variance-covariance des r lignes (B=profils des
colonnes) Vr s’écrit:
Vr  B  B . Dc .B  B
th th '
 .D
1
r

Vr  T  gr.1'r

T  B.A'
Où T et S ont les mêmes valeurs propres non nulles:
1 ≥ λ1≥ … λh…≥ λr-1≥ 0

54
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des colonnes Rr

Pour h=1…r-1, les axes factoriels Vh  Rr, sont des vecteurs propres
normés (selon la norme Dr-1) associés aux valeurs propres de
T=BA’, et peuvent être déduis de ceux dans Rc par :
1
Vh  . B.U h
h
Les projections des c colonnes de B sur Vh sont appelées
coordonnées factorielles et notées:
Φh = B’.Dr-1 .Vh  Rc

Φh est centrée : 1c’.DcΦh =  f0jhj = 0

Φh de variance λh : Φh’.Dc Φh =  f0j hj2 = λh

55
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des colonnes Rr

Vr T
0,026 0,025 -0,007 -0,035 0,16 0,16 0,13 0,10

0,055 0,060 -0,011 -0,087 0,35 0,35 0,28 0,21

-0,018 -0,012 0,020 -0,003 0,31 0,32 0,35 0,33

-0,063 -0,073 -0,002 0,125 0,18 0,17 0,24 0,37

λ0 λ1 λ2 λ3 Somme
1 0,199 0,030 0,001 It=0,230
%Cum 86,6% 99,6% 100,0%
Inertie Totale= Trace(Vr)= Trace(T)-1= λ1+λ2+λ3
56
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des colonnes Rr

 fi / j  fio 2
r

La distance de la colonne j de B à l’origine gr est : d  2  j, gr  


2 1
i 1 fio

I j  f ojd  2  j, gr     fi / j f j / i  fio f oj 
r
2
Inertie de la colonne j :
i 1

Qualité de la projection de la jème colonne de B (j=1…c) sur la


composante factorielle Vh est:
 hj2
Qh  j   Cosh2  j  
d 2 2  j, gr 
La contribution de la colonne j de B à la variance de Vh est:
f oj . hj
2

Ctrh  j  
Remarque: h
r 1 c

 Q  j   1;  Ctr  j   1
h 1
h
j 1
h

57
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des colonnes Rr


Axes factoriels et Projection des Colonnes (Couleur des Cheveux) dans Rr
V1 V2 V3 Φ1 Φ2 Φ3
0,12 0,13 0,29 Noir 0,544 0,174 0,013
Brun 0,233 0,048 -0,118
0,29 0,15 -0,32
Chatain 0,042 -0,208 0,003
-0,02 -0,47 0,06 Roux -0,589 0,104 0,010
-0,38 0,19 -0,04 Blond -1,094 0,286 -0,046

gc d2(j,gr) Inertie %Inertie C1 C2 C3 Q1 Q2 Q3 ∑Q


Noir 0,27 0,33 0,09 38 40 27 5 91 9 0 100
Brun 0,05 0,07 0,00 2 1 0 86 77 3 20 100
Chatain 0,40 0,05 0,02 8 0 57 0 4 96 0 100
Roux 0,26 0,36 0,09 40 45 9 3 97 3 0 100
Blond 0,02 0,28 0,03 12 13 6 5 93 6 0 100
Total 1 It= 0,230 100 100 100 100
58
2 Analyse Factorielle des correspondances AFC

Analyse dans l’espace des colonnes Rr

Projection des colonnes


0,4

Blond
0,3

0,2 Noir
Roux
0,1 Brun

0,0
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8
-0,1

-0,2
Chatain

-0,3

Remarque:
Nous pouvons en déduire un ordonnancement des modalités de Y selon
leur relation avec X.
Dans cet exemple: Blond, Roux, Chatain, Brun puis Noir. 59
2 Analyse Factorielle des correspondances AFC

Projection simultanée des lignes et colonnes

0,4
Blond
0,3

0,2 Noir
Marron
Roux
Bleu 0,1 Brun Noisette

0,0
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8
-0,1

-0,2 Chatain
Vert
-0,3

Remarque:
En réalité, les projections de X et celles de Y se trouvent dans des
espaces différents. Ce graphique n’explicite pas la dépendance entre les
modalités de X et celles de Y.
60
2 Analyse Factorielle des correspondances AFC

Projection simultanée des lignes et colonnes

Projection simultanée des lignes et colonnes: CA(A) #A=caith sous


MASS, sauf les noms

61
2 Analyse Factorielle des correspondances AFC

Au-delà des premiers résultats

Relations Quasi Barycentriques dans l’espace des Lignes Rc


La projection Ψh des lignes sur l’axe Uh s’écrit :
1
h  . A. h
h
De coordonnées, pour i=1..r:

La projection ih de la ligne i sur Uh est le barycentre des projections


des c colonnes hj; j=1..r; munies des poids fj/i (fréquence de j quand i
fixée=profil de la ligne i de A)

62
2 Analyse Factorielle des correspondances AFC

Au-delà des premiers résultats

63
2 Analyse Factorielle des correspondances AFC

Lignes Quasi Barycentres des Colonnes

Projections des colonnes dilatées :


 hj
Φ1/1 Φ2/2 Φ3/3 ; j  1..c
Noir 1,22 1,00 0,43 h
Brun 0,52 0,28 -4,03
Colonnes Dilatées
Chatain 0,09 -1,20 0,11
Blond 2,0
Roux -1,32 0,60 0,35 1,5
Noir
Blond -2,45 1,65 -1,57 Roux 1,0

0,5 Brun

0,0
-3,0 -2,0 -1,0 0,0 1,0 2,0
-0,5

-1,0
Chatain
-1,5

Pour retrouver la projection d’une ligne i, on munit chaque colonne j par


son poids dans le profil de la ligne i = fj/i (ligne i de la matrice A des
profils des lignes), et on cherche le barycentre:
64
2 Analyse Factorielle des correspondances AFC

Lignes Quasi Barycentres des Colonnes

La ligne i=1 (couleur des yeux =Marron):


Profil de la ligne i=1 (matrice A):
A Noir Brun Chatain Roux Blond
Marron 0,454 0,053 0,336 0,153 0,004

Yeux Marrons Quasi Barycentres des


Couleurs des Cheveux
Blond 0.004 2,0
1,5
Noir 0,454

Roux 0.153 1,0


0,5 Brun 0.05
0,0
Y Marrons
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 -0,5 0,0 0,5 1,0 1,5

-1,0
Chatain 0.336
-1,5

65
2 Analyse Factorielle des correspondances AFC

Lignes Quasi Barycentres des Colonnes


La ligne i=2 (couleur des yeux =Noisette):
Profil de la ligne i=2 (matrice A):

A Noir Brun Chatain Roux Blond


Noisette 0,435 0,07 0,37 0,119 0,003

Yeux Noisettes Quasi Barycentres des Couleurs des Cheveux


2,0
Blond 0.003

1,5

Noir 0,435
1,0
Roux 0.119

0,5 Brun 0.07

0,0 Y Noisette
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5

-0,5

-1,0
Chatain 0.370
-1,5

66
2 Analyse Factorielle des correspondances AFC

Lignes Quasi Barycentres des Colonnes


La ligne i=3 (couleur des yeux =Verts):
Profil de la ligne i=3 (matrice A):
A Noir Brun Chatain Roux Blond
Vert 0,193 0,047 0,512 0,232 0,015

Yeux Verts Quasi Barycentres des Couleurs des Cheveux


Blond 0.015 2,0

1,5
Noir 0,193
1,0
Roux 0.232
0,5 Brun 0.05

0,0
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5Y Vert 0,0 0,5 1,0 1,5
-0,5

-1,0
Chatain 0.512
-1,5

67
2 Analyse Factorielle des correspondances AFC

Lignes Quasi Barycentres des Colonnes

La ligne i=4 (couleur des yeux =Bleu):


Profil de la ligne i=4 (matrice A):
A Noir Brun Chatain Roux Blond
Bleu 0,075 0,037 0,306 0,518 0,065

Yeux Bleux Quasi Barycentres des Couleurs des Cheveux


Blond 0.065 2,0

1,5
Noir 0,1075
1,0
Roux 0.518
0,5 Brun 0.037
Y Bleu
0,0
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
-0,5

-1,0
Chatain 0.306
-1,5
68
2 Analyse Factorielle des correspondances AFC

Lignes Quasi Barycentres des Colonnes


Lignes (couleur des yeux) Q barycentres des Colonnes (couleur des
Cheveux): matrice profils lignes A:
A Noir Brun Chatain Roux Blond
Marron 0,454 0,053 0,336 0,153 0,004
Noisette 0,435 0,073 0,370 0,119 0,003
Vert 0,193 0,047 0,512 0,232 0,015
Bleu 0,075 0,037 0,306 0,518 0,065

Lignes QBarycentres des Colonnes


CBlond 2,0
1,5
CNoir
CRoux 1,0
0,5 CBrun
YBleu
YMarron
0,0
YVert YNoisette
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
-0,5
-1,0 Chatain
-1,5

69
2 Analyse Factorielle des correspondances AFC

Colonnes (couleur des Cheveux) Q barycentres des Lignes (couleur


des yeux) : matrice profils Colonnes B:

B Noir Brun Chatain Roux Blond


Marron 0,22 0,13 0,11 0,08 0,03
Noisette 0,47 0,41 0,27 0,14 0,03
Vert 0,24 0,29 0,43 0,30 0,22
Bleu 0,07 0,17 0,19 0,49 0,72

Colonnes QBarycentres des Lignes


1,5
YBleu 1,0 YMarron
CBlond 0,5 CNoir
CRoux CBrun YNoisette
0,0
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
-0,5 CChatain
-1,0
-1,5 YVert
-2,0

70
Projections Simultanées
0,4
Blond
0,3
Noir
0,2 Marron
Roux
Bleu 0,1 Brun Noisette
0,0
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 -0,1 0,0 0,2 0,4 0,6 0,8

-0,2 Chatain
Vert
-0,3

Lignes QBarycentres des Colonnes


CBlond 2,0
CNoir
CRoux 1,0
YBleu CBrun
YMarron
0,0
YVert YNoisette
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
Chatain
-1,0

Colonnes QBarycentres des Lignes


-2,0
2,0
YBleu
1,0 YMarron
CBlond CRoux CNoir
CBrun YNoisette
0,0
-2,0 -1,5 -1,0 -0,5 CChatain
0,0 0,5 1,0 1,5
-1,0
YVert
-2,0 71
Aide à l’interprétation AFC

Pour l’interprétation des positions des individus et des variables


(dans le même espace), on retiendra :
les variables et individus interprétables sont ceux qui sont éloignés
au centre du nuage de points.

La proximité de deux modalités (bien projetées) d’une même variable


indique que les individus (au sens du tableau de départ) qui prennent
ces modalités ont des profils similaires sur le reste des autres variables.

La proximité de deux modalités de variables différentes tend à indiquer


que ce sont (à peu près) les mêmes individus qui prennent ces modalités,
mais ce n’est pas toujours le cas.
.

72
Aide à l’interprétation AFC

Si une modalité soit graphiquement très éloignée des autres, c’est qu’elle
possède dans le tableau de départ un profil tout à fait spécifique.

Sa position dans le plan factoriel étant isolée, elle empêche une étude
précise des positions des autres points qui se retrouvent « en paquet ».

Il est recommandé dans ce cas de rendre cette modalité inactive (on la


met en individu et variable supplémentaire), ce qui revient à réaliser l’AFC
du tableau de départ en éliminant la ligne ou la colonne représentant cette
modalité

73
Ajout d’une information supplémentaire

74
Variables supplémentaires qualitatives :

Chaque observation appartient à une modalité d’une variable qualitative


supplémentaire. Pour chaque modalité, le barycentre des observations
est calculé, puis affiché sur le graphique des observations. De plus, on
peut colorer chaque observations selon la modalité à laquelle elle appartient.

Quant aux variables qualitatives, on utilise en général le principe


barycentrique qui consiste à faire figurer le centre de gravité ( point moyen )
de chaque modalité.
Projection

Projection de la colonne supplémentaire j’ sur Vh


(on considère les mêmes notations que celles de la 1ère partie)

Projection de la ligne supplémentaire i’ sur Uh

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy