Cours AFC
Cours AFC
Cours AFC
Data Science
Chapitre
p 2 : Analyse
y Factorielle
des Correspondances (AFC)
Zouaoui Slim
zou slim@yahoo fr
zou_slim@yahoo.fr
AFC
Deux variables qualitatives :
L'analyse
L' l factorielle
f t i ll desd correspondances
d (AFC) estt une méthode
éth d exploratoire
l t i
d'analyse des tableaux de contingences, c'est-à-dire aux tableaux de comptages
obtenus par le croisement de deux variables qualitatives.
Tableau de contingence en pourcentages
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 30,0% 5,0% 10,0% 45,0%
[ 30 ; 45 [ 25,0% 8,0% 2,0% 35,0%
[45 ; 60 [ 5,0% 12,0% 3,0% 20,0%
Total 60,0% 25,0% 15,0% 100,0%
Analyse
y Statistique
q : Tableau de Contingence
g
Tableau de contingence en pourcentages
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 30,0% 5,0% 10,0% 45,0%
[ 30 ; 45 [ 25,0% 8,0% 2,0% 35,0%
[45 ; 60 [ 5,0% 12,0% 3,0% 20,0%
Total 60,0% 25,0% 15,0% 100,0%
Á l’intersection d’une ligne et d’une colonne, nous avons le nombre kij
d’
d’employés
l é ayantt simultanément
i lt é t la
l classe
l d'âge
d'â i ett la
l catégorie
té i j. j Le
L total
t t l
marginal ki. est le nombre des employés ayant la classe d'âge i, alors que le total
marginal k.j est le nombre des ordinateurs ayant la finition de fabrication j.
Tableau de Profils colonnes
Catégories
g
Age
Ouvriers techniciens Cadre Total
< 30 ans 50,0 20,0 66,7 45,0
[ 30 ; 45 [ 41,7 32,0 13,3 35,0
[45 ; 60 [ 8,3 48,0 20,0 20,0
Total 100 100 100 100
Analyse Bidimensionnelle entre deux variables
qualitatives
Hypothèse d
d’indépendance
indépendance :
< 30 ans 0,27 0,11 0,07 0,45 < 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,21 0,09 0,05 0,35 [ 30 ; 45 [ 0,25 0,08 0,02 0,35
[45 ; 60 [ 0,12 0,05 0,03 0,2 [45 ; 60 [ 0,05 0,12 0,03 0,2
Tableau de fréquences théoriques
Catégories
C é i
Age
Ouvriers techniciens Cadre Total
< 30 ans 0,27 0,11 0,07 0,45
[ 30 ; 45
4 [ 0 21
0,21 0 09
0,09 00
0,05 03
0,35
[45 ; 60 [ 0,12 0,05 0,03 0,2
Total 0,6 0,25 0,15 1
Hypothèse d’indépendance :
Le test de χ2 est définit par :
H0 : Les
L deux
d variables
i bl sont indépendantes
i dé d
La statistique
q du test est définie ppar :
d2=
n
N .
p f ij f i. f. j
2
d 2 2
i 1 j 1 f i. f. j
En outre, le d2 suit une loi du khi-2 de paramètre
ss’appelle
appelle le nombre de degrés de liberté avec :
Chaque ligne du tableau des fréquences lignes peut être vue comme la liste des coordonnées
d'un point dans un espace à q dimensions. On obtient ainsi le nuage des individus-lignes. On
défi i dde même
définit ê lle nuage des
d individus-colonnes
i di id l à partir
i du
d tableau
bl des
d fréquences
fé colonnes.
l
On s'intéresse alors aux directions de "plus grande dispersion" de chacun de ces nuages de
points.
i t Mais,
M i pour mesurer la l "distance"
"di t " entre
t deux
d individus.
i di id La L distance
di t euclidienne
lidi usuelle
ll
entre deux profils-lignes traduit bien la ressemblance ou la différence entre les deux marques
des ordinateurs sans tenir compte des effectifs totaux de ces modalités :
AFC : Association entre les modalités
Distances entre profils. Métrique du χ2:
Cependant, cette distance favorise les colonnes qui ont une masse f.j importante c'est-à-dire la
finition TB (Très Bien).
Pour remédier
édi à cela,
l on pondère
dè chaque
h écart
é par l’inverse
l’i de
d la
l masse de
d la
l colonne
l et l’on
l’
calcule une nouvelle distance appelée la distance du χ2 :
Les deux nuages de points (dans l’espace des colonnes et dans l’espace des lignes) sont
construits de manière analogue.
La représentation simultanée des différentes modalités de deux variables qualitatives est
la suivante :