Cours ACP PDF

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 41

Analyse en Composantes

Principales
(ACP)

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 1 14-15 février 2008
Sommaire

•Principe de l’ACP

•Structure du tableau de données

•L’ACP en Pratique

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 2 14-15 février 2008
L’Analyse en Composantes Principales (ACP) est une méthode
statistique essentiellement descriptive qui peut être utilisée pour savoir :

• comment se structurent les variables : quelles sont celles qui sont


corrélées ? Quelles sont celles qui ne le sont pas ? Quelles sont celles
qui « vont dans le même sens » ? Quelles sont celles qui s’opposent ?

• et/ou comment se répartissent les individus : quels sont ceux qui se


ressemblent ? Quels sont ceux qui sont dissemblables ?

Il s’agit donc de construire une certaine typologie, partition des


individus, construire des groupes d’individus qui soient homogènes
de point de vue l’ensemble des variables

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 3 14-15 février 2008
L’ACP s’intéresse à des tableaux de données rectangulaires avec des
individus en lignes et des variables quantitatives en colonnes.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 4 14-15 février 2008
Principe de l’ACP

Le tableau de données correspond à une représentation des


individus dans un espace à K dimensions.

Etant donné qu’il est impossible de se représenter visuellement


le nuage de points des individus dans un tel espace, le but de
l’ACP est de trouver des espaces de visualisation de dimensions
« plus petites », à savoir des droites (dimension 1) ou encore
des plans (dimension 2), tout en conservant le maximum
d’information.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 5 14-15 février 2008
Principe de l’ACP

Autrement dit, on cherche à définir des nouvelles variables


combinaisons linéaires des k variables initiales qui feront
perdre le moins d’information possible : ce sont les
composantes principales Ck ou encore axes principaux
( ces sont des droites)

NB: les variables initiales sont corrélées alors que les


nouvelles variables sont non corrélées.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 6 14-15 février 2008
Principe de l’ACP

Comment obtenir les composantes principales:

-On centre et on réduit les données (Matrice X) puis en passe à la


diagonalisation de la matrice de variances-covariances

-La solution: k valeurs propres et k vecteurs propres qui font les


directions des axes principaux

-les composantes principales s’écrit donc:


C=(C1, C2,….., Ck)= U*X avec U=(u1, u2,…,uk) les vecteurs propres
et X c’est la matrice des données

-On obtient K vecteurs propres et donc K axes principaux

-Le premier axe est celui associé à la plus grande valeur


propre .

-Le deuxième axe est celui associé à la deuxième valeur


propre .

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 7 14-15 février 2008
-La variance d’une composante principale (inertie) est
égale à la valeur propre portée par l’axe principal qui lui est
associé.

-1ère composante c1 variance : λ1


-2ème composante c2 variance : λ2
-3ème composante c3 variance : λ3
Etc…

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 8 14-15 février 2008

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 9 14-15 février 2008
 La première composante principale doit
"capturer" le maximum d’inertie du
tableau des données.

 La deuxième composante principale est


un complément, une correction de la
première.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 10 14-15 février 2008
Examen préalable à l’interprétation des résultats

Combient d’axe à retenir ??

Différentes procédures nous permettent de déterminer le nombre d’axe à


retenir pour notre ACP, en effet Trois règles sont applicables :

1- la règle de Kaiser qui veut qu’on ne retienne que les facteurs aux valeurs
propres supérieures à 1.

2- on choisit le nombre d’axe en fonction de la restitution d’information


que l’on souhaite. Par exemple, on veut que le modèle restitue au moins
80% de l’information

3- Le critère du coude : On observe le graphique des valeurs propres et on


ne retient que les valeurs qui se trouvent à gauche du point
d’inflexion (coupure brusque).

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 11 14-15 février 2008
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 12 14-15 février 2008
 Interprétation des résultats de l’analyse:

-C’est la phase la plus délicate de l’analyse. On


donne un sens à un axe grâce à une recherche
lexicale (ou recherche de mots) à partir des
coordonnées des variables et des individus.

-Il s’agit de chercher quelles variables sont


corrélées avec l’axe 1, l’axe 2….

-Après avoir donner un sens aux axes, on terminera


par caractériser les individus avec les variables

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 13 14-15 février 2008
 En commence par étudier les variables
puis on passe à l’étude des individus

 L’interprétation est basée sur les variables


et les individus et variables bien
représentées

 On doit alors examiner la qualité de


représentation des variables et des
individus et leurs contributions pour la
formation des axes

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 14 14-15 février 2008
L’ACP en Pratique

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 15 14-15 février 2008

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 16 14-15 février 2008
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 17 14-15 février 2008
 la qualité de représentation d’une variable est
égale à la coordonnée au carrée (donnée par
le logiciel avec lequel en travaille)

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 18 14-15 février 2008

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 19 14-15 février 2008
 En pratique: on obtient comme sorties:

-Les valeurs propres et les vecteurs propres


(composantes principales)
-La matrice de corrélation des variables initiales
-L’inertie expliquée par les axes principaux
-Les cordonnées des variables (corrélation avec les
axes)
-Les cordonnées des individus et leurs qualités de
représentation
-Le « mapping » des variables
-Le « mapping » des individus

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 20 14-15 février 2008
 Exemple d’une ACP:
Tableau des données:
On étudie les consommations annuelles en 1972, exprimées en francs, de 8 denrées
alimentaires (les variables), les individus étant 8 catégories socio-professionnelles.
Les données sont des moyennes par CSP :

PAO PAA VIO VIA POT LEC RAI PLP

AGRI 167 1 163 23 41 8 6 6

SAAG 162 2 141 12 40 12 4 15

PRIN 119 6 69 56 39 5 13 41

CSUP 87 11 63 111 27 3 18 39

CMOY 103 5 68 77 32 4 11 30

EMPL 111 4 72 66 34 6 10 28

OUVR 130 3 76 52 43 7 7 16

INAC 138 7 117 74 53 8 12 20

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 21 14-15 février 2008
Les individus: catégories sociales les Variables : 8 (quantitatives)
 AGRI = Exploitants agricoles PAO = Pain ordinaire
 SAAG= Salariés agricoles PAA = Autre pain
 PRIN = Professions indépendantes VIO = Vin ordinaire
 CSUP = Cadres supérieurs VIA=Autre vin
 CMOY= Cadres moyens POT= Pommes de terre
 EMPL= Employés LEC=Légumes secs
 OUVR = Ouvriers RAI=Raisin de tables
 INAC = Inactifs PLP= Plats préparés

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 22 14-15 février 2008
Le programme SAS permettant d’obtenir les sorties ci-dessous est en Annexe.

The PRINCOMP Procedure


Observations 8
Variables 8

Correlation Matrix

PAO PAA VIO VIA POT LEC RAI PLP

PAO 1.0000 -.7737 0.9262 -.9058 0.6564 0.8886 -.8334 -.8558


PAA -.7737 1.0000 -.6040 0.9044 -.3329 -.6734 0.9588 0.7712
VIO 0.9262 -.6040 1.0000 -.7502 0.5171 0.7917 -.6690 -.8280
VIA -.9058 0.9044 -.7502 1.0000 -.4186 -.8386 0.9239 0.7198
POT 0.6564 -.3329 0.5171 -.4186 1.0000 0.6029 -.4099 -.5540
LEC 0.8886 -.6734 0.7917 -.8386 0.6029 1.0000 -.8245 -.7509
RAI -.8334 0.9588 -.6690 0.9239 -.4099 -.8245 1.0000 0.8344
PLP -.8558 0.7712 -.8280 0.7198 -.5540 -.7509 0.8344 1.0000

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 23 14-15 février 2008
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 24 14-15 février 2008
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 25 14-15 février 2008
 INTERPRETATION
1. Choix du nombre d’axes à retenir

. Le critère de Kaiser nous conduit à sélectionner un seul axe (valeur


propre > 1), qui retient 77% de l’inertie totale. L’axe 2 retient tout de
même 11% de l’inertie, ce qui n’est pas négligeable, et qui conduit à un
taux d’inertie expliquée de 89%, ce qui est un très bon résultat. Il peut
être donc intéressant de l’étudier.
. Le critère du coude ainsi que celui du Scree-test nous conduisent à
retenir les deux premiers axes

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 26 14-15 février 2008
2. Graphes sur le plan factoriel (1,2)

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 27 14-15 février 2008
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 28 14-15 février 2008

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 29 14-15 février 2008
- +

PAO RAI
LEC VIA
(VIO) PLP
(PAA)

On classe les variables selon leurs sens de contribution. PAA et


VIO sont très proches de la contribution moyenne, on les intègrera
donc dans l’interprétation de l’axe si elles vont dans le sens de
l’interprétation que l’on peut en faire.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 30 14-15 février 2008
 L’axe 1 oppose les individus consommant du pain ordinaire, des
légumes secs (et éventuellement du vin ordinaire) à ceux qui
consomment du raisin, du vin (éventuellement du pain) plus
sophistiqué et des plats préparés.

 L’axe 1, et donc la première composante principale, mesure la


répartition entre aliments ordinaires et aliments plus
recherchés.

 Toutes les variables sont bien représentées sur l’axe : la qualité de


représentation est égale à la coordonnée au carré ; ainsi, la qualité de
représentation de la variable PAO est égale à (-0,97²)=0,94 ;

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 31 14-15 février 2008

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 32 14-15 février 2008
Le premier axe met donc en opposition quant à leurs habitudes
alimentaires les agriculteurs et les cadres supérieurs.

- +

AGRI CSUP
SAAG

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 33 14-15 février 2008
Touts les individus sont bien représentées sur l’axe 1 sauf les catégories
EMPL, OUVR et INAC

Conclusion: L’axe 1 reflète donc l’opposition qui existe entre les


catégories socio-professionnelles dans leur alimentation, opposant les
agriculteurs modestes qui consomment des produits basiques aux
catégories CSUP qui consomment des produits plus recherchés.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 34 14-15 février 2008
Axe 2: Variables

De même, on compare les valeurs de la colonne Prin2 à 35%, le signe


donnant le sens de contribution. On obtient :

L’axe 2 est défini par les variables POT et PAA.

- +

POT
PAA

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 35 14-15 février 2008
J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 36 14-15 février 2008

- +

INAC

Le deuxième axe est caractéristique des inactifs


J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 37 14-15 février 2008
Conclusion:
L’axe 2 reflète donc la particularité des inactifs quant à leur alimentation,
fortement composée de pommes de terre (un retour aux données
d’origine vient confirmer cette conclusion).

Synthése:
C1=répartition entre aliments ordinaires et aliments plus recherchés
C2=répartition de la consommation de pommes de terre

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 38 14-15 février 2008
Interprétation des résultats

5 – Interprétation des individus


L’examen des coordonnées et la représentation graphique des individus
permet de répondre à :

Comment se répartissent les individus ? Quels sont ceux qui se ressemblent


et en quoi ?

Il s’agit de s’intéresser à la proximité ou à l’éloignement entre les individus.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 39 14-15 février 2008
Conseils supplémentaires

-L’ACP ne peut pas traiter des tableaux comportant des données


manquantes. Lorsque l’on a des données manquantes, on doit supprimer
lignes (individus) et/ou colonnes (variables) afin d’obtenir un tableau complet.

-L’ACP ne peut pas traiter des variables qualitatives mais uniquement des
variables quantitatives. Il y a toutefois une astuce qui consiste à intégrer un
codage des variables qualitatives dans les identifiants des individus.

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 40 14-15 février 2008
ET BON COURAGE !!!

J-C Raynal - EHESS – La cartographie multivariée avec le logiciel Philcarto. 41 14-15 février 2008

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy