TD Analyse Données 2022-2023

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 9

Université Thomas SANKARA Année Universitaire 2022-2023

UFR-ST/LIME LISE3
TD d’Analyse des données

Exercice 1

On considère la matrice des données X de type (2,3) suivante


!
−1 0 1
X=
0 −1 1
1. Calculer le produit matriciel X′ X et s’assurer que c’est une matrice carrée et symétrique ;
2. Chercher les valeurs propres λi de X′ X et ses vecteurs propres associés ui . Donner la
matrice diagonale ∆ semblable à X′ X et la matrice de passage A ;
3. Vérifier que tr(X′ X) = tr(∆) = i λi
P

4. Vérifier que ces axes sont perpendiculaires


5. Calculez les composantes principales et les facteurs principaux.

Exercice 2
On considère le tableau X suivant de type (3, 2) suivant :
 
 2 3 
X =  4 5 
 
6 1
 

1. Donner le tableau des données centrées réduites (normées).


2. Donner la matrice des corrélations Γ.
3. Diagonaliser la matrice Γ. On note λ1 et λ2 ses valeurs propres avec λ1 > λ2 .
4. Déterminer les axes factoriels. Donner le vecteur unitaire ui de chaque axe Fi .
5. Vérifier que ces axes sont perpendiculaires
6. Écrire la matrice diagonale des valeurs propres Λ et calculer sa trace et vérifier que
tr(Λ) = tr(Γ)
7. Calculez les composantes principales et les facteurs principaux.
8. Dessinez le nuage de points projeté sur le premier axe. Calculez la représentation globale
sur le premier axe, et la contribution de chaque individu sur le premier axe.

Exercice 3
Réaliser l’ACP de la matrice suivante, à partir de sa matrice de dispersion (données centrées
mais non réduites) :  
 2 2 
 6 2 
 
X =  
 6 4 
10 4
 

Exercice 4

1
On a rassemblé les résultats de 15 enfants de 10 ans à 6 subtests du WISC (scores 0 à 5).
Les variables observées sont : CUB (Cubes de Kohs), PUZ (Assemblage d’objets), CAL (Calcul
mental), MEM (Mémoire immédiate des chiffres), COM (Compréhension de phrases), VOC
(Vocabulaire). Le protocole observé est le suivant : On traite ces données par une analyse
en composantes principales normée. Les principaux résultats de cette ACP sont indiqués ci-
dessous :

— Corrélations

Figure 1 – Corrélations

— Valeurs Propres (matrice de corrél.) & stat. associées


— Variables actives seules
— Saturations, contributions et qualités de représentation des variables
— Représentation des individus dans le premier plan factoriel

2
Figure 2 – Valeurs Propres (matrice de corrél.) & stat. associées

Figure 3 – Variables actives seules

Figure 4 – Variables actives seules (suites)

Figure 5 – Saturations, contributions et qualités de représentation des variables

3
Figure 6 – Représentation des individus dans le premier plan factoriel

1. Etude du tableau des valeurs propres


— A quoi correspond la somme des valeurs propres ?
— On choisit de n’étudier que les deux premières composantes principales. Justifier ce
choix en analysant le tableau des valeurs propres.
2. Etude du tableau des corrélations
— Quels sont les subtests les plus fortement corrélés entre eux ?
— Comment s’organisent les signes "+" et les signes "-" dans le tableau des coefficients
de corrélation. Commenter.
3. Etude des qualités de représentation dans le premier plan principal. Quel est l’individu
le moins bien représenté par le premier plan principal ? Quel est l’individu le mieux
représenté ?
4. Etude du nuage des individus.
— Quels sont les individus dont la contribution à la formation de la première compo-
sante principale. est supérieure à la moyenne ? Pour chacun d’eux, préciser le signe
de la coordonnée correspondante. Caractériser cet axe en termes d’opposition entre
individus.
— Même question pour la deuxième composante principale.
5. Etude du nuage des variables
— La représentation graphique des variables montre qu’elles sont toutes très bien repré-
sentées dans le plan (CP1, CP2). Justifier cette affirmation.
— Quelles sont les variables qui sont corrélées positivement avec le premier facteur
principal ? Quelles sont celles qui sont corrélées négativement ? Comment peut-on
caractériser cet axe par rapport aux variables de départ ?

4
Figure 7 – Représentation des variables dans le premier plan factoriel

— Quelles sont les variables qui ont joué un rôle dominant dans la formation du deuxième
axe.
6. En utilisant les scores centrés-réduits des individus, on a obtenu le graphique suivant :
— Quelle est la méthode dont les résultats sont représentés à l’aide de graphiques de ce
type ?
— L’examen de ce graphique suggère de réaliser une partition des sujets soit en deux
classes, soit en quatre classes. Justifier.
— On retient finalement la partition en 4 classes.
— Décrire en extension chacune des classes de la partition.
— Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de
l’ACP ?
— On sait que la définition d’une hiérarchie de classes, avec l’indice d’agrégation corres-
pondant, permet de définir sur les individus une distance dite ultramétrique. Evaluer
à partir du graphique la distance ultramétrique séparant le sujet I15 et le sujet I6.

Exercice 4
Au cours d’une enquête sur un échantillon de taille 60, on a obtenu le tableau de contingence
suivant :
Réaliser une Analyse Factorielle des correspondances (AFC) sur ces données, en répondant

5
Figure 8 – CAH

Ensemble I (individus) Ensemble J paramètres


1 2
1 10 10
2 5 15
3 15 5

Table 1 – Données sur les universités

aux questions suivantes :

1. Donner le tableau des probabilités conjointes et marginales, associé au tableau précédent.


(Conseil : utiliser des fractions au lieu des nombres décimales !)
2. Dans l’espace R2 , on représente un nuage B(I) des points Mi avec i ∈ I de coordonnées
suivant des axes normalisés.
(a) Donner tous les points Mi du nuage B(I) en explicitant leurs coordonnées.
(b) Calculer la distance χ2 entre les différentes paires des points de nuage B(I).
3. (a) Déterminer la matrice des variances-covariances W du nuage B(I).
(b) Déterminer les valeurs propres de la matrice W.
(c) en déduire la variabilité totale du nuage B(I).
4. On projette, maintenant, le nuage B(I) orthogonalement sur un axe, et on note C(I) le
nuage projeté. Donner la variabilité totale du nuage projeté C(I).
5. Calculer la variablité expliquée par la projection du nuage B(I).

6
Exercice 5
On a relevé sur n = 10 individus deux variables qualitatives, la variable X à 4 modalités
{A; B; C; D} et la variable Y à trois modalités {1; 2; 3}. Les résultats sont regroupés dans la table 2
qui donne sous forme d’une ∗, les modalités relevées sur un individu.

Ind A B C D 1 2 3
1 ∗ ∗
2 ∗ ∗
3 ∗ ∗
4 ∗ ∗
5 ∗ ∗
6 ∗ ∗
7 ∗ ∗
8 ∗ ∗
9 ∗ ∗
10 ∗ ∗

Table 2 – Tableau de présence/absence

1. Donner la table de contingence associée.


2. Quelles sont les deux matrices à diagonaliser lors de l’AFC de cette table.
3. Donner les valeurs propres de l’AFC.
4. Donner les axes principaux de l’ACP des profils-lignes, et ceux de l’ACP des profils-
colonnes
5. Donner les composantes principales des profils-lignes et des profils-colonnes.
6. Faire la représentation simultanée des profils-lignes et des profils-colonnes sur le plan
principal.

Exercice 6

On a relevé sur n = étudiants des universités burkinabès & ivoiriennes en 2017-2018, trois
variables qualitatives :
— le sexe à deux modalités : F et H ;
— le niveau de diplôme à trois modalités : Licence (L), Master (M), Doctorat (D) ;
— la discipline du diplôme à 10 modalités Droit et Sciences Politiques (Dr), Sciences éco-
nomiques et gestion (SEG), Administration économique et sociale (ES), Lettres, Sciences
du langage et arts (AL), Langues (La), Sciences Humaines et Sociales (SHS), Pluridis-
ciplinarité Lettres, Langues et Sciences Humaines (PLLSH), Sciences fondamentales et
Applications (SF), Sciences de la nature et de la vie (SVT), STAPS.
Les deux premières variables ont été regroupées en une variable qualitatives à 6 modalités : Lic.F,
Lic.H, Ma.F, Mas.H, Doc.F, Doc.H. On a une table de contingence à 10 lignes (correspondant aux
10 modalités de la variable X : "Discipline"), et 12 colonnes (correspondant aux 6 modalités de
la variable Y : "Niv&Sexe", plus les effectifs par sexe, plus les effectifs par niveau, plus l’effectif
marginal). On reproduit dans la table 1 la table de contingence de X et Y.
On souhaite étudier sur ces données :

7
Lic.F Lic.H Ma.F Ma.H Doc.F Doc.H Tot
Dr 69373 37317 42371 21693 4029 4342 179125
EG 38387 37157 29466 26929 1983 2552 136474
ES 18574 12388 4183 2884 0 0 38029
AL 48691 17850 17672 5853 4531 2401 96998
La 62736 21291 13186 3874 1839 907 103833
SHS 94346 41050 43016 20447 7787 6972 213618
PLLSH 1779 726 2356 811 13 15 5700
SF 22559 54861 17078 48293 4407 11491 158689
SVT 24318 15004 11090 8457 5641 5232 69742
STAPS 8248 17253 1963 4172 188 328 32152

Table 3 – Données sur les universités

— l’impact du sexe sur la discipline choisie ;


— l’impact de la discipline choisie sur la longueur des études ;
— faire des regroupements de disciplines pour lesquelles le profil des étudiants est iden-
tique ;
— etc. . .

1. Indiquer, en justifiant vos propos, la (les) méthode(s) factorielle(s) que l’on pourrait utiliser
pour traiter les données.
2. Analyser avec soins les résultats obtenus ci-dessous.

Dr EG ES AL La SHS PLLSH SF SVT STAPS


Dim 1 0.30 0.46 0.20 0.91 0.79 0.84 0.04 0.98 0.01 0.21
Dim 2 0.13 0.00 0.80 0.02 0.13 0.15 0.18 0.00 0.41 0.67

Table 4 – Représentations des modalités de la variable Discipline

Lic.F Lic.H Ma.F Ma.H Doc.F Doc.H


Dim 1 0.96 0.55 0.14 0.95 0.01 0.46
Dim 2 0.01 0.39 0.33 0.01 0.49 0.26

Table 5 – Représentations des modalités de la variable Niv&Sexe

Valeur Propre Part d’inertie Part d’inertie cumulée


dim 1 0.12 70.72 70.72
dim 2 0.03 15.51 86.23
dim 3 0.02 10.90 97.13
dim 4 0.00 2.63 99.75
dim 5 0.00 0.25 100.00
dim 6 0.00 0.00 100.00

Table 6 – Valeurs propres et part d’inertie associée

8
Figure 9 – Eboulis des valeurs propres

Figure 10 – AFC sur les données des universités. Plan principal

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy