TD Analyse Données 2022-2023
TD Analyse Données 2022-2023
TD Analyse Données 2022-2023
UFR-ST/LIME LISE3
TD d’Analyse des données
Exercice 1
Exercice 2
On considère le tableau X suivant de type (3, 2) suivant :
2 3
X = 4 5
6 1
Exercice 3
Réaliser l’ACP de la matrice suivante, à partir de sa matrice de dispersion (données centrées
mais non réduites) :
2 2
6 2
X =
6 4
10 4
Exercice 4
1
On a rassemblé les résultats de 15 enfants de 10 ans à 6 subtests du WISC (scores 0 à 5).
Les variables observées sont : CUB (Cubes de Kohs), PUZ (Assemblage d’objets), CAL (Calcul
mental), MEM (Mémoire immédiate des chiffres), COM (Compréhension de phrases), VOC
(Vocabulaire). Le protocole observé est le suivant : On traite ces données par une analyse
en composantes principales normée. Les principaux résultats de cette ACP sont indiqués ci-
dessous :
— Corrélations
Figure 1 – Corrélations
2
Figure 2 – Valeurs Propres (matrice de corrél.) & stat. associées
3
Figure 6 – Représentation des individus dans le premier plan factoriel
4
Figure 7 – Représentation des variables dans le premier plan factoriel
— Quelles sont les variables qui ont joué un rôle dominant dans la formation du deuxième
axe.
6. En utilisant les scores centrés-réduits des individus, on a obtenu le graphique suivant :
— Quelle est la méthode dont les résultats sont représentés à l’aide de graphiques de ce
type ?
— L’examen de ce graphique suggère de réaliser une partition des sujets soit en deux
classes, soit en quatre classes. Justifier.
— On retient finalement la partition en 4 classes.
— Décrire en extension chacune des classes de la partition.
— Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de
l’ACP ?
— On sait que la définition d’une hiérarchie de classes, avec l’indice d’agrégation corres-
pondant, permet de définir sur les individus une distance dite ultramétrique. Evaluer
à partir du graphique la distance ultramétrique séparant le sujet I15 et le sujet I6.
Exercice 4
Au cours d’une enquête sur un échantillon de taille 60, on a obtenu le tableau de contingence
suivant :
Réaliser une Analyse Factorielle des correspondances (AFC) sur ces données, en répondant
5
Figure 8 – CAH
6
Exercice 5
On a relevé sur n = 10 individus deux variables qualitatives, la variable X à 4 modalités
{A; B; C; D} et la variable Y à trois modalités {1; 2; 3}. Les résultats sont regroupés dans la table 2
qui donne sous forme d’une ∗, les modalités relevées sur un individu.
Ind A B C D 1 2 3
1 ∗ ∗
2 ∗ ∗
3 ∗ ∗
4 ∗ ∗
5 ∗ ∗
6 ∗ ∗
7 ∗ ∗
8 ∗ ∗
9 ∗ ∗
10 ∗ ∗
Exercice 6
On a relevé sur n = étudiants des universités burkinabès & ivoiriennes en 2017-2018, trois
variables qualitatives :
— le sexe à deux modalités : F et H ;
— le niveau de diplôme à trois modalités : Licence (L), Master (M), Doctorat (D) ;
— la discipline du diplôme à 10 modalités Droit et Sciences Politiques (Dr), Sciences éco-
nomiques et gestion (SEG), Administration économique et sociale (ES), Lettres, Sciences
du langage et arts (AL), Langues (La), Sciences Humaines et Sociales (SHS), Pluridis-
ciplinarité Lettres, Langues et Sciences Humaines (PLLSH), Sciences fondamentales et
Applications (SF), Sciences de la nature et de la vie (SVT), STAPS.
Les deux premières variables ont été regroupées en une variable qualitatives à 6 modalités : Lic.F,
Lic.H, Ma.F, Mas.H, Doc.F, Doc.H. On a une table de contingence à 10 lignes (correspondant aux
10 modalités de la variable X : "Discipline"), et 12 colonnes (correspondant aux 6 modalités de
la variable Y : "Niv&Sexe", plus les effectifs par sexe, plus les effectifs par niveau, plus l’effectif
marginal). On reproduit dans la table 1 la table de contingence de X et Y.
On souhaite étudier sur ces données :
7
Lic.F Lic.H Ma.F Ma.H Doc.F Doc.H Tot
Dr 69373 37317 42371 21693 4029 4342 179125
EG 38387 37157 29466 26929 1983 2552 136474
ES 18574 12388 4183 2884 0 0 38029
AL 48691 17850 17672 5853 4531 2401 96998
La 62736 21291 13186 3874 1839 907 103833
SHS 94346 41050 43016 20447 7787 6972 213618
PLLSH 1779 726 2356 811 13 15 5700
SF 22559 54861 17078 48293 4407 11491 158689
SVT 24318 15004 11090 8457 5641 5232 69742
STAPS 8248 17253 1963 4172 188 328 32152
1. Indiquer, en justifiant vos propos, la (les) méthode(s) factorielle(s) que l’on pourrait utiliser
pour traiter les données.
2. Analyser avec soins les résultats obtenus ci-dessous.
8
Figure 9 – Eboulis des valeurs propres