EstadisiticaDescriptivaMultivariada PDF
EstadisiticaDescriptivaMultivariada PDF
EstadisiticaDescriptivaMultivariada PDF
descriptiva
multivariada
Campo Elías Pardo
Facultad de Ciencias
Sede Bogotá
Estadística
descriptiva
multivariada
Estadística
descriptiva
multivariada
Campo Elías Pardo
Prefacio
Lista de figuras xi
Lista de tablas xv
Introducción xvii
Capítulo uno
Preliminares 1
1.1. Introducción a los métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. El lenguaje estadístico R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1. Obtención e instalación de R . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2. Instalación de paquetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3. RStudio, Sweave y Markdown . . . . . . . . . . . . . . . . . . . . . . 9
1.3. El programa DtmVic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4. Editor para gráficas obtenidas con R . . . . . . . . . . . . . . . . . . . . . . 9
1.5. Conceptos de álgebra lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6. Entorno de una tabla de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7. Preparación de los datos para el análisis . . . . . . . . . . . . . . . . . . . 11
1.7.1. Transformación de variables cualitativas . . . . . . . . . . . . . . 13
1.7.2. Codificación en clases de variables continuas . . . . . . . . . . . 15
1.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Capítulo dos
Descripción de dos variables 19
2.1. Descripción de parejas de variables continuas . . . . . . . . . . . . . . 21
2.2. Descripción de una variable continua y una cualitativa . . . . . . . 23
2.2.1. Razón de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2. Ordenamiento por valores test para describir una
variable cualitativa según varias variables continuas . . . . . 24
2.3. Descripción de dos variables cualitativas . . . . . . . . . . . . . . . . . . 27
2.3.1. Dos medidas de asociación entre variables cualitativas . . . 29
2.3.2. Ordenamiento por valores test para describir una
variable cualitativa según las categorías de varias
variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
vi · Contenido
2.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5. Taller: caracterización de la función de razas de perros . . . . . . 36
Capítulo tres
Análisis en componentes principales 39
3.1. Ejemplo “Café” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2. Nube de individuos Nn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.1. Centro de gravedad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2. Centrado de la nube de individuos . . . . . . . . . . . . . . . . . . . 44
3.2.3. Distancia entre individuos . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.4. Inercia de la nube de individuos Nn . . . . . . . . . . . . . . . . . . 48
3.2.5. Reducción de la nube de puntos . . . . . . . . . . . . . . . . . . . . . 49
3.2.6. Búsqueda de nuevos ejes: cambio de base . . . . . . . . . . . . . 51
3.2.7. Gráficas y ayudas para su interpretación . . . . . . . . . . . . . . 56
3.2.8. Individuos ilustrativos o suplementarios . . . . . . . . . . . . . . 59
3.2.9. Variables cualitativas ilustrativas . . . . . . . . . . . . . . . . . . . . . 59
3.3. La nube de variables Np . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.1. Significado de la media y del centrado en Rn . . . . . . . . . . 60
3.3.2. Significado de las varianzas y covarianzas . . . . . . . . . . . . . 62
3.3.3. Significado del reducido de una variable en Rn . . . . . . . . . 63
3.3.4. Significado de la correlación entre dos variables . . . . . . . . 64
3.3.5. Inercia en el espacio de las variables . . . . . . . . . . . . . . . . . . 64
3.3.6. Búsqueda de los nuevos ejes . . . . . . . . . . . . . . . . . . . . . . . . 64
3.3.7. Círculo de correlaciones y ayudas a la interpretación . . . . 66
3.4. Relación entre los espacios de individuos y variables . . . . . . . . 66
3.4.1. Variables continuas como ilustrativas . . . . . . . . . . . . . . . . . 68
3.5. acp con los paquetes ade4 y FactoClass . . . . . . . . . . . . . . . . . . . . . 69
3.6. Ejemplo de aplicación de ACP: resultados del examen de
admisión a las carreras de la Facultad de Ciencias . . . . . . . . . . . 71
3.6.1. Objetivos del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.6.2. Resultados de análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.6.3. Conclusiones del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.8. Talleres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.8.1. Análisis en componentes principales gráfico . . . . . . . . . . . 81
3.8.2. ACP de “Whisky” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.8.3. ACP “Lactantes” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Contenido · vii
Capítulo cuatro
Análisis en componentes principales generalizado 87
4.1. Análisis en Rp : espacio de las filas . . . . . . . . . . . . . . . . . . . . . . . . 90
4.1.1. Coordenadas y pesos de filas . . . . . . . . . . . . . . . . . . . . . . . . 90
4.1.2. Distancias entre filas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.1.3. Inercia de la nube Nn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.1.4. Descomposición de la inercia en ejes principales . . . . . . . 91
4.1.5. Coordenadas sobre un eje factorial s . . . . . . . . . . . . . . . . . . 91
4.2. Análisis en Rn : espacio de las columnas . . . . . . . . . . . . . . . . . . . 92
4.2.1. Coordenadas y pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.2.2. Distancias entre columnas . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.2.3. Inercia de la nube Np . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.2.4. Descomposición de la inercia en ejes principales . . . . . . . 92
4.3. Dualidad entre los espacios de filas y columnas . . . . . . . . . . . . . 93
4.3.1. Fórmula de reconstitución de los datos . . . . . . . . . . . . . . . 93
4.3.2. Fórmulas del ACP generalizado . . . . . . . . . . . . . . . . . . . . . . 94
4.3.3. Diagrama de dualidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.4. Ayudas para la interpretación de las gráficas . . . . . . . . . . . . . . . . 95
4.4.1. Calidad de la representación o coseno cuadrado . . . . . . . . 98
4.4.2. Contribución absoluta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.4.3. Calidad de la representación sobre un subespacio . . . . . . . 98
4.5. Elementos suplementarios o ilustrativos . . . . . . . . . . . . . . . . . . . 99
4.6. Imagen euclidiana de matrices de varianzas-covarianzas y
correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.7. Análisis en coordenadas principales . . . . . . . . . . . . . . . . . . . . . . 100
4.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.9. Talleres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.9.1. Imagen euclidiana de matrices de varianzas y de
correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.9.2. Análisis en coordenadas principales . . . . . . . . . . . . . . . . . . 104
Capítulo cinco
Análisis de correspondencias simples 107
5.1. Pequeño ejemplo y notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.1.1. Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.1.2. Tabla de frecuencias relativas . . . . . . . . . . . . . . . . . . . . . . . 109
5.1.3. Tabla de perfiles fila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.1.4. Tabla de perfiles columna . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.1.5. El modelo de independencia . . . . . . . . . . . . . . . . . . . . . . . . 113
5.2. El ACS como dos ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
viii · Contenido
Capítulo seis
Análisis de correspondencias múltiples 139
6.1. Ejemplo: ACM de admitidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.2. Transformaciones de la tabla de datos . . . . . . . . . . . . . . . . . . . . 142
6.2.1. Tabla de código condensado . . . . . . . . . . . . . . . . . . . . . . . . 142
6.2.2. Tabla disyuntiva completa . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.2.3. Tabla de Burt o de contingencias múltiples . . . . . . . . . . . . 144
6.3. El ACM como un ACS de la TDC . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.3.1. Nube de individuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.3.2. Nube de categorías . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
6.3.3. El ACM como un ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
6.3.4. Relaciones cuasibaricéntricas . . . . . . . . . . . . . . . . . . . . . . . 158
6.3.5. Ayudas para la interpretación . . . . . . . . . . . . . . . . . . . . . . . 161
6.3.6. Elementos suplementarios . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.3.7. Retorno a los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
6.4. ac derivados de la misma tabla . . . . . . . . . . . . . . . . . . . . . . . . . . 167
6.4.1. AC de la tabla de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
6.4.2. ACS y ACM de dos variables . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.4.3. El criterio de Benzécri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.5. Aplicación: ACM de consumo cultural . . . . . . . . . . . . . . . . . . . . . 169
6.5.1. Objetivos del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.5.2. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Contenido · ix
Capítulo siete
Métodos de clasificación 185
7.1. Obtener una partición directa . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7.1.1. Descomposición de la inercia . . . . . . . . . . . . . . . . . . . . . . . 188
7.1.2. K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.2. Métodos de clasificación jerárquica . . . . . . . . . . . . . . . . . . . . . . . 194
7.2.1. Índices de similitud, disimilitud y distancias . . . . . . . . . . . 195
7.2.2. Índices de similitud para tablas binarias . . . . . . . . . . . . . . . 196
7.2.3. Distancias para variables de intervalo . . . . . . . . . . . . . . . . . 198
7.2.4. Criterios de agregación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
7.2.5. Ejemplo “de juguete” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
7.2.6. Ultramétrica asociada a un árbol . . . . . . . . . . . . . . . . . . . . . 201
7.2.7. Método de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
7.3. Combinación de métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
7.4. Clasificación a partir de coordenadas . . . . . . . . . . . . . . . . . . . . . 209
7.4.1. Función de transformación o cuantificación . . . . . . . . . . . 209
7.4.2. Función de filtro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
7.5. Caracterización automática de las clases . . . . . . . . . . . . . . . . . . . 211
7.5.1. Descripción con variables continuas . . . . . . . . . . . . . . . . . . 211
7.5.2. Descripción con variables cualitativas . . . . . . . . . . . . . . . . . 211
7.6. Una estrategia de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.7. Ejemplo de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
7.9. Talleres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
7.9.1. Clasificación de razas de perros . . . . . . . . . . . . . . . . . . . . . . 221
7.9.2. Clasificación de las localidades de Bogotá . . . . . . . . . . . . . 221
7.9.3. Clasificación de adjetivos por colores . . . . . . . . . . . . . . . . . 223
Apéndice A
La libreria FactoClass en R 225
Referencias 229
x · Contenido
Índice 233
Lista de figuras
Los objetivos de este texto son servir: de guía para el curso de Estadísti-
ca Descriptiva Multivariada de la Carrera de Estadística de la Universidad
Nacional de Colombia, como referencia para los cursos de análisis de da-
tos multivariados en pregrados y posgrados en Estadística y como libro de
consulta para los profesionales de distintas áreas interesados en abordar la
descripción y exploración de tablas de datos presentes en sus investigaciones
y ejercicio profesional.
El objeto de entrada a los métodos estadísticos que se abordan en es-
te texto es una tabla de datos que refleja parcialmente una realidad que se
quiere estudiar. Algunas veces los datos son el resultado de un proceso me-
todológico largo y costoso: concepción de una investigación, definición de
variables, diseño de los instrumentos de medición, captura y depuración
de los datos, entre otros. Las investigaciones basadas en encuestas son un
ejemplo. Otras veces los datos provienen de sistemas de información admi-
nistrativos o de transacciones (bancarias, de servicios públicos, de grandes
superficies de ventas al público, etc.); pero la tabla objeto análisis depen-
de de un proceso metodológico de selección, depuración, concatenación y
transformación, y casi siempre, de búsqueda de nuevos datos.
Una tabla de datos básica es un archivo que tiene en filas las unidades
estadísticas, que denominaremos “individuos”, y en columnas las variables,
en general de diferentes escalas de medición: nominal, ordinal, de intervalo,
y de razón. Los tipos de variables que se originan con estas escalas se agru-
pan, para este documento, en dos conjuntos: cualitativas (de escala nominal
u ordinal) y continuas (de intervalo o de razón).
Nos situamos en el caso en que algunos de los objetivos del estudio se
cumplen realizando análisis descriptivos y exploratorios multivariados de la
tabla de datos, que utilizan representaciones gráficas de comprensión más
fácil para el cerebro humano. Las descripciones univariadas dependen de
las escalas de medición de las variables y ayudan a completar la depuración
de los datos, orientar las transformaciones de algunas variables y a tomar
decisiones sobre la imputación o no de datos faltantes.
xviii · Introducción
paquetes: ade4 (Dray y Dufour, 2007), utilizado para realizar los cálculos
de los métodos estudiados; scatterplot3d (Ligges y Mächler, 2003), para
construir gráficas 3D, y xtable (Dahl, 2016), para exportar tablas a LATEX en
el entorno tabular. Estas notas están editadas en LATEX (The-LaTeX-Project-
Team, 2019). A partir de la versión 1.2.1 de FactoClass se cargan, también,
los paquetes ggplot2 (Wickham, 2009) y ggrepel (Slowikowski, 2020) para
obtener planos factoriales en los que las etiquetas no se sobrepongan.
Para la edición de las gráficas se utiliza el programa de uso libre xfig (Sato
y Smith, 2018) ya que R permite exportar a ese formato y a su vez xfig ex-
porta a los formatos de gráficas más conocidos. Con xfig se editan los pla-
nos factoriales, para destapar etiquetas que quedan superpuestas y agregar
otras o modificar otros elementos de las gráficas. Como complemento y
referencia para la ejecución de los métodos se utiliza el programa DtmVic
(Lebart, 2017) de uso libre académico.
En el curso de Estadística Descriptiva Multivariada, de dieciséis semanas,
se sugiere abordar cada uno de los siete capítulos en dos semanas y dejar dos
semanas para las presentaciones de los trabajos del curso.
Capítulo
uno
Preliminares
Preliminares · 3
1 2 j p
1
2
p
i Vector fila i en R
n
Vector columna j en Rn
Eje1
b
f
c
e
g
j
Proyección de vectores fila en R2 Árbol de clasificación jerárquica
Variables
continuas
Individuos Alasisis en
componentes Plano factorial variables
principales
ACP
Categorias
columna Plano factorial individuos
Categorias Alasisis de
fila correspondencias
simples
ACS
Representacion simultanea
Variables categorias fila y columna
cualitativas
Alasisis de
correspondencias
Individuos multiples
ACM
Representacion simultanea
categorias e individuos
procedimiento que se siguió para llegar a los datos allí guardados. La infor-
mación sobre los datos (metadatos) puede estar, una parte, en la misma base
de datos y otra, en documentos anexos.
De los objetivos de un estudio se derivan los objetivos de análisis, y para
cumplirlos se obtienen una o más tablas de datos, que luego se describen
con uno o más métodos de los abordados en este texto. Las decisiones que
hay que tomar, en el sentido de las técnicas estadísticas a usar y sus aspectos
internos, dependen del conocimiento de estas y del contexto en el que se
enmarca la tabla de datos.
Esto forma parte de la metodología de la investigación, que tiene que
abordar todo profesional, pero que para el estadístico es central, porque
los métodos de análisis de datos en general forman también parte de esta
metodología.
Las competencias en metodología de la investigación solo se mejoran en
la práctica. Sin embargo, en la literatura existen muchos textos guía para ir
mejorando esas competencias; por ejemplo, el de Hernández et al. (2006) o
el de Briones (1996), disponible en la web. En este curso se hace un trabajo
con el propósito de mejorar las competencias tanto en metodología como
en el uso apropiado de los métodos básicos de la estadística descriptiva
multivariada.
específico que se desea realizar. Como ejemplo para esta y otras secciones
del texto se utiliza parte de una consulta del Sistema de Información
Académico de la Universidad Nacional de Colombia (SIA), con los admitidos
a las carreras de la Facultad de Ciencias, para el primer semestre de 2013.
siLE 10.3
noLE 89.7
Otro 21.6
Cund 8.5 noMa 29.2
Código R para obtener la figura 1.4, que incluye los diagramas de caja y
bigotes de edad y de puntaje total del examen
par ( mfrow = c (3 ,3) , mai =c (0.3 ,0.4 ,0.3 ,0.1) , las =1);
for ( i in c (2:6)) hist ( admi [,i], main = names ( admi )[ i],
xlim = c (8 ,18) , ylim =c (0 ,200));
for ( i in c (7 ,15)) hist ( admi [,i], main = names ( admi )[ i ]);
boxplot ( admi $ age , main =" age " );
boxplot ( admi $ exam , main =" exam " );
Frequency
Frequency
50 50 50
0 0 0
8 10 12 14 16 18 8 10 12 14 16 18 8 10 12 14 16 18
text i]
admi[, imagi]
admi[, exami]
admi[,
200 200 120
100
150 150
Frequency
Frequency
Frequency
80
100 100 60
40
50 50
20
0 0 0
age i]
admi[, age i]
admi[, exami]
admi[,
400 45
1100
40
300 1000
35
Frequency
900
200 30 800
25 700
100
20 600
0 15 500
15 20 25 30 35 40 45
2. La frecuencia de las clases debe ser similar porque así se pierde menos
información.
1.8. Ejercicios
1. Realice a mano y verifique con R los ejercicios 1, 2, 4, 5, 6, 7, 12 y
13, del capítulo 2 de Morrison (1990).
3.1. help.start() #
3.2. sink("record.lis") #
3.3. misdatos <-read.table('data.dat') #
3.4. L2 <- list(A=x, B=y) #
3.5. ts(1:47, frequency = 12, start = c(1959, 2)) #
3.6. exp1 <- expression(x /(y + exp(z))) #
3.7. x <- rpois(40, lambda=5) #
3.8. x[x % %2 == 0] #
3.9. x <- rnorm(50) #
3.10. mean(x) #
4.1. 0/0
4.2. labs <- paste(c('X','Y'), 1:10, sep='');labs
4.3. c("x","y")[rep(c(1,2,2,1), times=4)]
4.4. ls()
4.5. apropos("eigen")
4.6. x <- 1; mode(x)
4.7. seq(1, 5, 0.5)
4.8. gl(3, 5)
4.9. expand.grid(a=c(60,80), p=c(100, 300),
sexo=c("Macho", "Hembra"))->trat
dim(trat);class(trat)
4.10. v <- c(10, 20, 30);diag(v)
Capítulo
dos
Descripción de
dos variables
Descripción de dos variables · 21
0.4 16 15 16 14
0.3 14 13 14
12
y
0.2 12
Y
12 11
0.1 10 10
10 9
0.0 8 8
10 14 18 10 14 18 10 14 18 10 14 18 10 14 18
mate X X X X
18 ●
0.4 15 16 14
16 ● ● ● ● ● ● ●
0.3 13 14
● ● ● ● ●
12
y
14 ● ● ● ● ● ● ● ● ●
0.2 12
Y
Y
● ● ● ● ● ● ● ●
● ● ● ● ● ●
12 ●
●
● ● ●
● ●
● ●
● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ●
●
●
●
● ● 11 10
●
●
● ● ●
● ●
● ● ●
● ●
● ●
● ●
● ● ●
● ●
● ●
● ●
●
● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ●
● ●
●
●
●
● 0.1 10
10 ● ● ●
● ●
● ●
● ● ● ● ● ●
● ● ● ● ●
●
● ●
●
0.0 9 8 8
10 12 14 16 10 12 14 16 10 12 14 16 10 12 14 16 10 12 14 16
X cien X X X
18 ●
16
●
0.5 16
16 ● ● ●
●
●
●
0.4 14
● ● ● ●
14 ● ● 14
● ● ● ● ● ● ● ●
0.3 12
y
14 ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
12
Y
Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
12
● ●
● ● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● 12 ● ●
●
● ● ● ●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.2 10
●
●
●
●
●
●
● ●
● ● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ● ● ● ●
● ● ● ● ●
●
● ● ● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.1 10
10 ●
●
●
● ●
● ● ●
● ● ● ● ● ●
●
●
●
●
●
● ●
10 ●
● ● ● ● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
0.0 8 8
9 11 13 15 9 11 13 15 9 11 13 15 9 11 13 15 9 11 13 15
X X soci X X
18 ● ● 15 ●
0.5
16
16 ● ●
● ●
● ● ● ●
●
●
●
● ● 0.4 14
●● ● ● ●
14 ● ● 13 ● ● ● ● ● ● ● ●
0.3
● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●
12
y
14 ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●
Y
Y
●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●
● ●●● ● ● ● ●
12
●
●●● ● ● ● ●
● ●● ● ● ●
●●● ● ● ● ●
●
●
●
●
●
●
●
● ● 12
●●● ● ● ●
●●● ● ●
●●● ●
● ● ● ●
● ● ● ●
● ● ● ●
●
●
●
●
●
●
●
11
●●● ● ● ●
●● ● ● ●
●
●
●
●
●
●
●
●
●
●
● ●
0.2
●
●
●
●●
●
●● ● ● ● ● ● ●
●●●●
●●●●●●● ● ●
● ●
●● ● ● ● ● ● ●
● ●●● ● ● ● ●
●● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●
●●● ● ● ●
●● ● ● ●
●● ● ● ●
●● ●● ●
● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ●
●
●
●
●
●
●
●
●
● ●
●●● ● ● ●
●●● ● ● ●
●● ● ● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
0.1 10
10 ● ●
●
●● ● ●
●●● ● ● ● ● ●
●
●●
●
● 10 ●● ●● ●
●
● ● ●
●
● ● ● ●
● ●
● ●
●
9
●
●
●●
●
● ●●
●
● ●
● ●
0.0 8
8 10 12 14 16 8 10 12 14 16 8 10 12 14 16 8 10 12 14 16 8 10 12 14 16
X X X text X
18 ● ● 15 ●
16
●
0.4
16 ● ● ● ●
16 ● ● ● ● ●
14
● ●
●
● ●
● 13 ● ●
●
● ●
●
● ●
●
●
●
● ● 14 ● ●
●
●
● ●
● ● ● ● ●
●
0.3
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
y
14 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
12
● ●
● ● ●
●
●
●
●
● ● ●
● ● ●
●
●
●
● ●
0.2
Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
12
●
●
●
●
● ●
● ● ● ●
● ● ● ●
● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● 12 ●
●
● ● ●
● ●
● ● ●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● 11 ●
● ● ● ● ●
● ● ● ●
● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
● ● ● ● ● ●
●
● ●
● ● ● ● ●
● ●
● ●
●
●
●
●
●
● ● ●
● ● ●
● ● ●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ● ● ●
● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ● ●
●
●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ● ● ● ●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
10 ●
●
●
● ● ●
● ● ●
● ●
●
●
●
● ● ●
●
● ●
●
● ●
●
●
●
●
●
●
●
● ●
●
● 0.1
10 ●
● ● ●
●
● ● ● ●
● ● ● ● ●
● ●
●
●
● ●
●
●
10 ●
● ● ●
● ● ●
● ●
●
●
● ● ● ● ● ●
9
●
● ● ● ●
● ● ●
●
●
●
● ● ●
●
●
0.0
● ● ● ● ● ● ● ● ●
8 ●
9 11 13 9 11 13 9 11 13 9 11 13 8 10 12 14
X X X X imag
plotpairs(admi[,2:6],col=gray.colors(10,0.8,0.4,2.2));
Matriz de correlaciones
mate cien soci text imag
mate 1.00 0.34 0.24 0.24 0.21
cien 0.34 1.00 0.16 0.20 0.12
soci 0.24 0.16 1.00 0.37 0.11
text 0.24 0.20 0.37 1.00 0.05
imag 0.21 0.12 0.11 0.05 1.00
R<-cor(admi[,2:6]);
xtable(R,digits=rep(2,6));
1100
1000
900
800
700
600
500
Figura 2.2. Distribuciones del puntaje del examen obtenido por los admi-
tidos según carreras
24 · Descripción de dos variables
1 Í
donde X k = Xi , es decir, el promedio de los individuos que pertene-
nk i ∈Ik
cen a la clase k, y X es el promedio de los n individuos, Ik es el conjunto de
individuos que pertenecen a la clase k y nk el número de ellos.
A continuación se calculan las razones de correlación entre las notas de
los exámenes y carrera, utilizando la función centroids{FactoClass}. Los
resultados se expresan en porcentaje:
xtable(centroids(admi[,2:7],
admi$carr)$cr*100,digits = rep(2,7));
mate cien soci text imag exam
15.86 4.31 3.22 2.34 4.42 11.87
xk
Valores test más grandes que 2 indican que la clase k se caracteriza por
tener una media superior a la media global; los inferiores a -2, por tener
una media inferior a la global.
Como ejemplo, se calcula el valor test para el puntaje total del examen
en la Carrera de Estadística: n = 445, nesta = 66, x̄esta = 680.2, µ = 718.4,
σ 2 = 8039, entonces:
r
444 ∗ 66 680.2 − 718.4
testa = √ = −3.746
445 − 66 8039
26 · Descripción de dos variables
Tabla 2.1. Caracterización de las carreras según los resultados por áreas y
global del examen de admisión
marg
alto
medio
bajo
n j · n ·k
bajo el supuesto de independencia, de término general , es inferior a
n
5 (Agresti, 2002, p. 78). Aquí se utiliza como índice descriptivo.
Se calcula además su valor p, que es igual a P( χ 2 ≥ χc2 ), donde χc2 es el
valor calculado en la tabla de contingencia. Al valor p se le asocia el cuantil
de la normal estándar, denominado valor test:
χ2
φ2 = (2.4)
n
valor p nk j nj
P(Z > t) = 2 ) si
>
valor test = t tal que
nk n (2.5)
P(Z 6 t) = valor p
2 ) en otro caso.
Descripción de dos variables · 33
desCarrSocio<-cluster.carac(admi[,8:13],admi[,1])
xtable(list.to.data(desCarrSocio),digits=c(0,0,3,3,1,1,1,0))
Descripción de dos variables · 35
Tabla de contingencia
niMa Biol Esta Farm Fisi Geol Mate Quim marR
siMa 55 53 66 45 24 23 49 315
noMa 8 13 7 37 21 30 14 130
marC 63 66 73 82 45 53 63 445
Perfiles fila
siMa 17.5 16.8 21.0 14.3 7.6 7.3 15.6 100
noMa 6.2 10.0 5.4 28.5 16.2 23.1 10.8 100
Perfiles columna
siMa 87.3 80.3 90.4 54.9 53.3 43.4 77.8
noMa 12.7 19.7 9.6 45.1 46.7 56.6 22.2
100 100 100 100 100 100 100
0.4
0.3
0.2
0.1
Area Area
0.00043 0.00043
0.0
−3.332 3.332
−4 −2 0 2 4
Figura 2.7. Ilustración de la obtención del valor test a partir de una proba-
bilidad (área de las dos colas bajo la curva normal estándar)
2.4. Ejercicios
1. Deduzca la razón de correlación (2.1).
3. Use (2.2) para verificar el valor test de imag para Mate en la tabla 2.1.
6. Obtenga todos los valores de la fila estr.alto para Geol en la tabla 2.5.
Variables Categorías
Tamaño Pequeño Medio Grande
Peso Liviano Medio Pesado
Velocidad Baja Media Alta
Inteligencia Pequeña Media Grande
Afectividad Pequeña Grande
Agresividad Pequeña Grande
Función Compañía Caza Utilidad
Preguntas
Complete
1. Comparar los individuos entre si. Las gráficas que se obtienen per-
miten observar la forma de la “nube de individuos”, lo que a su vez
permite detectar patrones en ellos.
Código cargar los datos y construir la gráfica 3D con los cafés e imprimir la
matriz Y (figura 3.1).
library ( FactoClass ); data ( cafe ); Y <- cafe [1:10 ,1:3];
par ( las =1); # grafica ;
Y3D <- scatterplot3d (Y , main ="Y" , type ="h " , color =" black " , box = FALSE ,
las =1);
Y3D $ points3d (Y , pch =1);
addgrids3d (Y , grid = c(" xy " ," xz " ," yz " ));
cord2d <- Y3D $ xyz . convert (Y) # convertir cordenadas 3D a 2D;
# poner etiquetas ;
text ( cord2d , labels = rownames (Y), cex =0.8 , col =" black " , pos =3);
xtable (Y , digits =c (0 ,0 ,1 ,0)) # para tabular de LaTeX ;
La matriz Y contiene los datos “activos” del ejemplo. Las 10 filas (n = 10)
de Y se representan como puntos en R3 (p = 3), imagen que se denomina
nube de individuos (figura 3.1).
Las columnas de Y representan a las variables. Cada una se puede ver
como un vector en R10 . Esta geometría es abstracta, pero tiene las mismas
propiedades de la geometría en 3D (R3 ). Los tres vectores (color, DA y EA)
constituyen la nube de variables.
C40M
O40M
O40C C40C
C20M
45
g
DA
500
O20M 480
40 O20C
460
C20C 440
EA
35
420
ExCl 400
30 ExOs 380
360
25 340
150 200 250 300 350 400
Color
Matriz Y
Cafe Color DA EA
ExCl 298 385.1 25
C40M 361 481.3 41
C40C 321 422.6 40
C20M 335 444.3 33
C20C 314 368.7 32
ExOs 186 346.6 28
O40M 278 422.6 43
O40C 238 403.0 42
O20M 226 368.7 36
O20C 210 368.7 35
1
Cuando los individuos tienen el mismo peso , el centro de gravedad es
n
la suma de los n vectores individuo, notados yi , multiplicada por el escalar
1/n:
n n
Õ 1Õ
g= pi yi = yi (3.1)
n
i=1 i=1
yC i = yi − g (3.2)
YC = Y − 1 n g 0 (3.3)
y1
y1 −g
y2 −g
y2
g
y3 −g
y3
Figura 3.2. Centrado de los individuos en ACP: para representar los puntos
yi − g, el cero del sistema de coordenadas se traslada a g
Los valores para el café típico son 276.70, 401.16 y 35.50, res-
pectivamente. Esas son las coordenadas del centro de gravedad en la
representación sin centrar. Esta información hay que guardarla porque al
centrar los datos se pierde.
Yc
C40M
O40M
O40C C40C
10 C20M
0
5 O20M
O20C
DA
100
C20C 80
0
60
EA
ExCl 40
−5 ExOs
20
0
−10 −20
−40
−15 −60
−100 −50 0 50 100
Color
Cafe Color DA EA
ExCl 21.3 -16.1 -10.5
C40M 84.3 80.1 5.5
C40C 44.3 21.4 4.5
C20M 58.3 43.1 -2.5
C20C 37.3 -32.5 -3.5
ExOs -90.7 -54.6 -7.5
O40M 1.3 21.4 7.5
O40C -38.7 1.8 6.5
O20M -50.7 -32.5 0.5
O20C -66.7 -32.5 -0.5
yC1
d(yC1 ,yC2 )
yC2
d(yC1 ,yC3 )
g
d(yC2 ,yC3 )
yC3
round(as.dist(dist(Y)),0)
X = YC D−1
σ (3.7)
donde Dσ = di ag(σj ).
El valor que un individuo asume para una variable es la diferencia con
respecto al promedio, pero medida en el número de desviaciones estándar.
Al reducir los datos, la información de las varianzas de las variables se
pierde en las gráficas, pero los programas que realizan ACP los reportan en
sus salidas. En el ejemplo “Café”: σcolor = 55.7, σDA = 39.5 y σEA = 5.8.
Es claro que los datos iniciales se pueden recuperar a partir de los datos
centrados y reducidos (estandarizados), si disponemos de los valores de las
medias y varianzas (o desviaciones estándar).
El análisis en componentes principales que se realiza casi todas las ve-
ces se denomina normado y se hace con la matriz X, que contiene los datos
estandarizados, es decir, centrados y reducidos.
En la figura 3.5 se muestra la gráfica 3D para el ejemplo “Café”, junto con
los valores de X, y en la tabla 3.2 aparecen las distancias entre cafés. Nótese
que se conserva un orden similar al de los datos sin reducir. Por ejemplo, los
cafés más cercanos siguen siendo O20C y O20M, con una distancia de 0.3; y
los más alejados, ExOs y CM40, con una distancia de 4.9.
La matriz de correlaciones de las variables iniciales, registradas en la tabla
Y, es la matriz de varianzas y covarianzas de X:
1 0
VX = XX
n
Para el ejemplo, la matriz de correlaciones se puede ver en la figura 3.12,
abajo a la izquierda.
50 · Análisis en componentes principales
C40M
O40M
O40C
C40C
1.5
1.0
0 C20M
0.5 O20M
O20C
0.0
C20C
DA
EA
2.5
−0.5 2.0
1.5
1.0
−1.0 ExOs 0.5
ExCl
0.0
−1.5 −0.5
−1.0
−2.0 −1.5
−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0
Color
Tabla 3.2. Distancias entre cafés cuando los datos están estandarizados
(centrados y reducidos)
X<-scale(Y); round(as.dist(dist(X)),1)
1 0 2
y la contribución a la inercia del individuo i sobre el eje u es
(x u) .
n i
La inercia total de la nube de individuos, proyectada sobre el eje u es
entonces:
n
Õ 1 0 2 1 1
(xi u) = (Xu)0Xu = u0 X 0Xu (3.8)
n n n
i=1
xi
x’u
i
1
u0 X 0Xu = λ u0u = λ
n
y entonces las soluciones son los dos vectores propios unitarios asociados
1
al valor propio mayor de X 0X. El primer valor propio se denota λ 1 y el
n
vector propio unitario asociado que se escoja se nombra u1 . El vector −u1
también es solución y las coordenadas sobre la recta generada por este vector
son de signo contrario a las que se obtienen sobre u1 .
Las coordenadas de los individuos sobre el eje generado por u1 , deno-
minado primer eje principal, se denotan por F1 y son: F1 = Xu1
Para obtener el mejor plano de proyección de la nube de puntos se bus-
ca un segundo eje generado por un vector unitario u ortogonal a u1 y que
1
maximice la inercia (3.8). El problema ahora es maximizar u0 X 0Xu su-
n
jeto a las restricciones u0u = 1 y u0u1 = 0. Entonces se introducen dos
multiplicadores de Lagrange y la función a maximizar es:
1
f (u) = u0 X 0Xu − λ (u0u − 1) − µ(u0u1 )
n
que tiene como primera derivada:
1
f 0(u) = 2 X 0Xu − 2λ u − µu1 (3.11)
n
54 · Análisis en componentes principales
Tabla 3.3. Obtención de los valores y vectores propios del ACP del ejemplo
“Cafe”
des <- eigen (V ); des # calculo de valores y vectores propios
lambda <- des $ values
U <- des $ vectors # matriz con vectores propios en columnas
rownames (U) <- rownames (V)
colnames (U) <-c(" Eje1 " ," Eje2 " ," Eje3 " ); round (U ,3)
lambda ; U
# # [1] 2.0670307 0.8216466 0.1113227
## Eje1 Eje2 Eje3
# # Color 0.5794934 -0.57140813 0.5811025
# # DA 0.6728898 -0.06680772 -0.7367197
# # EA 0.4597898 0.81794222 0.3457801
! ! !
Ycolor − Y color YDA − Y DA YEA − Y EA
F1 = 0.58 + 0.67 + 0.46
σcolor σDA σEA
Color − 276.7 DA − 401.2 EA − 35.5
F1 = 0.58 + 0.67 + 0.46
55.7 39.5 5.8
Para el café excelso claro (ExCl 298 385.1 25) el valor es:
F1 (ExCl) = 0.0104 ∗ 298 + 0.0170 ∗ 385.1 + 0.0795 ∗ 25 − 12.5 = −0.87
Sentido de los ejes. Cada eje factorial se puede generar por uno de los dos
vectores propios normados que definen su dirección us o −us . El significado
del sentido de los ejes se busca a partir de las variables, ya que el signo de
56 · Análisis en componentes principales
las coordenadas depende del vector propio seleccionado. Esto implica que
para un mismo análisis se pueden tener planos rotados, según el paquete y
el procedimiento utilizado y que el analista puede cambiar el signo de todas
las coordenadas sobre un eje cuando le convenga.
Eje 2 O40C
1.0 O40M
O20M
O20C
0.5
C40C
0.0
ExOs C40M
−0.5
−1.0 C20C
C20M
−1.5 Eje 1
ExCl
−3 −2 −1 0 1 2 3
Figura 3.7. Primer plano factorial del ACP normado del ejemplo “Café”. En
la columna d 2 se observan las distancias al origen en el espacio completo R3 ,
figura 3.5. El más cercano es C20C y el más alejado C40M. Las coordenadas
son las usadas para la gráfica. El café que más contribuye a la varianza del
primer eje es C40M. En el plano están bien representados los diez cafés; en
el primer eje el O40C está mal representado
Fs2 (i) Õ
Coss2 (i) = ; Coss2 (i) = 1
kxi k 2 s
Por ejemplo el coseno cuadrado del café C40M sobre el primer eje es:
2.682
Cos12 (C40M) = = 0.98
7.31
xi
d(i,0)
Fs
0 Fs(i)
Fs(i)
sobre la inercia total del eje (valor propio), que se denomina contribución
absoluta C as (i):
pi Fs2 (i)
C as (i) =
λs
La suma de las contribuciones de todos los individuos es: C as (i) = 1
Í
i
Por ejemplo, la contribución del café C40M a la varianza del primer eje
1 2.682
es: C a1 (C40M) = ∗ = 0.347 = 34.7 %. En la figura 3.7, abajo,
10 2.067
se encuentran los valores de las ayudas a la interpretación para el ejemplo
“Café”.
Código para calcular las coordenadas factoriales de los dos cafés comerciales
y su proyección sobre el primer plano factorial (3.9)
comer <- as . matrix ( cafe [11:12 ,1:3]); comer
comc <- comer - rep (1 ,2) %* %t(g ); comc # centrado
comcr <- comc %* %solve ( Dsigma ) # reducido
colnames ( comcr ) <- colnames ( comer ); comcr
Fsup <- comcr %* %U; Fsup
# primer plano factorial
plot ( F [ ,1:2] , las =1 , asp =1)
text ( F [ ,1:2] , label = rownames (F), col =" black " , pos =1)
abline ( h =0 , v =0 , col =" darkgrey ")
points ( Fsup , col =" black " , pch =20) # cafes comerciales
text ( Fsup , labels =c(" Com1 " ," Com2 "), col =" darkgreen " , pos =2)
Eje 2 O40C
1.0 O40M
O20C
0.5 O20M ceba
maiz C40C
0.0
ExOs C40M
−0.5
Com1
exce
−1.0 C20C C20M
−3 −2 −1 0 1 2 3
Figura 3.9. Primer plano factorial del ACP del ejemplo “Café”, que muestra
dos cafés comerciales y las categorías del tipo de contaminante. Los cafés
comerciales se ponen en el marco de referencia del experimento y su po-
sición permite decir que son de buena calidad (están cerca de los cafés no
contaminados). La posiciones de los centros de gravedad –excelso, cebada y
maiz–, muestran que el maíz afecta más la calidad del café
62 · Análisis en componentes principales
n
1Õ
var(Y j ) = (yi j − Ȳ j )2 = YC j , YC j 1 In
(3.14)
n n
i=1
Y2
media de Y1
media
de Y2
Y1
YC2
Individuo 1
YC1
Xj
v
X’k v
X’v
j
Xk
2 2µ
f 0(v) = 2
XX 0v − v=0
n n
Se obtiene:
1
XX 0v = µv (3.19)
n
La ecuación (3.19) corresponde a la expresión de valores y vectores pro-
pios de la matriz 1n XX 0 y, por lo tanto, la solución está dada por uno de los
dos vectores v asociados al valor propio más grande µ de la matriz 1n XX 0,
que se notan v1 y µ1 , respectivamente. Sin embargo, los valores propios
de 1n XX 0 que son mayores que cero, son iguales a los de 1n X 0X, es decir,
µ1 = λ 1 .
66 · Análisis en componentes principales
Esfera de correlaciones
1.0
0.5
EA
Color
DA
0.0
G3
G2
1.0
0.5
−0.5
0.0
−0.5
−1.0
−1.0
−1.0 −0.5 0.0 0.5 1.0
G1
Correlaciones
Color DA EA
Color 1.00 0.79 0.19
DA 0.79 1.00 0.57
EA 0.19 0.57 1.00
Círculo de correlaciones
EA
Nota DA
Color
Código para realizar el ACP normado de las variables físicas del ejemplo
“Café”
library ( FactoClass ); # carga de paquetes
data ( cafe ); # hacer los datos disponibles
# ACP normado con variables fisicas y reteniendo dos ejes
acp <- dudi . pca ( cafe [1:10 ,1:3] , scannf = FALSE );
acp $ cent # medias de las variables :
round ( acp $ norm ,2); # desviacion estandar de las variables
inertia ( acp ); # valores propios y porcentajes
barplot ( acp $ eig ); # histograma de valores propios
round ( acp $c1 ,3); # vectores propios
Círculo de correlaciones
s . corcircle ( acp $ co );
# proyeccion de la variable Impresion como ilustrativa
( cor ( cafe [1:10 ,16] , acp $ li )-> coimpre );
s . arrow ( coimpre , label =" Impresion " , add . plot = TRUE , boxes = FALSE )
# coordenadas de las variables = correlaciones con los ejes
round ( acp $co ,3);
# ayudas para la interpretacion de las variables
inertia ( acp ,, TRUE );
70 · Análisis en componentes principales
Código para realizar ACP normado de las notas del examen y obtener la
figura 3.13
library ( FactoClass );
data ( admi ); names ( admi );
Y <- admi [ ,2:6]; names (Y );
acp <- dudi . pca (Y , scannf = FALSE , nf =3);
barplot ( acp $ eig ); # histograma de valores propios
# dev . print ( device = xfig , file =" acpExaAdmi . fig ");
valp <-t ( inertia ( acp )$ tot . inertia ); # valores propios
xtable ( valp , digits = rep (3 ,6));
1 2 3 4 5
Valor propio 1.852 1.025 0.870 0.638 0.616
Inercia acumulada 1.852 2.877 3.746 4.384 5.000
Proporción acum. 0.370 0.575 0.749 0.877 1.000
Figura 3.13. Valores propios del ACP de los resultados del examen de los
admitidos: histograma y valores. El primer valor propio se destaca sobre los
demás y retiene el 37.0 % de la inercia. El segundo valor propio es también
mayor que 1 y el primer plano retiene el 57.5 % de la inercia. La forma del
histograma sugiere retener uno o tres ejes para el análisis
Análisis en componentes principales · 73
imag
cien
mate
exam
soci
text
Son pocos los admitidos que tienen que nivelar lectoescritura (siLE), y
por eso se ubican más lejos, al lado derecho arriba, donde se sitúan los de
peores resultados en el examen de admisión.
Los que no tienen que nivelar de matemáticas están al lado izquierdo
arriba, que son los admitidos con mejores resultados en el examen.
En el tercer eje (ver valores test en la tabla 3.5) se observa que en pro-
medio los que tienen edades de dieciséis años o menos, por un lado, y los
que vienen de otra región, por otro, tienen resultados inferiores en la com-
ponente de imagen.
0.6 siLE
Factor 2: 1.0249 (20.5%)
0.4 Mate
Figura 3.15. Primer plano factorial de los admitidos mostrando las va-
riables cualitativas ilustrativas. Los puntos sin etiqueta corresponden a los
admitidos
76 · Análisis en componentes principales
3.7. Ejercicios
Algunos de los ejercicios están propuestos para los estudiantes que toman
regularmente el curso de la Carrera de Estadística. Un lector diferente pue-
de omitir, si lo desea, los ejercicios de demostraciones y utilizar, para llevar
a cabo el ACP, programas de computador diferentes a los propuestos.
1. Para buscar un subespacio H de dimensión 1 que maximice la suma
de cuadrados de las distancias entre las proyecciones sobre H de todas
las parejas de puntos (i, l) –cada punto está dotado de una masa pi –
demuestre que:
nÕÕ o nÕ o
M ax(H ) dH2
(i, l) = M ax(H ) 2
dH (i, g)
i l i
1
8. Muestre que la norma del vector 1n en Rn con la métrica M = In es
n
igual a 1.
13. Demuestre que los valores propios mayores que cero, de los espacios
de individuos y variables son iguales.
19. Demuestre las relaciones de transición entre los dos espacios de re-
presentación: individuos y variables.
22. Obtenga la expresión del valor test de una categoría (3.12) a partir de
la fórmula 2.2 de la página 25.
23. Para el ACP normado del ejemplo “Café” dibuje las cuatro versiones
posibles del primer plano factorial cambiando el sentido de los ejes
F1 y F2 .
29. Realice el ACP normado de las variables físicas de los cafés utilizando
el paquete ade4. Incluya la proyección de la variable Nota de impresión
global como cuantitativa ilustrativa, los cafés comerciales como indivi-
duos ilustrativos y el tipo de contaminación como variable cualitativa
ilustrativa.
3.8. Talleres
Se recomienda el taller ACP gráfico para entender bien el significado geo-
métrico del ACP. El taller “Whisky” es un ejemplo sencillo para consolidar
el aprendizaje del ACP. En el taller “Lactantes” se proponen una serie de
preguntas sencillas de resolver empleando R.
1 2 3 4 5 6 7 8 9 10
Y1 9 7 8 3 1 3 4 7 2 6
Y2 9 13 6 1 5 11 4 3 8 10
1. Diagrama de dispersión de Y.
9. Obtenga los dos vectores de coordenadas de las variables sobre los dos
primeros ejes factoriales, los cuales se notan G1 y G2 , respectivamente,
y se calculan así:
p p
G1 = λ 1 u1 ; G2 = λ 2 u2
10. Dibuje el primer plano factorial de las variables, con G1 como eje ho-
rizontal y G2 como eje vertical.
Preguntas
Realice primero un ACP no normado y luego un ACP normado y responda
a las preguntas.
11. ¿Qué características tienen las marcas de whisky según sus ubicaciones
en el plano (a la derecha, a la izquierda, arriba, abajo)?
12. ¿Qué significa el círculo del primer plano factorial de variables? ¿Có-
mo lo dibujaría en una gráfica impresa donde no está? (Suponga que
las escalas de los dos ejes son iguales).
14. Supongamos que usted desea comprar una botella de whisky con bue-
na apreciación y que no sea tan cara. Dé dos números de marcas que
compraría. ¿Por qué? ¿Cuáles son las características de las dos marcas?
21. Para el bebé situado en el extremo superior del primer plano factorial
escriba las coordenadas sobre los dos primeros ejes factoriales:
22. Calcule la contribución del bebé anterior a la inercia del segundo eje
factorialy la calidad de representación sobre el mismo eje.
23. Escriba las coordenadas de los antiguos ejes unitarios de las variables
leche y tetero sobre el primer plano factorial.
24. Dibuje los antiguos ejes de leche y tetero sobre el primer plano factorial,
indicando los lados positivos y negativos.
Capítulo
cuatro
Análisis en
componentes
principales
generalizado
Análisis en componentes principales generalizado · 89
Cada uno de los métodos en ejes principales se puede ver como un ACP de
una matriz X que contiene los datos a analizar transformados de acuerdo al
respectivo método. En cada caso se definien las matrices de métrica y pesos
en los dos espacios: de filas y de columnas.
Un producto interno está determinado por una matriz cuadrada, simé-
trica, definida positiva. En la geometría euclidiana canónica en Rp , la matriz
que define el producto interno es la identidad de dimensión p, notada Ip . En
este texto se utilizan los términos matriz de métrica, o simplemente métrica,
para referirse en cada caso a una matriz que define un producto interno.
Sea M una matriz que define un producto interno en un espacio vectorial
en los reales, E. A partir de esta matriz se dota al espacio de una geometría
euclidiana. Sean x y y dos vectores en E, entonces:
ACP X, Ip , 1n In si X es la matriz de datos estandarizados.
ACP(Z, Ip , In ), donde Z= √1 X.
n
donde m j = m j j .
X j = [X1 j X2 j · · · Xn j ]0
Nótese que las inercias de las nubes de los espacios de filas y de columnas
son iguales.
Los valores propios diferentes de cero son iguales en los dos espacios:
µs = λ s .
1
Como us = √ Gs entonces:
λs
Õ Fs (i)Gs ( j)
xi j = √ (4.5)
s λs
Un diagrama de barras (barplot) de los valores propios es una guía para se-
leccionar el número de ejes a retener, S, complementado con los valores
sucesivos de τ, que informan de la calidad de la representación a medida
que se incrementa S.
Espacio Rp Rn
Nube Nn Np
Métrica M N
p n
d 2 (i, l) = m j (xi j − xl j )2 d 2 ( j, k) = pi (xi j − xik )2
Í Í
Distancias al cuadrado
j=1 i=1
Valor propio λs λs
Vector propio us vs
1 1
Fórmulas de transición Gs = √ X 0 NFs Fs = √ XMGs
λs λs
1 Í p 1 Í n
Fs (i) = √ xi j m j Gs ( j) Gs ( j) = √ xi j pi Fs (i)
λ s j=1 λ s i=1
Í Fs (i)Gs ( j) Í √ Í√
Fórmula de reconstitución xi j = √ = λ s us (i)vs ( j); X = λ s vs u 0 s
s λs s s
M
E = Rp E ∗ = Rp∗
V = X′ NX
X′ X
W = XMX′
F =R
∗ n∗
F = Rn
N
pi ||xi || 2 pi ||xi || 2
= Í (4.10)
I(Nn ) λs
s
y en el espacio completo.
S
λs
Í
s=1
(4.14)
λs
Í
s
λs + λt
Sobre un plano conformado por los ejes s y t, Í .
λs
s
λ1 + λ2
En particular, sobre el primer plano factorial: .
λs
Í
s
M
E=R p
E ∗ = Rp∗
V
Figura 4.2. Diagrama cuando solo se conoce la matriz de varianzas o de
correlaciones. Parte superior del diagrama de dualidad de la figura 4.1
V # matriz de correlaciones
eigV <- eigen ( V )
Lambda <- diag ( eigV $ values )
U <- eigV $ vectors
G <-U %* %sqrt ( Lambda )
library ( ade4 )
s . corcircle ( G )
W
F ∗ = Rn∗ F = Rn
N
Figura 4.3. Diagrama cuando solo se conoce la matriz de productos internos
W. Parte inferior del diagrama de dualidad de la figura 4.1
Valores propios: λ 1 ≥ · · · ≥ λ s ≥ · · · ≥ λ r .
4.8. Ejercicios
1. Escriba el diagrama de dualidad y las principales fórmulas del
ACP (Yc , I2, I10 ) del taller ACP geométrico sección 3.8.1 (página 81).
102 · Análisis en componentes principales generalizado
4. Muestre que las coordenadas factoriales de las filas sobre un eje son
N-centradas.
a) Los valores propios diferentes de cero son iguales en los dos es-
pacios: µ s = λ s .
b) El vector de coordenadas Fs sobre us es un vector propio asocia-
do a µ s .
c) La N-norma al cuadrado del vector Fs es λ s .
1
d) El vector vs es igual a √ Fs .
λs
√
e) El vector de coordenadas Gs es igual a λ s us .
4.9. Talleres
En esta sección se realizan dos talleres: en el primero se busca obtener el
círculo de correlaciones cuando no se conocen los datos que dieron origen
a una matriz de correlaciones; en el segundo, obtener la imagen geométrica
de una matriz de distancias euclidianas, cuando no se tienen las variables de
donde se calcularon.
1. Objetivo de análisis.
6. ¿Qué significado le puede dar cada uno de los ejes que va a analizar?
5. ¿Qué países tienen una contribución al primer eje por encima del
promedio?
El ACS se puede ver técnicamente como dos ACP o como un ACP. La pri-
mera visión conviene para la interpretación de los resultados y la segunda,
para los cálculos. En este capítulo se muestran las dos visiones, pero con-
viene complementar con la lectura del capítulo correspondiente en Lebart,
Morineau y Piron (1995) o Lebart, Piron y Morineau (2006).
Tabla de contingencia K
Se puede observar que el perfil de Geología es el que más difiere de los de-
más porque tiene más porcentaje de estrato alto, en detrimento del porcen-
taje de estrato medio. Física y Biología también tienen más porcentaje de
estrato alto, que el promedio. El perfil de Química es el que más porcentaje
de estrato bajo tiene, seguido por Estadística.
fi j
; i = 1, · · · , n
f· j
1.0
Quim
0.8 Mate
Geol
0.6
Fisi
0.4 Farm
0.2 Esta
Biol
0.0
bajo
medio
alto
marg
El perfil de estrato alto se diferencia más del promedio, tiene mayor por-
centaje de estudiantes admitidos a Geología y Física y menos de Farmacia,
Estadística y Matemáticas (tabla 5.3).
F observada A independencia
bajo medio alto bajo medio alto
Biol 5.2 5.8 3.1 5.7 5.9 2.6
Esta 6.5 6.5 1.8 6.0 6.2 2.7
Farm 6.7 8.1 1.6 6.6 6.8 3.0
Fisi 6.1 8.1 4.3 7.4 7.7 3.4
Geol 4.0 2.0 4.0 4.1 4.2 1.8
Mate 4.7 5.6 1.6 4.8 5.0 2.2
Quim 7.0 5.4 1.8 5.7 5.9 2.6
F − A diferencia
bajo medio alto
Biol -0.5 -0.0 0.6
Esta 0.6 0.4 -0.9
Farm 0.1 1.3 -1.4
Fisi -1.3 0.4 0.9
Geol -0.0 -2.2 2.2
Mate -0.1 0.7 -0.6
Quim 1.3 -0.5 -0.8
fi j
xi ( j) = ; j = 1, 2, · · · , p
fi ·
n
Õ
gp = fi · xi
i=1
n n
Õ fi j Õ
gp ( j) = fi · = fi j = f· j
fi ·
i=1 i=1
116 · Análisis de correspondencias simples
p p 2
1 fi j fl j
Õ 1 Õ
d (i, l) =
2
(xi j − xl j ) =
2
− (5.1)
f· j f· j fi · fl ·
j=1 j=1
n n p p
n Õ
2 Õ 2
1 fi j fi j − fi · f· j
Õ Õ Õ
I nerci a(Nn ) = fi · d (i, gp ) =
2
fi · − f· j =
f· j fi · fi · f· j
i=1 i=1 j=1 i=1 j=1
(5.2)
La inercia (5.2) es el coeficiente φ2
(2.4), una medida de asociación entre
las dos variables cualitativas. En las tablas de contingencia se suele probar
independencia entre las dos variables cualitativas.
Análisis de correspondencias simples · 117
H0 : fi j = fi · f· j ; i = 1, 2, · · · , n; j = 1, 2, · · · , p
Bajo H0 la estadística:
p
n Õ 2
Õ ki j − k fi · f· j
χ =
2
= k I nerci a(Nn )
k fi · f· j
i=1 j=1
F0D−1 −1 −1 0 −1
n Dn Dn FDp = F Dn FDp
−1
(5.3)
118 · Análisis de correspondencias simples
n
Õ fi j fi j0
(5.4)
fi · f· j0
i=1
Para mostrar que (5.3) tiene el valor propio 1 asociado al centro de gra-
vedad g p = [ f·1 · · · f· j · · · f·p ]0 se debe cumplir:
F0D−1
n FDp gp = gp
−1
p Õ
n
Õ fi j fi j0
f· j 0 = f· j
fi · f· j0
j =1 i=1
0
0.1 Geol
Esta
0.0
Farm
Biol Mate
−0.1
Figura 5.1. Primer plano factorial de los perfiles de carreras según estratos.
Geología tiene el perfil más diferente del promedio y de las demás carreras;
Biología se parece más al perfil promedio, Matemáticas, Estadística y Far-
macia tienen perfiles parecidos. El primer eje retiene el 85.7 % de la inercia
0.0
alto
−0.1 medio
Figura 5.2. Primer plano factorial de los perfiles de estratos según carreras.
El primer eje opone el estrato alto con el medio y el segundo eje, sobre todo,
el bajo con el medio. El estrato alto es el que más se diferencia del promedio
Todas las fórmulas del ACS se pueden derivar de las fórmulas correspon-
dientes al ACP generalizado (tabla 4.1). La M-distancia al cuadrado entre
dos filas i y l y la D-distancia al cuadrado entre las columnas j y k de X son:
p 2 n 2
1 fi j fl j 1 fi j fik
Õ Õ
d (i, l) =
2
− ; d ( j, k) =
2
− (5.6)
f· j fi · fl · fi · f· j f·k
j=1 i=1
La expresiones de (5.6) son las mismas distancias ji-cuadrado entre los per-
files fila (5.1 ) y columna, derivados de sus respectivos ACP. Estas distancias
tienen dos propiedades muy importantes para la interpretación de las sali-
das del ACS: equivalencia distribucional y relaciones cuasibaricéntricas.
Análisis de correspondencias simples · 121
fi j fi j
En (5.7) un sumando j es Gs ( j), donde es la coordenada j del perfil
fi · fi ·
de la fila i, es decir la altura de la barra j del histograma.
p
fi j
fi· = 1, la sumatoria de (5.7) es un promedio ponderado de las
Í
Como
j=1
coordenadas de las columnas, es decir, un centro de gravedad o baricentro.
1
La multiplicación por √ . dilata, es decir, aleja la coordenada del perfil
λs
fila del baricentro, razón por la que se denomina relación o fórmula cuasiba-
ricéntrica a ecuación (5.7).
Las proyecciones de los perfiles cambian porque las ponderaciones son
diferentes, están dadas por las proporciones de cada perfil.
De forma simétrica la sumatoria de la fórmula (5.8) para una columna
j es el promedio de las coordenadas de todos los puntos fila sobre un eje s,
122 · Análisis de correspondencias simples
n
1 Õ fi j
Gs ( j) = √ Fs (i) (5.8)
λ s i=1 f· j
1
√ ∗ (0.4 ∗ 0.0458 + 0.2 ∗ 0.1695 − 0.4 ∗ 0.4884)
0.0562
-0.6315 con el valor -0.6037 del programa (figura 5.3) se debe a los errores
de redondeo.
1 / sqrt ( acs $ eig [1]) * sum ( c (0.4 ,0.2 ,0.4) * acs $ co [ ,1])
[1] -0.603727
Estrato
bajo2 0.0458 0.1167 1.5 58.3 13.3 86.7 9.6
medio3 0.1695 -0.0916 21.3 37.2 77.4 22.6 23.5
alto4 -0.4884 -0.0485 77.2 4.6 99.0 1.0 66.8
Figura 5.3. Primer plano factorial del ACS carreras × estratos y ayudas para
la interpretación. La posición de Geología se debe a que tiene, con relación
al promedio, mayor porcentaje de estrato alto; Química tiene mayor de es-
trato bajo; y Farmacia, mayor de estrato medio. Biología es la carrera con
perfil más parecido al promedio
124 · Análisis de correspondencias simples
fi · (Fs (i))2
C as (i) = (5.9)
λs
Fs2 (i)
Coss2 (i) = (5.10)
d 2 (i, g)
fi · Fs2 (i)
Coss2 (i) =
fi · d 2 (i, g)
La inercia total asociada al ACS es 0.265. Los tres primeros ejes retienen el
84.2 % (0.151, 59.9 %; 0.049, 18.7 %, y 0.023, 8.6 %). Los dos primeros re-
tienen una inercia superior a la inercia promedio (0.024 = 0.265/11) (figura
5.5, arriba). Los dos primeros ejes proveen una buena síntesis para ana-
lizar las asociaciones entre departamentos y jornadas × rendimiento.
Sin embargo, se incluyen las coordenadas y ayudas para la interpretación
del tercer eje con el objeto afinar un poco el análisis.
En el tercer eje se destacan del lado positivo las categorías baja y media de
la jornada de la mañana, asociadas a los departamentos de Meta, Quindío,
Tolima y Arauca.
128 · Análisis de correspondencias simples
1 2 3 4 5 6 7 8 9 10 11
valor P 0.151 0.049 0.023 0.013 0.010 0.006 0.005 0.003 0.002 0.002 0.001
iner. acu. 0.151 0.200 0.223 0.236 0.245 0.252 0.256 0.259 0.262 0.264 0.265
prop. acu. 0.569 0.756 0.842 0.890 0.926 0.951 0.968 0.979 0.988 0.996 1.000
0.6
Cbajo
0.4 BOY
HUI
CAS Cmedio
CAL
CAU
ANT
0.2 Cinferior
CAQ GUV PUT CUN
NSA
COR Mbajo VAL
0.0 MET
CHO Tinferior Mmedio RIS
Tbajo QUI SAN
LAG TOL
CES Calto
ARA Talto Tmedio
−0.2 MAG ATL
Malto BOG
NAR
BOL SUC
Minferior
−0.4
Factor 1: 0.1508 (56.9%)
5.5. Ejercicios
1. Demostrar la propiedad de la equivalencia distribucional.
2. Mostrar que las distancias entre dos categorías fila de un AC visto como
un ACP es igual a la distancia ji-cuadrado del ACP de los perfiles fila.x
4. Demostrar que la matriz de inercia del ACP de los perfiles fila tiene un
valor propio igual a uno y su vector propio asociado es el centro de
gravedad de la nube de perfiles fila.
Objetivo
Describir la estratificación de Bogotá a partir de la TC del número de man-
zanas según localidades × estratos (DAPD, 1997, p.77).
Los datos
La TC que clasifica a las manzanas de Bogotá en localidad × estrato, se
encuentra en Bogota{FactoClass}. La primera columna de la TC corres-
ponde a manzanas que no están estratificadas, porque no son residenciales
(parques, colegios, etc.). Esta columna se proyecta como ilustrativa en el
ACS.
Preguntas
Realizar el ACS de la TC utilizando los estratos del uno al seis como columnas
(frecuencias) activas y la columna sin estrato como ilustrativa. Responder a
las preguntas siguientes:
15. Agregue a los datos una columna de orden de las localidades según el
primer plano factorial. Ordene la TC por esa variable y haga una grá-
fica que muestre los perfiles de las localidades así ordenadas y el perfil
promedio. No incluya la columna sin estrato. Resuma la comparación
de los perfiles utilizando esta gráfica y el primer plano factorial.
Objetivo
Los datos
A cada encuestado se le pide que diga, para cada uno de 11 colores pro-
puestos, cuál es el adjetivo que le parece corresponder lo mejor posible.
Se conservan solamente los adjetivos que se han mencionado por lo me-
nos tres veces. Las unidades estadísticas en el análisis son las asociaciones
color-adjetivo, con las que se construye una tabla de contingencia de 89
filas (adjetivos) por 11 columnas (colores).
Preguntas
4. Teniendo en cuenta todos los ejes identifique en qué planos están me-
jor representados cada uno de los once colores.
5. Para cada color o grupo de colores identifique los adjetivos más aso-
ciados leyendo en el plano donde estén mejor representados.
B<-acm.burt(Y,Y); xtable(B,digits=rep(0,13))
128 0
La matriz diagonal para género es = Z10 Z1 y la TC de
0 317
46 59 23
Género × Estrato es Z10 Z3 = .
133 126 58
1
En el ejemplo: fi · = = 0.22 %; ∀i = 1, · · · , 445 y
445
nj nj
f· j = = ; ∀ j = 1, · · · , 12.
445 ∗ 4 1780
128
Por ejemplo f·1 = = 7.19 %.
1780
1
Los perfiles de los individuos son las filas de la tabla Z, es decir, son barras
s
de altura 1/s cuando el individuo asume la categoría j y 0 cuando no la
asume.
1
El peso, igual para todos los individuos, es y la métrica es M = nsD−1 p .
n
En el ejemplo: un perfil fila es 14 zi j ; j = 1, · · · , 12, con peso 0.22 %.
146 · Análisis de correspondencias múltiples
1780
La métrica en este espacio tiene término general: m j = .
nj
n
1Õ1 nj
zi j =
n s ns
i=1
1
Entonces el centro de gravedad es la marginal columna de F = Z.
ns
Código para obtener el centro de gravedad, expresado en porcentaje
g <- colSums ( Z)/ nrow (Z)/4
xtable ( data . frame (t(g)* 100) , digits = rep (1 ,13))
F M E16- E17 E18 E19+ Ebaj Emed Ealt Bogo Cund Otro
7.2 17.8 6.6 9.6 3.1 5.6 10.1 10.4 4.6 17.5 2.1 5.4
p p
2 nÕ
Õ 1 1 1 2
d (i, l) = ns
2
zi j − zl j = zi j − zl j (6.1)
nj s s nj
j=1 j=1
Dos individuos se parecen cuando asumen más o menos las mismas cate-
gorías. La distancia se amplifica más cuando uno solo de los dos individuos
asume una categoría de baja frecuencia.
Como ejemplo, se calcula la distancia al cuadrado entre los individuos
50 y 100 de la tabla 6.1:
445 1 1
d (i50, i100) =
2
+ = 1.22
4 179 185
Análisis de correspondencias múltiples · 147
p p √ √ !2
n Õ 1 2
Õ nz i j nzl j
d 2 (i, l) = zi j − zl j =
√ − √ (6.2)
s nj sn j sn j
j=1 j=1
Código para calcular las distancias entre individuos usando la función dist
y obtener la tabla 6.3
n <- nrow ( Z ); Dp <- diag ( colSums ( Z )); s <- ncol ( Y );
X <- sqrt ( n / s ) * as . matrix ( Z ) %* %solve ( sqrt ( Dp ));
selin <- seq (25 ,445 ,25);
Dis <- dist ( X [ selin ,]); round ( as . dist ( Dis ) ,1)
Tabla 6.3. Distancia asociada al ACM entre los admitidos que están en la
tabla 6.1
25 50 75 100 125 150 175 200 225 250 275 300 325 350 375 400
50 2.6
75 2.0 1.6
100 2.3 1.1 2.0
125 0.0 2.6 2.0 2.3
150 2.1 2.0 1.7 2.3 2.1
175 2.5 2.3 1.9 2.3 2.5 2.3
200 1.1 2.3 1.7 2.6 1.1 1.8 2.5
225 2.2 2.5 2.3 2.5 2.2 2.2 1.9 2.2
250 2.2 2.2 1.4 2.1 2.2 2.2 1.3 2.2 1.8
275 2.0 1.6 0.0 2.0 2.0 1.7 1.9 1.7 2.3 1.4
300 2.1 2.1 1.8 2.4 2.1 2.2 1.9 1.7 2.0 2.3 1.8
325 2.2 2.2 1.4 2.1 2.2 2.2 1.3 2.2 1.8 0.0 1.4 2.3
350 2.1 2.1 1.7 1.8 2.1 2.1 1.4 2.4 2.4 1.9 1.7 1.7 1.9
375 2.1 2.1 1.7 1.8 2.1 2.1 1.4 2.4 2.4 1.9 1.7 1.7 1.9 0.0
400 2.3 1.1 2.0 1.6 2.3 1.7 2.5 2.0 2.8 2.4 2.0 2.4 2.4 2.4 2.4
425 2.5 2.2 1.9 2.2 2.5 1.8 1.4 2.5 1.2 1.3 1.9 2.4 1.3 2.0 2.0 2.5
148 · Análisis de correspondencias múltiples
n n p
1Õ 2 1 Õ Õ ns zi j n j 2 1 p
d (i, gp ) = ( − ) = (p − 2s + s) = − 1.
n n nj s ns s s
i=1 i=1 j=1
1 01 1 1 0 1
p = Z ZDp = BDp .
Z In ZnsD−1 −1 −1
s n s s s
Histograma
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Valores propios
Valor P % % acum.
1 0.337 16.8 16.8
2 0.313 15.6 32.5
3 0.283 14.1 46.6
4 0.247 12.4 59.0
5 0.241 12.0 71.0
6 0.229 11.5 82.5
7 0.208 10.4 92.8
8 0.143 7.2 100.0
1
375
350
300 50
275 100
175
Factor 2: 0.3128 (15.6%)
75
0
400 325
250
200 25
425
150 125
−1 225
Figura 6.2. Admitidos sobre el primer plano factorial del ACM. Los
admitidos etiquetados son los que están en la tabla 6.1
Análisis de correspondencias múltiples · 151
6.3.2.1. Coordenadas
Cada perfil columna j tiene solo dos alturas: cero o 1/n j , pero las alturas
son, en general, diferentes en cada perfil.
La tabla de perfiles categoría es ZD−1 p , ya que al postmultiplicar por una
matriz diagonal, cada columna queda multiplicada por el respectivo valor
de la diagonal, en este caso 1/n j . El peso de cada categoría es n j /ns.
152 · Análisis de correspondencias múltiples
1
El centro de gravedad de la nube de categorías es el vector de n valores ,
n
lo cual se verifica a continuación, para cualquier coordenada g(i):
p p
Õ n j zi j Õ 1 1 1
g(i) = = zi j = s =
ns n j ns ns n
j=1 j=1
n
zi j zik 2
Õ
d ( j, k) =
2
n − (6.3)
nj nk
i=1
Categoría k Suma
1 0
Categoría 1 a b a + b = nj
j
0 c d c+d
Suma a + c = nk b+d n
Tabla 6.5. Distancia entre las categorías activas asociadas al ACM del ejemplo
“Admitidos”
n zi2j 2
! n
!
Õ zi j zik z 1 1 Õ zi j zik
d 2 ( j, k) = n 2 −2 + ik2 = n + −2 (6.4)
n j
n j n k n n j nk n j n k
i=1 k i=1
nk + n j − 2a a + c + a + b − 2a
n
d ( j, k) = n
2
=n = (b + c) (6.5)
n j nk n j nk n j nk
1
La distancia entre la categoría j y el centro de gravedad gn = 1n (todas
n
las n coordenadas valen 1/n), es:
n n zi2j
2 !
Õ zi j 1 Õ zi j 1 1 n
d ( j, gn ) = n
2
− =n 2
−2 + 2 = −1 (6.6)
nj n nj n j n n n j
i=1 i=1
Se observa en (6.6) que las categorías de menores frecuencias son las más
alejadas del origen.
s Õ s Õ s Õ
nj 2 nj n nj
Õ
Õ Õ 1
I(Np ) = d ( j, gn ) = −1 = 1−
ns ns n j s n
q=1 j ∈ Jq q=1 j ∈ Jq q=1 j ∈ Jq
(6.7)
donde Jq es el conjunto de categorías que pertenecen la variable q. A partir
de (6.7) se observan o derivan las contribuciones a la inercia de una catego-
ría, una variable y la inercia total:
1 nj
De una categoría j: 1− , lo que indica que contribuyen más a la
s n
inercia las categorías de baja frecuencia.
Análisis de correspondencias múltiples · 155
Í 1 nj 1 n 1
= =
De una variable q: 1− pq − pq − 1 , donde pq es
j ∈ Jq s n s n s
el número de categorías de la variable q. Se observa que las variables
con más número de categorías contribuyen más a la inercia.
s 1 1 p
pq − 1 = (p − s) = − 1. Igual a la inercia de la nube
Í
Inercia total:
q=1 s s s
de individuos I(Nn ), que no tiene significado estadístico, porque no
depende de los valores de la tabla, sino de la relación entre número
de categorías y número de variables.
En el espacio de las categorías los valores propios mayores que cero son
iguales a los del espacio de los individuos. Los vectores propios y las coor-
denadas de los ejes se obtienen mediante las relaciones de transición, que se
abordan en la sección 6.3.3.
El primer plano factorial de las categorías, obtenido en el ACM del ejem-
plo “Admitidos”, se presenta en la figura 6.3 y las ayudas para la interpreta-
ción en la tabla 6.6.
En el primer eje, las categorías con contribuciones absolutas superiores al
promedio (100/12 = 8.333 %) y sus oposiciones son: estrato bajo (-) contra
estrato alto (+) y origen de otro departamento (-) contra origen Bogotá.
En el segundo, las mujeres se sitúan abajo (-), los admitidos de 16 años
o menos (-) se oponen a los de 19 años o más (+), y los de estrato alto se
ubican abajo (-).
En el primer plano factorial (figura 6.3) se ven los grupos de categorías.
Abajo: 16 años o menos, mujeres y estrato alto; a la derecha: estrato me-
dio y origen Bogotá; arriba: 19 años o más; y arriba a la izquierda origen
Cunidinamarca y estrato bajo.
En el tercer eje, se oponen los de 17 años (-) a los de 18 (+), los de estrato
alto están al lado negativo, al igual que los que vienen de Cundinamarca.
Este eje vale la pena leerlo por la edad y por el departamento de origen.
El primer plano factorial es una buena síntesis del análisis, pero conviene
leer también los planos 1-3, que representan mejor las categorías de estrato
y origen, y 2-3, para ver mejor las categorías de edad y estrato alto.
156 · Análisis de correspondencias múltiples
1.0
Or.Cund
0.5
Ge.M
Es.bajo
Or.Bogo
Ed.18
Es.medio
0.0
Ed.17
−0.5
Or.Otro
Es.alto
−1.0 Ge.F
Ed.16om
Factor 1: 0.3366 (16.8%)
plot(acm,Trow=FALSE,cex.global=0.8,cframe=1,gg=TRUE,col.col="black")
xtable(data.frame(Peso=acm$cw*100,coor=acm$co),digits=rep(2,5))
Figura 6.3. Primer plano factorial del ACM de admitidos, mostrando las
categorías
Análisis de correspondencias múltiples · 157
1 nj 1 1
M= Dp , con m j = . N= In , con ni = .
ns ns n n
La M-distancia al cuadrado entre dos individuos i y l y la N-distancia al
cuadrado entre dos categorías j y k de X son:
p 2 p
nj n
Õ n nÕ 1
d (i, l) =
2
zi j − zl j = (zi j − zl j )2 (6.8)
ns n j nj s nj
j=1 j=1
n 2 n
zi j zik 2
Õ 1 n n Õ
d ( j, k) =
2
zi j − zik = n − (6.9)
n nj nk nj nk
i=1 i=1
n
1 1 Õ 1 1 Õ
Gs ( j) = √ zi j Fs (i) = √ Fs (i) (6.11)
λ s n j i=1 λ s n j i ∈I j
bastantes más hombres que mujeres, dentro de los admitidos a las carreras
de Ciencias.
Por otro lado, las categorías son cuasibaricentros de las coordenadas de
los admitidos que las asumen. Entonces, por ejemplo, a la derecha del plano
hay admitidos que asumen simultáneamente las categorías origen Bogotá,
18 años de edad y estrato medio.
El admitido 100 puede ser uno ellos, pero para estar seguros hay que
verificarlo en los datos (tabla 6.1, 100: M, 18, medio, Bogo). En cambio
el individuo 225 puede ser de 16 años o menos y de otro origen (225: M,
16om, alto, otro).
1.0
Or.Cund
0.5
Ge.M
Es.bajo
Ed.18
Or.Bogo
Es.medio
0.0 Ed.17
−0.5
Or.Otro
Es.alto
Ge.F
−1.0
Ed.16om
−1.5
Factor 1: 0.3366 (16.8%)
a19M
1.0
Cund
0.5 Cund M
bajo Bogo
Bogo a18
0.0
Otro a17 medio
−0.5
Otro
−1.0 alto
F
a16m
−1.5
Factor 1: 0.3366 (16.8%)
Figura 6.5. Primer plano factorial del ACM de admitidos mostrando los in-
dividuos según su origen
Análisis de correspondencias múltiples · 161
= 1
Í
donde F s j n j Fs (i), es decir, el promedio aritmético de las
i ∈I j∈ Jq
coordenadas sobre el eje s de los individuos que asumen la categoría j de
la variable q.
El promedio de las n coordenadas sobre el eje s es 0, es decir, las
coordenadas sobre s están centradas. Jq es el conjunto de categorías de la
variable q.
√
Por las relaciones de transición F s j = λ sGs ( j), entonces:
Õ nj
V ari anza intr a(q) = λ s G 2 ( j)
n s
i ∈ Jq
0.7
Factor 2: edad
0.6
0.5
0.4
gene
0.3
0.2
estr
orig
0.1
carr
Factor 1:
0.0
plotfp(acm$cr,gg=TRUE)
La figura 6.6 muestra que hay una relación alta de las variables estrato
y origen con el eje 1 y edad y género con el eje 2. Buena parte de la
inercia del primer eje es entre estratos y también, entre origen; y la del
segundo eje es entre edades. También aparece proyectada la variable
carrera, que es ilustrativa, y no muestra asociación con ninguno de los ejes.
La cercanía de las variables estrato y origen indican que las contribuciones
de las dos variables a la varianza de los dos ejes son similares (fórmula 6.13).
Análisis de correspondencias múltiples · 163
Individuos
Variables cualitativas
Como ejemplo se muestra el cálculo del valor test para Química sobre el
primer eje:
Los valores test de la figura 6.7 indican que solo es legítimo interpretar,
como diferentes de cero, las coordenadas de: Química (-) sobre el primer
eje, Matemáticas (+) sobre el segundo y Geología (-) opuesto a Farmacia (+)
sobre el tercero.
a19M
a18
a19M F
Cund Mate
bajo a16m medio
bajo M Bogo MateFarm
Esta Fisi a18
Quim Esta Bogo
Geol
Quim a17 medio Biol Fisi
Farm Biol
M
Otro Geol
alto
F a17
a16m Cund alto
a18
a19M
F Farm medio
a16m Quim bajo
Otro Fisi
Bogo
Biol
Esta Mate M
Geol
a17
alto
Cund
Plano 2−3
Figura 6.7. Plano factoriales: 1-2, 1-3 y 2-3, mostrando las carreras como
categorías suplementarias y ayudas para la interpretación
166 · Análisis de correspondencias múltiples
Variables continuas.
Los resultados de los dos análisis son diferentes pero permiten obte-
ner las mismas descripciones. Las principales consecuencias prácticas de la
comparación son:
s 2 2
1 1
τ(λ Z ) = λZ − par a λ Z > (6.15)
s−1 s s
6.5.2. Datos
Para este ejemplo se toman las siguientes preguntas del tema de consumo
cultural:
Teat ¿El niño o la niña asistió a teatro, danza u ópera en los últimos doce
meses? ¿Con qué frecuencia?
Libr ¿En los últimos doce meses el niño o la niña leyó libros y con qué
frecuencia?
Cine ¿En los últimos doce meses el niño o la niña fue a cine y con qué
frecuencia?
170 · Análisis de correspondencias múltiples
Vide ¿El niño o la niña vio videos en el último mes y con qué frecuencia?
Radi ¿En la última semana el niño o la niña escuchó radio y con qué fre-
cuencia?
Musi ¿El niño o la niña escuchó música grabada en la última semana y con
qué frecuencia?
La tabla activa construida para este análisis tiene 1971 niños de todo el país
y seis variables cualitativas sobre consumo cultural. El formulario de la en-
cuesta tiene dos preguntas para cada actividad: la primera, si se ha realizado,
y la segunda, su frecuencia. Las respuestas a las dos preguntas en cada ac-
tividad, se recodificaron en una sola y se incluyó la categoría no como otro
ítem de frecuencia. Adicionalmente se unieron algunas categorías de muy
baja frecuencia. Las distribuciones de frecuencias de las variables se mues-
tran en forma de tortas en la figura 6.8, donde se pueden ver sus categorías.
Se tienen entonces s = 6 variables activas con un total de p = 31 categorías.
Pare ¿Cuál es el parentesco del niño o la niña con el(la) jefe(a) del hogar?
Sexo Sexo.
Las variables ilustrativas se muestran en la figura 6.9 junto con las distri-
buciones de frecuencias. Las variables estrato y parentesco, se recodificaron
a menos categorías, dada la presencia de frecuencias muy bajas en algunas
de ellas.
Análisis de correspondencias múltiples · 171
sema 15.4
no 72.6 no 24.1
mens 6.5 no 65
trim 4.2 anua 2.8
sema 7.9
sema 20.5
no 26.7
mens 5 no 55.3 no 40.2
masc 50.2
hijo 74.8 a9 24
a8 23.7
otro 6.3
a10 25.9
a11 26.4
niet 18.9
feme 49.8
Regi Estr
Atla 13.6
Cent 16.6
OrAm 15.7
Paci 15.5 3oM 19.2
2 38.8
Bogo 15.7
0 10 20 30 40 50 60
0.00 0.05 0.10 0.15 0.20 0.25 0.30
1.5
Vide.diar
1.0 Musi.diar
Libr.diar
Radi.diar
Factor 2: 0.2323 (5.6%)
Libr.no
0.5 Vide.no
Teat.mens
Musi.no
Cine.trim
Teat.anua Cine.anua Radi.no Teat.no
0.0 Teat.sema Vide.mens Cine.no Libr.trim
Cine.mens
Libr.mens
Vide.sema
Teat.seme Musi.sema Libr.vdse
−0.5
Cine.seme Vide.vdse Libr.sema
Teat.trim
Radi.sema Radi.vdse
Musi.vdse
−1.0
Libr.anua
plot(acm,Trow=FALSE,gg=TRUE,xlim=c(-1,1),ylim=c(-1,1.3),
cframe=1.1),col.col="black",cex.global=0.8)
El tercer eje separa algunas categorías intermedias: ver videos varios días a
la semana contra hacerlo semanal o mensualmente, escuchar radio varias
176 · Análisis de correspondencias múltiples
Regi.Orie
Edad.a9
0.05 Regi.Paci
Pare.niet
Sexo.masc Estr.0o1
Edad.a8
0.00 Regi.Atla
Estr.2
Factor 2:
Pare.hijo
Regi.Cent Edad.a10
Estr.3oM Sexo.feme
Regi.OrAm
Edad.a11
Pare.otro
−0.05
−0.10 Regi.Bogo
−0.4 −0.2 0.0 0.2
Factor 1:
sc<-supqual(acm,Ys)
plotfp(as.data.frame(sc$coor),col="black",cframe=1,gg=TRUE)
Cine.anua 1.4 -0.250 0.100 -0.101 0.3 0.1 0.1 0.6 0.1 0.1 3.7
Cine.no 10.8 0.328 0.017 -0.007 3.9 0.0 0.0 19.9 0.1 0.0 1.4
Vide.diar 1.9 -1.067 1.235 0.379 7.3 12.6 1.3 14.8 19.9 1.9 3.5
Vide.vdse 6.0 -0.284 -0.505 0.542 1.6 6.6 8.5 4.6 14.5 16.7 2.5
Vide.sema 3.4 -0.149 -0.390 -0.822 0.3 2.2 11.1 0.6 3.9 17.4 3.2
Vide.mens 0.8 -0.090 0.011 -1.464 0.0 0.0 8.5 0.0 0.0 11.2 3.8
Vide.no 4.5 0.975 0.450 0.004 14.1 3.9 0.0 34.7 7.4 0.0 2.9
Radi.diar 3.3 -0.724 0.709 -0.103 5.7 7.1 0.2 12.9 12.4 0.3 3.2
Radi.vdse 3.3 -0.087 -0.720 0.475 0.1 7.4 3.6 0.2 12.9 5.6 3.2
Radi.sema 0.8 -0.352 -0.619 -1.867 0.3 1.4 14.0 0.7 2.0 18.4 3.8
Radi.no 9.2 0.322 0.063 0.035 3.2 0.2 0.1 12.8 0.5 0.1 1.8
Musi.diar 2.7 -1.037 1.067 0.286 9.7 13.2 1.1 20.8 22.0 1.6 3.4
Musi.vdse 5.9 -0.219 -0.787 0.443 1.0 15.9 5.6 2.7 34.3 10.9 2.6
Musi.sema 1.3 -0.537 -0.451 -2.151 1.3 1.2 29.2 2.5 1.7 39.8 3.7
Musi.no 6.7 0.717 0.357 -0.085 11.5 3.7 0.2 34.6 8.6 0.5 2.4
ayu<-inertia.dudi(acm,,T); table(cbind(peso=acm$cw*100,acm$co,
ayu$col.abs/100,abs(ayu$col.rel)/100),digits=c(0,1,rep(3,3),rep(1,7))
Tabla 6.8. Coordenadas y ayudas para la interpretación de las categorías suplementarias del ACM de consumo cultural
Cate % dis Coordenadas Valores test Cosenos cuadrados
goria tan2 Eje1 Eje2 Eje3 Eje1 Eje2 Eje3 Eje1 Eje2 Eje3
Pare.hijo 42.4 0.336 -0.023 -0.008 0.031 -1.794 -0.588 2.394 0.002 0.000 0.003
Pare.niet 10.7 4.298 0.010 0.043 -0.088 0.215 0.931 -1.887 0.000 0.000 0.002
Pare.otro 3.6 14.895 0.249 -0.039 -0.108 2.860 -0.449 -1.238 0.004 0.000 0.001
Sexo.masc 28.5 0.993 0.022 0.021 0.019 0.979 0.937 0.846 0.000 0.000 0.000
Sexo.feme 28.3 1.007 -0.022 -0.021 -0.019 -0.979 -0.937 -0.846 0.000 0.000 0.000
Edad.a8 13.4 3.221 0.057 0.009 -0.022 1.406 0.215 -0.539 0.001 0.000 0.000
Edad.a9 13.6 3.158 0.030 0.058 -0.025 0.739 1.450 -0.632 0.000 0.001 0.000
Edad.a10 14.7 2.865 -0.019 -0.020 0.047 -0.491 -0.524 1.241 0.000 0.000 0.001
Edad.a11 15.0 2.790 -0.060 -0.041 -0.004 -1.586 -1.092 -0.100 0.001 0.001 0.000
Regi.Atla 7.7 6.354 -0.316 -0.003 -0.125 -5.561 -0.050 -2.209 0.016 0.000 0.002
Regi.Orie 12.9 3.380 0.222 0.066 0.092 5.365 1.602 2.220 0.015 0.001 0.003
Regi.Cent 9.4 5.009 -0.142 -0.014 -0.069 -2.811 -0.271 -1.378 0.004 0.000 0.001
Regi.Paci 8.8 5.441 0.033 0.053 0.088 0.630 1.012 1.672 0.000 0.001 0.001
Regi.Bogo 8.9 5.358 -0.238 -0.097 0.006 -4.554 -1.861 0.119 0.011 0.002 0.000
Regi.OrAm 8.9 5.379 0.306 -0.035 -0.045 5.861 -0.669 -0.853 0.017 0.000 0.000
Estr.0o1 23.8 1.378 0.286 0.018 0.010 10.819 0.692 0.378 0.059 0.000 0.000
Estr.2 22.0 1.580 -0.101 -0.008 -0.043 -3.582 -0.293 -1.513 0.007 0.000 0.001
Estr.3oM 10.9 4.214 -0.422 -0.023 0.065 -9.133 -0.506 1.398 0.042 0.000 0.001
xtable(data.frame(por=sc$ncat/34.76,dis2=sc$dis2,coor=sc$coor,
vt=sc$tv,cos2=sc$cos2),digits=c(0,1,rep(3,10)))
Análisis de correspondencias múltiples
·
179
180 · Análisis de correspondencias múltiples
6.6. Ejercicios
1. Obtenga las fórmulas del ACM como el ACS de la tabla disyuntiva
completa.
8. Demuestre que un ACM cuando todas las variables tienen dos cate-
gorías es equivalente a un ACP normado de una de las categorías por
cada una de las variables.
Objetivo
Seleccionar las razas de perros de acuerdo con la función para la que se utili-
zan: compañia, caza o utilidad (salvamento, defensa, perro lazarillo o policía,
etc.). Los datos se encuentran en el paquete FactoClass como DogBreeds.
Para cada una de las veintisiete razas estudiadas se registran seis variables
que miden las cualidades físicas o psíquicas de la raza:
182 · Análisis de correspondencias múltiples
Variables Categorías
Tamaño Pequeño Medio Grande
Peso Liviano Medio Pesado
Velocidad Baja Media Alta
Inteligencia Pequeña Media Grande
Afectividad Pequeña Grande
Agresividad Pequeña Grande
Función Compañía Caza Utilidad
Preguntas
1. A partir del archivo de datos responda:
a) ¿Qué categorías presenta la raza bóxer para cada una de las va-
riables?
b) ¿Cuántas razas de perros se caracterizan por poseer una inteli-
gencia media y cuáles son?
7. ¿Cuáles son las razas que se encuentran más alejadas del origen?
¿Cuáles son sus coordenadas sobre el primer eje?
13. Para cada grupo de razas de perros que usted ha definido, calcule los
perfiles de las características observadas. Es decir, ¿cuáles son las ca-
racterísticas de cada uno de los grupos de razas?
14. Compare los perfiles de los grupos de razas y exprese en unas pocas
frases las conclusiones.
6.7.2. Comparación de AC
n
Õ K
Õ K Õ
Õ
I nerci a(Nn ) = pi d 2 (i, g) = pk d 2 (gk , g) + pi d 2 (i, gk ) (7.1)
i=1 k=1 k=1 i ∈Ik
donde:
n
pi = 1.
Í
pi : peso del individuo i,
i=1
n
g: centro de gravedad de la nube de puntos, g = pi xi , x0i , es la fila i de
Í
i=1
la matriz de coordenadas de los puntos X con n filas y p columnas.
pk : peso de la clase k, pk =
Í
pi .
i ∈Ik
Í pi
gk : centro de gravedad de la clase k, gk = xi .
i ∈Ik pk
• Paso 0
Se dan K centros iniciales de las clases: {C10, C20, . . . , Ck0, . . . , CK0 }, que
inducen a una partición de I en K clases P 0 = {I10, I20, . . . , Ik0, . . . , IK0 }.
De tal forma que el individuo i pertenece a la clase Ik0 si el punto i está
más próximo de Ck0 que de todos los demás centros.
• Paso 1
Se determinan los K centros de gravedad {C11, C21, . . . , Ck1, . . . , CK1 } de
las clases {I10, I20, . . . , Ik0, . . . , IK0 }.
Estos nuevos centros llevan a una nueva partición construida con la mis-
ma regla: P 1 = {I11, I21, . . . , Ik1, . . . , IK1 }.
• Paso m
Se determinan K nuevos centros de las clases {C1m , C2m , . . . , Ckm , . . . , CKm }
tomando los centros de gravedad de las clases en el paso m − 1:
{I1m−1, I2m−1, . . . , Ikm−1, . . . , IKm−1 }.
Estos nuevos centros inducen a una nueva partición del conjunto I:
P m = {I1m , I2m , . . . , Ikm , . . . , IKm }.
190 · Métodos de clasificación
K Õ
Õ
v(m) = pi d 2 (i, Ckm ) (7.2)
k=1 i ∈Ikm
K Õ
Õ
V (m) = pi d 2 (i, Ckm+1 ) (7.3)
k=1 i ∈Ikm
V (m) de (7.3) es menor o igual que v(m) de (7.2) porque la inercia con
respecto al centro de gravedad es siempre menor o igual a la inercia con
respecto a cualquier otro punto.
La cantidad v(m + 1) de (7.4) es menor o igual a V (m) de (7.3) porque,
si al menos un individuo cambia de clase, en la nueva partición es porque
queda más cerca de otro nuevo centro.
Entonces, v(m + 1) ≤ V (m) ≤ v(m) ≤ V (m − 1), es decir, la inercia
intraclases disminuye con cada paso del algoritmo.
Ejemplo “Café”
Aquí se muestran los centros y las particiones de cada paso del algoritmo,
extraídos de tabla 7.1.
d=1 d=1
O40C O40C
C02
O40M O40M
C01
ExCl ExCl
Paso 0 Paso 1
d=1 d=1
O40C
O40C
O40M O40M
ExCl ExCl
Paso 2 Paso 3
Figura 7.1. Ejemplo de clasificación con K-means de los cafés a partir de las
coordenadas factoriales sobre los ejes 1 y 2. Los rayos indican la pertenencia
a cada clase al unir el centro de gravedad con los puntos. Con los centros
iniciales C10 y C20 se construye la partición que se muestra en el paso 0. Los
puntos C11 y C21 son los dos centros de gravedad y los puntos iniciales para
construir la partición del paso 1. C12 y C22 son los centros de gravedad de la
partición del paso 1 y los puntos iniciales del paso 2. En el paso 3 no hay
cambios y el proceso termina
Tabla 7.1. Clasificación “a mano” de los diez cafés con K-means: arriba los
centros de cada clase en cada paso y abajo las coordenadas de los cafés, las
distancias a las clases y la asignación de clase (1 o 2)
Centros
Paso 0 Paso 1 Paso 2 Paso 3
Coordenadas C10 C20 C11 C21 C12 C22 C13 C23
F1 -0.89 0.15 -0.66 0.44 -1.27 0.85 -1.23 1.23
F2 -1.68 1.31 -0.89 0.59 -0.47 0.31 -0.24 0.25
s: E×E −→ R+ ∪{0}
(i, l) 7−→ s(i, l)
tal que:
s(i, l) = s(l, i) ∀ (i, l) ∈ E × E
s(i, i) = s(l, l) = smax > s(i, l) ∀i ∈ E
Las medidas de disimilitud ponen el énfasis en el grado de diferencia o le-
janía existente entre dos elementos. Los más altos indican mayor diferencia
o lejanía entre los elementos comparados.
Cuando dos elementos coinciden en sus características, la disimilitud es
nula. Las medidas de disimilitud son las que han pasado al vocabulario co-
mún con la acepción de medidas de distancia.
Un índice de disimilitud sobre un conjunto E es una aplicación de E × E
que va hacia R+ ∪{0}:
d: E×E −→ R+ ∪{0}
(i, l) 7−→ d(i, l)
tal que:
d(i, l) = d(l, i) ∀ (i, l) ∈ E × E
d(i, i) = 0 ∀i ∈ E
A un índice de similitud se le puede asociar un índice de disimilitud me-
diante la siguiente ecuación:
1. d(i, l) = 0 → i = l
Individuo l Suma
1 0
Individuo 1 a b a+b
i
0 c d c+d
Suma a+c b+d p
Se definen, además:
m = a + d coincidencias.
u = b + c no coincidencias.
a
Jaccard (1908) S J (i, l) = 1
a+b+c
a+d m
De coincidencias simple (Sokal y Mi- SSM (i, l) = = 2
a+b+c+d p
chener, 1958)
2a + 2d 2m
Sokal y Sneath (1963) Sss = = 3
2a + b + c + 2d 2m + u
m
Rogers y Tanimoto (1960) SRT (i, l) = 4
p+u
2a
Dice (1945) SD (i, l) = 5
2a + b + c
m−u
Hamann (1961) SH (i, l) = 6
p
a
Ochiai (1957) So = p 7
(a + b)(a + c)
ad
Gowers (Sokal y Sneath, 1963) s8 = p 8
(a + b)(a + c)(d + b)(d + c)
ad − bc
Pearson (Sokal y Sneath, 1963) Sφ (i, l) = 9
(adbc)1/2
a a
Russell y Rao (Sokal y Sneath, 1963) SRR (i, l) = = 10
a+b+c+d p
d: Rp ×Rp −→ R+ ∪{0}
(i, l) 7−→ d(i, l)
p
manhattan
Í
Manhattan o Cityblock xi j − xl j
j=1
! 1/r
p
xi j − xl j r minkowski
Í
Minkowski ; r ∈R
j=1
p |xi j − xl j |
canberra
Í
Canberra
j=1 xi j + xl j
Enlace simple
La distancia entre dos grupos A y B es igual a la distancia de los dos indivi-
duos de diferente grupo más cercanos:
Enlace completo
La distancia entre los dos grupos es la distancia entre los dos individuos de
diferente grupo más alejados:
Enlace promedio
La distancia entre los dos grupos es el promedio de distancias entre todas
las parejas de individuos de diferente grupo:
1 ÕÕ
d(A, B) = d(i, l)
n A nB
i ∈A l ∈B
7
5
X2
6
4
e f
5
3
d
4
Indice
b
3
a c
2
f
1
1
e
X1
0 1 2 3 4 5
W(A,B)
A IA AB I AB
B IB
gA g AB gB
g AC g BC
BC I BC
C IC
AC I AC
gC W(B,C)
W(A,C)
Figura 7.3. Esquema de tres grupos y sus posibles uniones en dos grupos,
según el criterio de Ward
Inercia entre(A,B) = pA d 2 (gA , gAB )+pB d 2 (gB , gAB ) = pA kgA −gAB k 2 +pB kgB −gAB k 2
1
Reemplazando gAB = (p g + pB gB ) en la fórmula anterior, se
p A + pB A A
obtiene:
p A pB 2
W (A, B) = d (gA , gB ) (7.8)
p A + pB
3. Calcular las distancias entre todos los grupos y el grupo recién con-
formado utilizando la fórmula de distancia de Ward o la fórmula de
recurrencia (7.11).
3. Hay que calcular las distancias entre el grupo 11 y los 8 cafés con la
fórmula (7.11).
El árbol se construyó con la función ward.cluster{FactoClass},
que utiliza la función hclust{stats}, realizando los cálculos reque-
ridos para que las alturas del árbol sean las distancias de Ward entre
grupos, es decir, incrementos de inercia intra al unirlos.
Métodos de clasificación · 207
19
1.5 1.563
1.0
Ward
0.5 17 18
0.424 0.442
16 15
12 0.157 14 13 0.146
0.069 11
0.0 0.039 0.047
0.003
C40M.10
ExOs.1
C20M.8
C40C.9
ExCl.4
C20C.5
O40C.6
O40M.7
O20C.2
O20M.3
> W <-1 / 20 * dist ( F )^2; round (W ,3)
ExOs O20C O20M ExCl C20C O40C O40M C20M C40C
O20C 0.095
O20M 0.126 0.003
ExCl 0.259 0.284 0.273
C20C 0.236 0.147 0.126 0.047
O40C 0.434 0.124 0.093 0.501 0.244
O40M 0.650 0.263 0.211 0.537 0.268 0.039
C20M 0.700 0.438 0.377 0.228 0.127 0.320 0.207
C40C 0.668 0.319 0.259 0.382 0.178 0.120 0.039 0.069
C40M 1.328 0.828 0.730 0.744 0.505 0.437 0.220 0.151 0.119
ExOs O20C O20M ExCl C20C O40C O40M C20M C40C
Figura 7.4. Árbol de clasificación por el método de Ward de los cafés según
las coordenadas sobre los dos primeros ejes factoriales. Se muestran los nú-
meros de los nodos y sus alturas. Abajo se muestra la matriz de distancias
de Ward entre cafés
208 · Métodos de clasificación
Coordenadas
Variables nominales factoriales Clase
C
i i C i R
n n L n A
d d A C
d
S T
i A i i
F E
v C v v
C R
i M i i I
A
d d C d Z
u u I A
u
o o Ó C
o
N I
s s s Ó
N
2.3.2. Para las variables que tengan categorías que caracterizan a las clases
se pueden obtener las gráficas de perfiles de las clases (sección 2.3).
X (nxp)
ANÁLISIS FACTORIAL
DE LOS DATOS
AF
SI NO
n ≥ nmax
CLASIFICACIÓN INICIAL
K-MEANS
CLASIFICACIÓN
JERÁRQUICA MÉTODO
DE WARD
CLASIFICACIÓN FINAL
K-MEANS
CARACTERIZACIÓN
DE LAS CLASES
Histograma de índices
0.00 0.05 0.10 0.15 0.20
Últimas 12 uniones
Nodo Prim Benj Indice
433 878 561 869 0.026
434 879 865 877 0.029
435 880 743 859 0.029
436 881 871 876 0.033
437 882 868 880 0.036
438 883 870 878 0.065
439 884 873 882 0.121
440 885 875 884 0.138
441 886 883 885 0.152
442 887 881 886 0.204
443 888 879 887 0.235
444 889 874 888 0.245
Cl 4: 48 (10.8 %). Casi todos son de 16 años o menos (87.5 %), estrato
medio (89.6 %), mujeres (70.8 %) y bogotanos (91.7 %).
Disminuye el porcentaje de admitidos a Física (6.2 % vs.
18.4 %).
Métodos de clasificación · 217
C6
a19M
1.0
Cund C7
0.5
M
bajo
Factor 2: 0.3128 (15.6%)
a18 C3
C5 Bogo
medio C2
0.0 a17
C8
−0.5
Otro
alto
C1
−1.0 F
C4
a16m
−1.5
Figura 7.8. Proyección de las clases sobre el primer plano factorial del ACM
de admitidos. Sus respectivos puntos se identifican con “+”
7.8. Ejercicios
1. Demuestre la descomposición de la inercia (fórmula 7.1).
2. Muestre que en la distancia de Manhattan los puntos se unen median-
te lineas paralelas a los ejes.
3. Verifique la propiedad 3) de una ultramétrica en la matriz de la figura
7.2.
4. Escriba la ultramétrica asociada al árbol del ejemplo “Café” (figura
7.4).
5. Calcule el coeficiente de correlación cofenética entre la ultramétrica
y las distancias de Ward del ejemplo “Café”.
6. Demuestre que en una ultramétrica los triángulos son isósceles.
7. Demuestre que la propiedad 3) de una ultramétrica implica la pro-
piedad 2): desigualdad triangular.
8. Deduzca la distancia de Ward entre dos grupos A y B (fórmula 7.8).
9. Demuestre la fórmula de recurrencia de Ward (7.11).
10. Muestre que en el método de Ward la inercia es igual a la suma de
índices de nivel.
11. ¿Cuáles son las ventajas y desventajas del método K-means?
12. ¿Cuáles son las ventajas y desventajas de una clasificación jerárquica
aglomerativa?
Métodos de clasificación · 221
7.9. Talleres
Tabla Descripción
admi Admitidos a la Facultad de Ciencias 2013-1
Bogota Localidades por estrato en la ciudad de Bogotá
cafe Degustación y características físicas y químicas de tazas de café
ColorAdjective Asociaciones entre colores y adjetivos
DogBreeds Razas de perros
icfes08 Tabla de contingencia de departamentos por rendimiento y jornada
de colegios
ninios8a12 Consumo cultural se niños de 8 a 12 años en Colombia
Whisky Treinta y cinco marcar de Whisky
Vietnam Opinión de los estudiantes estadounidenses sobre la guerra de
Vietnam
228 · La libreria FactoClass en R
Función Descripción
addgrids3d Agrega grillas a una gráfica producida por scatterplot3d
centroids Centros de gravedad de clases de una partición
chisq.carac Pruebas chi-cuadrado de una variable cualitativa por varias variables
cualitativas
cluster.carac Caracterización de las clases según variables
dudi.tex Tabla de coordenadas y ayudas para la interpretación de los ejes prin-
cipales de un objeto dudi en formato LATEXutilizando xtable (Dahl
2006).
Fac.Num División de un objeto data.frame en variables cualitativas y cuanti-
tativas
FactoClass Combinación de métodos factoriales y de clasificación no supervisada
FactoClass.tex Tabla de coordenadas, ayudas para la interpretación de los ejes prin-
cipales y métodos de clasificación en LATEX
ggclass Plano factorial de filas mostrando clases y columnas
kmeansW Realiza K-means teniendo en cuenta las ponderaciones de los indivi-
duos
list.to.data Convierta un objeto list a data.frame
plot.dudi Gráfico de planos factoriales a partir de un objeto dudi{ade4}
plotcc Círculos de correlaciones con ggplot2
plotct Gráfica de perfiles fila y columna de una tabla de contingencia.
plotFactoClass Gráfico de planos factoriales con clasificación para objetos
FactoClass
plotfp Planos factoriales a partir de las coordenadas
plotpairs Modificación de pairs
stableclus Grupos estables de varios K-means a partir de coordenadas factoriales
supqual Coordenadas y ayudas a la interpretación de variables cualitativas
ilustrativas.
ward.cluster Clasificación jerárquica con el método de Ward
Referencias
Ball, G. y Hall, D. (1965). Isodata: A novel method of data analysis and pat-
tern classification, Technical report, Stanford Research Institute, Menlo
Park.
Benzécri, J. P. (1979). Sur le calcul des taux d’inertie dans l’analyse
d’un questionnaire, addendum et erratum à [bin. mult.], Les cahiers
de l’analyse des données 4(3): 377–378. URL: http://www.numdam.org/
article/CAD_1979__4_3_377_0.pdf.
Dray, S. y Dufour, A. (2007). The ade4 package: implementing the duality dia-
gram for ecologists, Journal of Statistical Software 22(4): 1–20.
Duarte, R., Suarez, M., Moreno, E. y Ortiz, P. (1996). Análisis multivariado por
componentes principales, de cafés tostados y molidos adulterados con cerea-
les, Cenicafé 47(2): 65–76.
Everitt, B. S., Landau, S., Leese, M. y Stahl, D. (2011). Cluster Analysis, 5 edn,
Wiley, London.
Holmes, S. (2008). Multivariate data analysis: the French way, Probability and statis-
tics: Essays in honor of David A. Freedman, Institute of Mathematical Statistics,
pp. 219–233.
Jaccard, P. (1908). Nouvelles recherches sur la distribution florale, Bull. Soc. Vaud.
Sci. Nat. 44: 223–270. Citado por Sneath and Sokal (1973, p.131).
Lebart, L. (2017). DtmVic: Data and Text Mining - Visualization, Inference, Clas-
sification. Exploratory statistical processing of complex data sets comprising
both numerical and textual data., Web. URL: http://www.dtmvic.com/.
Ochiai, A. (1957). Zoogeographic studies on the soleoid fishes found in japan and
its neighbouring regions, Bull. Jpn. Soc . Sci. Fish 22: 526–530. Citado por
Sokal and Sneath (1963, p.130).
ggplot2, 8 R
ggrepel, 8 instalación, 6
Gramática para gráficas, 8 instalación de paquetes, 8
lenguaje, 6
Icfes, 128 manual de introducción, 7
Icfes Razón de correlación, 24
TC departamentos por nivel y Recodificación, 14
jornada, 125 Referencias, 232
perfiles de departamentos, 127 Relaciones cuasibaricéntricas, 158
perfiles de departamentos Rmarkdown, 9
ordenados, 132 Rstudio, 9
Indices de similitud para tablas
binarias, 197 scatterplot3d, 8
Índice · 237
Sweave, 9
Valor p, 32
Valor test, 24, 25, 32, 35, 36, 164
Valores propios, 149
Valores y vectores propios, 55
Varianzas, 5, 22, 62
xfig, 9
xtable, 143
Colección
Estadístic
textos
En este libro se presentan dos tipos
de técnicas estadísticas multivariadas
para describir grandes tablas de
datos y analizar su información. Estos
métodos tienen orientación descriptiva
y exploratoria y fijan su atención en los
objetos que se están describiendo con
variables cuantitativas o cualitativas.
En ellos, se recurre a representaciones
gráficas abstractas que se hacen
concretas mediante proyecciones en ejes
y planos, y mediante la obtención de
clases o grupos, en lugar de a modelos
estadísticos.