Unsa 12 13 06 21
Unsa 12 13 06 21
Unsa 12 13 06 21
Los temas que se presentan este capítulo son; componentes principales, análisis factorial y análisis de
correspondencia, etc.
Definición. Técnica estadística que permite la reducción de datos que sirve para encontrar grupos
homogéneos, también permite describir las relaciones entre las categorías de cada variable, así como
la relación entre las variables.
Asimismo, puede utilizarse para generar hipótesis relacionadas con los mecanismos causales o para
inspeccionar las variables para análisis subsiguientes (por ejemplo, para identificar la colinealidad
antes de realizar un análisis de regresión lineal). Este procedimiento dispone de 7 métodos de
extracción factorial; 5 métodos de rotación, entre ellos el oblimin directo y el promax para rotaciones
no ortogonales; y 3
Métodos para calcular las puntuaciones factoriales, que pueden guardarse como variables para
análisis adicionales.
B. Análisis de correspondencias
Representa las relaciones existentes entre dos variables nominales, recogidas en una tabla de
correspondencias, sobre un espacio de pocas dimensiones, mientras que al mismo tiempo se describen
las relaciones entre las categorías de cada variable. Para cada variable, las distancias sobre un gráfico
entre los puntos de categorías reflejan las relaciones entre las categorías, con las categorías similares
representadas próximas unas a otras. La proyección de los puntos de una variable sobre el vector
desde el origen hasta un punto de categoría de la otra variable describe la relación entre ambas
variables. El análisis de las tablas de contingencia a menudo incluye examinar los perfiles de fila y
de columna, así como contrastar la independencia a través del estadístico de chi-cuadrado. Sin
embargo, el número de perfiles puede ser bastante grande y la prueba de chi-cuadrado no revelará la
estructura de la dependencia.
C. Escalamiento óptimo
Nivel de medida. Permite especificar el nivel correspondiente a las variables utilizadas en el análisis:
- Todas las variables son nominales múltiples. Todas las variables tienen cuantificaciones de
categorías que pueden diferir para cada dimensión.
- Alguna variable no es nominal múltiple. Una o más variables se escalan a un nivel diferente del
nominal múltiple. Otros niveles de escala posibles son: nominal simple, ordinal y numérica
discreta.
- Múltiples conjuntos. Los datos contienen más de un grupo de variables. Si se selecciona esta opción,
se elegirá Correlación canónica no-lineal (OVERALS).
- Análisis seleccionado. Las opciones para Nivel de medida y Número de conjuntos de variables
deciden el análisis según las combinaciones.
- Análisis de homogeneidad (HOMALS). Seleccionando Todas las variables son nominales múltiples
y Un conjunto:
Definición 1. Análisis factorial: es una técnica estadística multivariante cuyo principal propósito es
sintetizar las interrelaciones observadas entre un conjunto de variables en una forma concisa y segura
como una ayuda a la construcción de nuevos conceptos y teorías. Para ello utiliza un conjunto de
variables aleatorias inobservables, que llamaremos factores comunes, de forma que todas las
covarianzas o correlaciones son explicadas por dichos factores y cualquier porción de la varianza
inexplicada por los factores comunes se asigna a términos de error residuales que llamaremos factores
únicos o específicos. El Análisis Factorial puede ser exploratorio o confirmatorio. El análisis
exploratorio se caracteriza porque no se conocen a priori el número de factores y es en la aplicación
empírica donde se determina este número. Por el contrario, en el análisis de tipo confirmatorio los
factores están fijados a priori, utilizándose contrastes de hipótesis para su corroboración.
Selección del número de componentes: Entre las principales formas de seleccionar las componentes
tenemos tres:
1. Realizar un gráfico de λi frente a i. Seleccionar componentes hasta que los restantes tengan
aproximadamente el mismo valor de λi. La idea es buscar un codo en el gráfico, es decir, un
punto a partir del cual los valores propios son aproximada mente iguales.
2. Seleccionar componentes hasta cubrir una proporción determinada de varianza, como 80%
o 90%. Debe aplicarse con cierto cuidado. Por ejemplo, es posible que un único componente
recoja el 90% de la variabilidad y sin embargo pueden existir otros componentes que sean
muy adecuados para explicar la forma de las variables.
3. Desechar los componentes asociados a valores propios inferiores a una cota, que suele fijarse
como la varianza media . Para la matriz de correlación, el valor medio es 1, seleccionar
los valores propios mayores a 1.
Definición 3 .Test de esfericidad de Barlett. Comprueba que las correlaciones entre las variables son
distintas de cero de modo significativo, se comprueba si el determinante de la matriz es distinto de
uno, es decir, si la matriz de correlaciones es distinta de la matriz identidad. Si las variables están
correlacionadas hay muchos valores altos en valor absoluto fuera de la diagonal principal de la matriz
de correlaciones, además, el determinante es menor que 1 (el máximo valor del determinante es 1 si
las variables están incorrelacionadas). La hipótesis planteada es:
Bartlett. Medida Kaiser-Meyer-Olkin (KMO). Contrasta si las correlaciones parciales entre las
variables son pequeñas: La hipótesis planteada es.
Si el valor de KMO es mayor a 60% el modelo factorial es adecuado (se rechaza H0)
Defunción 4. Para describir los gráficos es necesario, saber si existe o no correlación (r ij) entre los
puntos en el espacio. Como se muestra a continuación.
Ejercicio práctico N° 1
Los datos representan una muestra de 41 ciudades del Perú. En las que se miden: temperatura anual
en grados F, número de empresas mayores de 20 trabajadores, población (en miles de habitantes),
velocidad media del viento, precipitación anual media, días lluviosos al año. Las variables están
relacionadas con la contaminación atmosférica. Realizar análisis factorial utilizando el método de
componentes principales.
Solución:
En SPSS el procedimiento es: Analizar -> Reducción de dimensiones -> Factor. Aparece el cuadro
de dialogó siguiente. Aquí, ingrese en variables: temperatura, empresas, población, viento,
precipitación, días. Como se muestra en la figura.
Si pulsa en el botón descriptivos, aparece el cuadro de dialogo siguiente. Aquí, marca los estadísticos
necesarios para el análisis.
Pulsar en el botón puntuaciones, para guardar los factores encontrados en el editor de datos.
Clic en el botón rotación: marque gráficos de carga, esta opción muestra la gráfica de los componentes
(factores) encontrados.
Finalmente pulse en aceptar, El visor de resultados presenta los siguientes cuadros y gráficos. Los
resultados obtenidos son a partir de la matriz de correlaciones.
La tabla representa las medias y desviaciones estándar y el número de observaciones (41) de cada
una de las variables del trabajo de investigación.
El cuadro calcula la matriz de correlaciones, el nivel crítico (significación) de cada una de las
variables y el determinante de las correlaciones. Se observa que algunas variables están
correlacionadas y otras no. Esta matriz es importante porque indica preliminarmente que las variables
que están correlacionadas formaran una componente (factor). Para realizar el análisis factorial, es
necesario que las variables presenten factores comunes. Es decir, que estén muy correlacionadas entre
sí. Los coeficientes de la matriz de correlaciones deben ser grandes en valor absoluto
Test de esfericidad de Barlett. Comprueba que las correlaciones entre las variables son distintas de
cero de modo significativo, se comprueba si el determinante de la matriz es distinto de uno. La
hipótesis planteada es:
El determinante de la matriz es 0.014, este valor es distinto de uno por lo que se rechaza H0. Se
concluye que el modelo si es adecuado.
El cuadro siguiente muestra las pruebas KMO y Bartlett. Medida Kaiser-Meyer-Olkin de adecuación
de muestre (KMO) la hipótesis planteada seria.
H0: KMO 0 : Modelo factorial es inadecuado o mediocre
H1: KMO 1 : Modelo factorial es adecuado (KMO > 0.60)
Como el valor de KMO es 0.365, el modelo factorial es inadecuado (se acepta H0)
Como el nivel crítico (Sig.) es 0.00 es menor que 5% se recha H0. En consecuencia el modelo factorial
es adecuado.
Como se observa dos pruebas estadísticas (Determinante y chi cuadrado) dicen que el modelo es
adecuado, mientras que KMO dice que es inadecuado, Dependerá del investigador tomar la decisión
correcta.
Cuadro varianza total explicada. Se utiliza para determinar cuántos factores deben retenerse. Los
primeros tres componentes tienen todos varianzas (autovalores=λi) mayores que 1 y entre los tres
recogen el 84.846% de la varianza de las variables originales.
Podemos observar que la primera componente aporta un 36.603% de variabilidad mientras que la
segunda componente aporta 24.999% de variabilidad, sumando la variabilidad de la primera y
segunda componentes se obtiene 61.602% de variabilidad, pero si sumamos la variabilidad de la
tercera componente (23.244%) se obtiene 84.846% de variabilidad. En consecuencia el número de
componentes (factores) elegidos son tres.
Para realizar una lectura de los datos más adecuado grafiquemos solo dos componente como
se muestra en la imagen siguiente. Primero elegir dos puntos por ejemplo, empresa y
población, en seguida desde el centro (intersección de las componentes) trazar una recta
imaginariamente a los puntos elegidos, terceo de ver el ángulo se formas ambas rectas (ver
Definición 3). Si el ángulo tiende a cero grados existe correlación positiva entre las variables,
si tiene a 90 grados no existe correlación y si tiende a 180 grados existe correlación negativa.
En consecuencia, población y empresa están altamente correlacionadas, mientras que
precipitación y viento no están relacionados.
Como se guardaron las puntaciones, los resultados (puntuaciones de cada factor) se muestran en
el editor de datos (vista de datos). Como se observa en el gráfico.
Con los datos correspondientes a 30 Cortes Superiores de Justicia del Perú, medidos en seis variables:
pendiente, ingresado, resueltos, personal, dependencias y población (capítulo 7.1.1). Con esta
información realizar análisis factorial.
Solución:
En SPSS el procedimiento es: Analizar -> Reducción de dimensiones -> Factor. Aparece el cuadro
de dialogó siguiente. Aquí, ingrese en variables: pendiente, ingresado, resueltos, personal,
dependencias y población.
Si pulsa en el botón descriptivos, aparece el cuadro de dialogo siguiente. Aquí, marca los estadísticos
necesarios para el análisis.
Pulsar en el botón puntuaciones, para guardar los factores encontrados en el editor de datos.
Finalmente pulse en aceptar, El visor de resultados presenta los siguientes cuadros y gráficos. Los
resultados obtenidos son a partir de la matriz de correlaciones.
La tabla representa las medias y desviaciones estándar y el número de observaciones (30) de cada
una de las variables del trabajo de investigación.
El cuadro calcula la matriz de correlaciones, el nivel crítico (significación) de cada una de las
variables y el determinante de las correlaciones. Se observa que las variables están correlacionadas.
Para realizar el análisis factorial, es necesario que las variables presenten factores comunes. Es decir,
que estén muy correlacionadas entre sí. Los coeficientes de la matriz de correlaciones deben ser
grandes en valor absoluto
Test de esfericidad de Barlett. Comprueba que las correlaciones entre las variables son distintas de
cero de modo significativo, se comprueba si el determinante de la matriz es distinto de uno. La
hipótesis planteada es:
El determinante de la matriz es 5E6, este valor es distinto de uno por lo que se rechaza H0. Se concluye
que el modelo si es adecuado.
Como el valor de KMO es 0.850, el modelo factorial es adecuado (se recha H0)
Prueba de esfericidad de Bartlett aproximación chi-cuadrado es una trasformación de la determinante
de matriz de correlación.
H0: Modelo factorial es inadecuado o mediocre
H1: Modelo factorial es adecuado
Como el nivel crítico (Sig.) es 0.00 es menor que 5% se recha H0. En consecuencia el modelo factorial
es adecuado.
Como se observa las tres pruebas estadísticas confirman que el modelo es adecuado,
Las comunalidades es igual a 0 si los factores comunes no explicaran nada la variabilidad de una
variable, y sería igual a 1 si queda totalmente explicada. Se observa que todas las variables aportan
alta variabilidad al modelo.
Cuadro varianza total explicada. Se utiliza para determinar cuántos factores deben retenerse. La
primeros componente tiene varianza (autovalor=λi) mayores que 1 y recogen el 90.985% de la
varianza de las variables originales. En consecuencia el número de componentes (factores) elegidos
uno.
El Gráfico de Sedimentación. Es el gráfico de la varianza asociada a cada factor. Se utiliza para
determinar cuántos factores deben retenerse. Otra opción es conservar aquellos factores cuyo
autovalor asociado sea mayor a 1. En este caso es una sola componente elegida.
Matriz de Componentes. Muestra los coeficientes de las variables de la combinación lineal del factor
1. Como se muestra en la ecuación siguiente.
Como se guardaron las puntaciones, los resultados (puntuaciones del factor 1) se muestran en el
editor de datos (vista de datos).
7.2.1 ANÁLISIS DE CORRESPONDENCIAS.
Definición 1. Es una técnica descriptiva para representar tablas de contingencia, es decir, tablas donde
recogemos las frecuencias de aparición de dos o más variables cualitativas en un conjunto de
elementos. La información de partida ahora es una matriz de dimensiones IxJ, que representa las
frecuencias absolutas observadas de dos variables cualitativas en n elementos. La primera variable se
representa por flas, y suponemos que toma I valores posibles, y la segunda se representa por
columnas, y toma J valores posibles. Puede interpretarse: Como una manera de representar las
variables en un espacio de dimensión menor, de forma análoga a componentes principales, pero
definiendo la distancia entre los puntos de manera coherente con la interpretación de los datos y en
lugar de utilizar la distancia euclídea utilizamos la distancia ji-cuadrado. La segunda interpretación
está más próxima al escalado multidimensional: es un procedimiento objetivo de asignar valores
numéricos a variables cualitativas.
Definición 2. Uno de los objetivos del análisis de correspondencias es describir las relaciones
existentes entre dos variables nominales, recogidas en una tabla de correspondencias, sobre un
espacio de pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las
categorías de cada variable. Para cada variable, las distancias sobre un gráfico entre los puntos de
categorías reflejan las relaciones entre las categorías, con las categorías similares representadas
próximas unas a otras. La proyección de los puntos de una variable sobre el vector desde el origen
hasta un punto de categoría de la otra variable describe la relación entre ambas variables. Por su parte,
el análisis de correspondencias asume que las variables son nominales y permite describir las
relaciones entre las categorías de cada variable, así como la relación entre las variables. Además, el
análisis de correspondencias se puede utilizar para analizar cualquier tabla de medidas de
correspondencia que sean positivas.
Se presenta la clasificación de n=5387 escolares por el color de sus ojos, que tiene cuatro categorías
posibles (I=4), y el color de su cabello, que tiene cinco categorías posibles (J=5). Con esta
información realizar análisis de correspondencia.
Solución.
Luego, ir al menú Analizar -> Reducción de Datos -> Análisis de Correspondencia. Muestra el cuadro
de diálogo siguiente. Aquí seleccione ojos como variable de fila.
Pulse en definir rango. Cuadro de diálogo definir rango de filas. Aquí escriba 1 como valor mínimo
y escriba 4 como valor máximo. Luego pulse en Actualizar. Finalmente pulse en Continuar.
A continuación seleccione pelo como variable de columna, y pulse en definir rango. Aquí escriba 1
como valor mínimo y escriba 5 como valor máximo. Pulse en actualizar y en continuar.
Una visión general de los puntos de fila generales muestra las contribuciones de los puntos de fila a la
inercia de las dimensiones y las contribuciones de las dimensiones a la inercia de los puntos de fila. Si
todos los puntos contribuyen de igual manera a la inercia, las contribuciones serían 0,25 (1/4). Oscuros
(0.605) y Claros (0.286) contribuyen en una parte importante a la inercia de la primera dimensión.
Castaños (0.657) contribuye con mayor cantidad a la inercia de la segunda dimensión. Azules contribuye
muy poco en ambas dimensiones.
La visión general de los puntos de columna muestra las contribuciones que implican a los puntos de
columna. El color de pelo Oscuro (0.449), Rubio (0.401) y Negro (0.132) contribuye sobre todo a la
primera dimensión, mientras que Castaño (0.572) explica una gran cantidad de la inercia para la segunda
dimensión. Mientras que Pelirrojo contribuyen muy poco a ambas dimensiones.
El gráfico de puntos de fila muestra que surgen así tres clasificaciones generales. Situado en la parte
derecha superior del gráfico la primera clasificación representado por Oscuros mientras que la segunda
clasificación por Claros y Azules que son similares entre sí. Finalmente Castaños
Observe en el gráfico de los puntos de columna que todas las marcas están lejos entre sí. En consecuencia
los color de cabello en general no están relacionas. Sin embargo pelirrojo con rubio tienen una baja
correlación.
Finalmente del grafico siguiente se puede concluir. Los de color de pelo pelirrojo y rubio tienen ojos claros
y azules, mientras lo de pelo castaño tiene ojos castaños, de otro lado los de color de pelo oscuro tienen
color de ojos oscuros y los de pelo negro es más probable que tengan color de ojos oscuros.
COMPONENTES PRINCIPALES
Si es posible describir con precisión los valores de p variables por un pequeño subconjunto r<p de
ellas, se habrá reducido la dimensión a costa de una pequeña pérdida de información.
Dadas n observaciones de p variables, se analiza si es posible representar adecuadamente esta
información con un número menor de variables construidas como combinaciones lineales de las
originales. Su utilidad es doble:
Supongamos que se dispone de los valores de p-variables en n elementos de una población dispuestos
en una matriz X de dimensiones n×p, donde las columnas contienen las variables y las filas los
elementos.
Supondremos en este capítulo que previamente hemos restado a cada variable su media, de manera
que las variables de la matriz X tienen media cero y su matriz de covarianzas vendrá dada por 1/n
X’X.
Problema 1
El problema que se desea resolver es cómo encontrar un espacio de dimensión más reducida que
represente adecuadamente los datos. El problema puede abordarse desde tres perspectivas
equivalentes.
a) Enfoque descriptivo
Se desea encontrar un subespacio de dimensión menor que p tal que al proyectar sobre él los puntos
conserven su estructura con la menor distorsión posible. Consideremos el caso de dos dimensiones
(p=2).