Tema 4. La Correlación Entre Variables
Tema 4. La Correlación Entre Variables
Tema 4. La Correlación Entre Variables
TEMA
Semana de refuerzo - Estadística
Distribuciones
conjuntas
Distribuciones
Tablas de Variables marginales
correlación cuantitativas
Distribuciones
Diagramas de condicionadas
C0varianza
puntos
La correlación Coeficiente de
entre variables correlación
Variables lieneal de
paramétricas Pearson
Coeficiente de
correlación de
Correlación Spearman
Ordinales
Coeficientes
Gamma, Tau b
Variables no y Tau c
paramétricas
Al menos 1 Prueba de
variables no independencia
dicotómica Chi-cuadrado
Nominales
Igual número Coeficiente de
de categorías contingencia
Introducción
Tablas de correlación
En una tabla de correlación aparecen los valores de xi e yj y sus frecuencias conjuntas, fij.
y
y1 y2 ... yj ... yh fi.
x1 f11 f12 ... f1j ... f1h f1.
x2 f21 f22 ... f2j ... f2h f2.
... ... ... ... ... ... ... ...
x xi fi1 fi2 ... fij ... fih fi.
... ... ... ... ... ... ... ...
xk fk1 fk2 ... fkj ... fkh fk.
f.j f.1 f.2 ... f.j ... f.h F
Tabla 1. Tabla de correlación de x e y. Los puntos se emplean para distinguir las frecuencias de los valores
de x e y.
Distribuciones conjuntas
4.1
ℎ =
4.2
Se cumple que
ℎ =1
4.3
Distribuciones marginales
Las distribuciones marginales son aquellas en las que se tratan las frecuencias de las
variables por separado. Fijándonos en la tabla 1, las distribuciones marginales son los
valores de la última fila y la última columna de x e y. Así, xi y fi. representan la distribución
marginal de x, y yj, f.j, la de y.
Se comprueba que
. = + +⋯+ + ⋯+ = =
4.4
. = + + ⋯+ +⋯+ = =
4.5
.
ℎ.= = ℎ
4.6
.
ℎ. = = ℎ
4.7
Se cumple que
ℎ =1
4.8
ℎ = 1
4.9
Puesto que las distribuciones marginales solo se centran en una variable, es posible
calcular sus medias y sus desviaciones estándar.
Distribuciones condicionadas
En aquellos casos en los que una variable x esté condicionada por otra y o viceversa, tales
distribuciones se llaman condicionadas. x/y=yj es la condicionada de x cuando y=yj, y
y/x=xi es la condicionada de y cuando x=xi. Las frecuencias se representa como fi/y=yj y
fj/x=xi respectivamente.
= =
4.10
= =
4.11
Por lo que
= = .
4.12
= = .
4.13
ℎ
= =
.
4.14
ℎ
= =
.
4.15
Se cumple que
ℎ
= =1
4.16
ℎ
= = 1
4.17
A continuación se muestran las veces que cogen al día el autobús una serie de personas
encuestadas y el tiempo que este tarda en llegar a su destino.
1 2 3 4 fi.
7 13 6 14 14 47
10 7 3 16 7 33
15 14 11 5 3 33
x
20 3 3 2 4 12
25 1 2 3 2 8
f.j 38 25 40 30 F=133
6
ℎ = = = 0,045 = 4,5%
133
7 6 6/25
10 3 3/25
15 11 11/25
20 3 3/25
25 2 2/25
25 1
Covarianza
Paramétrica: aquella muestra que tiene al menos 30 individuos, las variables son
cuantitativas y se cumplen los supuestos de normalidad, igualdad de varianzas e
independencia de observaciones.
No paramétrica: no cumple alguno de tales supuestos.
Los diagramas de puntos suponen una forma sencilla de visualizar la relación entre
variables cuantitativas. Estos diagramas son una representación de los valores de la
variable x en el eje horizontal y los de y en el vertical. A continuación, se pueden ver algún
tipo de diagrama de puntos.
Cuando se trata de covariación directa o inversa la nube de puntos es una línea recta.
Cabe destacar que la correlación no tiene porqué implicar causación entre las variables.
En la directa los valores de las dos variables aumentan progresivamente, mientras que
en la inversa a medida que x aumenta, y disminuye. Cuando no hay relación, la nube de
puntos es dispersa y cuando toma otro ajuste que no sea lineal puede ser curvilínea,
exponencial, etc.
1
= = ( − ̅) −
−1
4.18
De manera que:
Si Sxy>0 la relación entre variables es directa y para que sea positiva se tienen que dar
cualquiera de estos dos casos:
> ̅ >
< ̅ <
Si Sxy<0 la relación entre variables es inversa y para que sea negativa se tienen que
dar cualquiera de estos dos casos:
> ̅ <
< ̅ >
Cuanto más grande y positivo sea el valor de la covarianza más relación directa habrá y
cuanto más pequeño y negativo sea más relación inversa.
x y fij
5 107 5
15 133 6
20 125 2
27 147 7
32 154 3
17 136 9
25 144 8
12 129 10
6 109 1
28 150 2
̅ = 18,7
= 133,4
− ( − ̅) ∙ ( − ) ( − ̅) ∙ (
xi − ̅ yj
− )
5 -13,7 107 -26,4 361,7 1808,4
1295,2 4815,4
Se obtiene que:
1 1
= ( − ̅) − = ∙ 4815,4 = 92,60
−1 53 − 1
Tal valor es bastante positivo por lo que la relación entre las variables es directa y
medianamente fuerte.
1
= ( − ) −
4.19
La covarianza depende de las unidades de las variables por lo que si éstas cambian,
también lo hace la covarianza. Es decir, no se obtendría el mismo valor de covarianza
para dos variables cuando se miden en metros o en kilómetros, días o segundos, gramos
o kilogramos, etc. La relación entre tales variables, aunque cambien las unidades es la
misma por ello se establece otro parámetro para el estudiar la relación entre variables
cuantitativas que no varía puesto que carece de unidades. Tal parámetro es el coeficiente
de correlación lineal de Pearson y se empela con muestras paramétricas. Se calcula como
el cociente entre la covarianza y el producto de las desviaciones estándar de las variables.
4.20
Este valor es siempre el mismo para dos variables aunque cambien sus unidades y oscila
entre -1 y 1. Se cumple que:
Si -1<r<1: la relación podrá ser directa o inversa y más fuerte a medida que r se
aproxime a 1 o -1 o más débil si se aproxima a 0.
A partir de los datos de la tabla del ejemplo 2 calcular el coeficiente de correlación lineal
de Pearson.
x y fij
5 107 5
15 133 6
20 125 2
27 147 7
32 154 3
17 136 9
25 144 8
12 129 10
6 109 1
28 150 2
Sx= 7,8
Sy=12,8
92,60
= = = 0,93
7,8 ∙ 12,8
Este valor muestra una correlación lineal directa y bastante fuerte entre las variables.
Gráfico 1. Diagrama de dispersión para las variables del ejemplo 2 con ajuste lineal.
4. Valor de r:
Pulsar SHIFT + S-VAR (tecla del número 2) + dos veces a REPLAY y cuando
aparece r pulsar 3.
. .= −2
4.21
Figura 2. Tabla de los valores críticos del coeficiente de correlación lineal de Pearson a niveles de
significancia de 0,05 y 0,01.
Niveles de
Niveles de Niveles de Niveles de Niveles de Niveles de
colesterol
Individuo glucosa glucosa colesterol glucosa colesterol
total
(mg/dl) (mg/dl) total (mg/dl) (mg/dl) total (mg/dl)
(mg/dl)
A partir de las fórmulas del tema 3 se calculan las medidas de asimetría y curtosis
obteniéndose los siguientes valores:
Tal y como se puede observar tales valores están próximos a cero por lo que se puede
decir que la curva de distribución de estas variables cuantitativas continuas es normal.
. .= − 2 = 30 − 2 = 28
Para un nivel de significancia del 0,05 el valor de r crítico con 28 grados que proporciona
la tabla es 0,361.
Puesto que 0,954> 0,361 se rechaza la hipótesis nula y se afirma que hay relación
significativa entre las variables padecer ateroesclerosis y ser diabético. El riesgo de error
es menor al 5% por lo que se rechaza la H0 a p<0,05.
En aquellas situaciones en las que no se cumplan las condiciones paramétricas hay que
trabajar con otros coeficientes. En caso de variables cuantitativas en muestras menores
de 30 o variables cualitativas que se pueden codificar con números se emplea el
coeficiente de correlación de Spearman. Así mismo, al final del apartado se verán otros
tipos de coeficientes que también pueden emplearse.
6∑
=1−
( − 1)
4.22
Figura 3. Tabla de valores críticos del coeficiente de correlación de Spearman a diferentes valores de
significancia.
Hay que establecer de igual modo una hipótesis nula, Ho, y una hipótesis alternativa, Ha,
la cual será aceptada cuando la nula se rechace y se establezca que hay relación entre las
variables.
Rango de Rango de
Cuidad emisiones cáncer de d d2
de CO2 pulmón
1 3 5 -2 4
2 7 9 -2 4
3 12 8 4 16
4 10 12 -2 4
5 13 14 -1 1
6 8 4 4 16
7 6 6 0 0
8 3 4 -1 1
9 17 10 7 49
10 15 17 -2 4
11 4 2 2 4
12 9 7 2 4
107
6∑ 6 ∙ 107
=1− =1− = 0,37
( − 1) 12(144 − 1)
En la tabla de la figura 3 se observa que para n=12 y un nivel de significancia de 0,05 los
valores críticos de rs son ±0,5804. El valor obtenido de rs cae dentro de este rango por lo
que se acepta la hipótesis nula y se deduce que no hay relación entre las variables para
un nivel de significancia de 0,05.
Cuando se trata de variables ordinales con muy pocas categorías o variables de la escala
Likert se emplean otros estadísticos que son los índices de correlación Tau b, Tau c y
Gamma y que del mismo modo que los anteriores, toman valores entre -1 y 1.
Para trabajar con estos estadísticos hay que calcular el número de concordancias,
discordancias y empates entre valores. Para ello se ordenan los pares de datos según el
orden de la primera variable y se hace una comparación con los valores de la segunda
variable. Si el orden es directo hay concordancia (1), si es invertido hay discordancia (-1)
y si los datos son los mismos se dice que hay empate o independencia (0).
( − 2)
º =
2
4.23
El coeficiente Gamma hace referencia a la reducción del error que se comete cuando se
predice el tipo de ordenamiento que presentan los datos de una variable dependiente en
función de la ordenación de la variable independiente. Para calcular Gamma se aplica la
siguiente fórmula:
−
=
+
4.24
Dada una tabla como la que se muestra a continuación, los casos concordantes y
discordantes se calculan de la siguiente manera:
1 2
1 A B
2 C D
3 E F
Tabla 4. Variables ordinales con pocas categorías. La variable x toma 3 categorías y la y dos.
Los casos concordantes son: AD, AF y CF y se calculan como A (D+F) + CF. Los casos
discordantes son: BC, BE y DE y se calculan como B (C+E)+DE. Tal y como se puede
observar se excluyen los empates.
Casos concordantes:
20⋅(50+10+15+10+5+40)+15⋅(10+10+40)+35⋅(15+10+5+40)+50⋅(10+40)+
20⋅(5+40)+15⋅40=9950
Casos discordantes:
15⋅(15+10+50+10+15+5)+5⋅(10+10+5)+20⋅(50+10+15+5)+15⋅(10+5)+35⋅(15+5)
+50⋅5=4225
− 9950 − 4225
= = = 0,404
+ 9950 + 4225
Este valor indica que hay un cierto grado de asociación positiva entre las variables.
−
=
( + + ) + +
4.25
Los valores de este coeficiente también van de -1 a 1 pero no llegan a tales valores cuando
se trata de tablas no cuadradas. A partir de la tabla 4, los casos empatados se calculan
como:
E x:
(20⋅35+20⋅20+20⋅15+35⋅20+35⋅15+20⋅15)+(15⋅50+15⋅15+15⋅5+50⋅15+50⋅5+15⋅5)+(5⋅10
+5⋅10+5⋅40+10⋅10+10⋅40+10⋅40)=5650
Ey:
(20⋅15+20⋅5+15⋅5)+(35⋅50+35⋅10+50⋅10)+(20⋅15+20⋅10+15⋅10)+(15⋅5+15⋅40+5⋅40)=46
00
− 9950 − 4225
= =
( + ) (9950 + 4225 + 5650)(9950 + 4225 + 4600)
+ + +
= 0,297
Tal y como se puede observar, al emplear le coeficiente Tau b, la relación sale menor ya
que se tienen en cuenta los empates.
Por último está el coeficiente Tau c que elimina alguno de los problemas del coeficiente
Tau b. Se calcula como:
2 ( − )
=
( − 1)
n es el tamaño muestral y m el menor número de casos de no empate entre las variables, es decir,
mínimo número de filas o columnas.
4.26
2 ( − ) 2 ∙ 3(9950 − 4225))
= = = 0,298
( − 1) 240 (3 − 1)
La bondad del ajuste de estos coeficientes se puede hacer del mismo modo que para el
coeficiente de Spearman.
. ∙ .
=
feij es la frecuencia esperada, fi. es la frecuencia marginal de una fila de la variable x, f.j es la
frecuencia marginal de una columna de la variable y, y fij es la frecuencia conjunta, es decir el total
de casos para ambas variables.
4.27
−
=
4.28
El valor del estadístico χ2 será nulo cuando haya independencia entre las variables puesto
que las frecuencias esperadas serán iguales a las observadas y a medida que aumente la
diferencia entre tales frecuencias el estadístico aumentará mostrando que cada vez hay
menos independencia.
Para establecer la bondad del ajuste se establece una hipótesis nula y uno alternativa de
manera que:
En la curva de distribución χ2, que puede estar sesgada hacia la derecha cuando el
número de grados de libertad es muy pequeño, el área total bajo la curva es 1. A
continuación se muestra la tabla de los valores de esta distribución:
Figura 4. Tabla de distribución χ2. Fuente: Estadística para la Administración y la Economía de Levin y
Rubin.
. . = ( − 1)(ℎ − 1)
k y h el total de datos de x y de y.
4.29
En la siguiente tabla se muestra el tipo de ropa comprada esta temporada en una tienda
en función del sexo. Estudiar la dependencia entre las variables.
Hombre Mujer
Gorros 25 60
Pantalones 75 110
Camisas 70 50
Zapatos 20 35
Gorros 25 60 85
Camisas 70 50 120
Zapatos 20 35 55
85 ∙ 190
= = 36,3
445
Haciendo la misma operación con todas las frecuencias se obtiene la siguiente tabla de
frecuencias esperadas:
En la siguiente tabla aparecen calculadas las diferencias entre las frecuencias observadas
y las esperadas:
−
= = 11,14 + 8,28 = 19,42
Este valor es bastante elevado por lo que se puede decir que hay relación significativa
entre las variables.
Las tablas de contingencia se emplean cuando se trata de dos variables categóricas con
el mismo número de categorías y el estudio de la relación entre variables se hace
mediante el coeficiente de contingencia de Pearson. La fórmula para calcular este
coeficiente se basa en el estadístico χ2.
=
+
4.30
El coeficiente de contingencia toma valores entre 0 y Cmáx, que siempre es menor que 1.
La fórmula para calcular Cmáx es:
−1
á =
4.31
= ∙ á
4.32
A partir de los siguientes datos de la siguiente tabla calcula la asociación entre variables:
Tiene No tiene
Total
depresión depresión
Hace deporte 40 5 45
No hace
55 35 90
deporte
Total 95 40 135
Tiene No tiene
Total
depresión depresión
No hace
63,3 26,7 90
deporte
Total 95 40 135
En la siguiente tabla se muestran las diferencias entre las frecuencias observadas y las
esperadas:
11,02
−
= = 11,02
11,02
= = = 0,275
+ 11,02 + 135
−1 2−1
á = = = 0,707
2
= ∙ á = 0,2750,707 = 0,194
+ Información
Lecciones magistrales
Cálculo de correlaciones
No dejes de leer…
Tutorial de SPSS
Este artículo supone un acercamiento real para el alumno al uso del estadístico chi-
cuadrado.
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://dialnet.unirioja.es/servlet/articulo?codigo=3922214
No dejes de ver…
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=1qkAU--IK8Y
Análisis de la relación entre dos variables cualitativas: test Chi cuadrado. Módulo
4
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=XvPEeQAjTW8
A fondo
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://rua.ua.es/dspace/bitstream/10045/8139/1/CONTINGENCIA.pdf
Bibliografía
Schutt, R. (1995). Investigating the Social World. Los Ángeles, SAGE Publications.
Test
x 10 20 10 40 30 40 50 50 30 40 50 30 20 10 50 30 40
y 10 20 10 20 20 20 40 40 20 20 40 20 10 10 40 20 20
A. 17.
B. 4.
C. 1.
D. No se puede calcular.
x 10 20 10 40 30 40 50 50 30 40 50 30 20 10 50 30 40
y 10 20 10 20 20 20 40 40 20 20 40 20 10 10 40 20 20
A. 17.
B. No se puede saber.
C. 4.
D. 9.
x y x y x y x y
2,7 7 0,8 6 2,3 9 5,3 6
12,6 24 3,4 12 6,1 14 7,6 13
3,2 5 6,7 17 3,3 10 13,1 27
4,9 4 12 24 5,6 9 11,7 23
5,4 9 3,2 11 7,8 12 10,5 21
6,7 10 2,1 9 10 24 1 4
3,2 10 0,9 5 3,2 9 0,5 3
1,1 2 0,7 3 4,4 10 6,6 9
Estantería Productos
1 13
2 22
3 18
4 17
A. No.
B. Sí
C. Si pero poca.
D. No se puede saber.
1 2
1 30 5
2 15 22
3 12 18
A. 0,57.
B. 1,15.
C. 0,45.
D. 0,78.
1 2
1 30 5
2 15 22
3 12 18
A. 0,67.
B. 0,16.
C. 1,4.
D. 0,24.
1 2
1 30 5
2 15 22
3 12 18
A. -0,35.
B. 0,65.
C. 0,41.
D. 0,9.
9. A partir de los siguientes datos, si los valores de x aumentasen diez veces y los valores
de y se redujesen a la mitad, ¿cuál es la respuesta correcta?
x 10 15 20 22 30 32
y 80 160 240 280 320 400
No vive en la
Vive en la cuidad cuidad
Coche 41 12
Metro 15 14
Bus 2 11
Moto 8 3
Tren 2 1
Otro 2 3
A. 20.
B. No se sabe.
C. 15.
D. 12.