Tema 4. La Correlación Entre Variables

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 40

La correlación entre variables

[4.1] La correlación estadística

[4.2] Coeficiente de correlación de Pearson

[4.3] Coeficiente de correlación de Spearman

[4.4] La bondad del ajuste Chi-cuadrado

[4.5] Tablas de contingencia

TEMA
Semana de refuerzo - Estadística

Distribuciones
conjuntas

Distribuciones
Tablas de Variables marginales
correlación cuantitativas

Distribuciones
Diagramas de condicionadas
C0varianza
puntos

La correlación Coeficiente de
entre variables correlación
Variables lieneal de
paramétricas Pearson

Coeficiente de
correlación de
Correlación Spearman
Ordinales
Coeficientes
Gamma, Tau b
Variables no y Tau c
paramétricas
Al menos 1 Prueba de
variables no independencia
dicotómica Chi-cuadrado
Nominales
Igual número Coeficiente de
de categorías contingencia

4.1. La correlación estadística

Introducción

La correlación estadística se basa en el análisis bidimensional. Para abordar tal análisis


se toman dos variables de la población de datos y se analizan de forma conjunta. Tales
variables se denotan como x e y, y pueden ser de carácter cuantitativo o cualitativo. Para
proceder al análisis se elaboran tablas de doble entrada en las que se puede ver la relación
entre las variables. Cuando las variables son cuantitativas, las tablas de doble entrada se
llaman tablas de correlación.

Tablas de correlación

En una tabla de correlación aparecen los valores de xi e yj y sus frecuencias conjuntas, fij.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

y
y1 y2 ... yj ... yh fi.
x1 f11 f12 ... f1j ... f1h f1.
x2 f21 f22 ... f2j ... f2h f2.
... ... ... ... ... ... ... ...
x xi fi1 fi2 ... fij ... fih fi.
... ... ... ... ... ... ... ...
xk fk1 fk2 ... fkj ... fkh fk.
f.j f.1 f.2 ... f.j ... f.h F

Tabla 1. Tabla de correlación de x e y. Los puntos se emplean para distinguir las frecuencias de los valores
de x e y.

Dos variables se pueden estudiar de manera conjunta, marginal o condicionada.

Distribuciones conjuntas

Cuando dos o más variables presentan comportamientos conjuntos se habla de


distribuciones conjuntas. En la tabla 1 se muestran las distribuciones conjuntas de las
variables y las frecuencias absolutas conjuntas se representan con doble subíndice.

4.1

La frecuencia relativa conjunta se calcula dividiendo la frecuencia absoluta entre el


tamaño muestral.

ℎ =

4.2
Se cumple que

ℎ =1

4.3

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Distribuciones marginales

Las distribuciones marginales son aquellas en las que se tratan las frecuencias de las
variables por separado. Fijándonos en la tabla 1, las distribuciones marginales son los
valores de la última fila y la última columna de x e y. Así, xi y fi. representan la distribución
marginal de x, y yj, f.j, la de y.

x fi. hi. y f.j h.j


x1 f1. h1. y1 f.1 h.1
x2 f2. h2. y2 f.2 h.2
... ... ... ... ... ...
xi fi. hi. yi f.j h.j
... ... ... ... ... ...
xk fk. hk. yn f.n h.n

Tabla 2. Distribuciones marginales de x e y.

fi. y f.j son las frecuencias absolutas marginales de x e y respectivamente.

Se comprueba que

. = + +⋯+ + ⋯+ = =

4.4

. = + + ⋯+ +⋯+ = =

4.5

hi. y h.j son las frecuencias relativas de x e y respectivamente.

.
ℎ.= = ℎ

4.6

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

.
ℎ. = = ℎ

4.7
Se cumple que

ℎ =1

4.8

ℎ = 1

4.9

Puesto que las distribuciones marginales solo se centran en una variable, es posible
calcular sus medias y sus desviaciones estándar.

Distribuciones condicionadas

En aquellos casos en los que una variable x esté condicionada por otra y o viceversa, tales
distribuciones se llaman condicionadas. x/y=yj es la condicionada de x cuando y=yj, y
y/x=xi es la condicionada de y cuando x=xi. Las frecuencias se representa como fi/y=yj y
fj/x=xi respectivamente.

x/y=yj fi/y=yj hi/y=yj y/x=xi fj/x=xi hj/x=xi


x1 f1j h1j y1 f1i h1i
x2 f2j h2j y2 f2i h2i
... ... ... ... ... ...
xi fij hij yi fji hji
... ... ... ... ... ...
xk fkj hkj yn fni hni

Tabla 3. Distribuciones condicionadas de x de y.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Tales frecuencias absolutas condicionadas se calculan como

= =

4.10

= =

4.11

Por lo que

= = .

4.12

= = .

4.13

Las frecuencias relativas condicionadas son


= =
.

4.14


= =
.

4.15

Se cumple que


= =1

4.16

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística


= = 1

4.17

Así mismo, se puede calcular la media condicionada de x y de y y sus desviaciones.

Ejemplo 1. Distribuciones conjuntas, marginales y condicionadas

A continuación se muestran las veces que cogen al día el autobús una serie de personas
encuestadas y el tiempo que este tarda en llegar a su destino.

A. ¿Cuántos usuarios usan 1 autobús?


B. ¿Qué porcentaje de usuarios toman 2 autobuses y tardan 7 minutos en llegar?
C. ¿Cuál es la distribución condicionada para aquellas personas que cogen el autobús 3
veces al día?

Llamamos x al tiempo e y a las veces.

1 2 3 4 fi.

7 13 6 14 14 47

10 7 3 16 7 33

15 14 11 5 3 33
x
20 3 3 2 4 12

25 1 2 3 2 8

f.j 38 25 40 30 F=133

A. ¿Cuántos usuarios usan 1 autobuses?


Se trata de una distribución marginal de y=1 autobús. La frecuencia absoluta
marginal es f1j=38 personas.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

B. ¿Qué porcentaje de usuarios toman 2 autobuses y tardan 7 minutos en llegar?


Se trata de la distribución conjunta de x=7 minutos e y=2 autobuses. La frecuencia
absoluta conjunta es 6 y la frecuencia relativa conjunta es:

6
ℎ = = = 0,045 = 4,5%
133

C. ¿Cuál es la distribución condicionada para aquellas personas que cogen el autobús 3


veces al día?

x/y=2 fi/y=2 hi/y=2

7 6 6/25

10 3 3/25

15 11 11/25

20 3 3/25

25 2 2/25

25 1

Covarianza

El siguiente propósito es el estudio de la dependencia entre dos variables. En el tema 1


se introdujeron los tipos de relaciones que puede haber entre dos variables. Se habló de
dependencia causal unilateral, interdependencia, dependencia indirecta y concordancia.
Para el estudio de la dependencia entre variables es preciso dilucidar de qué tipo de
variables se trata, cuantitativas o cualitativas.

Hay que tener en cuenta el tipo de muestra:

Paramétrica: aquella muestra que tiene al menos 30 individuos, las variables son
cuantitativas y se cumplen los supuestos de normalidad, igualdad de varianzas e
independencia de observaciones.
No paramétrica: no cumple alguno de tales supuestos.

Si se trata de una muestra paramétrica el análisis de correlación se hace mediante el


coeficiente de correlación de Pearson. Si es una muestra no paramétrica hay que

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

distinguir entre ordinal y nominal. Si se trata de variables ordinales se emplea


principalmente el coeficiente de correlación de Spearman y otros coeficientes llamados
Tau b, Tau c y Gamma. Por el contrario, para variables nominales se emplea el ajuste
Chi-cuadrado o las tablas de contingencia.

Los diagramas de puntos suponen una forma sencilla de visualizar la relación entre
variables cuantitativas. Estos diagramas son una representación de los valores de la
variable x en el eje horizontal y los de y en el vertical. A continuación, se pueden ver algún
tipo de diagrama de puntos.

Figura 1. Diagramas de puntos.

Cuando se trata de covariación directa o inversa la nube de puntos es una línea recta.
Cabe destacar que la correlación no tiene porqué implicar causación entre las variables.
En la directa los valores de las dos variables aumentan progresivamente, mientras que
en la inversa a medida que x aumenta, y disminuye. Cuando no hay relación, la nube de
puntos es dispersa y cuando toma otro ajuste que no sea lineal puede ser curvilínea,
exponencial, etc.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

La covarianza en una muestra de tamaño n y se calcula de la siguiente manera:

1
= = ( − ̅) −
−1

4.18

De manera que:
Si Sxy>0 la relación entre variables es directa y para que sea positiva se tienen que dar
cualquiera de estos dos casos:

> ̅ >
< ̅ <

Si Sxy<0 la relación entre variables es inversa y para que sea negativa se tienen que
dar cualquiera de estos dos casos:

> ̅ <
< ̅ >

Si Sxy=0 no hay relación entre las variables y hay dispersión.

Figura 2. Diagramas de puntos en función del tipo de covarianza.

Cuanto más grande y positivo sea el valor de la covarianza más relación directa habrá y
cuanto más pequeño y negativo sea más relación inversa.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Ejemplo 2. Cálculo e interpretación de la covarianza

Estudiar la relación de las variables presentadas en la siguiente tabla:

x y fij
5 107 5
15 133 6
20 125 2
27 147 7
32 154 3
17 136 9
25 144 8
12 129 10
6 109 1
28 150 2

Se calcula las medias de cada variable:

̅ = 18,7
= 133,4

− ( − ̅) ∙ ( − ) ( − ̅) ∙ (
xi − ̅ yj
− )
5 -13,7 107 -26,4 361,7 1808,4

15 -3,7 133 -0,4 1,5 8,9

20 1,3 125 -8,4 -10,9 -21,8

27 8,3 147 13,6 112,9 790,2

32 13,3 154 20,6 274,0 821,9

17 -1,7 136 2,6 -4,4 -39,8

25 6,3 144 10,6 66,8 534,2

12 -6,7 129 -4,4 29,5 294,8

6 -12,7 109 -24,4 309,9 309,9

28 9,3 150 16,6 154,4 308,8

1295,2 4815,4

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Se obtiene que:

1 1
= ( − ̅) − = ∙ 4815,4 = 92,60
−1 53 − 1

Tal valor es bastante positivo por lo que la relación entre las variables es directa y
medianamente fuerte.

Cuando se trata de la población, la fórmula de la covarianza es:

1
= ( − ) −

4.19

4.2. Coeficiente de correlación lineal de Pearson

La covarianza depende de las unidades de las variables por lo que si éstas cambian,
también lo hace la covarianza. Es decir, no se obtendría el mismo valor de covarianza
para dos variables cuando se miden en metros o en kilómetros, días o segundos, gramos
o kilogramos, etc. La relación entre tales variables, aunque cambien las unidades es la
misma por ello se establece otro parámetro para el estudiar la relación entre variables
cuantitativas que no varía puesto que carece de unidades. Tal parámetro es el coeficiente
de correlación lineal de Pearson y se empela con muestras paramétricas. Se calcula como
el cociente entre la covarianza y el producto de las desviaciones estándar de las variables.

4.20

Este valor es siempre el mismo para dos variables aunque cambien sus unidades y oscila
entre -1 y 1. Se cumple que:

Si r=1 se trata de una correlación lineal directa y muy fuerte.


Si r=-1 se trata de una correlación lineal inversa y muy fuerte.
Si r=0 no hay correlación entre las variables ya que la covarianza es nula.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Si -1<r<1: la relación podrá ser directa o inversa y más fuerte a medida que r se
aproxime a 1 o -1 o más débil si se aproxima a 0.

Ejemplo 3. Cálculo del coeficiente de correlación lineal de Pearson

A partir de los datos de la tabla del ejemplo 2 calcular el coeficiente de correlación lineal
de Pearson.

x y fij
5 107 5
15 133 6
20 125 2
27 147 7
32 154 3
17 136 9
25 144 8
12 129 10
6 109 1
28 150 2

Se calculan las desviaciones estándar de x e y.

Sx= 7,8
Sy=12,8

A partir de la covarianza calculada anteriormente se calcula r:

92,60
= = = 0,93
7,8 ∙ 12,8

Este valor muestra una correlación lineal directa y bastante fuerte entre las variables.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Gráfico 1. Diagrama de dispersión para las variables del ejemplo 2 con ajuste lineal.

Cálculo del coeficiente de correlación lineal de Pearson con la calculadora

1. Borrar datos memorizados:


Pulsar SHIFT + CLR + tecla 1 (SCL) = o tecla 3 (All).

2. Elegir regresión lineal:


Pulsar MODE dos veces. Pulsar 2 (REG) y 1 (lin).

3. Introducir los datos:


Escribir el dato x1 y pulsar “,” meter el dato y1 y pulsar M+ (data). Repetir para
los demás datos. En REPLAY se pueden comprobar los datos y las frecuencias.

4. Valor de r:
Pulsar SHIFT + S-VAR (tecla del número 2) + dos veces a REPLAY y cuando
aparece r pulsar 3.

Prueba de correlación entre dos variables cuantitativas continuas


distribuidas como la curva normal

Esta prueba se basa en el estudio de la asociación entre dos variables cuantitativas


continuas medidas en un grupo de individuos, que se distribuyen como la curva normal.
Para llevar a cabo tal prueba se emplea el coeficiente de correlación de Pearson.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Se siguen los siguientes pasos:

1. Cerciorarse de que se trata de dos variables cuantitativas continuas medidas en un


mismo conjunto de individuos.
2. Hacer una gráfica de correlación para ver el tipo de asociación entre las mismas.
3. Verificar que las variables se distribuyen de forma normal mediante el estudio de la
asimetría y curtosis.
4. Calcular el valor del coeficiente de correlación de Pearson.
5. Establecer una prueba de hipótesis que consiste en plantear una hipótesis nula y una
alternativa de manera que:
Hipótesis nula, Ho: r=0.
Hipótesis alternativa, Ha= r≠ 0.
La hipótesis nula establece que no hay correlación entre las variables por lo que
mediante esta prueba lo que se pretende es ver si se puede rechazar la hipótesis nula
y por lo tanto, aceptar la alternativa.
6. Calcular los grados de libertad que son los valores que puede tomar una variable
arbitrariamente con anterioridad a que la otra tome sus valores para suponer que se
trata de valores libres. Se calculan a partir de la siguiente fórmula:

. .= −2

4.21

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

7. A partir de la siguiente tabla obtener el valor crítico del coeficiente de correlación de


Pearson:

Figura 2. Tabla de los valores críticos del coeficiente de correlación lineal de Pearson a niveles de
significancia de 0,05 y 0,01.

8. Si el valor de r calculado excede al crítico de la tabla se rechaza la hipótesis nula y se


puede decir que hay relación significativa entre las variables.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Ejemplo 4. Prueba de significancia del coeficiente de correlación de Pearson

Se pretende estudiar si existe relación entre la posibilidad de padecer ateroesclerosis en


personas diabéticas. Para ello se tomaron los siguientes datos de 10 individuos:

Niveles de
Niveles de Niveles de Niveles de Niveles de Niveles de
colesterol
Individuo glucosa glucosa colesterol glucosa colesterol
total
(mg/dl) (mg/dl) total (mg/dl) (mg/dl) total (mg/dl)
(mg/dl)

1 90 100 240 260 115 103

2 140 180 245 267 165 191

3 203 210 120 140 171 133

4 120 140 137 155 183 197

5 110 110 156 121 208 204

6 130 120 222 260 126 135

7 180 150 110 117 110 100

8 210 190 120 135 105 105

9 250 230 211 236 191 211

10 310 290 107 97 256 314

A partir de las fórmulas del tema 3 se calculan las medidas de asimetría y curtosis
obteniéndose los siguientes valores:

Niveles de glucosa Niveles de colesterol

Coeficiente de asimetría 0,62 0,52

Coeficiente de curtosis -0,73 -0,78

Tal y como se puede observar tales valores están próximos a cero por lo que se puede
decir que la curva de distribución de estas variables cuantitativas continuas es normal.

Seguidamente se calcula el coeficiente de correlación de Pearson a partir de las fórmulas


4.19 y 4.20 obteniéndose un valor de 0,951.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Se establecen la hipótesis nula y la alternativa:

Ho: r=0, no hay relación entre las variables


Ha:r≠0, hay relación entre las variables

A continuación se calculan los grados de libertad:

. .= − 2 = 30 − 2 = 28

Para un nivel de significancia del 0,05 el valor de r crítico con 28 grados que proporciona
la tabla es 0,361.

Puesto que 0,954> 0,361 se rechaza la hipótesis nula y se afirma que hay relación
significativa entre las variables padecer ateroesclerosis y ser diabético. El riesgo de error
es menor al 5% por lo que se rechaza la H0 a p<0,05.

4.3. Coeficiente de correlación Spearman

En aquellas situaciones en las que no se cumplan las condiciones paramétricas hay que
trabajar con otros coeficientes. En caso de variables cuantitativas en muestras menores
de 30 o variables cualitativas que se pueden codificar con números se emplea el
coeficiente de correlación de Spearman. Así mismo, al final del apartado se verán otros
tipos de coeficientes que también pueden emplearse.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

El coeficiente de correlación de Spearman, también llamado coeficiente de correlación


de rango, permite hacer una posible asociación basada en rangos de las observaciones y
no en los valores numéricos de los datos puesto que con variables ordinales no tiene
sentido hablar de distancias entre datos ya que se supondría que hay escala de intervalos.
Se calcula mediante la siguiente fórmula:

6∑
=1−
( − 1)

d es la diferencia entre los rangos para cada pareja de valores.

4.22

Al igual que el coeficiente de correlación de Pearson este coeficiente también va desde -1


a 1 de manera que si es próximo a 1 habrá correlación directa y fuerte, y si es próximo a -
1 habrá correlación inversa y fuerte. Se considera que las correlaciones son significativas
si tienen un valor de significancia bilateral inferior a 0,05.

Prueba de correlación entre dos variables no paramétricas ordinales


mediante el coeficiente de Spearman

A la hora de analizar la relación entre dos variables no paramétricas ordinales es preciso


hacer una prueba de bondad como la que se realizó con el coeficiente de Pearson. Cuando
se trata de una muestra con menos de 30 datos o de variable cualitativa codificada no se
puede emplear la tabla de la figura 2, en cambio se usa la siguiente tabla.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Figura 3. Tabla de valores críticos del coeficiente de correlación de Spearman a diferentes valores de
significancia.

Hay que establecer de igual modo una hipótesis nula, Ho, y una hipótesis alternativa, Ha,
la cual será aceptada cuando la nula se rechace y se establezca que hay relación entre las
variables.

Ejemplo 5. Cálculo del coeficiente de correlación de Spearman

Se pretende estudiar la relación entre las emisiones de CO2 a la atmosfera y la posibilidad


de padecer cáncer de pulmón. Para ello se han recogido los datos de los rangos en 12
poblaciones, ¿hay relación significativa entre las variables?

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Rango de emisiones Rango de cáncer de


Cuidad
de CO2 pulmón
1 3 5
2 7 9
3 12 8
4 10 12
5 13 14
6 8 4
7 6 6
8 3 4
9 17 10
10 15 17
11 4 2
12 9 7

Se construye la siguiente tabla:

Rango de Rango de
Cuidad emisiones cáncer de d d2
de CO2 pulmón
1 3 5 -2 4
2 7 9 -2 4
3 12 8 4 16
4 10 12 -2 4
5 13 14 -1 1
6 8 4 4 16
7 6 6 0 0
8 3 4 -1 1
9 17 10 7 49
10 15 17 -2 4
11 4 2 2 4
12 9 7 2 4
107

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Se calcula el coeficiente de correlación de Spearman:

6∑ 6 ∙ 107
=1− =1− = 0,37
( − 1) 12(144 − 1)

En la tabla de la figura 3 se observa que para n=12 y un nivel de significancia de 0,05 los
valores críticos de rs son ±0,5804. El valor obtenido de rs cae dentro de este rango por lo
que se acepta la hipótesis nula y se deduce que no hay relación entre las variables para
un nivel de significancia de 0,05.

Las correlaciones Gamma, Tau b y Tau c

Cuando se trata de variables ordinales con muy pocas categorías o variables de la escala
Likert se emplean otros estadísticos que son los índices de correlación Tau b, Tau c y
Gamma y que del mismo modo que los anteriores, toman valores entre -1 y 1.

Para trabajar con estos estadísticos hay que calcular el número de concordancias,
discordancias y empates entre valores. Para ello se ordenan los pares de datos según el
orden de la primera variable y se hace una comparación con los valores de la segunda
variable. Si el orden es directo hay concordancia (1), si es invertido hay discordancia (-1)
y si los datos son los mismos se dice que hay empate o independencia (0).

Para calcular el número total de comparaciones entre valores se aplica la siguiente


fórmula en la que se incluyen las independencias:

( − 2)
º =
2

4.23

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

El coeficiente Gamma hace referencia a la reducción del error que se comete cuando se
predice el tipo de ordenamiento que presentan los datos de una variable dependiente en
función de la ordenación de la variable independiente. Para calcular Gamma se aplica la
siguiente fórmula:


=
+

C son los casos concordantes y D los discordantes.

4.24

El inconveniente que tiene este estadístico es que sobreestima el grado de relación


existente entre las variables.

Dada una tabla como la que se muestra a continuación, los casos concordantes y
discordantes se calculan de la siguiente manera:

1 2
1 A B
2 C D
3 E F

Tabla 4. Variables ordinales con pocas categorías. La variable x toma 3 categorías y la y dos.

Los casos concordantes son: AD, AF y CF y se calculan como A (D+F) + CF. Los casos
discordantes son: BC, BE y DE y se calculan como B (C+E)+DE. Tal y como se puede
observar se excluyen los empates.

Ejemplo 6. Aplicación del coeficiente Gamma

A continuación se muestra una tabla con el grado de satisfacción en la vida personal y


en el trabajo. Estudiar la correlación entre las dos variables.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Satisfacción en la vida privada (y)


1 2 3 4
1 20 35 20 15
Satisfacción
2 15 50 15 5
laboral (x)
3 5 10 10 40

Casos concordantes:
20⋅(50+10+15+10+5+40)+15⋅(10+10+40)+35⋅(15+10+5+40)+50⋅(10+40)+
20⋅(5+40)+15⋅40=9950

Casos discordantes:
15⋅(15+10+50+10+15+5)+5⋅(10+10+5)+20⋅(50+10+15+5)+15⋅(10+5)+35⋅(15+5)
+50⋅5=4225

− 9950 − 4225
= = = 0,404
+ 9950 + 4225

Este valor indica que hay un cierto grado de asociación positiva entre las variables.

Como ya se ha mencionado el coeficiente Gamma incrementa la relación entre las


variables ya que no tiene en cuenta los empates para ello se emplea el coeficiente Tau B
que incluye los empates. Se calcula a partir de la siguiente fórmula:


=
( + + ) + +

Ex y Ey son los empates de las variables x e y.

4.25

Los valores de este coeficiente también van de -1 a 1 pero no llegan a tales valores cuando
se trata de tablas no cuadradas. A partir de la tabla 4, los casos empatados se calculan
como:

Variable x: AC, AC, CE, BD, BF Y DF


Variable y: AB, CD Y EF

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Ejemplo 7. Aplicación del coeficiente Tau b

A partir de los datos del Ejemplo 6 calcular el coeficiente Tau b:

Satisfacción en la vida privada (y)


1 2 3 4
1 20 35 20 15
Satisfacción
2 15 50 15 5
laboral (x)
3 5 10 10 40

E x:
(20⋅35+20⋅20+20⋅15+35⋅20+35⋅15+20⋅15)+(15⋅50+15⋅15+15⋅5+50⋅15+50⋅5+15⋅5)+(5⋅10
+5⋅10+5⋅40+10⋅10+10⋅40+10⋅40)=5650
Ey:
(20⋅15+20⋅5+15⋅5)+(35⋅50+35⋅10+50⋅10)+(20⋅15+20⋅10+15⋅10)+(15⋅5+15⋅40+5⋅40)=46
00

− 9950 − 4225
= =
( + ) (9950 + 4225 + 5650)(9950 + 4225 + 4600)
+ + +

= 0,297

Tal y como se puede observar, al emplear le coeficiente Tau b, la relación sale menor ya
que se tienen en cuenta los empates.

Por último está el coeficiente Tau c que elimina alguno de los problemas del coeficiente
Tau b. Se calcula como:

2 ( − )
=
( − 1)

n es el tamaño muestral y m el menor número de casos de no empate entre las variables, es decir,
mínimo número de filas o columnas.

4.26

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Ejemplo 8. Cálculo del coeficiente Tau c

A partir de los datos de la tabla del ejemplo 6 calcular el coeficiente Tau c.

En este caso m=3 y n= 240, por lo que:

2 ( − ) 2 ∙ 3(9950 − 4225))
= = = 0,298
( − 1) 240 (3 − 1)

En este caso en particular, el coeficiente Tau c tiene un valor prácticamente igual al de


Tau b.

La bondad del ajuste de estos coeficientes se puede hacer del mismo modo que para el
coeficiente de Spearman.

4.4. La bondad del ajuste Chi-cuadrado

El parámetro Chi-cuadrado (χ2) se emplea cuando se trata de variables cualitativas


nominales categóricas en las que al menos una de ellas no es dicotómica, es decir que
presente solo dos alternativas, como por ejemplo el sexo. En este caso la información que
se obtiene es del grado de asociación y no de la dirección de tal asociación.

Cuando se trata de dos variables la prueba de ajuste de Chi-cuadro se basa en el estudio


de la independencia entre las mismas. Este estadístico se basa en la comparación entre
las frecuencias observadas y las esperadas, es decir entre las frecuencias obtenidas y las
que se hubieran obtenido si hubiera habido independencia en los criterios de
clasificación. Para calcular las frecuencias estimadas cuando los criterios de clasificación
de las variables son independientes se emplea la siguiente fórmula:

. ∙ .
=

feij es la frecuencia esperada, fi. es la frecuencia marginal de una fila de la variable x, f.j es la
frecuencia marginal de una columna de la variable y, y fij es la frecuencia conjunta, es decir el total
de casos para ambas variables.

4.27

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Una vez calculadas las frecuencias esperadas, el parámetro χ2 se calcula como:


=

4.28

El valor del estadístico χ2 será nulo cuando haya independencia entre las variables puesto
que las frecuencias esperadas serán iguales a las observadas y a medida que aumente la
diferencia entre tales frecuencias el estadístico aumentará mostrando que cada vez hay
menos independencia.
Para establecer la bondad del ajuste se establece una hipótesis nula y uno alternativa de
manera que:

Ho: hay independencia, χ2=0


Ha: no hay independencia χ2≠0

En la curva de distribución χ2, que puede estar sesgada hacia la derecha cuando el
número de grados de libertad es muy pequeño, el área total bajo la curva es 1. A
continuación se muestra la tabla de los valores de esta distribución:

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Figura 4. Tabla de distribución χ2. Fuente: Estadística para la Administración y la Economía de Levin y
Rubin.

Considerando la siguiente figura se puede concluir que el valor de χ2 correspondiente a


un área de 0,20 con 11 grados de libertad es 14,631, un valor de χ2 obtenido que sea
superior, es decir, que caiga en la zona sombreada, mostrará que hay diferencia
significativa entre las variables.

Los grados de libertad se calculan como:

. . = ( − 1)(ℎ − 1)

k y h el total de datos de x y de y.

4.29

Ejemplo 9. Prueba de la independencia mediante χ2

En la siguiente tabla se muestra el tipo de ropa comprada esta temporada en una tienda
en función del sexo. Estudiar la dependencia entre las variables.

Hombre Mujer

Gorros 25 60
Pantalones 75 110
Camisas 70 50
Zapatos 20 35

Ho: Hay independencia entre las variables.


Ha: no hay independencia entre las variables.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Construimos la siguiente tabla:

Hombre Mujer Total

Gorros 25 60 85

Pantalones 75 110 185

Camisas 70 50 120

Zapatos 20 35 55

Total 190 255 445

Aplicando la fórmula 4.27, la frecuencia esperada para la primera casilla sería:

85 ∙ 190
= = 36,3
445

Haciendo la misma operación con todas las frecuencias se obtiene la siguiente tabla de
frecuencias esperadas:

Hombre Mujer Total

Gorros 36,3 48,71 85


Pantalones 79 106 185
Camisas 51,2 68,77 120
Zapatos 23,5 31,52 55

Total 190 255 445

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

En la siguiente tabla aparecen calculadas las diferencias entre las frecuencias observadas
y las esperadas:

fij-feij (fij-feij)2 (fij-feij)2/feij


Hombres Mujeres Hombres Mujeres Hombres Mujeres
-11,3 11,29 127,69 127,46 3,52 2,62
-4 4 16 16 0,20 0,15
18,8 -18,77 353,44 352,31 6,90 5,12
-3,5 3,48 12,25 12,11 0,52 0,38
11,14 8,28

Aplicando la fórmula 4.28 se obtiene que el estadístico χ2 es:


= = 11,14 + 8,28 = 19,42

Este valor es bastante elevado por lo que se puede decir que hay relación significativa
entre las variables.

Comparando en la tabla con 3 grados de libertad a un nivel de significancia de 0,10 el


valor obtenido es 6,251, puesto que 19,42 es superior y cae en el área sombreada de la
distribución se puede decir que se rechaza la hipótesis nula y se acepta la alternativa por
lo que hay relación entre las variables.

4.5. Tablas de contingencia

Las tablas de contingencia se emplean cuando se trata de dos variables categóricas con
el mismo número de categorías y el estudio de la relación entre variables se hace
mediante el coeficiente de contingencia de Pearson. La fórmula para calcular este
coeficiente se basa en el estadístico χ2.

=
+

4.30

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

El coeficiente de contingencia toma valores entre 0 y Cmáx, que siempre es menor que 1.
La fórmula para calcular Cmáx es:

−1
á =

k es el número de filas y columnas.

4.31

Se puede calcular un valor corregido del coeficiente mediante la siguiente fórmula:

= ∙ á

4.32

Si el coeficiente de contingencia toma el valor 0, hay independencia entre las variables y


a medida que aumentan las variables, estarán más asociadas, hasta Cmáx, que marca una
asociación perfecta.

Ejemplo 10. Estudio de la relación entre dos variables dicotómicas

A partir de los siguientes datos de la siguiente tabla calcula la asociación entre variables:

Tiene No tiene
Total
depresión depresión

Hace deporte 40 5 45

No hace
55 35 90
deporte

Total 95 40 135

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Hacemos la siguiente tabla con las frecuencias esperadas:

Tiene No tiene
Total
depresión depresión

Hace deporte 31,7 13,3 45

No hace
63,3 26,7 90
deporte

Total 95 40 135

En la siguiente tabla se muestran las diferencias entre las frecuencias observadas y las
esperadas:

fij-feij (fij-feij)2 (fij-feij)2/feij

8,3 68,9 2,17

-8,3 68,9 1,09

-8,3 68,9 5,18

8,3 68,9 2,58

11,02


= = 11,02

11,02
= = = 0,275
+ 11,02 + 135

−1 2−1
á = = = 0,707
2

= ∙ á = 0,2750,707 = 0,194

No hay independencia entre las variables.

TEMA 4 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

+ Información

Lecciones magistrales

Cálculo de correlaciones

En esta lección se verán ejemplos prácticos de pruebas de correlación aplicados al


periodismo de datos.

La lección magistral está disponible en el aula virtual

No dejes de leer…

Tutorial de SPSS

SPSS es un programa estadístico elaborado por IBM. En el siguiente tutorial podrás


encontrar todo lo necesario para su manejo.

El tutorial está disponible en el aula virtual

TEMA 4 – + Información © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Factores relacionados con el diagnóstico de la tuberculosis mediante la


prueba Chi-cuadrado para Bogotá

Pantoja, L. M. y Roa, E. M. (2012). Factores relacionados con el diagnóstico de la


tuberculosis mediante la prueba Chi-cuadrado para Bogotá (Colombia), Ingeniería
Industrial, 33 (2), 112-125.

Este artículo supone un acercamiento real para el alumno al uso del estadístico chi-
cuadrado.

Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://dialnet.unirioja.es/servlet/articulo?codigo=3922214

No dejes de ver…

Análisis de relación entre dos variables cuantitativas: Coeficiente de correlación


de Pearson Módulo3

En este video se explica el coeficiente de correlación de Pearson.

Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=1qkAU--IK8Y

TEMA 4 – + Información © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Análisis de la relación entre dos variables cualitativas: test Chi cuadrado. Módulo
4

En este video se explica el test Chi-cuadrado.

Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=XvPEeQAjTW8

A fondo

Análisis de tablas de contingencia

Este documento recoge una ampliación de la estadística no paramétrica.

Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://rua.ua.es/dspace/bitstream/10045/8139/1/CONTINGENCIA.pdf

TEMA 4 – + Información © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Bibliografía

Anderson, D., Sweeney, D. y Williams, T. (2008). Estadística para la Administración y


la Economía. Recuperado de
http://jaguar.cgr.go.cr/content/dav/jaguar/Documentos/cgr/centro_conoc/pdfs/econ
omia_estadistica/estadistica-adm.pdf

Meyer, P. (1993). Periodismo de precisión. Barcelona: Bosch.

Schutt, R. (1995). Investigating the Social World. Los Ángeles, SAGE Publications.

TEMA 4 – + Información © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Test

1. La frecuencia absoluta conjunta es:

x 10 20 10 40 30 40 50 50 30 40 50 30 20 10 50 30 40
y 10 20 10 20 20 20 40 40 20 20 40 20 10 10 40 20 20

A. 17.
B. 4.
C. 1.
D. No se puede calcular.

2. A partir de los datos de la siguiente tabla, ¿cuál es el valor de la fx/y=20?

x 10 20 10 40 30 40 50 50 30 40 50 30 20 10 50 30 40
y 10 20 10 20 20 20 40 40 20 20 40 20 10 10 40 20 20

A. 17.
B. No se puede saber.
C. 4.
D. 9.

3. Señale la respuesta correcta:

x y x y x y x y
2,7 7 0,8 6 2,3 9 5,3 6
12,6 24 3,4 12 6,1 14 7,6 13
3,2 5 6,7 17 3,3 10 13,1 27
4,9 4 12 24 5,6 9 11,7 23
5,4 9 3,2 11 7,8 12 10,5 21
6,7 10 2,1 9 10 24 1 4
3,2 10 0,9 5 3,2 9 0,5 3
1,1 2 0,7 3 4,4 10 6,6 9

TEMA 4 – Test © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

A. El coeficiente de correlación lineal de Pearson es 0,91.


B. A un nivel de significancia de 0,05 se puede rechazar la hipótesis nula.
C. Las variables son paramétricas.
D. Todas son ciertas.

4. A partir de los datos de variables ordinales de la siguiente tabla, señala la respuesta


correcta:
9 12
6 8
7 6
8 5
2 4
3 2
4 6
5 2
6 1

A. Se rechaza la hipótesis nula a un nivel de significancia del 0,05.


B. El coeficiente de Spearman es 0,45.
C. Se acepta la hipótesis nula a un nivel de significancia del 0,05.
D. B y c son ciertas.

5. A continuación se muestran 4 estanterías de un supermercado con el mismo tipo de


productos, ¿tienen preferencia los consumidores por alguna estantería en concreto?

Estantería Productos
1 13
2 22
3 18
4 17

A. No.
B. Sí
C. Si pero poca.
D. No se puede saber.

TEMA 4 – Test © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

6. A partir de los siguientes datos, el coeficiente gamma es:

1 2

1 30 5
2 15 22
3 12 18

A. 0,57.
B. 1,15.
C. 0,45.
D. 0,78.

7. A partir de los siguientes datos, el coeficiente Tau b es:

1 2

1 30 5
2 15 22
3 12 18

A. 0,67.
B. 0,16.
C. 1,4.
D. 0,24.

8. A partir de los siguientes datos, el coeficiente Tau c es:

1 2

1 30 5
2 15 22
3 12 18

TEMA 4 – Test © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

A. -0,35.
B. 0,65.
C. 0,41.
D. 0,9.

9. A partir de los siguientes datos, si los valores de x aumentasen diez veces y los valores
de y se redujesen a la mitad, ¿cuál es la respuesta correcta?

x 10 15 20 22 30 32
y 80 160 240 280 320 400

A. Sxy y r serían diez veces mayores.


B. Sxy sería 20 veces mayor y r sería el mismo.
C. Sxy sería 5 veces mayor y r sería el mismo.
D. Sxy y r serían 20 veces mayores.

10. A partir de los datos de la siguiente tabla, el valor de χ2 es:

No vive en la
Vive en la cuidad cuidad
Coche 41 12
Metro 15 14
Bus 2 11
Moto 8 3
Tren 2 1
Otro 2 3

A. 20.
B. No se sabe.
C. 15.
D. 12.

TEMA 4 – Test © Universidad Internacional de La Rioja (UNIR)

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy