Correlacion y Regresion
Correlacion y Regresion
Correlacion y Regresion
Y CORRELACIÓN
SIMPLE
OBJETIVOS
Al finalizar el Tema , el participante será capaz de:
1. Utilizar diagramas de dispersión para visualizar la
relación entre dos variables.
2. Identificar relaciones simples entre variables
3. Utilizar la ecuación de regresión para predecir valores
futuros.
4. Aplicar el análisis de correlación para describir el
grado hasta el cuál dos variables están relacionadas
linealmente entre si.
6. Realizar el diagnostico de la regresión
7. Medición de la autocorrelación
8. Realizar la estimación por intervalos
9. Realizar el análisis de varianza de la regresión
simple
CONTENIDO
1. El diagrama de dispersión
2. Las ecuaciones lineales simples
3. La regresión lineal simple
4. El error estándar de la estimación
5. El análisis de correlación
6. El diagnóstico de la regresión: al análisis residual
7. La estadística de Durbin-Watson
8. La estimación por intervalos
9. Análisis de varianza de la regresión simple.
17.1 El diagrama de dispersión
Y • Y Y
• •• • • • ••
•• •
•• • •• • • •
• •• • • • • ••
• ••
•• •• •• • • •
••• •
• •
X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
Aplicación
Los datos siguientes muestran las cantidades
consumidas de complemento nutricional (en Kg.) y
el aumento de peso de niños con signos de
desnutrición.
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y
2do Paso: Encuentre los valores mínimos y máximos
para X e Y. Elija las escalas que se usarán en los
ejes horizontal y vertical, de manera que ambas
longitudes sean aproximadamente iguales, facilitando
la lectura del diagrama.
20
15
10
0
0.0 2.0 4.0 6.0
3er Paso: Registre los datos en el gráfico. Cuando
se obtengan los mismos valores en diferentes
observaciones, muestre estos puntos haciendo
círculos concéntricos (o), o registre el segundo punto
muy cerca del primero.
20
15
10
0
0.0 2.0 4.0 6.0
4to Paso: Agregue toda la información que
puede ser de utilidad para entender el diagrama,
tal como: título del diagrama, período de tiempo,
número de pares de datos, nombre de la variable
y unidades de cada eje, entre otros.
Relación complemento nutricional y
aumento de peso
20
Aumento de peso
15
(Kg)
10
5
0
0.0 2.0 4.0 6.0
Complemento nutricional (Kg)
17.2 Las ecuaciones lineales simples
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8
A) Tipos de Variables
En una ecuación como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le
llama variable dependiente, y a X se le llama
variable independiente.
Y = b0 + b1 X
Variable Variable
Dependiente Independiente
B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en
igual sentido (aumentos o disminuciones), las
variables están directamente relacionadas. Se
observa el signo +
Ejemplo: Y o
o
Y = 30 + 5X o
o
o o
o
o o
X
Cuando cambios en X, provoca variaciones en Y
en sentido inverso (X aumenta, Y disminuye o
viceversa), las variables están inversamente
relacionadas. Se observa en la ecuación el signo
-. Y
Ejemplo: o
Y = 20 - 3X
o o
o o
o
o
X
C) Grado de la ecuación:
La ecuación es de primer grado si la
variable independiente está elevada al
exponente 1. Su gráfica genera una línea
recta (por lo que también se le llama
ecuación lineal)
Ejemplo: Y = 30 + 4 X
Si la variable independiente está elevada a un
exponente diferente a 1, la ecuación toma el valor
del exponente. Su gráfica no es una línea recta.
Ejemplo:
12
11
10
. . (5,10.5)
9
8
7
6
. . (3,7.5)
(4,9)
5
4
3
2
.
(1,4.5)
(2,6)
1 2 3 4 5 X
E) Forma general:
La ecuación simple de primer grado tiene la
siguiente forma general
Y = b0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autónomo, es decir, Y = b0 cuando X = 0.
En la gráfica es la intersección con el eje Y
Ejemplo:
Y
Y = 3 + 1.5X
.
b0 = 3
X
17.3 Regresión lineal simple
Es una técnica estadística que permite
determinar la mejor ecuación que represente la
relación entre dos variables relacionadas.
= error
Yi - Y
10
8
. Línea de
estimación
6
Ŷ
Min Y - Y
2
4 Error= -6
•
i
•
2
• . Error= 2
X
2 4 6 8 10 12 14
El método utiliza un sistema de ecuación llamado
ecuaciones normales, que tienen la siguiente
forma:
X Y X2 XY
Y nb 0 + b1 X
1.0 8.0 1.0 8.0
1.5 10.0 2.3 15.0
XY b 0 X b1 X 2 2.0
2.5
9.0
12.0
4.0
6.3
18.0
30.0
3.0 14.0 9.0 42.0
Ŷ 7,479 1,576X
c) Interpretación
Y
.
Yi
Y
1.5
2.0
10.0
9.0
9.843
10.630
.
2.5 12.0 11.418
3.0 14.0 12.206
Valor 3.5 13.0 12.994
observado Valor 4.0 15.0 13.782
estimado 4.5 17.0 14.570
5.0 14.0 15.358
2
(Y - Ŷ)
Syx =
n2
14
X Y Ŷ Y Ŷ Y Ŷ 2
21,20 21,20
Sy x = 2,65
10 2 8
Syx =1,628
variacion explicada
r2
variacion total
r2 =
Ŷ - Y 2
Y - Y
2
i
9 5 7 14 10 45
Y=
5 5
Y = 9 unidades
2do Paso: Se calcula la variación total, es decir, la
sumatoria de las desviaciones de las ventas
observadas (Yi) con respecto a la media: Y - Y
i
2
Y Y Y Y Y Y2
8.0 12.6 -4.6 21.16
10.0 12.6 -2.6 6.76
9.0 12.6 -3.6 12.96
12.0 12.6 -0.6 0.36
14.0 12.6 1.4 1.96
13.0 12.6 0.4 0.16
15.0 12.6 2.4 5.76
17.0 12.6 4.4 19.36
14.0 12.6 1.4 1.96
14.0 12.6 1.4 1.96
126.0 126.0 0.0 72.4
Y Y Y Y Y Y
2
3er Paso: Se calcula la variación explicada, es
decir, la sumatoria de las desviaciones cuadráticas
entre las ventas esperadas y la venta media de la
muestra: Y - Y
2
Ŷ Y Ŷ Y 2
Ŷ Y
9.055 12.6 -3.545 12.5699
9.843 12.6 -2.758 7.6038
10.630 12.6 -1.970 3.8793
11.418 12.6 -1.182 1.3964
12.206 12.6 -0.394 0.1551
12.994 12.6 0.394 0.1553
13.782 12.6 1.182 1.3971
14.570 12.6 1.970 3.8805
15.358 12.6 2.758 7.6055
16.146 12.6 3.546 12.5720
126.0 126.0 0.0 51.2
Ŷ Y Ŷ Y Ŷ Y 2
4to Paso: Se compara la variación explicada y
la variación total.
variacion explicada
Ŷ - Y
2
r2
variacion total
r2 = i
Y -Y
2
51,2
r2 = 0,707
72,4
r= r2
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
están directamente relacionados.
Cuando r es negativo, indica que X e Y
están inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuación de regresión
Interpretación del coeficiente de
correlación de Pearson
r = 0,707
r = 0,84
i = Yi - Ŷi
Podemos evaluar lo adecuado del modelo de
regresión ajustado mediante el gráfico de los
residuos (eje vertical) con respecto a los
correspondientes valores de Xi de la variable
independiente (eje horizontal).
El gráfico muestra un
3
adecuado ajuste entre 2
el incremento de peso
Residuos
1
tendencia. Variable X 1
El análisis del gráfico nos brinda el criterio para
adoptar el modelo lineal o dejarlo de lado. Si fuese
así, podríamos probar con modelos no lineales como
el cuadrático, logaritmo o exponencial.
El análisis de residuos se complementa con el
cálculo de los residuos estandarizados (SRi), que
resultan de la división del residuo dividido por su
error estándar.
i
SRi
S YX 1 hi
En donde 1
hi
Xi X2
n
n
i nX
2 2
X
i1
Los valores estandarizados nos permiten tomar en
cuenta la magnitud de los residuos en unidades
que reflejen la variación estandarizada alrededor
de la línea de regresión.
1.5
1
0.5
0
-0.5 0 5 10 15 20
-1
-1.5
-2
B. Evaluación de las suposiciones
a. Homoscedasticidad
b. Normalidad
c. Independencia:
17.7 Medición de la autocorrelación: Durbin-Watson
Una de las suposiciones del modelo de regresión
básico es la independencia de los residuos. Esta
suposición es violada con frecuencia cuando los
datos son recopilados en periodos secuenciales,
debido a que un residuo en cualquier punto del
tiempo puede tender a ser parecido a los residuos
que se encuentran en puntos de tiempo
adyacentes.
El estadístico D de Durbin-Watson mide la
correlación de cada residuo y el residuo del
periodo inmediato anterior al periodo de interés.
El estadístico D (Durbin-Watson)
n
i i1
2
D i2
n
i
i1
2
Model Summaryb
Change Statistics
R Square
Model Change F Change df1 df2 Sig. F Change Durbin-Watson
1 .707a 19.336 1 8 .002 1.517
a. Predictors: (Constant), Complemento
b. Dependent Variable: AUMENTO
2
se estima mediante la siguiente formula:
n
Y 2
b 2SC
Y 2
n 1 x
S 2
i 1
n2
yx
-t0 t0
Pr( t 0 t t 0 )
b1 1
Pr t 0 t0 1
Sy x
SCx
Sy x S y x
Pr b1 t 0 1 b1 t 0 1
SCx SCx
B. Intervalo de confianza para 0
1 x
2
b0 0 , 2
n SC
x
b0 0 b0 0
t n2
Sb0 1 x
2
Sy x
n SCx
donde:
Y Y
2
b 2 SC
2
n 0 x
S 2y x
n2
-t0 t0
Pr( t 0 t t 0 )
b
Pr t 0 0 0
t0 1
S
b 0
Pr b0 t 0Sb0 0 b0 t 0Sb0 1
1 X
Ŷ N y / X0 , 2 0
X
2
n SCx
Pr ŷ t 0S ŷ y / X0 ŷ t 0S ŷ 1
donde:
1 X x
2
S ŷ S 2y x 0
n SCx
D. Intervalo de confianza para un valor
individual
Además de obtener una estimación de intervalo
de confianza para el valor promedio, a menudo
es importante tener la capacidad de predecir la
respuesta que se obtendría para un valor
individual.
1 X
Ŷ N y / X0 , 2 1 0
X
2
n SCx
El intervalo de predicción está estimando
un valor individual, no un parámetro.
Pr ŷ t 0S ŷ Y / X0 ŷ t 0S ŷ 1
donde:
2
1 X0 x
S ŷ S y x 1
2
n SC x
17.9 Análisis de varianza de la
regresión simple
El análisis de varianza es una técnica que
permite localizar las fuentes de variabilidad
que ayuden a explicar el comportamiento de
la variable dependiente.
2
Error
Experimental
Y2
n
b12SCx n 2 S2y x
Total SCtotal n 1
Asumiendo que existe una regresión lineal,
determine:
A.La ecuación de regresión e interprete los
coeficientes de regresión.
B.El intervalo de confianza para 1y para un valor
individual si X = 3,8.
C.El cuadro de ANOVA para la regresión lineal
D.El valor de ŷ cuando X = 5,1
E.La prueba de hipótesis respectiva a partir del
ANOVA e interprete el resultado.
F.Estime el aumento de peso que puede darse se
consumen 6 Kg. del complemento nutricional
mediante un intervalo e interprete el resultado.
Solución
Primero se realizan los cálculos necesarios:
n 10
Xi 32,5
Yi 126
Xi2 126,25
Yi2 1660
Xi Yi 442
A. Cálculo de los coeficientes de regresión:
Ŷ b0 b1X
b0 Y b1 X
Xi Yi X Y
i i
442
32,5126
n 10 32,5
b1 1,57
X 2
126,25
32,5 20,62
i
X 2
n
i
10
Ŷ 7,49 1,57X
Interpretación:
b0= Se espera que el peso que un niño que no
consume este complemento nutricional sea
7,49 Kg.
b1= Por cada Kg. de complemento nutricional, el
peso del niño se incrementará en 1,57 Kg.
B. Intervalo de confianza para 1
Sy x Sy x
Pr 1,57 t 0,10 8 1 1,57 t 0,10 8 1 0,10
SCx SCx
Sy x Sy x
Pr 1,57 1,86 1 1,57 1,86 0,90
4,54 4,54
1660
126
2
1,57 20,62
2
10 72,7 50,82
S 2
yx 2,69
8 8
S y x 1,642
1,642 1,642
Pr 1,57 1,86 1 1,57 1,86 0,90
4,54 4,54
1 3,80 3,25
2
SŶ 1,642 1
10 20,62
Interpretación
C. Análisis de Varianza
F1-/2 F/2
0,0041 5,32
Pr 16,91 1,86S Ŷ Y X0 16,91 1,86 S Ŷ 1
17.10 Resultados con Excel
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.99582747
Coeficiente de determinación R^2 0.99167236
R^2 ajustado 0.98959045
Error típico 1.5310881
Observaciones 6
ANÁLISIS DE VARIANZA
GL SC CMe F cal P-valor
Regresión 1 1116.62308 1116.62308 476.328138 2.60786E-05
Residuos 4 9.37692308 2.34423077
Total 5 1126
Paciente 1 2 3 4 5 6 7 8 9 10 11
Prueba nueva 50 55 60 65 70 75 80 85 90 95 100
Prueba estandar 61 61 59 71 80 76 90 106 98 100 114
Caso 2
Se llevo a cabo un experimento para estudiar el
efecto de cierto medicamento para disminuir la
frecuencia cardiaca en adultos. Se reunieron los
siguientes datos: dosis en miligramos del
medicamento y la diferencia entre la frecuencia
cardiaca mas baja después de la administración
del medicamento y un control antes de
administrarlo.
Dosis (mg) 1 1 1 1 2 2 2 2 3 3 3 3
Reduccion ritmo cardiaco 10 8 12 12 14 12 16 18 17 20 18 20
2
5. El coeficiente de correlación de muestra, r, no es nada más que r
y no podemos interpretar su significado directamente como un
porcentaje del mismo tipo
21. Una valor pequeño de r2 implica que no existe una relación de causa-
efecto significativa entre X y Y