Ad2 Tema4 12 PDF
Ad2 Tema4 12 PDF
Ad2 Tema4 12 PDF
José R. Berrendero
Departamento de Matemáticas
Universidad Autónoma de Madrid
80
Tasa respiración
60
40
20
15000 600
10000 400
5000 200
Zinc Potasio
Correlaciones
Y ≈ β0 + β1 x1 + . . . + βk xk .
80
Tasa respiración
60
40
20
15000
10000 600
5000 400
200
Zinc Potasio
Modelo de regresión lineal múltiple
Tenemos una muestra de n individuos en los que observamos las variables
Y y X1 , . . . , Xk . Para el individuo i, tenemos el vector de datos
(Yi , xi1 , xi2 , . . . , xik ).
Yi = β0 + β1 xi1 + . . . + βK xik + ui , i = 1, . . . , n,
Parámetros desconocidos: β0 , β1 , . . . , βk , σ 2 .
Las hipótesis (e) y (f) hacen falta para que el sistema tenga una solución
única. Llamamos β̂0 , β̂1 , . . . , β̂k a los estimadores.
80
Tasa respiración
60
40
20
15000
10000 600
5000 400
200
Zinc Potasio
Estimación de la varianza
β̂j − βj
≡ tn−k−1 ,
error tı́pico de β̂j
Para cualquier j = 0, 1, . . . , k,
IC1−α (βj ) = β̂j ∓ tn−k−1;α/2 × error tı́pico de β̂j .
Contrastes de hipótesis individuales sobre los coeficientes
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1644,390 2 822,195 4,935 ,054 a
Residual 999,610 6 166,602
Total 2644,000 8
a. Variables predictoras: (Constante), Zinc, Potasio
b. Variable dependiente: Tasa_resp
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) 15,978 15,304 1,044 ,337
Potasio ,053 ,030 ,494 1,763 ,128
Zinc ,013 ,009 ,434 1,549 ,172
a. Variable dependiente: Tasa_resp
Descomposición de la variabilidad
Yi = Ŷi + ei
Yi − Ȳ = (Ŷi − Ȳ ) + ei
n
X Xn n
X
(Yi − Ȳ )2 = (Ŷi − Ȳ )2 + ei2
i=1 i=1 i=1
SCT = SCE + SCR
R = {F > Fk,n−k−1;α }
El coeficiente de determinación
Es una medida de la bondad del ajuste en el modelo de regresión múltiple
SCE
R2 = .
SCT
Propiedades:
0 ≤ R 2 ≤ 1.
Cuando R 2 = 1 existe una relación exacta entre la respuesta y las k
variables regresoras.
Cuando R 2 = 0, sucede que β̂0 = ȳ y β̂1 = . . . = β̂k = 0. No existe
relación lineal entre Y y las Xi .
Podemos interpretar R 2 o como un coeficiente de correlación
múltiple entre Y y las k variables regresoras.
R2 n − k − 1
Se verifica que F = .
1 − R2 k
El coeficiente de determinación ajustado
SCE/(n − k − 1) SR2
R̄ 2 = 1 − =1−
SCT/(n − 1) SCT/(n − 1)
●
●
●
150
● ● ●
●
●
● ●
● ●
●
● ● ●
● ●
●
●
●
●
● ●
● ●
●
100
●
●●
●
●
●
y
● ●
●
●
● ● ●
● ●
●
● ●
●
● ●
●
50
● ●
●
● ● ●
●
●
● ●
● ●
●
● ●
● ● ●
● ● ●
●
●
●● ● ● ● ●
●
● ● ●
●
● ●
●
● ●
● ●
● ●
●
●
0
●
●
●
0 2 4 6 8 10
x
Regresión polinómica
Resumen del modelo
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) -14,376 3,762 -3,822 ,000
x 15,904 ,650 ,926 24,472 ,000
a. Variable dependiente: y
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) 6,846 4,790 1,429 ,156
x 3,042 2,214 ,177 1,374 ,172
x2 1,286 ,214 ,774 6,004 ,000
a. Variable dependiente: y
Regresión polinómica
Estimación curvilínea
Resumen del modelo y estimaciones de los parámetros
Variable dependiente:y
Resumen del modelo
Ecuación R cuadrado F gl1 gl2 Sig.
Lineal ,858 598,866 1 99 ,000
Cuadrático ,896 423,481 2 98 ,000
La variable independiente esx.
Variable dependiente:y
Estimaciones de los parámetros
Ecuación Constante b1 b2
Lineal -14,376 15,904
Cuadrático 6,846 3,042 1,286
La variable independiente esx.
y ●
●
●
150
● ● ●
●
● Observado
200,00 ● ●
● ●
● Lineal
● ● ●
●
●
●
●
Cuadrático
●
●
● ●
● ●
●
100
●
●●
150,00 ●
●
●
y
● ●
●
●
● ● ●
● ●
●
● ●
●
● ●
●
50
● ●
●
● ● ●
●
●
100,00 ●
●
●
●
● ●
●
● ● ●
● ● ●
●
●
●● ● ● ● ●
●
● ● ●
●
● ●
●
● ●
● ●
● ●
●
●
0
50,00 ●
●
0 2 4 6 8 10
0,00 x
Regresión polinómica
● ●
●
2
●
2
●
●
●
● ●
●
● ●
● ●
● ●
●
●●
● ● ●
●
● ● ●
●
1
● ●
● ●
●
● ● ●
●
●
1
● ● ● ●
● ●
● ● ● ●
●
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ●
●
●
● ● ●
● ●
● ●
● ●
● ● ●●
● ●
● ●
● ● ● ● ● ●
● ●
● ●
residuos1
residuos2
●
0
● ● ● ●
● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ●
●
0
● ● ●
●
● ●
● ●
● ● ● ●
●
●
● ● ● ● ● ● ●
● ●
●
● ● ●
●
●
● ●
●
● ● ● ●
●
● ●
●
● ● ● ● ●
● ●
−1
● ●
●
● ●
●
−1
●
● ●
● ●
● ● ● ● ● ●
●
● ●
● ●
●
● ●
●
●
● ● ●
● ●
−2
●
●
−2
●
●
● ●
Variable dependiente:Fracaso
Estimaciones de los
Resumen del modelo parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal ,550 25,658 1 21 ,000 38,494 -1,347
Cuadrático ,586 14,183 2 20 ,000 61,088 -4,614 ,109
Potencia ,610 32,809 1 21 ,000 293,923 -1,066
La variable independiente esRenta.
Fracaso
40,0 Observado
Lineal
Cuadrático
Potencia
30,0
20,0
10,0
0,0
8,000 10,000 12,000 14,000 16,000 18,000 20,000 22,000
Renta
Regresión polinómica y sobreajuste
200
200
200
200
200
● ● ● ● ●
● ● ● ● ●
150
150
150
150
150
● ● ● ● ●
100
100
100
100
100
y
y
● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
50
50
50
50
50
● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
0
0
● ● ● ● ●
200
200
200
200
● ● ● ● ●
● ● ● ● ●
150
150
150
150
150
● ● ● ● ●
100
100
100
100
100
y
y
● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
50
50
50
50
50
● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
0
0
● ● ● ● ●
300
300
250
250
250
200
200
200
150
150
150
z
z
100
100
100
50
50
50
0
Mucho sesgo y poca varianza Modelo verdadero Poco sesgo y mucha varianza
Variables regresoras dicotómicas
● ●
●
●
●●
10
● ●
●
●
● ● ● ●
●
●
5
● ● ●
5
● ● ●
● ● ●
● ● ● ● ● ●
● ●
● ●
●● ●● ● ●
● ●
0
● ●●
● ●
y1
y2
● ● ●
● ●
● ● ● ● ●●
●
●●
● ● ●
● ●
●
● ● ●
● ●
● ● ●●
● ● ● ● ●
0
−5
● ● ●
●
● ●
●
●
●
●
●
● ●
−10
●
●
−5
● ●
−15
−4 −2 0 2 4 −4 −2 0 1 2
x1 x2
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 438,063 3 146,021 197,319 ,000 a
Residual 34,041 46 ,740
Total 472,104 49
a. Variables predictoras: (Constante), x1z1, z1, x1
b. Variable dependiente: y1
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) ,277 ,177 1,560 ,126
x1 ,927 ,080 ,647 11,632 ,000
z1 3,620 ,247 ,589 14,649 ,000
x1z1 ,142 ,114 ,068 1,241 ,221
a. Variable dependiente: y1
Modelo con interacciones
Resumen del modelo
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1533,096 3 511,032 593,559 ,000 a
Residual 39,604 46 ,861
Total 1572,700 49
a. Variables predictoras: (Constante), x2z2, z2, x2
b. Variable dependiente: y2
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) -,235 ,189 -1,243 ,220
x2 ,796 ,115 ,247 6,902 ,000
z2 3,025 ,267 ,270 11,320 ,000
x2z2 3,288 ,152 ,781 21,599 ,000
a. Variable dependiente: y2
Multicolinealidad
En la práctica esto nunca pasa de manera exacta, aunque sı́ es posible que
en un conjunto de datos algunas de las variables regresoras se puedan
describir muy bien como función lineal de las restantes variables.
Y
y x1 x2
-0.67 -0.43 -0.57
4.36 1.36 1.42
0.70 0.52 0.45
X1
-1.00 -0.12 -0.33
-1.59 -0.48 -0.56
-3.13 -0.98 -1.00
-2.40 -1.04 -0.83
1.79 1.45 1.44
1.95 1.31 1.47
-0.70 -0.24 -0.32
X2
-1.97 -0.86 -1.32
1.82 0.89 0.84
1.49 0.53 0.54
-0.88 -0.44 -0.50 Y X1 X2
1.40 0.50 0.46
0.82 -0.66 -0.62 Correlaciones
0.51 0.46 0.32 Y X1 X2
0.83 0.33 0.19 Y Correlación de Pearson 1 ,906 ,902
Sig. (bilateral) ,000 ,000
3.11 1.58 1.80
N 20 20 20
-0.20 0.05 0.20 X1 Correlación de Pearson ,906 1 ,987
Sig. (bilateral) ,000 ,000
N 20 20 20
X2 Correlación de Pearson ,902 ,987 1
Sig. (bilateral) ,000 ,000
N 20 20 20
Multicolinealidad
Resumen del modelo
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 56,049 2 28,025 39,651 ,000 a
Residual 12,015 17 ,707
Total 68,065 19
a. Variables predictoras: (Constante), X2, X1
b. Variable dependiente: Y
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) -,041 ,202 -,205 ,840
X1 1,360 1,426 ,601 ,954 ,354
X2 ,648 1,319 ,309 ,491 ,630
a. Variable dependiente: Y