1.1 Regresion Lineal Teoria
1.1 Regresion Lineal Teoria
1.1 Regresion Lineal Teoria
Lineal Múltiple
REGRESIÓN LINEAL MÚLTIPLE
Las técnicas de regresión lineal múltiple parten de (k+1) variables cuantitativas, siendo Y la variable
de respuesta y ( X1 , X2 , LL , Xk ) las variables explicativas.
Se trata de extender a las 'k' variables las técnicas de la regresión lineal simple. En esta línea, la
variable Y se puede expresar mediante una función lineal de las variables ( X1 , X2 , LL , Xk )
Y = β0 + β1 X1 + β2 X2 + L + βk Xk
Para ello, dispondremos de una modelo de probabilidad (la Normal). El estadístico fija los valores de
las variables regresoras X ki y obtiene 'al azar' los correspondientes valores Yi
Modelo: Y = β0 + β1 X1 + β2 X2 + L + βk Xk + U
⎛ Y1 ⎞ ⎛⎜ 1 X11 L Xk 1 ⎞⎟ ⎛ β0 ⎞ ⎛ u1 ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ Y2 ⎟ ⎜ 1 X12 L Xk 2 ⎟ ⎜ β1 ⎟ ⎜ u2 ⎟
⎜ ⎟
En forma matricial: ⎜ M ⎟ = ⎜ M M L M ⎟ ⎜ M ⎟ + ⎜ M ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ M ⎟ ⎜ M M L M ⎟ ⎜ M ⎟ ⎜M ⎟
⎜ ⎟ ⎜⎜ ⎟⎜ ⎟ ⎜ ⎟
⎝ yn ⎠ ⎝ 1 X1n L Xk n ⎟⎠ ⎝ βk ⎠ ⎝ un ⎠
Y = X β + U siendo X =' matriz del diseño'.
• Las hipótesis comunes entre las regresiones lineal y múltiple son:
a) Normalidad: ui ε N(0, σ2 )
b) Linealidad: E (u i ) = 0
c) Homocedasticidad: Var (u i ) = 0
d) Independencia: u i son independientes (i = 1, 2, L ,n)
• Requisitos adicionales de la regresión múltiple:
a) n > k+1. El modelo depende de (k+2) parámetros. Para que la regresión tenga significado
debe haber un número suficiente de datos.
b) Ninguna de las variables explicativas X es combinación lineal de las otras (Colinealidad). Si
alguna de las Xi es combinación lineal exacta de alguna de las otras Xi , el modelo puede
simplificarse con menos variables explicativas. También hay que considerar si alguna de las
Xi está fuertemente correlacionada con otras.
1
Regresión Lineal Múltiple
ESTIMACIÓN DE LOS PARÁMETROS
En forma matricial: Y = X β + U siendo X ='matriz del diseño'.
Y X1 X2 …… XK
Datos
La nube de puntos está en un
espacio de dimensión (k+1).
1 Y1 X 11 X 21 …… X k1
Es difícil de visualizar para k>2
donde X' es la matriz transpuesta
M M M M …… M
del diseño
n Yn X 1n X 2n …… X kn
Cada uno de los coeficientes βi representa el efecto de la variable independiente sobre la variable
explicada. Es decir, el valor estimado β̂i indica la variación que experimenta la variable
dependiente cuando la variable independiente X i varía en una unidad y todas las demás
permanecen constantes.
Cuando el modelo tiene término independiente, las matrices anteriores se simplifican con las
siguientes expresiones:
⎛ n n n
⎞ ⎛ nY ⎞
⎜ ∑ Xi2 ... ∑ Xik ⎟ ⎜ ∑ i ⎟
⎜n i=1
n
i=1
n ⎟ ⎜ ni=1 ⎟
⎜ X i2
X' X = ⎜ ∑ ∑ Xi2 ... ∑ Xi2Xik ⎟ , X' Y = ⎜ ∑ Xi2Yi ⎟
2
[ ]
u i = Yi − Ŷi = Yi − βˆ 0 + βˆ 1 X1 i + βˆ 2 X2 i + L + βˆ K XK i σ
ˆ = SR2 =
1 n
∑ u2i
n − k − 1 i=1
2
Regresión Lineal Múltiple
En un principio, para estimar la varianza del error aleatorio U, parece razonable utilizar la varianza de
los errores de predicción, también denominados residuos del modelo.
1 n
ˆ 2 = ∑ u2i . Sin embargo, este estimador es sesgado E (σˆ 2 ) ≠ σ2 ,
Es decir, parece razonable utilizar σ
n i =1
1 n
por tanto, se utiliza como estimador SR2 = ∑ u2i .
n − k − 1 i=1
Y = X β + U . El correspondiente modelo ajustado será Ŷ = X βˆ , con lo cual, Û = Y − Ŷ = Y − X βˆ
Denominando S a la suma de los cuadrados de los residuos:
⎡û1 ⎤
⎢û ⎥
S = Û' Û = [ û1 , û2 , LL , ûn ]
n
⎢ 2 ⎥ = ∑ û ( U' matriz transpuesta de U )
⎢ M ⎥ i=1 i
⎢ ⎥
⎣ûn ⎦
[ '
][ ]
S = Y − X βˆ Y − X βˆ = Y' Y − βˆ ' X' Y − Y' X β + βˆ ' X' X B̂ = Y' Y − βˆ ' X' Y − βˆ ' X' Y + βˆ ' X' X B̂ = Y' Y − 2 βˆ ' X' Y + βˆ ' X' X B̂
14444244443
un escalar es igual a su transpuesto
βˆ ' X' Y=X' Y βˆ
Para minimizar S se aplica el criterio mínimo‐cuadrático, derivando respecto de β̂ :
S
= −2 X' Y + 2 X' X B̂ = 0 ⇒ X' X B̂ = X' Y a [X' X]−1 (X' X ) B̂ = [X' X]−1 X' Y a B̂ = [X' X ]−1 X' Y
ϑβˆ
DISTRIBUCIÓN DE β̂
b) El vector de observaciones Y se distribuye según una normal multivariante de media X β y de
matriz de varianzas y covarianzas σ 2 I , es decir, Y∈ N( X β, σ2 I) .
c) β̂ es combinación lineal de las componentes del vector Y, por lo que se distribuye según una
variable aleatoria normal, donde su media y matriz de varianzas y covarianzas será:
• ( )
E (βˆ ) = E [X' X ] −1 X' Y = [X' X ] −1 X'E (Y) = [X' X ] −1 X' X β = β ⇒ β̂ es un estimador insesgado de β
• ( )
Var (βˆ ) = Var [X' X ] −1 X' Y = [X' X ] −1 X' [Var (Y)] X [X' X ] −1 = [X' X ] −1 X' σ2 X [X' X ] −1 = σ2 [X' X ] −1
(
de donde, βˆ ∈ N β, σ 2 [X' X ] −1 )
3
Regresión Lineal Múltiple
• [
Con el ajuste de mínimos cuadrados: u i = Yi − Ŷi = Yi − βˆ 0 + βˆ 1 X1 i + βˆ 2 X2 i + L + βˆ K XK i ]
( )
βˆ i ∈ N β, σ2 q i +1, i +1 , donde q i +1, i +1 son los elementos de la diagonal principal [X' X ] −1 .
1 n
• La estimación de la varianza residual σ2 se hace mediante S2R = ∑ u2i , pudiéndose
n − k − 1 i=1
comprobar que el estimador es insesgado: E S2R = σ2 [ ]
(
De forma que estimaremos la varianza de βˆ i ∈ N β, σ 2 q i +1, i +1 mediante S 2R q i +1, i +1 . )
(n − k − 1) S2R
Se demuestra que ≈ χn2−k−1
σ 2
βˆ i − βi
Se obtiene ≈ N(0,1) .
σ q i +1, i +1
N(0,1)
Como la variable t‐Student con k‐grados de libertad se define: tk =
1 2
χk
k
βˆ i − βi
σ q i +1 , i +1 βˆ i − βi
resulta que, t = = ≈ tn−k−1
1 (n − k − 1) SR2 SR q i +1, i +1
(n − k − 1) σ
d) CONTRASTE DE HIPÓTESIS [t‐Student]
Nos planteamos si la variable X i influye sobre la variable de respuesta Y. En otras palabras, si el
valor del parámetro en la población es cero o no.
4
Regresión Lineal Múltiple
CÁLCULO DEL COEFICIENTE DE CORRELACIÓN PARCIAL
En un modelo de regresión lineal múltiple, Y = β0 + β1 X1 + β2 X2 + L + βk Xk , se puede calcular
fácilmente el coeficiente de correlación parcial entre la variable de respuesta Y y una variable
regresora X, controlado por el resto de variables regresoras. Para ello se utiliza el contraste
individual de la t respecto a la variable X, y que se define como:
βˆ i
ti = i = 1, 2,...,k ,
SR q i +1, i +1
t2i
Obteniéndose la siguiente relación: R2Y iC =
t2i + n − (k + 1)
e) INTERVALOS DE CONFIANZA DE LOS PARÁMETROS β̂i
Las estimaciones de los parámetros vienen dada por la expresión βˆ = [X' X ] −1 X' Y (siendo X' la
matriz transpuesta del diseño).
n
∑ (yi − ŷi ) 2
( )
Por otra parte, βˆ i ∈ N β, σ2 q i +1, i +1 , donde la varianza residual σ2 se estima por SR2 = i=1
n −k −1
,
[
IC1− α (βi ) = βˆ i ± t α / 2 , (n−k −1) SR q i +1 , i +1 ]
CONTRASTE DE HIPÓTESIS ‐ INTERVALOS DE CONFIANZA
En caso contrario, cuando el cero no cae en el intervalo de confianza, se acepta la hipótesis
alternativa H1 , y en consecuencia, X i influye en Y.
Este contraste es equivalente al contraste de la t‐Student para cada βi
5
Regresión Lineal Múltiple
f) INTERVALO DE CONFIANZA PARA LA VARIANZA DE LOS RESIDUOS
⎛ ⎞ ⎛ ⎞
⎜ (n − k − 1) S2 (n − k − 1) S2 ⎟ ⎜ SCR SCR ⎟
IC = ⎜ 2 R
; 2 R
⎟ =⎜ 2 ; 2 ⎟
σ2 ⎜ χ α χ α ⎟ ⎜ χα χ α
1 − , (n−k−1) ⎟
⎝ 2 , (n−k−1) 1− , (n−k−1)
2 ⎠ ⎝ 2 , (n−k−1) 2 ⎠
DESCOMPOSICIÓN DE LA VARIABILIDAD
=0
6447 448
[ ]
n n 2 n n n
SCT = ∑ ( Yi − Y ) 2 = ∑ ( Yi − Ŷ i) + ( Ŷi − Y ) = ∑ ( Yi − Ŷ i) 2 + ∑ ( Ŷi − Y ) 2 + 2 ∑ ( Yi − Ŷi ).( Ŷi − Y )
i=1 i=1 i=1 i=1 i=1
n n n
∑ ( Yi − Y ) 2 = ∑ ( Yi − Ŷ i) 2 + ∑ ( Ŷi − Y ) 2
i=1 i=1 i=1
1 4243 1 4243 1 4243
SCT SCE SCR
suma cuadrados total suma cuadrados exp licada suma cuadrados residual
(n−1) grados libertad k grados libertad (n−k−1) grados libertad
n n
n n n ∑ ( Yi − Ŷ i) 2 ∑ ( Ŷi − Y ) 2
∑ ( Yi − Y ) 2 = ∑ ( Yi − Ŷ i) 2 + ∑ ( Ŷi − Y ) 2 ⇒ 1 = i=1
n
+ i=1
n
i=1 i=1 i=1
∑ ( Yi − Y ) 2
∑ ( Yi − Y ) 2
i=1 i=1
1 4243 1 4243
SCR / SCT R =SCE / SCT
2
Una vez estimado el modelo es conveniente obtener una medida acerca de la bondad del ajuste
realizado. Un estadístico que facilita esta medida es el Coeficiente de Determinación ( R2 ), que se
n
SCE ∑
( Yi − Ŷ i) 2
define: R2 = i =1
= n
SCT
∑ ( Yi − Y ) 2
i =1
El Coeficiente de Determinación permite, además, seleccionar entre modelos clásicos que tengan el
mismo número de regresores, ya que la capacidad explicativa de un modelo es mayor cuanto más
elevado sea el valor que tome este coeficiente.
Por otra parte, el valor coeficiente de determinación crece con el número de regresores del modelo.
Por ello, si los modelos que se comparan tienen distinto número de regresores, no puede
establecerse comparación entre sus R2 .
En este caso debe emplearse el coeficiente de determinación corregido R 2 , que depura el
incremento que experimenta el coeficiente de determinación cuando el número de regresores es
mayor.
SCR n − k − 1 ⎛ n−1 ⎞
R 2 = 1 −
SCT n − 1
=1−⎜ ⎟ 1−R
2
[ ]
⎝ n −k −1 ⎠
6
Regresión Lineal Múltiple
ANÁLISIS DE LA VARIANZA: TABLA ANOVA
CONTRASTE DE HIPÓTESIS:
Hipótesis nula H0 : β1 = β2 = LL = βk = 0 el modelo no es explicativo
Hipótesis alternativa H1: al menos un βi ≠ 0 el modelo es explicativo
F‐Snedecor ‐ COEFICIENTE DE DETERMINACIÓN
n
SCE ∑
( Yi − Ŷ i) 2
El coeficiente de determinación se define: R2 = i=1
= n
SCT
∑ ( Yi − Y ) 2
i=1
De otra parte, la distribución F‐Snedecor:
R2 n − k − 1 R2 n − k − 1
= a F =
1 − R2 k 1 − R2 k
RESUMEN DE CONTRASTES
Contraste Conjunto Contrastes Individuales
Conclusión
F‐Snedecor t‐Student
Modelo explicativo Todas las Xi son explicativas Tomamos todas las Xi
Modelo explicativo Algunas Xi son explicativas Nos quedamos con las Xi explicativas
Modelo explicativo Ninguna Xi es explicativa Posible Multicolinealidad (revisar el Modelo)
Modelo no explicativo Todas las Xi son explicativas Posible Multicolinealidad (revisar el Modelo)
Modelo no explicativo Algunas Xi son explicativas Posible Multicolinealidad (revisar el Modelo)
Modelo no explicativo Ninguna Xi es explicativa El Modelo no explica Y
7
Regresión Lineal Múltiple
PREDICCIÓN EN EL MODELO DE REGRESIÓN
Una vez estimado y validado el Modelo, una de sus aplicaciones más importantes consiste en poder
realizar predicciones acerca del valor que tomaría la variable dependiente en el futuro o para una
unidad extramuestral.
Esta predicción se puede realizar tanto para un valor individual como para un valor medio, o
esperado, de la variable dependiente, siendo posible efectuar una predicción puntual o por
intervalos. Su cálculo se realiza mediante las siguientes expresiones:
⎡ ⎛1 ⎞ ⎤
⎢ ⎜ ⎟ ⎥
⎢ ⎜ X 10 ⎟ ⎥
IC E(Y0 ) = ⎢Ŷ 0 ± t α / 2 , (n−k −1) S R (1 X 10 X 20 L X k 0 ) (X' X) −1 ⎜ X 20 ⎟ ⎥
⎢ ⎜ ⎟ ⎥
⎢ ⎜M ⎟ ⎥
⎢ ⎜ ⎟ ⎥
⎢⎣ ⎝ XK0 ⎠ ⎥⎦
• Intervalo de confianza para un valor individual de Y para los valores ( X 10 , X 20 , L L , X k 0 ) de las
variables explicativas.
⎡ ⎛1 ⎞ ⎤
⎢ ⎜ ⎟ ⎥
⎢ ⎜ X 10 ⎟ ⎥
IC Y0 = ⎢Ŷ0 ± t α / 2 , (n−k −1) SR 1 + (1 X 10 X 20 L X k 0 ) (X' X) −1 ⎜ X 20 ⎟ ⎥
⎢ ⎜ ⎟ ⎥
⎢ ⎜M ⎟ ⎥
⎢ ⎜ ⎟ ⎥
⎣⎢ ⎝ XK0 ⎠ ⎦⎥
MATRIZ DE COVARIANZAS
⎡σ2y S yx 1 S yx 2 ⎤ ⎧S yx 1 = Sx 1 y
⎢ ⎥ ⎪
La matriz de varianzas–covarianzas se define: VC = ⎢ Sx 1 y σ2x1 Sx 1 x 2 ⎥ ⎨ S yx 2 = Sx 2 y
⎢ Sx y
⎣ 2 Sx 2 x 1 σ2x2 ⎥⎦ ⎪⎩Sx 1 x 2 = Sx 2 x 1
VC yx 1 VC yx 2
βˆ 1 = − βˆ 2 = − βˆ 0 = Y − βˆ 1 X1 − βˆ 2 X2
VC y VC y
σ2x1 Sx 1 x 2 Sx 1 y Sx 1 x 2 Sx y σ2x1
donde, VC y = VC = − VC y x 2 = 1
Sx 2 x 1 σ2x2 y x 1
Sx 2 y σ2x2 Sx 2 y S2x 2 x 1
8
Regresión Lineal Múltiple
CV
Coeficiente de determinación múltiple: R = ryx 1x 2 = 1 −
2 2
σ2y C yy
Coeficientes de correlación parcial: VC yx 1 VC yx 2
ryx 1 .x 2 = − ryx 2 .x 1 = −
VCσ2 = VC yy VC σ = VCx 1x 1 VC = VCx 2 x 2
σ
x1 x2
VC yy VCx 1x 1 VC yy VCx 2 x 2
y
MATRIZ DE CORRELACIONES
La matriz de correlaciones de las variables explicativas Rx está formada por los coeficientes de
correlación lineal simple:
⎧ S yx 1
⎪ ryx 1 =
⎡1 ryx 1 ryx 2 ⎤ ⎧ryx 1 = rx 1 y σ y σx 1
⎢ ⎥ ⎪r = r ⎪⎪
Rx = ⎢ rx 1 y 1 rx 1x 2 ⎥ donde ⎨ yx 2 x 2 y ⎨
⎢ rx y rx x 1 ⎥⎦ ⎪rx x = rx x ⎪ S yx 2
⎣ 2 2 1 ⎩ 1 2 2 1
⎪ ryx 2 =
⎪⎩ σy σx 2
⎧ ryx 1 − ryx 2 rx 1 x 2
⎪ryx 1 .x 2 =
⎪ (1 − ryx2 2 )(1 − rx21x 2 )
⎪
Coeficientes de correlación parcial: ⎨
⎪ ryx 2 − ryx 1 rx 2 x 1
⎪ ryx 2 .x 1 =
⎪⎩ (1 − ryx2 1 )(1 − rx22 x 1 )
9