Biotecnologia

Holger Capa Santos P.
Regresión lineal múltiple
La regresión lineal múltiple trata de ajustar modelos lineales o linealizadles entre una
variable dependiente y más de unas variables independientes. En este tipo de modelos es
importante testar la heterocedasticidad, la multicolinealidad y la especificación. En este
curso trataremos de introducirnos en el mundo de la modelización, con creación de
dummyes, configurando un individuo de referencia, factores de ponderación, variables
de interacción, interrelación, etc. Es particularmente importante entender lo que se está
haciendo en cada momento porque estos principios sirven para prácticamente todos los
modelos que se emprendan a continuación y después, con modelos más complejos y
menos intuitivos, serán más difíciles de comprender.
Al tener más de una variable explicativa (no se debe de emplear el término

independiente) surgirán algunas diferencias con el modelo de regresión lineal simple.
En definitiva, y al igual que en regresión lineal simple, vamos a considerar que los
valores de la variable dependiente Y han sido generados por una combinación lineal de
los valores de una o más variables explicativas y un término aleatorio:
y = b0 + b1 × x1 + b2 × x2 + ... + bk × xk + u
Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores
observados y los pronosticados sea mínima, es decir, que se va a minimizar la
varianza residual.
Esta ecuación recibe el nombre de hiperplano, pues cuando tenemos dos variables
explicativas, en vez de recta de regresión tenemos un plano:
Con tres variables explicativas tendríamos un espacio de tres dimensiones, y así
sucesivamente.
Consideramos una muestra de personas como la que sigue a continuación:
Regist sexo Stature l_roxt pie l_braz a_espald d_cráneo peso

ro o o
X1 X6 X2 X3 X4 X5 Y
1 mujer 158 39 36 68 43 55 43
2 mujer 152 38 34 66 40 55 45
3 mujer 168 43 39 72.5 41 54.5 48
4 mujer 159 40 36 68.5 42 57 49
5 mujer 158 41 36 68.5 44 57 50
6 mujer 164 40 36 71 44.5 54 51
7 mujer 156 41 36 67 36 56 52
8 mujer 167 44 37 73 41.5 58 52
En base a estos datos, vamos a construir un modelo para predecir el peso de una persona
(Y). Esto equivale a estudiar la relación existente entre este conjunto de variables
x1 ,..., x5 y la variable peso (Y).
En primer lugar, tenemos que la variable dependiente es el peso; y las variables que
vamos a utilizar para predecir el peso reciben el nombre de variables independientes o
explicativas.
En la práctica deberemos de elegir cuidadosamente qué variables vamos a considerar

como explicativas. Algunos criterios que deben de cumplir serán los siguientes:
 Tener sentido numérico.

 No deberá de haber variables repetidas o redundantes
 Las variables introducidas en el modelo deberán de tener una cierta justificación
teórica.
 La relación entre variables explicativas en el modelo y casos debe de ser como
mínimo de 1 a 10.
 La relación de las variables explicativas con la variable dependiente debe de ser
lineal, es decir, proporcional.
El modelo de regresión lineal múltiple es idéntico al modelo de regresión lineal simple,
con la única diferencia de que aparecen más variables explicativas:
 Modelo de regression simple:
y  b0  b1  x  u
 Modelo de regresión multiple:
y  b0  b1  x1  b2  x2  b3  x3  ...  bk  xk  u
Siguiendo con nuestro ejemplo, si consideramos el peso como variable

dependiente y como posibles variables explicativas:
 estatura
 pie
 l_brazo
 a_espald
 d_craneo
El modelo que deseamos construir es:

peso  b0  b1  estatura  b2  pie  b3  l _ brazo  b4  a _ espald  b5 
d _ cráneo
Al igual que en regresión lineal simple, los coeficientes b van a indicar el incremento en
el peso por el incremento unitario de la correspondiente variable explicativa. Por lo
tanto, estos coeficientes van a tener las correspondientes unidades de medida.
Para realizar las hipótesis se es necesario realizar un análisis de regresión lineal múltiple
se hacen las siguientes consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente están generados por el
siguiente modelo lineal: Y  X * B  U
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza: V (ui ) σ
c) Independencia: las perturbaciones aleatorias son independientes entre sí:
E(ui  u j )  0, i  j
d) Normalidad: la distribución de la perturbación aleatoria tiene distribución

2
normal: U  N (0, )
e) Las variables explicativas Xk se obtienen sin errores de medida.
Para la estimación de los parámetros por mínimos cuadrados se procede a calcular un

hiperplano de regresión de forma que se minimice la varianza residual:
Min( y j  yˆ j )
Donde:
yˆ j  b0  b1 * x1,1  b2 * x2, j  ...bk * xk , j
Utilizando notación matricial:

Y teniendo en cuenta la definición de yˆ :
Por lo tanto:
Por lo tanto, la varianza residual se puede expresar de la siguiente forma:
2
n *  u* u  ( y  X * b)* ( y  X * b)
Es decir:
(b)   ( y j  yˆ j )  u* u
Por tanto, la varianza residual es una función del vector de parámetros b y la condición
para que tenga un mínimo será:
 (b)
0
b
Antes de derivar vamos a simplificar la expresión de la varianza residual:
2
n *  u* u  ( y  x * b)*( y  x * b)  y* y  y* x * b  b*
x* y  b* x* x * b
Por lo tanto:
Igualando a cero y despejando:
X *Y  X * X * B
X  * X es matriz no singular y por lo tanto tiene inversa, tenemos:
X *Y  X * X * B
1
Multiplicado por ( X * X )
1 1
( X * X ) X *Y  ( X * X ) X * X * B
1
( X * X ) X *Y  I * B
1
B  ( X * X ) * X *Y
Ésta es la expresión del estimador de parámetros B.
Además,
X *Y  X * X * B
X *Y  X * X * B  0
X *(Y  X * B)  0
X *U  0
Es decir, los residuos obtenidos del modelo estimado por mínimos cuadrados no van a
estar correlacionados con las variables explicativas.
Nota
Es importante observar que, si las variables explicativas X están muy correlacionadas

entre sí, la matriz muy cercana a cero.
(X´1*X) va a tener el determinante con valor cero o; si hay al menos una variable que
puede ser expresada como combinación lineal del resto (ingresos mensuales, ingresos
anuales) el determinante de esta matriz es cero y dicha matriz será singular y por lo
tanto no tendrá inversa.
En estos casos se impone la utilización de un método de selección de variables

explicativas.
A los problemas provocados por la fuerte correlación entre las variables explicativas se
les llama multicolinealidad.
Al igual que la varianza residual en RLS, vamos a descomponer la variabilidad de la

variable dependiente Y en dos componentes o fuentes de variabilidad: una componente
va a representar la variabilidad explicada por el modelo de regresión y la otra
componente va a representar la variabilidad no explicada por el modelo y, por tanto,
atribuida a factores aleatorios.
Consideramos la variabilidad de la variable dependiente como:
2 2
n *  ( y  Y )
Es decir, la variabilidad de Y es la suma cuadrática de los valores que toma la variable

respecto a la media de la variable.
Sumando y restando el valor pronosticado por el modelo de regresión obtenemos la

siguiente expresión:
( yi  y)  ( yi  y)  ( yi  yi )
Es decir, que la suma de cuadrados de la variable Y respecto a su media se puede

descomponer en términos de la varianza residual. De esta expresión se deduce que “la
distancia de Y a su media se descompone como la distancia de Y a su estimación más
la distancia de su estimación a la media”.
Teniendo en cuenta que el último término representa la varianza no explicada,

tenemos:
Gráficamente es fácil ver la relación:
Dividiendo la variabilidad total entre sus

grados de libertad obtenemos la varianza de la variable dependiente Y :
Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos la

varianza residual de la variable dependiente Y :
En la siguiente tabla se podrá observar el resumen de formulación:
Suma de Grados de
cuadrados 2 libertad 2
VT  ( y  y) n-1 S 
VE 2 k-1 VT
 ( yˆ  y)
) 2 2
VNE  (yy ) n-k-1 S 
VNE
En contrastes de regresión en así como estamos sacando conclusiones de una muestra

de un conjunto mucho más amplio de datos, a veces este conjunto será infinito, es
obvio que distintas muestras van a dar distintos valores de los parámetros.
Un caso de especial interés es asignar una medida de probabilidad a la siguiente

afirmación o hipótesis:
H0  b1  b2  ...  bk  0
La afirmación contraria sería:
H1  bj  0
Nota
La hipótesis nula es que todos los coeficientes menos b0 son nulos y la hipótesis
alternativa o complementaria es que existe al menos uno que es distinto de 0, puede
haber varios que sean nulos, pero al menos existe uno distinto de cero.
Se denomina contraste de regresión al estudio de la posibilidad de que el modelo de

regresión sea nulo, es decir, los valores de las variables explicativas X no van a influir
en la variable Peso.
Si los residuos siguen una distribución normal y b 1  b2  ...  bk  0, tenemos

que:
Por lo tanto:
Es decir, el cociente entre la varianza explicada y la varianza no explicada será

aproximadamente 1. Además, al seguir una distribución F, podemos asignar una
medida de probabilidad (p-value) a la hipótesis de que la varianza explicada es igual a
la varianza no explicada.
En caso contrario la varianza no explicada será muy inferior a la varianza explicada y,

por lo tanto, este cociente tendrá un valor muy superior a 1.
Nota: En general si el p-value es menor de 0.05 se acepta que el modelo de regresión

es significativo; en caso contrario no podemos hablar de regresión, pues el modelo
sería nulo.
Si aceptamos que el modelo de regresión es significativo, es habitual mostrar el p-

value; por ejemplo: Encontramos que este modelo de regresión es estadísticamente
significativo con un p-value de 0.0003
Para el coeficiente de determinación de R2 vamos a construir un coeficiente
(estadístico) que mida la bondad del ajuste del modelo. Si bien la varianza residual (S 2R
) nos indica cómo están de cerca las estimaciones respecto de los puntos, esta varianza
está influida por la varianza de la variable dependiente, la cual, a su vez, está influida
por su unidad de medida. Por lo tanto, una medida adecuada es la proporción de la
varianza explicada (VE) entre la varianza total (VT); de este modo, definimos el
coeficiente de determinación R2:
Por ser cociente de sumas de cuadrados, este coeficiente será siempre positivo.
Si todos los puntos están sobre la recta de regresión, la varianza no explicada será 0, y
por lo tanto:
Este coeficiente es muy importante pues determina qué porcentaje (en tantos por uno)
de la varianza de la variable dependiente es explicado por el modelo de regresión.
En general, se pueden clasificar los valores de R2 de la siguiente manera:
Menor de 0.3 a 0.4 a 0.5 a Mayor de

Muy malo Malo Regula Bueno Sospechoso
r
Además, a diferencia de la varianza residual, este coeficiente es adimensional; esto

quiere decir que no está afectado por transformaciones lineales de las variables; por
ello, si cambiamos las unidades de medida, el coeficiente de determinación
permanecerá invariante.
Si las variables explicativas se pueden expresar como una combinación lineal:
1x1  2 x2  ...  k xk  0  0
Se dice que tenemos un problema de multicolinealidad. En general, este problema va a

afectar incrementando la varianza de los estimadores.
Este problema se detecta fácilmente:
 Solicitando el determinante de la matriz de varianzas-covarianzas, que estará

cercano a cero.
 Calculando el cociente entre el primer y último autovalor de la matriz de
varianzas-covarianzas que será mayor de 50.
 Calculando para cada variable el coeficiente de determinación ( R2 ) de dicha
variable con el resto.
La solución es eliminar del modelo aquellas variables explicativas que dependen unas
de otras. En general, los métodos de selección de variables solucionan
automáticamente este problema.
ANOVAb
Sum
of
Model d Mean F Sig.
Squa
1 Regressi 3485,4 6 f Square
580,900 14,9 ,
on
Residual 01 86 000
775,26 20 38,763
5
Total 4260,6 26
67
a. Predictors: (Constant), l_roxto Longitud de
rodilla a tobillo, d_cráneo, a_espald, l_ brazo,
pie, estatura
b. Dependent Variable: peso
Coeficientes
Unstandard Standar
Model Collinearity
ized dized t Sig
B Std. B Tole V
.
1 (Constan - 43,9
Erro et - ,007 ranc I
Estatura
t) -,35
133, ,445
85 -,283 -,79
3,03 ,435 ,072 13,8
Pie 2,18
4 1,24 ,489 1,75
6 ,095 ,117 8,57
82
l_brazo ,821
7 ,621
8 ,317 1,32
2 ,201 ,159 6,30
4
a_espald 1,06 ,660 ,335 1,61
3 ,122 ,212 4,72
7
d_cráneo 1,09
7 ,922 ,157 1,18
6 ,250 ,517 1,93
4
l_roxto 3 6 3
a. Dependiente Variable: peso
En esta tabla se muestra el valor de los estimadores del hiperplano de regresión.

La columna denominada tolerancia es: 1 – R2
Donde la variable correspondiente entra como variable dependiente y el resto de las
variables explicativas actúan como regresoras.
A la vista de estos resultados, la variable estatura está provocando problemas de

multicolinealidad.
Es interesante observar que, si bien el contraste de regresión es significativo, ninguna

de las variables explicativas lo es.
Definimos como residuo del i-esimo caso a: ui  yi  yˆi
Los residuos son variables aleatorias que siguen (¿?) una distribución normal. Los
residuos tienen unidades de medida y, por tanto, no se puede determinar si es grande o
pequeño a simple vista.
Para solventar este problema se define el residuo estandarizado como:
Se considera que un residuo tiene un valor alto, y por lo tanto puede influir
negativamente en el análisis, si su residuo estandarizado es mayor de 3 en valor
absoluto.
Para evitar la dependencia entre numerador y denominador de la expresión anterior,

también se utilizan los residuos estudentizados.
Donde Sˆ(i)R es la varianza residual calculada sin considerar el i-esimo caso.
El análisis descriptivo y el histograma de los residuos nos indicarán si existen casos

que no se adapten bien al modelo lineal.

Biotecnologia

Cargado por

Copyright:

Formatos disponibles

Biotecnologia

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Biotecnologia

Cargado por

Copyright:

Formatos disponibles

Holger Capa Santos P.

Regresión lineal múltiple

Al tener más de una variable explicativa (no se debe de emplear el término

Consideramos una muestra de personas como la que sigue a continuación:

Regist sexo Stature l_roxt pie l_braz a_espald d_cráneo peso

x1 ,..., x5 y la variable peso (Y).

En la práctica deberemos de elegir cuidadosamente qué variables vamos a considerar

 Tener sentido numérico.

 Modelo de regression simple:

 Modelo de regresión multiple:

Siguiendo con nuestro ejemplo, si consideramos el peso como variable

El modelo que deseamos construir es:

d) Normalidad: la distribución de la perturbación aleatoria tiene distribución

Para la estimación de los parámetros por mínimos cuadrados se procede a calcular un

yˆ j  b0  b1 * x1,1  b2 * x2, j  ...bk * xk , j

Utilizando notación matricial:

Por lo tanto, la varianza residual se puede expresar de la siguiente forma:

Antes de derivar vamos a simplificar la expresión de la varianza residual:

Igualando a cero y despejando:

X  * X es matriz no singular y por lo tanto tiene inversa, tenemos:

Ésta es la expresión del estimador de parámetros B.

Es importante observar que, si las variables explicativas X están muy correlacionadas

En estos casos se impone la utilización de un método de selección de variables

Al igual que la varianza residual en RLS, vamos a descomponer la variabilidad de la

Consideramos la variabilidad de la variable dependiente como:

Es decir, la variabilidad de Y es la suma cuadrática de los valores que toma la variable

Sumando y restando el valor pronosticado por el modelo de regresión obtenemos la

Es decir, que la suma de cuadrados de la variable Y respecto a su media se puede

Teniendo en cuenta que el último término representa la varianza no explicada,

Dividiendo la variabilidad total entre sus

Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos la

En la siguiente tabla se podrá observar el resumen de formulación:

En contrastes de regresión en así como estamos sacando conclusiones de una muestra

Un caso de especial interés es asignar una medida de probabilidad a la siguiente

La afirmación contraria sería:

Se denomina contraste de regresión al estudio de la posibilidad de que el modelo de

Si los residuos siguen una distribución normal y b 1  b2  ...  bk  0, tenemos

Es decir, el cociente entre la varianza explicada y la varianza no explicada será

En caso contrario la varianza no explicada será muy inferior a la varianza explicada y,

Nota: En general si el p-value es menor de 0.05 se acepta que el modelo de regresión

Si aceptamos que el modelo de regresión es significativo, es habitual mostrar el p-

En general, se pueden clasificar los valores de R2 de la siguiente manera:

Menor de 0.3 a 0.4 a 0.5 a Mayor de

Además, a diferencia de la varianza residual, este coeficiente es adimensional; esto

Si las variables explicativas se pueden expresar como una combinación lineal:

Se dice que tenemos un problema de multicolinealidad. En general, este problema va a

Este problema se detecta fácilmente:

 Solicitando el determinante de la matriz de varianzas-covarianzas, que estará

a. Dependiente Variable: peso

En esta tabla se muestra el valor de los estimadores del hiperplano de regresión.

A la vista de estos resultados, la variable estatura está provocando problemas de

Es interesante observar que, si bien el contraste de regresión es significativo, ninguna

Definimos como residuo del i-esimo caso a: ui  yi  yˆi

Para solventar este problema se define el residuo estandarizado como:

Para evitar la dependencia entre numerador y denominador de la expresión anterior,

Donde Sˆ(i)R es la varianza residual calculada sin considerar el i-esimo caso.

El análisis descriptivo y el histograma de los residuos nos indicarán si existen casos

También podría gustarte

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.