Biotecnologia
Biotecnologia
Biotecnologia
La regresión lineal múltiple trata de ajustar modelos lineales o linealizadles entre una
variable dependiente y más de unas variables independientes. En este tipo de modelos es
importante testar la heterocedasticidad, la multicolinealidad y la especificación. En este
curso trataremos de introducirnos en el mundo de la modelización, con creación de
dummyes, configurando un individuo de referencia, factores de ponderación, variables
de interacción, interrelación, etc. Es particularmente importante entender lo que se está
haciendo en cada momento porque estos principios sirven para prácticamente todos los
modelos que se emprendan a continuación y después, con modelos más complejos y
menos intuitivos, serán más difíciles de comprender.
En definitiva, y al igual que en regresión lineal simple, vamos a considerar que los
valores de la variable dependiente Y han sido generados por una combinación lineal de
los valores de una o más variables explicativas y un término aleatorio:
y = b0 + b1 × x1 + b2 × x2 + ... + bk × xk + u
Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores
observados y los pronosticados sea mínima, es decir, que se va a minimizar la
varianza residual.
Esta ecuación recibe el nombre de hiperplano, pues cuando tenemos dos variables
explicativas, en vez de recta de regresión tenemos un plano:
Con tres variables explicativas tendríamos un espacio de tres dimensiones, y así
sucesivamente.
En base a estos datos, vamos a construir un modelo para predecir el peso de una persona
(Y). Esto equivale a estudiar la relación existente entre este conjunto de variables
En primer lugar, tenemos que la variable dependiente es el peso; y las variables que
vamos a utilizar para predecir el peso reciben el nombre de variables independientes o
explicativas.
y b0 b1 x u
y b0 b1 x1 b2 x2 b3 x3 ... bk xk u
estatura
pie
l_brazo
a_espald
d_craneo
Al igual que en regresión lineal simple, los coeficientes b van a indicar el incremento en
el peso por el incremento unitario de la correspondiente variable explicativa. Por lo
tanto, estos coeficientes van a tener las correspondientes unidades de medida.
Para realizar las hipótesis se es necesario realizar un análisis de regresión lineal múltiple
se hacen las siguientes consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente están generados por el
siguiente modelo lineal: Y X * B U
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza: V (ui ) σ
c) Independencia: las perturbaciones aleatorias son independientes entre sí:
E(ui u j ) 0, i j
Min( y j yˆ j )
Donde:
Por lo tanto:
2
n * u* u ( y X * b)* ( y X * b)
Es decir:
(b) ( y j yˆ j ) u* u
Por tanto, la varianza residual es una función del vector de parámetros b y la condición
para que tenga un mínimo será:
(b)
0
b
2
n * u* u ( y x * b)*( y x * b) y* y y* x * b b*
x* y b* x* x * b
Por lo tanto:
X *Y X * X * B
X *Y X * X * B
1
Multiplicado por ( X * X )
1 1
( X * X ) X *Y ( X * X ) X * X * B
1
( X * X ) X *Y I * B
1
B ( X * X ) * X *Y
Además,
X *Y X * X * B
X *Y X * X * B 0
X *(Y X * B) 0
X *U 0
Es decir, los residuos obtenidos del modelo estimado por mínimos cuadrados no van a
estar correlacionados con las variables explicativas.
Nota
(X´1*X) va a tener el determinante con valor cero o; si hay al menos una variable que
puede ser expresada como combinación lineal del resto (ingresos mensuales, ingresos
anuales) el determinante de esta matriz es cero y dicha matriz será singular y por lo
tanto no tendrá inversa.
A los problemas provocados por la fuerte correlación entre las variables explicativas se
les llama multicolinealidad.
2 2
n * ( y Y )
( yi y) ( yi y) ( yi yi )
Suma de Grados de
cuadrados 2 libertad 2
VT ( y y) n-1 S
VE 2 k-1 VT
( yˆ y)
) 2 2
VNE (yy ) n-k-1 S
VNE
H0 b1 b2 ... bk 0
H1 bj 0
Nota
La hipótesis nula es que todos los coeficientes menos b0 son nulos y la hipótesis
alternativa o complementaria es que existe al menos uno que es distinto de 0, puede
haber varios que sean nulos, pero al menos existe uno distinto de cero.
Por lo tanto:
Por ser cociente de sumas de cuadrados, este coeficiente será siempre positivo.
Si todos los puntos están sobre la recta de regresión, la varianza no explicada será 0, y
por lo tanto:
Este coeficiente es muy importante pues determina qué porcentaje (en tantos por uno)
de la varianza de la variable dependiente es explicado por el modelo de regresión.
1x1 2 x2 ... k xk 0 0
ANOVAb
Sum
of
Model d Mean F Sig.
Squa
1 Regressi 3485,4 6 f Square
580,900 14,9 ,
on
Residual 01 86 000
775,26 20 38,763
5
Total 4260,6 26
67
a. Predictors: (Constant), l_roxto Longitud de
rodilla a tobillo, d_cráneo, a_espald, l_ brazo,
pie, estatura
b. Dependent Variable: peso
Coeficientes
Unstandard Standar
Model Collinearity
ized dized t Sig
B Std. B Tole V
.
1 (Constan - 43,9
Erro et - ,007 ranc I
Estatura
t) -,35
133, ,445
85 -,283 -,79
3,03 ,435 ,072 13,8
Pie 2,18
4 1,24 ,489 1,75
6 ,095 ,117 8,57
82
l_brazo ,821
7 ,621
8 ,317 1,32
2 ,201 ,159 6,30
4
a_espald 1,06 ,660 ,335 1,61
3 ,122 ,212 4,72
7
d_cráneo 1,09
7 ,922 ,157 1,18
6 ,250 ,517 1,93
4
l_roxto 3 6 3
Los residuos son variables aleatorias que siguen (¿?) una distribución normal. Los
residuos tienen unidades de medida y, por tanto, no se puede determinar si es grande o
pequeño a simple vista.
Se considera que un residuo tiene un valor alto, y por lo tanto puede influir
negativamente en el análisis, si su residuo estandarizado es mayor de 3 en valor
absoluto.