Regresion Lineal

2
ESTG1037 – ESTADÍSTICA II
Profesor: Francisco Moreira

Correo: famoreir@espol.edu.ec
3
UNIDAD 4
MODELOS LINEALES Y ESTIMACIÓN
MEDIANTE MÍNIMOS CUADRADOS
• Objetivo del aprendizaje
Construir modelos lineales válidos a través de la metodología de mínimos

cuadrados, para el estudio de la variabilidad de variables normales.
Contenido
1.1.- Introducción: Modelos Estadísticos Lineales
1.2.- Regresión lineal simple
Introducción: Modelos Estadísticos Lineales
El análisis de regresión es una metodología estadística que utiliza la relación entre

dos o más variables cuantitativas, para que una variable de respuesta o resultado
(Y) pueda predecirse con ayuda de la otra u otras variables explicativas/predictoras
(𝑋𝑖 ).
Esta metodología es ampliamente utilizada en los negocios, las ciencias sociales y

del comportamiento, las ciencias biológicas y muchas otras disciplinas.
La regresión lineal simple es un modelo de regresión lineal con una sola variable
explicativa
Ejemplos de aplicaciones:
1. Las ventas de un producto (relación gasto - ventas).
2. El rendimiento de un empleado.
3. El tamaño del vocabulario de un niño puede predecirse utilizando la relación entre el
tamaño del vocabulario y la edad del niño y la cantidad de educación de los padres.
4. La duración de la estancia hospitalaria de un paciente quirúrgico (tiempo en el hospital
– gravedad de la operación).
• El modelo de regresión puede ser determinista o estadístico.
• En el modelo determinista la variable de respuesta esta relacionada con la variable
explicativa mediante una función matemática.
Y = 𝑓(𝑥)
Figura 1.1.
• Ejemplo:
• El modelo estadístico a diferencia del determinista (funcional), no es perfecto. El valor
de la respuesta es una combinación.
𝑌 = 𝑠𝑒ñ𝑎𝑙 + 𝑟𝑢𝑖𝑑𝑜
• Ejemplo:
• Ejemplo:
• Modelos Estadísticos
variable respuesta = modelo + error
• Modelos Lineales
𝑦𝑖 = 𝛽0 + 𝛽1 ∗ 𝑥1𝑖 + 𝛽2 ∗ 𝑥2𝑖 + … + 𝜀𝑖
Contenido
1.1.- Introducción: Modelos Estadísticos Lineales
1.2.- Regresión lineal simple
Regresión lineal simple
• Un modelo de regresión es una manera formal de expresar dos
componentes esenciales de una relación estadística:
1. Una tendencia de la variable de respuesta Y a variar con X de manera sistemática.
2. Una dispersión de puntos alrededor de la curva.
• Declaración formal de modelo
𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊 + 𝜺𝒊
𝒀𝒊 es el valor de la variable de respuesta en el i-esimo evento
𝜷𝟎 y 𝜷𝟏 son parámetros
𝑿𝒊 es una constante conocida, es decir, el valor de la variable predictora en el evento i
𝜺𝒊 es el error aleatorio con media 0 y varianza 𝜎 2 ; 𝜺𝒊 y 𝜺𝒋 son incorrelacionados por lo que su covarianza es 0 i =
1,…,n (𝜎 𝜺𝒊 , 𝜺𝒋 = 0 ∀𝑖, 𝑗; 𝑖 ≠ 𝑗)
• Características importantes del modelo.
1. La respuesta es la suma de dos componentes, el termino constante y el termino aleatorio. Por lo
tanto la respuesta es una variable aleatoria.
2.
3. La respuesta en un evento i excede o queda por debajo del valor de la función regresión por la
cantidad del término del error.
4. El error tiene varianza constante. La respuesta tiene la misma varianza constante.
5. El error no esta correlacionado por lo que las respuesta tampoco.
En resumen, el modelo de regresión implica que la respuesta proviene de distribuciones de probabilidad donde sus
medias son 𝑬[𝒀𝒊 ] = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊 y sus varianzas 𝜎 2 , lo mismo para cada nivel de X. Además, cualesquiera dos
respuestas están incorrelacionadas.
Hipótesis del modelo
1. Linealidad
2. Homocedasticidad
3. Homogeneidad
4. Independencia
5. Normalidad
¿Forma
matricial?
Recordar:
𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊 + 𝜺𝒊 ¿Cuántos parámetros tiene el modelo?
(𝜎 𝜺𝒊 , 𝜺𝒋 = 0 ∀𝑖, 𝑗; 𝑖 ≠ 𝑗)
Estimación de parámetros
• Recta de mínimos cuadrados
La recta de regresión poblacional es: 𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊
La recta de mínimos cuadrados es: ෡ 𝒊 = 𝒃𝟎 + 𝒃𝟏 𝑿𝒊
𝒀
𝒃𝟎 y 𝒃𝟏 son los estimadores de 𝜷𝟎 y 𝜷𝟏
෡𝒊
𝒆𝒊 = 𝒀𝒊 − 𝒀 se denomina error/residual.
Criterio de mínimos cuadrados es minimizar el error/residual
SCE (SUMA DE LOS CUADRADOS

DEL ERROR)
• Luego de minimizar obtenemos las “ecuaciones normales”.
• La primera ecuación puede ser reescrita así:
Y la segunda:
• El resultado final: 𝒏 𝒏
𝒃𝟎 𝒏 + 𝒃𝟏 ෍ 𝑿𝒊 = ෍ 𝒀𝒊
𝒊=𝟏 𝒊=𝟏
𝒏 𝒏 𝒏
𝒃 𝟎 ෍ 𝑿 𝒊 + 𝒃 𝟏 ෍ 𝑿 𝒊 𝟐 = ෍ 𝑿 𝒊 𝒀𝒊
𝒊=𝟏 𝒊=𝟏 𝒊=𝟏
De aquí se obtienen finalmente 𝒃𝟎 y 𝒃𝟏 para el modelo de mínimos cuadrados. Este

modelo puede usarse para realizar pronósticos.
෡ 𝒊 = 𝒃𝟎 + 𝒃𝟏 𝑿𝒊
𝒀
• Recordar, usando el
criterio de los mínimos
cuadrados tenemos:
• 𝒃𝟎 y 𝒃𝟏 son
combinaciones lineales
de 𝒀𝒊 ,
• La línea ajustada es:
෡𝒊 = 𝒀
𝒀 ഥ + 𝒃𝟏 𝑿𝒊 − 𝑿 ഥ y
siempre pasa por el
ത 𝑌)
punto (𝑋, ത
• La media muestral del
residuo 𝒆𝒊 es igual a 0.
Ejercicio grupal
Las siguientes son las calificaciones de un grupo de 9 estudiantes en la

primera evaluación (X) y en la segunda evaluación (Y):
1eval 77 50 71 72 81 94 96 99 67
2eval 82 66 78 34 47 85 99 99 68
a) Estime la recta de regresión lineal

b) Calcule la calificación final de un estudiante que obtuvo 85 de
calificación de la primera evaluación.
X Y X^2 XY
𝑛 𝑛 77 82 5929 6314
50 66 2500 3300
𝑏0 𝑛 + 𝑏1 ෍ 𝑥𝑖 = ෍ 𝑦𝑖 71 78 5041 5538
72 34 5184 2448
𝑖=1 𝑖=1
81 47 6561 3807
94 85 8836 7990
𝑛 𝑛 𝑛 96 99 9216 9504
𝑏0 ෍ 𝑥𝑖 + 𝑏1 ෍ 𝑥𝑖 2 = ෍ 𝑥𝑖 𝑦𝑖 99
67
99
68
9801
4489
9801
4556
TOTAL 707 658 57557 53258
𝑖=1 𝑖=1 𝑖=1
Promedio 78,56 73,11
𝑛 𝑛
𝑏0 𝑛 + 𝑏1 ෍ 𝑥𝑖 = ෍ 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
𝑏0 ෍ 𝑥𝑖 + 𝑏1 ෍ 𝑥𝑖 2 = ෍ 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
σ𝑛𝑖=1(𝑥𝑖 −𝑥)𝑦
ҧ 𝑖
𝑏1 = 𝑛
σ𝑖=1(𝑥𝑖 −𝑥)ҧ 2
Media y varianza de los estimadores
𝑛
1
෍ 𝑐𝑖 2 =
σ𝑛𝑖=1(𝑥𝑖 −𝑥)ҧ 2
𝑖=1
𝑛 𝑛
෍ 𝑐𝑖 = 0 ෍ 𝑐𝑖 𝑥𝑖 = 1
𝑖=1 𝑖=1
Inferencias respecto a los parámetros
Con un nivel de confianza de (1-𝛼)

Este intervalo contiene a 𝛽𝑖 el (1-𝛼)100% de las veces.
Aproximando, para n>20 y con 95% podemos usar t=2
Si 𝐻0 es cierta
Si 𝑡1 es mayor que 2 y el modelo es correcto,

rechazamos 𝐻0 y no removemos la variable x del
modelo.
Descomposición de la variabilidad
Descomposición de la variabilidad
La variabilidad total de Y = Variabilidad Explicada + Variabilidad No Explicada

TABLA ANOVA
COEFICIENTE DE DETERMINACIÓN
¿Cuál es la relación entre la prueba T y F en RLS?

Predicciones
41
𝑌෠𝑖 = 𝐵0 + 𝐵1 𝑥𝑖 𝑌෠0 = 𝐵0 + 𝐵1 𝑥0 𝐸(𝑌෠0 ) = 𝐸(𝐵0 + 𝐵1 𝑥0 ) 𝜇𝑌|𝑥0 = 𝛽0 + 𝛽1 𝑥0
𝑌෠𝑖 = 𝑌ത + 𝐵1 𝑥𝑖 − 𝑥ҧ
𝜎2 𝜎2 2
= + 𝑥 − 𝑥ҧ
𝑛 σ𝑛𝑖=1(𝑥𝑖 −𝑥)ҧ 2 0
𝑌෠0 − 𝐸(𝑌෠0 )
𝜎𝑌෠0
42
𝑌෠0 − 𝑌0
𝜎2 𝜎2 2
= + 𝑥 − 𝑥ҧ + 𝜎2
𝑛 σ𝑛𝑖=1(𝑥𝑖 −𝑥)ҧ 2 0
(𝑌෠0 −𝑌0 ) − 𝐸(𝑌෠0 −𝑌0 )

𝜎𝑌෠0 −𝑌0
INTERVALO DE CONFIANZA
INTERVALO DE PREDICCIÓN
45
46
Fuentes bibliográficas:
• Devore, Jay L. (2008) Probabilidad y Estadística para Ingeniería y Ciencias.
Séptima edición. Cengage Learning Editores. ISBN-13: 978-607-481-338-8,
ISBN-10: 607-481-338-8
• Ronald E. Walpole, Raymond H. Myers, Sharon L. Meyers, Keying Ye.
(2012). Probabilidad y estadística para ingeniería y ciencias. (9na). México:
Pearson Educacion. ISBN-10: 6073214170, ISBN-13: 9786073214179
• Gaudencio Zurita Herrera. (2010). Probabilidad y Estadística, Fundamentos
y Aplicaciones. (Segunda). Espol: ESPOL. ISBN-10: 997831055X, ISBN-13:
9789978310557
• Michael Kutner. (2004). Applied Linear Statistical Models. (5th). USA:
McGraw-Hill Higher Education. ISBN-10: 007310874X, ISBN-13:
9780073108742

Regresion Lineal

Cargado por

Copyright:

Formatos disponibles

Regresion Lineal

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal

Cargado por

Copyright:

Formatos disponibles

2

Profesor: Francisco Moreira

Construir modelos lineales válidos a través de la metodología de mínimos

El análisis de regresión es una metodología estadística que utiliza la relación entre

Esta metodología es ampliamente utilizada en los negocios, las ciencias sociales y

SCE (SUMA DE LOS CUADRADOS

• La primera ecuación puede ser reescrita así:

De aquí se obtienen finalmente 𝒃𝟎 y 𝒃𝟏 para el modelo de mínimos cuadrados. Este

Las siguientes son las calificaciones de un grupo de 9 estudiantes en la

a) Estime la recta de regresión lineal

Con un nivel de confianza de (1-𝛼)

Si 𝑡1 es mayor que 2 y el modelo es correcto,

La variabilidad total de Y = Variabilidad Explicada + Variabilidad No Explicada

¿Cuál es la relación entre la prueba T y F en RLS?

𝑌෠𝑖 = 𝐵0 + 𝐵1 𝑥𝑖 𝑌෠0 = 𝐵0 + 𝐵1 𝑥0 𝐸(𝑌෠0 ) = 𝐸(𝐵0 + 𝐵1 𝑥0 ) 𝜇𝑌|𝑥0 = 𝛽0 + 𝛽1 𝑥0

(𝑌෠0 −𝑌0 ) − 𝐸(𝑌෠0 −𝑌0 )

También podría gustarte

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.