Regresion Lineal

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 47

2

ESTG1037 – ESTADÍSTICA II

Profesor: Francisco Moreira


Correo: famoreir@espol.edu.ec
3

UNIDAD 4
MODELOS LINEALES Y ESTIMACIÓN
MEDIANTE MÍNIMOS CUADRADOS
• Objetivo del aprendizaje

Construir modelos lineales válidos a través de la metodología de mínimos


cuadrados, para el estudio de la variabilidad de variables normales.
Contenido
1.1.- Introducción: Modelos Estadísticos Lineales
1.2.- Regresión lineal simple
Introducción: Modelos Estadísticos Lineales

El análisis de regresión es una metodología estadística que utiliza la relación entre


dos o más variables cuantitativas, para que una variable de respuesta o resultado
(Y) pueda predecirse con ayuda de la otra u otras variables explicativas/predictoras
(𝑋𝑖 ).

Esta metodología es ampliamente utilizada en los negocios, las ciencias sociales y


del comportamiento, las ciencias biológicas y muchas otras disciplinas.

La regresión lineal simple es un modelo de regresión lineal con una sola variable
explicativa
Introducción: Modelos Estadísticos Lineales
Ejemplos de aplicaciones:
1. Las ventas de un producto (relación gasto - ventas).
2. El rendimiento de un empleado.
3. El tamaño del vocabulario de un niño puede predecirse utilizando la relación entre el
tamaño del vocabulario y la edad del niño y la cantidad de educación de los padres.
4. La duración de la estancia hospitalaria de un paciente quirúrgico (tiempo en el hospital
– gravedad de la operación).
Introducción: Modelos Estadísticos Lineales
• El modelo de regresión puede ser determinista o estadístico.
• En el modelo determinista la variable de respuesta esta relacionada con la variable
explicativa mediante una función matemática.

Y = 𝑓(𝑥)

Figura 1.1.
Introducción: Modelos Estadísticos Lineales
• Ejemplo:
Introducción: Modelos Estadísticos Lineales
• El modelo estadístico a diferencia del determinista (funcional), no es perfecto. El valor
de la respuesta es una combinación.
𝑌 = 𝑠𝑒ñ𝑎𝑙 + 𝑟𝑢𝑖𝑑𝑜
Introducción: Modelos Estadísticos Lineales
• Ejemplo:
Introducción: Modelos Estadísticos Lineales
• Ejemplo:
Introducción: Modelos Estadísticos Lineales

• Modelos Estadísticos
variable respuesta = modelo + error
• Modelos Lineales
𝑦𝑖 = 𝛽0 + 𝛽1 ∗ 𝑥1𝑖 + 𝛽2 ∗ 𝑥2𝑖 + … + 𝜀𝑖
Contenido
1.1.- Introducción: Modelos Estadísticos Lineales
1.2.- Regresión lineal simple
Regresión lineal simple
• Un modelo de regresión es una manera formal de expresar dos
componentes esenciales de una relación estadística:
1. Una tendencia de la variable de respuesta Y a variar con X de manera sistemática.
2. Una dispersión de puntos alrededor de la curva.
• Declaración formal de modelo
𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊 + 𝜺𝒊
𝒀𝒊 es el valor de la variable de respuesta en el i-esimo evento
𝜷𝟎 y 𝜷𝟏 son parámetros
𝑿𝒊 es una constante conocida, es decir, el valor de la variable predictora en el evento i
𝜺𝒊 es el error aleatorio con media 0 y varianza 𝜎 2 ; 𝜺𝒊 y 𝜺𝒋 son incorrelacionados por lo que su covarianza es 0 i =
1,…,n (𝜎 𝜺𝒊 , 𝜺𝒋 = 0 ∀𝑖, 𝑗; 𝑖 ≠ 𝑗)
Regresión lineal simple
• Características importantes del modelo.
1. La respuesta es la suma de dos componentes, el termino constante y el termino aleatorio. Por lo
tanto la respuesta es una variable aleatoria.
2.

3. La respuesta en un evento i excede o queda por debajo del valor de la función regresión por la
cantidad del término del error.
4. El error tiene varianza constante. La respuesta tiene la misma varianza constante.
Regresión lineal simple
5. El error no esta correlacionado por lo que las respuesta tampoco.
En resumen, el modelo de regresión implica que la respuesta proviene de distribuciones de probabilidad donde sus
medias son 𝑬[𝒀𝒊 ] = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊 y sus varianzas 𝜎 2 , lo mismo para cada nivel de X. Además, cualesquiera dos
respuestas están incorrelacionadas.
Regresión lineal simple
Hipótesis del modelo
Regresión lineal simple
1. Linealidad
Regresión lineal simple
2. Homocedasticidad
Regresión lineal simple
3. Homogeneidad

4. Independencia
Regresión lineal simple
5. Normalidad

¿Forma
matricial?
Recordar:
𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊 + 𝜺𝒊 ¿Cuántos parámetros tiene el modelo?

(𝜎 𝜺𝒊 , 𝜺𝒋 = 0 ∀𝑖, 𝑗; 𝑖 ≠ 𝑗)
Estimación de parámetros
• Recta de mínimos cuadrados
La recta de regresión poblacional es: 𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊
La recta de mínimos cuadrados es: ෡ 𝒊 = 𝒃𝟎 + 𝒃𝟏 𝑿𝒊
𝒀
𝒃𝟎 y 𝒃𝟏 son los estimadores de 𝜷𝟎 y 𝜷𝟏
෡𝒊
𝒆𝒊 = 𝒀𝒊 − 𝒀 se denomina error/residual.
Criterio de mínimos cuadrados es minimizar el error/residual

SCE (SUMA DE LOS CUADRADOS


DEL ERROR)
Estimación de parámetros
• Luego de minimizar obtenemos las “ecuaciones normales”.

• La primera ecuación puede ser reescrita así:

Y la segunda:
Estimación de parámetros
• El resultado final: 𝒏 𝒏

𝒃𝟎 𝒏 + 𝒃𝟏 ෍ 𝑿𝒊 = ෍ 𝒀𝒊
𝒊=𝟏 𝒊=𝟏

𝒏 𝒏 𝒏

𝒃 𝟎 ෍ 𝑿 𝒊 + 𝒃 𝟏 ෍ 𝑿 𝒊 𝟐 = ෍ 𝑿 𝒊 𝒀𝒊
𝒊=𝟏 𝒊=𝟏 𝒊=𝟏

De aquí se obtienen finalmente 𝒃𝟎 y 𝒃𝟏 para el modelo de mínimos cuadrados. Este


modelo puede usarse para realizar pronósticos.
෡ 𝒊 = 𝒃𝟎 + 𝒃𝟏 𝑿𝒊
𝒀
Estimación de parámetros
• Recordar, usando el
criterio de los mínimos
cuadrados tenemos:
• 𝒃𝟎 y 𝒃𝟏 son
combinaciones lineales
de 𝒀𝒊 ,
• La línea ajustada es:
෡𝒊 = 𝒀
𝒀 ഥ + 𝒃𝟏 𝑿𝒊 − 𝑿 ഥ y
siempre pasa por el
ത 𝑌)
punto (𝑋, ത
• La media muestral del
residuo 𝒆𝒊 es igual a 0.
Ejercicio grupal

Las siguientes son las calificaciones de un grupo de 9 estudiantes en la


primera evaluación (X) y en la segunda evaluación (Y):

1eval 77 50 71 72 81 94 96 99 67

2eval 82 66 78 34 47 85 99 99 68

a) Estime la recta de regresión lineal


b) Calcule la calificación final de un estudiante que obtuvo 85 de
calificación de la primera evaluación.
X Y X^2 XY
𝑛 𝑛 77 82 5929 6314
50 66 2500 3300
𝑏0 𝑛 + 𝑏1 ෍ 𝑥𝑖 = ෍ 𝑦𝑖 71 78 5041 5538
72 34 5184 2448
𝑖=1 𝑖=1
81 47 6561 3807
94 85 8836 7990
𝑛 𝑛 𝑛 96 99 9216 9504

𝑏0 ෍ 𝑥𝑖 + 𝑏1 ෍ 𝑥𝑖 2 = ෍ 𝑥𝑖 𝑦𝑖 99
67
99
68
9801
4489
9801
4556
TOTAL 707 658 57557 53258
𝑖=1 𝑖=1 𝑖=1
Promedio 78,56 73,11
𝑛 𝑛

𝑏0 𝑛 + 𝑏1 ෍ 𝑥𝑖 = ෍ 𝑦𝑖
𝑖=1 𝑖=1

𝑛 𝑛 𝑛

𝑏0 ෍ 𝑥𝑖 + 𝑏1 ෍ 𝑥𝑖 2 = ෍ 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1

σ𝑛𝑖=1(𝑥𝑖 −𝑥)𝑦
ҧ 𝑖
𝑏1 = 𝑛
σ𝑖=1(𝑥𝑖 −𝑥)ҧ 2
Media y varianza de los estimadores

𝑛
1
෍ 𝑐𝑖 2 =
σ𝑛𝑖=1(𝑥𝑖 −𝑥)ҧ 2
𝑖=1

𝑛 𝑛

෍ 𝑐𝑖 = 0 ෍ 𝑐𝑖 𝑥𝑖 = 1
𝑖=1 𝑖=1
Inferencias respecto a los parámetros

Con un nivel de confianza de (1-𝛼)


Este intervalo contiene a 𝛽𝑖 el (1-𝛼)100% de las veces.
Aproximando, para n>20 y con 95% podemos usar t=2
Si 𝐻0 es cierta

Si 𝑡1 es mayor que 2 y el modelo es correcto,


rechazamos 𝐻0 y no removemos la variable x del
modelo.
Descomposición de la variabilidad
Descomposición de la variabilidad

La variabilidad total de Y = Variabilidad Explicada + Variabilidad No Explicada


TABLA ANOVA

COEFICIENTE DE DETERMINACIÓN

¿Cuál es la relación entre la prueba T y F en RLS?


Predicciones
41

𝑌෠𝑖 = 𝐵0 + 𝐵1 𝑥𝑖 𝑌෠0 = 𝐵0 + 𝐵1 𝑥0 𝐸(𝑌෠0 ) = 𝐸(𝐵0 + 𝐵1 𝑥0 ) 𝜇𝑌|𝑥0 = 𝛽0 + 𝛽1 𝑥0

𝑌෠𝑖 = 𝑌ത + 𝐵1 𝑥𝑖 − 𝑥ҧ

𝜎2 𝜎2 2
= + 𝑥 − 𝑥ҧ
𝑛 σ𝑛𝑖=1(𝑥𝑖 −𝑥)ҧ 2 0
𝑌෠0 − 𝐸(𝑌෠0 )
𝜎𝑌෠0
42

𝑌෠0 − 𝑌0

𝜎2 𝜎2 2
= + 𝑥 − 𝑥ҧ + 𝜎2
𝑛 σ𝑛𝑖=1(𝑥𝑖 −𝑥)ҧ 2 0

(𝑌෠0 −𝑌0 ) − 𝐸(𝑌෠0 −𝑌0 )


𝜎𝑌෠0 −𝑌0
INTERVALO DE CONFIANZA

INTERVALO DE PREDICCIÓN
45
46

Fuentes bibliográficas:
• Devore, Jay L. (2008) Probabilidad y Estadística para Ingeniería y Ciencias.
Séptima edición. Cengage Learning Editores. ISBN-13: 978-607-481-338-8,
ISBN-10: 607-481-338-8
• Ronald E. Walpole, Raymond H. Myers, Sharon L. Meyers, Keying Ye.
(2012). Probabilidad y estadística para ingeniería y ciencias. (9na). México:
Pearson Educacion. ISBN-10: 6073214170, ISBN-13: 9786073214179
• Gaudencio Zurita Herrera. (2010). Probabilidad y Estadística, Fundamentos
y Aplicaciones. (Segunda). Espol: ESPOL. ISBN-10: 997831055X, ISBN-13:
9789978310557
• Michael Kutner. (2004). Applied Linear Statistical Models. (5th). USA:
McGraw-Hill Higher Education. ISBN-10: 007310874X, ISBN-13:
9780073108742

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy