Analisis de Regresion Y Correlacion Lineal: Enzo Aldo Bravo Burgos

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 35

UNIVERSIDAD NACIONAL DE CAJAMARCA

FACULTAD DE CIENCIAS ECONOMICAS,


CONTABLES Y ADMINISTRATIVAS

ANALISIS DE REGRESION
Y CORRELACION LINEAL

Enzo Aldo Bravo Burgos


ANALISIS DE REGRESION Y CORRELACION

 El término regresión fue introducido por


Francis Galton en su libro “Natural inheritance”
(1889) refiriéndose a la “ley de la regresión
universal”:

 “Cada peculiaridad en un hombre es


compartida por sus descendientes, pero en
media, en un grado menor.”
 Regresión a la media
 Su trabajo se centraba en la descripción de
los rasgos físicos de los descendientes (una
variable) a partir de los de sus padres (otra
variable).
ANALISIS DE REGRESION Y CORRELACION
 Karl Pearson (amigo de Galton) realizó un
estudio con más de 1000 registros de grupos
familiares observando una relación del tipo:

 Altura del hijo = 85cm + 0,5 altura del padre


(aprox.)

 Conclusión: los padres muy altos tienen


tendencia a tener hijos que heredan parte de
esta altura, aunque tienen tendencia a
acercarse (regresar) a la media. Lo mismo
puede decirse de los padres muy bajos.
ANALISIS DE REGRESION Y CORRELACION

DEFINICIÓN:

Es una técnica estadística que sirve


para analizar la dependencia de una
variable respecto a otra variable, es
decir, conociendo los valores de una
variable independiente se trata de
estimar los valores de una variable
dependiente.
FUNCIONES DEL ANÁLISIS DE REGRESIÓN:

Las funciones que persigue el Análisis de Regresión son:


1. Determinar si las variables independientes y la
variable dependiente presentan fuerzas de relación.
2. Determinar la estructura o la ecuación matemática
que relaciona las variables independientes con las
dependientes.
3. Pronosticar o predecir los valores de la variable
dependiente en función de la variable independiente.
4. Controlar otras variables independientes al evaluar las
contribuciones de una variable especifica o un
conjunto de variables
MODELOS DE REGRESIÓN:
TIPO   Ecuación

Simple 𝑌 = 𝛽0 + 𝛽 1 𝑋
REGRESIÓN
LINEAL
Múltiple   𝑌 = 𝛽0 +𝛽 1 𝑋 1 +...+𝛽 𝑘 𝑋 𝑘
 

Potencia 𝛽1
𝑌 = 𝛽0 𝑋
REGRESIÓN NO Exponencial 𝑌 = 𝛽0 𝛽 1 𝑋
LINEAL

Hiperbólico   𝛽1
𝑌 = 𝛽0 +
𝑋
DIAGRAMA DE DISPERSIÓN

 Es el primer paso a realizar para determinar


si existe una relación entre dos variables.
 Este grafico consiste en un conjunto de
puntos (x,y) presentados en un plano
cartesiano.
 Este diagrama permite visualizar el patrón
de comportamiento de estas variables y por
ende conocer la ecuación de regresión que
describen dichos datos.
Diagrama de dispersión o nubes de puntos
Diagrama de dispersión o nubes de puntos

Sea un conjunto de pares de valores de las variables X e Y. Si


los representamos en un diagrama de dispersión
obtendremos una “nube de puntos” que nos dará una idea
gráfica de la posible correlación entre ambas variables.
Y Y Y

X X X

No hay correlación Correlación positiva Correlación negativa


COVARIANZA DE DOS VARIABLES X E Y
 La covarianza entre dos variables, Sxy, nos indica si la
posible relación entre dos variables es directa o inversa.
 Directa: Sxy >0 1
 Inversa: Sxy <0
𝑆 𝑥𝑦 =
𝑛
∑ (𝑥𝑖 ¿ − ¯𝑥 )(𝑦 𝑖 − ¯𝑦 )¿
𝑖
 Incorreladas: Sxy =0

 El signo de la covarianza nos dice si el aspecto de la nube


de puntos es creciente o no, pero no nos dice nada sobre el
grado de relación entre las variables.
10
ANALISIS DE CORRELACIÓN

 El análisis de correlación es una técnica


estadística que mide el grado de asociación o
afinidad entre las variables cuantitativas
consideradas en un estudio.

 Se llamará CORRELACION SIMPLE cuando se


trata de analizar la relación entre dos variables.
Se llamará CORRELACION LINEAL O
RECTILINEA si la función es una recta, y de
CORRELACION NO LINEAL cuando la función es
una curva o una función de grado superior.
COEFICIENTE DE CORRELACIÓN LINEAL
 La coeficiente de correlación lineal de
Pearson de dos variables, r, nos indica si los
puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas
horizontales y verticales).

 tiene el mismo signo que Sxy por tanto de su


signo obtenemos el que la posible relación
sea directa o inversa.

 r es útil para determinar si hay relación


lineal entre dos variables, pero no servirá
𝑆 𝑥𝑦
para otro tipo de relaciones (cuadrática,
𝑟=
logarítmica,...)
𝑆𝑥 𝑆 𝑦
12
El COEFICIENTE DE CORRELACION DE PEARSON
Es el estadígrafo que mide el grado de asociación o afinidad entre las
variables cuantitativas y se denota por “r” la cual se define como:
𝑛

𝑆 𝑥𝑦
∑ ( 𝑥𝑖− 𝑥) ( 𝑦 𝑖− 𝑦 )
𝑖=1
𝑟= =

√ √
𝑆𝑥 𝑆 𝑦 𝑛 𝑛

∑ (𝑥𝑖 − 𝑥 ) 2
∑ ( 𝑦 𝑖 − 𝑦 )2
𝑖 =1 𝑖 =1

𝑛 𝑛 𝑛
𝑛∑ 𝑋𝑖𝑌 𝑖 −∑ 𝑋 𝑖 ∑𝑌𝑖
𝑖= 1 𝑖= 1 𝑖=1
𝑟=


𝑛
𝑛 ∑ 𝑋 𝑖 −¿ ¿ ¿ ¿
2

𝑖= 1

 Interpretación:

-1 -0.7 -0.4 0 0.4 0.7 +1

Perfecta Alta Regular Baja Baja Regular Alta Perfecta


N E GAT I VA PO S IT I VA
14 REGRESIÓN
 El análisis de regresión sirve para predecir una medida
en función de otra medida (o varias).
 Y = Variable dependiente
 predicha
 explicada
 X = Variable independiente
 predictora
 explicativa
 ¿Es posible descubrir una relación?
 Y = f(X) + error
 f es una función de un tipo determinado
 el error es aleatorio, pequeño, y no depende de
X
LA ECUACIÓN DE REGRESIÓN LINEAL:

Si la variable respuesta o variable dependiente (Y) está en relación


con la variable independiente (X), entonces la relación funcional o
ecuación de regresión entre Y y X tienen la siguiente forma:
Ecuación de regresión poblacional
𝑌 = 𝛽 +𝛽 𝑋 +𝜀
Ecuación 0de regresión
1 muestral
^
𝑌 = ^
𝛽 + ^
donde: 0 𝛽 1 𝑋
Y = Variable dependiente X = Variable independiente

𝛽 0 , 𝛽1 = Parámetro de la ecuación
^𝛽= ,Estimadores
^𝛽 de la ecuación
0 1
= Intercepto. Valor de Y cuando X es igual a cero
𝛽 0 = Pendiente. Incremento de Y, cuando X aumenta en una
𝛽
unidad.
1
Ecuación Explícita de la Recta

Y y = β0+ β1 x

Δ𝑌
Δ𝑋 β1¿ Δ𝑌
Δ𝑋

β0
X
β0 :Ordenada en el orígen. Punto de corte con el eje de ordenadas o “eje y”.
En este punto x está en el “origen” es decir x=0

β1 : Pendiente. Grado de inclinación de la recta. Si es positiva, la recta es


creciente. Si es negativa es decreciente. Es el cociente entre el incremento
que se produce en la variable dependiente, Y, cuando se incrementa la
variable independiente, X.
ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN:

Para estimar los coeficientes de la ecuación


de regresión, se utiliza el Método de los
Mínimos Cuadrados Ordinarios (MMCO).

 Este Método trata de encontrar las


coeficientes de la ecuación que más se
aproxime al conjunto de datos, es decir,
encuentra la ecuación de la recta de tal
manera que los errores que se forman
sean los más pequeños posibles.
ESTIMACIÓN DE LOS COEFICIENTES DE
REGRESIÓN LINEAL
Se desea ajustar un serie de
puntos (xi, yi) a una línea recta
dada por:
y = β 0 + β1 x + e
Donde β0 y β1 son coeficientes
que representan la intersección
con el eje y la pendiente, y e es el
error, o diferencia, entre el
modelo y las observaciones.

𝑒=( 𝒚 𝒊, 𝒎𝒆𝒅𝒊𝒅𝒂 − 𝒚 𝒊 ,𝒎𝒐𝒅𝒆𝒍𝒐 )

e = y – β0 - β1 x
ESTIMACIÓN DE LOS COEFICIENTES DE
REGRESIÓN: CRITERIO DEL MEJOR AJUSTE

En el método de mínimos cuadrados se


desea minimizar la suma de los cuadrados
de los residuos.

𝒏 𝒏 𝒏
𝑺𝒓 =∑ 𝒆 = ∑ ( 𝒚 𝒊 ,𝒎𝒆𝒅𝒊𝒅𝒂 − 𝒚 𝒊 ,𝒎𝒐𝒅𝒆𝒍𝒐 ) = ∑ ( y  – β0  − β1 x )
𝟐 𝟐 𝟐
𝒊
𝒊=𝟏 𝒊 =𝟏 𝒊 =𝟏
AJUSTE POR MÍNIMOS CUADRADOS
Derivando respecto a β0 y β1 .
𝑛 𝑛 𝑛
𝑆𝑟 =∑ 𝑒 =∑ ( 𝑦 𝑖 ,𝑚𝑒𝑑𝑖𝑑𝑎 − 𝑦 𝑖, 𝑚𝑜𝑑𝑒𝑙𝑜 ) =∑ ( 𝑦 𝑖 − β 0 − β 1 𝑥 𝑖 )
2
𝑖
2 2

𝑖=1 𝑖=1 𝑖=1

Obtenemos

Igualando a 0

0=∑ 𝑦𝑖 −∑ β0 −∑ β1 𝑥𝑖
Despejando obtenemos las ecuaciones normales
ESTIMACIÓN DE LOS COEFICIENTES DE
REGRESIÓN
ECUACIONES NORMALES
 Para estimar estos coeficientes de regresión,
primero se deben construir las ecuaciones
normales que son las siguientes:
𝑛 𝑛

∑ 𝑌 𝑖 =𝑛 𝛽 0+ 𝛽1 ∑ 𝑋 𝑖
𝑖=1 𝑖=1

𝑛 𝑛 𝑛

∑ 𝑌 𝑖 𝑋 𝑖= 𝛽0 ∑ 𝑋 𝑖 + 𝛽1 ∑ 𝑋 𝑖
2

𝑖=1 𝑖=1 𝑖=1


ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN

 Al resolver este sistema de ecuaciones normales


obtenemos las siguientes formulas:
𝑛 𝑛 𝑛
𝑛 ∑ 𝑥𝑖 𝑦 𝑖 − ∑ 𝑥 𝑖 ∑ 𝑦 𝑖
^
𝛽 1=
𝑖 =1 𝑖=1 𝑖 =1
𝑛
𝑛 ∑ 𝑥𝑖 − ¿ ¿ ¿
2

𝑖 =1

^
𝛽 0= ¯ ^
𝑦 − 𝛽1 ¯
𝑥

 Luego se sustituyen los valores en la ecuación de la recta


para obtener la ecuación estimada o predicha por el
MMCO.
MEDIDAS DE BONDAD DE AJUSTE
1. ERROR ESTÁNDAR DE LA ESTIMACIÓN:
 Después de calcular la ecuación de la línea de regresión de
la muestra, podría interesarse en medir hasta qué grado los
puntos de datos de la muestra, se encuentran dispersos
alrededor de la línea de regresión de la muestra.
 El error estándar de la estimación mide la cantidad
estándar en la cual los valores reales de Y difieren de los
valores estimados .
 Para su cálculo se utiliza la siguiente fórmula:


𝑛 𝑛 𝑛

∑ 𝑦𝑖 − ^
𝛽0 ∑ 𝑦𝑖 − ^
𝛽1 ∑ 𝑥𝑖 𝑦 𝑖
2

𝑖=1 𝑖 =1 𝑖 =1
𝑆 𝑦 .𝑥 =
𝑛− 2
MEDIDAS DE BONDAD DE AJUSTE
2. COEFICIENTE DE DETERMINACIÓN: r2, R2
 El coeficiente de determinación mide el porcentaje de
variabilidad en Y que puede ser explicada por la variable
independiente X.
 Se denota por R2 o r2
 Para su cálculo se utiliza la siguiente fórmula:

𝑛 𝑛
^
𝛽0 ∑ 𝑦 𝑖 + ^
𝛽1 ∑ 𝑥𝑖 𝑦 𝑖 − 𝑛 𝑦
¯
2

2 𝑖=1 𝑖=1
𝑟 = 𝑛

∑ 2
𝑦𝑖 − 𝑛 ¯
𝑦
2

𝑖=1

 Si r2  0.70, la ecuación estimada se ajusta o tiende a


representar los datos
 Si r2 = 1, la ecuación estimada es perfecta.
 EJERCICIOS DE APLICACIÓN:
Se tienen información de los costos de mantenimiento de 06 maquinas
llenadoras de gaseosas de distintas edades de la Empresa Enrique
Cassinelli e Hijos S.A. La Gerencia desea hacer estimaciones o
pronósticos acerca del costo de mantenimiento (Y) en función del
tiempo operativo de la máquina (X). La información que se tienen es la
siguiente:
Maquina 1 2 3 4 5 6
Tiempo operativo en
1 1 2 2 3 3
Años (X)
Costo de mantenimiento
30 40 70 80 100 120
$ (Y)

1. Determinar la ecuación de regresión. Interpretar sus coeficientes


2. Pronosticar el costo de mantenimiento para una máquina que tienen 4
años operativos.
3. Hallar las medidas de bondad de ajuste (Error típico, coeficiente de
determinación y correlación).
 SOLUCIÓN
Diagrama de dispersión:

Costo de mantenimiento y tiempo operativo


140

120
Costo de mantenimiento $

100

80

60

40

20

0
0.5 1 1.5 2 2.5 3 3.5

Tiempo operativo en años


1.- Determinación de la ecuación de regresión:

MAQUINA X Y XY X2 Y2

1 1 30 30 1 900

2 1 40 40 1 1600

3 2 70 140 4 4900

4 2 80 160 4 6400

5 3 100 300 9 10000

6 3 120 360 9 14400

TOTAL 12 440 1030 28 38200

𝑛 𝑛 𝑛
𝑛 ∑ 𝑥𝑖 𝑦 𝑖 − ∑ 𝑥𝑖 ∑ 𝑦 𝑖 6(1030)−(12)(4 40)
^
𝛽 1=
𝑖 =1 𝑖=1 𝑖 =1

𝑛∑
𝑛
𝑥=
6 (28)− ¿¿
−(440/6)-37.5*(12/6)=-1.6667
2
¿¿¿
𝑖
𝑖 =1

^ 𝑦 −^
𝛽 0= ¯ 𝛽1 ¯
𝑥
Por lo tanto la ecuación de regresión es:
Y = -1.6667 + 37.5 X
 Interpretación:
 β0 = -1.67: Cuando la máquina no tienen ningún
año de funcionamiento su costo de
mantenimiento es de -1.67 dólares.
 β1 = 37.5: Por cada año de funcionamiento de la
maquina su costo de mantenimiento aumenta
en 37.5 dólares.
 2.- Pronostico cuando la máquina tienen 4 años
de funcionamiento:
Y=-1.6667+37.5*4=148.33
 que significa, que el costo de mantenimiento
para la maquina si tiene 4 años de
funcionamiento es de 148.33$.
3.- Calculamos el error estándar de estimación:


𝑛 𝑛 𝑛

∑ 𝑖 − ^𝛽 0 ∑ 𝑦 𝑖 − ^𝛽1 ∑ 𝑥𝑖 𝑦 𝑖
𝑦
2

𝑖=1 𝑖 =1 𝑖=1
𝑆 𝑦 .𝑥 =


𝑛− 2
38 200+1.6667(4 40)−37.5(1030)
𝑆 𝑦 .𝑥 =
8.7797
4
El desvió promedio de los residuos a la recta
Y = -1.6667 + 37.5 X es de 8.7797
4.- Calculamos el Coeficiente de determinación: R2
𝑛 𝑛
^
𝛽0 ∑ 𝑦 𝑖 + ^
𝛽1 ∑ 𝑥 𝑖 𝑦 𝑖 − 𝑛 𝑦
¯2
2 𝑖=1 𝑖 =1
𝑅 = 𝑛

∑ 2
𝑦𝑖 − 𝑛 ¯
𝑦
2

𝑖=1

𝑅 =
2
− 1.6667 ∗ 440+37.5 ∗ 1030 − 6 ∗ ( 446
6 )2

38200 − 6 ∗ ( 440
6 )2

𝑅2 =0.948
E

5.- Calculamos el Coeficiente de correlación: r


r
Existe alta correlación entre el años de operación
y el costo de mantenimiento
PARTE OPERATIVA UTILIZANDO EXCEL

Ingreso de datos en la hoja de cálculo EXCEL:


GRAFICAR PARA CONOCER LA TENDENCIA DE LOS DATOS

Costo de mantenimiento y tiempo operativo


140

120
Costo de mantenimiento $

100

80

60

40

20

0
0.5 1 1.5 2 2.5 3 3.5

Tiempo operativo en años


b. Hacer clic en Datos /Análisis de
Datos/Regresión…… y aparece la siguiente ventana:
c. Ingresar la respectiva información; Luego aparece la ventana de dialogo
donde hay que ingresar el rango de Y, el rango de X, activar rótulos, las
opciones de salida y algunas alternativas de interés para el investigador.
d. Obtener los resultados finales.

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy