Distribucion Bidimensional-Regresion y Correlacion
Distribucion Bidimensional-Regresion y Correlacion
Distribucion Bidimensional-Regresion y Correlacion
DISTRIBUCION BIDIMENSIONAL
DIAGRAMA DE DISPERSION
FX
YR
ei
lg YFR
X
a. ie
c( gl FX
YR
ia .a ei
ó) (c lg
n bi a.
)ó (c
l n ic
i ó)
n l n
e i
a n p
l e o
a s
p l i
o t
s n i
i e v
t g a
i a
v t c
aY i u
FX
R
vY FR r
ei X
aie v
lg
gl i
a.
.a l
c(
(
c í FY N
X
id i io
n
ó) Supongamos X e Y denotan las estaturas ód y los pesos respectivamente de las
eg
n n) a .e
personas, entonces una muestra de tamaño de n personas daria las estaturas
(x
n x , x , x ,… , x n
1 2 3 n y los pesos correspondientes
e
y 1 , y 2 , y 3 , … , y n podemos representar ei
e )
s
g graficamente los pares ordenados x , y ,g ∀ i=1,2,3 , … , nen el plano cartesiano. t
i ia
a e
t
t i
i El conjunto de puntos resultante se llaman
v diagrama de dispersion r
v a e
a l
- La grafica a) los valores de y por
c
lo general crecen linealmente conforme x se
a
c incrementa. u
r
c
u i
r - La grafica b) en un ejemplov de relación linean negativa. Conforme ó z se
i
v n de
i
incrementa, los valores de y lson por lo general decrecientes. Un ejemplo
í
l n e
í e 1
n
n a t
e e r
a n
e
o
r
m e
a
y
ESTADISTICA d
e Dionicio Cárdenas Cancha
Por ultimo la grafica f) muestra un conjunto de datos en los que hay muy poca o
ninguna relacion entre X y Y valores de Y altos y bajos aparecen ante cada valor de X.
Y =a+bX o X =c +d=c+ dY
Cada una de estas funciones tiene una forma particular para un conjunto determinado
de valores (X,Y) definido por el valor de los parametros o coeficientes de la respectiva
ecuación.
Por una nube de puntos pueden pasar una infinidad de lineas o funciones de esta
familia habra una que es la funición que mejor se ajusta a la nube de puntos. La
operación para determinar la función de regresion optima, se conoce como “ajuste de
una funcion de regresion”.
Y =a+bX o X =c +dy
Que mejor ajuste a los valores de la muestra, con el fin de poder predecir o pronosticar
o estimar los valores de valores de y dado x
Hallar la funcion lineal y=a+bx , es un proceso que consiste en determinar los valores
de a y b, aplicando los datos de la muestra.
^y =a+b x i
El metodo que aplicaremos para determinar la recta que mejor se ajuste a ñps n datos
de la muestra ( x i , y i ¿ es el metodo de minimos cuadrados.
Este metodo establece que la mejor curva de ajuste es aquella que minimiza la suma
de los cuadrados de las desviaciones entre los puntos dados y i creados y los
y i=f (x i)
correspondientes a la curva estimada ^
d i= yi −^y i
Donde :
n
q=∑ ( y i−a−bx i)2 (3)
i=1
n n
∂y 0
=2 ∑ ( yi −a−bx i ) (−1 ) =0 → ∑ ( − y i−a−bx i )= =0 →
∂x i=1 i=1 2
n n n n n
−∑ y i + ∑ a+ ∑ bx i=0 → na+b ∑ x i=∑ y i=0 (4)
i=1 i=1 i=1 i=1 i=1
n n
∂y 0
=2 ∑ ( yi −a−bx i )(−x i ) =0 → ∑ ( −x i y i−a x i−b x2i ❑) = =0
∂x i=1 i=1 2
n n n n n n
−∑ x i yi + a ∑ x i +b ∑ y i =0 →a ∑ x i +b ∑ x 2i =∑ x i y i (5)
i=1 i=1 i=1 i=1 i=1 i=1
Las ecuaciones (4) y (5) son las llamaas ecuaciones normales de la recta de minimos
cuadrados
n n
na+ b ∑ xi =∑ y i=0 (1)
i=1 i=1
n n n
2
a ∑ x i +b ∑ x =∑ x i y i i (2)
i=1 i=1 i=1
na+ b ∑ xi =∑ y i (1)
a ∑ x i +b ∑ x 2i =∑ x i y i (2)
→ a= ý−b x́
ESTADISTICA Dionicio Cárdenas Cancha
∑ yi ∑ x i
a=
| =
|
∑ x i y i ∑ x 2i ∑ x 2i ∑ y i −∑ xi ∑ x i y i
2
→ a=
∑ x 2i ∑ y i−∑ x i ∑ xi y i
2
n ∑ xi n ∑ x 2i −(∑ x i) n ∑ x 2i −( ∑ x i )
|
∑ x i ∑ x 2i |
n ∑ yi
b=
|∑ x ii
=n
|
∑ x i y i ∑ x i y i−¿ ∑ x i ∑ y i
2
→ b=n
∑ x i y i−¿ ∑ xi ∑ y i ¿ ¿
2
n ∑ xi n ∑ x 2i −( ∑ x i) n ∑ x2i −( ∑ x i)
|∑ xi ∑ x2i |
n
∑ x i yi −¿ ∑ x i ∑ y i ∑ x i y i ∑ xi ∑ y i ∑ x i y i −x́ ý
2 −
n n n n n
b= 2
= 2
→ ¿
∑ x 2i −(∑ x i ) ∑ x2i − ∑ xi ∑ x2i −( x́ )2
n
n
2
n ( )
n n
COV ( x , y )
b=
V [ x]
^y = ý+ b( x− x́ )
COV ( x , y )
^y = ý+ ( x−x́) Este tipo de regresión se dice que es de y sobre x y sirve
V [ x]
para estimar valores de y a partir de un valor dado de x
b ordenada
Dado que, b= = , entonces, b es el cambio promedio en y cuando x
1 abscisa
cambia una unidad de medida. Esto es, si x i se incrementa a unidad de medida,
entonces se incrementa en promedio k∗b .
LA COVARIANZA
Luego
∑ x i yi
COV ( x , y )=s xy= i=1 − x́ ý
n
COV ( x , y )
r=
sx s y
Donde :
COV ( x , y ) σxy
ρ= =
V [ x ] V [ y ] σx σx
γ asume la siguiente fórmula llamada fórmula corta debido a que es mas manejable en
el cáculo de la misma
r =n
∑ xi y i−¿ ∑ x i ∑ y i −1≤ r ≤1 ¿
2 2
√ [ n∑ xi −( ∑ xi ) ][ n ∑ yi −(∑ yi ) ]
2 2
Es obvio, que cuanto más cercano este a 1 el valor absoluto de r se tendra una buena
correlación, pero ¿Qué valores de r indican una correlación buena o aceptable a nivel
descriptivo entra las variables ( x , y )?
COEFICIENTE DE DETERMINACIÓN
∑ ( ^y i− ý )2
2 i=1
. puede adoptar cualquier valor entre 0 y 1 inclusive r = n
∑ ( y i− ý )2
i=1
COEFCIENTE DE NO DETERMINACIÓN
EL COEFICIENTE DE DETERMINACION
SCR i=1
∑ ( ^y i− ý)2
r 2= = n , 0 ≤ r2 ≤ 1
SCT
∑ ( y i− ý)2
i=1
1) Se concluye que 0 ≤ r 2 ≤ 1
Si r >0 , se dice que existe una correlación directa positiva , ambas variables
aumentan (o disminuyen) simultaneamente.
Si r <0 , se dice que existe una correlación inversa negativa , mientras los
valores de una variable aumenta los valores de la otra disminuyen y viceversa.
Si r =0 , se dice que no hay correlación entre x e y . Por tanto, no hay regresion
de x e y
PARTICION DE LA VARIANZA DE Y
y i el valor de la ecuación de
Sea ( x ¿ ¿ i, y i) ¿ un valor observado de la variable ( X , Y ) e ^
2
La componente principal y i− ý de S y figura (*) se escribe y se lee del siguiente modo:
y i− ý =( y i , ^y i ) +( ^y i− ý ) X
Esta terminología surge, debido a que las desviaciones y i− ^y i con respecto a la recta
Mientras que las desviaciones ^y i− ý de la recta regresión con respecto al eje de las x
n n n
2
∑ ( y i− ý )2=∑ ( y i −^y i ) +∑ ( ^y i− ý)2
i=1 i=1 i=1
xi
ESTADISTICA Dionicio Cárdenas Cancha
SCT =SCE+SCR
n n n
2
∑ ( y i− ý)2 ∑ ( y i−^y i ) ∑ ( ^y i− ý )2
i=1 i=1 i=1
= +
n n n
n n n
2
∑ ( y i− ý ) =∑ ( y i −^y i ) +∑ ( ^y i− ý)2
2
n n n
2
∑ ( y i− ý) ∑ ( y i−^y i ) ∑ ( ^y i− ý )2
2
i=1
= i=1 + i=1
n n n
VARIANZA RESIDUAL
SY =
X √ ∑ ( y i− ý )2
i=1
n
SY =
X √ ∑ ( y i− ^y i )2
i=1
n
Para y=a+bx
n n n
SY =
√ i=1
2
∑ ( y i) −a ∑ y i−b ∑ x i y i
i=1 i=1
X
n
y i=a+bx
Donde a y b son de ^ n tamaño de la muestra
El error estándar de estimación para una regresión lineal de x sobre y esta dada por:
SY =
X √ ∑ ( x i− ^x i)2
i=1
n
RELACIONES FUNDAMENTALES
S y :desviacion estandar de y
r :coeficiente de correlación
SY
2 X
r =1− 2
S y
2
También S Y =Sx √ 1−r Para ^x =c +dy
X
ESTADISTICA Dionicio Cárdenas Cancha
Sy
y− ý=r (x−x́ ) Para y sobre x, también
Sx
Sx
x−x́=r ( y− ý ) Para x sobre y
Sy
Cada una de estas funciones tiene una forma particular para un conjunto determinado
de valores ( x , y ) definido por el valor de los parámetros o coeficientes de la respectiva
ecuación.
Por una nube de puntos pueden pasar una infinidad de líneas o funciones, de esta
familia habrá una que es la función que mayor se ajusta a la nube de puntos. La
operación para determinar la función de regresión óptima, se conoce como “ajuste de
una función de regresión” .El problema de ajuste de una función de regresión a un
conjunto de n valores ( x , y )comprende tres pasos.
EJERCICIOS DE APLICACIÓN
x 6 5 8 8 7 4
y 8 7 7 10 5 6
a) Construir el diagrama de dispersión
b) Ajustar una recta de regresión por mínimos cuadrados de y sobre x
c) Hallar el error típico de estimación
d) Determine el coeficiente de correlación lineal
e) Determine la covarianza
f) Grafique la recta hallada por mínimos cuadrados sobre la nube de puntos
g) Estime el valor de y cuando x=2
SOLUCION
a) Grafico
Y
x
10
8
x
7
6 x
5 x
4 x
x
3x
2
1
X
1 2 3 4 5 6 7 8 9
b) ^y =a+bx
x y xy x2 y2
6 8 48 36 64
5 7 35 25 49
8 7 56 64 49
8 10 80 64 100
7 5 35 49 25
4 6 24 16 36
38 43 278 254 323
ESTADISTICA Dionicio Cárdenas Cancha
b=n
∑ xi y i−¿ ∑ x i ∑ y i = 6 ( 278 ) −( 38 )( 43 ) = 1668−1634 ¿
2 2
n ∑ x 2i −( ∑ x i) 6 ( 254 )− (38 ) 1524−1444
34
b= =0.425 → b=0.425
80
Calculamos a= y−b x́
38 48
x́= =6.33 , ý= 7,17 →, x́=6.33 , ý=7.17
6 6
→(6 , 7.03)
n n n
SY =
√∑
i=1
2
( y i) −a ∑ y i−b ∑ x i y i
i=1 i=1
X
n
SY =
√323−( 4.480 ) ( 43 )−(0.425)(278)
X
6
323−192.64−118.15 √323−310.79
SY =√ =
X 6 6
12,21
SY =√ =√ 2.035=1.43 → S Y =1.43
X 6 X
r =n
∑ xi y i−¿ ∑ x i ∑ y i ¿
2 2
√ [ n∑ xi −( ∑ xi ) ][ n∑ yi −(∑ yi ) ]
2 2
ESTADISTICA Dionicio Cárdenas Cancha
16.68−16.34 34 34
r =34= = = =0.4029
√ [ 80 ][ 89 ] √7120 8438
r =0.4029
e) Covarianza
f) Ver grafico
y
g) =4.48+ 0.425 ( 2 ) =4.480+0.85=5.33
x=2
y
=5.33
x=2
S x =0.5 √ COV ( x , y )
SOLUCION
Sy Sx S y
y− ý=r (x−x́ ) o ý− y=r (x−x́ )
Sx S x2
COV ( x , y)
r= →r S x S y =COV ( x , y ) (a)
Sx S y
ESTADISTICA Dionicio Cárdenas Cancha
2
Por dato S x =0.5 √ COV ( x , y ) → S x =0.25 COV ( x , y )
COV ( x , y )
y− ý= ( x−x́ ) → y− ý=4( x−x́)
0.25COV ( x , y )
y
a) =4 ( 4 )+ 688=16+688=704 dolares }
x=4
y
=704 dolares
x=4
3) Al estimar las ventas (y) de un artículo en función de los precios (x) se uso una
recta de mínimos cuadrados basado en una muestra de 4 datos. Si las ventas
observadas fueron 10; 8; 6; 14 y si las ventas estimadas respetivas son: 10.8; 8.2;
5.6 ; 13.4; ¿Qué porcentaje de la varianza de las ventas es explicada por la recta
de regresión?
SOLUCION
∑ ( y i− ý)2 = ∑ ( y i− ^y )2 + ∑ ( ^y i− ý )2
V .T . V .N . E. V .E.
VT =Variacion total
V . N . E .=variacion no explicada
V . E .=variacion explicada
xi yi
^ ( y i− ý)2 y i− ý)2
(^
10 10.8 0.25 1.69
8 8.2 2.25 1.69
6 5.6 12.25 15.21
14 13.4 20.25 15.21
38 38 35 33.80
38−−−−−−−−100 %
33.8−−−−−−−x
33.80 x 100 %
x=
35
ESTADISTICA Dionicio Cárdenas Cancha
x=96.57 %
38
ý= =9.5 → ý=9.5
4
Semana 2 3 4 5 6 7
Tiempo de propaganda 20 25 22 28 36 40
Venta de producto 300 310 - 320 350 420
SOLUCIÓN
x y xy x2 y2
20 300 6000 400 90000
25 310 7750 625 96100
28 320 8960 784 102400
36 350 12600 1296 122500
40 420 16800 1600 176400
149 1700 52110 4705 587400
a)
^y =a+bx
a=176.82
ESTADISTICA Dionicio Cárdenas Cancha
b=n
∑ xi y i−¿ ∑ x i ∑ y i = 5 ( 52110 ) −(149)(1700)=5.476¿
2 2
n ∑ x 2i −( ∑ x i) 5 ( 4705 ) −( 149 )
b=5.476
^y =a+bx
^y =176.82+5.476 x
y
b) =176.82+ 05.476 ( 22 )=176.82+120.472=297.292 ≈ 298
x=22
y
=298
x=22
d) r 2=(0.91906)2=0.8447=84.47 %
e) El error estandar o error tipico
COV ( x , y )=290
^y
g) =176.82+5.476 ( 33 )=176.52+180.708=357.528
x=28+5
^y
=357.528
x=33
Temperatura media 1 28 1 31 3 12 2 5 9 15
0 2 0 4
Cantidad de refrescos 2 65 1 92 7 39 6 11 1 24
1 9 5 7 2
Calcular :
a) La recta de regresión o recta de ajuste, grado de dependencia (x) sobre la
cantidad de refrescos (y)
b) Coeficiente de determinación y el coeficiente de correlación, con este
coeficiente se podrá planificar la producción
SOLUCION
Calculamos con la tabla todos los valores que necesitamos sustituir en las formulas
respectivas.
x y xy x2 y2
10 21 210 100 441
28 65 1820 784 4225
12 19 228 144 361
31 72 2232 961 5184
30 75 2250 900 5625
19 39 741 361 1521
24 67 1608 576 4489
5 11 55 25 121
9 12 108 81 144
15 24 360 225 576
183 405 9612 4157 22687
a)
^y =a+bx
a=
∑ x2 ∑ y i−∑ x i ∑ xi y i = ( 4157 ) ( 450 ) −(183)(9612)
2
n ∑ xi2−( ∑ x i ) 10 ( 4157 )−1832
1683585−1758996 −75411
a= = =−9.332
41570−33489 8081
b=n
∑ xi y i−¿ ∑ x i ∑ y i = 10 ( 9612 )−(183)(405) ¿
2 2
n ∑ x 2i −( ∑ x i) 10 ( 4157 )−( 183 )
ESTADISTICA Dionicio Cárdenas Cancha
96120−47115 49005
b= =
41570−33489 8081
COV ( x , y ) COV ( x , y )
(a) y− ý= ( x−x́ ) → y= ý + ( x−x́ )
V [ x] V [x]
x́=
∑ x i = 183 =18.3 → x́ =18.3
n 10
ý=
∑ y i =405=40.5→ x́=40.5
n
COV ( x , y )
Luego y= ý+ ( x− x́ )
V [ x]
220.05
y=40.5+ ( x−18.3 )
80.81
y=40.5+2.72 ( x−18.3 )
y=40.5+2.72 x−49.776
y=2.72 x−9.276
COV ( x , y )=
∑ x i y i −x́ ý
n
9612
COV ( x , y )= −( 183 ) ( 40.5 )
10
COV ( x , y )=961.2−741.15=220.05
COV ( x , y )=220.05
∑ x 2i 2 4157 2
V [ x ]= −x́ = −(183)
n 10
V [ x ]=415.7−334.89
V [ x ]=80.81
r 3=0.95305
r =√ 0.95305=0.976 → r=0.976 (r es la recta positiva ya que b>0)
ESTADISTICA Dionicio Cárdenas Cancha
y=a xb ……….(1)
Nube de puntos
Por una curva potencial pueden pasar muchas funciones potenciales, se elige la que
mejor se ajusta, es decir cuando (x, y) estas desviaciones sean mínimas. Entonces por
el método de mínimos cuadrados se procede haciendo un cambio de variable
logaritminando ambos miembros en (1)
y=a xb → ln y=lna+ b ln x
Sea y= A +BX
Y
Y
Y = axb
Luego se procede
como en el caso
anterior X
X
(lineal) es decir de hallar A y B y con estas
^y =a xb ……. (1)
ln y=ln A +b ln X
Sean
(x) Ingreso 13 15 17 18 20 28
(y) Consumo 12 14 16 15 18 21
SOLUCION
r =n
∑ xi y i−¿ ∑ x i ∑ y i ¿
2 2
√ [ n∑ xi −( ∑ xi ) ][ n∑ yi −(∑ yi ) ]
2 2
Donde
^y =a xb
x y X =ln x Y =ln y xy x2 y2
13 12 2,565 2,485 6,374 6,579 6,175
15 14 2,708 2,639 7,147 7,334 6,965
17 16 2,833 2,773 7,855 8,027 7,687
18 15 2,890 2,708 7,827 8,354 7,334
20 18 2,996 2,890 8,659 8,974 8,354
ESTADISTICA Dionicio Cárdenas Cancha
b) ^y =a xb → ln Y =lna+ b ln x
Y =ln y A=ln A B=b , , X =lnx
→ Y = A+ BX
A=
∑ x 2 ∑ y i−∑ x i ∑ y i = ( 50.369 ) ( 16.59 )−(17.324 )(48.007)
2
n ∑ x i2 −( ∑ x i ) 6 ( 50.369 )−(17.324)2
A=0.683
B=n
∑ x i y i−¿ ∑ xi ∑ y i = 10 ( 9612 ) −(183)(405) ¿
2 2
n ∑ x 2i −( ∑ x i ) 10 ( 4157 ) −( 183 )
B=0.718
ln a= A → a=e A =e 0.683=1.98
→ ^y =1.98 x 0.718
c) Ver figura
^y
d) =1.98(25)0.718=1.98
x=25
∑ xi y i−¿ ∑ x i ∑ y i 6 ( 48.009 )−( 17.324 ) (16.54)
e) r =n 2 2
=
√ ¿ ¿¿
¿
√ [ n∑ xi −( ∑ xi ) ][ n ∑ yi −(∑ yi ) ]
2 2
r =0.915
x 2 5 6 8 9 12
y 3 4 5 8 8 10
ESTADISTICA Dionicio Cárdenas Cancha
SOLUCION
x y xy x2 y2
2 3 6 4 9
5 4 20 25 16
6 5 30 36 25
8 8 64 64 64
9 8 72 81 64
12 10 120 144 100
42 38 312 354 278
a=
∑ x2 ∑ y−∑ x ∑ xy = 354 ( 38 )−42 ( 312 ) =0.967
2
n ∑ x2 − ( ∑ x ) 6 ( 354 ) −422
a=0.967
b=0.767
^y =0.967+0.767 x
r =0.972
^y =a xb → ln Y =lna+ b ln x
X =x Y= y y=ln y xy x2 y2
ESTADISTICA Dionicio Cárdenas Cancha
A=
∑ x 2 ∑ y−∑ x ∑ xy = 354 (10.555 )−42 ( 81.761 ) = 302.908
2
n ∑ x 2− ( ∑ x ) 6 ( 354 )−422 360
A=0.8403
A=0.8403=ln a→ a=2.316
47.256
B= =0.131
360
B=0.131 → ln b →b=1.139
^y =2.16(1.139)x