Distribucion Bidimensional-Regresion y Correlacion

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 30

ESTADISTICA Dionicio Cárdenas Cancha

DISTRIBUCION BIDIMENSIONAL

DIAGRAMA DE DISPERSION

DEFINICION.- un diagrama de dipsersion es la representacion grafica de los distintos


valores de la variable estadistica bidimensional (x,y) en el sistema cartesiano. En el eje
de las absicas (Eje x) se representa los valores de x y en el eje de las ordenadas (eje
y) los valores de y de esta forma cda par ( x i , y i) , para todo i=1,2,3 , … , n está
representado por un punto del plano X o Y.

FX
YR
ei
lg YFR
X
a. ie
c( gl FX
YR
ia .a ei
ó) (c lg
n bi a.
)ó (c
l n ic
i ó)
n l n
e i
a n p
l e o
a s
p l i
o t
s n i
i e v
t g a
i a
v t c
aY i u
FX
R
vY FR r
ei X
aie v
lg
gl i
a.
.a l
c(
(
c í FY N
X
id i io
n
ó) Supongamos X e Y denotan las estaturas ód y los pesos respectivamente de las
eg
n n) a .e
personas, entonces una muestra de tamaño de n personas daria las estaturas
(x
n x , x , x ,… , x n
1 2 3 n y los pesos correspondientes
e
y 1 , y 2 , y 3 , … , y n podemos representar ei
e )
s
g graficamente los pares ordenados x , y ,g ∀ i=1,2,3 , … , nen el plano cartesiano. t
i ia
a e
t
t i
i El conjunto de puntos resultante se llaman
v diagrama de dispersion r
v a e
a l
- La grafica a) los valores de y por
c
lo general crecen linealmente conforme x se
a
c incrementa. u
r
c
u i
r - La grafica b) en un ejemplov de relación linean negativa. Conforme ó z se
i
v n de
i
incrementa, los valores de y lson por lo general decrecientes. Un ejemplo
í
l n e
í e 1
n
n a t
e e r
a n
e
o
r
m e
a
y
ESTADISTICA d
e Dionicio Cárdenas Cancha

este tipo de relación es Ula que existe entre el precio de un producto en


particular y la cantidad de ventas.
- La grafica c) muestra una relación con valores positivo entre X y Y. Los valores
de Y se incrementan conforme X se aumenta, pero este incremento se reduce
más allá de ciertos valores de C. Un ejemplo de esta relación curvilínea
positiva podría ser la antigüedad y el costo de mantenimiento de una máquina.
Conforme la maquina se deteriora; el resto de mantenimiento se eleva
rápidamente al inicio pero después se estabiliza más allá de cierto número de
años.
- La grafica d) indica una relación exponencial entre X y Y. En este caso Y
decrece rápidamente a medida que x se incrementa al inicio, pero después
decrece mucho menos rápidamente conforme X se incrementa más alla. Un
ejemplo de esta relación exponencial es el valor de reventa de un automóvil y
su antigüedad. Durante el primer año, el valor reventa cae elásticamente a
partir de su precio original, sin embargo el valor de reventa decrece menos
rápidamente en los años subsiguientes.
- La grafica e) muestra una relación en forma de U entre X, Y. conforme X se
incrementa generalmente al inicio Y decrece, pero mientras X continua
incrementándose , Y no solo deja de decrecer, si no que realmente aumenta
sobre su valor mínimo, un ejemplo de este tipo de relacion seria la cantidad de
errores por hora en una tarea y la cantidad de horas trabajadas. La cantidad de
errores por hora decrece a mediad que el individuo se vuelve mas eficiente en
la tarea, pero despues se incrementa más allá de cierto punto, por factores
como la fatiga y el aburrimiento.

Por ultimo la grafica f) muestra un conjunto de datos en los que hay muy poca o
ninguna relacion entre X y Y valores de Y altos y bajos aparecen ante cada valor de X.

Hemos revisado brevemente una variedad de diferentes modelos que representa la


relacion entre dos variables. Aunque los diagramas de dispersion son utiles para
nostra visualmente la forma matematica de una relacion, existen procedimiestos
estadisticos mas complejos que permitan determinar el modelo adecuado para un
conjunto de variables.

El hecho de ajustar una curva al diagrama de dispersion se llama curva de ajuste.

REGRESIÓN LINEAL SIMPLE.- dada una muesta de n datos ( x 1 , y 1 ¿ , ( x 2 , y 2) , .. xn , y n


observadas de la variable bidimensional (X , Y). La regresión lineal simple de la
ESTADISTICA Dionicio Cárdenas Cancha

variable dependiente Y con respecto a la variable independiente X, consiste en


obtener la ecuación de la recta o modelo de regresión:

Y =a+bX o X =c +d=c+ dY

REGRESIÓN NO LINEAL .- su la curva de ajuste es una parabola, una curva


exponencial, una curva potencial, etc.

En el ajuste de funciones de regresión simple, se pueden utilizar diversas funciones


matemáticas conocidads tales como:

1) La pabola y=a0 +a1 x+ a2 x 2 (Transformación lineal)

2) La curva potencial y=a xb -> ln y=ln a+b ln x


3) La curva ezponencial y=a b x -> ln y=ln a+( ln b) x
a
4) La hiperbola equilatera y=
X
1
5) La curva logistia =arb c x
y
x
6) La curva Compertz y=a bc

Cada una de estas funciones tiene una forma particular para un conjunto determinado
de valores (X,Y) definido por el valor de los parametros o coeficientes de la respectiva
ecuación.

Por una nube de puntos pueden pasar una infinidad de lineas o funciones de esta
familia habra una que es la funición que mejor se ajusta a la nube de puntos. La
operación para determinar la función de regresion optima, se conoce como “ajuste de
una funcion de regresion”.

El problema de ajuste de una funcion de regresion a un conjunto de n valores (X,Y)


comprende tres pasos.

i) Graficas el diagrama de dispersion a una nube de punto (x,y)


ii) Definir la forma de la funcion de regresión (recta, parabola, exponencial, etc.)
iii) Determinar el valor numerico de hi parametrso de la funcion elegida. Los
parametros de la funcion de regresion se obtiene a partir de las ecuaciones
normales obtenidas por el método de los minimos cuadrados.

REGRESION LINEAL SIMPLE


ESTADISTICA Dionicio Cárdenas Cancha

Dada la muestra de n datos ( x 1 , y i 1 ¿ , ( x 2 , y 2 ) , .. ,(x ¿ ¿ n , y n )¿ observados de la variable

bidimensional ( x , y ) , la regresion lineal de la variable dependeiente y con respecto a la


variable independiente x , consiste en extraer la ecuación de la recta o modelo de
regresión.

Y =a+bX o X =c +dy

Que mejor ajuste a los valores de la muestra, con el fin de poder predecir o pronosticar
o estimar los valores de valores de y dado x

El proceso de obtener el modelo de regreesion, analizar su validez y predecir y dado


X, es la regresion.

Hallar la funcion lineal y=a+bx , es un proceso que consiste en determinar los valores
de a y b, aplicando los datos de la muestra.

Usaremos la notacion ^y para representar un valor de Y estimado o calculado de la


ecuacion de regresion y=a+bx , cuando x=x i. Esto es:

^y =a+b x i

Al valor ^y se denominara valor estimado,pronosticado o ajustado de Y cuando X =x i

Si x i es un valor de la muestra , entonces ( x i , ^


y i ¿ es un punto de la recta de regresion
y=a+bx

DEFINICION.- Se denomina error o residuo a cada diferencia positiva o negativa


d ¿ −^
y i ¿, del valorobservado y i y el valor estimado o pronosticado ^
yi
ESTADISTICA Dionicio Cárdenas Cancha

El metodo que aplicaremos para determinar la recta que mejor se ajuste a ñps n datos
de la muestra ( x i , y i ¿ es el metodo de minimos cuadrados.

METODOS DE MINIMOS CUADRADOS

Este metodo establece que la mejor curva de ajuste es aquella que minimiza la suma
de los cuadrados de las desviaciones entre los puntos dados y i creados y los

y i=f (x i)
correspondientes a la curva estimada ^

d i=error o desviacion de los valores ^y i a partir de una regresion

d i= yi −^y i

Donde :

y i=valor observado real

^y i=valor estimado para lacurva de ajuste

^y i= yat =a+b x i (1)


n n
q=d 2i +d 22 +d 23 +… , d 2n=∑ d 2i =∑ ( y i−^y i)2 (2)
i=1 i=1

Reeemplanzando (1) en (2) se tiene:

n
q=∑ ( y i−a−bx i)2 (3)
i=1

Minimizar q es derivar q respecto a cada uno de los parametros a y b e igualar a cero


ESTADISTICA Dionicio Cárdenas Cancha

n n
∂y 0
=2 ∑ ( yi −a−bx i ) (−1 ) =0 → ∑ ( − y i−a−bx i )= =0 →
∂x i=1 i=1 2

n n n n n
−∑ y i + ∑ a+ ∑ bx i=0 → na+b ∑ x i=∑ y i=0 (4)
i=1 i=1 i=1 i=1 i=1

n n
∂y 0
=2 ∑ ( yi −a−bx i )(−x i ) =0 → ∑ ( −x i y i−a x i−b x2i ❑) = =0
∂x i=1 i=1 2

n n n n n n
−∑ x i yi + a ∑ x i +b ∑ y i =0 →a ∑ x i +b ∑ x 2i =∑ x i y i (5)
i=1 i=1 i=1 i=1 i=1 i=1

Las ecuaciones (4) y (5) son las llamaas ecuaciones normales de la recta de minimos
cuadrados

n n
na+ b ∑ xi =∑ y i=0 (1)
i=1 i=1

n n n
2
a ∑ x i +b ∑ x =∑ x i y i i (2)
i=1 i=1 i=1

Los valores de los parametros a y b se determinan resolviendo el sistema formado por


las ecuaciones anteriores las cuales seben ser sustituidas en ^y i=a+b x

Como las incognitas son a y b los valores de n, ∑ x i , ∑ y i , ∑ x i y i , ∑ x i2 , ∑ y i2 ,son


conocidas y obtenidas a partir de los datos.

Resolviendo el sistema formado por las ecuaciones (1) y (2) tenemos

na+ b ∑ xi =∑ y i (1)

a ∑ x i +b ∑ x 2i =∑ x i y i (2)

na+ b ∑ xi =∑ y i → na=∑ y i−b ∑ x i → a=


∑ yi + b∑ xi
n n

→ a= ý−b x́
ESTADISTICA Dionicio Cárdenas Cancha

∑ yi ∑ x i
a=
| =
|
∑ x i y i ∑ x 2i ∑ x 2i ∑ y i −∑ xi ∑ x i y i
2
→ a=
∑ x 2i ∑ y i−∑ x i ∑ xi y i
2
n ∑ xi n ∑ x 2i −(∑ x i) n ∑ x 2i −( ∑ x i )
|
∑ x i ∑ x 2i |
n ∑ yi
b=
|∑ x ii
=n
|
∑ x i y i ∑ x i y i−¿ ∑ x i ∑ y i
2
→ b=n
∑ x i y i−¿ ∑ xi ∑ y i ¿ ¿
2
n ∑ xi n ∑ x 2i −( ∑ x i) n ∑ x2i −( ∑ x i)
|∑ xi ∑ x2i |
n
∑ x i yi −¿ ∑ x i ∑ y i ∑ x i y i ∑ xi ∑ y i ∑ x i y i −x́ ý
2 −
n n n n n
b= 2
= 2
→ ¿
∑ x 2i −(∑ x i ) ∑ x2i − ∑ xi ∑ x2i −( x́ )2
n
n
2
n ( )
n n

COV ( x , y )
b=
V [ x]

Luego la resta de regresion de minimos cuadrados será;

^y =a+bx o ^y = ý+ b x́+b x= ý+ b( x− x́ )

^y = ý+ b( x− x́ )

COV ( x , y )
^y = ý+ ( x−x́) Este tipo de regresión se dice que es de y sobre x y sirve
V [ x]
para estimar valores de y a partir de un valor dado de x

INTERPRETACION DEL COEFICIENTE DE REGRESION b

^y =a+bx o ^y = ý+ b(x− x́ )

El coeficiente es la pendiente o el coeficiente de la regresion lineal.

La constante a es la ordenada en el origen

Por el signo, la pendiente se interpresta como sigue


ESTADISTICA Dionicio Cárdenas Cancha

Si b> 0, entonces , la tendencia lineal es creciente, es decir, a mayores valores de x


corresponden mayores valores a y . tambien a menores valores de x corresponden
menores valores de y

Si b< 0 , entonces, la tendencia lineal es decreciente, es decir, a mayores valores de x


corresponden menores valores de y . tambien a menores valores de x corresponden
mayores valores de y .

Si b=0, entonces ^y =a . En este caso, y permance constante para cualquier valor de


x, indicando este que no hay regresion.

Por su valor numérico, la pendiente se interpresta como sigue:

b ordenada
Dado que, b= = , entonces, b es el cambio promedio en y cuando x
1 abscisa
cambia una unidad de medida. Esto es, si x i se incrementa a unidad de medida,
entonces se incrementa en promedio k∗b .

LA COVARIANZA

La covarianza de los datos observados en una muestra es la estadistica que mide el


nivel de variabilidad (dispersion o concentración) conjunta de los datos de las variables
en pareja (x,y) con respecto a sus medias respectivas ( x́ , ý )

DEFINICION.- La covarianza de n valores ( x ¿ ¿ 1 , y 1 ), ( x 2 , y 2 ) , .. ,( x ¿ ¿ n , y n )¿ ¿ de una

variable bidimensional ( x , y ) es el numero real que se denota por COV ( x , y ) y que se


define como la madia aritmetica de los productos de las desviaciones conjuntas de los
datos con respecto a sus correspondientes medias, esto es:

∑ (xi −x́)( y i− ý)


COV ( x , y )= i=1
n

El numerados de la varianza se denota tambien por


∑ xi yi
s xy = i=1 −x́ ý
n
ESTADISTICA Dionicio Cárdenas Cancha

Luego
∑ x i yi
COV ( x , y )=s xy= i=1 − x́ ý
n

La covarianza a diferencia de la varianza, puede ser negativa

EL COEFICIENTE DE CORRELACION LINEAL O INDICE DE CORRELACION

DEFINICION.- el coeficiente de correlacion lineal de Pearson de los n pares de valores


( x ¿ ¿ 1 , y 1 ), ( x 2 , y 2 ) , … ,( x n , y n )¿ de una variable bidimensional ( x , y ) es el número de
asbtracto o relativo r que se calcula por

COV ( x , y )
r=
sx s y

Donde :

s x :es la desviacion estandar de x

s y :es la desviacion estandar de y

Cuando los pares ordenados describen todo el unicerso el coeficiente de correlación


lineal poblacional se denota por ρ

COV ( x , y ) σxy
ρ= =
V [ x ] V [ y ] σx σx

γ asume la siguiente fórmula llamada fórmula corta debido a que es mas manejable en
el cáculo de la misma

r =n
∑ xi y i−¿ ∑ x i ∑ y i −1≤ r ≤1 ¿
2 2
√ [ n∑ xi −( ∑ xi ) ][ n ∑ yi −(∑ yi ) ]
2 2

INTERPRETACION DEL COEFICIENTE DE CORRELACION LINEAL

Si r =1 se dice que hay una correlación lineal perfecta positiva

Si r =−1 se dice que hay una correlación lineal perfecta negativa

Si r =0 se dice que no hay una correlación entre las dos variables


ESTADISTICA Dionicio Cárdenas Cancha

Es obvio, que cuanto más cercano este a 1 el valor absoluto de r se tendra una buena
correlación, pero ¿Qué valores de r indican una correlación buena o aceptable a nivel
descriptivo entra las variables ( x , y )?

El grado o nievel de ajuste de la ecuación a los datos se analiza en forma descriptiva


aplicacndo el coeficiente o indice de determinación que se define como el cuadrado
del coeficiente de correlación.

COEFICIENTE DE DETERMINACIÓN

Una medida que tiene un significado más exacto en el coeficiente de determinación se


calcula al elevar al cuadrado el coeficiente de correlación lineal.

Por ejemplo si r =0,88 →r 2=(0,88)2=0,7744=77,44 % .

Coeficiente de determinación . la proporcion de la variable total en la variable


dependiente y que se explica por , o se debe a la variación en la variable
independeneite x

El coeficiente de determinación r 2 es la proporción de la variación de y explicada por x

∑ ( ^y i− ý )2
2 i=1
. puede adoptar cualquier valor entre 0 y 1 inclusive r = n

∑ ( y i− ý )2
i=1

COEFCIENTE DE NO DETERMINACIÓN

Es lógico que el coeficiente de no determinacion sea la proposicion de la variación


total en y que no explicada por la variación en x . Se calcula por medio de 1−r 2.

En el problema de puntuaciones de prueba-ventas semanales,


2 2 2
1−r =1−( 0,88 ) =1−0,77 → 1−r =0,23. Esto significa que 23% de la variacion total
en las ventas semanales no se debe a la variacion en las puntuaciones de prueba.

El coeficiente de no determinacion , 1−r 2, es la proporción de la varaición en la


variable dependiente, que no se debe a la variacion independiente.
ESTADISTICA Dionicio Cárdenas Cancha

Los coeficientes de determinación y no determinación sólo puede ser positivos (por


que al elevar al cuadrado una r negativa da como resultado un numero positivo). Los
coeficientes pueden tomar cualquier valor entre 0 y 1.00 inclusive.

EL COEFICIENTE DE DETERMINACION

El coeficiente de determinacion denotado por r 2 o por R2 se define como en cociente


de la suma de cuadrados de regresión sobre la suma de cuadrados total.

Esto es, el coeficiente de determinación r 2 de la regresión de y en x está descrito por:

SCR i=1
∑ ( ^y i− ý)2
r 2= = n , 0 ≤ r2 ≤ 1
SCT
∑ ( y i− ý)2
i=1

INTERPRETACION DEL COEFICIENTE DE DETERMINACIÓN

1) Se concluye que 0 ≤ r 2 ≤ 1
Si r >0 , se dice que existe una correlación directa positiva , ambas variables
aumentan (o disminuyen) simultaneamente.
Si r <0 , se dice que existe una correlación inversa negativa , mientras los
valores de una variable aumenta los valores de la otra disminuyen y viceversa.
Si r =0 , se dice que no hay correlación entre x e y . Por tanto, no hay regresion
de x e y

2) r 2=1 solo si SCE=0 o solo si y i= ^


yi para los n datos de la muestra. Esto

significa que todos los valores y i estan en la recta de regresion. Si este es el


caso, se dice que hay correlación perfecta entre X e Y .
Si r =1 , se dice que hay correlación perfecta positiva
Si r =−1 , se dice que hay correlación perfecta negativa

y i= ý para los n datos de la muestra


3) r 2=0 solo si SCR=0 o solo si ^
Es decir y i no cambia cuando cambia x i , o todas las predicciones son iguales
a una misma constante. Si este es el caso, se dice que no hay correlación ni
regresion .
ESTADISTICA Dionicio Cárdenas Cancha

4) El coeficiente de determinación r 2 ,es pues una mediad de la proximidad del

ajuste de la recta de regresion. Cuando mayor sea el valor de r 2 , mayor sera el


ajuste y mas útil la recta de regresión como instrumento de predición.

PARTICION DE LA VARIANZA DE Y

y i el valor de la ecuación de
Sea ( x ¿ ¿ i, y i) ¿ un valor observado de la variable ( X , Y ) e ^

regresion ^y =a++bx , cuando x=x i

La varianza de y es el numero real


∑ ( y i − ý )2
S2y = i=1
n

2
La componente principal y i− ý de S y figura (*) se escribe y se lee del siguiente modo:

y i− ý =( y i , ^y i ) +( ^y i− ý ) X

Error total=Error no explicado+ Error explicado

Esta terminología surge, debido a que las desviaciones y i− ^y i con respecto a la recta

de regresión, se comportan de una manera aleatoria o impredecible, debido a que y i


es aleatorio.

Mientras que las desviaciones ^y i− ý de la recta regresión con respecto al eje de las x

se explican por la recta de regresión de Y en X ya que sólo depende de las ^y i que


están sobre la recta.

Por otro lado se verifica la siguiente partición de suma de cuadrados:

n n n
2
∑ ( y i− ý )2=∑ ( y i −^y i ) +∑ ( ^y i− ý)2
i=1 i=1 i=1

xi
ESTADISTICA Dionicio Cárdenas Cancha

SCT =SCE+SCR

La SCT, suma de cuadrados total, es la cantidad de variación de los valores de Y con


respecto a la media ý .

La SCE, suma de los errores, es la cantidad de variación de los valores aleatorios o no


explicados de y

La SCR, suma de los cuadrados debido a la regresión, es la cantidad de variación de


los valores de Y explicada por la recta de regresión calculada de la muestra.

Si se divide a SCT por n (el tamaño de la muestra), entonces, la varianza total se


expresa en términos de dos varianzas, esto es:

n n n
2
∑ ( y i− ý)2 ∑ ( y i−^y i ) ∑ ( ^y i− ý )2
i=1 i=1 i=1
= +
n n n

La varianza total de los y i es igual a la varianza no explicada o residual más la


varianza explicada por la recta de regresión

n n n
2
∑ ( y i− ý ) =∑ ( y i −^y i ) +∑ ( ^y i− ý)2
2

i=1 i=1 i=1

Variación total Variación no explicada o variación residual Variación explicada

Dividiremos entre ambos miembros (*) tenemos

n n n
2
∑ ( y i− ý) ∑ ( y i−^y i ) ∑ ( ^y i− ý )2
2

i=1
= i=1 + i=1
n n n

Variación total Variación no explicada o variación residual Variación explicada

VARIANZA RESIDUAL

SY =
X √ ∑ ( y i− ý )2
i=1
n

Para una recta de regresión de y sobre x


ESTADISTICA Dionicio Cárdenas Cancha

ERROR ESTANDAR DE ESTIMACIÓN ( S Y ) .- Llamada también error típico de


X

estimación viene a ser la raíz cuadrada de la varianza residual.

SY =
X √ ∑ ( y i− ^y i )2
i=1
n

Para y=a+bx

La podemos calcular también por la siguiente relación equivalente

n n n

SY =
√ i=1
2
∑ ( y i) −a ∑ y i−b ∑ x i y i
i=1 i=1

X
n

y i=a+bx
Donde a y b son de ^ n tamaño de la muestra

El error estándar de estimación para una regresión lineal de x sobre y esta dada por:

SY =
X √ ∑ ( x i− ^x i)2
i=1
n

Para ^x i=c +dy

RELACIONES FUNDAMENTALES

S Y =Sy √ 1−r 2 Para ^y =a+bx donde:


X

S Y : Error estandar de estimación


X

S y :desviacion estandar de y

r :coeficiente de correlación
SY
2 X
r =1− 2
S y

2
También S Y =Sx √ 1−r Para ^x =c +dy
X
ESTADISTICA Dionicio Cárdenas Cancha

RELACION DE REGRESION Y EL COEFICIENTE DE CORRELACION LINEAL.- La


ecuación de la recta de mínimos cuadrados y=a+bx puede obtenerse también
mediante

Sy
y− ý=r (x−x́ ) Para y sobre x, también
Sx

Sx
x−x́=r ( y− ý ) Para x sobre y
Sy

REGRESIÓN NO LINEAL.- Si la suma de ajuste es una parábola, una curva potencial,


una curva exponencial, etc.

El ajuste de funciones de regresión simple, se pueden utilizar diversas funciones


matemáticas conocidas tales como:

1) La parábola y=a0 +a1 x+ a2 x 2

2) La curva potencial y=a xb


3) La curva exponencial y=a b x
a
4) La hipérbola equilátera y=
x
1
5) La curva logística =1+ a b x
y
x
6) La curva compertz : y=a bc

Cada una de estas funciones tiene una forma particular para un conjunto determinado
de valores ( x , y ) definido por el valor de los parámetros o coeficientes de la respectiva
ecuación.

Por una nube de puntos pueden pasar una infinidad de líneas o funciones, de esta
familia habrá una que es la función que mayor se ajusta a la nube de puntos. La
operación para determinar la función de regresión óptima, se conoce como “ajuste de
una función de regresión” .El problema de ajuste de una función de regresión a un
conjunto de n valores ( x , y )comprende tres pasos.

i) Graficar el diagrama de dispersión o nube de puntos ( x , y )


ii) Definir la forma de la función de regresión (recta, parábola, exponencial,
etc.)
ESTADISTICA Dionicio Cárdenas Cancha

iii) Determinar el valor numérico de los parámetros a partir de las ecuaciones


normales obtenidas por el método de mínimos cuadrados.
ESTADISTICA Dionicio Cárdenas Cancha

EJERCICIOS DE APLICACIÓN

1) Dados los siguientes datos:

x 6 5 8 8 7 4
y 8 7 7 10 5 6
a) Construir el diagrama de dispersión
b) Ajustar una recta de regresión por mínimos cuadrados de y sobre x
c) Hallar el error típico de estimación
d) Determine el coeficiente de correlación lineal
e) Determine la covarianza
f) Grafique la recta hallada por mínimos cuadrados sobre la nube de puntos
g) Estime el valor de y cuando x=2

SOLUCION

a) Grafico

Y
x
10
8
x
7
6 x
5 x
4 x
x
3x
2
1

X
1 2 3 4 5 6 7 8 9

b) ^y =a+bx

x y xy x2 y2
6 8 48 36 64
5 7 35 25 49
8 7 56 64 49
8 10 80 64 100
7 5 35 49 25
4 6 24 16 36
38 43 278 254 323
ESTADISTICA Dionicio Cárdenas Cancha

b=n
∑ xi y i−¿ ∑ x i ∑ y i = 6 ( 278 ) −( 38 )( 43 ) = 1668−1634 ¿
2 2
n ∑ x 2i −( ∑ x i) 6 ( 254 )− (38 ) 1524−1444

34
b= =0.425 → b=0.425
80

Calculamos a= y−b x́

38 48
x́= =6.33 , ý= 7,17 →, x́=6.33 , ý=7.17
6 6

a=7.17−( 0.422 )( 6.33 ) =7.17−2.69=4.480 → a=4.480

^y =a+bx=4.48+ ( 6.425 ) x → ^y =4.480+ 0.425 x

Trazamos la recta de mínimos cuadrados

Si x=0 → y=4.480→(0 , 4.480)

Si x=6 → y=4.480+ ( 0.425 ) ( 6 )=4.480+2.55=7.03

→(6 , 7.03)

c) El error estándar o típico de estimación

n n n

SY =
√∑
i=1
2
( y i) −a ∑ y i−b ∑ x i y i
i=1 i=1

X
n

SY =
√323−( 4.480 ) ( 43 )−(0.425)(278)
X
6

323−192.64−118.15 √323−310.79
SY =√ =
X 6 6

12,21
SY =√ =√ 2.035=1.43 → S Y =1.43
X 6 X

d) El coeficiente de correlación lineal

r =n
∑ xi y i−¿ ∑ x i ∑ y i ¿
2 2
√ [ n∑ xi −( ∑ xi ) ][ n∑ yi −(∑ yi ) ]
2 2
ESTADISTICA Dionicio Cárdenas Cancha

6 ( 228 ) −(38)( 43) 16.68−16.34


r= =
2 2
√ [ 6(254)−( 38 ) ][ 6(323)− ( 43 ) ] √ [ 1524−1444 ][ 938−1843 ]

16.68−16.34 34 34
r =34= = = =0.4029
√ [ 80 ][ 89 ] √7120 8438

r =0.4029

e) Covarianza

∑ x i y i −x́ ý= 228 −


COV ( x , y )=
n 6 ( 386 )( 436 )
COV ( x , y )=46.33−( 6.33 )( 7.17 )=46.33−45.386=0.9439
COV ( x , y )=0.9439

f) Ver grafico
y
g) =4.48+ 0.425 ( 2 ) =4.480+0.85=5.33
x=2
y
=5.33
x=2

2) Al estudiar la regresión lineal entre los ingresos medios (y en dólares) y el número


de hijos por familia x́ , se obtuvo la siguiente información : x́=3, ý=700 ,

S x =0.5 √ COV ( x , y )

a) Estimar los ingresos de las familias con 4 hijos


b) A cuántos hijos por familia correspondería un ingreso estimado en 712
dólares?

SOLUCION

Sy Sx S y
y− ý=r (x−x́ ) o ý− y=r (x−x́ )
Sx S x2

COV ( x , y)
r= →r S x S y =COV ( x , y ) (a)
Sx S y
ESTADISTICA Dionicio Cárdenas Cancha

2
Por dato S x =0.5 √ COV ( x , y ) → S x =0.25 COV ( x , y )

COV ( x , y )
y− ý= ( x−x́ ) → y− ý=4( x−x́)
0.25COV ( x , y )

y−700=4 ( x−3 ) → y=700+ 4 x−12 → ý=688+ 4 x

y
a) =4 ( 4 )+ 688=16+688=704 dolares }
x=4
y
=704 dolares
x=4

b) 712=4 x +688 → 4 x=712−688=24 → x=6 hijos


x=6 hijos

3) Al estimar las ventas (y) de un artículo en función de los precios (x) se uso una
recta de mínimos cuadrados basado en una muestra de 4 datos. Si las ventas
observadas fueron 10; 8; 6; 14 y si las ventas estimadas respetivas son: 10.8; 8.2;
5.6 ; 13.4; ¿Qué porcentaje de la varianza de las ventas es explicada por la recta
de regresión?

SOLUCION

∑ ( y i− ý)2 = ∑ ( y i− ^y )2 + ∑ ( ^y i− ý )2
V .T . V .N . E. V .E.

VT =Variacion total
V . N . E .=variacion no explicada
V . E .=variacion explicada
xi yi
^ ( y i− ý)2 y i− ý)2
(^
10 10.8 0.25 1.69
8 8.2 2.25 1.69
6 5.6 12.25 15.21
14 13.4 20.25 15.21
38 38 35 33.80
38−−−−−−−−100 %
33.8−−−−−−−x
33.80 x 100 %
x=
35
ESTADISTICA Dionicio Cárdenas Cancha

x=96.57 %

38
ý= =9.5 → ý=9.5
4

4) Un estudio de mercado tata de averiguar si es efectiva la propaganda televisica de


un producto que salió a la venta con relación al tiempo de publicidad (en
horas/…). Se recopilaron datos a partir de la segunda semana de enviada la
publicidad, resultando el cuadro que sigue. No se pudo recopilar datos de la
cuarta semana

Semana 2 3 4 5 6 7
Tiempo de propaganda 20 25 22 28 36 40
Venta de producto 300 310 - 320 350 420

a) Es efectiva la publicidad del producto (halle una recta de regresion de minimos


cuadrados de y sobre x para contestar
b) En cuanto estimaria las ventas para la semana 4
c) Determine el coeficiente de correlación lineal
d) Que porcentaje de la varianza de las ventas es explicada por la recta de
regresion
e) Determine el error estandar de estimacion de y sobre x
f) Calcule la covarianza
g) Si en la quinta semana se hubiese incrementado el numero de horas en 5 mas
¿Cuánto hubiera sido la venta del producto?

SOLUCIÓN

x y xy x2 y2
20 300 6000 400 90000
25 310 7750 625 96100
28 320 8960 784 102400
36 350 12600 1296 122500
40 420 16800 1600 176400
149 1700 52110 4705 587400
a)

^y =a+bx

∑ x2 ∑ y i−∑ x i y i ( 4705 )( 1700 ) −(149)(52110)


a= 2
=
n ∑ x i2−( ∑ x i) 5 ( 4205 )−1492

a=176.82
ESTADISTICA Dionicio Cárdenas Cancha

b=n
∑ xi y i−¿ ∑ x i ∑ y i = 5 ( 52110 ) −(149)(1700)=5.476¿
2 2
n ∑ x 2i −( ∑ x i) 5 ( 4705 ) −( 149 )

b=5.476

^y =a+bx

^y =176.82+5.476 x

Como 5.476>0 , entonces es efectiva la publicidad y que a mayor probabilidad (x)


mayores ventas, es decir la recta es creciente

y
b) =176.82+ 05.476 ( 22 )=176.82+120.472=297.292 ≈ 298
x=22

y
=298
x=22

n ∑ xy−∑ x ∑ y 5 ( 52110 )−149(1700)


c) r = =
2 2
2
√ [ n∑ x −( ∑ x ) ][ n∑ y −(∑ y ) ]
2 2 2
√[ 5 ( 4705 )−149 ] [ 5 ( 587400 )−1700 ]
r =0.91906

d) r 2=(0.91906)2=0.8447=84.47 %
e) El error estandar o error tipico

∑ x i y i −x́ ý= 52110 −


f) COV ( x , y )=
n 5 ( 1495 )( 1700
5 )
=290

COV ( x , y )=290
^y
g) =176.82+5.476 ( 33 )=176.52+180.708=357.528
x=28+5
^y
=357.528
x=33

5) Una fábrica de cierta marca de cierta marca de refrescos ha tomado al azar 10


semanas al año, observando la temperatura media correspondiente (en grados
centígrados) a cada uno de ellos y la cantidad de refrescos pedidos durante
cada uno de dichos periodos la información obtenida es la siguiente:
ESTADISTICA Dionicio Cárdenas Cancha

Temperatura media 1 28 1 31 3 12 2 5 9 15
0 2 0 4
Cantidad de refrescos 2 65 1 92 7 39 6 11 1 24
1 9 5 7 2

Calcular :
a) La recta de regresión o recta de ajuste, grado de dependencia (x) sobre la
cantidad de refrescos (y)
b) Coeficiente de determinación y el coeficiente de correlación, con este
coeficiente se podrá planificar la producción

SOLUCION

Calculamos con la tabla todos los valores que necesitamos sustituir en las formulas
respectivas.

x y xy x2 y2
10 21 210 100 441
28 65 1820 784 4225
12 19 228 144 361
31 72 2232 961 5184
30 75 2250 900 5625
19 39 741 361 1521
24 67 1608 576 4489
5 11 55 25 121
9 12 108 81 144
15 24 360 225 576
183 405 9612 4157 22687

a)

^y =a+bx

a=
∑ x2 ∑ y i−∑ x i ∑ xi y i = ( 4157 ) ( 450 ) −(183)(9612)
2
n ∑ xi2−( ∑ x i ) 10 ( 4157 )−1832

1683585−1758996 −75411
a= = =−9.332
41570−33489 8081

b=n
∑ xi y i−¿ ∑ x i ∑ y i = 10 ( 9612 )−(183)(405) ¿
2 2
n ∑ x 2i −( ∑ x i) 10 ( 4157 )−( 183 )
ESTADISTICA Dionicio Cárdenas Cancha

96120−47115 49005
b= =
41570−33489 8081

COV ( x , y ) COV ( x , y )
(a) y− ý= ( x−x́ ) → y= ý + ( x−x́ )
V [ x] V [x]

x́=
∑ x i = 183 =18.3 → x́ =18.3
n 10

ý=
∑ y i =405=40.5→ x́=40.5
n

COV ( x , y )
Luego y= ý+ ( x− x́ )
V [ x]

220.05
y=40.5+ ( x−18.3 )
80.81
y=40.5+2.72 ( x−18.3 )
y=40.5+2.72 x−49.776
y=2.72 x−9.276

COV ( x , y )=
∑ x i y i −x́ ý
n
9612
COV ( x , y )= −( 183 ) ( 40.5 )
10
COV ( x , y )=961.2−741.15=220.05
COV ( x , y )=220.05

∑ x 2i 2 4157 2
V [ x ]= −x́ = −(183)
n 10
V [ x ]=415.7−334.89
V [ x ]=80.81

(b) r 3=b b' =( 2.723 ) ( 0.35 )

r 3=0.95305
r =√ 0.95305=0.976 → r=0.976 (r es la recta positiva ya que b>0)
ESTADISTICA Dionicio Cárdenas Cancha

Alto grado de relación entre x e y

Si se puede planificarse la producción a través de la recta de regresión mínimos


cuadrados, pues sabemos que el 95.3% de las variaciones de y están explicadas por
la variable independen diente x, es un porcentaje alto.
ESTADISTICA Dionicio Cárdenas Cancha

REGRESION POTENCIAL.- Se trata de ajustar una curva potencial a una nube de


puntos

y=a xb ……….(1)
Nube de puntos

Por una curva potencial pueden pasar muchas funciones potenciales, se elige la que
mejor se ajusta, es decir cuando (x, y) estas desviaciones sean mínimas. Entonces por
el método de mínimos cuadrados se procede haciendo un cambio de variable
logaritminando ambos miembros en (1)

y=a xb → ln y=lna+ b ln x

Sea y= A +BX

ln y=Y , B=b , A=ln A , X =lnx

Hemos linealizado mediante la función logaritmo

Y
Y

Y = axb

Luego se procede
como en el caso
anterior X
X
(lineal) es decir de hallar A y B y con estas

se halla a y b. para finalmente sustituir en


^y =a xb

REGRESION EXPONENCIAL.- Se trata de ajustar una curva exponencial al diagrama


de dispersion

^y =a xb ……. (1)

Entonces linealizamos ambos miembros ^y =a xb , entonces


ESTADISTICA Dionicio Cárdenas Cancha

ln y=ln A +b ln X

Sean

ln y=Y , A=ln A B=b , , X =lnx

Luego se procede como con el caso de la regresión potencial, obteniéndose al final


^y =a xb ejemplo

1) Suponiendo que el ingreso y consumo promedio semanal en dolares de una


muestra de 6 familias de distintos estratos sociales fue el siguiente

(x) Ingreso 13 15 17 18 20 28
(y) Consumo 12 14 16 15 18 21

a) Grafique el diagrama de dispersion


b) Ajustar una curva de regresion potencial de y sobre x
c) Graficar la curva de regresion potencial
d) Estimar el valor del consumo de una familia cuyo ingreso semanal es de 25
dolares
e) Halle el coeficiente de correlacion lineal

SOLUCION

NOTA.- El coeficiente de correlacion lineal para este caso se refiere a:

r =n
∑ xi y i−¿ ∑ x i ∑ y i ¿
2 2
√ [ n∑ xi −( ∑ xi ) ][ n∑ yi −(∑ yi ) ]
2 2

Donde X e Y son de Y = A +BX

Donde

Y =l n y , A=ln A B=b , , X =lnx

^y =a xb

x y X =ln x Y =ln y xy x2 y2
13 12 2,565 2,485 6,374 6,579 6,175
15 14 2,708 2,639 7,147 7,334 6,965
17 16 2,833 2,773 7,855 8,027 7,687
18 15 2,890 2,708 7,827 8,354 7,334
20 18 2,996 2,890 8,659 8,974 8,354
ESTADISTICA Dionicio Cárdenas Cancha

28 21 3,332 3,045 10,145 11,104 9,269


17,325 16,54 48,007 50,372 45,784

a) Grafique el diagrama de dispersión

b) ^y =a xb → ln Y =lna+ b ln x
Y =ln y A=ln A B=b , , X =lnx
→ Y = A+ BX

A=
∑ x 2 ∑ y i−∑ x i ∑ y i = ( 50.369 ) ( 16.59 )−(17.324 )(48.007)
2
n ∑ x i2 −( ∑ x i ) 6 ( 50.369 )−(17.324)2

A=0.683

B=n
∑ x i y i−¿ ∑ xi ∑ y i = 10 ( 9612 ) −(183)(405) ¿
2 2
n ∑ x 2i −( ∑ x i ) 10 ( 4157 ) −( 183 )

B=0.718

ln a= A → a=e A =e 0.683=1.98

→ ^y =1.98 x 0.718

c) Ver figura
^y
d) =1.98(25)0.718=1.98
x=25
∑ xi y i−¿ ∑ x i ∑ y i 6 ( 48.009 )−( 17.324 ) (16.54)
e) r =n 2 2
=
√ ¿ ¿¿
¿
√ [ n∑ xi −( ∑ xi ) ][ n ∑ yi −(∑ yi ) ]
2 2

r =0.915

OBSERVACION.- Si a una nube de puntos se hacen una regresion lineal, otra


independeiente regresion potencia y otra exponcencial, la mejor cura de ajuste de
entre estas 3 curvas de ajustes será aquella que tenga su coefciciente de correlacion
lineal mas proximo a 1 ó -1

2) Para el siguiente conjunto de datos

x 2 5 6 8 9 12
y 3 4 5 8 8 10
ESTADISTICA Dionicio Cárdenas Cancha

a) Ajustar una recta por mínimos cuadrados de Y sobre x y determine el


coeficiente de correlación lineal
b) Para los mismos datos ajuste la curva exponencial por mínimos cuadrados y
determine el coeficiente de correlación lineal
c) Cuál de las 2 curvas se ajusta mejor a los datos

SOLUCION

x y xy x2 y2
2 3 6 4 9
5 4 20 25 16
6 5 30 36 25
8 8 64 64 64
9 8 72 81 64
12 10 120 144 100
42 38 312 354 278

a=
∑ x2 ∑ y−∑ x ∑ xy = 354 ( 38 )−42 ( 312 ) =0.967
2
n ∑ x2 − ( ∑ x ) 6 ( 354 ) −422

a=0.967

n ∑ xy−∑ x ∑ y 6 ( 312 )−42(38)


b= 2
= 2
=0.767
2
n ∑ x −( ∑ x ) 6 ( 354 )−42

b=0.767

^y =0.967+0.767 x

n ∑ xy−∑ x ∑ y 6 (312 )−42(38)


r= =
2 2
2
√ [ n∑ x −( ∑ x ) ][ n∑ y −(∑ y ) ]
2 2 2
√[ 6 ( 354 )−42 ][ 6 ( 278 )−38 ]
276 276
r= = =0.972
√ 80640 283.97

r =0.972

^y =a xb → ln Y =lna+ b ln x

X =x Y= y y=ln y xy x2 y2
ESTADISTICA Dionicio Cárdenas Cancha

2 3 1.099 2.197 4 1.207


5 4 1.386 6.931 25 1.922
6 5 1.609 9.657 36 2.590
8 8 2.079 16.636 64 4.324
9 8 2.079 18.715 81 4.324
12 10 2.303 27.631 144 5.302
42 10.556 81.767 354.000 19.669

A=
∑ x 2 ∑ y−∑ x ∑ xy = 354 (10.555 )−42 ( 81.761 ) = 302.908
2
n ∑ x 2− ( ∑ x ) 6 ( 354 )−422 360

A=0.8403

A=0.8403=ln a→ a=2.316

n ∑ xy−∑ x ∑ y 6 ( 81.761 )−42(10.555) 490.566−443.31


B= 2
= 2
=
2
n ∑ x −( ∑ x ) 6 ( 354 )−42 1764

47.256
B= =0.131
360

B=0.131 → ln b →b=1.139

^y =2.16(1.139)x

n ∑ xy−∑ x ∑ y 6 ( 81.761 )−92(10.555)


r= =
2 2
2
√ [ n∑ x −( ∑ x ) ][ n∑ y −(∑ y ) ]
2 2 2
√[ 6 (758 )−42 ][ 6 ( 19.666 )−10.666 ]
r =0.97035

c) Mejor se ajusta la recta a los datos

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy