Material de
Material de
Material de
INGENIERIA EN GESTIÓN
EMPRESARIAL
ESTADISTICA INFERENCIAL II
5G1
UNIDAD I
1.- Regresión lineal simple y correlación
Relación inversa:
Lapendientedeestalíneaesnegativa,porqueamedida que aumenta el
valor de la variable Y, el valor de la variable Xdisminuye.
VARIABLE INDEPENDIENTE (X)
Enelanálisis deregresión una variable cuyo valor se suponga conocido y que
se utilice para explicar o predecir el valor de otra variable de interés se llama
variable independiente; se simboliza con la letra X.
Otros nombres alternativos para la variable independiente (X), son variable
explicatoria, variable predictora y en ocasiones variable regresora.
VARIABLE DEPENDIENTE (Y)
En el análisis de regresión una variable cuyo valor se suponga desconocido
yque se explique oprediga conayuda deotra se llama variable dependiente y
se simboliza con la letra Y. La variable dependiente, al igual que la variable
independiente es llamada de diferentes maneras algunas de ellas son:
variable explicada o variable pronosticada.
DIAGRAMAS DE DISPERSIÓN
Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis
de regresión. Consta de una dispersión depuntos tal que cada punto
representa un valor de la variable independiente (medido a lo largo del eje
horizontal), y un valor asociado de la variable dependiente (medido a lo largo
del eje vertical).
El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos
de información, visualmente se pueden determinar los patrones que indican
como las variables están relacionadas (lineal o mediante una curva) y por
otro lado si existe una relación entre ellas visualizando la clase de línea o
ecuación de estimación que describe a dicha relación.
A continuación se ilustran algunas relaciones en los diagramas de dispersión:
Un modelo de regresión es un modelo que permite describir cómo influye
una variable X sobre otra variable Y . I
X: Variable independiente o explicativa o exógena I
Y: Variable dependiente o respuesta o endógena
El objetivo es obtener estimaciones razonables de Y para distintos valores de
X a partir de una muestra de n pares de valores (x1, y1), . . . ,(xn, yn).
Tipos de relación
I Determinista:
Conocido el valor de X, el valor de Y queda perfectamente establecido.
Son del tipo: y = f (x)
Ejemplo: La relación existente entre la temperatura en grados centígrados (X) y
grados Fahrenheit (Y ) es:
y = 1,8x + 32
No determinista:
Conocido el valor de X, el valor de Y no queda perfectamente establecido.
Son del tipo: y = f (x) + u
donde u es una perturbación desconocida (variable aleatoria).
Ejemplo: Se tiene una muestra del volumen de producción (X) y el costo total
(Y ) asociado a un producto en un grupo de empresas.
Lineal: Cuando la función f (x) es
lineal, f (x) = β0 + β1x
Si β1 > 0 hay relación lineal
positiva. Si β1 < 0 hay relación
lineal negativa.
No lineal: Cuando la función f (x) no es
lineal. Por ejemplo, f (x) = log(x), f (x) = x
2 + 3, . . . Ausencia de relación: Cuando f
(x) = 0.
La covarianza
Una medida de la dependencia lineal es la covarianza:
Donde
Las variables a y b son constantes numéricas que son las que se calculan
mediante el método de mínimos cuadrados.
1.5_ Determinar el coeficiente de correlación .
Convertimos la tabla de doble entrada en tabla simple.
xi yi fi x i · fi xi ² y i · fi y i² · fi x i · y i · fi X = ∑X/N
fi
0 1 2 0 0 2 2 0
0 2 1 0 0 2 4 0 y = ∑Y/ N
0 3 2 0 0 6 18 0
2 1 1 2 4 1 1 2
2 2 4 8 16 8 16 16
2 3 5 10 20 15 45 30
4 1 3 12 48 3 3 12
2 2 8 32 4 8 16
=4
20 40 120 41 97 76
xy
σ x 2 = 120/20 - 22= 2 σ y 2 = 97/20 – 2,052= 0.65
σ x = √2 = 1.41 σ y = √0,65 =
0.81 σ x y = 76/20 – (2 )(2. 05) = .0.3
r = -0 -3/(1.41(0.81 ) = -0-26
Coeficiente de correlación lineal
El coeficiente de correlación lineal es el cociente entre la covarianza y el
producto de las desviaciones típicas de ambas variables.
El coeficiente de correlación lineal se expresa mediante la letra r.
Propiedades
1. El coeficiente de correlación no varía al hacerlo la escala de medición.
Es decir, si expresamos la altura en metros o en centímetros el coeficiente
de correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el de la
covarianza. Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es
inversa. Si la covarianza es nula, no existe
correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre −1 y
1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la
correlación es fuerte e inversa, y será tanto más fuerte cuanto más se
aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la
correlación es fuerte y directa, y será tanto más fuerte cuanto más se
aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la
correlación es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o
decreciente. Entre ambas variables hay dependencia funcional.
Ejemplos
Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:
Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10
Física 1 3 2 4 4 4 6 4 6 7 9 10
Hallar el coeficiente de correlación de la distribución e interpretarlo.
xi yi xi ·yi xi² yi²
2 1 2 4 1 1º Hallamos las medias aritméticas.
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16 2º Calculamos la covarianza.
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36 3º Calculamos las desviaciones típicas
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
Por ejemplo:
Una cadena de Pizzerías toma una muestra de diez de sus sucursales para
tratar de encontrar un modelo matemático que le permita predecir sus ventas
y obtuvo los siguientes datos: la población de personas en miles fue de 2, 6, 8,
8, 12, 16, 20, 20, 22, 26; y las ventas trimestrales en miles de pesos
fue de: 58, 105, 88, 118, 117, 137, 157, 169, 169, 149, 202.
Realiceunaregresiónparaestimarlasventasdedossucursalesquetienen
14,000 y 30,000 personas como potenciales clientes respectivamente.
Solución
Datos n=10
X: Población de personas en miles
Y: Ventas trimestrales en miles de pesos
1. Tabular los datosobtenidos:
Sucursal X Y
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 168
9 22 149
10 26 202
2. Trazar la líneaestimada.
3. Calcular el error estándar de estimación.
12.21
ParaunaN=30,00
0
yˆ 60 530 210
30,210
1
Recuerda que estamos trabajando con miles de pesos, en este ejercicio.
CORRELACIÓN SIMPLE
a y b xy n y 2
r2
y n y
2 2
a y b xy n y 2
r2
y n y
2 2
r 2
r
INTERVALO DE CONFIANZA
S
yc yˆ t / 2 , gl e
n2
INTERVALO DE PREDICCIÓN
y y ˆ t
p 2 n 2 S 1e
Solución
X: Años deexperiencia
Y: Ventas anuales en miles de pesos.
Vendedor X Y
1 1 80
2 3 97
3 4 92
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
70 1080
2. Diagrama de dispersión.
3. Realizar los cálculos correspondientes y determinar la
pendiente y ordenada al origen.
Vendedor X Y XY X2 Y2
1 1 80 80 1 6400
2 3 97 291 9 9409
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 888 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
70 1080 8128 632 119082
1080
y 108
10
70
x 7
10
8128 107108
b 2 4
632 107
a 108 47 80
Se 4.61
r 0.9645
0.9303
Considerando
yˆ 108 ventas anuales
4.61
y 108 2.306
c
10
104.6383 yc 111.3617
Se puede asegurar con un nivel de confianza del 95% que las ventas de los vendedores con
7 años de experiencia están entre 104.6 y 111.4 miles pesos anuales.
1
yp yˆ t 2 n 2 Se
Sustituyendo:
1
9
yp 108 2.306 4.61 7
1 2
10 2
632 10(7)
108 11.291 yp 108 11.291
96.709 yp 119.291
Se puede asegurar con un nivel de confianza del 95% que las ventas pronosticadas de un
vendedor con 9 años de experiencia están entre 96.71 y 119.3 miles pesos anuales.
Ejercicios propuestos:
El jefe del departamento de aguas de una ciudad desea establecer una relación
entre el consumo mensual domiciliario de agua Y, y el tamaño de las familias X,
Dados los datos muestrales, determine:
Galones Tamaño
de de familia.
Agua
Y X
650 2
1200 7
1300 9
430 4
1400 12
900 6
1800 9
640 3
793 3
925 2
Y X
6.7 9.7
7.3 9.8
8.9 7.6
9.1 6.1
7.2 10.2
5.2 12.7
6.9 14.3
6.9 7.9
7.1 8.9
Un director de ventas desea establecer la relación entre las ventas del segundo
año de vendedores Y, y sus ventas del primer año X. Realice un análisis de
regresión.
Y X
520 13
550 13
600 15
610 15
620 16
724 21
680 21
300 14
962 40
270 12
Losdatossiguientesmuestran lasventas(enmilesdecajas)yloscostosde
unanuncio publicitario para la televisión (enmillones depesos) para 7 marcas
principales de refrescos.
Marca Gastos de Ventasde cajas
publicidad ($) (miles)
Coca-Cola 13.0 19.3
Pepsi-Cola 9.4 13.8
Sprite 6.4 8.4
Diet Coke 5.7 5.5
7-Up 4.2 5.9
Jarritos 2.9 5.3
Boing 1.6 2.5
¿Dibuje el diagrama de dispersión, que parece indicar este diagrama acerca de
la relación entre las dos variables?
Trace una recta que pase por los datos, para aproximar una relación lineal
entre los gastos del anuncio y las ventas.
Aplique elmétodode los cuadrados mínimos para plantear la ecuación estimada
de regresión.
Prediga las ventas para una marca que decida gastar $7 millones de pesos en un
anuncio publicitario.
Calcule el error estándar en la regresión.
Calcule el coeficiente de determinación y correlación e
interprételos. Determina el intervalo de confianza al 95%.
Determina el intervalo de predicción 95%
Meses en venta 6.5 7.0 8.6 12.1 9.0 9.5 8.6 10.6 15.0
Precio pedido (en 800 1000 990 1250 1400 1100 990 990 1250
miles depesos)
Nacimientos
Mes de Registrados
registro
1 Enero 220,670
2 Febrero 211,330
3 Marzo 213,299
4 Abril 270,819
5 Mayo 225,298
6 Junio 205,572
7 Julio 211,180
8 Agosto 249,626
9 Septiembre 220,666
10 Octubre 241,529
11 211,857
Noviembre
12 Diciembre 173,237
Aplique el método de mínimos cuadrados para plantear la ecuación estimada de
regresión.
El INEGI reporto que en julio de 2007 se registraron 211,330 nacimientos, utiliza
la ecuación obtenida y predice cuantos debieron de haberse registrado en ese
mes, compara resultados y obtén tus conclusiones.
Estime cuantos nacimientos se registraron en enero de
2008. Calcule el error estándar en la regresión.
Calcule el coeficiente de correlación y el coeficiente de determinación e
interprételos. Determina el intervalo de confianza al 95%.
Determina el intervalo de predicción 95%
1.4 Medidas de variación.
MEDIDAS DE VARIABILIDAD
Las medidas de variabilidad nos informan sobre el grado de concentración o
dispersión que presentan los datos respecto a su promedio. Llamaremos
homogénea, concentrada o poco dispersa a aquella distribución en la que
todos los datos están cercanos al centro, como 4 4 5 5 5 5 6 6 6 6 7, y
heterogénea o dispersa a la distribución con datos más
separados del centro, como 1 3 5 8 10 16 20
Existen muchas formas de medir la variabilidad. Se Destacan las más
importantes
RANGO
También llamado Recorrido o Amplitud total, es la diferencia entre el máximo
valor del conjunto de datos y el mínimo de ellos. A mayor rango, mayor
dispersión.
El rango del conjunto 4 6 4 7 8 6 5 3 4 7 7 9 6 5 es 6, la diferencia entre el
máximo 9 y el
mínimo 3.
A veces se usa el Rango verdadero que consiste en considerar cada dato
rodeado de una unidad, por efecto de los redondeos, con lo que en el ejemplo
anterior el mínimo sería 2,5 y el máximo 9,5. Con ello el rango se convertiría
en 7
No es una medida buena, pues ignora todo lo que ocurre dentro de ese rango.
DESVIACIÓN MEDIA
Es una medida de la dispersión consistente en la media aritmética de las
desviaciones individuales respecto a la media, tomadas en valor absoluto.
También se usan desviaciones respecto a la mediana.
VARIANZA
Es una medida muy sensible de la variabilidad y base de muchas técnicas
estadísticas. Junto con la media forma el conjunto más importante de medidas.
Es propia de las medidas de intervalo o razón. Su inconveniente es que no usa la
misma unidad que los datos, sino su cuadrado.
No se deben comparar varianzas en conjuntos de unidades muy distintas, como
estatura e inteligencia.
En teoría del muestreo se sustituye por la cuasi-varianza, de idéntica fórmula,
pero con cociente N-1 en lugar de N. En este caso no sería válida la segunda
fórmula DESVIACIÓN TÍPICA
Es la raíz cuadrada de la anterior. Su objeto es conseguir medir la variabilidad en
las mismas unidades que los datos. Así, un conjunto medido en metros, tendrá la
varianza medida en metros cuadrados, pero la desviación típica en metros.
Como en la varianza, para datos aislados basta con suprimir las frecuencias ni.
La desviación típica s es base de muchas técnicas, al igual que la media y la
varianza. Su gran ventaja es estar medida en las mismas unidades que los datos
y la media, lo que permite establecer razones y proporciones entre ellas.
La desviación típica cumple la llamada desigualdad de Tchebychev: según la
cual, los datos que se alejan de la media una distancia igual o menor que s,
multiplicado por un coeficiente k suponen más de la proporción 1-1/k2. Así, el
75% de los datos al menos, se encuentra a menos de dos desviaciones típicas y
el 89% a menos de tres
≤ 1 ⇒ −1 ≤ r ≤ 1.
Además, a partir de la relaciones (17.15) y (17.16), junto con la definición
(17.14) del coeficiente de correlación, puede observarse que dicho
coeficiente de correlación, los coeficientes de regresión y la covarianza
20 40 120 41 97 76
Propiedades
1. El coeficiente de correlación no varía al hacerlo la escala de medición.
Es decir, si expresamos la altura en metros o en centímetros el coeficiente de
correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el de la
covarianza. Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es
inversa. Si la covarianza es nula, no existe
correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre −1 y
1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la
correlación es fuerte e inversa, y será tanto más fuerte cuanto más se
aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la
correlación es fuerte y directa, y será tanto más fuerte cuanto más se
aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación
es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o
decreciente. Entre ambas variables hay dependencia funcional.
Ejemplos
Las notas de 12 alumnos de una clase en Matemáticas y Física son las
siguientes:
Matemática 2 3 4 4 5 6 6 7 7 8 10 10
s
Física 1 3 2 4 4 4 6 4 6 7 9 10
Estadísticas de la regresión
Coeficiente de correlación 0.9355071
múltiple 4
Coeficiente de 0.8751736
determinación R^2 1
R^2 ajustado 0.8626909
7
Error típico 0.9993053
1
Observaciones 12
0.93550714 ≈ 0.94
Calculo en análisis de datos de Excel coeficiente de correlacion
xi yi
xi 1
yi 0.93550714 1
Observaciones 12
0.93550714 ≈ 0.94
1.6 Análisis residual.
¿QUÉ SON LOS RESIDUOS?
Los residuos (o errores) son la diferencia entre los valores observados y los
valores que predice el modelo:
Residuos = Valores observados – Valores que predice el modelo
e=y–ŷ
Por ejemplo, para el modelo de regresión lineal simple (i.e. una variable
explicativa o predictor, de la forma y(x)=ax+b) tenemos el siguiente gráfico:
<https://www.maximaformacion.es/wp-content/uploads/2018/08/blog-regresion-
2.jpg» alt=»» />
En adelante seguiremos trabajando con el modelo de regresión lineal que si
recuerdas asume tres cuestiones importantes: que la relación es de tipo lineal,
que los residuos siguen una distribución normal y que la varianza de dichos
residuos es constante.
¿QUÉ SON LOS GRÁFICOS DE RESIDUOS?
Como mencioné en el post anterior (aquí) debes evaluar mediante gráficos los
supuestos del modelo y si el ajuste es adecuado.
Cuando trabajas con un modelo de regresión lineal simple (i.e. una única
variable explicativa) solo necesitas un gráfico de dispersión con las variables
originales.
Sin embargo, cuando quieres ajustar un modelo de regresión múltiple
(i.e. múltiples variables explicativas) es más sencillo que evalúes el ajuste
del modelo mediante los gráficos de residuos.
GRÁFICOS DE RESIDUOS PARA ENTENDER Y MEJORAR TU REGRESIÓN
Dos son los gráficos diagnósticos principales que se suelen realizar con los
residuos del modelo:
el gráfico de los residuales en función de los valores ajustados por el modelo
(Residuals vs. Fitted) y
el gráfico cuantil-cuantil (Normal Q-Q) permite comparar la distribución de los
residuos con la distribución normal teórica.
TODO LO QUE NECESITAS SABER
SOBRE LA INTERPRETACIÓN DE LOS RESIDUOS
Residuos vs. Valores predichos por el modelo
Este tipo de gráficos te permite evaluar 3 cuestiones principalmente:
Si has utilizado el tipo de relación adecuada (e.g. si el modelo debería ser no
lineal en lugar de lineal). Si el tipo de modelo que utilizaste no es el adecuado
encontrarás sesgos – bias– o tendencias en los residuos.
Si la varianza es constante o por el contrario tienes problemas de dispersión
irregular. Uno de los supuestos del modelo de regresión lineal es que la varianza
de los residuos es constante, es decir, que los residuos se distribuyen al azar
alrededor del valor cero.
Si existen datos extremos (outliers) que puedan perturbar e invalidar tu modelo.
Este tipo de datos se aparta del comportamiento del resto de residuos, tendrán
un valor muy distinto al cero.
¿Quieres conocer los patrones que puedes encontrar en este gráfico?
a continuación los principales patrones y su interpretación, luego te enseñaré
cómo solucionar cada tipo de problema.
Patrón Interpretación
Dispersión irregular o en Varianza no constante, (i.e.
forma de embudo o abanico heterocedasticidad)
Curvilíneo Falta incluir algún termino de mayor orden
(e.g. cuadrático cubico)
Aumento o disminución de Outliers
puntos
Predominio de residuos Outliers
positivos o negativos
Un punto lejos del cero Outliers
Un punto muy lejos de la Punto influyente
dirección de los demas
Ejemplos de patrones:
https://es.slideshare.net/williamleon20/anlisis-de-regresin-lineal
Tabla resumen de las sumas de cuadrados utilizadas en el analisis de reresion lineal simple
Ejemplo 1
Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la
hipertensión arterial, comparándola con la de una dieta sin sal. Para ello se
seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos.
Al primero de ellos no se le suministra ningún tratamiento, al segundo una
dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el
fármaco a una dosis determinada y al quinto el mismo fármaco a otra dosis.
Las presiones arteriales sistólicas de los 25 sujetos al finalizar los tratamientos
son:
Grupo
1 2 3 4 5
180 172 163 158 147
173 158 170 146 152
175 167 158 160 143
182 160 162 171 155
181 175 170 155 160
La tabla de anova es:
Fuente de variación GL SS MS F
Tratamiento 4 2010,64 502,66 11,24
Error 20 894,4 44,72
Total 24 2905,04
ANÁLISIS DE VARIANZA
Origen de Suma de Grados de Promedio F Probabilid Valor
las cuadrados libertad de los ad crítico
variacione cuadrados para F
s
Entre 2010.64 4 502.66 11.2401 6.06E- 2.86608
grupo 6 05 1
s
Dentro 894.4 20 44.72
de los
grupos
Total 2905.04 24
c) La varianza de es σ2/Sxx y la α es
6. INTERPRETACIÓN
La ecuación de regresión estimada es:
Se obtiene: