Material de

INSTITUTO TECNOLÓGICO DE MÉRIDA
INGENIERIA EN GESTIÓN
EMPRESARIAL
ESTADISTICA INFERENCIAL II
5G1
UNIDAD I
1.- Regresión lineal simple y correlación
Profr. Raúl Alvar Rodríguez Sánchez.

Mérida, Yucatán, México.
INDICE
1.1.-REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE______________________________________2
1.1 Modelo de regresión simple___________________________________________________3
1.2 Supuestos_________________________________________________________7
1.3 Determinación de la ecuación de regresión_______________________________________8
1.4 Medidas de variación________________________________________________________35
1.5 Cálculo de los coeficientes de correlación y de determinación________________________41
1.6 Análisis residual____________________________________________________________44
1.7 Inferencias acerca de la pendiente_____________________________________________54
1.8 Aplicaciones_______________________________________________________________56
Reproduce los ejercicios y/o ejemplos, incluidos en el material de apoyo

(hazlos de nuevo), considéralos actividades de formación.
Nota: Activa hipervínculos para ubicarte en el subtema deseado-
1.1.-REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
Es común que las personas tomen decisiones personales y profesionales
basadas en predicciones de sucesos futuros. Para hacer estos pronósticos, se
basan en la relación intuitiva y calculada entre lo que ya se sabe y lo que se
debe estimar. Si los responsables de la toma de decisiones pueden
determinar cómo lo conocido se relaciona con un evento futuro, pueden
ayudar considerablemente al proceso de toma de decisiones.
Cualquier método estadístico que busque establecer una ecuación que
permita estimar el valor desconocido de una variable a partir del valor
conocido de una omásvariables, se denomina análisis de regresión.
Los análisis de regresión y correlación mostrarán como determinar la
naturaleza y la fuerza de una relación entre dos variables.
El término regresión fue utilizado por primera vez por el genetista y
estadístico inglés Francis Galton (1822-1911) en 1877 Galton efectúo un
estudio que demostró que la altura d los hijos de padres altos tendía a
retroceder, o “regresar”, hacia la talla media de la población. Regresión fue
el nombre que le dio al proceso general de predecir una variable,(la talla de
los niños) a partir de otra (la talla de los padres).
Hoy en día, esta tendencia de miembros de cualquier población que están en
una posición extrema (arriba o debajo de la media poblacional) en un
momento, y luego enunaposición menosextrema en otro momento, (ya sea
por sí opormediode sus descendientes), se llama efecto de regresión.
El análisis de regresión se desarrolla una ecuación de estimación, es decir, una
formula
matemática que relaciona las variables conocidas con las desconocidas.
Luego de obtener el patrón de dicha relación, se aplica el análisis de
correlación para determinar el grado de relación que hay entre las variables.
1.1 Modelo de regresión simple.
REGRESIÓN LINEAL SIMPLE
“Una técnica estadística que establece una ecuación para estimar el valor
desconocido de una variable, a partir del valor conocido de otra variable, (en
vez de valores demuchas otras variables) se denomina análisis de regresión
simple.”
Por lo tanto el análisis de regresión lineal simple, es el proceso general de
predecir una variable (Y) a partir de otra (X).
Las relaciones entre las variables pueden ser directas o también inversas.
 1: la pendiente de esta línea espositiva, porque la variable Y crece a
medida que la variable X también lo hace.
 Relación inversa:
Lapendientedeestalíneaesnegativa,porqueamedida que aumenta el
valor de la variable Y, el valor de la variable Xdisminuye.
VARIABLE INDEPENDIENTE (X)
Enelanálisis deregresión una variable cuyo valor se suponga conocido y que
se utilice para explicar o predecir el valor de otra variable de interés se llama
variable independiente; se simboliza con la letra X.
Otros nombres alternativos para la variable independiente (X), son variable
explicatoria, variable predictora y en ocasiones variable regresora.
VARIABLE DEPENDIENTE (Y)
En el análisis de regresión una variable cuyo valor se suponga desconocido
yque se explique oprediga conayuda deotra se llama variable dependiente y
se simboliza con la letra Y. La variable dependiente, al igual que la variable
independiente es llamada de diferentes maneras algunas de ellas son:
variable explicada o variable pronosticada.
DIAGRAMAS DE DISPERSIÓN
Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis
de regresión. Consta de una dispersión depuntos tal que cada punto
representa un valor de la variable independiente (medido a lo largo del eje
horizontal), y un valor asociado de la variable dependiente (medido a lo largo
del eje vertical).
El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos
de información, visualmente se pueden determinar los patrones que indican
como las variables están relacionadas (lineal o mediante una curva) y por
otro lado si existe una relación entre ellas visualizando la clase de línea o
ecuación de estimación que describe a dicha relación.
A continuación se ilustran algunas relaciones en los diagramas de dispersión:
Un modelo de regresión es un modelo que permite describir cómo influye
una variable X sobre otra variable Y . I
X: Variable independiente o explicativa o exógena I
Y: Variable dependiente o respuesta o endógena
El objetivo es obtener estimaciones razonables de Y para distintos valores de
X a partir de una muestra de n pares de valores (x1, y1), . . . ,(xn, yn).
Tipos de relación
I Determinista:
Conocido el valor de X, el valor de Y queda perfectamente establecido.
Son del tipo: y = f (x)
Ejemplo: La relación existente entre la temperatura en grados centígrados (X) y
grados Fahrenheit (Y ) es:
y = 1,8x + 32
No determinista:
Conocido el valor de X, el valor de Y no queda perfectamente establecido.
Son del tipo: y = f (x) + u
donde u es una perturbación desconocida (variable aleatoria).
Ejemplo: Se tiene una muestra del volumen de producción (X) y el costo total
(Y ) asociado a un producto en un grupo de empresas.
Lineal: Cuando la función f (x) es
lineal, f (x) = β0 + β1x
Si β1 > 0 hay relación lineal
positiva. Si β1 < 0 hay relación
lineal negativa.
No lineal: Cuando la función f (x) no es
lineal. Por ejemplo, f (x) = log(x), f (x) = x
2 + 3, . . . Ausencia de relación: Cuando f
(x) = 0.
La covarianza
Una medida de la dependencia lineal es la covarianza:
cov (x, y) = Xn i=1 (xi − x¯) (yi − y¯) n − 1 I

Si hay relación lineal positiva, la covarianza será positiva y grande.
Si hay relación lineal negativa, la covarianza será negativa y grande en
valor absoluto. Si hay no hay relación entre las variables o la relación es
marcadamente no lineal, la covarianza será próxima a cero.
PERO la covarianza depende de las unidades de medida de las variables.
El coeficiente de correlación lineal Una medida de la dependencia lineal
que no depende de las unidades de medida es el coeficiente de
correlación lineal:
Donde
-1≤ cor (x, y) ≤ 1

cor (x, y) = cor
(y, x)
cor (ax + b, cy + d) = cor (x, y) para cualesquiera valores
a, b, c, d. El modelo de regresión lineal simple supone que,
yi = β0 + β1xi +
ui donde:
yi representa el valor de la variable respuesta para la observación
i-ésima. xi representa el valor de la variable explicativa para la
observación i-ésima. ui representa el error para la observación i-
ésima que se asume normal,
ui ∼ N(0, σ)
β0 y β1 son los coeficientes de regresión:
β0 : intercepto
β1 : pendiente
Los parámetros que hay que estimar son: β0, β1 y σ.
El objetivo es obtener estimaciones βˆ 0 y βˆ 1 de β0 y β1 para calcular la
recta de regresión:
yˆ = βˆ 0 + βˆ 1x
que se ajuste lo mejor posible a los datos. Ejemplo: Supongamos que la recta
de regresión del ejemplo anterior es:
Costo = −15,65 + 1,29 Volumen
Se estima que una empresa que produce 25 mil unidades tendría un costo: costo
=
−15,65 + 1,29 × 25 = 16,6 mil euros
La diferencia entre cada valor yi de la variable respuesta y su estimación yî
se llama residuo:
ei = yi − yî
Ejemplo (cont.): Indudablemente, una empresa determinada que haya
producido exactamente 25 mil unidades no va a tener un gasto de
exactamente 16,6 mil euros. La diferencia entre el costo estimado y el real
es el residuo. Si por ejemplo el costo real de la empresa es de 18 mil euros,
el residuo es:
ei = 18 − 16,6 = 1,4mil euros
Linealidad: La relación existente entre X e Y es
lineal, f (x) = β0 + β1x
Homogeneidad: El valor promedio del error es
cero, E[ui ] = 0 I
Homocedasticidad: La varianza de los errores es
constante, Var(ui) = σ 2
Independencia: Las observaciones son
independientes, E[uiuj ] = 0
Normalidad: Los errores siguen una distribución
normal, ui ∼ N(0, σ)
1.2Supuestos.
La regresión múltiple tiene 4 supuestos importantes que hay que seguir para
hacer un análisis preciso y no sesgado:
1) Normalidad
2) Relación lineal
3) Aditividad y Multicolinealidad
4) Homocedasticidad
Un tema importante, el punto 1 y el 2, se revisan o se prueban antes de hacer
la regresión final, mientras que el 3 y 4, por lo general se prueban después
que se hizo la regresión lineal.
Normalidad:
Esto se refiere a que todos nuestros datos, tanto nuestras variables
independientes, así como nuestra variable dependiente, tienen que tener
puntajes que están
distribuidos normalmente, inclusive los residuos (error) de estos puntajes deben
tener una distribución normal.
Cuando los errores de las variables tienen distribución no normal, pueden afectar
las relaciones y la significancia.
Relación lineal
Este segundo supuesto está dirigido a la relación entre las variable
independiente y dependiente. La relación entre cada variable independiente
con la variable dependiente debe ser lineal. En otras palabras, y como bien
conocemos, debe haber una correlación entre las variables independientes y la
dependiente.
Los análisis de correlación se deben hacer antes de la regresión para poder saber
qué variables tienen relación con la que deseamos medir, lo cual este análisis
previo nos permitirá saber qué variables incluimos en nuestro modelo de regresión.
Aditividad y multicolinealidad
La aditividad se refiere a que el modelo de regresión lineal es aditivo,
cada variable independiente por sí sola, suma a la explicación de la variable
dependiente y por consiguiente no hay relación entre las variables
independientes, Caso contrario es la multicolinealidad (dos variables
independientes están relacionadas.
Las relaciones entre dos variables entonces son muy parecidas y no
aportaría nada a explicar la variable dependiente.
Homocedasticidad
La homocedasticidad es cuando la varianza de los errores de medición de
nuestro análisis es igual para todas las variables independientes.
1.3 Determinación de la ecuación de regresión.

METODO DE MINIMOS CUADRADOS (lineal)
El método que por lo común se utiliza para ajustar una línea a los datos
muestrales indicados en el diagrama de dispersión, se llama método de
mínimos cuadrados. La línea se deriva en forma tal que la suma de los
cuadrados de las desviaciones verticales entre la línea y los puntos
individuales de datos se reduce al mínimo.
El método de mínimos cuadrados sirve para determinar la recta que mejor se
ajuste a los datos muestrales, y los supuestos de este método son:
 El error escero.
 Los datos obtenidos de las muestra son estadísticamente independientes.
 La varianza del error es igual para todos los valores de X.
Una línea de regresión calculada a partir de los datos muestrales, por el
método de mínimos cuadrados se llama línea de regresiónestimada o línea de
regresión muestral. Dicha línea recta es la que mejor se ajusta al conjunto de
datos (X, Y) y es aquella en que la distancia que hay entre los datos y la
supuesta recta es la menor posible, y se calcula mediante la siguiente
formula:
ˆy  a  bx
Para calcular el valor de b (pendiente), que representa el grado de
inclinación que tiene la recta, se emplea la siguiente formula:
 Para calcular el valor de a (ordenada al origen), que representa el

punto en que la recta corta al eje de las Y, se emplea la siguiente formula:
Las variables a y b son constantes numéricas que son las que se calculan
mediante el método de mínimos cuadrados.
1.5_ Determinar el coeficiente de correlación .
Convertimos la tabla de doble entrada en tabla simple.
xi yi fi x i · fi xi ² y i · fi y i² · fi x i · y i · fi X = ∑X/N
fi
0 1 2 0 0 2 2 0
0 2 1 0 0 2 4 0 y = ∑Y/ N
0 3 2 0 0 6 18 0
2 1 1 2 4 1 1 2
2 2 4 8 16 8 16 16
2 3 5 10 20 15 45 30
4 1 3 12 48 3 3 12
2 2 8 32 4 8 16
=4
20 40 120 41 97 76
xy
σ x 2 = 120/20 - 22= 2 σ y 2 = 97/20 – 2,052= 0.65
σ x = √2 = 1.41 σ y = √0,65 =
0.81 σ x y = 76/20 – (2 )(2. 05) = .0.3
r = -0 -3/(1.41(0.81 ) = -0-26
Coeficiente de correlación lineal
El coeficiente de correlación lineal es el cociente entre la covarianza y el
producto de las desviaciones típicas de ambas variables.
El coeficiente de correlación lineal se expresa mediante la letra r.
Propiedades
1. El coeficiente de correlación no varía al hacerlo la escala de medición.
Es decir, si expresamos la altura en metros o en centímetros el coeficiente
de correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el de la
covarianza. Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es
inversa. Si la covarianza es nula, no existe
correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre −1 y
1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la
correlación es fuerte e inversa, y será tanto más fuerte cuanto más se
aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la
correlación es fuerte y directa, y será tanto más fuerte cuanto más se
aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la
correlación es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o
decreciente. Entre ambas variables hay dependencia funcional.
Ejemplos
Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:
Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10
Física 1 3 2 4 4 4 6 4 6 7 9 10
Hallar el coeficiente de correlación de la distribución e interpretarlo.
xi yi xi ·yi xi² yi²
2 1 2 4 1 1º Hallamos las medias aritméticas.
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16 2º Calculamos la covarianza.
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36 3º Calculamos las desviaciones típicas
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
.4º Aplicamos la fórmula del coeficiente de correlación lineal.
Al ser el coeficiente de correlación positivo, la correlación es directa.

Como coeficiente de correlación está muy próximo a 1 la correlación es muy
fuerte.
ERROR ESTANDAR DE ESTIMACIÓN
El siguiente proceso que se necesita en el análisis de la regresión lineal
simple es cómo medir la confiabilidad de la ecuación de estimación que
hemos desarrollado.
El error estándar de estimación mide la variabilidad o dispersión de los
valores observados alrededor de la línea de regresión y se representa como
Se. Su formula es la siguiente:
Se 
Cuanto mayor sea el error estándar de la estimación, más grande será la

dispersión (o esparcimiento) de puntos alrededor de la línea de regresión.
Por el contrario, si Se= 0, se espera que la ecuación de estimación sea un
estimador “perfecto” de la variable dependiente, en este caso todos los
puntos caerían directamente sobre la línea de regresión y no habría puntos
dispersos, como se muestra en la siguiente figura:
El error estándar de estimación tiene la misma aplicación que de la

desviación estándar que se vio en los temas anteriores. Esto es, suponiendo
que los puntos observados tienen una distribución normal alrededor de la
recta de regresión, podemos esperar que:
 68% de los puntos están dentro de ± 1se
 95.5% de los puntos están dentro de ± 2se
 99.7%delospuntosestándentrode±3se
El error estándar de la estimación se mide a lo largo del eje “Y”, y no
perpendicularmente desde la recta de regresión.
Las suposiciones son:
1. Los valores observados para Y tienen distribución normal
alrededor de cada valor estimado de yˆ
2. La varianza de las distribuciones alrededor de cada valor posible de
yˆ es la misma.
Si esta segunda suposición no fuera cierta, entonces el error estándar en un
punto de la recta de regresión podría diferir del error estándar en otro punto.
PROCEDIMIENTOPARAREALIZARUNANÁLISISDEREGRESIÓNLINEAL SIMPLE
1. Obtención de los datos muestrales.
2. Los datos obtenidos se tabulan. (tener cuidado en determinar
correctamente quien es la variable independiente y dependiente)
X Y
3. La información se gráfica en un diagrama de

dispersión, estableciéndose la posible relación entre las dos
variables
4.- Se calcula la pendiente
5. Se calcula la ordenada al origen. a = y + bx

6.-Se obtiene la ecuación que mejor se ajusta a la información
obtenida. ˆy  a  bx
7.- Se traza la línea estimada en el diagrama de dispersión.
8.- Se calcula el error estándar de estimación
.
Se 
Por ejemplo:
Una cadena de Pizzerías toma una muestra de diez de sus sucursales para
tratar de encontrar un modelo matemático que le permita predecir sus ventas
y obtuvo los siguientes datos: la población de personas en miles fue de 2, 6, 8,
8, 12, 16, 20, 20, 22, 26; y las ventas trimestrales en miles de pesos
fue de: 58, 105, 88, 118, 117, 137, 157, 169, 169, 149, 202.
 Realiceunaregresiónparaestimarlasventasdedossucursalesquetienen
14,000 y 30,000 personas como potenciales clientes respectivamente.
Solución
Datos n=10
X: Población de personas en miles
Y: Ventas trimestrales en miles de pesos
1. Tabular los datosobtenidos:
Sucursal X Y
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 168
9 22 149
10 26 202
2. Graficar los datos enundiagrama de dispersión ydeterminar la posible

relación entre las variables X Y.
1. Realizar los cálculos correspondientes

Sucursal X Y XY X2 Y2
1 2 58 116 4 3364 Hallar las medias aritméticas
2 6 105 630 36 11025 X =140/10 = 14 Y = 1300/10
3 8 88 704 64 7744 = 130
4 8 118 944 64 13924 Covarianza
5 12 117 1404 144 13689 σxy = 5252/(14)(130) =
6 16 137 2192 256 18769 Por lo tanto la pendiente es
7 20 157 3140 400 24649 21040 1014130
8 20 168 3380 400 28224 B= =5
9 22 149 3278 484 22201 2528 1014
10 26 202 5252 676 40804
 a  130  514 60
140 1300 21040 2528 18439
y =  60  5x
3
2. Trazar la líneaestimada.
3. Calcular el error estándar de estimación.
184393  60 1300 5  21040

Se
=
  12.21
Tiene un error de estimación de 12,210 pesos.

 Para una N =
14,0001
yˆ  60  514  130
 14,130
 ParaunaN=30,00
0
yˆ  60  530  210
 30,210
1
Recuerda que estamos trabajando con miles de pesos, en este ejercicio.
CORRELACIÓN SIMPLE
Mientras que el análisis de regresión simple establece una

ecuación precisa que enlaza dos variables, el análisis de correlación
es la herramienta estadística que podemos usar para describir el
grado o fuerza en el que una variable esta linealmente relacionada
con otra.
Dependiendo del tamaño de esta medida cuantitativa se puede

decir, que tan cercanamente se mueven dos variables, y por lo tanto,
con cuanta confiabilidad se puede estimar una variable con ayuda de
la otra.
Una técnica estadística que establece un índice que proporciona,

en un solo número, una medida de la fuerza de asociación entre dos
variables de interés, se llama análisis de correlación simple.
El análisis de correlación es la herramienta estadística de que nos valemos

para describir el grado de relación que hay entre dos variables.
A menudo el análisis de correlación simple se utiliza junto con el

análisis de regresión lineal simple para medir la eficacia con que la
línea de regresión explica la variación de la variable dependiente, Y.
Diagramas de dispersión con correlación débil y fuerte.

Existen dos medidas para describir la correlación entre dos variables: el
coeficiente de determinación y el coeficiente de correlación.
COEFICIENTE MUESTRAL DE DETERMINACIÓN
La medida más importante de que también ajusta la línea de

regresión estimada en los datos muestrales en los que esta basada,
es el coeficiente de determinación muestral, este es igual a la
proporción de la variación total de los valores de la variable
dependiente, “Y”, que puede explicarse por medio de la asociación de
Y con X medida por la línea de regresión estimada.
El coeficiente de determinación es la manera primaria de medir

el grado, o fuerza, de la relación que existe entre dos variables, X y Y.
El coeficiente de determinación muestral se representa como r2,

y mide exclusivamente la fuerza de una relación lineal entre dos
variables.
 El Calculo del coeficiente dedeterminación se lleva acabo con la

siguiente formula:
a   y b  xy n  y 2 
r2
y  n  y 
2 2
a   y b  xy n  y 2 
r2
y  n  y 
2 2
COEFICIENTE MUESTRAL DE CORRELACIÓN
La raíz cuadrada del coeficiente de determinación muestral,

, es un índice alternativo común del grado de asociación entre dos
variables cuantitativas. Esta mediad se llama coeficiente de correlación
muestral (r) y es un estimador puntual del coeficiente de correlación
poblacional ().
El coeficiente de correlación muestral es la segunda medida con

que puede describirse la eficacia con que una variable es explicada
por otra, así pues el signo de r indica la dirección de la relación entre
las dos variables X y Y.
El siguiente esquema representa adecuadamente la intensidad
y la dirección del coeficiente de correlación muestral
 El calculo del coeficiente de correlación muestral se lleva a cavo con
la siguiente formula:
r 2

r
INTERVALO DE CONFIANZA
Debido a que la recta estimada de regresión, no es del todo

real, es necesario elaborar un intervalo de confianza que le de
seguridad a nuestros cálculos.
Como se ha visto, cuando se utilice el método de mínimos

cuadrados, los coeficientes de regresión, a y b son estimadores
insesgados, eficientes y consistentes de  y , también aquí es
muchas ocasiones es deseable establecer intervalos deconfianza.
 Los intervalos de confianza se calculan con la siguiente fórmula:
 S 
yc  yˆ t / 2 , gl e
n2  
 
INTERVALO DE PREDICCIÓN
El intervalo de predicción, como su nombre lo indica, se utiliza

para predecir un intervalo de valores de Y, dado un valor de X.
 El intervalo de predicción se calcula con la siguiente fórmula:

  

y  y ˆ  t
p 2 n  2  S 1e  
PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DECORRELACIÓN LINEAL

SIMPLE
1. Obtención y tabulación de los datos muestrales.
2. La información se gráfica en un diagrama de dispersión.
3. Calcular la pendiente y ordenada al origen.
4. Se obtiene la ecuación que mejor se ajusta a la información obtenida.
5. Se traza la línea estimada en el diagrama de dispersión.
7. Calcular el coeficiente de determinación.
8. Determinar el coeficiente de correlación.
9. Determinar el intervalo de confianza.
10. Determinar el intervalo de predicción.

Por ejemplo:
Un gerente de ventas reunió los datos siguientes relacionados

con las ventas anuales en miles de pesos y los años de experiencia de
diez vendedores. Estime las ventas anuales para un vendedor con 7
años de experiencia.
Solución
1. Obtención y tabulación de los datos muestrales.
X: Años deexperiencia
Y: Ventas anuales en miles de pesos.
Vendedor X Y
1 1 80
2 3 97
3 4 92
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
 70 1080
2. Diagrama de dispersión.
3. Realizar los cálculos correspondientes y determinar la
pendiente y ordenada al origen.
Vendedor X Y XY X2 Y2
1 1 80 80 1 6400
2 3 97 291 9 9409
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 888 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
 70 1080 8128 632 119082
1080
y  108
10
70
x 7
10
8128 107108
b 2 4
632 107
a  108  47 80
4. Ecuación que mejor se ajusta.

80  4x
ˆy 
 Para un vendedor con 7 años de experiencia, sus ventas estimadas

serían:
yˆ 80  47 108 ventas anuales

5.Trazo de la línea estimada en el diagrama de dispersión
Se   4.61
7.Calcular el Coeficiente de Determinación.

80 1080  4  8128  10 1082  119082 
2 
r 
101082 
r 2  93.03%
El 93% de las ventas anuales se debena la experiencia de los
vendedores y el 7% restante de debe a otros factores.
8. Calcular el Coeficiente de Correlación
r  0.9645
0.9303
Este número nos indica que las variables X Y tienen una

correlación positiva intensa.
Determinar el intervalo de confianza al 95%.
Considerando
yˆ 108 ventas anuales
4.61
y 108 2.306
c
10
108 3.3617 yc 108 3.3617
104.6383 yc 111.3617
Se puede asegurar con un nivel de confianza del 95% que las ventas de los vendedores con
7 años de experiencia están entre 104.6 y 111.4 miles pesos anuales.
Determinar elintervalo depredicción para unvendedorcon 9 añosde experiencia

setiene
1 
yp yˆ t 2 n 2 Se
Sustituyendo:
1
9
yp 108 2.306 4.61 7
1 2
10 2
632 10(7)
108 11.291 yp 108 11.291
96.709 yp 119.291
Se puede asegurar con un nivel de confianza del 95% que las ventas pronosticadas de un
vendedor con 9 años de experiencia están entre 96.71 y 119.3 miles pesos anuales.
Ejercicios propuestos:
El jefe del departamento de aguas de una ciudad desea establecer una relación
entre el consumo mensual domiciliario de agua Y, y el tamaño de las familias X,
Dados los datos muestrales, determine:
Galones Tamaño
de de familia.
Agua
Y X
650 2
1200 7
1300 9
430 4
1400 12
900 6
1800 9
640 3
793 3
925 2
Elabora el diagrama de dispersión.

Calcula la pendiente y ordenada al
origen.
Obtener la ecuación que mejor se ajusta a los
datos. Traza la línea estimada en el diagrama de
dispersión. Calcula el error estándar de
estimación.
Calcula el coeficiente
dedeterminación. Determina el
coeficiente de correlación. Determina
el intervalo de confianza al 99%.
Determina el intervalo de predicción
99%
El gerente de una compañía de seguros desea establecer la relación entre
elsegurodevidade laspersonasY,ysussalariosX.Realiceunaregresióncon los datos
muestrales:
Seguro de vida Salario Anual.
Y X
50 10
80 29
100 30
130 31
150 36
origen.
estimación.
90%
Un economista deseaestablecer la relación entre la tasa dedesempleo Y, y la
tasa de cuentas vencidas de la Tesorerías, Determine la regresión y correlación
con los datos muestrales.
Y X
6.7 9.7
7.3 9.8
8.9 7.6
9.1 6.1
7.2 10.2
5.2 12.7
6.9 14.3
6.9 7.9
7.1 8.9

origen.
Obtener la ecuación que mejor se ajusta a los datos.
Traza la línea estimada en el diagrama de
estimación.
coeficiente de correlación.
Determina el intervalo de confianza
al 95%. Determina el intervalo de
predicción 95%
Un director de ventas desea establecer la relación entre las ventas del segundo
año de vendedores Y, y sus ventas del primer año X. Realice un análisis de
regresión.
Y 69 75 86 111 129 133

X 170 133 86 161 112 133

origen.
estimación.
95%
Un gerente de comercialización desea establecer la relación entre las ventas Y,
y el precio de un producto similar fabricado por la competencia X, Realice un
análisis de correlación.
Ventas Precio de competencia
Y X
520 13
550 13
600 15
610 15
620 16
724 21
680 21
300 14
962 40
270 12

origen.
estimación.
99%
Sehizounaencuesta aunamuestra de 10 losestudiantesde3er.Semestre de

lacareradeLic. Enadministracióndelgrupo 1301delsemestre2009-1y se
encontraron los siguientesdatos:
Estudiante Altura (mts) Peso (Kg)

1 1.50 48
2 1.54 50
3 1.60 52
4 1.72 70
5 1.80 72
6 1.50 50
7 1.61 57
8 1.54 54
9 1.63 80
10 1.70 62
origen.
Obtener la ecuación que mejor se ajusta a los datos.
Traza la línea estimada en el diagrama de
estimación.
coeficiente de correlación.
Determina el intervalo de confianza
al 95%. Determina el intervalo de
predicción 95%
Losdatossiguientesmuestran lasventas(enmilesdecajas)yloscostosde
unanuncio publicitario para la televisión (enmillones depesos) para 7 marcas
principales de refrescos.
Marca Gastos de Ventasde cajas
publicidad ($) (miles)
Coca-Cola 13.0 19.3
Pepsi-Cola 9.4 13.8
Sprite 6.4 8.4
Diet Coke 5.7 5.5
7-Up 4.2 5.9
Jarritos 2.9 5.3
Boing 1.6 2.5
¿Dibuje el diagrama de dispersión, que parece indicar este diagrama acerca de
la relación entre las dos variables?
Trace una recta que pase por los datos, para aproximar una relación lineal
entre los gastos del anuncio y las ventas.
Aplique elmétodode los cuadrados mínimos para plantear la ecuación estimada
de regresión.
Prediga las ventas para una marca que decida gastar $7 millones de pesos en un
anuncio publicitario.
Calcule el error estándar en la regresión.
Calcule el coeficiente de determinación y correlación e
interprételos. Determina el intervalo de confianza al 95%.
Determina el intervalo de predicción 95%
La revista del consumidor publico en su número 381 del mesdenoviembre del

2008 la siguiente información acerca del uso de los teléfonos celulares:
Año Usuariosquecompran
tiempo aire en (miles de
usuarios)
2000 1628
2001 1784
2002 2006
2003 2029
2004 2508
2005 3268
2006 4035
2007 5199
Trace un diagrama de dispersión para estos datos,

Aplique el método de mínimos cuadrados para plantear la ecuación estimada de
regresión.
Trace una recta que pase por los datos, para aproximar una relación lineal
entre la altura y el peso.
Prediga cuantos usuarios compraran tiempo aire para su teléfono celular para el
año 2009. Calcule el error estándar en la regresión.
Calcule el coeficiente de correlación y el coeficiente de determinación e
Un vendedor de Century 21 desea establecer la relación entre el tiempo en

meses que están a la venta los departamentos antes de lograr su venta y el
precio pedido por ellos. Los datos de una muestra de 9 departamentos se
muestran a continuación:
Meses en venta 6.5 7.0 8.6 12.1 9.0 9.5 8.6 10.6 15.0
Precio pedido (en 800 1000 990 1250 1400 1100 990 990 1250
miles depesos)

regresión.
Prediga cuanto tiempo se tardara en vender un departamento que cueste $
1’500,000 pesos.
El Orgamismo Operador de agua en el Muncipio de cuautitlán Izcalli OPERAGUA

quiere conocer la relación entre en consumo mensual domiciliario deagua
yeltamañodelas familias, toma unamuestra de 10 familias elegidas al azar y
encuentra los siguientes datos:
Metros cúbicos 65 120 130 43 140 90 180 64 79 92

consumidos
Tamaño de la 2 7 9 4 12 6 9 3 3 4
familia
regresión. Predigacuantosmetroscúbicosalmesconsumiráunafamiliaquetiene 10
miembros.
El gerente de una mueblería “FAMSA” quiere conocer la relación de las ventas

logradas por un vendedor en dos años, toma una muestra de 8 vendedores que
lograron la etiqueta de (vendedor del mes) y encontrólos siguientes datos:
Unidades vendidas en el año 170 133 86 161 112 133 136 82

2007
Unidades vendidas en el año 99 95 50 80 92 88 130 100
2006
regresión. Calcule el error estándar en la regresión.
Calcule elcoeficiente de correlación yelcoeficiente dedeterminación e
Según el INEGI los nacimientos registrados en el país en el 2007 fueron:
Nacimientos
Mes de Registrados
registro
1 Enero 220,670
2 Febrero 211,330
3 Marzo 213,299
4 Abril 270,819
5 Mayo 225,298
6 Junio 205,572
7 Julio 211,180
8 Agosto 249,626
9 Septiembre 220,666
10 Octubre 241,529
11 211,857
Noviembre
12 Diciembre 173,237
regresión.
El INEGI reporto que en julio de 2007 se registraron 211,330 nacimientos, utiliza
la ecuación obtenida y predice cuantos debieron de haberse registrado en ese
mes, compara resultados y obtén tus conclusiones.
Estime cuantos nacimientos se registraron en enero de
2008. Calcule el error estándar en la regresión.
1.4 Medidas de variación.
MEDIDAS DE VARIABILIDAD
Las medidas de variabilidad nos informan sobre el grado de concentración o
dispersión que presentan los datos respecto a su promedio. Llamaremos
homogénea, concentrada o poco dispersa a aquella distribución en la que
todos los datos están cercanos al centro, como 4 4 5 5 5 5 6 6 6 6 7, y
heterogénea o dispersa a la distribución con datos más
separados del centro, como 1 3 5 8 10 16 20
Existen muchas formas de medir la variabilidad. Se Destacan las más
importantes
RANGO
También llamado Recorrido o Amplitud total, es la diferencia entre el máximo
valor del conjunto de datos y el mínimo de ellos. A mayor rango, mayor
dispersión.
El rango del conjunto 4 6 4 7 8 6 5 3 4 7 7 9 6 5 es 6, la diferencia entre el
máximo 9 y el
mínimo 3.
A veces se usa el Rango verdadero que consiste en considerar cada dato
rodeado de una unidad, por efecto de los redondeos, con lo que en el ejemplo
anterior el mínimo sería 2,5 y el máximo 9,5. Con ello el rango se convertiría
en 7
No es una medida buena, pues ignora todo lo que ocurre dentro de ese rango.
DESVIACIÓN MEDIA
Es una medida de la dispersión consistente en la media aritmética de las
desviaciones individuales respecto a la media, tomadas en valor absoluto.
También se usan desviaciones respecto a la mediana.
VARIANZA
Es una medida muy sensible de la variabilidad y base de muchas técnicas
estadísticas. Junto con la media forma el conjunto más importante de medidas.
Es propia de las medidas de intervalo o razón. Su inconveniente es que no usa la
misma unidad que los datos, sino su cuadrado.
No se deben comparar varianzas en conjuntos de unidades muy distintas, como
estatura e inteligencia.
En teoría del muestreo se sustituye por la cuasi-varianza, de idéntica fórmula,
pero con cociente N-1 en lugar de N. En este caso no sería válida la segunda
fórmula DESVIACIÓN TÍPICA
Es la raíz cuadrada de la anterior. Su objeto es conseguir medir la variabilidad en
las mismas unidades que los datos. Así, un conjunto medido en metros, tendrá la
varianza medida en metros cuadrados, pero la desviación típica en metros.
Como en la varianza, para datos aislados basta con suprimir las frecuencias ni.
La desviación típica s es base de muchas técnicas, al igual que la media y la
varianza. Su gran ventaja es estar medida en las mismas unidades que los datos
y la media, lo que permite establecer razones y proporciones entre ellas.
La desviación típica cumple la llamada desigualdad de Tchebychev: según la
cual, los datos que se alejan de la media una distancia igual o menor que s,
multiplicado por un coeficiente k suponen más de la proporción 1-1/k2. Así, el
75% de los datos al menos, se encuentra a menos de dos desviaciones típicas y
el 89% a menos de tres
Covarianza y coeficientes de regresión

Las expresiones para los parámetros de la recta de regresión se pueden
simplificar más introduciendo una importante definición.
Se define la covarianza de una muestra bidimensional a
Es decir, es una definición muy similar a la de la varianza s2, pero mezclando

las desviaciones de ambas variables. Al igual que ocurría con la varianza, en
muchas ocasiones en el denominador se utiliza n en vez de n − 1. Aquí
usaremos esta segunda definición.
En el caso general de que haya valores repetidos, o agrupamiento en
intervalos, la definición de la covarianza sería
Coeficiente de correlación lineal y varianza residual

La utilidad de la covarianza como medida de correlación está limitada por el
hecho de que depende de las unidades de medida en que se trabaje. Para
construir una medida adimensional de la correlación habrá que dividir la
varianza por un término con sus mismas dimensiones. De esta forma, se define
el coeficiente de correlación lineal r como
el cociente entre la covarianza y las desviaciones típicas (o raices cuadradas de
las varianzas) de x e y r
Interpretación del coeficiente de correlación

Usando las relaciones derivadas en el apartado anterior se puede hacer una
interpretación del coeficiente de correlación.
En primer lugar, a partir de (17.19) podemos acotar sus posibles valores.
Efectivamente, dado que, por sus definiciones, tanto la varianza residual s2 r
de correlación ha de estar acotado entre los valores −1 y +1 (1 − r2) ≥ 0 ⇒ r2

como la varianza s2 y han de ser positivas, podemos deducir que el coeficiente
≤ 1 ⇒ −1 ≤ r ≤ 1.
Además, a partir de la relaciones (17.15) y (17.16), junto con la definición
(17.14) del coeficiente de correlación, puede observarse que dicho
coeficiente de correlación, los coeficientes de regresión y la covarianza
r ≥ 0 ⇐⇒ byx ≥ 0 ⇐⇒ bxy ≥ 0 ⇐⇒ Cov ≥ 0.

han de tener el mismo signo
Es decir, cuando el coeficiente de correlación sea positivo, la pendiente de la

recta será positiva (al igual que la varianza) y tendremos una correlación
directa o positiva.
Asimismo, cuando r sea negativo, nos indicaría que la correlación es inversa o
negativa. Respecto a los valores concretos del coeficiente de correlación
podemos establecer los siguientes casos:
claro que se cumple r = 0 ⇒ Cov = 0 ; byx = bxy =0 ; s2 r $ s2 y. Es

1. r = 0. En este caso, por las relaciones vistas en el apartado anterior, es
decir, en este caso, al ser la covarianza nula no existiría correlación.

Además las pendientes de la rectas de regresión de y sobre x y de x
sobre y serían nulas, es decir sus orientaciones serán horizontal y vertical
respectivamente. Por otra parte, al ser la varianza residual
aproximadamente igual a la varianza de y, la dispersión de la variable y
no se verá reducida al ajustar la recta de regresión.
2. . r = 1. Es claro que en este caso se cumple que la varianza residual es
nula (s2 r = 0), por lo que no habrá dispersión de los puntos respecto a
la recta y todos se situaran sobre ella. En este caso tendremos una
dependencia funcional entre ambas variables y una correlación positiva,
o directa, perfecta. Además las dos rectas de regresión (de y sobre x y
de x sobre y) coincidirían.
3. . r = −1. Al igual que en el caso anterior todos los puntos se situarían
sobre la recta y la correlación será negativa, o inversa, perfecta.
4. . 0 <r< 1. En este caso, la correlación será positiva pero no perfecta.
Evidentemente la correlación (y la covarianza) será mejor cuanto más se
acerque r a 1.
5. . −1 <r< 0. De la misma manera tendremos una correlación negativa
tanto mejor cuanto más próximo esté r a −1.
Para examinar más profundamente el significado del coeficiente de correlación,
despejemos éste de la relación (17.19) r
donde se han aplicado las definiciones de varianza de y varianza residual

(17.17). Además se puede desarrollar el término del denominador como
1.2.3. Concepto de variabilidad
Anteriormente hemos analizado las nociones de variabilidad (estadística) y
dispersión semánticamente y su desarrollo histórico a través de la teoría de
errores; en esta sección vamos a analizar estos conceptos con más
profundidad. En un primer lugar dimos como definición de variabilidad de Hald
“la diferencia entre el valor observado y el verdadero valor del fenómeno en
cuestión” (Hald, 1998, p. 33). Sin embargo, podemos obtener una revisión más
profunda en el artículo de Wild y Pfannkuch, (1999), que nos dan tres
características fundamentales de la variabilidad: 14
•Omnipresencia: la variabilidad está presente en todos los actos de la vida
cotidiana, es decir, no existen dos medidas iguales de un evento ni dos
productos iguales obtenidos de un procedimiento mecánico, además de
endémica del sistema la dispersión puede ser inducida en la recogida de datos
a través de la medida, de la muestra o accidentalmente, como se muestra en
la figura 1.
•Tiene consecuencias prácticas: a causa de la dispersión es difícil establecer

modelos predictivos, para ello tenemos que crear modelos estadísticos
basados en el principio de erradicar el “ruido” creado por la dispersión.
•La estadística nos da una forma de entender la dispersión. Y a continuación
define los tres tipos de respuesta que podemos dar a la dispersión:
1. Ignorarla: efectivamente, podemos hacer como que la variabilidad no
existe. Esto se puede hacer en ciertos ámbitos, por ejemplo, en las tallas de
ropa o en las de zapatos, existe una cierta variabilidad, pero la ignoramos.
2. Permitirla: si la consideramos y permitimos en nuestro sistema nos da la
posibilidad de anticipar el diseño de nuestros sistemas, productos, etc., …
para que se vean lo menos afectados posibles por ella.
3. Cambiar el patrón (controlarla): se pueden buscar relaciones entre variables
de manera que controlemos la variabilidad, si esto no es posible podemos
estimar el grado de variabilidad y trabajar con ello.
Como hemos indicado antes, una de las características de la variabilidad es que
la Estadística nos da una forma de entenderla, esto es, de modelarla. Una de
las grandes habilidades humanas es encontrar patrones, de hecho, descifrar
patrones es lo que nos lleva a modelar la variabilidad. El principal problema que
nos presenta esto es que podemos ver patrones donde no los hay, por ello hay
que apoyarse en la Estadística para modelizar atendiendo a tres cuestiones: en
primer lugar, que el modelo nos proporciona 15
un marco en el que el problema tiene sentido, en segundo lugar, construir un
modelo adecuado a nuestro problema y por último comprender como se
comporta el azar.
Para resumir, debemos tener en cuenta que la variabilidad es una realidad
observable, que algunas veces puede ser explicada y para otras no tenemos el
conocimiento suficiente aún. La variabilidad que no puede ser explicada viene
de la variabilidad aleatoria ya que no podemos modelizarla, teniendo en cuenta
que llamamos aleatoriedad a una construcción humana que no podemos
“patronizar” (Wild y Pfannkuch, 1999).
1.2.4. Dispersión y medidas de dispersión
La idea de dispersión suele quedar implícita en los textos y se utiliza sobre
todo para analizar la variabilidad de un conjunto de datos o de una distribución
de probabilidad respecto a un valor central. Es decir, el grado en que una
variable se extiende alrededor del centro o promedio de la distribución.
Después de haber definido la dispersión, lo adecuado es estudiar cómo la
cuantificamos, para ello utilizamos las medidas de dispersión, que podemos
definir de la siguiente manera.
Una medida de dispersión permite describir un conjunto de datos
concerniente a una variable particular, dando una indicación de la
variabilidad de los valores dentro de la colección de datos. La medida de
la dispersión completa la descripción dada por una medida de tendencia
central de una distribución (Dodge, 2008, p.341).
Así pues, una medida de dispersión no sólo cuantifica la variabilidad de un
conjunto de datos o de una distribución, sino que también es necesaria para
completar la descripción de éstos. Por tanto, diferentes medidas de dispersión
la cuantificarán de manera distinta y completarán la descripción o el resumen
de un conjunto de datos de forma complementaria. De la misma manera que
diferentes medidas de centro (como la media, la mediana o la moda) nos dan
informaciones complementarias. Las principales medidas de dispersión se
muestran en la tabla 1.
Como hemos dicho, cada una de ellas aporta una información diferente e
interesa para según que colección de datos, lo que hace más complicada la
comprensión del fenómeno de la dispersión.
16
Tabla 1. Resumen de las medidas de dispersión, su significado y expresión
Medida de Significado Expresión
dispersión
Rango Amplitud en la que varían los datos R = Max - Min
Cuartil El cuartil k-ésimo será el valor de
la variable que deja menores o
iguales
que él kN/4 valores de la variable.
Rango Diferencia entre el tercer y el RI = Q3 – Q1
primer
intercuartílico
cuartil
Coeficiente de Relación entre el tamaño de la
media y
variación
la variabilidad de la variable
Varianza La varianza mide la dispersión de
los
valores en torno a la media
Desviación típica La varianza engloba el uso de las
unidades cuadradas, por tanto, no
queda expresada en la misma
unidad que la media, por ello
podemos utilizar
su raíz
Desviación Es la media de los valores
absoluta
absolutos de la dispersión con
respecto a la
media
1.5 Cálculo de los coeficientes de correlación y de determinación

Determinar el coeficiente de correlación .
Convertimos la tabla de doble entrada en tabla simple.
xi yi fi x i · fi x i ² fi y i · fi y i² · fi x i · y i · fi = ∑X/N
0 1 2 0 0 2 2 0
0 2 1 0 0 2 4 0
0 3 2 0 0 6 18 0
2 1 1 2 4 1 1 2 y = ∑Y/ N
2 2 4 8 16 8 16 16
2 3 5 10 20 15 45 30
4 1 3 12 48 3 3 12
4 2 2 8 32 4 8 16
20 40 120 41 97 76
Coeficiente de correlación lineal

El coeficiente de correlación lineal es el cociente entre la covarianza y el
producto de las desviaciones típicas de ambas variables.
El coeficiente de correlación lineal se expresa mediante la letra r.
Propiedades
1. El coeficiente de correlación no varía al hacerlo la escala de medición.
Es decir, si expresamos la altura en metros o en centímetros el coeficiente de
correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el de la
covarianza. Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es
inversa. Si la covarianza es nula, no existe
correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre −1 y
1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la
correlación es fuerte e inversa, y será tanto más fuerte cuanto más se
aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la
correlación es fuerte y directa, y será tanto más fuerte cuanto más se
aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación
es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o
decreciente. Entre ambas variables hay dependencia funcional.
Ejemplos
Las notas de 12 alumnos de una clase en Matemáticas y Física son las
siguientes:
Matemática 2 3 4 4 5 6 6 7 7 8 10 10
s
Física 1 3 2 4 4 4 6 4 6 7 9 10
Hallar el coeficiente de correlación de la distribución e interpretarlo.

xi yi xi ·yi xi ² yi²
2 1 2 4 1 1º Hallamos las medias aritméticas.
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16 2º Calculamos la covarianza.
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36 3º Calculamos las desviaciones típicas
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
.4º Aplicamos la fórmula del coeficiente de correlación lineal.
Al ser el coeficiente de correlación positivo, la correlación es directa.

Como coeficiente de correlación está muy próximo a 1 la correlación es muy
fuerte._ Calculo en análisis de datos de Excel REGRESION
Resumen
Estadísticas de la regresión
Coeficiente de correlación 0.9355071
múltiple 4
Coeficiente de 0.8751736
determinación R^2 1
R^2 ajustado 0.8626909
7
Error típico 0.9993053
1
Observaciones 12
0.93550714 ≈ 0.94
Calculo en análisis de datos de Excel coeficiente de correlacion
xi yi
xi 1
yi 0.93550714 1
Observaciones 12
0.93550714 ≈ 0.94
1.6 Análisis residual.
¿QUÉ SON LOS RESIDUOS?
Los residuos (o errores) son la diferencia entre los valores observados y los
valores que predice el modelo:
Residuos = Valores observados – Valores que predice el modelo
e=y–ŷ
Por ejemplo, para el modelo de regresión lineal simple (i.e. una variable
explicativa o predictor, de la forma y(x)=ax+b) tenemos el siguiente gráfico:
<https://www.maximaformacion.es/wp-content/uploads/2018/08/blog-regresion-
2.jpg» alt=»» />
En adelante seguiremos trabajando con el modelo de regresión lineal que si
recuerdas asume tres cuestiones importantes: que la relación es de tipo lineal,
que los residuos siguen una distribución normal y que la varianza de dichos
residuos es constante.
¿QUÉ SON LOS GRÁFICOS DE RESIDUOS?
Como mencioné en el post anterior (aquí) debes evaluar mediante gráficos los
supuestos del modelo y si el ajuste es adecuado.
Cuando trabajas con un modelo de regresión lineal simple (i.e. una única
variable explicativa) solo necesitas un gráfico de dispersión con las variables
originales.
Sin embargo, cuando quieres ajustar un modelo de regresión múltiple
(i.e. múltiples variables explicativas) es más sencillo que evalúes el ajuste
del modelo mediante los gráficos de residuos.
GRÁFICOS DE RESIDUOS PARA ENTENDER Y MEJORAR TU REGRESIÓN
Dos son los gráficos diagnósticos principales que se suelen realizar con los
residuos del modelo:
el gráfico de los residuales en función de los valores ajustados por el modelo
(Residuals vs. Fitted) y
el gráfico cuantil-cuantil (Normal Q-Q) permite comparar la distribución de los
residuos con la distribución normal teórica.
TODO LO QUE NECESITAS SABER
SOBRE LA INTERPRETACIÓN DE LOS RESIDUOS
Residuos vs. Valores predichos por el modelo
Este tipo de gráficos te permite evaluar 3 cuestiones principalmente:
Si has utilizado el tipo de relación adecuada (e.g. si el modelo debería ser no
lineal en lugar de lineal). Si el tipo de modelo que utilizaste no es el adecuado
encontrarás sesgos – bias– o tendencias en los residuos.
Si la varianza es constante o por el contrario tienes problemas de dispersión
irregular. Uno de los supuestos del modelo de regresión lineal es que la varianza
de los residuos es constante, es decir, que los residuos se distribuyen al azar
alrededor del valor cero.
Si existen datos extremos (outliers) que puedan perturbar e invalidar tu modelo.
Este tipo de datos se aparta del comportamiento del resto de residuos, tendrán
un valor muy distinto al cero.
¿Quieres conocer los patrones que puedes encontrar en este gráfico?
a continuación los principales patrones y su interpretación, luego te enseñaré
cómo solucionar cada tipo de problema.
Patrón Interpretación
Dispersión irregular o en Varianza no constante, (i.e.
forma de embudo o abanico heterocedasticidad)
Curvilíneo Falta incluir algún termino de mayor orden
(e.g. cuadrático cubico)
Aumento o disminución de Outliers
puntos
Predominio de residuos Outliers
positivos o negativos
Un punto lejos del cero Outliers
Un punto muy lejos de la Punto influyente
dirección de los demas
Tendencias. Cuando los residuos se separan del cero de manera sistemática

(no aleatoria), tanto si aumentan como si disminuyen para valores de
predicciones mayores, el patrón nos sugiere que la función de regresión no es
lineal. A este patrón se le suele llamar tendencia, sesgo o «bias» en inglés.
Dispersión irregular. Si observas un patrón de dispersión no aleatorio de los
residuos, la variabilidad de los residuos es mayor para ciertos valores
predichos por el modelo, esto indica que no se cumple el supuesto de
varianza constante en los errores del modelo.
Puedes observar alguno de los siguientes casos:
Un patrón de «abanico». Es decir, los residuos son cercanos a 0 para valores de
x pequeños y están más extendidos para valores de x grandes.
Un patrón de «canalización». Es decir, los residuos se separan para valores de
x pequeños pero se cercan a 0 para valores de x grandes.
Un patrón más complejo.
Datos extremos (Outliers). Ocurre cuando uno o más residuos se apartan del
patrón aleatorio del resto. Incluso, podemos observar que si eliminamos el/los
outlier el patrón de los residuos cambia.
Ejemplos de patrones:
Imparcial y Sesgada y Sesgada y

homoscedastica homoscedastica homoscedastica
Imparcial y Sesgada y Sesgada y

heterocedastica heterocedastica heterocedastica
Un modelo válido implica encontrar un patrón de residuos al azar, es decir,

que no haya sesgos en los residuos (tendencias) ni una dispersión (varianza)
no constante ni valores que desvíen el comportamiento observado (outliers);
esto ocurre solamente en la figura
«a».
Las figuras «b» y «c» tienen problemas de tendencia, lo cual podría indicar que la
relación entre las variables estudiadas no es la indicada o que existe correlación
en los residuales (e.g. si se trata de una serie temporal).
Las figuras «d», «e» y «f» tienen problemas de dispersión irregular. En todos los
casos la varianza de los residuos aumenta con los valores ajustados, esto indica
que la variabilidad de los errores aumenta al aumentar su media.
Entonces, ¿cómo puedes mejorar el modelo?
Si encuentras problemas de tendencia podrías necesitar términos de mayor orden
(cuadrática o cúbica) o nuevas variables explicativas, o incluir términos de
interacción entre las variables explicativas. Agrega los términos y reajusta el
modelo.
Si encuentras problemas de dispersión irregular utiliza pruebas de igualdad de
varianza (complementarias a los análisis gráficos), considera utilizar
transformaciones de las variables o modelar la heterogeneidad encontrada con
modelos generalizados (GLM) o modelos mixtos (MM).
Si encuentras posibles valores extremos (outliers) o puntos de influencia verifica
que no sean errores de medición y considera realizar análisis robustos.
Gráfico Q-Q Normal
El modelo de regresión lineal también supone que los residuos siguen una
distribución normal.
Recuerda que el gráfico cuantil-cuantil (Normal Q-Q) te permite comparar la
distribución de los residuos con la distribución normal teórica.
Por lo tanto, si los residuos tienen una distribución normal deberías observar
que siguen aproximadamente la línea recta diagonal en el gráfico Q-Q
normal, en caso contrario los residuos se van a apartar de la diagonal.
Patrón Interpretación
No se observa una línea recta Falta de normalidad)
Curvatura en las colas de la Asimetría
distribucion
Un punto alejado de la recta Outliers
Cambio en a pendiente Una variable sin idetificar.
Ejemplos de patrones:
Normal Inclinado a la izquierda Inclinado a la derecha
Colas gruesas colas delgadas
Si los residuos presentan una distribución normal debes obtener un gráfico

similar al «a».
Sin embargo, curvas de tipo «s» indican colas largas en la distribución de los
residuales (como en el ejemplo «d»),
Una forma de «s» invertida indica colas cortas (como en el caso «e»), líneas
hacia arriba o abajo indican asimetrías (mira los casos «b» o «c»), y
Si tienes puntos que se apartan de la línea es un indicio de que tienes datos
extremos (outliers).
Entonces, ¿cómo puedes mejorar el modelo?
Investiga con otros gráficos si la falta de normalidad se puede deber a algo
más, realiza pruebas estadísticas de normalidad, realiza transformaciones de
las variables involucradas, o utiliza modelos más complejos que consideren la
falta de normalidad (GLM).
Y si aún tenemos algunos problemas con los residuos, ¿cómo seguir?
Tú decides. Si luego de seguir todas las recomendaciones que te he mencionado
sigues detectando problemas (menores) en los patrones de los residuos, debes
decidir qué tan preciso necesitas que sea tu modelo. Ya lo dijo G. Box, todos los
modelos son erróneos, y yo te recuerdo que generalmente un modelo decente
es mejor que ningún modelo.
Análisis de Residuales
Un residual es la diferencia entre el valor observado y el valor estimado por la
línea de regresión , El residual puede ser considerado como el error aleatorio
observado. También se acostumbra usar el Residual estandarizado, el cual se
obtiene al dividir el residual entre la desviación estándar del residual, y el
Residual estudentizado "deleted", que es similar al anterior pero eliminando de
los cálculos la observación cuyo residual se desea hallar.
En un analisis de residuales se puede detectar:
•Si efectivamente la relación entre las variables X e Y es lineal.
•Si hay normalidad de los errores.
•Si hay valores anormales en la distribución de errores.
•Si hay varianza constante (propiedad de Homocedasticidad) y
•Si hay independencia de los
errores. Análisis de Residuales
Plot de Normalidad: Permite cotejar normalidad. Si los puntos están bien cerca
de una línea recta se concluye, que hay normalidad.
Histograma de Residuales: También permite cotejar normalidad. Cuando el
histograma es simétrico, con un único pico en el centro, se concluye que hay
normalidad.
Plot de Residuales versus los valores predichos (FITS): Se usa para detectar si
hay datos anormales, cuando hay datos que caen bastantes alejados, tanto en
el sentido vertical como horizontal. También permite detectar si la varianza de
los errores es constante con respecto a la variable de respuesta.
Plot de Residuales versus el índice de la observación: Es más específico para
detectar que observación es un dato anormal. Si se usan residuales
estandarizados, entonces un dato con residual más allá de 2 ó -2 es
considerado un "outlier" en el sentido vertical
. Plot de Residuales versus la variable predictora: Es usado para detectar datos
anormales así como si la varianza de los errores es constante con respecto a la
variable predictora.
Gráficas
x y xy x2
43.2 40.6 1753.92 1866.24
39.7 37.5 1488.75 1576.09
39.5 34.7 1370.65 1560.25
39.3 33.9 1332.27 1544.49
34.2 33.4 1142.28 1169.64
26.1 25.1 655.11 681.21
25.4 23 584.2 645.16
26.6 22 585.2 707.56
26.8 21.6 578.88 718.24
23.8 19.2 456.96 566.44
22 19.2 422.4 484
15.5 13.1 203.05 240.25
10.9 10.7 116.63 118.81
373 334 10690.3 11878.38
Los puntos del plot de
normalidad no caen cerca
de una línea recta y en el
extremo superior se
detecta un “outlier”.
Similarmente, el
histograma no es
simétrico con un pico
central y también muestra
un “outlier” en el extremo
superior. En conclusión, no
hay normalidad de los
errores. El plot de
residuales versus el índice
de la observación muestra
que la observación 14 es
un "outlier", pues el
residual estandarizado cae
más allá de dos. El plot de
los residuales versus los
valores predichos muestra
que la varianza de los
errores no es constante
con respecto a la variable
de respuesta, pues tiende
ha aumentar cuando el
valor de la variable de
respuesta aumenta.
Cómo encontrar desviaciones residuales en Excel
Por C. Taylor
Stockbyte/Stockbyte/Getty Images
Las desviaciones residuales ofrecen una medida de variabilidad de datos en las líneas de
regresión. Estas líneas de regresión ilustran una relación predecible entre dos variables,
por lo que saber la variabilidad de los datos implica tener un cierto nivel de confianza
respecto de las predicciones de la línea de regresión. Por ejemplo, una desviación residual
de 20 significa que la información se acercó mucho a la línea de regresión, por lo que esta
ofrece predicciones confiables. Una desviación de 2000 significa que los datos estaban
mezclados, por lo que las predicciones de esa línea de regresión son dudosas. Calcular la
desviación residual a mano es tedioso, pero si creas una hoja de cálculo con
el Microsoft Excel, será mucho más sencillo.
Paso 1 Abre el Microsoft Excel.

Paso 2 Ingresa la primera serie de datos en la columna A y los demás datos
relacionados con estos en la B. Los estadísticos suelen utilizar la "X" para
representar el primer valor y la "Y" para el segundo, por lo que adoptaremos
esa convención a los fines de este artículo.
Paso 3 Ingresa las etiquetas "Significa (X)", "St Dev [desviación estándar] (X)",
"Significa (Y)", "St Dev [desviación estándar] (Y)", "Covarianza", "b", "a",
"Fórmula lineal" y "Desviación residual" en las celdas E1 a E9.
Paso 4 Ingresa "=AVERAGE(A:A)" sin las comillas en la celda F1 y
"=AVERAGE(B:B)" en la F3. De esta manera, calculas el promedio de cada
columna.
Paso 5 Ingresa "=STDEV.S(A:A)" en la celda F2 y "=STDEV.S(B:B)" en la F4. De
esta manera, calculas la desviación estándar de cada columna.
Paso 6 Ingresa "=COVARIANCE.S(A:A,B:B)" en la celda F5. De esta manera,
calculas la covarianza entre ambas columnas.
Paso 7 Ingresa "=F5/F2^2" en la celda F6. Las líneas de regresión utilizan la
ecuación "Y=bX+a". Esta fórmula calcula el valor de "b" en esa ecuación.
Paso 8 Ingresa "=F3-F6*F1" en la celda F7 para calcular el valor "a" de la
ecuación de la línea de regresión.
Paso 9 Ingresa la siguiente fórmula en la celda F9: =CONCATENATE("Y =
",ROUND(F6,2),"X",IF(SIGN(F7)=1," + "," - "),ABS(ROUND(F7,2))) Esto no se
utiliza para
el cálculo, pero muestra la fórmula específica para la línea de regresión de tus
datos, para la cual la desviación residual muestra variabilidad de datos.
Paso 10v Ingresa la fórmula "=$F$6*A1+$F$7" en la celda C1 y cópiala hacia
abajo de la columna C, hasta el último valor. De esta manera, calculas la
predicción del valor de "Y" por cada "X" dentro de la línea de regresión. Para
poder copiar estas fórmulas de manera sencilla, haz clic en la celda C1 para
seleccionarla. Haz clic y arrastra la esquina inferior derecha de la celda hacia
abajo. Cuando sueltes el mouse, las fórmulas se copiarán de forma automática.
Paso 11 Ingresa la fórmula "=B1-C1" en la celda D1 y cópiala hacia abajo en la
columna D hasta el último valor. De esta manera, calculas la diferencia entre
los valores esperados y reales de "Y", que se utiliza para el cálculo de la
desviación residual.
Paso 12 Ingresa "=SUMSQ(D:D)/(COUNT(D:D)-2)" en la celda F9 para calcular la
desviación residual.
https://es.slideshare.net/williamleon20/anlisis-de-regresin-lineal
Tabla resumen de las sumas de cuadrados utilizadas en el analisis de reresion lineal simple
1 11 0.5 4.84 1.056 0.2304 0.7271 0.0640 0.0516

2 14 1.1 0.64 0.096 0.0144 1.0718 0.0084 0.0008
3 12 0.9 1.44 0.096 0.0064 0.8420 0.0190 0.0034
4 9 0.6 17.64 1.596 0.1444 0.4973 0.2330 0.0105
5 13 1.2 0.04 -0.044 0.0484 0.9569 0.0005 0.0591
6 13 0.9 0.04 0.016 0.0064 0.9569 0.0005 0.0032
7 15 1.5 3.24 0.936 0.2704 1.1867 0.0427 0.0982
8 17 1.3 14.44 1.216 0.1024 1.4165 0.1905 0.0136
9 15 1.1 3.24 0.216 0.0144 1.1867 0.0427 0.0075
10 13 0.7 0.04 0.056 0.0784 0.9569 0.0005 0.0660
132 9.8 45.6 5.24 0.9160 9.7988 0.6020 0.3139
13.2 0.98 SCT SCR SCE
Syy Sxy Syy
Ejemplo 1
Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la
hipertensión arterial, comparándola con la de una dieta sin sal. Para ello se
seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos.
Al primero de ellos no se le suministra ningún tratamiento, al segundo una
dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el
fármaco a una dosis determinada y al quinto el mismo fármaco a otra dosis.
Las presiones arteriales sistólicas de los 25 sujetos al finalizar los tratamientos
son:
Grupo
1 2 3 4 5
180 172 163 158 147
173 158 170 146 152
175 167 158 160 143
182 160 162 171 155
181 175 170 155 160
La tabla de anova es:
Fuente de variación GL SS MS F
Tratamiento 4 2010,64 502,66 11,24
Error 20 894,4 44,72
Total 24 2905,04
Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hipótesis nula y

concluimos que los resultados de los tratamientos son diferentes.
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear
un archivo con 2 variables: Trata (con un código distinto para cada grupo, p.e.
de 1 a 5) y Presion con la presión arterial de cada individuo al acabar el estudio.
Para calcular
el Anova desplegamos los menús que se ven en la
gráfica: Análisis de varianza de un factor
RESUMEN
Grupos Cuenta Suma Promedio Varianza
1 5 891 178.2 15.7
2 5 832 166.4 54.3
3 5 823 164.6 27.8
4 5 790 158 81.5
5 5 757 151.4 44.3
ANÁLISIS DE VARIANZA
Origen de Suma de Grados de Promedio F Probabilid Valor
las cuadrados libertad de los ad crítico
variacione cuadrados para F
s
Entre 2010.64 4 502.66 11.2401 6.06E- 2.86608
grupo 6 05 1
s
Dentro 894.4 20 44.72
de los
grupos
Total 2905.04 24
1.7 Inferencias acerca de la pendiente.

1.2.2 Interpretación de los coeficientes de regresión estimados
La pendiente β indica el cambio promedio en la variable de respuesta cuando la
variable predictora aumenta en una unidad adicional.
El intercepto α indica el valor promedio de la variable de respuesta cuando la
variable predictora vale 0. Sin embargo carece de interpretación práctica si es
irrazonable considerar que el rango de valores de x incluye a cero.
Propiedades de los estimadores mínimos cuadráticos de regresión
a) es un estimador insegado de β. Es decir, E( )= β
b) es un estimador insegado de α. Es decir, E( )= α
c) La varianza de es σ2/Sxx y la α es
6. INTERPRETACIÓN
 La ecuación de regresión estimada es:
Coeficiente de correlación: R= 0.9379

Coeficiente de determinación: R²=0.8796
El valor de b = 0.8676 indica el incremento del peso en kilogramos, en
promedio, por cada centímetro de aumento en la estatura de los hombres
adultos.
El valor de a, no tiene interpretación práctica en el ejemplo, se interpretaría
como el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0.
Utilizando la ecuación de regresión para estimar o predecir valores de la variable
Y: Para una talla de 180 se obtiene un peso de 80.7 kg.
¿Cuánto se espera que pese (en promedio) una persona que mide 1.60 m?
Sustituyendo el valor de interés en la ecuación:
Se obtiene:
El modelo de regresión lineal

La estructura del modelo de regresión lineal es la siguiente:
Y = β0 + β1X + ε
En esta expresión estamos admitiendo que todos los factores o causas que
influyen en la variable respuesta Y pueden dividirse en dos grupos: el primero
contiene a una variable explicativa X y el segundo incluye un conjunto amplio de
factores no controlados que englobaremos bajo el nombre de perturbación o
error aleatorio, ε, que provoca que la dependencia entre las variables
dependiente e iii independiente no sea perfecta, sino que esté sujeta a
incertidumbre. Por ejemplo, en el consumo de gasolina de un vehículo (Y )
influyen la velocidad (X) y una serie de factores como el efecto conductor, el tipo
de carretera, las condiciones ambientales, etc, que quedarían englobados en el
error.
Lo que en primer lugar sería deseable en un modelo de regresión es que estos
errores aleatorios sean en media cero para cualquier valor x de X, es decir,
E[ε/X = x] = E[ε]=0, y por lo tanto:
E[Y /X = x] = β0 + β1x + E[ε/X = x] = β0 +
β1x En dicha expresión se observa que:
•La media de Y, para un valor fijo x, varía linealmente con x.
•Para un valor x se predice un valor en Y dado por ˆ y = E[Y /X = x] = β0 +
β1x, por lo que el modelo de predicción puede expresarse también como ˆ Y =
β0 + β1X.
•El parámetro β0 es la ordenada al origen del modelo (punto de corte con el
eje Y) y β1 la pendiente, que puede interpretarse como el incremento de la
variable dependiente por cada incremento en una unidad de la variable
independiente. Estos parámetros son desconocidos y habrá que estimarlos de
cara a realizar predicciones.
Además de la hípotesis establecida sobre los errores de que en media han de ser
cero, se establecen las siguientes hipótesis:
ii) La varianza de ε es constante para cualquier valor de x, es decir,
V ar(ε/X = x) = σ2
iii)La distribución de ε es normal, de media 0 y desviación σ.
iv)Los errores asociados a los valores de Y son independientes unos de otros.
En consecuencia, la distribución de Y para x fijo es normal, con varianza
constante σ2, y media que varía linealmente con x, dada por β0 + β1x. Además
los valores de Y son independientes entre sí.
1.8Aplicaciones
EJERCICIO 1
X1 Y1 X : HORAS DE ESTUDIO
4 8
5 7 Y:CALFICACION
2 4
OBTENID
1. Obtenga la ecuación de regresión de Y sobre X (en directas, diferenciales y

típicas)
2. ¿Le merece confianza el modelo? (represente gráficamente el ajuste de los
puntos a la recta)
3. Descomponga la varianza del criterio
4. Si un sujeto estudia 3 horas, ¿Qué calificación le pronosticaríamos según el
modelo?
5. Si un sujeto estudia 2 horas, ¿En cuánto nos equivocaríamos al predecir su
calificación con la ecuación del modelo?
EJERCICIO 2
Tras medir en una muestra las
variables X: Extroversión
Y:
Impulsividad
V: Control
Se obtuvieron los estadísticos:
X Y V X 0,85 0,62 R = Y -0,93 V Medias: 15 21 12 Varianzas: 9 14 4

Se desea predecir la impulsividad (Y) a partir de alguna de las restantes
variables
1. Obtenga la ecuación de regresión
2. Descomponga la varianza del criterio y valore el modelo anterior
3. Si un sujeto obtuviera una diferencial de 3 en la predictora, ¿Qué
puntuación directa le pronosticaría en impulsividad?
4. ¿Qué valor tiene en la predictora un sujeto al que le pronosticamos 18
puntos con el modelo?
EJERCICIO 3
Se ha trazado la siguiente recta de regresión de Y sobre X en una muestra de
varones (representados por el signo •) y mujeres (representadas por el signo
+):
Según esta gráfica responda a lo siguiente:

1. ¿De cuántos varones se compone la muestra? ¿y mujeres?
2. ¿Qué grupo es más homogéneo: varones o mujeres?
3. ¿Cuántos varones reciben en este modelo pronósticos inferiores a sus
puntuaciones empíricas en Y?
4. ¿Cuántas mujeres reciben pronósticos superiores a sus puntaciones empíricas?
5. ¿Qué pronóstico en Y tendría un sujeto con X = 0?

Material de

Cargado por

Copyright:

Formatos disponibles

Material de

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material de

Cargado por

Copyright:

Formatos disponibles

INSTITUTO TECNOLÓGICO DE MÉRIDA

Profr. Raúl Alvar Rodríguez Sánchez.

Reproduce los ejercicios y/o ejemplos, incluidos en el material de apoyo

cov (x, y) = Xn i=1 (xi − x¯) (yi − y¯) n − 1 I

-1≤ cor (x, y) ≤ 1

1.3 Determinación de la ecuación de regresión.

 Para calcular el valor de a (ordenada al origen), que representa el

.4º Aplicamos la fórmula del coeficiente de correlación lineal.

Al ser el coeficiente de correlación positivo, la correlación es directa.

Cuanto mayor sea el error estándar de la estimación, más grande será la

El error estándar de estimación tiene la misma aplicación que de la

3. La información se gráfica en un diagrama de

4.- Se calcula la pendiente

5. Se calcula la ordenada al origen. a = y + bx

2. Graficar los datos enundiagrama de dispersión ydeterminar la posible

1. Realizar los cálculos correspondientes

184393  60 1300 5  21040

Tiene un error de estimación de 12,210 pesos.

Mientras que el análisis de regresión simple establece una

Dependiendo del tamaño de esta medida cuantitativa se puede

Una técnica estadística que establece un índice que proporciona,

El análisis de correlación es la herramienta estadística de que nos valemos

A menudo el análisis de correlación simple se utiliza junto con el

Diagramas de dispersión con correlación débil y fuerte.

COEFICIENTE MUESTRAL DE DETERMINACIÓN

La medida más importante de que también ajusta la línea de

El coeficiente de determinación es la manera primaria de medir

El coeficiente de determinación muestral se representa como r2,

 El Calculo del coeficiente dedeterminación se lleva acabo con la

COEFICIENTE MUESTRAL DE CORRELACIÓN

La raíz cuadrada del coeficiente de determinación muestral,

El coeficiente de correlación muestral es la segunda medida con

Debido a que la recta estimada de regresión, no es del todo

Como se ha visto, cuando se utilice el método de mínimos

 Los intervalos de confianza se calculan con la siguiente fórmula:

El intervalo de predicción, como su nombre lo indica, se utiliza

 El intervalo de predicción se calcula con la siguiente fórmula:

PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DECORRELACIÓN LINEAL

1. Obtención y tabulación de los datos muestrales.

2. La información se gráfica en un diagrama de dispersión.

3. Calcular la pendiente y ordenada al origen.

4. Se obtiene la ecuación que mejor se ajusta a la información obtenida.

5. Se traza la línea estimada en el diagrama de dispersión.

6. Calcular el error estándar de estimación.

7. Calcular el coeficiente de determinación.

8. Determinar el coeficiente de correlación.

9. Determinar el intervalo de confianza.

10. Determinar el intervalo de predicción.

Un gerente de ventas reunió los datos siguientes relacionados

1. Obtención y tabulación de los datos muestrales.

4. Ecuación que mejor se ajusta.

 Para un vendedor con 7 años de experiencia, sus ventas estimadas

yˆ 80  47 108 ventas anuales

6. Calcular el error estándar de estimación.

7.Calcular el Coeficiente de Determinación.

8. Calcular el Coeficiente de Correlación

Este número nos indica que las variables X Y tienen una

108 3.3617 yc 108 3.3617

Determinar elintervalo depredicción para unvendedorcon 9 añosde experiencia