Proyecto Integrador2 Analisis de Datos PDF

Nombre: JOVANI ORTEGA SORIANO.
Ing. Industrial.
Facilitador: JOSE MARTIN LEON
Materia: ANÁLISIS DE DATOS.
Actividad 4. Proyecto Integrador Etapa 2.

ETAPA 1.
REGRESIÓN SIMPLE
1.-Teoría
DIAGRAMA DE DISPERSIÓN
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de diagrama

matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para
un conjunto de datos.
Se emplea cuando una variable está bajo el control del experimentador. Si existe un parámetro que
se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro
de control o variable independiente y habitualmente se representa a lo largo del eje horizontal (eje
de las abscisas). La variable medida o dependiente usualmente se representa a lo largo del eje
vertical (eje de las ordenadas). Si no existe una variable dependiente, cualquier variable se puede
representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no
causalidad) entre las dos variables.
Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un
intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa
(descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste
(llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. Una
ecuación para la correlación entre las variables puede ser determinada por procedimientos de
ajuste. Para una correlación lineal, el procedimiento de ajuste es conocido como regresión lineal y
garantiza una solución correcta en un tiempo finito.
Uno de los aspectos más poderosos de un gráfico de dispersión,
sin embargo, es su capacidad para mostrar las relaciones no lineales entre las variables. Además,
si los datos son representados por un modelo de mezcla de relaciones simples, estas relaciones son
visualmente evidentes como patrones superpuestos.
El diagrama de dispersión es una de las herramientas básicas de control de calidad, que incluyen
además el histograma, el diagrama de Pareto, la hoja de verificación, los gráficos de control, el
diagrama de Ishikawa y el diagrama de flujo.
REGRESIÓN LINEAL
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la
relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un
término aleatorio ε. Permite determinar el grado de dependencia de las series de valores X e Y,
prediciendo el valor y estimado que se obtendría para un valor x que no esté en la distribución.
TIPOS DE MODELOS DE REGRESIÓN LINEAL
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:
Regresión lineal simple
La regresión lineal simple se basa en estudiar los cambios en una variable, no aleatoria, afectan a
una variable aleatoria, en el caso de existir una relación funcional entre ambas variables que puede
ser establecida por una expresión lineal, es decir, su representación gráfica es una línea recta. Es
decir, se está en presencia de una regresión lineal simple cuando una variable independiente ejerce
influencia sobre otra variable dependiente.
Ejemplo: Y = f(x)
REGRESIÓN LINEAL MÚLTIPLE
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón, así también se
puede comprender la relación de dos o más variables y permitirá relacionar mediante ecuaciones,
una variable en relación a otras variables llamándose Regresión múltiple. O sea, la regresión lineal
múltiple es cuando dos o más variables independientes influyen sobre una variable dependiente.
Ejemplo: Y = f(x, w, z).

COEFICIENTE DE DETERMINACIÓN
En estadística, el coeficiente de determinación, denominado R² y pronunciado R cuadrado, es un

estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir
futuros resultados o probar una hipótesis. El coeficiente determina la calidad del modelo para
replicar los resultados, y la
proporción de variación de los resultados que puede explicarse por el modelo.1
Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más comunes
se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado del coeficiente de
correlación de Pearson, lo cual es sólo cierto para la regresión lineal simple. Si existen varios
resultados para una única variable, es decir, para una X existe una Y, Z... el coeficiente de
determinación resulta del cuadrado del coeficiente de determinación múltiple. En ambos casos el
R² adquiere valores entre 0 y 1. Existen casos dentro de la definición computacional de R² donde
este valor puede tomar valores negativos.2
La bondad de la predicción depende de la relación entre las variables. Si dos variables no covarían,
no podremos hacer predicciones válidas, y si la intensidad
de la covariación es moderada, las predicciones no serán demasiado buenas. En consecuencia, hay

que disponer de alguna medida de la capacidad de la ecuación de Regresión para obtener
predicciones buenas (en el sentido de que sean lo menos erróneas posible).
Esta medida es el Coeficiente de Determinación, que es el cuadrado del coeficiente de correlación

de Pearson, y da la proporción de variación de la variable Y que es explicada por la variable X
(variable predictora o explicativa). Si la proporción es igual a 0, significa que la variable predictora
no tiene NULA capacidad predictiva de la variable a predecir (Y). Cuanto mayor sea la proporción,
mejor será la predicción. Si llegara a ser igual a 1 la variable
predictora explicaría TODA la variación de Y, y las predicciones NO tendrían error.
COEFICIENTE DE CORRELACIÓN
En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal entre

dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson
es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice
que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean
cuantitativas.
La correlación, también conocida como coeficiente de correlación lineal (de Pearson), es una
medida de regresión que pretende cuantificar el grado de variación conjunta entre dos variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos variables, es
decir, si se representan en un diagrama de dispersión los valores que toman dos variables, el
coeficiente de correlación lineal señalará lo bien o lo mal que el conjunto de puntos representados
se aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que mide el grado de
intensidad y el sentido de la relación entre dos variables.
Siendo:
Cov (x;y): la covarianza entre el valor “x” e “y”. σ(x): desviación típica de “x”.
σ(y): desviación típica de “y”.

Valores que puede tomar la correlación
ρ = -1 Correlación perfecta negativa
ρ = 0 No existe correlación
ρ = +1 Correlación perfecta positiva
Hablamos de correlación positiva si siempre que el valor “x” sube, el valor “y”
sube, y además con la misma intensidad (+1).
En el caso opuesto, si siempre que el valor “x” sube, y el valor “y” baja, y además con la misma
intensidad, entonces estamos hablando de correlación negativa (-1).
Es importante saber que esto no quiere decir que lo hagan en la misma proporción (salvo que
tengan la misma desviación típica).
ERROR ESTÁNDAR
El error estándar es la desviación estándar de la distribución muestral de un estadístico. El término

se refiere también a una estimación de la desviación estándar, derivada de una muestra particular
usada para computar la estimación.
El “error estándar” se refiere a la desviación estándar de la distribución muestral de un estadístico.

En otras palabras, puede usarse para medir la precisión de la media muestral. Varios usos del error
estándar asumen implícitamente una distribución normal.
2.-Ejemplo
DIAGRAMA DE DISPERSIÓN
A continuación se presenta una tabla en la que la variable X corresponde a la experiencia en

semanas de cada uno de los empleados a los que se aplicó la prueba , y la variable Y al tiempo en
minutos que tarda el empleado en capturar correctamente los datos de un reporte a la computadora.
COEFICIENTE DE CORRELACIÓN
El Coeficiente de Relación Lineal.
S(xx) = ƩXi² – (ƩXi)² / n = 90700 / 22 – (1270)² = 17386.36 S(yy) = ƩYi² – (ƩYi)² / n = 47.77 /
22 – (28.7) ² = 10.32
S(xy) = ƩXiYi – (ƩXi) (ƩYi) / n = 1481 – (1270)(28.7) / 22 = -175.77
El valor del Coeficiente de Correlación es:
r = S (xy) / √(S(xx) S(yy)) = -175.77 / √(17386.36)(10.32)
r = – 0.415 La correlación es negativa.
REGRESIÓN LINEAL
La regresión lineal es utilizada para determinar modelos matemáticos del comportamiento y

relación de dos o varias variables interrelacionadas. El modelo que se busca corresponde
a la
ecuación de la “mejor” línea recta que pasa a través de los
puntos. Tal ecuación, denominada Ecuación de Regresión de Mínimos Cuadrados, es, en términos
de las variables X y Y, la siguiente: Y = a + b X
b = (nƩXiYi – (ƩXi)(ƩYi))/n ƩXi² – (ƩXi)² a = (ƩYi – bƩXi)v/ n
Para el ejemplo anterior:
b = (nƩXiYi – (ƩXi)(ƩYi))/ ƩXi² – (ƩXi)² = ((22)(1481) – (1270)(28.7)) / 90700 –
(1270) ² = 0.0025
a = ƩYi – bƩXi/n = 28.7 – ((0.0025)(1270)) / 22 = 1.15 Y = a + b X Y = 1.15 + 0.0025 X
Ejemplo 2:
La Patelloida Pygmatea es una lapa pegada a las rocas y conchas a lo largo de las costas
protegidas en el área Indo-Pacífica. Se realiza un experimento para estudiar la influencia de la
altura (x) de la Patelloida Pygmatea en su longitud (y ) medidas ambas en milímetros. Se tienen
los siguientes datos:
x y x y x y x y
0.9 3.1 1.9 5.0 2.1 5.6 2.3 5.8
1.5 3.6 1.9 5.3 2.1 5.7 2.3 6.2
1.6 4.3 1.9 5.7 2.1 5.8 2.3 6.3
1.7 4.7 2.0 4.4 2.2 5.2 2.3 6.4
1.7 5.5 2.0 5.2 2.2 5.3 2.4 6.4
1.8 5.7 2.0 5.3 2.2 5.6 2.4 6.3
1.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3
SOLUCIÓN
Figura1: Diagrama de
dispersión que relaciona
la variable longitud (y) con una variable altura (x) de
la concha Patelloida Pygmatea
Recta de regresión estimada
Ῡ = 1.36 + 1.99 x
Coeficiente de correlación lineal r = 0.8636
COEFICIENTE DE DETERMINACIÓN
r2 = R2 = 0.74
El 74 % de la variabilidad de y puede atribuirse a una relación lineal con x Contraste de regresión
H0 : β1 = 0 H1 : β1 6= 0
A un nivel de significación del 5 %,
F exp = 76.42 > Fα,1,n−2 = F0.05;1.26 = 4.23
Nótese además que el valor p<α.
Rechazamos la hipótesis nula de no linealidad del modelo
ERROR ESTÁNDAR
Si una población de datos crudos posee una distribución normal, con una media
=80 y una desviación estándar =8, determine los parámetros de la distribución muestral de la media
para los siguientes tamaños de la muestra: n = 36 y n = 50
Solución:
μ͓=μ=80
a) ϭ͓ = ϭ/√n = 8/√36 = 1.33
b) ϭ͓ = 8/√50 = 1.13
3.-Aplicaciones
El modelo de regresión lineal es aplicado en un gran número de campos, desde el ámbito científico
hasta el ámbito social, pasando por aplicaciones industriales ya que en multitud de situaciones se
encuentran comportamientos lineales. Estos son algunos ejemplos aplicados a diversos campos:
Química
La concentración de un elemento es uno de los parámetros de mayor importancia en los procesos

químicos aplicados en la industria. Esta cuantificación se puede obtener mediante un
espectrofotómetro, dispositivo que requiere se calibrado. Para ello se elabora una recta de
calibración que se obtiene a partir de la correlación entre la absorbancia de un patrón y la
concentración de la sustancia a controlar.3
Mecánica
En esta rama se utiliza la Regresión Lineal entre otros para ajustar la recta de Paris, una ecuación
que sirve para estudiar elementos sometidos a fatiga en función del número de ciclos a los que se
somete un material. La bondad del ajuste se comprueba representando el conjunto de valores
discretos a-Nm obtenidos experimentalmente, frente a la curva correspondiente a la recta de Paris
definida por los valores “C” y “m”.4
Electricidad
En electricidad se puede obtener el valor de una resistencia en un circuito y su error mediante un

ajuste de regresión lineal de pares de datos experimentales de voltaje e intensidad obtenidos
mediante un voltímetro y un amperímetro.5
Sensores
Calibración de un sensor de temperatura (termopar) en función
de la caída de tensión y la temperatura. Se estudia la forma en que varía la temperatura de un
líquido al calentarlo. Se calibra el sensor y simultáneamente se mide la variación de temperaturas
en un líquido para representar los datos obtenidos posteriormente mediante Regresión Lineal.6
Física
Determinación del coeficiente de rozamiento estático de forma experimental a partir de la

medición del ángulo de inclinación de una rampa. Se realiza un montaje ajustando un circuito para
medir el ángulo de inclinación, y se realizan mediciones variando dicho. Mediante la regresión
lineal de los datos obtenidos, se obtiene la ecuación y el índice de correlación a fin de saber el
error.
Fabricación
Dos de los parámetros más importantes de una soldadura es la intensidad aplicada al hilo y la
velocidad de alimentación del mismo. Mediante técnicas de regresión lineal se elaboran las rectas
que relacionan estos parámetros con la separación entre el hilo y la zona a soldar. 8
Diseño de experimentos
Con la metodología 2k es posible mejorar un proceso mediante la realización de experimentos,

determinando qué variables tienen un efecto significativo. A partir de esas variables se obtiene una
recta de regresión que modeliza el efecto. Por ejemplo se podría obtener la relación entre la
temperatura y la presión en un
proceso industrial.9
Construcción
Mediante técnicas de regresión lineal se caracterizarán diversas cualidades del hormigón. A partir
del módulo de elasticidad es posible predecir la resistencia a la compresión de una determinada
composición de un hormigón. También se puede
determinar la succión capilar a partir del volumen absorbido por
una muestra y el tiempo que ha durado la succión.10
4.- Herramientas de apoyo
Regresión Lineal Simple: tutorial en Excel
Datos para ejecutar una regresión lineal simple
Puede descargar una hoja de Excel con los datos y los resultados.
Los datos proceden de Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology,
New York: Academic Press, Inc.. Corresponden a 237 niños detallados por su sexo, su edad en
meses, su estatura en inch (1 inch = 2.54 cm), y su peso en libras (1 libra = 0.45 kg).
Configuración de una regresión lineal simple
Una vez XLSTAT iniciado, elija el comando XLSTAT/Modelación de datos/Regresión.

Una vez el botón presionado, aparece el cuadro de diálogo que
corresponde a la regresión. Puede elegir entonces los datos en la hoja Excel. La "Variable
dependiente" corresponde a la variable explicada, es decir en este caso preciso, el peso. La variable
cuantitativa explicativa es aquí la estatura. Queremos explicar aquí la variabilidad del peso por la
de la estatura. La opción "Etiquetas de las variables" se deja activada ya que la primera línea de
columnas incluye el nombre de las variables.
Una vez que haga clic en el botón OK, los cálculos empiezan y los resultados son visualizados.
Interpretación de los resultados de una regresión lineal simple
El primer cuadro de resultados proporciona los coeficientes de ajuste del modelo. El R’²
(coeficiente de determinación) proporciona una idea del % de variabilidad de la variable a
modelizar, explicado por la variable explicativa. Mientras más cerca está de 1 este coeficiente,
mejor es el modelo.
En nuestro caso, 60% de la variabilidad del peso es explicada por la estatura. El resto de la
variabilidad es debido a efectos (variables explicativas) que no son tenidos en cuenta en este
ejemplo.
El cuadro de análisis de la varianza es un resultado que debe ser atentamente analizado (ver a
continuación). Es en este nivel que comprobamos si podemos considerar que la variable
explicativa seleccionada (la estatura) origina una cantidad de información significativa al modelo
(hipótesis nula H0) o no. En otros términos, es una manera de comprobar si la media de la variable
a modelizar (el peso) bastará con describir los resultados obtenidos o no.
La prueba del F de Fisher es utilizada. Dado que la probabilidad asociada al F, en este caso, es
inferior
de 0.0001, significa que nos arriesgamos de menos del 0.01%
concluyendo que la variable explicativa origina una cantidad de información significativa al
modelo.
El siguiente cuadro proporciona los detalles sobre el modelo y es esencial en cuanto el modelo
debe ser utilizado para realizar previsiones, simulaciones o si debe ser comparado a otros
resultados, por ejemplo los coeficientes que obtendríamos para los varones. Vemos que si el
parámetro de la estatura tiene un intervalo de confianza bastante restringido, el de la constante del
modelo es bastante importante. La ecuación del modelo es proporcionada abajo del cuadro.
El modelo enseña que en los límites proporcionados por las observaciones del intervalo de la
variable tamaño, cada vez que la estatura aumenta de un inch, el peso aumenta de 3.8 libras.
El cuadro siguiente expone el análisis de los residuos. Los residuos centrados reducidos deben
tener una atención particular, dado que las hipótesis vinculadas a la regresión lineal, deben ser
distribuidas según una ley normal N (0,1). Eso significa, entre otros, que 95% de los residuos
deben encontrarse en el intervalo [- 1.96, 1.96]. Dado que el escaso número de datos del que
disponemos aquí, cualquier valor fuera de este intervalo es revelador de un dato sospechoso.
Hemos utilizado la herramienta Data Flagger de XLSTAT, con el fin de demostrar rápidamente
los valores que se encuentran fuera del intervalo [-1.96, 1.96].
Podemos aquí identificar nueve observaciones dudosas, en 237
observaciones. Este análisis de los residuos no anula la hipótesis de normalidad.
El primer gráfico permite visualizar los datos, la recta de regresión, y los dos intervalos de
confianza (el intervalo alrededor de la media del estimador es lo más cerca de la curva, el segundo
es el intervalo alrededor de la estimación puntual). Vemos asá claramente una tendencia lineal,
pero con una intensa variabilidad alrededor de la recta. Los 9 valores sospechosos están fuera del
segundo intervalo de confianza.
El tercer grafico permite analizar si hay una relación entre la variable explicativa y los residuos.
Una de las hipótesis del modelo, es que no debe haber ninguna relación.
El grafico siguiente permite comparar las predicciones con las observaciones.
El histograma de los residuos estandarizados permite señalar rápidamente y visualmente la

presencia de valores fuera del intervalo [-2, 2].
Conclusión de esta regresión lineal simple
En conclusión, la estatura permite explicar 60% de la variabilidad del peso. Para explicar la
variabilidad sobrante, otras fuentes de variabilidad deben entonces ser utilizadas en el modelo. En
el tutorial sobre la regresión lineal múltiple, la edad es añadida como segunda variable explicativa.
Bibliografía
Bernal, A. R., Macorra, M. Z., & Alvarenga, J. C. (2011). ¿Cómo y cuándo realizar un análisis
de regresión lineal simple? Aplicación e interpretación. Recuperado el 20 de 1 de 2019,
de http://medigraphic.com/pdfs/derrevmex/rmd-2011/rmd116n.pdf
Catalá, R. M. (2008). Resumen Análisis de regresión simple. Recuperado el 20 de 1 de 2019, de

http://rua.ua.es/dspace/bitstream/10045/8142/1/resumen analisis contingencia.pdfanalisis
regresion simple.pdf
Delgado, L. (2012). Propuesta taller aplicaciones de la regresión lineal simple y múltiple.

Recuperado el 20 de 1 de 2019, de http://funes.uniandes.edu.co/11932
Estepa, A., Serrano, M. M., Cañadas, G. R., & García, J. M. (2012). Algunas notas históricas
sobre la correlación y regresión y su uso en el aula. Recuperado el 20 de 1 de 2019, de
http://sinewton.org/numeros/numeros/81/articulos_01.pdf
González, J. J., & Yurda, M. I. (2001). Ejercicios resueltos de probabilidad. Recuperado el 20 de

1 de 2019, de https://matematicasiesoja.files.wordpress.com/2013/10/ampliacic3b3n-
1.pdf
Piña, J. O., Ocampo, A. A., Olivares, A. C., & Rodarte, N. H. (1995). Regresión lineal simple.
Recuperado el 20 de 1 de 2019, de http://repositorio.upct.es/handle/10317/3304
Sierra, E. J. (2011). Técnicas de Investigación Social II. Tema 15: ANOVA unidireccional.
Recuperado el 20 de 1 de 2019, de
http://rua.ua.es/dspace/bitstream/10045/19785/1/anova1.pdf
(Piña, Ocampo, Olivares, & Rodarte, 1995) (Delgado, 2012) (González & Yurda, 2001) (Estepa,
Serrano, Cañadas, & García, 2012) (Bernal, Macorra, & Alvarenga, 2011) (Sierra, 2011)
Actividad 4. Proyecto Integrador Etapa 2.
Varianza de un factor
La situación que trata de resolver el ANOVA de un factor es similar a la que se resolvía mediante
la prueba t de Student para dos muestras independientes.
El estadístico t de Student trata de dar una respuesta ante el supuesto de igualdad de dos muestras.
No obstante, esta condición en la mayoría de los casos puede ser demasiado simplista. Imaginemos
un caso común:
Mediante la prueba t de Student llegamos a la conclusión de que la técnica X de relajación es

efectiva para el tratamiento de la ansiedad.
Pero ahora nos podemos plantear si es igual de efectiva para los hombres y para las mujeres, o nos
podemos preguntar por la duración óptima de la aplicación de la técnica de relajación. El diseño
se va haciendo cada vez más complejo, pero también nos da más respuestas sobre nuestro objeto
de estudio. De esta manera el caso de estudio, como ejemplo, podría ser el siguiente:
Mediante la prueba t de Student llegamos a la conclusión de que los sujetos que practicaban la
técnica de relajación X puntuaban más bajo en ansiedad que lo que no la practicaron.
Vista su efectividad, vamos a tratar de afinar los resultados determinando si el tiempo de ejecución
de la técnica influye en su efectividad, las dos condiciones son: tiempo A (15 minutos al día 5 días
a la semana), y tiempo B (30 minutos 3 días a la semana). Pero no nos quedaremos aquí, también
analizaremos los datos en función de si el tiempo se les aplica a los hombres y a las mujeres. (Este
será nuestro problema de referencia)
Como vemos, las repuestas que buscamos nos las podría ofrecer también la prueba t de Student
para dos muestras independientes, si cada condición la vamos comparando con las demás. Pero
por este método nos aumentaría la probabilidad de cometer error tipo I, es decir, aumentaría la
probabilidad de que rechazásemos la hipótesis nula cuando es
cierta. No entraremos en la demostración matemática que lo justifica, pero debemos saber por que
debemos usar el análisis de varianza en lugar de múltiples pruebas t.
Una vez situados en el contexto del problema, vamos a proceder a analizar en que consiste el
análisis de varianza.
Como ya se ha dicho, el análisis de varianza somete a comparación las medias de tres o más
muestras independientes, pero lo hace a partir de la variabilidad (o dispersión de los datos)
encontrada en ellas. De esta manera, hay que diferenciar dos fuentes de variabilidad, la que
variabilidad debida al factor estudiado (en nuestro caso el nivel de ansiedad), y la variabilidad
debida al error experimental (no olvidemos que todos nuestros experimentos se verán afectados
en menor o mayor medida por variables extrañas).
En el análisis de varianza de un factor debemos diferenciar entre:
Variable independiente o factor: se refiere a cada una de las categorías en que se mide la variable
dependiente, por ejemplo, según el tiempo de duración de la técnica de relajación o en función del
sexo, o una combinación de ambas. Estas categorías pueden ser de tipo nominal u ordinal.
Variable dependiente: es la variable que queremos saber si experimenta cambios en función de

cada condición factorial, en nuestro caso la ansiedad. Esta variable será de tipo métrico, es decir,
de intervalo o razón.
Si hay cambios con respecto a su media, podemos saber en que categoría o factor se produce, lo
que nos permitirá llegar a una serie de conclusiones. Esta variación, en nuestro caso, podría ser
consecuencia de factor que hace diferentes al los grupos, la técnica de relajación aplicada, el sexo,
o una combinación de ambas. En este sentido es preciso tener en cuenta que no todas las
comparaciones necesariamente van a ser de interés para nosotros. Tengamos en cuenta que en un
análisis con 7 factores el número de comparaciones posibles será de:
Formula 1: Número de comparaciones entre factores.
Supuestos del modelo ANOVA de un factor.
Nivel de medida de las variables independientes: la variable independiente es una categorización

de las condiciones de medida de la variable dependiente, por tanto, lo que en si la convierte en
variable no métrica (nominal u ordinal), es la definición de las variables o factores, no los valores
que toman cada una de estas categorías. En nuestro caso, las medidas de ansiedad en cuanto a sexo,
o en cuanto a tiempo, es lo que constituye el nivel de medida nominal u ordinal, no los propios
valores que toman cada una de los sujetos. Será por tanto la pertenencia a un grupo, categoría o
factor, el responsable de las diferencias en las medias de la variable dependiente, en nuestro caso,
la ansiedad.
Nivel de medida de la variable dependiente: será de tipo métrico (intervalo o razón).
Tipo de distribución: normal o aproximadamente normal.
Tipo de diseño: equilibrado o no equilibrado.
Observaciones: aleatorias e independientes.
Criterio fundamental a considerar: homogeneidad de varianzas.
Bondad de ajuste.
La prueba de normalidad de distribución de cada factor (o variable independiente) puede hacerse

mediante el estadístico Chi cuadrado de Pearson cuando lo aplicamos a datos agrupados, o
mediante la prueba de Kolmogorov-Smirnov.
El tipo de diseño, equilibrado o no equilibrado tendrá repercusión en el método de cálculo que

identifica las medias responsables del rechazo de la hipótesis nula. En el caso
de modelos equilibrados tenemos en consideración el tamaño del grupo o factor, en el caso
de modelos no equilibrados, tomaremos en consideración la
media armónica del tamaño de los diferentes grupos.
La independencia de las observaciones puede ser probada mediante el estadístico t de Student para
la correlación de Pearson. Dicho estadístico se vio en el artículo de comparación de dos muestras
relacionadas mediante la prueba t de Student. Esta prueba habría que ponerla a prueba en
comparaciones dos a dos, por lo que seria preferible usar una prueba como el test de Rachas.
La homogeneidad de varianzas puede analizarse mediante el test de Cochran cuando nuestro

modelo es equilibrado, o el test de Bartlett si el modelo no es equilibrado. SPSS analiza la
homogeneidad de varianzas con el estadístico de Levene.
Definición de las variables.
Sobre el planteamiento hecho en nuestro problema de referencia, vamos ahora de definir las
variables que analizaremos en nuestro modelo.
En este caso partimos de un conjunto de sujetos de ambos sexos y los asignamos de manera
aleatoria a las siguientes categorías:
Variable A: ambos sexos sin terapia de relajación.

Variable B: ambos sexos con la terapia tiempo A.
Variable C: ambos sexos con la terapia tiempo B.
Variable D: mujeres con terapia tiempo A.
Variable E: mujeres con terapia tiempo B.
Variable F: hombres con terapia tiempo A.
Variable G: hombres con terapia tiempo B.
Con este diseño podremos comprobar como se comporta nuestra terapia de relajación para el
tratamiento de la ansiedad, según sea el sexo y los tiempos de aplicación. Mientras más efectiva
sea la terapia de relajación, los valores de ansiedad serán más bajos.
Para ilustrar nuestro análisis vamos a tomar en consideración los datos del siguiente archivo de
referencia, que consta de tres hojas, su contenido es el siguiente:
Hoja Datos.- contiene los valores de puntuación en ansiedad en cada una de las condiciones (o
factores) descritos con anterioridad.
Hoja Excel.- contiene el análisis de datos realizando los cálculos con Excel, y la tabla resultado
del análisis mediante la función de análisis de datos de Excel.
Hoja SPSS.- Contiene los datos agrupados para su análisis con SPSS.
Estadístico ANOVA de un factor para muestras independientes.
El ANOVA de un factor pone a prueba la hipótesis nula que afirma que todas las muestras tienen
la misma media.
Dado que el ANOVA analiza la variabilidad de los diferentes factores, distinguiremos entre
variabilidad entre los diferentes niveles (MCinter) y variabilidad dentro de cada nivel (MCintra). De
esta manera, lo primero será calcular cada una de estas medias cuadráticas, donde la media
cuadrática inter nivel (entre niveles) es un estimador sesgado de la varianza poblacional, y la media
cuadrática intra nivel (dentro de cada nivel) será un estimador insesgado de la varianza
poblacional.
Siguiendo este razonamiento, el estadístico ANOVA se distribuye como una F de Snedecor, dado
que las medias cuadráticas se distribuyen como una Chi de Pearson.
Tabla 1: modelo ANOVA de un factor.

Donde I es el número de factores, y N es el número de sujetos.
Cálculo del ANOVA de un factor con Excel.
Los cálculos a realizar para llevar a cabo el estadístico ANOVA para más de dos muestras
independientes pueden verse realizados en la hoja de cálculo Excel del documento de referencia.
Las formulas y datos con que se opera pueden ser extraídas de la hoja de cálculo Excel. Si no
conoce el funcionamiento de este programa, le remito a nuestro curso básico de Excel.
El resultado de aplicar los cálculos a nuestro conjunto de datos es el siguiente:
Tabla 2: Cálculo del ANOVA de un factor con Excel.

Puede verse como esta tabla contiene los mismos valores que aparecen en la hoja Excel entre las
celdas J2 y P20. La diferencia entre un cálculo y el otro es que este ultimo se ha realizado con la
función de Excel de análisis de datos, mientras que la imagen 1, refleja los mismos valores pero
calculados introduciendo cada una de las formulas de manera manual en Excel.
Como podemos ver el estadístico F toma el valor 11,59 (aproximadamente) dado que su
probabilidad es aproximadamente 0 (2,3911E-11), podemos concluir que al menos un factor
difiere en su media con respecto a los demás.
Por otro lado, respecto al valor crítico 2,14 (aproximadamente), vemos que el estadístico F toma
un valor mayor 11,59 (aproximadamente), lo que nos lleva ha hacer la misma afirmación que ya
hicimos antes, es decir, al menos un factor difiere en su media con respecto a los demás.
Modelo de efectos aleatorios frente a modelo de efectos fijos.
Como ya se comento, las variables independientes o factores serán de tipo no métrico, y esto
contempla dos posibilidades, ser de tipo nominal u ordinal. Esto conlleva diferencias conceptuales
que debemos tener en cuenta.
Un factor es aleatorio, y por tanto de tipo nominal, si sus niveles consisten en una selección al azar
de una población de niveles posibles. Un factor es considerado fijo, y por tanto de tipo ordinal, si
sus niveles son escogidos premeditadamente por un procedimiento no aleatorio (Milliken y
Johnson,
1992). Por ejemplo, en una muestra al azar de profesores en un
estudio experimental sobre la influencia de distintos estilos de enseñanza en el rendimiento, la
variable profesor constituiría un factor aleatorio. Si comparamos en cambio la eficacia de tres
métodos didácticos concretos (A, B y C por ejemplo), éstos constituirían un factor de efectos fijos
ya que se está específicamente interesado en estos métodos y no en otros. Se considera un modelo
de efectos mixtos a aquél en el que uno o más factores son fijos y al menos uno es aleatorio.
En el caso del análisis de varianza de un factor, esta diferenciación no resulta imprescindible, ya

que el cálculo de uno y otro modelo no supone diferencias más allá del nivel conceptual. No
obstante debemos tener presente que son modelos diferentes.
En el modelo de efectos fijos se somete a prueba unos determinados niveles que son de nuestro
interés, mientras que en el modelo de efectos aleatorios los factores son una muestra representativa
de todos los posibles factores de un modelo de efectos fijos. Esta aparentemente diferencia
superflua implica que en un modelo de efectos fijos la hipótesis nula sometida a prueba es que no
hay diferencias con respecto a su media. Pero en el caso de efectos aleatorios se parte de que las
medias serán iguales si la variabilidad de todas las medias es igual a cero, siendo esta la hipótesis
nula que se pone a prueba.
Comparaciones múltiples.
El estadístico F, como se desprende del propio modelo inferencial de Neyman y Pearson, supone
una respuesta de tipo dicotómico a la igualdad de las medias. Si la hipótesis nula es aceptada (es
decir, las medias son iguales), hemos terminado, no hay mucho más que decir. Pero, si por el
contrario encontramos diferencias estadísticamente significativas (es decir, rechazamos la
hipótesis nula), nos queda resolver cual (o cuales) de los factores son los responsables del rechazo
de la hipótesis nula.
Las posibles comparaciones que podemos realizar entre I factores será I – 1. Por tanto si tenemos
como en nuestro problema de referencia 7 factores, tendremos 6 posibles comparaciones de medias
independientes. Y la probabilidad de aceptar la igualdad de las
7 cuando realmente son iguales con un alpha de 0,05 será de:
(1 – 0,05)6 = 0,735
La probabilidad de rechazar al menos una cuando es verdadera será de:
1 – 0,735 = 0,265
Distinguiremos así dos tipos de comparaciones:
Comparaciones planificadas o a priori.- son las comparaciones que realizamos antes del análisis
de los datos.
Comparaciones no planificadas o a posteriori o también post hoc.- son las comparaciones que nos
permiten conocer cual es el factor responsable del rechazo de la hipótesis nula.
Las comparaciones que más importancia van a tener serán las comparaciones a posteriori, dado
que estas nos descubren cual es el factor responsable del rechazo de la hipótesis nula, por tanto,
no tienen sentido cuando la hipótesis nula es aceptada.
La prueba de Tukey.
El test HSD (honestly significant difference) desarrollado por Tukey realiza comparaciones entre
medias (de dos en dos) pero fijando la tasa de error tipo I en alpha. Y esta es la prueba más usada.
Excel no tiene ninguna función predeterminada para hallar este valor, por lo que tendremos que
recurrir a su formula para llevar a cabo el cálculo.
Tabla 3: Modelo de comparaciones múltiples de Tukey.

Para poder realizar los cálculos y obtener el valor HSD de Tukey necesitamos la tabla de rangos
Studentizados, que puede descargar en pdf o en xls. Los cálculos son los siguientes:
El valor del rango Studentizado para:

Alpha = 0,05
Grados de libertad dentro de los niveles: 233
k - Número de factores o niveles en el análisis de varianza: 7
Por tanto el valor del rango Studentizado es de: 4,17 (dado que
el valor máximo de la tabla equivale a 120).
Si nuestro modelo fuera equilibrado n tomaría el valor del tamaño de cada factor, pero como es
diferente, tenemos que usar la media armónica del tamaño de los factores, que la designaremos
por n’. Así n’ vale: 32,3077 (celda G69).
Con estos datos ya podemos calcular el valor HSD de Tukey, y toma el valor:
Formula 2: Diferencia máxima de Tukey.
Por tanto, todas las diferencias de medias que en valor absoluto sean iguales o mayores que el
valor 4.8216 serán responsables del rechazo de la hipótesis nula.
Tabla 4: Medias de los factores.
Así los factores C, D, E, F, y G no difieren en media entre si, ya que la diferencia entre ninguna
de estas medias supera el valor 4,8216.
Los factores A y E difieren en su media ya que la diferencia en valor absoluto de sus medias es de
39,02 – 32,3 = 6,72.
De esta forma podemos saber que factores son responsables del rechazo de la hipótesis de igualdad
de medias.
La prueba de Scheffé.
La prueba de Scheffé realiza comparaciones entre medias (de
dos en dos) fijando la tasa de error tipo I en alpha. Esta prueba es más conservadora que la de
Tukey, lo que nos llevara a considerar como iguales más medias de las que nos indicaba la prueba
de Tukey.
Tabla 5: Modelo de comparaciones múltiples de Scheffé.
Por tanto:
n’ = 0,2167 (Celda I59)

Valor crítico de F = 2,1376
k=7
MCerror = 43,19
Formula 3: Diferencia máxima de Scheffe.
Como dijimos esta prueba es considerablemente más conservadora que la de Tukey, y dado que
ninguna diferencia entre medias supera el valor 10,96, podemos concluir que todas son iguales.
Una prueba es más conservadora cuanto más favorece la aceptación de la hipótesis nula.
Por último, y antes de entrar con SPSS, diremos que Excel tiene
una opción, una vez instalada las herramientas de análisis, que permite la obtención del estadístico
F para el ANOVA de un factor. Pero esta opción solo nos da el estadístico F, por lo que en el caso
del rechazo de la hipótesis nula, no sabríamos que diferencias son las responsables del rechazo. La
tabla que genera Excel puede verse en el rango J1:P20. Esta limitación nos lleva al análisis
mediante SPSS.
Análisis de varianza de un factor con SPSS.
Como podemos ver con este análisis, los cálculos, si no complejos, ya se hacen muy laboriosos
para realizarlos manualmente o con una calculadora, incluso con Excel, que aún facilitándolo
muchísimo, hay que introducir muchas formulas. Por ello, cuando nos enfrentemos a las técnicas
multivariantes, debemos recurrir a un programa de análisis estadístico avanzado, y SPSS cumple
esta característica, además de disponer de grandes cantidades de documentación en Internet para
la realización de los procedimientos e interpretación de las tablas de resultados.
El primer problema que nos vamos a encontrar cuando tratamos de realizar este análisis con SPSS
es que, a diferencia de Excel, debe contener la variable dependiente en una columna, y los factores
en otra. La disposición puede verse en el documento de referencia en la hoja SPSS. Además
deberemos transformas el factor, nombrado en dicho documento con letras, en una numeración
equivalente. Por ejemplo, si los factores eran A, B, C, D, E, F y G, ahora los llamaremos 1, 2, 3,
4, 5, 6, y 7 respectivamente, y asignarles como etiquetas el nombre de cada factor para que
aparezcan referenciados en los términos que los hemos nombrado. Esto lógicamente tendrá
repercusiones en la interpretación de las tablas, es decir, si transformamos A en 1, debemos tener
esto en cuenta.
Para realizar un análisis de varianza de un factor pulsamos Analizar, comparar medias, y

seguidamente ANOVA de un factor. Seleccionamos las comparaciones post hoc que deseamos, y
tenemos cuidado con interpretar los resultados en función del supuesto de homogeneidad de
varianzas. Si son iguales debemos considerar las diferencias de Tukey y Scheffe. Y si son
diferentes, tendremos en cuenta las pruebas de T2 de Tamhane y T3 de Dunnett.
Una vez hecho esto, vamos a presentar algunas de las tablas que nos devuelve SPSS, el resultado
completo del análisis se muestra en este documento.
Tabla 6: Estadísticos descriptivos.
La tabla 6 nos muestra los principales estadísticos descriptivos y el intervalo de confianza con un
alpha de 0,05 (1 - 0,95 = 0,05).
Tabla 7.
La tabla 7 nos muestra el estadístico de Levene para la homogeneidad de varianzas, dado que su
valor de significación (0,223) es mayor que 0,05 (alpha), aceptamos que las varianzas son
homogéneas o similares entre si. Recordemos que este supuesto es fundamental en el análisis de
varianza, y nos indicara que diferencias post hoc debemos considerar para determinar la
responsabilidad del rechazo de la hipótesis nula.
Tabla 8: Tabla resumen del ANOVA de un factor.

La tabla 8 nos ofrece los resultados que ya obtuvimos con Excel, y podemos ver como son
idénticos, solo que en esta tabla no podemos ver el nivel crítico. La significación, dado que es
menor que 0,05 nos permite rechazar la hipótesis nula que establece que las medias son iguales
entre si.
Así, dado que son diferentes las medias, y dado que las varianzas son homogéneas, tendremos en
cuenta las comparaciones post hoc de Tukey y Scheffé, las demás, no las tendremos en
consideración. Estas tablas puede verla en la hoja de resultados de SPSS.
Tabla 9: Tabla de agrupación de factores según su igualdad de medias.

La tabla 9 nos muestra, en función de las correspondientes pruebas, que medias pueden ser
consideradas similares, y con que grado de significación. Para la prueba de Tukey y Scheffé existen
tres subconjuntos posibles según la similitud de sus medias. Así, los valores de significación
mayores de 0,05 nos dicen que la media de esos factores es igual. Si atendemos al subconjunto 1
en la caso de Tukey, los factores B y E son iguales entre si, mientras que según Scheffé son iguales
los factores B, E y D. Por supuesto, D y E en el caso de Tukey son diferentes, dado que pertenecen
a subgrupos distintos, pero son iguales según Scheffé, dado que incluye como iguales esas
diferencias en el mismo subconjunto. Recordemos que la prueba de Scheffé es más conservadora
que Tukey.
Tabla 10: Gráfico de medias.
En la tabla 10 podemos ver la representación grafica de las medias que nos ofrece SPSS.
Con todo esto, ya podemos interpretar los resultados dentro del contexto de nuestra investigación.
Dado que:
Factor A: ambos sexos sin terapia de relajación.

Factor C: ambos sexos con la terapia tiempo B.
Factor F: hombres con terapia tiempo A.
Factor G: hombres con terapia tiempo B.
no difieren entre si, podemos afirmar que nuestra técnica de relajación como tratamiento reductor
de la ansiedad, no parece tener un efecto reductor de la ansiedad.
No se encuentran diferencias entre los sujetos a los que se les aplica la terapia de relajación y los
que no, no hay diferencias entre los sexos, y tampoco se ha podido constatar diferencias entre el
tiempo de aplicación. Las diferencias entre factores parecen estar motivadas por el azar. Cabria,
tras la observación del gráfico, decir que se aprecia una reducción en ansiedad en todos los casos
de aplicación con respecto a cuando no hay terapia, y una acusada reducción de la ansiedad cuando
ambos sexos han sido tratados simultáneamente con tiempo A. Sin embargo, esta tendencia no se
ha mantenido en los demás casos. Cabria preguntarse si ha podido existir una variable extraña que
pueda haber influido en los resultados.
Merece destacar que se rechazó la hipótesis nula de igualdad de medias, pero que las diferencias
que se han producido, no lo han hecho en el sentido que se esperaba que lo hicieran, de ahí la
importancia de plantear de manera adecuada las hipótesis de trabajo e interpretar los resultados
basados en las hipótesis estadísticas, en función de la hipótesis de trabajo a la que queremos dar
respuesta. Por tanto, no es solo que haya diferencias, sino que las diferencias se encuentren donde
nuestra hipótesis de trabajo dice que sea importante que las haya, Con todo esto, damos por
finalizado los aspectos más básicos del análisis de varianza de un factor.
La varianza de dos factores.
Análisis de la varianza de dos factores
Es un diseño de anova que permite estudiar simultáneamente los efectos de dos fuentes de
variación.
En el ejemplo 1, en el que se estudiaban diversos tratamientos para la hipertensión arterial, se

podría plantear que, quizás, la evolución de la misma fuera diferente para los hombres y las
mujeres, en cuyo caso, y si el número de hombres y mujeres en cada muestra no fuera el mismo,
podría ocurrir que una parte del efecto atribuido a los tratamientos fuera debido al sexo.
En cualquier caso, el investigador puede estar interesado en
estudiar si hay, o no, diferencia en la evolución según el sexo. En un anova de dos vías se
clasifica a los individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus
efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco
para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo
tiene b, se tendrán ab muestras o unidades experimentales, cada una con nindividuos
o repeticiones.
Una observación individual se representa como:
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el
tercero la observación dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se
habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de
efectos aleatorios (modelo mixto). El modelo matemático de este análisis es:
modelo I
modelo II
modelo mixto
donde m es la media global, ai o Ai el efecto del nivel i del 1º factor, bj o Bj el efecto del
nivel j del 2º factor y e ijk las desviaciones aleatorias alrededor de las medias, que también se
asume que están normalmente distribuidas, son independientes y tienen media 0 y varianza s2.
A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo añade la de

aditividad de los efectos de los factores.
A los términos ( ab )ij, (AB)ij, (aB)ij, se les denomina interacción entre ambos factores y
representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para
cada nivel del otro factor.
Para entender mejor este concepto de interacción veamos un
ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supóngase un estudio
para analizar el efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al
azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se
les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el tiempo que
los sujetos tardan en dormirse desde el suministro de la píldora.
Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles (hombre y
mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de resultados posibles
se esquematizan en la figura
A B
En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo tratado como
en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan más en
dormirse que los tratados con somnífero en ambos sexos (hay un efecto del tratamiento). Ambos
efectos son fácilmente observables.
Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto en ambos
sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto en ambos grupos
de tratamiento. En este caso, se dice que existe interacción.
Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos
niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y los hombres
antes con el placebo.
La interacción indica, por tanto, que los efectos de ambos
factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen
cuando están por separado, por lo que, si en un determinado estudio se encuentra interacción
entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la
interacción positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la
suma de efectos actuando por separado, en Biología se le denomina sinergia o potenciación y a
la interacción negativa inhibición. En el ejemplo de la figura B, se diría que el ser mujer inhibe el
efecto del somnífero, o que el ser hombre lo potencia (según el sexo que se tome como
referencia).
Identidad de la suma de cuadrados
La suma de cuadrados total en un anova de 2 vías, es:
(donde para representar las medias se ha usado la convención habitual de poner un punto (.) en el
lugar del subíndice con respecto al que se ha sumado) que dividida por sus grados de
libertad, abn - 1, estima la varianza s2 en el supuesto de que las ab muestras provengan de una
única población.
Se puede demostrar que
que es la llamada identidad de la suma de cuadrados en un anova de dos factores. Los sucesivos
sumandos reciben respectivamente el nombre de suma de cuadrados del 1º factor (tiene a -1
grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 1º factor), del 2º
factor (con b -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al
2º factor), de la interacción (con (a - 1)(b - 1) grados de libertad, recoge la variabilidad debida a
la interacción) y del error (con ab(n - 1) grados de libertad, recoge la variabilidad de los datos
alrededor de las medias de cada muestra).
Los resultados de un análisis de la varianza de dos factores se
suelen representar en una tabla como la siguiente:
Fuente de variación GL SS MS
1º factor a-1 SSA SSA/(a - 1)
2º factor b-1 SSB SSB/(b - 1)
Interacción (a - 1)(b - 1) SSAB SSAB/[(a - 1)(b - 1)]
Error ab(n - 1) SSE SSE/[ab(n - 1)]
Total abn - 1 SST
Los grados de libertad también son aditivos.
En ocasiones se añade una primera línea llamada de tratamiento o de subgrupos cuyos grados de
libertad y suma de cuadrados son las sumas de los del primer, segundo factor y la interacción,
que corresponderían a la suma de cuadrados y grados de libertad del tratamiento de un análisis de
una vía en que las ab muestras se considerarán como muestras de una clasificación única.
Para plantear los contrastes de hipótesis hay que calcular los valores esperados de los distintos
cuadrados medios.
Contrates de hipótesis en un análisis de la varianza de dos factores
Del mismo modo que se hizo en el anova de una vía, para plantear los contrastes de hipótesis
habrá que calcular los valores esperados de los distintos cuadrados medios. Los resultados son:
Modelo I
MS Valor esperado
MSA
MSB
MSAB
MSE
Por lo tanto, los estadísticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con
los grados de libertad correspondientes y permiten contrastar, respectivamente, las hipótesis:
i) no existe interacción ( MSAB/MSE)
ii) no existe efecto del primer factor, es decir, diferencias entre niveles del primer factor
(MSA/MSE)
iii) no existe efecto del segundo factor ( MSB/MSE)
Si se rechaza la primera hipótesis de no interacción, no tiene sentido contrastar las siguientes. En

este caso lo que está indicado es realizar un análisis de una vía entre las ab combinaciones de
tratamientos para encontrar la mejor combinación de los mismos.
Contraste de hipótesis en un anova de 2 vías
Modelo II
MS Valor esperado
MSA
MSB
MSAB
MSE
donde son, respectivamente las componentes añadidas por el primer factor, por
el segundo y por la interacción, que tienen la misma forma que los del modelo I, sin más que
cambiarai y bj por Ai y Bj, respectivamente.
La interacción se contrasta, como en el modelo I, con MSAB/MSE, si se rechaza la hipótesis nula

se contrastarían cada uno de los factores con MSA/MSAB y MSB/MSAB.
En un modelo II, como no se está interesado en estimar los efectos de los factores sino sólo la
existencia de la componente añadida, sí tiene sentido contrastar la existencia de la misma para
cada factor incluso aunque exista interacción.
Aquí el problema se plantea cuando no se puede rechazar la hipótesis nula y se concluye que no
existe interacción: entonces tanto MSE como MSAB estiman s2, entonces ¿cuál se elige para
contrastar la componente añadida de los factores?.
En principio, parece razonable escoger su media (la media de varios estimadores centrados es
también un estimador centrado y más eficiente), sin embargo si se elige MSAB se independiza el
contraste para los factores de un posible error tipo IIen el contraste para la interacción. Hay
autores que por ello opinan que es mejor usar MSAB, pero otros proponen promediar si se puede
asegurar baja la probabilidad para el error tipo II. La media de los cuadrados medios se calcula
dividiendo la suma de las sumas de cuadrados por la suma de los grados de libertad.
Ejemplo
A partir de la siguiente tabla de un anova de 2 factores modelo II, realizar los contrastes
adecuados.
Fuente de variación G.L. SS MS

1º factor 4 315,8 78,95
2º factor 3 823,5 274,5
Interacción 12 328,9 27,41
Error 100 2308,0 23,08
Total 119 3776,2
Se empezaría contrastando la existencia de interacción: f = 27,41/23,08 = 1,188

como F0,05(12,100) = 1,849 no se puede, al nivel de significación del 95%, rechazar la hipótesis
nula y se concluye que no existe interacción.
Si usamos MSAB para contrastar los factores:
1º factor: f = 78,95/27,41 = 2,880 como F0,05(4,12) = 3,26 no se rechaza la hipótesis nula y se

concluye la no existencia de componente añadida por este factor.
2º factor: f = 274,5/27,41 = 10,015 como F 0,05(3,12) = 3,49 se rechaza la hipótesis nula y se acepta
la existencia de componente añadida por este factor.
El resultado del análisis es: no existe componente añadida por la interacción, tampoco por el 1º
factor y sí existe componente añadida por el 2º.
La estimación de esta componente es: como a partir de los grados de libertad de la tabla podemos
calcular a = 5, b = 4 y n = 6 resulta que la estimación de es 274,5 - 27,41 = 247,09; por lo
tanto que representa un 35,7% de componente añadida por el segundo

factor.
Si se hubiera optado por promediar, los cuadrados medios promediados son

(328,9+2308,0)/(12+100)=
23,54 con 112 grados de libertad y hubiera resultado significativo también el 1º factor.
La salida de un paquete estadístico, p.e. el Statgraphics, para un anova de 2 factores modelo II

En este caso las fórmulas son parecidas a la del ANOVA de una vía pero ahora agregando el
cálculo por renglones adicional al de columnas donde se incluye la variable de bloqueo.
Se trata de bloquear un factor externo que probablemente tenga efecto en la respuesta
pero que no hay interés en probar su influencia, sólo se bloquea para mininizar la variabilidad de
este factor externo, evitando que contamine la prueba de igualdad entre los tratamientos.
Los tratamientos se asignan a las columnas y los bloques a los renglones. Un bloque indica
condiciones similares de los sujetos al experimentar con diferentes tratamientos.
Las hipótesis son:
Ho: No hay diferencia en las medias del factor de columna
Ha: Al menos una media del factor de columna es diferente

Ho: No hay diferencia en las medias de la variable de renglón
Ha: Al menos una media de la variable de renglón es diferente
2. Ejemplos con cálculo manual
Ejemplo 1.
Suponiendo que se quiere investigar si la producción de tres diferentes máquinas es igual,

tomando en cuenta la experiencia de los operadores a un nivel de significancia del 5%.
Experiencia Máquinas
de ops. En años Maq 1 Maq 2 Maq 3 Promedios
1 27 21 25 24.33333
2 31 33 35 33
3 42 39 39 40
4 38 41 37 38.66667
5 45 46 45 45.33333
Promedios 36.6 36 36.2 36.26667

TABLA ANOVA
SS GL CM Fc Falfa
SCTR= 0.933333 2 CMTR= 0.466667 Ftr = 0.09 4.46
Fbl =
SCBL= 764.9333 4 CMBL= 191.2333 37.25 3.84
SCE = 41.06667 8 CME= 5.133333
SCT = 806.9333 14 CMT= 57.6381
Conclusión: No hay diferencia entre máquinas a pesar de la diferencia en experiencia de los

operadores.
Ejemplo 2
Una empresa de taxis intenta crear un sistema de rutas que minimice el tiempo que se pasa
manejando a ciertas localidades. El tiempo que toma viajar en cada ruta por los taxis se muestra a
continuación:
Var.
Bloqueo Factor - Ruta
Taxista 1 2 3 4
1 12 15 17 13
2 18 18 18 17
3 10 11 15 9
4 13 12 12 15
5 18 14 12 15
y si afecta el taxista.
Var.
Bloqueo Factor - Ruta
Taxista 1 2 3 4
1 12 15 17 13
2 18 18 18 17
3 10 11 15 9
4 13 12 12 15
5 18 14 12 15
14.2 14 14.8 13.8
X 14.2
A 4.84 0.64 7.84 1.44
B 14.44 14.44 14.44 7.84
C 17.64 10.24 0.64 27.04

D 1.44 4.84 4.84 0.64
E 14.44 0.04 4.84 0.64
SCT 153.2
rj*(Xj -
r 5 X)^2
0 0.2 1.8 0.8
SCTR 2.8
c 4
c*(Xi-
X)^2
0.01 SCBL 92.2
50.41
34.81
5.76
1.21
SCE = SCT - SCTR - SCBL
SCE 58.2
TABLA ANOVA
Fuente de
SC g.l. CM FC
Variación
Columnas 2.8 3 0.9333333 0.1924399
Renglones 92.2 4 23.05 4.7525773
Error 58.2 12 4.85
Total 153.2
Conclusión: No hay diferencia en la tiempo por las rutas a pesar de diferencias en taxistas
DMS Prueba de TUKEY
Renglones 5 Alfa 0.05%

CME
T = q ,c ,n−c
Columnas 4 r
(n) datos 20
n-c 16
CME 4.85
Obteniendo q de tablas = 4.05
Diferencias Significativas
x1-x2 3.5 No
x1-x3 3 No
x1-x4 1.25 No
x1-x5 0.5 No
x2-x3 6.5 Significativas
x2-x4 4.75 Significativas
x2-x5 3 No
x3-x4 1.75 No
x3-x5 3.5 No
x4-x5 1.75 No
F = DISTR.F.INV(alfa, gl. =1, gl. CME =12)
F= 4.7472
DMS = 2.1459
Conclusión: Medias Poblacionales de taxistas diferentes
Ejemplo 3 (Problema 4.1 del Texto de Montgomery, Análisis y diseño de experimentos)
Un químico quiere probar el efecto de 4 agentes químicos sobre la resistencia de un tipo particular
de tela. Debido a que podría haber variabilidad de un rollo de tela a otro, el químico decide usar
un diseño de bloques aleatorizados, con los rollos de tela considerados como bloques. Selecciona
5 rollos y aplica los 4 agentes químicos de manera aleatoria a cada rollo. A continuación se
presentan las resistencias a la tención resultantes. Analizar los datos de este experimento (utilizar
α=0.05) y sacar las conclusiones apropiadas.
Rollo
Agente
Químico 1 2 3 4 5
1 73 68 74 71 67
2 73 67 75 72 70
3 75 68 78 73 68
4 73 71 75 75 69
Solución
Rollo Y (gran
Agente Yi. promedio
Químico 1 2 3 4 5 )
1 73 68 74 71 67 70.6 71.75
2 73 67 75 72 70 71.4
3 75 68 78 73 68 72.4
4 73 71 75 75 69 72.6
Y.j 73.5 68.5 75.5 72.75 68.5

Yijestimada (FITS)
72.35 67.35 74.35 71.6 67.35
73.15 68.15 75.15 72.4 68.15
74.15 69.15 76.15 73.4 69.15
74.35 69.35 76.35 73.6 69.35
Residuos (Eij)
0.65 0.65 -0.35 -0.6 -0.35
-0.15 -1.15 -0.15 -0.4 1.85
0.85 -1.15 1.85 -0.4 -1.15
-1.35 1.65 -1.35 1.4 -0.35
Análisis de varianza de dos factores con una sola muestra por

grupo
RESUMEN Cuenta Suma Promedio Varianza
Fila 1 5 353 70.6 9.3
Fila 2 5 357 71.4 9.3
Fila 3 5 362 72.4 19.3
Fila 4 5 363 72.6 6.8
Columna 1 4 294 73.5 1

Columna 2 4 274 68.5 3
Columna 3 4 302 75.5 3
Columna 4 4 291 72.75 2.916666667
Columna 5 4 274 68.5 1.666666667
ANÁLISIS DE VARIANZA
Origen de Suma de Grados Promedio F Probabilidad Valor

las cuadrados de de los crítico
variaciones libertad cuadrados para F
Filas 12.95 3 4.31666667 2.376146789 0.12114447 3.4902948
Columnas 157 4 39.25 21.60550459 2.05918E-05 3.2591667
Error 21.8 12 1.81666667
Total 191.75 19
Para el caso de los agentes químicos que son los renglones:
La Ho. No se rechaza debido a que el valor de tablas de f esta en 3.49 y el valor Fc calculado es
de 2.37 por lo tanto no cae en la zona de rechazo.
Calculo del valor P 0.12114447
Por otro lado el valor P = 0.1211 es mayor a 0.05 de alfa por lo tanto confirma el no rechazo.
Para el caso de los rollos que son las columnas:
La Ho. se rechaza debido a que el valor de tablas de f esta en 3.25 y el valor Fc calculado es
21.60 por lo tanto cae en la zona de rechazo.
Calculo del valor P 3.96618E-05
Por otro lado el valor P = 0.00003 es menor a 0.05 de alfa por lo tanto confirma el rechazo.
3. Procedimiento en Excel:
▪ En el menú herramientas seleccione la opción análisis de datos, en funciones para análisis

seleccione análisis de varianza de dos factores con una sola muestra por grupo.
▪ En Rango de entrada seleccionar la matriz de datos.
▪ Alfa = 0.05
▪ En Rango de salida indicar la celda donde se iniciará la presentación de resultados.
Análisis de varianza de dos factores con una sola muestra por grupo
RESUMEN Cuenta Suma Promedio Varianza
Fila 1 5 353 70.6 9.3
Fila 2 5 357 71.4 9.3
Fila 3 5 362 72.4 19.3
Fila 4 5 363 72.6 6.8
Columna 1 4 294 73.5 1
Columna 2 4 274 68.5 3
Columna 3 4 302 75.5 3
Columna 4 4 291 72.75 2.92
Columna 5 4 274 68.5 1.67
ANÁLISIS DE VARIANZA
Grados F
Fuente de Suma de de Cuadrados Fc Probabilidad tablas
variación Cuadrados libertad medios Valor P
Filas 12.95 3 4.32 2.38 0.12 3.49
Columnas 157 4 39.25 21.61 2.06E-05 3.26
Error 21.8 12 1.82
Total 191.75 19
Total 231 24
En la tabla observamos que el estadístico de prueba Fc es menor al valor crítico para F 2.38<3.49,
por lo cual no rechazamos al Hipótesis nula H0. No tenemos evidencia estadística para afirmar que
el agente químico tenga influencia en la respuesta.
Sin embargo observamos que el rollo si tiene influenza significativa en la respuesta (P<0.05).
4. ANOVA en Minitab.
Utilice  = 0.05 para calcular si hay diferencias entre los efectos de las columnas y los renglones.
Introducir los datos arreglados con las respuestas en una sola columna e indicando a que renglón
y columna pertenece cada uno de estos, como sigue:
Resp Columna Fila

73 1 1
73 1 2
75 1 3
73 1 4
68 2 1
67 2 2
68 2 3
71 2 4
74 3 1
75 3 2
78 3 3
75 3 4
71 4 1
72 4 2
73 4 3
75 4 4
67 5 1
70 5 2
68 5 3
69 5 4
Instrucciones:
Stat > ANOVA > One two Way
Response Respuesta, indicar Row factor y Column Factor, Seleccionar º! Display Means
Seleccionar º! Store Residuals º! Store Fits Confidence level 95%
Graphs
Seleccionar Normal plot of residuals
OK
Resultados:
La gráfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el
modelo:
Los residuos se aproximan a la distribución normal por lo cual se concluye que se está utilizando
un modelo válido.
Normal Probability Plot of the Residuals
(response is Resp)
99
95
90
80
70
Percent
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
Residual
Two-way ANOVA: Resistencia versus Agente Químico, Rollo
Source DF SS MS F P
Agente Químico 3 12.95 4.3167 2.38 0.121
Rollo 4 157.00 39.2500 21.61 0.000
Error 12 21.80 1.8167
Total 19 191.75
S = 1.348 R-Sq = 88.63% R-Sq(adj) = 82.00%

Como el valor de P es menor a 0.05 el Rollo tiene influencia
significativa en la resistencia.
Individual 95% CIs For Mean Based on
Agente Pooled StDev
Químico Mean ---+---------+---------+---------+------
1 70.6 (----------*----------)
2 71.4 (----------*----------)
3 72.4 (----------*----------)
4 72.6 (----------*----------)
---+---------+---------+---------+------
69.6 70.8 72.0 73.2
Individual 95% CIs For Mean Based on
Pooled StDev
Rollo Mean --+---------+---------+---------+-------
1 73.50 (-----*-----)
2 68.50 (-----*-----)
3 75.50 (-----*-----)
4 72.75 (-----*-----)
5 68.50 (-----*-----)
--+---------+---------+---------+-------
67.5 70.0 72.5 75.0
Se seleccionarían en 2º y 5º rollo ya que tienen los valores más pequeños.
Los Fits y los residuales coinciden con los valores determinados en Excel.
Resp Columna Fila RESI1 FITS1 RESI2 FITS2
73 1 1 0.65 72.35 0.65 72.35
73 1 2 -0.15 73.15 -0.15 73.15
75 1 3 0.85 74.15 0.85 74.15
73 1 4 -1.35 74.35 -1.35 74.35
68 2 1 0.65 67.35 0.65 67.35
67 2 2 -1.15 68.15 -1.15 68.15
68 2 3 -1.15 69.15 -1.15 69.15
71 2 4 1.65 69.35 1.65 69.35
74 3 1 -0.35 74.35 -0.35 74.35
75 3 2 -0.15 75.15 -0.15 75.15
78 3 3 1.85 76.15 1.85 76.15
75 3 4 -1.35 76.35 -1.35 76.35
71 4 1 -0.6 71.6 -0.6 71.6
72 4 2 -0.4 72.4 -0.4 72.4
73 4 3 -0.4 73.4 -0.4 73.4

75 4 4 1.4 73.6 1.4 73.6
67 5 1 -0.35 67.35 -0.35 67.35
70 5 2 1.85 68.15 1.85 68.15
68 5 3 -1.15 69.15 -1.15 69.15
69 5 4 -0.35 69.35 -0.35 69.35

Bibliografía
• Sánchez, J. J., & Rus, T. I. (2015). Análisis de la varianza (ANOVA). Recuperado el 9 de 2 de 2019,
de https://uam.es/personal_pdi/economicas/eva/pdf/anova.pdf
• Zubcoff, J. (2013). Análisis Estadístico y Uso de Bases de Datos. ANOVA con varios factores.
Factores ortogonales. Recuperado el 9 de 2 de 2019, de
http://rua.ua.es/dspace/bitstream/10045/33679/1/43800_anova_disenos_factoriales_ortogona
les.pdf
• Rodríguez, J. y Pierdant, A. (2014). Estadística aplicada II: estadística en administración para la toma
de decisiones. Ciudad de México, México: Grupo Editorial Patria. Recuperado de
http://site.ebrary.com/lib/vallemexicosp/detail.action?docID=11013295&p00=estadistica+aplicada
+ii

Proyecto Integrador2 Analisis de Datos PDF

Cargado por

Copyright:

Formatos disponibles

Proyecto Integrador2 Analisis de Datos PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Proyecto Integrador2 Analisis de Datos PDF

Cargado por

Copyright:

Formatos disponibles

Nombre: JOVANI ORTEGA SORIANO.

Facilitador: JOSE MARTIN LEON

Materia: ANÁLISIS DE DATOS.

Actividad 4. Proyecto Integrador Etapa 2.

Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de diagrama

TIPOS DE MODELOS DE REGRESIÓN LINEAL

Regresión lineal simple

REGRESIÓN LINEAL MÚLTIPLE

Ejemplo: Y = f(x, w, z).

En estadística, el coeficiente de determinación, denominado R² y pronunciado R cuadrado, es un

proporción de variación de los resultados que puede explicarse por el modelo.1

de la covariación es moderada, las predicciones no serán demasiado buenas. En consecuencia, hay

Esta medida es el Coeficiente de Determinación, que es el cuadrado del coeficiente de correlación

En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal entre

σ(y): desviación típica de “y”.

ρ = -1 Correlación perfecta negativa

ρ = +1 Correlación perfecta positiva

sube, y además con la misma intensidad (+1).

El error estándar es la desviación estándar de la distribución muestral de un estadístico. El término

El “error estándar” se refiere a la desviación estándar de la distribución muestral de un estadístico.

A continuación se presenta una tabla en la que la variable X corresponde a la experiencia en

El Coeficiente de Relación Lineal.

S(xy) = ƩXiYi – (ƩXi) (ƩYi) / n = 1481 – (1270)(28.7) / 22 = -175.77

El valor del Coeficiente de Correlación es:

r = S (xy) / √(S(xx) S(yy)) = -175.77 / √(17386.36)(10.32)

r = – 0.415 La correlación es negativa.

La regresión lineal es utilizada para determinar modelos matemáticos del comportamiento y

b = (nƩXiYi – (ƩXi)(ƩYi))/n ƩXi² – (ƩXi)² a = (ƩYi – bƩXi)v/ n

Para el ejemplo anterior:

b = (nƩXiYi – (ƩXi)(ƩYi))/ ƩXi² – (ƩXi)² = ((22)(1481) – (1270)(28.7)) / 90700 –

a = ƩYi – bƩXi/n = 28.7 – ((0.0025)(1270)) / 22 = 1.15 Y = a + b X Y = 1.15 + 0.0025 X

0.9 3.1 1.9 5.0 2.1 5.6 2.3 5.8

1.5 3.6 1.9 5.3 2.1 5.7 2.3 6.2

1.6 4.3 1.9 5.7 2.1 5.8 2.3 6.3

1.7 4.7 2.0 4.4 2.2 5.2 2.3 6.4

1.7 5.5 2.0 5.2 2.2 5.3 2.4 6.4

1.8 5.7 2.0 5.3 2.2 5.6 2.4 6.3

1.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3

la variable longitud (y) con una variable altura (x) de

la concha Patelloida Pygmatea

Recta de regresión estimada

Coeficiente de correlación lineal r = 0.8636

El 74 % de la variabilidad de y puede atribuirse a una relación lineal con x Contraste de regresión

A un nivel de significación del 5 %,

F exp = 76.42 > Fα,1,n−2 = F0.05;1.26 = 4.23

Nótese además que el valor p<α.

Rechazamos la hipótesis nula de no linealidad del modelo

a) ϭ͓ = ϭ/√n = 8/√36 = 1.33

La concentración de un elemento es uno de los parámetros de mayor importancia en los procesos

En electricidad se puede obtener el valor de una resistencia en un circuito y su error mediante un

Determinación del coeficiente de rozamiento estático de forma experimental a partir de la

Con la metodología 2k es posible mejorar un proceso mediante la realización de experimentos,

4.- Herramientas de apoyo

Regresión Lineal Simple: tutorial en Excel

Datos para ejecutar una regresión lineal simple

Configuración de una regresión lineal simple

Una vez XLSTAT iniciado, elija el comando XLSTAT/Modelación de datos/Regresión.

Interpretación de los resultados de una regresión lineal simple

El histograma de los residuos estandarizados permite señalar rápidamente y visualmente la