Proyecto Integrador2 Analisis de Datos PDF
Proyecto Integrador2 Analisis de Datos PDF
Proyecto Integrador2 Analisis de Datos PDF
Ing. Industrial.
REGRESIÓN SIMPLE
1.-Teoría
DIAGRAMA DE DISPERSIÓN
Se emplea cuando una variable está bajo el control del experimentador. Si existe un parámetro que
se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro
de control o variable independiente y habitualmente se representa a lo largo del eje horizontal (eje
de las abscisas). La variable medida o dependiente usualmente se representa a lo largo del eje
vertical (eje de las ordenadas). Si no existe una variable dependiente, cualquier variable se puede
representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no
causalidad) entre las dos variables.
Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un
intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa
(descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste
(llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. Una
ecuación para la correlación entre las variables puede ser determinada por procedimientos de
ajuste. Para una correlación lineal, el procedimiento de ajuste es conocido como regresión lineal y
garantiza una solución correcta en un tiempo finito.
Uno de los aspectos más poderosos de un gráfico de dispersión,
sin embargo, es su capacidad para mostrar las relaciones no lineales entre las variables. Además,
si los datos son representados por un modelo de mezcla de relaciones simples, estas relaciones son
visualmente evidentes como patrones superpuestos.
El diagrama de dispersión es una de las herramientas básicas de control de calidad, que incluyen
además el histograma, el diagrama de Pareto, la hoja de verificación, los gráficos de control, el
diagrama de Ishikawa y el diagrama de flujo.
REGRESIÓN LINEAL
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la
relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un
término aleatorio ε. Permite determinar el grado de dependencia de las series de valores X e Y,
prediciendo el valor y estimado que se obtendría para un valor x que no esté en la distribución.
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:
La regresión lineal simple se basa en estudiar los cambios en una variable, no aleatoria, afectan a
una variable aleatoria, en el caso de existir una relación funcional entre ambas variables que puede
ser establecida por una expresión lineal, es decir, su representación gráfica es una línea recta. Es
decir, se está en presencia de una regresión lineal simple cuando una variable independiente ejerce
influencia sobre otra variable dependiente.
Ejemplo: Y = f(x)
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón, así también se
puede comprender la relación de dos o más variables y permitirá relacionar mediante ecuaciones,
una variable en relación a otras variables llamándose Regresión múltiple. O sea, la regresión lineal
múltiple es cuando dos o más variables independientes influyen sobre una variable dependiente.
Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más comunes
se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado del coeficiente de
correlación de Pearson, lo cual es sólo cierto para la regresión lineal simple. Si existen varios
resultados para una única variable, es decir, para una X existe una Y, Z... el coeficiente de
determinación resulta del cuadrado del coeficiente de determinación múltiple. En ambos casos el
R² adquiere valores entre 0 y 1. Existen casos dentro de la definición computacional de R² donde
este valor puede tomar valores negativos.2
La bondad de la predicción depende de la relación entre las variables. Si dos variables no covarían,
no podremos hacer predicciones válidas, y si la intensidad
COEFICIENTE DE CORRELACIÓN
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice
que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean
cuantitativas.
La correlación, también conocida como coeficiente de correlación lineal (de Pearson), es una
medida de regresión que pretende cuantificar el grado de variación conjunta entre dos variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos variables, es
decir, si se representan en un diagrama de dispersión los valores que toman dos variables, el
coeficiente de correlación lineal señalará lo bien o lo mal que el conjunto de puntos representados
se aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que mide el grado de
intensidad y el sentido de la relación entre dos variables.
Siendo:
Cov (x;y): la covarianza entre el valor “x” e “y”. σ(x): desviación típica de “x”.
ρ = 0 No existe correlación
Hablamos de correlación positiva si siempre que el valor “x” sube, el valor “y”
En el caso opuesto, si siempre que el valor “x” sube, y el valor “y” baja, y además con la misma
intensidad, entonces estamos hablando de correlación negativa (-1).
Es importante saber que esto no quiere decir que lo hagan en la misma proporción (salvo que
tengan la misma desviación típica).
ERROR ESTÁNDAR
2.-Ejemplo
DIAGRAMA DE DISPERSIÓN
S(xx) = ƩXi² – (ƩXi)² / n = 90700 / 22 – (1270)² = 17386.36 S(yy) = ƩYi² – (ƩYi)² / n = 47.77 /
22 – (28.7) ² = 10.32
REGRESIÓN LINEAL
(1270) ² = 0.0025
Ejemplo 2:
La Patelloida Pygmatea es una lapa pegada a las rocas y conchas a lo largo de las costas
protegidas en el área Indo-Pacífica. Se realiza un experimento para estudiar la influencia de la
altura (x) de la Patelloida Pygmatea en su longitud (y ) medidas ambas en milímetros. Se tienen
los siguientes datos:
x y x y x y x y
SOLUCIÓN
Figura1: Diagrama de
dispersión que relaciona
Ῡ = 1.36 + 1.99 x
COEFICIENTE DE DETERMINACIÓN
r2 = R2 = 0.74
H0 : β1 = 0 H1 : β1 6= 0
ERROR ESTÁNDAR
Si una población de datos crudos posee una distribución normal, con una media
=80 y una desviación estándar =8, determine los parámetros de la distribución muestral de la media
para los siguientes tamaños de la muestra: n = 36 y n = 50
Solución:
μ͓=μ=80
b) ϭ͓ = 8/√50 = 1.13
3.-Aplicaciones
El modelo de regresión lineal es aplicado en un gran número de campos, desde el ámbito científico
hasta el ámbito social, pasando por aplicaciones industriales ya que en multitud de situaciones se
encuentran comportamientos lineales. Estos son algunos ejemplos aplicados a diversos campos:
Química
Mecánica
En esta rama se utiliza la Regresión Lineal entre otros para ajustar la recta de Paris, una ecuación
que sirve para estudiar elementos sometidos a fatiga en función del número de ciclos a los que se
somete un material. La bondad del ajuste se comprueba representando el conjunto de valores
discretos a-Nm obtenidos experimentalmente, frente a la curva correspondiente a la recta de Paris
definida por los valores “C” y “m”.4
Electricidad
Sensores
Calibración de un sensor de temperatura (termopar) en función
de la caída de tensión y la temperatura. Se estudia la forma en que varía la temperatura de un
líquido al calentarlo. Se calibra el sensor y simultáneamente se mide la variación de temperaturas
en un líquido para representar los datos obtenidos posteriormente mediante Regresión Lineal.6
Física
Fabricación
Dos de los parámetros más importantes de una soldadura es la intensidad aplicada al hilo y la
velocidad de alimentación del mismo. Mediante técnicas de regresión lineal se elaboran las rectas
que relacionan estos parámetros con la separación entre el hilo y la zona a soldar. 8
Diseño de experimentos
proceso industrial.9
Construcción
Mediante técnicas de regresión lineal se caracterizarán diversas cualidades del hormigón. A partir
del módulo de elasticidad es posible predecir la resistencia a la compresión de una determinada
composición de un hormigón. También se puede
determinar la succión capilar a partir del volumen absorbido por
una muestra y el tiempo que ha durado la succión.10
Puede descargar una hoja de Excel con los datos y los resultados.
Los datos proceden de Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology,
New York: Academic Press, Inc.. Corresponden a 237 niños detallados por su sexo, su edad en
meses, su estatura en inch (1 inch = 2.54 cm), y su peso en libras (1 libra = 0.45 kg).
Una vez que haga clic en el botón OK, los cálculos empiezan y los resultados son visualizados.
El primer cuadro de resultados proporciona los coeficientes de ajuste del modelo. El R’²
(coeficiente de determinación) proporciona una idea del % de variabilidad de la variable a
modelizar, explicado por la variable explicativa. Mientras más cerca está de 1 este coeficiente,
mejor es el modelo.
En nuestro caso, 60% de la variabilidad del peso es explicada por la estatura. El resto de la
variabilidad es debido a efectos (variables explicativas) que no son tenidos en cuenta en este
ejemplo.
El cuadro de análisis de la varianza es un resultado que debe ser atentamente analizado (ver a
continuación). Es en este nivel que comprobamos si podemos considerar que la variable
explicativa seleccionada (la estatura) origina una cantidad de información significativa al modelo
(hipótesis nula H0) o no. En otros términos, es una manera de comprobar si la media de la variable
a modelizar (el peso) bastará con describir los resultados obtenidos o no.
La prueba del F de Fisher es utilizada. Dado que la probabilidad asociada al F, en este caso, es
inferior
de 0.0001, significa que nos arriesgamos de menos del 0.01%
concluyendo que la variable explicativa origina una cantidad de información significativa al
modelo.
El siguiente cuadro proporciona los detalles sobre el modelo y es esencial en cuanto el modelo
debe ser utilizado para realizar previsiones, simulaciones o si debe ser comparado a otros
resultados, por ejemplo los coeficientes que obtendríamos para los varones. Vemos que si el
parámetro de la estatura tiene un intervalo de confianza bastante restringido, el de la constante del
modelo es bastante importante. La ecuación del modelo es proporcionada abajo del cuadro.
El modelo enseña que en los límites proporcionados por las observaciones del intervalo de la
variable tamaño, cada vez que la estatura aumenta de un inch, el peso aumenta de 3.8 libras.
El cuadro siguiente expone el análisis de los residuos. Los residuos centrados reducidos deben
tener una atención particular, dado que las hipótesis vinculadas a la regresión lineal, deben ser
distribuidas según una ley normal N (0,1). Eso significa, entre otros, que 95% de los residuos
deben encontrarse en el intervalo [- 1.96, 1.96]. Dado que el escaso número de datos del que
disponemos aquí, cualquier valor fuera de este intervalo es revelador de un dato sospechoso.
Hemos utilizado la herramienta Data Flagger de XLSTAT, con el fin de demostrar rápidamente
los valores que se encuentran fuera del intervalo [-1.96, 1.96].
Podemos aquí identificar nueve observaciones dudosas, en 237
observaciones. Este análisis de los residuos no anula la hipótesis de normalidad.
El primer gráfico permite visualizar los datos, la recta de regresión, y los dos intervalos de
confianza (el intervalo alrededor de la media del estimador es lo más cerca de la curva, el segundo
es el intervalo alrededor de la estimación puntual). Vemos asá claramente una tendencia lineal,
pero con una intensa variabilidad alrededor de la recta. Los 9 valores sospechosos están fuera del
segundo intervalo de confianza.
El tercer grafico permite analizar si hay una relación entre la variable explicativa y los residuos.
Una de las hipótesis del modelo, es que no debe haber ninguna relación.
El grafico siguiente permite comparar las predicciones con las observaciones.
En conclusión, la estatura permite explicar 60% de la variabilidad del peso. Para explicar la
variabilidad sobrante, otras fuentes de variabilidad deben entonces ser utilizadas en el modelo. En
el tutorial sobre la regresión lineal múltiple, la edad es añadida como segunda variable explicativa.
Bibliografía
Bernal, A. R., Macorra, M. Z., & Alvarenga, J. C. (2011). ¿Cómo y cuándo realizar un análisis
de regresión lineal simple? Aplicación e interpretación. Recuperado el 20 de 1 de 2019,
de http://medigraphic.com/pdfs/derrevmex/rmd-2011/rmd116n.pdf
Estepa, A., Serrano, M. M., Cañadas, G. R., & García, J. M. (2012). Algunas notas históricas
sobre la correlación y regresión y su uso en el aula. Recuperado el 20 de 1 de 2019, de
http://sinewton.org/numeros/numeros/81/articulos_01.pdf
Piña, J. O., Ocampo, A. A., Olivares, A. C., & Rodarte, N. H. (1995). Regresión lineal simple.
Recuperado el 20 de 1 de 2019, de http://repositorio.upct.es/handle/10317/3304
Sierra, E. J. (2011). Técnicas de Investigación Social II. Tema 15: ANOVA unidireccional.
Recuperado el 20 de 1 de 2019, de
http://rua.ua.es/dspace/bitstream/10045/19785/1/anova1.pdf
(Piña, Ocampo, Olivares, & Rodarte, 1995) (Delgado, 2012) (González & Yurda, 2001) (Estepa,
Serrano, Cañadas, & García, 2012) (Bernal, Macorra, & Alvarenga, 2011) (Sierra, 2011)
Actividad 4. Proyecto Integrador Etapa 2.
Varianza de un factor
La situación que trata de resolver el ANOVA de un factor es similar a la que se resolvía mediante
la prueba t de Student para dos muestras independientes.
El estadístico t de Student trata de dar una respuesta ante el supuesto de igualdad de dos muestras.
No obstante, esta condición en la mayoría de los casos puede ser demasiado simplista. Imaginemos
un caso común:
Pero ahora nos podemos plantear si es igual de efectiva para los hombres y para las mujeres, o nos
podemos preguntar por la duración óptima de la aplicación de la técnica de relajación. El diseño
se va haciendo cada vez más complejo, pero también nos da más respuestas sobre nuestro objeto
de estudio. De esta manera el caso de estudio, como ejemplo, podría ser el siguiente:
Mediante la prueba t de Student llegamos a la conclusión de que los sujetos que practicaban la
técnica de relajación X puntuaban más bajo en ansiedad que lo que no la practicaron.
Vista su efectividad, vamos a tratar de afinar los resultados determinando si el tiempo de ejecución
de la técnica influye en su efectividad, las dos condiciones son: tiempo A (15 minutos al día 5 días
a la semana), y tiempo B (30 minutos 3 días a la semana). Pero no nos quedaremos aquí, también
analizaremos los datos en función de si el tiempo se les aplica a los hombres y a las mujeres. (Este
será nuestro problema de referencia)
Como vemos, las repuestas que buscamos nos las podría ofrecer también la prueba t de Student
para dos muestras independientes, si cada condición la vamos comparando con las demás. Pero
por este método nos aumentaría la probabilidad de cometer error tipo I, es decir, aumentaría la
probabilidad de que rechazásemos la hipótesis nula cuando es
cierta. No entraremos en la demostración matemática que lo justifica, pero debemos saber por que
debemos usar el análisis de varianza en lugar de múltiples pruebas t.
Una vez situados en el contexto del problema, vamos a proceder a analizar en que consiste el
análisis de varianza.
Como ya se ha dicho, el análisis de varianza somete a comparación las medias de tres o más
muestras independientes, pero lo hace a partir de la variabilidad (o dispersión de los datos)
encontrada en ellas. De esta manera, hay que diferenciar dos fuentes de variabilidad, la que
variabilidad debida al factor estudiado (en nuestro caso el nivel de ansiedad), y la variabilidad
debida al error experimental (no olvidemos que todos nuestros experimentos se verán afectados
en menor o mayor medida por variables extrañas).
Variable independiente o factor: se refiere a cada una de las categorías en que se mide la variable
dependiente, por ejemplo, según el tiempo de duración de la técnica de relajación o en función del
sexo, o una combinación de ambas. Estas categorías pueden ser de tipo nominal u ordinal.
Si hay cambios con respecto a su media, podemos saber en que categoría o factor se produce, lo
que nos permitirá llegar a una serie de conclusiones. Esta variación, en nuestro caso, podría ser
consecuencia de factor que hace diferentes al los grupos, la técnica de relajación aplicada, el sexo,
o una combinación de ambas. En este sentido es preciso tener en cuenta que no todas las
comparaciones necesariamente van a ser de interés para nosotros. Tengamos en cuenta que en un
análisis con 7 factores el número de comparaciones posibles será de:
Formula 1: Número de comparaciones entre factores.
Bondad de ajuste.
La independencia de las observaciones puede ser probada mediante el estadístico t de Student para
la correlación de Pearson. Dicho estadístico se vio en el artículo de comparación de dos muestras
relacionadas mediante la prueba t de Student. Esta prueba habría que ponerla a prueba en
comparaciones dos a dos, por lo que seria preferible usar una prueba como el test de Rachas.
Sobre el planteamiento hecho en nuestro problema de referencia, vamos ahora de definir las
variables que analizaremos en nuestro modelo.
En este caso partimos de un conjunto de sujetos de ambos sexos y los asignamos de manera
aleatoria a las siguientes categorías:
Con este diseño podremos comprobar como se comporta nuestra terapia de relajación para el
tratamiento de la ansiedad, según sea el sexo y los tiempos de aplicación. Mientras más efectiva
sea la terapia de relajación, los valores de ansiedad serán más bajos.
Para ilustrar nuestro análisis vamos a tomar en consideración los datos del siguiente archivo de
referencia, que consta de tres hojas, su contenido es el siguiente:
Hoja Datos.- contiene los valores de puntuación en ansiedad en cada una de las condiciones (o
factores) descritos con anterioridad.
Hoja Excel.- contiene el análisis de datos realizando los cálculos con Excel, y la tabla resultado
del análisis mediante la función de análisis de datos de Excel.
Hoja SPSS.- Contiene los datos agrupados para su análisis con SPSS.
El ANOVA de un factor pone a prueba la hipótesis nula que afirma que todas las muestras tienen
la misma media.
Dado que el ANOVA analiza la variabilidad de los diferentes factores, distinguiremos entre
variabilidad entre los diferentes niveles (MCinter) y variabilidad dentro de cada nivel (MCintra). De
esta manera, lo primero será calcular cada una de estas medias cuadráticas, donde la media
cuadrática inter nivel (entre niveles) es un estimador sesgado de la varianza poblacional, y la media
cuadrática intra nivel (dentro de cada nivel) será un estimador insesgado de la varianza
poblacional.
Siguiendo este razonamiento, el estadístico ANOVA se distribuye como una F de Snedecor, dado
que las medias cuadráticas se distribuyen como una Chi de Pearson.
Los cálculos a realizar para llevar a cabo el estadístico ANOVA para más de dos muestras
independientes pueden verse realizados en la hoja de cálculo Excel del documento de referencia.
Las formulas y datos con que se opera pueden ser extraídas de la hoja de cálculo Excel. Si no
conoce el funcionamiento de este programa, le remito a nuestro curso básico de Excel.
Como podemos ver el estadístico F toma el valor 11,59 (aproximadamente) dado que su
probabilidad es aproximadamente 0 (2,3911E-11), podemos concluir que al menos un factor
difiere en su media con respecto a los demás.
Por otro lado, respecto al valor crítico 2,14 (aproximadamente), vemos que el estadístico F toma
un valor mayor 11,59 (aproximadamente), lo que nos lleva ha hacer la misma afirmación que ya
hicimos antes, es decir, al menos un factor difiere en su media con respecto a los demás.
Como ya se comento, las variables independientes o factores serán de tipo no métrico, y esto
contempla dos posibilidades, ser de tipo nominal u ordinal. Esto conlleva diferencias conceptuales
que debemos tener en cuenta.
Un factor es aleatorio, y por tanto de tipo nominal, si sus niveles consisten en una selección al azar
de una población de niveles posibles. Un factor es considerado fijo, y por tanto de tipo ordinal, si
sus niveles son escogidos premeditadamente por un procedimiento no aleatorio (Milliken y
Johnson,
1992). Por ejemplo, en una muestra al azar de profesores en un
estudio experimental sobre la influencia de distintos estilos de enseñanza en el rendimiento, la
variable profesor constituiría un factor aleatorio. Si comparamos en cambio la eficacia de tres
métodos didácticos concretos (A, B y C por ejemplo), éstos constituirían un factor de efectos fijos
ya que se está específicamente interesado en estos métodos y no en otros. Se considera un modelo
de efectos mixtos a aquél en el que uno o más factores son fijos y al menos uno es aleatorio.
En el modelo de efectos fijos se somete a prueba unos determinados niveles que son de nuestro
interés, mientras que en el modelo de efectos aleatorios los factores son una muestra representativa
de todos los posibles factores de un modelo de efectos fijos. Esta aparentemente diferencia
superflua implica que en un modelo de efectos fijos la hipótesis nula sometida a prueba es que no
hay diferencias con respecto a su media. Pero en el caso de efectos aleatorios se parte de que las
medias serán iguales si la variabilidad de todas las medias es igual a cero, siendo esta la hipótesis
nula que se pone a prueba.
Comparaciones múltiples.
El estadístico F, como se desprende del propio modelo inferencial de Neyman y Pearson, supone
una respuesta de tipo dicotómico a la igualdad de las medias. Si la hipótesis nula es aceptada (es
decir, las medias son iguales), hemos terminado, no hay mucho más que decir. Pero, si por el
contrario encontramos diferencias estadísticamente significativas (es decir, rechazamos la
hipótesis nula), nos queda resolver cual (o cuales) de los factores son los responsables del rechazo
de la hipótesis nula.
Las posibles comparaciones que podemos realizar entre I factores será I – 1. Por tanto si tenemos
como en nuestro problema de referencia 7 factores, tendremos 6 posibles comparaciones de medias
independientes. Y la probabilidad de aceptar la igualdad de las
7 cuando realmente son iguales con un alpha de 0,05 será de:
(1 – 0,05)6 = 0,735
1 – 0,735 = 0,265
Comparaciones planificadas o a priori.- son las comparaciones que realizamos antes del análisis
de los datos.
Comparaciones no planificadas o a posteriori o también post hoc.- son las comparaciones que nos
permiten conocer cual es el factor responsable del rechazo de la hipótesis nula.
Las comparaciones que más importancia van a tener serán las comparaciones a posteriori, dado
que estas nos descubren cual es el factor responsable del rechazo de la hipótesis nula, por tanto,
no tienen sentido cuando la hipótesis nula es aceptada.
La prueba de Tukey.
El test HSD (honestly significant difference) desarrollado por Tukey realiza comparaciones entre
medias (de dos en dos) pero fijando la tasa de error tipo I en alpha. Y esta es la prueba más usada.
Excel no tiene ninguna función predeterminada para hallar este valor, por lo que tendremos que
recurrir a su formula para llevar a cabo el cálculo.
Si nuestro modelo fuera equilibrado n tomaría el valor del tamaño de cada factor, pero como es
diferente, tenemos que usar la media armónica del tamaño de los factores, que la designaremos
por n’. Así n’ vale: 32,3077 (celda G69).
Con estos datos ya podemos calcular el valor HSD de Tukey, y toma el valor:
Por tanto, todas las diferencias de medias que en valor absoluto sean iguales o mayores que el
valor 4.8216 serán responsables del rechazo de la hipótesis nula.
Así los factores C, D, E, F, y G no difieren en media entre si, ya que la diferencia entre ninguna
de estas medias supera el valor 4,8216.
Los factores A y E difieren en su media ya que la diferencia en valor absoluto de sus medias es de
39,02 – 32,3 = 6,72.
De esta forma podemos saber que factores son responsables del rechazo de la hipótesis de igualdad
de medias.
La prueba de Scheffé.
La prueba de Scheffé realiza comparaciones entre medias (de
dos en dos) fijando la tasa de error tipo I en alpha. Esta prueba es más conservadora que la de
Tukey, lo que nos llevara a considerar como iguales más medias de las que nos indicaba la prueba
de Tukey.
Por tanto:
Como dijimos esta prueba es considerablemente más conservadora que la de Tukey, y dado que
ninguna diferencia entre medias supera el valor 10,96, podemos concluir que todas son iguales.
Una prueba es más conservadora cuanto más favorece la aceptación de la hipótesis nula.
Por último, y antes de entrar con SPSS, diremos que Excel tiene
una opción, una vez instalada las herramientas de análisis, que permite la obtención del estadístico
F para el ANOVA de un factor. Pero esta opción solo nos da el estadístico F, por lo que en el caso
del rechazo de la hipótesis nula, no sabríamos que diferencias son las responsables del rechazo. La
tabla que genera Excel puede verse en el rango J1:P20. Esta limitación nos lleva al análisis
mediante SPSS.
Como podemos ver con este análisis, los cálculos, si no complejos, ya se hacen muy laboriosos
para realizarlos manualmente o con una calculadora, incluso con Excel, que aún facilitándolo
muchísimo, hay que introducir muchas formulas. Por ello, cuando nos enfrentemos a las técnicas
multivariantes, debemos recurrir a un programa de análisis estadístico avanzado, y SPSS cumple
esta característica, además de disponer de grandes cantidades de documentación en Internet para
la realización de los procedimientos e interpretación de las tablas de resultados.
El primer problema que nos vamos a encontrar cuando tratamos de realizar este análisis con SPSS
es que, a diferencia de Excel, debe contener la variable dependiente en una columna, y los factores
en otra. La disposición puede verse en el documento de referencia en la hoja SPSS. Además
deberemos transformas el factor, nombrado en dicho documento con letras, en una numeración
equivalente. Por ejemplo, si los factores eran A, B, C, D, E, F y G, ahora los llamaremos 1, 2, 3,
4, 5, 6, y 7 respectivamente, y asignarles como etiquetas el nombre de cada factor para que
aparezcan referenciados en los términos que los hemos nombrado. Esto lógicamente tendrá
repercusiones en la interpretación de las tablas, es decir, si transformamos A en 1, debemos tener
esto en cuenta.
La tabla 6 nos muestra los principales estadísticos descriptivos y el intervalo de confianza con un
alpha de 0,05 (1 - 0,95 = 0,05).
Tabla 7.
La tabla 7 nos muestra el estadístico de Levene para la homogeneidad de varianzas, dado que su
valor de significación (0,223) es mayor que 0,05 (alpha), aceptamos que las varianzas son
homogéneas o similares entre si. Recordemos que este supuesto es fundamental en el análisis de
varianza, y nos indicara que diferencias post hoc debemos considerar para determinar la
responsabilidad del rechazo de la hipótesis nula.
Así, dado que son diferentes las medias, y dado que las varianzas son homogéneas, tendremos en
cuenta las comparaciones post hoc de Tukey y Scheffé, las demás, no las tendremos en
consideración. Estas tablas puede verla en la hoja de resultados de SPSS.
En la tabla 10 podemos ver la representación grafica de las medias que nos ofrece SPSS.
Con todo esto, ya podemos interpretar los resultados dentro del contexto de nuestra investigación.
Dado que:
no difieren entre si, podemos afirmar que nuestra técnica de relajación como tratamiento reductor
de la ansiedad, no parece tener un efecto reductor de la ansiedad.
No se encuentran diferencias entre los sujetos a los que se les aplica la terapia de relajación y los
que no, no hay diferencias entre los sexos, y tampoco se ha podido constatar diferencias entre el
tiempo de aplicación. Las diferencias entre factores parecen estar motivadas por el azar. Cabria,
tras la observación del gráfico, decir que se aprecia una reducción en ansiedad en todos los casos
de aplicación con respecto a cuando no hay terapia, y una acusada reducción de la ansiedad cuando
ambos sexos han sido tratados simultáneamente con tiempo A. Sin embargo, esta tendencia no se
ha mantenido en los demás casos. Cabria preguntarse si ha podido existir una variable extraña que
pueda haber influido en los resultados.
Merece destacar que se rechazó la hipótesis nula de igualdad de medias, pero que las diferencias
que se han producido, no lo han hecho en el sentido que se esperaba que lo hicieran, de ahí la
importancia de plantear de manera adecuada las hipótesis de trabajo e interpretar los resultados
basados en las hipótesis estadísticas, en función de la hipótesis de trabajo a la que queremos dar
respuesta. Por tanto, no es solo que haya diferencias, sino que las diferencias se encuentren donde
nuestra hipótesis de trabajo dice que sea importante que las haya, Con todo esto, damos por
finalizado los aspectos más básicos del análisis de varianza de un factor.
La varianza de dos factores.
Es un diseño de anova que permite estudiar simultáneamente los efectos de dos fuentes de
variación.
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el
tercero la observación dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se
habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de
efectos aleatorios (modelo mixto). El modelo matemático de este análisis es:
modelo I
modelo II
modelo mixto
donde m es la media global, ai o Ai el efecto del nivel i del 1º factor, bj o Bj el efecto del
nivel j del 2º factor y e ijk las desviaciones aleatorias alrededor de las medias, que también se
asume que están normalmente distribuidas, son independientes y tienen media 0 y varianza s2.
A los términos ( ab )ij, (AB)ij, (aB)ij, se les denomina interacción entre ambos factores y
representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para
cada nivel del otro factor.
Para entender mejor este concepto de interacción veamos un
ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supóngase un estudio
para analizar el efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al
azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se
les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el tiempo que
los sujetos tardan en dormirse desde el suministro de la píldora.
Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles (hombre y
mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de resultados posibles
se esquematizan en la figura
A B
En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo tratado como
en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan más en
dormirse que los tratados con somnífero en ambos sexos (hay un efecto del tratamiento). Ambos
efectos son fácilmente observables.
Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto en ambos
sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto en ambos grupos
de tratamiento. En este caso, se dice que existe interacción.
Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos
niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y los hombres
antes con el placebo.
La interacción indica, por tanto, que los efectos de ambos
factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen
cuando están por separado, por lo que, si en un determinado estudio se encuentra interacción
entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la
interacción positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la
suma de efectos actuando por separado, en Biología se le denomina sinergia o potenciación y a
la interacción negativa inhibición. En el ejemplo de la figura B, se diría que el ser mujer inhibe el
efecto del somnífero, o que el ser hombre lo potencia (según el sexo que se tome como
referencia).
(donde para representar las medias se ha usado la convención habitual de poner un punto (.) en el
lugar del subíndice con respecto al que se ha sumado) que dividida por sus grados de
libertad, abn - 1, estima la varianza s2 en el supuesto de que las ab muestras provengan de una
única población.
que es la llamada identidad de la suma de cuadrados en un anova de dos factores. Los sucesivos
sumandos reciben respectivamente el nombre de suma de cuadrados del 1º factor (tiene a -1
grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 1º factor), del 2º
factor (con b -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al
2º factor), de la interacción (con (a - 1)(b - 1) grados de libertad, recoge la variabilidad debida a
la interacción) y del error (con ab(n - 1) grados de libertad, recoge la variabilidad de los datos
alrededor de las medias de cada muestra).
Los resultados de un análisis de la varianza de dos factores se
suelen representar en una tabla como la siguiente:
Fuente de variación GL SS MS
1º factor a-1 SSA SSA/(a - 1)
2º factor b-1 SSB SSB/(b - 1)
Interacción (a - 1)(b - 1) SSAB SSAB/[(a - 1)(b - 1)]
Error ab(n - 1) SSE SSE/[ab(n - 1)]
Total abn - 1 SST
En ocasiones se añade una primera línea llamada de tratamiento o de subgrupos cuyos grados de
libertad y suma de cuadrados son las sumas de los del primer, segundo factor y la interacción,
que corresponderían a la suma de cuadrados y grados de libertad del tratamiento de un análisis de
una vía en que las ab muestras se considerarán como muestras de una clasificación única.
Para plantear los contrastes de hipótesis hay que calcular los valores esperados de los distintos
cuadrados medios.
Del mismo modo que se hizo en el anova de una vía, para plantear los contrastes de hipótesis
habrá que calcular los valores esperados de los distintos cuadrados medios. Los resultados son:
Modelo I
MS Valor esperado
MSA
MSB
MSAB
MSE
Por lo tanto, los estadísticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con
los grados de libertad correspondientes y permiten contrastar, respectivamente, las hipótesis:
ii) no existe efecto del primer factor, es decir, diferencias entre niveles del primer factor
(MSA/MSE)
Modelo II
MS Valor esperado
MSA
MSB
MSAB
MSE
donde son, respectivamente las componentes añadidas por el primer factor, por
el segundo y por la interacción, que tienen la misma forma que los del modelo I, sin más que
cambiarai y bj por Ai y Bj, respectivamente.
En un modelo II, como no se está interesado en estimar los efectos de los factores sino sólo la
existencia de la componente añadida, sí tiene sentido contrastar la existencia de la misma para
cada factor incluso aunque exista interacción.
Aquí el problema se plantea cuando no se puede rechazar la hipótesis nula y se concluye que no
existe interacción: entonces tanto MSE como MSAB estiman s2, entonces ¿cuál se elige para
contrastar la componente añadida de los factores?.
En principio, parece razonable escoger su media (la media de varios estimadores centrados es
también un estimador centrado y más eficiente), sin embargo si se elige MSAB se independiza el
contraste para los factores de un posible error tipo IIen el contraste para la interacción. Hay
autores que por ello opinan que es mejor usar MSAB, pero otros proponen promediar si se puede
asegurar baja la probabilidad para el error tipo II. La media de los cuadrados medios se calcula
dividiendo la suma de las sumas de cuadrados por la suma de los grados de libertad.
Ejemplo
A partir de la siguiente tabla de un anova de 2 factores modelo II, realizar los contrastes
adecuados.
2º factor: f = 274,5/27,41 = 10,015 como F 0,05(3,12) = 3,49 se rechaza la hipótesis nula y se acepta
la existencia de componente añadida por este factor.
El resultado del análisis es: no existe componente añadida por la interacción, tampoco por el 1º
factor y sí existe componente añadida por el 2º.
La estimación de esta componente es: como a partir de los grados de libertad de la tabla podemos
23,54 con 112 grados de libertad y hubiera resultado significativo también el 1º factor.
pero que no hay interés en probar su influencia, sólo se bloquea para mininizar la variabilidad de
este factor externo, evitando que contamine la prueba de igualdad entre los tratamientos.
Los tratamientos se asignan a las columnas y los bloques a los renglones. Un bloque indica
condiciones similares de los sujetos al experimentar con diferentes tratamientos.
Ejemplo 1.
Experiencia Máquinas
1 27 21 25 24.33333
2 31 33 35 33
3 42 39 39 40
4 38 41 37 38.66667
5 45 46 45 45.33333
SS GL CM Fc Falfa
Fbl =
SCBL= 764.9333 4 CMBL= 191.2333 37.25 3.84
Ejemplo 2
Una empresa de taxis intenta crear un sistema de rutas que minimice el tiempo que se pasa
manejando a ciertas localidades. El tiempo que toma viajar en cada ruta por los taxis se muestra a
continuación:
Var.
Bloqueo Factor - Ruta
Taxista 1 2 3 4
1 12 15 17 13
2 18 18 18 17
3 10 11 15 9
4 13 12 12 15
5 18 14 12 15
y si afecta el taxista.
Var.
Bloqueo Factor - Ruta
Taxista 1 2 3 4
1 12 15 17 13
2 18 18 18 17
3 10 11 15 9
4 13 12 12 15
5 18 14 12 15
X 14.2
SCT 153.2
rj*(Xj -
r 5 X)^2
SCTR 2.8
c 4
c*(Xi-
X)^2
50.41
34.81
5.76
1.21
SCE 58.2
TABLA ANOVA
Fuente de
SC g.l. CM FC
Variación
Columnas 2.8 3 0.9333333 0.1924399
Total 153.2
Conclusión: No hay diferencia en la tiempo por las rutas a pesar de diferencias en taxistas
(n) datos 20
n-c 16
CME 4.85
Diferencias Significativas
x1-x2 3.5 No
x1-x3 3 No
x1-x4 1.25 No
x1-x5 0.5 No
x2-x5 3 No
x3-x4 1.75 No
x3-x5 3.5 No
x4-x5 1.75 No
F= 4.7472
DMS = 2.1459
Un químico quiere probar el efecto de 4 agentes químicos sobre la resistencia de un tipo particular
de tela. Debido a que podría haber variabilidad de un rollo de tela a otro, el químico decide usar
un diseño de bloques aleatorizados, con los rollos de tela considerados como bloques. Selecciona
5 rollos y aplica los 4 agentes químicos de manera aleatoria a cada rollo. A continuación se
presentan las resistencias a la tención resultantes. Analizar los datos de este experimento (utilizar
α=0.05) y sacar las conclusiones apropiadas.
Rollo
Agente
Químico 1 2 3 4 5
1 73 68 74 71 67
2 73 67 75 72 70
3 75 68 78 73 68
4 73 71 75 75 69
Solución
Rollo Y (gran
Químico 1 2 3 4 5 )
1 73 68 74 71 67 70.6 71.75
2 73 67 75 72 70 71.4
3 75 68 78 73 68 72.4
4 73 71 75 75 69 72.6
Residuos (Eij)
ANÁLISIS DE VARIANZA
Total 191.75 19
Para el caso de los agentes químicos que son los renglones:
La Ho. No se rechaza debido a que el valor de tablas de f esta en 3.49 y el valor Fc calculado es
de 2.37 por lo tanto no cae en la zona de rechazo.
Por otro lado el valor P = 0.1211 es mayor a 0.05 de alfa por lo tanto confirma el no rechazo.
La Ho. se rechaza debido a que el valor de tablas de f esta en 3.25 y el valor Fc calculado es
21.60 por lo tanto cae en la zona de rechazo.
Por otro lado el valor P = 0.00003 es menor a 0.05 de alfa por lo tanto confirma el rechazo.
3. Procedimiento en Excel:
Análisis de varianza de dos factores con una sola muestra por grupo
ANÁLISIS DE VARIANZA
Grados F
Fuente de Suma de de Cuadrados Fc Probabilidad tablas
Total 191.75 19
Total 231 24
En la tabla observamos que el estadístico de prueba Fc es menor al valor crítico para F 2.38<3.49,
por lo cual no rechazamos al Hipótesis nula H0. No tenemos evidencia estadística para afirmar que
el agente químico tenga influencia en la respuesta.
Sin embargo observamos que el rollo si tiene influenza significativa en la respuesta (P<0.05).
4. ANOVA en Minitab.
Utilice = 0.05 para calcular si hay diferencias entre los efectos de las columnas y los renglones.
Introducir los datos arreglados con las respuestas en una sola columna e indicando a que renglón
y columna pertenece cada uno de estos, como sigue:
73 1 2
75 1 3
73 1 4
68 2 1
67 2 2
68 2 3
71 2 4
74 3 1
75 3 2
78 3 3
75 3 4
71 4 1
72 4 2
73 4 3
75 4 4
67 5 1
70 5 2
68 5 3
69 5 4
Instrucciones:
Stat > ANOVA > One two Way
Response Respuesta, indicar Row factor y Column Factor, Seleccionar º! Display Means
Graphs
OK
Resultados:
La gráfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el
modelo:
Los residuos se aproximan a la distribución normal por lo cual se concluye que se está utilizando
un modelo válido.
Normal Probability Plot of the Residuals
(response is Resp)
99
95
90
80
70
Percent
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
Residual
Source DF SS MS F P
Total 19 191.75
1 70.6 (----------*----------)
2 71.4 (----------*----------)
3 72.4 (----------*----------)
4 72.6 (----------*----------)
---+---------+---------+---------+------
Pooled StDev
1 73.50 (-----*-----)
2 68.50 (-----*-----)
3 75.50 (-----*-----)
4 72.75 (-----*-----)
5 68.50 (-----*-----)
--+---------+---------+---------+-------
67.5 70.0 72.5 75.0
Los Fits y los residuales coinciden con los valores determinados en Excel.
• Zubcoff, J. (2013). Análisis Estadístico y Uso de Bases de Datos. ANOVA con varios factores.
Factores ortogonales. Recuperado el 9 de 2 de 2019, de
http://rua.ua.es/dspace/bitstream/10045/33679/1/43800_anova_disenos_factoriales_ortogona
les.pdf
• Rodríguez, J. y Pierdant, A. (2014). Estadística aplicada II: estadística en administración para la toma
de decisiones. Ciudad de México, México: Grupo Editorial Patria. Recuperado de
http://site.ebrary.com/lib/vallemexicosp/detail.action?docID=11013295&p00=estadistica+aplicada
+ii