GUIA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 22

Universidad Tecnológica

De Querétaro.

Evaluación III.

Probabilidad y Estadística.
Carrera:

Técnico Superior Universitario En Mecánica.


Área Automotriz.
Presenta:
Granados Martínez Luis Arturo.
Martinez Tamayo Cristopher.
Rosas Pérez Braynt Isaac.
Ruiz Trejo Luis David.
Matriculas:

2022168006
2022168021
2022168018
2022168001
Docente:

Ing. Víctor Urzua Olalde.


Probabilidad y Estadística. MA-23 17/08/2022

Contenido
Estimación. .......................................................................................................................................... 2
Estimación Puntual.......................................................................................................................... 2
Estimación por intervalos................................................................................................................ 3
Error estándar de estimación. ......................................................................................................... 5
¿Cómo se calcula? ....................................................................................................................... 6
Prueba de hipótesis. ............................................................................................................................ 6
Hipótesis nula. ................................................................................................................................. 8
Prueba de una Hipótesis. ................................................................................................................ 9
Error tipo I ..................................................................................................................................... 10
Error tipo II. ................................................................................................................................... 10
Regresión lineal. ................................................................................................................................ 10
Tipos de regresión lineal: .............................................................................................................. 11
Test de hipótesis. .............................................................................................................................. 11
SUMA DE CUADRADOS...................................................................................................................... 13
Suma de los cuadrados en ANOVA.................................................................................................... 13
Sumas secuenciales de los cuadrados............................................................................................... 14
Sumas ajustadas de los de cuadrados ............................................................................................... 14
Cuadrados medios ............................................................................................................................. 16
ESTADISTICO DE PRUEVA .................................................................................................................. 17
¿Qué es la prueba de la hipótesis? ................................................................................................... 18
CONCLUSIONES Y ERRORES DE UN TEST DE HIPÓTESIS .................................................................... 20
Bibliografía: ....................................................................................................................................... 21

1
Probabilidad y Estadística. MA-23 17/08/2022

Estimación.
La estimación es la determinación de un elemento o factor. Esto, usualmente
tomando como referencia una base o conjunto de datos.
En otras palabras, la estimación es un cálculo que se realiza a partir de la evaluación
estadística. Dicho estudio suele efectuarse sobre una muestra y no sobre toda la
población objetivo.
Para llevar a cabo una estimación, entonces, es necesario primero contar con una
serie de datos. Además, es común que los investigadores se sustenten en un marco
teórico.
Por ejemplo, podemos estimar la inflación definiéndola como la diferencia entre los
precios (de la economía) del periodo A y los precios del periodo B. Entonces, se
calcula una variación porcentual entre los datos registrados en ambos puntos del
tiempo.
Vale aclarar también que la estimación puede efectuarse sin rigurosidad
matemática. Esto suele suceder, por ejemplo, cuando se consulta a algunos
expertos sobre cuánto va a crecer la economía en el presente año. Entonces, sin
haber trabajado un cálculo econométrico, el analista lanza una cifra (o un rango),
posiblemente con base en los indicadores que se vienen observando, como el
consumo de cemento.

Estimación Puntual.

La estimación puntual de algún parámetro de la población es un solo valor de un


estadístico Ô. Por ejemplo, el valor ẋ del estadístico Ẋ, que se calcula a partir de
una muestra de tamaño n, es una estimación puntual del parámetro de la población
µ. De manera similar.
𝑋
𝑝=
𝑛
Es una estimación puntual de la verdadera proporción р para un experimento
binomial. No se espera que un estimador logre estimar el parámetro de la población
sin error. No se espera que 𝑋 estime μ con exactitud, lo que en realidad se espera
es que no esté muy alejada. Para una muestra específica, la manera en que se
podría obtener una estima do más cercano de μ es utilizando la mediana de la
muestra 𝑋̃ como estimador.

2
Probabilidad y Estadística. MA-23 17/08/2022

Estimación puntual es aproximar el valor del parámetro desconocido (tiempo medio


de ejecución de un algoritmo, altura media de las mujeres de una población,
diferencia del resultado medio entre dos tratamientos médicos, proporción de gente
que mejora con un tratamiento médico…)
Para ello se utiliza la información de la muestra (x1, x2, …, xn) a través de un
estimador.
Algunos estimadores frecuentes son:
• Media muestral, para estimar la media teórica de una variable XX.
𝑋1 + ⋯ + 𝑋𝑛
𝑋=
𝑛
• Proporción muestral, para estimar una proporción pp:
𝑋1 + ⋯ + 𝑋𝑛
𝑃=
𝑛
Siendo X1,…,Xn, una muestra aleatoria simple de la variable X∈B(1,p) es decir, son
unos o ceros.
• Varianza muestral: para estimar la varianza teórica de una población, se
puede usar la varianza de una muestra:
(𝑋1 − 𝑋)2 + ⋯ + (𝑋𝑛 − 𝑋)2
𝑆2 =
𝑛
y también la llamada
• Casi-varianza muestral:

(𝑥1 − 𝑥̅ )2 + ⋯ + (𝑥1 − 𝑛)2


𝑆2𝑛 − 1 =
𝑛−1

Estimación por intervalos.

La estimación por intervalos consiste en establecer el intervalo de valores donde es


más probable se encuentre el parámetro. La obtención del intervalo se basa en las
siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener las
probabilidades de ocurrencia de los estadísticos muestrales.

3
Probabilidad y Estadística. MA-23 17/08/2022

b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la


probabilidad de que el estimador se halle dentro de los intervalos de la distribución
muestral.
c) El problema es que el parámetro poblacional es desconocido, y por ello el
intervalo se establece alrededor del estimador. Si repetimos el muestreo un gran
número de veces y definimos un intervalo alrededor de cada valor del estadístico
muestral, el parámetro se sitúa dentro de cada intervalo en un porcentaje conocido
de ocasiones. Este intervalo es denominado "intervalo de confianza".
Ejemplo:
Se generan 100000 muestras aleatorias (n=25) de una población que sigue la
distribución Normal, y resulta:

Población. Distribución muestral.


Media. 5.1 5.1
Desviación típica. 3.2

La distribución de las Medias muestrales aproxima al modelo Normal:

En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias


muestrales es:

6.3
𝜇𝑥 ± 1.96𝜎𝑥 = 5.1 ± (1.96)(0.6) = {
3.9
(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución
muestral son los valores cuya función de distribución es igual a 0.975 y 0.025
respectivamente y se pueden obtener en las tablas de la distribución Normal
estandarizada). Seguidamente generamos una muestra de la población y
obtenemos su Media, que es igual a 4.5. Si establecemos el intervalo alrededor de
la Media muestral, el parámetro poblacional (5.1) está incluido dentro de sus límites:

4
Probabilidad y Estadística. MA-23 17/08/2022

5.7
𝑋̅ ± 1.96𝜎𝑥 = 4.5 ± (1.96)(0.6) = {
3.3
Ahora bien, la distancia de un punto “A” a un punto “B” es la misma que de “B” a “A”.
Por esa razón, la distancia desde m a la Media muestral es la misma que va de la
Media muestral a m. En consecuencia, si hacemos un muestreo con un número
grande de muestras observamos que el 95% de las veces (aproximadamente) el
valor de la Media de la población (m) se encuentra dentro del intervalo definido
alrededor de cada uno de los valores de la Media muestral. El porcentaje de veces
que el valor de m se halla dentro de alguno de los intervalos de confianza es del
95%, y es denominado nivel de confianza.
Si queremos establecer un intervalo de confianza en que él % de veces que m se
halle dentro del intervalo sea igual al 99%, la expresión anterior es:

𝑋̅ ± 2.58𝜎𝑥
(Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la distribución
muestral en las tablas de la distribución Normal estandarizada o de funciones en
aplicaciones informáticas como Excel), y son los valores cuya función de
probabilidad es igual a 0.995 y 0.005 respectivamente).

Error estándar de estimación.

El error estándar de estimación mide la desviación en una muestra valor


poblacional. Es decir, el error estándar de estimación mide las posibles variaciones
de la media muestral con respecto al verdadero valor de la media poblacional.
Por ejemplo, si se desea conocer la edad promedio de la población de un país
(media poblacional) se toma un pequeño grupo de habitantes, a los que llamaremos
“muestra”. De ella se extrae la edad promedio (media muestral) y se asume que la
población tiene esa edad promedio con un error estándar de estimación que varía
más o menos.

5
Probabilidad y Estadística. MA-23 17/08/2022

Habría que reseñar que es importante no confundir la desviación estándar con el


error estándar y con el error estándar de estimación:

1- La desviación estándar es una medida de la dispersión de los datos; es decir,


es una medida de la variabilidad de la población.
2- El error estándar es una medida de la variabilidad de la muestra, calculada
en base a la desviación estándar de la población.
3- El error estándar de estimación es una medida del error que se comete al
tomar la media muestral como estimación de la media poblacional.

¿Cómo se calcula?

El error estándar de estimación se puede calcular para todas las medidas que se
obtienen en las muestras (por ejemplo, error estándar de estimación de la media o
error estándar de estimación de la desviación estándar) y mide el error que se
comete al estimar la verdadera medida poblacional a partir de su valor muestral
A partir del error estándar de estimación se construye el intervalo de confianza de
la medida correspondiente.
La estructura general de una fórmula para el error estándar de estimación es la
siguiente:
Error estándar de estimación = ± Coeficiente de confianza * Error estándar
Coeficiente de confianza = valor límite de un estadístico muestral o distribución de
muestreo (normal o campana de Gauss, t de Student, entre otras) para un
determinado intervalo de probabilidades.
Error estándar = desviación estándar de la población dividida por la raíz cuadrada
del tamaño de la muestra.
El coeficiente de confianza indica la cantidad de errores estándar que está dispuesto
a sumar y restar a la medida para tener un cierto nivel de confianza en los
resultados.

Prueba de hipótesis.
Las secciones anteriores han mostrado cómo puede estimarse un parámetro a partir
de los datos contenidos en una muestra. Puede encontrarse ya sea un sólo número

6
Probabilidad y Estadística. MA-23 17/08/2022

(estimador puntual) o un intervalo de valores posibles (intervalo de confianza). Sin


embargo, muchos problemas de ingeniería, ciencia, y administración, requieren que
se tome una decisión entre aceptar o rechazar una proposición sobre algún
parámetro. Esta proposición recibe el nombre de hipótesis. Este es uno de los
aspectos más útiles de la inferencia estadística, puesto que muchos tipos de
problemas de toma de decisiones, pruebas o experimentos en el mundo de la
ingeniería pueden formularse como problemas de prueba de prueba de hipótesis.
Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar
una afirmación acerca de una población dependiendo de la evidencia proporcionada
por una muestra de datos.
Suponga que se tiene interés en la rapidez de combustión de un agente propulsor
sólido utilizado en los sistemas de salida de emergencia para la tripulación de
aeronaves. El interés se centra sobre la rapidez de combustión promedio. De
manera específica, el interés recae en decir si la rapidez de combustión promedio
es o no 50 cm/s. Esto puede expresarse de manera formal como dos alternativas o
hipótesis:

𝐻0 ; 𝜇 = 50𝑐𝑚
𝑠

𝐻1 ; 𝜇 ≠ 50𝑐𝑚
𝑠

La proposición Ho; μ = 50 cm/s se conoce como hipótesis nula (PENSAR: NO HAY


DIFERENCIA), mientras que la proposición H1; μ ≠ 50 cm/s, recibe el nombre de
hipótesis alternativa (PENSAR: SÍ HAY DIFERENCIA).
Ahora bien, se podría considerar sólo un caso en la hipótesis alternativa o sea que
la hipótesis alternativa especifique valores de μ que pueden ser mayores o menores
que 50 cm/s, esto también se conoce como hipótesis alternativa de dos colas o
bilateral. alternativa de dos colas o bilateral En algunas situaciones, lo que se desea
es formular una hipótesis alternativa unilateral, como en los casos:

𝐻0 ; 𝜇 = 50𝑐𝑚
𝑠

𝐻0 ; 𝜇 > 50𝑐𝑚
𝑠

O
𝐻0 ; 𝜇 = 50𝑐𝑚
𝑠

𝐻0 ; 𝜇 < 50𝑐𝑚
𝑠

7
Probabilidad y Estadística. MA-23 17/08/2022

Es importante recordar que las hipótesis siempre son proposiciones sobre la


población o distribución bajo estudio, no proposiciones sobre la muestra sobre la
muestra. Por lo general, el valor del parámetro de la población especificado en la
hipótesis nula se determina en una de tres maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del
proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar
si ha cambiado el valor del parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con
el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es
verificar la teoría o modelo.
3. Cuando el valor del parámetro proviene de consideraciones externas tales
como las especificaciones de diseño o ingeniería, o de obligaciones contractuales.
En esta situación, el objetivo usual de la prueba de hipótesis es probar el
cumplimiento de las especificaciones.
Un procedimiento que conduce a una decisión sobre una hipótesis en particular
recibe el nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis
dependen del empleo de la información contenida en la muestra aleatoria de la
población de interés.
Si esta información es consistente con la hipótesis, se concluye que ésta es
verdadera; sin embargo, si esta información es inconsistente con la hipótesis, se
concluye que esta es falsa.
Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular
nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la
población.
Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es
necesario desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta
la probabilidad de llegar a una conclusión equivocada.

Hipótesis nula.

La hipótesis nula, representada por Ho, es la afirmación sobre una o más


características de poblaciones que al inicio se supone cierta (es decir, la “creencia
a priori”).
La hipótesis alternativa, representada por H1, es la afirmación contradictoria a Ho,
y ésta generalmente es la hipótesis para investigar.

8
Probabilidad y Estadística. MA-23 17/08/2022

La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia


muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho,
se continúa creyendo en la validez de la hipótesis nula. Entonces, las dos
conclusiones posibles de un análisis por prueba de hipótesis son:
Rechazar Ho o No rechazar Ho.

Prueba de una Hipótesis.

Para ilustrar los conceptos generales, considere el problema anterior de la rapidez


de combustión. La hipótesis nula podría ser que la rapidez promedio de combustión
es 50 cm/s, mientras que la hipótesis alternativa es que ésta no es igual a 50 cm/s.
Esto es, como se mencionó al principio, lo que se desea probar es:
Ho; μ = 50 cm/s
H1; μ ≠ 50 cm/s
Supóngase que se realiza una prueba sobre una muestra de 10 especímenes, y
que se observa cual es la rapidez de combustión promedio muestral. La media
muestral es un estimador de la media verdadera de la población. Un valor de la
media muestral x𝑥 que esté próximo al valor hipotético μ = 50 cm/s es una evidencia
de que el verdadero valor de la media μ es realmente 50 cm/s; esto es, que apoya
la hipótesis nula Ho. Por otra parte, una media muestral muy diferente de 50 cm/s
constituye una evidencia que apoya la hipótesis alternativa H1. Por tanto, en este
caso, la media muestral es el estadístico de prueba.
La media muestral puede tomar muchos valores diferentes. Supóngase que si 48.5
≤x𝑥 ≤ 51.5, entonces no se rechaza la hipótesis nula Ho; μ = 50 cm/s, y que si x <
48.5 ó x >51.5, entonces se acepta la hipótesis alternativa H1; μ ≠ 50 cm/s.

Los valores de x 𝑥 que son menores que 48.5 o mayores que 51.5 constituyen la
región crítica de la prueba, mientras que todos los valores que están en el intervalo
48.5 ≤x ≤ 51.5x forman la región de aceptación de la hipótesis nula. Las fronteras
entre las regiones crítica y de aceptación reciben el nombre de valores críticos.
La costumbre es establecer conclusiones con respecto a la hipótesis nula Ho. Por
tanto, se rechaza Ho en favor de H1 si el estadístico de prueba cae en la región
crítica, de lo contrario, no se rechaza Ho.
Este procedimiento de decisión puede conducir a una de dos conclusiones
erróneas. Por ejemplo, es posible que el valor verdadero de la rapidez promedio de
combustión del agente propulsor sea igual a 50 cm/s. Sin embargo, para todos los
especímenes bajo prueba, bien puede observarse un valor del estadístico de prueba

9
Probabilidad y Estadística. MA-23 17/08/2022

x 𝑥 que cae en la región crítica. En este caso, la hipótesis nula Ho será rechazada
en favor de la alternativa H1 cuando, de hecho, Ho en realidad es verdadera.

Error tipo I

El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es


verdadera.
Para probar si cometemos un error del tipo I consideramos un “nivel de significancia”
que nos ayuda a determinar la probabilidad de cometer este tipo de error. Para
probar si cometemos un error del tipo I consideramos un “nivel de significancia” que
nos ayuda a determinar la probabilidad de cometer este tipo de error.
A este nivel se denomina con la letra α.
Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería
del 5%. Análogamente si se tiene un nivel de confianza del 90% entonces el nivel
de significancia sería del 10%.
Ahora supóngase que la verdadera rapidez promedio de combustión es diferente de
50 cm/s, aunque la media muestral x cae por error de muestreo dentro de la región
de aceptación.
En este caso se acepta Ho cuando ésta es falsa. Este tipo de conclusión recibe el
nombre de error tipo II. A la probabilidad de tener un error de tipo II se denomina
con la letra β.

Error tipo II.


El error tipo II se define como la aceptación de la hipótesis nula cuando ésta es
falsa.

Regresión lineal.
La regresión lineal es una técnica de modelado estadístico que se emplea para
describir una variable de respuesta continua como una función de una o varias
variables predictoras. Puede ayudar a comprender y predecir el comportamiento de
sistemas complejos o a analizar datos experimentales, financieros y biológicos.
Las técnicas de regresión lineal permiten crear un modelo lineal. Este modelo
describe la relación entre una variable dependiente y (también conocida como la
respuesta) como una función de una o varias variables independientes Xi

10
Probabilidad y Estadística. MA-23 17/08/2022

(denominadas predictores). La ecuación general correspondiente a un modelo de


regresión lineal es:

Y=β0+∑ βiXi+ϵi
donde β representa las estimaciones de parámetros lineales que se deben calcular
y ϵ representa los términos de error.

Tipos de regresión lineal:

Regresión lineal simple: modelos que utilizan un único predictor. La ecuación


general es:

Y=β0+βiX+ϵi
Regresión lineal múltiple: modelos que utilizan múltiples predictores. Esta
regresión tiene múltiples Xi para predecir la respuesta, Y. Este es un ejemplo de la
ecuación:

Y=β0+β1X1+β2X2+ϵ
Regresión lineal multivariante: modelos para varias variables de respuesta. Esta
regresión tiene múltiples Yi que derivan de los mismos datos YY. Se expresan con
fórmulas diferentes. Este es un ejemplo del sistema con 2 ecuaciones:

Y1=β01+β11X1+ϵ1Y1=β01+β11X1+ϵ1
Y2=β02+β12X1+ϵ2

Test de hipótesis.
• Las pruebas de significación (test de hipótesis) sirven para comparar dos
situaciones diferentes o, dicho de otra manera, el efecto de un factor a dos niveles
• En ocasiones interesa comparar más de dos situaciones diferentes o el efecto que
tienen un factor que puede tomar varios valores o niveles.
• Cada columna difiere de las demás en que los datos se obtienen después de
aplicar un procedimiento de mineralización diferente.
• El factor que hace que las columnas difieran ¿tiene algún efecto sobre las medias
de esas columnas? Dicho de otra forma, ¿todos los procedimientos de
mineralización originan el mismo resultado?
• Su pongamos que determinamos el contenido en Cu de una muestra por medio
de siete procedimientos de mineralización diferentes:
METODO

11
Probabilidad y Estadística. MA-23 17/08/2022

1 2 3 4 5 6 7

5,59 5,67 5,75 4,74 5,52 5,52 5,43

5,59 5,67 5,47 4,45 5,47 5,62 5,52

5,37 5,55 5,43 4,65 5,66 5,47 5,43

5,54 5,5 5,45 4,94 5,52 5,18 5,43

5,37 5,43 5,24 4,95 5,62 5,43 5,52

5,42 5,57 5,47 5,06 5,76 5,33 5,52

5,48 5,57 5,47 4,80 5,59 5,43 5,48

0,11 0,093 0,16 0,23 0,11 0,15 0,05

• Cada columna difiere de las demás en que los datos se obtienen después de
aplicar un procedimiento de mineralización diferente.
• El factor que hace que las columnas difieran ¿tiene algún efecto sobre las medias
de esas columnas? Dicho de otra forma, ¿todos los procedimientos de
mineralización originan el mismo resultado?

1 2 3 4 5 6 7

5,59 5,67 5,75 4,74 5,52 5,52 5,43

5,59 5,67 5,47 4,45 5,47 5,62 5,52

5,37 5,55 5,43 4,65 5,66 5,47 5,43

5,54 5,5 5,45 4,94 5,52 5,18 5,43

5,37 5,43 5,24 4,95 5,62 5,43 5,52

5,42 5,57 5,47 5,06 5,76 5,33 5,52

5,48 5,57 5,47 4,80 5,59 5,43 5,48

0,11 0,093 0,16 0,23 0,11 0,15 0,05

• Si no hubiera efecto cada valor individual seguiría el modelo:

xij = μ + eij

12
Probabilidad y Estadística. MA-23 17/08/2022

siendo los eij puramente aleatorios. La varianza total de la tabla únicamente


depende de la precisión de los procedimientos y se estimaría mediante σe2. Si el
procedimiento de mineralización tiene efecto, el modelo sería:

𝑋𝑖 𝑗 = 𝜇 + 𝑎𝑗 + 𝑒𝑖 𝑗 ∑ 𝑎𝑗 = 0

siendo aj el efecto del pre-tratamiento j sobre la media global.


• El término aj introduce una varianza adicional en los datos experimentales, de
manera que
ésta es mayor que σe2.

SUMA DE CUADRADOS
t ¿Qué es la suma de los cuadrados?
La suma de cuadrados representa una medida de variación o desviación con
respecto a la media. Se calcula como una suma de los cuadrados de las diferencias
con respecto a la media. El cálculo de la suma total de los cuadrados considera
tanto la suma de los cuadrados de los factores como la de aleatoriedad o error.

Suma de los cuadrados en ANOVA


En el análisis de varianza (ANOVA), la suma total de los cuadrados ayuda a
expresar la variación total que se puede atribuir a diferentes factores. Por ejemplo,
usted hace un experimento para probar la efectividad de tres detergentes para ropa.
La suma total de los cuadrados = suma de los cuadrados del tratamiento (SST) +
suma de los cuadrados del error residual (SSE)
La suma de los cuadrados del tratamiento es la variación atribuida a, o en este caso
entre, los detergentes para ropa. La suma de los cuadrados del error residual es la
variación atribuida al error.
El convertir la suma de los cuadrados en cuadrados medios al dividir entre los
grados de libertad le permitirá comparar estas relaciones y determinar si existe una
diferencia significativa debido al detergente. Mientras mayor sea esta relación, más
afectarán los tratamientos el resultado.
Suma de los cuadrados en regresión
En la regresión, la suma total de los cuadrados ayuda a expresar la variación total
de las Y. Por ejemplo, usted recoge datos para determinar un modelo que explique
las ventas generales en función de su presupuesto de publicidad.

13
Probabilidad y Estadística. MA-23 17/08/2022

La suma total de los cuadrados = suma de los cuadrados de la regresión (SSR) +


suma de los cuadrados del error residual (SSE)
La suma de los cuadrados de la regresión es la variación atribuida a la relación entre
las X y las Y o, en este caso, entre el presupuesto de publicidad y las ventas. La
suma de los cuadrados del error residual es la variación atribuida al error.
Al comparar la suma de los cuadrados de la regresión con la suma total de los
cuadrados, se determina la proporción de la variación total que es explicada por el
modelo de regresión (R2, el coeficiente de determinación). Mientras más grande
sea este valor, mejor será la relación que explique las ventas en función del
presupuesto de publicidad.
Comparación de las sumas secuenciales de los cuadrados y las sumas ajustadas
de los cuadrados
Minitab desglosa el componente SC Regresión o Tratamientos de la varianza en las
sumas de los cuadrados para cada factor.

Sumas secuenciales de los cuadrados


Las sumas secuenciales de los cuadrados dependen del orden en que los factores
se ingresan en el modelo. Es la porción única de la SC Regresión explicada por un
factor, dados los factores ingresados previamente.
Por ejemplo, si usted tiene un modelo con tres factores, X1, X2 y X3, la suma
secuencial de los cuadrados para X2 muestra la proporción de la variación restante
que es explicada por X2, dado que X1 ya se encuentre en el modelo. Para obtener
una secuencia diferente de factores, repita el procedimiento de regresión
ingresando los factores en un orden diferente.

Sumas ajustadas de los de cuadrados


Las sumas ajustadas de los cuadrados no dependen del orden en que los factores
se ingresan en el modelo. Es la porción única de la SC Regresión explicada por un
factor, dados todos los demás factores en el modelo, independientemente del orden
en que se ingresaron en el mismo.
Por ejemplo, si usted tiene un modelo con tres factores, X1, X2 y X3, la suma
ajustada de los cuadrados para X2 muestra la proporción de la variación restante
que es explicada por X2, dado que X1 y X3 también se encuentren en el modelo.
¿Cuándo serán iguales las sumas secuenciales y ajustadas de los cuadrados?
Las sumas secuenciales y ajustadas de los cuadrados siempre son iguales para el
último término del modelo. Por ejemplo, si el modelo contiene los términos A, B y C

14
Probabilidad y Estadística. MA-23 17/08/2022

(en ese orden), entonces las dos sumas de los cuadrados para C representan la
reducción en la suma de los cuadrados del error residual que se produce cuando C
se agrega a un modelo que contiene A y B.
Las sumas secuenciales y ajustadas de los cuadrados serán igual para todos los
términos si la matriz de diseño es ortogonal. El caso más común en el que ocurre
esto es con los diseños factoriales y factoriales fraccionados (sin covariables)
cuando se analizan en unidades codificadas. En estos diseños, las columnas de la
matriz de diseño para todos los efectos principales y las interacciones son
ortogonales entre sí. Los diseños de Plackett-Burman tienen columnas ortogonales
para los efectos principales (por lo general los únicos términos en el modelo), pero
los términos de interacción, si existen, pueden confundirse parcialmente con otros
términos (es decir, no ortogonales). En los diseños de superficie de respuesta, las
columnas para los términos al cuadrado no son ortogonales entre sí.
Para cualquier diseño, si la matriz de diseño se encuentra en unidades no
codificadas, entonces puede haber columnas que no son ortogonales, a menos que
los niveles de los factores aún estén centrados en cero.
¿Pueden las sumas ajustadas de los cuadrados ser menores, iguales o mayores
que las sumas secuenciales de los cuadrados?
Las sumas ajustadas de los cuadrados pueden ser menores, iguales o mayores que
las sumas secuenciales de los cuadrados.
Supongamos que usted ajusta un modelo con los términos A, B, C y A*B. Sea SC
(A, B, C, A*B) la suma de los cuadrados cuando A, B, C y A*B estén en el modelo.
Sea SC (A, B, C) la suma de los cuadrados cuando A, B y C estén incluidos en el
modelo. Entonces, la suma ajustada de los cuadrados para A*B es:

SC(A, B, C, A*B) - SC(A, B, C)


Sin embargo, con los mismos términos A, B, C, A*B en el modelo, la suma
secuencial de los cuadrados para A*B depende del orden en que los términos se
especificaron en el modelo.
Utilizando una notación similar, si el orden es A, B, A*B, C, entonces la suma
secuencial de los cuadrados para A*B es:

SC(A, B, A*B) - SC(A, B)


Dependiendo del conjunto de datos y del orden en el que se especifiquen los
términos, todos los casos siguientes son posibles:

SC(A, B, C, A*B) - SC(A, B, C) < SC(A, B, A*B) - SC(A, B), o

15
Probabilidad y Estadística. MA-23 17/08/2022

SC(A, B, C, A*B) - SC(A, B, C) = SC(A, B, A*B) - SC(A, B), o


SC(A, B, C, A*B) - SC(A, B, C) > SC(A, B, A*B) - SC(A, B)
¿Qué es la suma de los cuadrados no corregida? Eleva al cuadrado cada uno de
los valores de la columna y calcula la suma de esos valores elevados al cuadrado.
Es decir, si la columna contiene x1, x2, ... , xn, entonces la suma de los cuadrados
calcula (x12 + x22+ ... + xn2). A diferencia de la suma de los cuadrados corregida,
la suma de los cuadrados no corregida incluye el error. Los valores de datos se
elevan al cuadrado sin antes restar la media.
En Minitab, puede utilizar estadísticos descriptivos para mostrar la suma de los
cuadrados no corregida. También puede utilizar la función de suma de los
cuadrados (SSQ) en la Calculadora para calcular la suma de los cuadrados no
corregida de una columna o fila. Por ejemplo, está calculando una fórmula
manualmente y desea obtener la suma de los cuadrados para un conjunto de
variables de respuesta (Y).
En la calculadora, ingrese la expresión: SSQ (C1).
Almacene los resultados en C2 para ver la suma de los cuadrados no corregida. La
siguiente hoja de trabajo muestra los resultados del uso de la calculadora para
calcular la suma de los cuadrados de la columna Y.

C1 C2

Y Suma de los cuadrados

2.40 41.5304

Cuadrados medios
En ANOVA, los cuadrados medios se utilizan para determinar si los factores
(tratamientos) son significativos.
El cuadrado medio del tratamiento se obtiene dividiendo la suma de los cuadrados
del tratamiento entre los grados de libertad. El cuadrado medio del tratamiento
representa la variación entre las medias de las muestras.
El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los cuadrados
del error residual entre los grados de libertad. El MSE representa la variación dentro
de las muestras.
Por ejemplo, usted hace un experimento para probar la efectividad de tres
detergentes para ropa. Recolecta 20 observaciones para cada detergente. La

16
Probabilidad y Estadística. MA-23 17/08/2022

variación entre las medias de Detergente 1, Detergente 2 y Detergente 3 es


representada por el cuadrado medio del tratamiento. La variación dentro de las
muestras es representada por el cuadrado medio del error.
¿Qué son los cuadrados medios ajustados?
Los cuadrados medios ajustados se calculan dividiendo la suma ajustada de los
cuadrados entre los grados de libertad. La suma ajustada de los cuadrados no
depende del orden en que los factores se ingresan en el modelo. Es la porción única
de SC Regresión explicada por un factor, si todos los demás factores están en el
modelo, independientemente del orden en que se ingresaron en el mismo.
Por ejemplo, si usted tiene un modelo con tres factores, X1, X2 y X3, la suma
ajustada de los cuadrados para X2 muestra qué tanto de la variación restante es
explicada por X2, si X1 y X3 también se encuentran en el modelo.
¿Qué son los cuadrados medios esperados?
Si usted no especifica que los factores son aleatorios, Minitab presupondrá que se
trata de factores fijos. En este caso, el denominador para los estadísticos F será el
MSE. Sin embargo, para los modelos que incluyen términos aleatorios, el MSE no
siempre es el término de error correcto. Puede examinar los cuadrados medios
esperados para determinar el término de error que se utilizó en la prueba F.
Cuando usted ejecuta Modelo lineal general, Minitab muestra una tabla de
cuadrados medios esperados, componentes estimados de la varianza y el término
de error (los cuadrados medios del denominador) utilizados en cada prueba F de
forma predeterminada. Los cuadrados medios esperados son los valores esperados
de estos términos con el modelo especificado. Si no hay una prueba F exacta para
un término, Minitab calcula el término de error apropiado para construir una prueba
F aproximada. Esta prueba se denomina prueba sintetizada.
Las estimaciones de los componentes de la varianza son las estimaciones sin sesgo
del ANOVA. Se obtienen al establecer cada cuadrado medio calculado en su
cuadrado medio esperado, lo cual proporciona un sistema de ecuaciones lineales
en los componentes desconocidos de la varianza, que luego se resuelve.
Desafortunadamente, este método puede generar estimaciones negativas, que
deben establecerse en cero. Sin embargo, Minitab muestra las estimaciones
negativas porque algunas veces indican que el modelo que se está ajustando no es
apropiado para los datos. Los componentes de la varianza no se calculan para los
términos fijos.

ESTADISTICO DE PRUEVA
¿Qué es un estadístico de prueba?

17
Probabilidad y Estadística. MA-23 17/08/2022

Más información sobre Minitab Statistical Software


Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos
de muestra y se utiliza en una prueba de hipótesis. Puede utilizar los estadísticos
de prueba para determinar si puede rechazar la hipótesis nula. El estadístico de
prueba compara sus datos con lo que se espera bajo la hipótesis nula. El estadístico
de prueba se utiliza para calcular el valor p.
Un estadístico de prueba mide el grado de concordancia entre una muestra de datos
y la hipótesis nula. Su valor observado cambia aleatoriamente de una muestra
aleatoria a una muestra diferente. Un estadístico de prueba contiene información
acerca de los datos que es relevante para decidir si se puede rechazar la hipótesis
nula. La distribución del muestreo del estadístico de prueba bajo la hipótesis nula
se denomina distribución nula. Cuando los datos muestran evidencia clara en contra
de los supuestos de la hipótesis nula, la magnitud del estadístico de prueba se
vuelve demasiado grande o pequeña dependiendo de la hipótesis alternativa. Esto
hace que el valor p de la prueba se vuelva lo suficientemente pequeño como para
rechazar la hipótesis nula.
Por ejemplo, el estadístico de prueba para una prueba Z es el estadístico Z, que
sigue la distribución normal estándar bajo la hipótesis nula. Supongamos que usted
realiza una prueba Z de dos colas con un nivel de significancia (α) de 0.05 y un
obtiene un estadístico Z (también denominado valor Z) de 2.5 basado en sus datos.
Este valor Z corresponde a un valor p de 0.0124. Puesto que este valor p es menor
que α, usted declara significancia estadística y rechaza la hipótesis nula.
Las diferentes pruebas de hipótesis utilizan diferentes estadísticos de prueba según
el modelo de probabilidad asumido en la hipótesis nula. Las pruebas comunes y sus
respectivos estadísticos de prueba incluyen:

¿Qué es la prueba de la hipótesis?


Las pruebas de hipótesis evalúan la probabilidad asociada a la hipótesis nula (H0)
de que no hay efecto o diferencia. El valor de p obtenido refleja la probabilidad de
rechazar la H0 siendo esta verdadera; en ningún caso prueba que la hipótesis
alternativa, de que, si hay efecto o diferencia, sea verdadera.
Se puede describir formalmente los pasos a seguir:
1. Formular la hipótesis y su alternativa. Normalmente la hipótesis de trabajo
(por ejemplo, tal tratamiento es mejor que el control o tal procedimiento
tiene menos morbilidad) es contrastada con una hipótesis estadística que
supone que no existe tal efecto o tal diferencia. La razón para hacer esto
es que se puede calcular de antemano la distribución de probabilidades

18
Probabilidad y Estadística. MA-23 17/08/2022

asociadas con tal situación. Esta hipótesis se conoce con el nombre de


hipótesis nula que se abrevia como H0 (Nullus: Nula, falto de valor y
fuerza para obligar o tener efecto). La expresión matemática es H0: 1=
2. La hipótesis alternativa es que el efecto sí existe, que es distinto de
cero, y que en algunos casos se puede especificar el signo de esa
diferencia. Normalmente corresponde a la hipótesis de trabajo, se abrevia
como H1 y tiene tres alternativas:
µ 1≠ µ 2, µ 1< µ 2 o bien µ 1> µ 2.
2. Elegir la prueba estadística apropiada de acuerdo con el diseño experimental,
el tipo de datos y el número de grupos que se comparan. La cifra que resulta de
usar la prueba (aplicar la o las fórmulas) en los datos recolectados se conoce como
el estadístico de la prueba en cuestión: z; estadístico t o de Student, la r de Pearson,
F del análisis de varianza, 2. La distribución del estadístico puede ser calculada
de antemano cuando la H0 es verdadera y por lo tanto conocer los valores que
delimitarán distintas porciones del área bajo la curva de esa distribución; éstas se
conocen como distribuciones de muestreo. Vale la pena decir aquí, y lo reiteraremos
luego, que las pruebas de hipótesis en ningún caso prueban la veracidad de la
hipótesis alternativa o de trabajo, limitándose a decir que no hay suficiente evidencia
para rechazar la hipótesis nula basándose en un nivel preestablecido de
probabilidades.
3. Elegir el nivel de significación α de la prueba, el límite para rechazar H0. En
general, se acepta α = 0,01 ó 0,05, cifras que implican un 1%, o un 5%
respectivamente, de posibilidades de equivocarse cuando se rechaza H0, de decir
que hay una diferencia cuando en realidad no la hay. Este es el llamado error tipo I.
4. Calcular el valor de P. Esta es la probabilidad de obtener los resultados
observados u otros más extremos si la H0 es verdadera, cifra que es determinada
por el área de la distribución que queda más allá del valor calculado.
5. Si p es menor que α, rechazar H0 y aceptar la alternativa; en caso contrario,
se acepta la hipótesis nula. El conjunto de valores que resultarían en el rechazo de
H0 – calculados conociendo la prueba usada, α y el número de observaciones – se
conoce con el nombre de región crítica. Este punto puede retractarse así: se
rechaza la H0 si el estadístico cae en la región crítica. En los apéndices de los textos
de estadística aparecen tablas con la distribución de estos estadísticos, dando el
valor de p y donde el tamaño de la muestra se considera en los grados de libertad.

19
Probabilidad y Estadística. MA-23 17/08/2022

CONCLUSIONES Y ERRORES DE UN TEST DE HIPÓTESIS


Frente a dos posibilidades reales, no hay diferencias (H0) o bien sí las hay (H1), las
pruebas de hipótesis pueden dar dos resultados: rechazar o aceptar H0. En estas
circunstancias, en forma análoga a lo que sucede con los exámenes de laboratorio
diagnósticos, las alternativas son cuatro. Dos no constituyen más que la
coincidencia entre la realidad y el resultado de las pruebas:
1. Se rechaza H0 cuando ésta es falsa, una diferencia verdadera es declarada
estadísticamente significativa. Es un verdadero positivo.
2. Se acepta H0 cuando ésta es verdadera, no hay una diferencia
estadísticamente significativa y en realidad no la hay. Un verdadero negativo.
Las otras alternativas implican una incongruencia entre la realidad y los resultados
y, por lo tanto, constituyen errores.
1. Se rechaza H0 cuando ésta es verdadera, concluyendo que hay una
diferencia que en realidad no existe, un falso positivo. Se ha cometido un error que
se denomina de tipo I (α). La probabilidad de que ocurra este tipo de error es la que
se controla al establecer α y normalmente no va más allá del 5%. Sin embargo,
inadvertidamente puede ser mayor cuando no se cumplen los requisitos necesarios
para aplicar la prueba de hipótesis elegida: usar un test paramétrico cuando en
realidad se debió usar uno no paramétrico, una prueba de una cola en vez de una
de dos colas o comparaciones múltiples con tests diseñados para comparar sólo
dos medias o medianas.
2. Se acepta H0 cuando en realidad es falsa, un falso negativo, concluyendo
que no hay diferencia cuando en realidad existe. Este es el error tipo II (β), que la
mayoría de las veces se debe a un tamaño insuficiente de la muestra. La
probabilidad de cometer un error tipo II es β cuyo valor depende de la magnitud del

20
Probabilidad y Estadística. MA-23 17/08/2022

efecto de interés y del tamaño de la muestra. Sin embargo, es más frecuente hablar
de la potencia de la prueba para detectar un efecto de un tamaño determinado.
Estos dos errores deben ser considerados al evaluar el resultado de un trabajo de
investigación que haya empleado pruebas de hipótesis, considerando la posibilidad
de un error I cuando los resultados son significativos y de un error tipo II cuando son
no significativos. La Tabla 1 resume la relación entre los resultados de una prueba
de hipótesis y la realidad.

Bibliografía:
(S/f). Ugr.es. Recuperado el 15 de agosto de 2022, de
https://www.ugr.es/~eues/webgrupo/Docencia/MonteroAlonso/estadisticaII/tema4.
pdf
ESTIMACIÓN PUNTUAL Y POR INTERVALOS. (s/f). Rpsqualitas.es. Recuperado
el 15 de agosto de 2022, de
http://www.rpsqualitas.es/documentacion/dowloads/quimiometria/estimacion_puntu
al_y_por_intervalos.pdf

21

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy