Unidad 3 Estadistica Andrea Garcia
Unidad 3 Estadistica Andrea Garcia
Unidad 3 Estadistica Andrea Garcia
Autor:
Andrea E. García P.
C.I.: 23.866.547
INTRODUCCIÓN
3.2.1. Normal.
3.2.2. Exponencial
3.2.3. Welbull
3.3.1. Histogramas
3.3.2. Inferencia Estadística
3.3.3. Intervalos de Confianza
3.3.4. Prueba de Hipótesis
3.3.5. Análisis de regresión
3.5.- Confiabilidad
3.9.- Columbia
CONCLUSIONES
INTRODUCCIÓN
Las grandes industrias sin importar la clase que sean o el bien o servicio que ofrezcan,
se han vuelto grandes porque han entendido lo que representa el mejoramiento
continuo de la calidad. Sin embargo, no se basa solo en comprender lo que representa
en la industria sino su relevancia en la aplicación y los cambios que amerita, pero esta
no puede darse sola, se le atribuya a se atribuye al uso de métodos estadísticos y del
pensamiento estadístico entre el personal gerencial. En tal sentido, a continuación, se
tratarán conceptos básicos estadísticos y probabilísticos que contribuyen a enriquecer
la información resultante para el mejoramiento de la calidad en toda empresa.
𝑛
1
𝑋̅ = ∑ 𝑋𝑖
𝑛
𝑖=1
Ecuación 1. Media Muestral
1
𝑋̅ = (42 + 20 + 86 + 184 + 17 + 77 + ⋯ + 138) = 155.067 𝑑í𝑎𝑠.
30
Mediana Muestral: Al ser un número par (30 valores), se tomará el promedio de los
dos números del medio (101 y 124):
101+124
𝑋̅ = = 112,5 días
2
- Moda muestral: Es el valor que tiene más frecuencia en una muestra. Si algunos
valores tienen una frecuencia igual, cada uno representa una moda.
Para el Ejemplo, se tienen dos modas: 17 y 184. Cada uno de estos valores aparece
dos veces y el resto de los valores aparece 1 sola vez.
- Medina Recortada: Es una medida que se diseñó para que no esté afectada por datos
atípicos. Se calcula al arreglar los datos en orden, “recortar” un número igual a partir
de cada extremo y calcular la media de los restantes. Si se “recorta” el p% de los datos
de cada extremo, la media recortada resultante se denomina “media recortada un p%”.
Las más comunes son las medias recortadas al 5, 10 y 20%.
Continuación de Ejemplo progresivo 1
En el ejemplo se tiene el siguiente orden de los TEF: 6; 12; 17; 17; 18; 20; 22; 30; 32;
42; 59; 77; 82; 86; 101; 124; 130; 133; 136; 138; 139; 144; 171; 175; 184; 184; 230;
354; 564; 1225.
Se desea calcular la Media recortada a 5%, por lo que se debe eliminar 5% de los
datos a cada extremo. Se obtienen (0.05)*(30) = 1.5 observaciones, se redondea 1.5
a 2 y se recortan 2 observaciones por cada extremo. La media recortada a 5%
constituye el promedio de los 26 datos restantes:
17+17+18+⋯+230+354
𝑋̅ = = 109.42 días
26
Medidas de Dispersión
- Desviación Estándar: Es una cantidad que mide el grado de dispersión en una misma
muestra. Sea 𝑋1 , . . ., 𝑋𝑛 una muestra. La idea básica detrás de la desviación estándar
es que cuando la dispersión es grande, los valores de la muestra tenderán a alejarse
de su media, pero cuando la dispersión es pequeña, los valores tenderán a acercarse
a su media.
𝑛
1
s=√ ∑(𝑋𝑖 − ̅̅̅̅
𝑋 )2
𝑛−1
𝑖=1
𝑛
1
𝑠2 = ∑(𝑋𝑖 − ̅̅̅̅
𝑋 )2
𝑛−1
𝑖=1
Continuación de Ejemplo progresivo 1
Varianza Muestral:
1
𝑠2 = [(42 − 155.067)2 + (20 − 155.067)2 + (86 − 155.067)2 + ⋯ + (138 − 155.067)2 ]
30 − 1
s2 = 54141,10
Desviación Estándar:
S = 232,68
- Error Estándar: Es igual a la desviación estándar dividido entre la raíz cuadrada del
tamaño muestral. A partir de este valor se construye el intervalo de confianza.
𝑠
𝐸=
√𝑛
- Rango: Es la diferencia entre los valores más grandes y más pequeños en una
muestra.
R = Xmax – Xmin
R = 1225 – 6 = 1219
Medidas de Posición
- Cuartiles: Dividen la muestra tanto como sea posible, en cuartos. Una muestra tiene
tres de aquellos. Existen diferentes formas de calcular cuartiles, el método más simple
cuando se calcula manualmente es: Sea n el tamaño de la muestra. Ordene los valores
de la muestra del más pequeño al más grande. Para encontrar el primer cuartil, calcule
el valor 0.25(n + 1). Si éste es un entero, entonces el valor de la muestra en esa
posición es el primer cuartil. Sino, tome entonces el promedio de los valores de la
muestra de cualquier lado de este valor. El tercer cuartil se calcula de la misma
manera, excepto que se usa el valor 0.75(n + 1). El segundo cuartil usa el valor 0.5(n
+ 1). El segundo cuartil es idéntico a la mediana.
Medidas de Forma
E = {1, 2, 3, 4}
Existe una diversidad de eventos, entre ellos, los considerados de mayor envergadura
son:
- Evento Vacío: El evento que no contiene ningún elemento, esto es, en el que
no existe algún resultado del experimento que cumpla las condiciones del
evento. El evento vacío suele denotarse por ∅ o { }.
∞ ∞
P(A∩B)
P (A │ B) = si P(B) > 0
𝑃(𝐵)
- Teorema de Probabilidad Total: De acuerdo con Rincón, L (2006), sea B1, B2,…, Bn
una partición de Ω tal que P (Bi) > 0. Sea A cualquier evento. Entonces
P(A) = ∑𝑛𝑖=1 P (A │ 𝐵𝑗 )P(𝐵𝑗 )
P(D) = 1/40
𝑃(𝐴|𝐵𝑗 )𝑃(𝐵𝑗 )
𝑃 (𝐵𝑗 │ 𝐴) = 𝑛
∑𝑖=1 𝑃(𝐴|𝐵𝑖 )𝑃(𝐵𝑖 )
Ejemplo 5: En una fábrica hay dos máquinas, que denotaremos por A y B. La máquina
A realiza el 60 % de la producción total y la máquina B el 40 %. De su producción, la
máquina A produce 3 % de material defectuoso, la B el 5 %. Se ha encontrado un
material defectuoso, ¿cuál es la probabilidad de que este material defectuoso
provenga de la máquina B? Sean los eventos
A = “La máquina A produjo el material escogido.”
𝑃 (𝐷|𝐵)𝑃(𝐵)
𝑃 (𝐵|𝐷) =
𝑃 (𝐷|𝐴)𝑃(𝐴) + 𝑃 (𝐷|𝐵)𝑃(𝐵)
5 40
∗
100 100
P (B|D) = 3 60 5 40
∗ + ∗
100 100 100 100
10
P (B|D) = 19
- Variable Aleatoria: De acuerdo con Walpole, M (2014), es una función que asocia
un número real con cada elemento del espacio muestral.
Se utiliza una letra mayúscula, ejemplo “X”, para denotar una variable aleatoria, y su
correspondiente letra minúscula, x en este caso, para uno de sus valores. Esto es,
cada valor posible de X representa un evento que es un subconjunto del espacio
muestral para el experimento dado.
Ejemplo 2:
De una urna que contiene 4 bolas rojas y 3 negras se sacan 2 bolas de manera
sucesiva, sin reemplazo. Los posibles resultados y los valores y de la variable aleatoria
Y, donde Y es el número de bolas rojas, son:
Espacio muestral y
RR 2
RN 1
NR 1
NN 0
Cuadro 2. Variable aleatoria Y. Walpole, M (2014).
Así mismo, el autor plantea que el espacio muestral en el que está inmerso la variable
aleatoria, puede ser de dos tipos:
En tal sentido, una variable aleatoria es discreta cuando se puede contar su conjunto
de resultados posibles. Mientras que una variable aleatoria es continua cuando puede
tomar valores en una escala continua. Las distribuciones de probabilidad Normal,
Exponencial y Weibull se consideran distribuciones de probabilidad continúa puesto
que tratan con variables aleatorias continuas en su análisis.
La distribución de probabilidad de una variable aleatoria continua no se puede
representar de forma tabular, sí es posible plantearla como una fórmula, la cual
necesariamente será función de los valores numéricos de la variable aleatoria continua
X, y como tal se representará mediante la notación funcional f (x). Cuando se trata con
variables continuas, a f (x) por lo general se le llama función de densidad de
probabilidad, o simplemente función de densidad de X. Como X se define sobre un
espacio muestral continuo, es posible que f (x) tenga un número finito de
discontinuidades.
1. f (x ) ≥ 0, para toda x ∈ R.
∞
2. ∫−∞ 𝑓 (𝑥 )𝑑𝑥 = 1.
𝑏
3. P (a < X < b) =∫𝑎 𝑓 (𝑥 ) 𝑑𝑥 .
𝑥
F (x ) = P (X ≤ x ) = ∫−∞ 𝑓 (𝑡) 𝑑𝑡, 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < ∞.
3.2.1. Normal.
Hines, W y Montgomery, D (1996) Afirman que una variable aleatoria X tiene una
distribución normal con media p (a < p < -) y varianza O' > O si tiene la siguiente
función de densidad:
Función de Densidad:
1 2
𝑓 (𝑥) = 𝜎√2𝜋 𝑒 −((1/2)(𝑥−𝜇)/𝜎) -< ∞ < x < ∞
∞
1.∫−∞ 𝑓 (𝑥) 𝑑𝑥 = 1
Necesaria en todas las funciones de densidad.
2. f(x) ≥ 0 para todo x
E (x) = µ
V (x) = σ2
x− μ
𝑧=
σ
Ejemplo 3:
Dada una variable aleatoria X que tiene una distribución normal con μ = 50 y σ = 10,
calcule la probabilidad de que X tome un valor entre 45 y 62.
Fig. 5. Área para el ejemplo 3.
45−50 62−50
𝑧1 = = -0.5 y 𝑧2 = = 1.2.
10 10
Por lo tanto,
P (-0.5 < Z< 1.2) se muestra mediante el área de la región sombreada de la figura ##.
Esta área se puede calcular restando el área a la izquierda de la ordenada z = – 0.5
de toda el área a la izquierda de z = 1.2. Si se usa la tabla A.3 del autor Walpole, M
(2012)., se obtiene lo siguiente:
P (45 < X < 62) = P (-0.5 < Z< 1.2) = P (Z < 1.2) - P (z < -0.5)
= 0.8849 – 0.3085 = 0.5764.
3.2.2. Exponencial
1
𝑥 𝛼−1 ℯ −𝑥/𝛽 , 𝑥 > 0,
𝑓 (𝑥; 𝛼; 𝛽) = {𝛽 𝜏 (𝛼)
𝛼
0, 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜,
Donde β > 0.
µ = αβ y σ2 = αβ2
µ = β y σ2 = β2
Ejemplo 4:
Suponga que un sistema contiene cierto tipo de componente cuyo tiempo de operación
antes de fallar, en años, está dado por T. La variable aleatoria T se modela bien
mediante la distribución exponencial con tiempo medio de operación antes de fallar β
= 5. Si se instalan 5 de estos componentes en diferentes sistemas, ¿cuál es la
probabilidad de que al final de 8 años al menos dos aún funcionen?
1 ∞ −𝑡/5
𝑃 (𝑇 > 8) = ∫ ℯ 𝑑𝑡 = ℯ −8/5 ≈ 0.2
5 8
5
1
P (X ≥t0 + t │ X ≥ t0)
3.2.3. Weibull
𝛽−1 −𝛼𝑥 𝛽
𝑓 (𝑥; 𝛼; 𝛽) = { 𝛼 𝛽 𝑥 ℯ , 𝑥 > 0,
0, 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜,
1 1
−
𝜇=𝛼 𝛽 𝑇 (1 + )
𝛽
2 −2/𝛽
2 1 2
𝜎 =𝛼 {𝑇 (1 + ) − [𝑇 (1 + )] }
𝛽 𝛽
Al igual que la distribución gamma y la exponencial, la distribución de Weibull se aplica
a problemas de confiabilidad y de prueba de vida como los de tiempo de operación
antes de la falla o la duración de la vida de un componente, que se miden desde algún
tiempo específico hasta que falla. Este tiempo de operación se representa antes de la
falla mediante la variable aleatoria continua T, con función de densidad de probabilidad
f (t), donde f (t) es la distribución de Weibull. Ésta tiene la flexibilidad inherente de no
requerir la propiedad de falta de memoria de la distribución exponencial. La función de
distribución acumulativa (fda) para la distribución de Weibull se puede escribir en forma
cerrada y realmente es muy útil para calcular probabilidades.
𝛽
𝐹 (𝑥) = 1 − ℯ −𝛼𝑥 , para x ≥ 0,
2
Solución: P (X < 8) = F (8) = 1- ℯ −(0.01)8 = 1 – 0.527 = 0.473.
Navidi, W (2006) plantea que la media, mediana y la desviación estándar son resúmenes
numéricos de una muestra o de una población. Por lo cual representan un apoyo elemental
para el desarrollo de inferencias estadísticas, intervalos de confianza, prueba de hipótesis o
análisis de regresión. Además, los resúmenes gráficos también se usan para ayudar a
visualizar una lista de números. Entre los resúmenes gráficos se encuentran los histogramas,
a continuación, se explicarán en detalle los términos mencionados.
3.3.1. Histogramas
Sin embargo, los histogramas son más fáciles de interpretar cuando los intervalos de
clase son de igual ancho. El histograma brinda una interpretación visual de la forma
de la distribución de las mediciones, así como información acerca de la diseminación
o dispersión de los datos. Cuando se pasa de los datos originales a la distribución de
frecuencia o al histograma, cierta cantidad de información se ha perdido puesto que
ya no se tiene las observaciones individuales. No obstante, está pérdida de
información es pequeña comparada con la precisión y facilidad de interpretación
ganadas al utilizar la distribución de frecuencia y el histograma.
Para construir una distribución de frecuencia, se debe dividir la gama de los datos en
intervalos, que suelen denominarse intervalos de clase. Si es posible, los intervalos de
clase deben ser de igual ancho, para incrementar la información visual en la
distribución de frecuencias. Deben hacerse algunos juicios al seleccionar el número
de intervalos de clase para dar una imagen razonable. El número de intervalos de clase
que se utiliza depende del número de observaciones y de la cantidad de discriminación
o dispersión en los datos. Una distribución de frecuencias en la que se emplean muy
pocos o demasiados intervalos de clase no será muy informativa. Es posible encontrar
que entre 5 y 20 intervalos es satisfactorio en muchos casos, y que el número de
intervalos de clase debe aumentar con n. El Intervalo de clase se calcula de la siguiente
manera:
K = √𝑛
R = Lmáx – Lmin
Las frecuencias observadas se obtienen verificando los valores existentes por intervalo
de clase para ser registrado.
- Paso 4: Graficar.
𝐾 = √30 = 5.47 ≈ 5
R = 1225 – 6 = 1219
Conclusión: El Tiempo Promedio entre Falla (TPEF) es igual a 155,067 días, donde la
mayor cantidad de fallas se presentan entre 127,9 y 249,8 días y existe una
probabilidad de 3.33 % de que se presente una falla en la Mandrinadora fuera de este
rango de días.
En este tipo de estimación se busca un intervalo de tal forma que se pueda decir, con
cierto grado de confiabilidad, que dicho intervalo contiene el verdadero valor del
parámetro desconocido.
son estadísticas, esto es, funciones de una muestra aleatoria, tal que
̂1 < 𝜃 < 𝜃
𝑃(𝜃 ̂2 ) = 1 − 𝛼
Caso 1. Intervalo para la media de una población normal con varianza conocida.
Sea X1, X2, . . . , Xn, una muestra aleatoria de una población normal con media
desconocida µ y varianza conocida σ2. Se ilustra a continuación una forma de
encontrar un intervalo de confianza al (1 – α)100% para el parámetro desconocido µ.
Como cada una de las variables de la muestra tiene distribución N(µ, σ2), La variable
1
𝑋̅ = ∑𝑛𝑖=1 𝑋𝑖 tiene una distribución N(µ, σ2/n). Demodo que, estandarizando,
𝑛
𝑋̅ − μ
𝑧= ~ 𝑁(0,1)
σ/√𝑛
𝑋̅ − μ
𝑃 (𝑧𝛼 < σ < 𝑧𝛼2 ) = 1 − 𝛼
2
√𝑛
σ σ
𝑃 ( 𝑋̅ − 𝑧𝛼 ∗ < μ < 𝑋̅ + 𝑧𝛼 ∗ )=1− 𝛼
2 √𝑛 2 √𝑛
σ σ
De esta forma el intervalo ( 𝑋̅ − 𝑧𝛼 ∗ , 𝑋̅ + 𝑧𝛼 ∗ ) es un intervalo de confianza
2 √𝑛 2 √𝑛
Sea X1, X2, . . . , Xn, una muestra aleatoria de una población normal con media
desconocida µ y varianza desconocida σ2. Se tiene entonces que la variable aleatoria
𝑋̅ − μ
𝑇= ,
S/√𝑛
Tiene una distribución t con n – 1 grados libertad. Observe que ésta es la distribución
exacta de la variable T, sin importar el tamaño de la muestra y sobre todo, sin suponer
que la varianza de la muestra es conocida. A partir de lo anterior se puede construir
un intervalo de confianza para el parámetro desconocido µ de la forma siguiente. Para
cualquier valor de α ∈ (0, 1) se encuentra un valor 𝑡𝛼 en tablas de probabilidad de
2
𝑋̅ − μ
𝑃 (−𝑡𝛼 < < 𝑡𝛼 ) = 1 − 𝛼
2 S/√𝑛 2
Fig. 11. Intervalos de Confianza en la Distribución t con n – 1 grado libertad. Rincón, L (2006).
S S
De este modo el intervalo (𝑋̅ − 𝑡𝛼 , 𝑋̅ + 𝑡𝛼 ) es un intervalo de confianza exacto
2 √ 𝑛 2 √𝑛
Sea X1, X2, . . . , Xn, una muestra aleatoria de una población normal con media
desconocida µ y varianza desconocida σ2. Suponiendo que el tamaño de la muestra
es grande, n ≥ 30. Entonces la variable aleatoria
𝑋̅ − μ
𝑍= ,
S/√𝑛
Tiene una distribución aproximada normal estándar. Esto es una consecuencia del
teorema del límite central pues el tamaño de la muestra es grande. En este caso
también se puede encontrar un intervalo aproximado de confianza para el parámetro
desconocido µ. El procedimiento es análogo al anterior. Para cualquier valor de α ∈
(0,1) se encuentra un valor 𝑧𝛼 en tablas de probabilidad normal estándar tal que
2
𝑋̅ − μ
𝑃 (−𝑧𝛼 < < 𝑧𝛼 ) = 1 − 𝛼
2 S/√𝑛 2
S S
𝑃 ( 𝑋̅ − 𝑧𝛼 ∗ < μ < 𝑋̅ + 𝑧𝛼 ∗ )= 1− 𝛼
2 √𝑛 2 √𝑛
S S
De este modo el intervalo (𝑋̅ − 𝑧𝛼 , 𝑋̅ + 𝑧𝛼 ) es un intervalo de confianza
2 √𝑛 2 √𝑛
Solución: Al analizar el ejercicio, es posible identificar que se trata del Caso 2. Intervalo
para la media de una población normal con varianza desconocida. Por lo tanto se
procede a realizar lo siguiente
𝑋̅ = 10.0 y 𝑠 = 0.283
0.283 0.283
10.0 − (2.447) ∗ ( ) < μ < 10.0 + (2.447) ∗ ( )
√7 √7
Para el autor Rincón, L (2006) una hipótesis estadística o simplemente hipótesis es una
afirmación o conjetura acerca de la distribución de una o más variables aleatorias. Por
ejemplo, si X tiene una distribución bin(n, p) entonces la afirmación “p = 0,2” es una
hipótesis. Si X tiene una distribución N(µ, σ2) entonces la afirmación “µ > 0” es otro
ejemplo de hipótesis estadística.
Tanto la hipótesis (H0) como la hipótesis alternativa (H1) pueden ser simple o
compuesta. De este modo se tiene cuatro diferentes tipos de contraste de hipótesis:
Simple vs Simple
Simple vs Compuesta
Compuesta Simple
Compuesta Compuesta
Ahora es posible definir una prueba de hipótesis como una regla para decidir si aceptar
la hipótesis nula (H0) o se rechaza en favor de la hipótesis alternativa (H1). Al tomar
una decisión de este tipo se pueden cometer errores sin saberlo. Al rechazo de la
hipótesis nula cuando esta es verdadera se le conoce como error tipo I y a la
probabilidad de cometer este primer tipo de error se le denota por la letra α. En cambio,
a la aceptación de la hipótesis nula cuando esta es falsa recibe el nombre de error tipo
II, a la probabilidad de cometer este segundo tipo de error se le denota por la letra β.
A continuación, se presenta el siguiente cuadro:
1. Defina H0 y H1.
Sea X1, X2, . . . , Xn, una muestra grande (por ejemplo, n > 30) de una población con
la media µ y desviación estándar σ.
𝑋̅ − 𝜇0
- Se procede a calcular el puntaje z: z = 𝜎
√𝑛
- Se procede a calcular el P-valor. Éste constituye un área bajo la curva normal, que
depende de la hipótesis alternativa de la siguiente manera:
De acuerdo con Navidi, W (2006), se puede concluir a través del P-valor y a través de
la Significancia estadística.
- Entre menor sea el P-valor, se puede tener más certeza de que H0 es falsa.
- Entre mayor sea el P-valor, es más factible H0 pero nunca se puede tener la certeza
de que H0 sea verdadera.
- Una regla general indica rechazar H0 cada vez que P ≤ 0.05. Aunque esta regla es
conveniente, no tiene ninguna base científica.
Por medio de la significancia estadística también se puede concluir puesto que cada
vez que el P-valor es menor que un umbral específico, el resultado indica que es
“significativo estadísticamente” a ese nivel. Por lo que, por ejemplo, si P ≤ 0.05, el
resultado es estadísticamente significativo a un nivel de 5%; si P ≤ 0.01, el resultado
es estadísticamente significativo a un nivel de 1%, y así sucesivamente. Si un resultado
es estadísticamente significativo a un nivel de 100α%, también se puede decir que la
hipótesis nula se “rechaza a un nivel de 100α%”.
Para probar una hipótesis nula de la forma H0: p ≤ p0, H0: p = p0, suponiendo que tanto
np0 como n(1 – p0) son mayores que 10:
𝑝̂− 𝑝0
- Se procede a calcular el puntaje z: z =
√𝑝0 (1− 𝑝0 )/𝑛
- Se procede a calcular el P-valor. Éste constituye un área bajo la curva normal, que
depende de la hipótesis alternativa de la siguiente manera:
Hipótesis Alternativa P-valor
H1: p > p0 Área a la derecha de z.
H1: p < p0 Área a la izquierda de z.
H1: p ≠ p0 Suma de áreas en las colas
correspondientes a z y -z.
Cuadro 6. Tipos de Hipótesis Alternativa para cálculo de P-valor.
Sea X1, X2, . . . , Xn, una muestra de una población normal con media µ y desviación
estándar σ, donde σ es desconocida. Para probar una hipótesis nula de la forma: H0:
µ ≤ µ0, H0: µ ≥ µ0, o H0: µ = µ0:
𝑋̅ − 𝜇0
- Se procede a calcular el estadístico de prueba: t = 𝑠
√𝑛
𝑋̅ − 𝜇0
Si se conoce σ, el estadístico de prueba es z = 𝜎 , y se debe hacer una prueba z.
√𝑛
- Pruebas de Hipótesis para la diferencia entre dos medias con muestras grandes.
Sea X1,. . . , Xnx y Y1,. . . , Yny muestras grandes (por ejemplo, nx > 30 y ny > 30) de las
poblaciones con medias µx y µy y las desviaciones estándar σx y σy, respectivamente.
Suponga que las muestras se extraen en forma independiente una de la otra.
Para probar una hipótesis nula de la forma H0: µx - µy ≤ Δ0, H0: µx - µy ≥ Δ0, o H0: µx - µy
=Δ0.
(𝑋̅ −𝑌̅)− Δ0
- Se procede a calcular el puntaje z: z = . Si σx y σy son desconocidas se
𝜎2 𝜎2
𝑦
√ 𝑋 +
𝑛𝑥 𝑛𝑦
- Se procede a calcular el P-valor. Éste constituye un área bajo la curva normal, que
depende de la hipótesis alternativa de la siguiente manera:
Hines, W y Montgomery, D (1996) explica que para determinar la relación entre una sola
variable regresiva x y una variable de respuesta y, la variable regresiva x se supone
como una variable matemática continua, controlable por el experimentador.
Supóngase que la verdadera relación entre “y” y “x” es una línea recta, y que la
observación y en cada nivel de x es una variable aleatoria. Luego, el valor esperado
de y para cada valor de x es
𝐸 ⟨𝑦|𝑥⟩ = 𝛽0 +𝛽1 𝑥
̂0 + ̂
𝑦= 𝛽 𝛽1 𝑥 + 𝜖
Donde 𝜖 es un error aleatorio con media cero y varianza σ2. Los { 𝜖 } se supone también
que son variables aleatorias no correlacionadas. El modelo de regresión de la
ecuación anterior que involucra sólo una variable regresiva x a menudo recibe el
nombre de modelo de regresión lineal simple.
̂0 , ̂
Para el cálculo de los estimadores 𝛽 𝛽1 , se aplican ecuaciones normales de mínimos
cuadrados, las cuales son:
̂0 = 𝑦̅ − 𝛽
𝛽 ̂1𝑥̅ (1)
𝑛 𝑛
(∑𝑖=1 𝑦𝑖 )(∑𝑖=1 𝑥𝑖 )
∑𝑛
𝑖=1 𝑦𝑖 𝑥𝑖 −
̂1 =
𝛽 𝑛
(2)
(∑𝑛
𝑖=1 𝑥𝑖 )
2
∑𝑛 2
𝑖=1 𝑥𝑖 − 𝑛
Por tanto, las ecuaciones (1) y (2) son los estimadores por mínimos cuadrados de la
ordenada al origen y la pendiente, respectivamente. A continuación, se les da nombre
al numerador y denominador de la ecuación (2).
(∑𝑛
𝑖=1 𝑥𝑖 )
2
Sxx = ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛
(∑𝑛 𝑛
𝑖=1 𝑦𝑖 )(∑𝑖=1 𝑥𝑖 )
Sxy = ∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖 − 𝑛
𝑆𝑥𝑦
̂1 =
Es decir, el estimador de mínimos cuadrados de la pendiente es 𝛽 .
𝑆𝑥𝑥
Ejemplo 6: Un ingeniero químico está investigando el efecto de la temperatura de
operación de proceso en el rendimiento del producto. El estudio da como resultado los
siguientes datos en la tabla 3:
Temperatura 100 110 120 130 140 150 160 170 180 190
°C (x)
Rendimiento, 45 51 54 61 66 70 74 78 85 89
% (y)
Tabla 3. Temperatura y Rendimiento Ejemplo 6. Hines, W y Montgomery, D (1996).
10 10
n = 10 𝑥̅ = 145 𝑦̅ = 67.3
∑ 𝑥𝑖 = 1450 ∑ 𝑦𝑖 = 673
𝑖=1 𝑖=1
10 10 10
∑ 𝑥𝑖2 ∑ 𝑦𝑖2 ∑ 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
= 218.500 = 47.225 = 101.570
2
(∑10
𝑖=1 𝑥𝑖 ) (1450)2
Sxx = ∑10 2
𝑖=1 𝑥𝑖 − = 218.500 − = 8.250
10 10
(∑10 10
𝑖=1 𝑦𝑖 )(∑𝑖=1 𝑥𝑖 ) (1450)(673)
Sxy = ∑10
𝑖=1 𝑦𝑖 𝑥𝑖 − = 101.570 − = 3985
10 10
𝑆𝑥𝑦 3985
̂1 =
𝛽 = 8250 = .48303
𝑆𝑥𝑥
̂0 = 𝑦̅ − 𝛽
𝛽 ̂1𝑥̅ = 67.3 − (. 48303)145 = −2.73939
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 +∈ (1)
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝛾 𝑥𝑘 + 𝜀 (2)
2
𝜎𝑦𝑖 = 𝜎2
Suma de cuadrados
Las sumas de los cuadrados planteadas anteriormente, se utilizan para deducir los
estadísticos que se emplean en la regresión múltiple. Como se hizo en la regresión
lineal simple, el análisis se restringirá al caso más simple, en el cual se satisfacen los
cuatro supuestos acerca de los errores ε1. A continuación, se definen los cuatro
supuestos:
Asimismo, mostró los principios del pensamiento científico con el ciclo PHVA: Planear,
Hacer, Verificar y Actuar. La aplicación de este ciclo permitió aprender a realizar
mejoras. Los japoneses lo utilizaron como un medio para reconstruir el país, mientras
que en Estados Unidos este ciclo fue diseñado debido a las circunstancias de bonanza
de la posguerra. En 1951, la JUSE estableció los premios de calidad Deming, que con
el tiempo se convirtieron en un fuerte estímulo para la mejora. Para este premio se
utilizaron las regalías de un libro que se basaba en las conferencias del doctor Deming.
Con la influencia de líderes japoneses como Kaoru Ishikawa, Genichi Taguchi, Shigeo
Shingo, Taichi Ohono, etc., se continuó refinando el ciclo PHVA y la introducción de
otras técnicas para apoyar la mejora continua enfocada en los medios (causas) y no
en el producto final (los resultados).
Las línea central de una carta de control representa el promedio del estadístico que se
gráfica y las otras dos líneas se llaman límites de control, superior e inferior, y están
en una posición tal que cuando el proceso está en control estadístico, hay una alta
probabilidad de que aproximadamente todos los valores del estadístico (puntos) caigan
dentro de los límites. De esta manera si todos los puntos caen dentro de los límites,
entonces se supone que el proceso está bajo control estadístico. Ver Fig. 13
3.5.- Confiabilidad
∞
𝑝(0) + ∫ 𝑔(𝑡)𝑑𝑡 = 1.
0
Puesto que en muchos componentes (o sistemas) las fallas iniciales o fallas de tiempo
cero se eliminan durante la prueba, la variable aleatoria T está condicionada al evento
de que T > 0, por lo que la densidad de falla es
𝑔(𝑡)
𝑓(𝑡) = 𝑡> 0
1 − 𝑝(0)
f (t) = 0 en otro caso
∞
𝑅 (𝑡) = 1 − 𝐹(𝑡) = ∫ 𝑓(𝑥) 𝑑𝑥
1
El modelado de sistemas más complejos supone que sólo las fallas de componentes
aleatorias necesitan considerarse. Esto es equivalente a establecer que el tiempo para
la distribución de fallas es exponencial, esto es,
f(t) = λ e-λt t ≥ 0
=0 en otro caso
De modo que
𝑓(𝑡) 𝜆ℯ −𝜆𝑡
ℎ (𝑡) = = −𝜆𝑡 = 𝜆
𝑅(𝑡) ℯ
es una constante. Cuando se han eliminado todas las fallas de etapa temprana por
el quemado inicial y el tiempo para la ocurrencia de fallas por desgaste es muy
grande (como con las partes electrónicas), entonces esta suposición es razonable.
La distribución normal se emplea con mayor generalidad para modelar fallas por
desgaste o fallas por esfuerzo (donde la variable aleatoria es el nivel de esfuerzo en
vez del tiempo). En situaciones donde la mayor parte de las fallas se deben al
desgaste, la distribución normal puede ser muy apropiada. Se ha encontrado que la
distribución lognormal es aplicable en la descripción del tiempo de falla en algunos
tipos de componentes, y la bibliografía técnica parece indicar una utilización creciente
de esta densidad para este propósito. La distribución de Weibull se ha empleado de
manera amplia para representar el tiempo previo de falla, y su naturaleza es tal que
puede establecerse para aproximar con bastante precisión el fenómeno observado.
Cuando un sistema se compone de varios componentes y se deba al mhs serio de
un gran número de defectos o defectos posibles, la distribución de Weibull funciona
en particular muy bien como modelo.
Donde
∞
R(t) = P(T>t) = ∫𝑡 𝑓(𝑡)𝑑𝑡 = 1 − 𝐹(𝑡).
Donde F(t) es la función de distribución acumulativa de T. La probabilidad condicional
de que un componente fallará en el intervalo de T = t a T = t + Δt, dado que sobrevive
hasta el tiempo t, es
Al dividir esta proporción entre Δt y tomar el límite como Δt→ 0, obtenemos la tasa de
fallas, denotada por Z(t), que expresa la tasa de fallas en términos de la distribución
del tiempo de operaciones antes de una falla. La cual es dada como sigue:
a) La cantidad Z(t) es bien llamada tasa de fallas porque realmente cuantifica la tasa
de cambio con el tiempo de la probabilidad condicional de que el componente dure
una adicional dado que ha durado el tiempo t. La tasa de disminución (o crecimiento)
con el tiempo también es importante. Los siguientes puntos son fundamentales.
c) Si β > 1, Z(t) es una función creciente del tiempo t que indica que el componente se
desgasta con el tiempo.
d) Si β < 1, Z(t) es una función decreciente del tiempo t y, por lo tanto, el componente
se fortalece o endurece con el paso del tiempo.
3.7.- Límites de Especificaciones
Los límites de Especificaciones, o como los llama el autor Gutierrez, H (2010) Límites
de Control, son un aspecto fundamental, ya que si estos se ubican demasiado alejados
de la línea central entonces será más difícil detectar los cambios en el proceso,
mientras que si se ubican demasiado estrechos se incrementará el error tipo 1
(declarar un cambio cuando no lo hay).
Para calcular los límites de control se debe proceder de tal forma que, bajo condiciones
de control estadístico, el estadístico que se grafica en la carta tenga una alta
probabilidad de caer dentro de tales límites. Por lo tanto, una forma de proceder es
encontrar la distribución de probabilidad del estadístico, estimar sus parámetros y
ubicar los límites de manera que un alto porcentaje de la distribución esté dentro de
ellos, lo que se conoce como límites de probabilidad.
Una forma más sencilla y usual se obtiene a partir de la relación entre la media y la
desviación estándar de una variable, que para el caso de una variable de distribución
Normal con media µ, desviación estándar σ, y bajo condiciones de control estadístico,
se tiene que entre 𝜇 − 3𝜎 y 𝜇 + 3𝜎 se encuentra 99.73% de los posibles valores que
toma tal variable. En caso de que no se tenga una distribución normal, pero exista una
distribución unimodal y con una forma no muy distinta a la normal, entonces se aplica
la regla empírica o la extensión del teorema de Chebyshev. Bajo estas condiciones, se
presenta a continuación un modelo general para una carta de control.
𝐿𝐶𝐼 = 𝜇𝑤 − 3𝜎𝑤
Línea Central = 𝜇𝑤
𝐿𝐶𝑆 = 𝜇𝑤 + 3𝜎𝑤
Con estos límites y bajo condiciones de control estadístico se tendrá alta probabilidad
de que los valores de w estén dentro de ellos. La forma de estimar la media y la
desviación estándar de w a partir de las observaciones del proceso dependerá del tipo
de estadístico que sea w, ya sea un promedio, un rango o un porcentaje.
𝐸𝑆 − 𝐸𝐼
𝐶𝑝 =
6𝜎
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑙𝑒𝑟𝑎𝑑𝑎
𝐶𝑝 =
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑟𝑒𝑎𝑙
Valor del índice 𝐶𝑝 Clase o categoría de proceso Decisión (si el proceso está
centrado)
𝐶𝑝 ≥ 2 Clase Mundial Se tiene calidad 6 Sigma.
𝐶𝑝 > 1.33 1 Adecuado.
1 < 𝐶𝑝 ≤ 1.33 2 Parcialmente adecuado,
requiere de control estricto.
0.67 < 𝐶𝑝 ≤ 1 3 No adecuado para el trabajo.
Un análisis del proceso es
necesario. Requiere
modificaciones serias para
alcanzar una calidad
satisfactoria.
𝐶𝑝 ≤ 0.67 4 No adecuado para el trabajo.
Requiere modificaciones muy
serias.
Nota: Si 𝐶𝑝𝑘 < 𝐶𝑝 entonces una vez que se centre el proceso se tendrá la clase del proceso que se
indica.
Cuadro 9. Valores del 𝐶𝑝 y su interpretación. Gutierrez, H (2010).
µ−𝐸𝐼 𝐸𝑆− µ
𝐶𝑝𝑖 = y 𝐶𝑝𝑠 =
3𝜎 3𝜎
Estos índices si toman en cuenta µ y calculan la distancia de la media del proceso a
una de las especificaciones, que representa la variación tolerada para el proceso de
un solo lado de la media. A tal distancia se le divide entre 3σ porque solo se está
tomando en cuenta la mitad de la variación natural del proceso.
Por su parte el índice de capacidad real del proceso (𝐶𝑝𝑘 ) se puede ver como una
versión corregida del 𝐶𝑝 que si toma en cuenta el centrado del proceso. Para calcularlo
hay varias formas equivalentes, una de las más comunes es la siguiente:
µ − 𝐸𝐼 𝐸𝑆 − µ
𝐶𝑝𝐾 = 𝑀í𝑛𝑖𝑚𝑜 [ , ]
3𝜎 3𝜎
Como se puede apreciar, el índice 𝐶𝑝𝐾 es igual al valor más pequeño de entre
𝐶𝑝𝑖 𝑦 𝐶𝑝𝑠 , es decir, el índice 𝐶𝑝𝐾 es igual al índice unilateral más pequeño, por lo que
si el valor del 𝐶𝑝𝐾 es satisfactorio (mayor que 1.25), eso indicará que el proceso en
realidad es capaz. Si 𝐶𝑝𝐾 < 1, entonces el proceso no cumple con por lo menos una de
las especificaciones.
- Índice K.
µ−𝑁
𝐾 = 1 𝑥100
(𝐸𝑆−𝐸𝐼)
2
Como se aprecia, este indicador mide la diferencia entre la media del proceso, µ, y el
valor objetivo o nominal, N (o target), para la correspondiente característica de calidad,
y a esa diferencia la compara contra la mitad de la amplitud de las especificaciones.
La interpretación usual de los valores K es la siguiente:
- Si el signo del valor de K es positivo, significa que la media del proceso es mayor que
el valor nominal, y será negativo cuando µ < N.
Los índices 𝐶𝑝 𝑦 𝐶𝑝𝑘 están pensados a partir de que lo importante para un proceso
es reducir su variabilidad para cumplir con las especificaciones. Sin embargo, desde
el punto de vista G, Taguchi, cumplir con especificaciones no es sinónimo de buena
calidad y la reducción de la variabilidad debe darse pero en torno al valor nominal
(calidad óptima). Es decir la mejora de un proceso según Taguchi debe estar orientada
a reducir su variabilidad alrededor del valor nominal, N, y no sólo orientada a cumplir
con especificaciones. En consecuencia de lo anterior, Taguchi (1986) propone que la
capacidad del proceso se mida con el índice 𝐶𝑝𝑚 , que está definido por:
𝐸𝑆 − 𝐸𝐼
𝐶𝑝𝑚 =
6𝜏
𝜏 = √𝜎 2 + (𝜇 − 𝑁)2
Ejemplo 7:
Una característica importante de los costales de fertilizantes es que deben pesar 50kg.
La especificación inferior para el peso es de EI = 49 kg, y la superior es ES = 51 Kg.
Se sabe que la media del peso es µ = 49.76 y usando el rango medio se estima que la
desviación estándar es σ = 0.51. Con base en esto se quiere saber en que medida del
proceso ha estado cumpliendo con especificaciones. En la figura 16 se muestra la
gráfica del proceso, suponiendo una distribución normal, con µ = 49.76 y σ = 0.51. De
acuerdo a la figura se descubre que el proceso no está centrado, ya que la media del
proceso es menor a 50; además, hay mucha variación ya que la distribución no cabe
dentro de las especificaciones.
51 − 49 2
𝐶𝑝 = = = 0.65
6(0.51) 3.06
𝐸𝑆 − µ 51 − 49.76 1.24
𝐶𝑝𝑠 = = = = 0.81
3𝜎 3(0.51) 1.53
El índice para la especificación inferior, 𝐶𝑝𝑖 , es el más pequeño y es menor que uno,
entonces los mayores problemas están por la parte inferior. Cabe notar que también
en la especificación superior hay problemas, ya que 𝐶𝑝𝑠 = 0.81, por lo que el porcentaje
de producto que pesa más de ES = 51 Kg es 0.82%.
En términos generales indica una capacidad muy pobre. Por lo tanto cierta proporción
de costales no tiene un peso adecuado, como ya se había visto con los índices
unilaterales y en la figura 16.
49.76 − 50
𝐾 = ∗ 100 = −24%
1
(51 − 49)
2
De esta forma la media del proceso está desviada 24% a la izquierda del valor nominal,
por lo que el centrado del proceso es inadecuado y eso contribuye de manera
significativa a la baja capacidad del proceso para cumplir con la especificación inferior.
51 − 49 2
𝐶𝑝𝑚 = = = 0.59
6√0.512 + (49.76 − 50)2 3.38
Interpretación: Cuando el índice 𝐶𝑝𝑚 es menor que 1, eso indica que el proceso no
3.9.- Columbia
Este plan de muestreo posiblemente es el que haya tenido mayor difusión. Ha sido
adoptado con pequeñas variaciones por casi todos los cuerpos de normas importantes
(ANSI, ISO, BS, JIS, UNE, etc.).
- Existen 3 niveles de inspección, niveles I, II, y III y otro cuatro especiales, niveles S-
1, S-2, S-3 y S-4, que se utilizan en caso de ensayos destructivos o de inspecciones
muy costosas. Estos niveles van en función de la complejidad y la responsabilidad del
producto. Cuanto más alto es el nivel, mayor es el tamaño de la muestra y aumenta la
discriminación del plan de muestreo. Si no se indica otra cosa se toma el nivel II.
- Existen tres tipos de planes: simples, dobles y múltiples, cuya elección queda a cargo
del inspector que aplica la norma.
- Como se mencionó anteriormente, esta norma está diseñada para series de lotes.
Existen por tanto tres niveles de muestreo distintos según haya sido la historia de los
lotes anteriores: Inspección Rigurosa; Inspección Normal; Inspección reducida.
CONCLUSIONES
Las cartas de control, tienen una gran influencia en la calidad de la medición, puesto
que su objetivo básico es observar y analizar el comportamiento de un proceso a
través del tiempo, mediante la consideración de los límites de control superior e inferior
que determinan el área donde el mayor porcentaje de la distribución del proceso debe
encontrarse, en el caso de la temperatura de un equipo, puede establecerse límites de
control para garantizar que el equipo funcione en forma correcta dentro de estos
límites, y al salirse de ellos, analizar si se considera una causa específica o si se debe
a que el equipo se está saliendo de control, por lo que es un método inclusive de
precaución. Otro método para la medición de la calidad son las especificaciones 105,
donde se define un Nivel de Calidad Aceptable entre cliente y proveedor, lo cual cada
vez a tomado mayor auge puesto que considerar la opinión del cliente final como parte
de la calidad del producto a ofrecer es realmente útil para evitar desperdicios,
devoluciones, malos términos, en el que se consideran otras medidas para llevar la
inspección lote a lote y cumplir con los requisitos del cliente final.