Ebook #1 - Semana 3
Ebook #1 - Semana 3
Ebook #1 - Semana 3
Representaciones Gráficas
de Distribuciones
Índice
3. Las representaciones gráficas nos dan los datos en un diagrama de dos dimensiones.
La distribución de frecuencias por intervalos pueden ser un histograma o un polígono
de frecuencias, del polígono de frecuencias se obtiene la curva de frecuencia.
Sobre el eje horizontal podemos mostrar los valores de la variable (la característica
que estamos midiendo), como la producción de alfombras en metros. Sobre el eje
vertical señalamos las frecuencias de clase mostradas en el eje horizontal.
Las gráficas de distribuciones de frecuencias simples y de distribuciones de frecuencia
relativas son de utilidad debido a que resaltan y aclaran Los patrones que no se pueden
distinguir fácilmente en las tablas.
3.1 Distribución por intervalos
3.1.1 Histograma
Histograma
10
9
8
7
Frecuencia
6 Fig.
5
3.1
4
3
Frecuencia
2
1
0
Clase
10 Fig.
3.2
8
Frecuencia
0
15 15.3 15.6 15.9 16.2 16.5 16.8 17.1
Nivel de Producción
Los histogramas y los polígonos de frecuencia son parecidos ¿por qué necesitamos
ambos? Las ventajas de los histogramas son:
Los rectángulos muestran cada clase la distribución por separado.
El área de cada rectángulo, en relación con el resto, muestra la proporción del
número total de observaciones que se encuentran en esa clase.
Fig.
3.4
Cuando se habla de curvas asimétricas podemos ver que son de dos tipos:
asimétricas positivas o de cola del lado derecho, o asimétricas negativas o de cola
del lado izquierdo.
Fig.
3.5
Fig.
3.7
𝐹𝑖 = ∑ 𝑓𝑗 , 𝑖 = 1,2, … , 𝑘.
𝑗=1
Del mismo modo la frecuencia acumulada relativa H1 hasta el valor Xi es la suma de
las frecuencias relativas hi de todos los valores menores o iguales a Xi, esto es,
𝑖
𝐹𝑖
𝐻𝑖 = ∑ ℎ𝑗 𝑜 𝐻𝑖 = , 𝑖 = 1,2, … , 𝑘
𝑛
𝑗=1
Y la frecuencia acumulada en porcentajes Pi hasta el valor Xi es la suma de las
frecuencias en porcentaje pi de todos los valores menores o iguales a Xi, esto es,
n
Pi = ∑ Pi o Pi = Hi x 100%, i = 1,2, … , k
i=1
A manera de ejemplo entonces pondremos los resultados de una encuesta hecha
entre 20 familias sobre el número de hijos, los datos obtenidos fueron
Cuadro 3.1
2 1 2 4 1 3 2 3 2 0
3 2 1 3 2 3 3 1 2 4
𝐹3 = ∑ 𝑓𝑗 = 𝑓1 + 𝑓2 + 𝑓3 = 1 + 4 + 7 = 12
𝑗=1
El valor 𝐹3 = 12 significa que hay 12 familias de las 20, que tienen 2 hijos o menos,
o que el 60% de las familias del grupo tienen 2 hijos o menos.
Fig. 3.8
Fig. 3.9
Ahora supongamos que se traza una línea perpendicular al eje vertical en la marca
0.50 para intersectar a nuestra ojiva, de esta manera podemos leer el valor
aproximado del nivel de producción del décimo quinto telar de un arreglo de 30.
De esta manera nos damos cuenta que a partir del ordenamiento de datos podemos
construir distribuciones de frecuencias. A partir de las distribuciones de frecuencias
podemos construir distribuciones de frecuencias acumuladas. A partir de estas
podemos trazar una ojiva y de esta ojiva podemos aproximar los valores que tenemos
en el ordenamiento de datos. Sin embargo no podemos recobrar de manera normal
los datos originales exactos a partir de cualquiera de las representaciones gráficas.
Aplicaciones de la distribución de frecuencias acumuladas
La primera aplicación que podemos darle sería por ejemplo, calcular el número
de datos observados que corresponden a un intervalo dado de la variable por
ejemplo en la fig. 3.10 aproximadamente 17 empleados tiene salarios menores
o iguales a 50 (en el eje horizontal).
Calcular cuantiles, los cuantiles son valores de la variable que dividen a la
distribución de los datos en 2, 4, 10 o 100 partes iguales, cuyos nombres
específicos son los que se muestran a continuación:
Como nota adicional podemos acotar que la unidad estadística está en el cuarto
superior si es que su medición observada es mayor o igual que el tercer cuartel o
percentil 75.
A continuación se desarrollan algunos ejemplos para su mejor entendimiento.
Ejemplo 1
En una empresa después de haber estudiado los diferentes niveles de ingreso de los
empleados se ha levantado información de las salarios quincenales de 45 de ellos los
cuales se muestran en el cuadro 3.2. se solicita que en la distribución de frecuencias
por intervalos de los salarios quincenales de los 45 empleados:
A) Calcule el porcentaje de empleados que tiene salarios entre 52 y 75
B) Obtenga el salario que divide a la distribución en dos partes iguales
C) Calcule el percentil 25
Solución
A) En la distribución de frecuencias por intervalos de los 45 empleados, el número
de salarios quincenales comprendidos entre 52 y 75 es igual a:
𝑋 + 16 + 8 + 𝑦
Donde 𝑋 es el número de salarios comprendidos entre 52 y 58, e 𝑌 es el número de
salarios comprendidos entre 74 y 75 como mostramos en la figura siguiente:
B) Primero se ubica el intervalo que contiene a la mediana, para esto, del 50% de
las frecuencias acumuladas dada por 0.5n (o 0.5 en frecuencias relativas) se va
a la ojiva y de la ojiva se va al intervalo de los salarios. Esto se puede hacer
también directamente en la distribución de frecuencia. En la distribución, 0.5n =
22.5, entonces, Me ∈ [58, 66[ .
𝑋 66−58 5.5
= 33−17 de donde resulta 𝑋 = 𝑥 8 = 2.75
22.5−17 16
Ejemplo 2
Calcule los percentiles 10, 75 y 90 para los 45 salarios quincenales agrupados en
la distribución de frecuencias de intervalos del ejemplo de la Tabla 3.1
Solución
1.5
𝑃10 ∈ [42, 50], 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝑃10 = 42 + 4 * 8 = 42+3 = 45
0.75
𝑃75 ∈ [66, 74], entonces, 𝑃75 = 66 + * 8 = 66 + 0.75 = 66.75
8
7.5
𝑃90 ∈ [66, 74], entonces, 𝑃90 = 66 + 8 * 8 = 66 + 7.5 = 73.5
Para hallar los percentiles en n datos no agrupados, pero ordenados en forma
ascendente: 𝑋1 ≤ 𝑋2 ≤ 𝑋3……… ≤ 𝑋𝑛 el valor del percentil 𝑃𝑘 es 𝑃𝑘 = (𝑋𝑗 + 𝑋𝑗+1 )/2 ,
si g=0, y 𝑃𝑘 = 𝑋𝑗+1 , 𝑔 > 0 donde, 0.01k * n = j + g, k = rango percentil, j = parte
entera y g = parte fraccional.
Diagrama de Tallo
Es una técnica que se usa para organizar datos sin perder la identidad de cada dato
observado, como si ocurre en una distribución de frecuencias por intervalos.
El diagrama de tallo y hojas se construye partiendo cada dato numérico en 2. El
tallo que consiste del dígito o los dígitos iniciales y las hojas que consisten de los
dígitos restantes del dato. Usualmente se eligen entre 5 y 20 tallos.
Ejemplo 3
Tomando los datos del Cuadro 3.2
a) Desarrolle un diagrama de tallo y hojas
b) Halle el porcentaje de ingresos inferiores a 52
c) Cuál es el valor de en medio o central
d) Cuantos valores están entre 50 y 65. Incluir los extremos
Solución
a) Utilicemos el primer dígito de cada dato como tallo y el segundo como hoja. Para
el 63 por ejemplo el tallo es 6 y la hoja es 3. Como el dato mínimo es 26 y el
dato máximo es 82, entonces los tallos empiezan en 2 y terminan en 8.
Ejemplo 4
Los siguientes datos representan el periodo de duración en meses de 32 baterías
AA,
3.3 4.0 6.0 4.2 6.0 5.4 4.5
1.5 7.0 6.5 7.4 5.2 5.7 6.2
5.5 5.2 6.8 3.8 2.4 3.6
5.0 6.2 5.3 6.5 5.5 6.0
2.8 7.1 6.7 4.7 5.6 5.9
a) Desarrolle un diagrama de tallo y hojas
b) ¿Cuál es el valor de en medio?
c) ¿Cuántas baterías duraron entre 2.9 y 5.8 meses?
Solución
a) Utilicemos dígito entero de cada dato como tallo y el dígito decimal como hoja. Para
el número 5.2 por ejemplo, el tallo es 5 y la hoja es 2. Como el dato mínimo es 1.5
y dato máximo es 7.4, entonces los tallos empiezan en 1 y terminan en 7.
Ejemplo 5
El siguiente es el diagrama de tallo y hojas de los valores (un entero y dos decimales) de
una variable continua. El tronco consiste de un entero y un decimal:
Tallo Hojas
35 245
35 3567
37 34556889
38 0024455
39 358
Solución
a) Se observaron 25 datos, donde, mínimo 3.53 y, máximo 3.98.
b) El valor central es 3.78
Gráfica de Línea
Si se quiere resaltar variaciones de los datos a través del tiempo, se utiliza una gráfica de
línea, la misma que se obtiene uniendo segmentos puntos de la forma (tiempo,
frecuencias) en cada modalidad y para una o más de las partes componentes. La figura
3.10
Principio de Pareto
De acuerdo a este principio podemos determinar que cuando se hace el análisis de un
grupo de elementos que tienen características similares y contribuyen a un mismo
propósito, solo unos pocos son los responsables de la mayor parte de dicho efecto.
Paso 1
Como en todas las herramientas de análisis de datos, el primer paso consiste en recoger
los datos correctos o asegurarse de que los existentes lo son.
Para la construcción de un Diagrama de Pareto son necesarios:
a) Un efecto cuantificado y medible sobre el que se quiere priorizar (Costes, tiempo,
número de errores o defectos, porcentaje de clientes, etc).
b) Una lista completa de elementos o factores que contribuyen a dicho efecto (tipos de
fallos o errores, pasos de un proceso, tipos de problemas, productos, servicios, etc).
Las herramientas de calidad más útiles para obtener esta lista son: la Tormenta de Ideas,
el Diagrama de Flujo, el Diagrama de Causa-Efecto y sus similares, o los propios datos.
c) La magnitud de la contribución de cada elemento o factor al efecto total.
Estos datos, bien existan o bien haya que recogerlos, deberán ser:
- Objetivos: basados en hechos, no en opiniones.
- Consistentes: debe utilizarse la misma medida para Causa Frecuencia
todos los elementos contribuyentes y los mismos Problema 1 125
supuestos y cálculos a lo largo del estudio, ya que el Problema 2 98
Análisis de Pareto es un análisis de comparación. Problema 3 149
- Representativos: deben reflejar toda la variedad de Problema 4 70
hechos que se producen en la realidad.
Problema 5 40
- Verosímiles: evitar cálculos o suposiciones
Problema 6 180
controvertidas, ya que buscamos un soporte para la
toma de decisiones, si no se cree en los datos, no Problema 7 100
apoyarán las decisiones. Problema 8 35
Tenemos en nuestra tabla una lista de 10 diferentes Problema 9 28
problemas que se presentan durante la fabricación de Problema 10 15
cierta pieza mecánica en una fresadora. Estos datos
han sido recogidos de manera absolutamente objetiva después de haber analizado cada
fallo de las piezas.
Paso 2
Paso 4
%
Causa Frecuencia Acumulado A partir de aquí debemos de iniciar la construcción de
Problema 6 180 21% nuestro gráfico de Pareto. El eje vertical izquierdo
Problema 3 149 39% representa la magnitud del efecto estudiado. Debe
Problema 1 125 54%
empezar en 0 y ir hasta el valor del efecto total.
Problema 7 100 66% Rotularlo con el efecto, la unidad de medida y la
Problema 2 98 78% escala. La escala debe ser consistente, es decir
Problema 4 70 86% variar según intervalos constantes. Las escalas de
Problema 5 40 91% gráficos que se compararán entre sí, deben ser
Problema 8 35 95% idénticas. El eje horizontal contiene los distintos
Problema 9 28 98% elementos o factores que contribuyen al efecto.
Problema 10 15 100%
Dividirlo en tantas partes como factores existan y
rotular su identificación de izquierda a derecha según el orden establecido en la Tabla de
Pareto. El eje vertical derecho representa la magnitud de los porcentajes acumulados del
efecto estudiado.
Este análisis es útil en todos los casos en donde se debe de establecer prioridades para
poder enfocar y dirigir las acciones correspondientes para la resolución del problema. Es
así que permite que los esfuerzos no se diluyan y optimiza el resultado de dicha inversión.
Podeos utilizarlos por ejemplo para; identificar las causas claves de un problema,
comprobar los resultados de un grupo de trabajo una vez implementada la solución
propuesta por el mismo. Para esto se compara el diagrama de Pareto inicial con el
diagrama actual de tal manera que se puede establecer la contribución de los elementos
que han disminuido el problema.
Para graficar un poco mejor la utilidad del gráfico de Pareto daremos un ejemplo sobre los
robos que sufría una tienda por departamentos y que le estaba costando una gran cantidad
de dinero mensualmente. Debido a que esta tienda cuenta con diferentes plantas en las
que se venden mercaderías distintas, se optó por recoger inicialmente los costos que
implicaban cada uno de estos robos en las diferentes áreas. Para lo cual se utilizó un
análisis de Pareto.
%
Causa Costes Acumulado
Joyería 62 22%
Perfumería 58 42%
Deportes 50 60%
Música 47 76%
Electro 22 84%
Ropa 16 90%
cafetería 15 95%
Hogar 10 99%
Muebles 4 100%
Después de este análisis se pudo determinar que en las primeras cuatro secciones se
registran el 76% de los costes totales por robos. Lo que indicaría que es imprescindible
hacer trabajos de seguridad en estas áreas de manera prioritaria, para poder obtener una
mejora significativa con estas medidas.