Formato Compendio. Estadistica. Unidad2.
Formato Compendio. Estadistica. Unidad2.
Formato Compendio. Estadistica. Unidad2.
Asignatura
Estadística Descriptiva
Profesor Autor
Lelly María Useche Castro. PhD.
Media ……………………………………………………………………………………………………………. 4
Mediana ………………………………………………………………………………………………………… 4
Moda……………………………………………………………………………………………………………… 5
Deciles……………………………………………………………………………………………………………. 8
Percentiles……………………………………………………………………………………………………… 8
Cálculo de las medidas de tendencia no central para datos agrupados…………… 8
Rango …………………………………………………………………………………………………………….. 11
Coeficiente de Variación…………………………………………………………………………………. 11
Curtosis……………………………………………………………………………………….………………….. 15
2
Resultado de aprendizaje de la asignatura
Conocer las distintas técnicas de resumen y presentación de datos, mediante el uso de medidas
descriptivas y tablas de frecuencias, con la finalidad de tener herramientas para la óptima toma de
decisiones. Explicar las definiciones y propiedades de las probabilidades, con la finalidad de c alcular
o cuantificar el grado de incertidumbre de un fenómeno o evento de Interés. Aplicar los distintos
modelos probabilísticos en distintas situaciones afines a la profesión, con el fin de garantizar un
adecuado uso de las probabilidades en la toma de decisiones. Distinguir los conceptos fundamentales
de la inferencia estadística para la estimación de parámetros y su relación en la profesión de estudio.
Resultado de aprendizaje de la unidad: Aplicar las distintas técnicas de resumen, con la finalidad de
tener herramientas para la óptima toma de decisiones.
Medidas de Medidas de
Medidas de Medidas de
Tendencia tendencia NO
Dispersión Forma
Central central
Desviación
Mediana Deciles Curtosis
Estándar
Coeficiente de
Moda Percentiles
Variación
3
TEMA 1. MEDIDAS DE TENDENCIA CENTRAL: indica la tendencia de los datos hacia un valor central.
Pueden ser:
Media aritmética: es el promedio de las mediciones, es la suma de cada valor del conjunto de datos
dividido entre el número total de datos. Se aplica sólo a datos cuantitativos, puede tomar valores
positivos o negativos, dependiendo del conjunto de datos. Se deja influenciar por los valores extremo
(siendo esta una desventaja) y no se puede aproximar, se interpreta con al menos dos decimales
preferiblemente.
∑𝑛𝑖=1 𝑥 𝑖
𝑋̅ =
𝑛
Si los datos son No agrupados pero tabulados, recurrimos a la frecuencia de las categorías;
∑𝑛𝑖=1 𝑥 𝑖 . 𝑓𝑖
𝑋̅ =
𝑛
Si los datos son agrupados en clases, se calcula por medio del intervalo de clases.
∑𝑛𝑖=1(𝑚 𝑖 𝑥 𝑓𝑖 )
𝑋̅ =
𝑛
Existe otros tipos de media como la media armónica, geométrica, las cuales son más específicas como
en el área de economía, etc.
Por ejemplo, si tenemos las edades de 7 niños: 3, 5, 6, 8, 9 ,9,9 la media de las edades de los niños
es:
∑𝑛𝑖=1 𝑥 𝑖 3 + 5 + 6 + 8 + 9 + 9 + 9
𝑋̅ = = =7
𝑛 7
Mediana se define como el valor que ocupa la posición central. Para su cálculo se procede de la
siguiente manera:
Si los datos son No agrupados y si el número total de datos n es impar, la mediana es el valor que
ocupa la posición central.
Ejemplo; Nuevamente para el conjunto inicial de los 7 niños, la mediana de las edades: 3, 5, 6, 8, 9
,9,9 es 8
4
En tablas de frecuencias para datos no agrupados cuantitativos, la mediana se puede calcular de la
siguiente manera;
𝑛+1
Se calcula , y el valor donde se encuentre en la frecuencia acumulada o lo supere, ese valor será
2
el valor de la mediana. Por ejemplo;
Edad fi Fa
15 2 2
16 5 7
17 2 9
18 3 12
𝑛+1 12+1
Por tanto, , es igual a = 6.5, el valor de la frecuencia acumulada que lo contiene es 7 lo que
2 2
corresponde a 16 años, por lo tanto, esa será la mediana del conjunto de datos.
(Se describe con mayor detalle en el ejemplo que se detalla más adelante)
Moda: es el valor que ocurre con mayor frecuencia. La moda puede no existir, en caso de que exista
y sea única se considera unimodal, si hay dos, bimodal, se calcula mediante las frecuencias de las
clases o categorías.
5
Aseo urbano 7 30 0,23 1,00
Total 30
Media
∑𝑛𝑖=1 𝑥𝑖
𝑋̅ =
𝑛
Para datos agrupados se calcula mediante la marca de clase:
∑𝑛𝑖=1(𝑚𝑖 𝑥 𝑓𝑖 )
𝑋̅ =
𝑛
Por tanto, 12 fallecidos en accidentes de tránsito es el promedio por mes en la provincia de Manabí
en el periodo 2014-2018.
Mediana
60
( 2 − 𝐹𝑎 ) (30 − 𝐹𝑎 )
𝑀𝑒 = 𝐿 𝑖 + [ ]x A = 𝑀𝑒 = 𝐿 𝑖 + [ ]x A
𝑓𝑚𝑒 𝑓𝑚𝑒
6
Buscando en la frecuencia acumulada se aprecia que no está exactamente el valor de 30, pero si el
primero que lo supera que es 47, por tanto, la clase en la que pertenece la mediana es la que tiene
el rango entre 10-24;
(10)
= 𝑀𝑒 = 10 + [ ]x 4 = 𝑀𝑒 = 10 + 1,482 = 11,482 𝑓𝑎𝑙𝑙𝑒𝑐𝑖𝑑𝑜𝑠
27
Por tanto, aproximadamente el 50% de los meses de estudio presentan a lo más 12 fallecidos por
mes.
Moda
En el que;
𝑑1 es la diferencia en valor absoluto de la frecuencia absoluta donde está la moda y la anterior a ella.
𝑑2 es la diferencia en valor absoluto de la frecuencia absoluta donde está la moda y la siguiente a
ella.
7
Frecuencia
Intervalos de Marca de Frecuencia Frecuencia Frecuencia Relativa
Clases Clase Absoluta Acumulada Relativa Acumulada
5-9 7 20 20 0,33 0,33
10-14 12 27 47 0,45 0,78
15-19 17 9 56 0,15 0,93
20-24 22 2 58 0,03 0,97
25-29 27 1 59 0,02 0,98
30-34 32 1 60 0,02 1,00
Total 60 1,00
7 7
𝑀𝑜 = 10 + [ ]x 4 𝑀𝑜 = 10 + [ ] x 4
7 + 18 25
Por tanto, la cantidad de fallecidos por mes que más predomina en los meses de estudio es
aproximadamente de 11
8
60
( 4 − 𝐹𝑎 ) (15 − 𝐹𝑎 )
= 𝑄1 = 𝐿 𝑖 + [ ]x A = 𝑄1 = 𝐿 𝑖 + [ ]x A
𝑓𝑄1 𝑓𝑄1
(15 − 0)
= 𝑄1 = 5 + [ ]x 4 = 𝑄1 = 5 + [0,75]x 4 = 𝑄1 = 5 + 3 = 8
20
Deciles
El procedimiento es muy similar, para identificar la clase a la que pertenece el decil que se requiere,
a el número total de datos se le multiplica el decil y se divide entre diez.
𝑥𝑛
(10 − 𝐹𝑎 )
𝐷𝑥 = 𝐿 𝑖 + [ ]x A
𝑓𝐷𝑥
Por ejemplo, si se desea calcular el decil ocho, es decir, en el que se encuentra el 80% de los datos,
se procede de la siguiente manera;
8𝑥60
( − 𝐹𝑎 ) (48 − 𝐹𝑎 )
𝐷8 = 𝐿 𝑖 + [ 10 ]x A 𝐷8 = 𝐿 𝑖 + [ ]x A
𝑓𝐷8 𝑓𝐷8
(48 − 47) 1
𝐷8 = 15 + [ ]x 4 𝐷8 = 15 + [ ] x 4
9 9
𝐷8 = 15 + 0,44 = 15,44 9
El 80% de los meses en estudio se observan a lo más 15,44 fallecidos
Percentiles:
𝑥𝑛 85𝑥60
(100 − 𝐹𝑎 ) ( 100 − 𝐹𝑎 )
𝑃𝑥 = 𝐿 𝑖 + [ ]x A 𝑃85 = 𝐿𝑖 + [ ]x A
𝑓𝑃𝑥 𝑓𝑃85
(51 − 𝐹𝑎 ) (51 − 𝐹𝑎 )
𝑃85 = 𝐿 𝑖 + [ ]x A 𝑃85 = 𝐿 𝑖 + [ ]x A
𝑓𝑃85 𝑓𝑃85
(51 − 47)
𝑃85 = 15 + [ ]x 4
9
4
𝑃85 = 15 + [ ] x 4
9
10
𝑃85 = 15 + 1,78 𝑃85 = 16,78
Desviación Típica o estándar es calculada por la raíz cuadrada de la varianza, tiene las mismas
unidades de medida que los datos, es por ello que si se puede interpretar. Una desviación muy lejos
(entiéndase por “lejos” a criterio del investigador) hace que la media o promedio sea poco confiable,
mientras que desviaciones estándar pequeñas, indican que los datos están bien concentrados
alrededor de la media y por tanto ésta es una buena representación del conjunto de datos.
∑(𝑋 − 𝜇)2
𝜎=√
𝑁
Coeficiente de Variación: es la relación porcentual que existe entre la desviación y la media, ella
según el siguiente baremo podría indicar si el conjunto de datos es muy o poco variable.
𝑆
𝐶𝑉 = ( ̅) . 100%
𝑋
✓ Si el coeficiente de variación es menor al 10% existe poca variabilidad, es decir, el conjunto
de datos es muy similar con respecto a la variable o característica de estudio.
✓ Si el coeficiente de variación se encuentra entre 10% y 33% la variabilidad es aceptable para
el uso de ciertas técnicas estadísticas.
✓ Si el coeficiente de variación está entre 33% y 50% existe una variabilidad excesiva pero
tolerable.
11
✓ Si es mayor al 50%, la variabilidad es muy excesiva y en esos casos es conveniente segmentar
o clasificar los datos y analizarlos de manera diferente.
Varianza
Para el cálculo necesitamos crear dos columnas adicionales en las que necesitamos la sumatoria de
las misma;
Los 𝑓𝑖 𝑚 𝑖 en el que para cada clase se multiplica la frecuencia absoluta por su respectiva marca de
clase;
Y luego una columna de 𝑓𝑖 𝑚 𝑖 2 que sería la columna recién calculada multiplicada nuevamente por la
marca de clases.
∑ 𝑓𝑖 𝑚 𝑖 = 720
∑ 𝑓𝑖 𝑚𝑖 2 = 10190
12
Sustituyendo;
(∑ 𝑓𝑖 𝑚 𝑖)2 7202
∑ (𝑓𝑖 𝑚 𝑖 2 ) − 10190 − ( 60 ) 10190 − 8640 2 1550
𝑆2 = 𝑛 𝑆2 = 𝑆 = = 26,27
𝑆2 = 59
𝑛 −1 60 − 1 59
Desviación estándar
2 (∑ 𝑓 𝑖 𝑚𝑖 )2
∑(𝑓𝑖 𝑚𝑖 )−
𝑆=√ 𝑛
= 𝑆 = √𝑆 2
𝑛−1
𝑆 = √ 26,27=5,13 fallecidos
Coeficiente de variación
13
TEMA 4. MEDIDAS DE FORMA
Asimetría (de Pearson) se conoce como sesgo y mide el grado de asimetría de una distribución,
puede ser sesgada a la derecha o sesgo positivo si tiene a la derecha una cola más larga, si ocurre a
la izquierda, se conoce como sesgo a la izquierda o sesgo negativo.
𝑚𝑒𝑑𝑖𝑎 − 𝑚𝑜𝑑𝑎
𝑆𝑒𝑠𝑔𝑜 =
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎
Si el valor es cercano a cero, se dice que es simétrica, en este caso la media, mediana y moda
coinciden.
30
20
10
0
10-14 15-19 20-24 25-29 30-34
Si el valor es positivo, se dice que tiene asimetría positiva, en este caso, a media es mayor a la
mediana y ésta a su vez es mayor a la moda.
30
25
20
15
10
5
0
5-9 10-14 15-19 20-24 25-29 30-34
Si el valor es negativo, se dice que tiene asimetría negativa, la media es menor a la mediana y esta a
su vez menor a la moda.
30
25
20
15
10
0
5-9 10-14 15-19 20-24 25-29 30-34
14
Curtosis mide que tan puntiaguda o achatada es la distribución de frecuencia de los datos, el grado
de agrupación de los datos en la región central, puede ser leptocúrticas, platicúrtica y mesocúrtica.
1(
𝑄3 − 𝑄1 )
𝐶𝑐 = 2 − 0.263
𝑃90 − 𝑃10
Si el valor es mayor a 0 se dice que es leptocúrtica
Platicúrtica: es una distribución más achatada, es decir, presenta mayor dispersión los datos.
Asimetría.
𝑚𝑒𝑑𝑖𝑎 − 𝑚𝑜𝑑𝑎
𝑆𝑒𝑠𝑔𝑜 =
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎
12−11,12
𝑆𝑒𝑠𝑔𝑜 = =
5,13
0,88
𝑆𝑒𝑠𝑔𝑜 =
5,13
=0,172
Como es mayor a cero tiene una asimetría positiva (ver histograma de frecuencias) en el cual la Media
es mayor a la Media y Mayor a la Moda.
15
Curtosis
1 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥̅ )4 . 𝑓𝑖
𝐶𝑐 = 𝑛
𝑆𝑥4
Otra manera es mediante percentiles
1(
𝑄3 − 𝑄1 )
𝐶𝑐 = 2 − 0,263
𝑃90 − 𝑃10
3𝑥60
( − 𝐹𝑎 )
𝑄3 = 𝐿 𝑖 + [ 4 ]x A
𝑓𝑃𝑥 𝑄3 = 13,704
𝑛
(4 − 𝐹𝑎 )
𝑄1 = 𝐿 𝑖 + [ ]x A 𝑄1 = 8
𝑓𝑄1
90𝑥60
( 100 − 𝐹𝑎 )
𝑃90 = 𝐿 𝑖 + [ ]x A 𝑃90 = 15 + 3,111 = 18,111
𝑓𝑃85
10𝑥60
( 100 − 𝐹𝑎 ) 𝑃10 = 5 + 1,2 = 6,2
𝑃10 = 𝐿 𝑖 + [ ]x A
𝑓𝑃85
16