Formato Compendio. Estadistica. Unidad2.

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 16

UNIDAD 2

Asignatura
Estadística Descriptiva

Profesor Autor
Lelly María Useche Castro. PhD.

Este compendio recoge textualmente documentos e información de varias


fuentes debidamente citadas.
Se lo utiliza únicamente con fines educativos.

Periodo Académico 2021 – S2 1


Índice

Insertar Tabla de contenidos

Resultado de aprendizaje de la asignatura……………………………………………………… 3


Resultado de aprendizaje de la unidad ………………………………………………………….. 3

Tema 1. Medidas de tendencia central…………………………………………………………… 3

Media ……………………………………………………………………………………………………………. 4

Mediana ………………………………………………………………………………………………………… 4
Moda……………………………………………………………………………………………………………… 5

Cálculo de las medidas de tendencia central para datos No Agrupados…………. 5

Cálculo de las medidas de tendencia central para datos Agrupados………………. 5

Tema 2. Medidas de tendencia no central……………………………………………………… 8


Cuartiles…………………………………………………………………………………………………………. 8

Deciles……………………………………………………………………………………………………………. 8

Percentiles……………………………………………………………………………………………………… 8
Cálculo de las medidas de tendencia no central para datos agrupados…………… 8

Tema 3. Medidas de dispersión………………………………………………………………………. 11

Rango …………………………………………………………………………………………………………….. 11

Rango intercuartílico ……………………………………………………………………………………… 11


Varianza …………………………………………………………………………………………………………. 11

Desviación Típica o estándar ………………………………………………………………………….. 11

Coeficiente de Variación…………………………………………………………………………………. 11

Cálculo de las medidas de dispersión para datos agrupados…………………………… 12


Tema 4. Medidas de forma………………………………………………………………….……….. 14

Asimetría (de Pearson) ………………………………………………………………….……………….. 14

Curtosis……………………………………………………………………………………….………………….. 15

Cálculo de las medidas de forma para datos Agrupados………………………………….. 15

2
Resultado de aprendizaje de la asignatura

Conocer las distintas técnicas de resumen y presentación de datos, mediante el uso de medidas
descriptivas y tablas de frecuencias, con la finalidad de tener herramientas para la óptima toma de
decisiones. Explicar las definiciones y propiedades de las probabilidades, con la finalidad de c alcular
o cuantificar el grado de incertidumbre de un fenómeno o evento de Interés. Aplicar los distintos
modelos probabilísticos en distintas situaciones afines a la profesión, con el fin de garantizar un
adecuado uso de las probabilidades en la toma de decisiones. Distinguir los conceptos fundamentales
de la inferencia estadística para la estimación de parámetros y su relación en la profesión de estudio.

Unidad 1: ESTADISTICA DESCRIPTIVA

Resultado de aprendizaje de la unidad: Aplicar las distintas técnicas de resumen, con la finalidad de
tener herramientas para la óptima toma de decisiones.

ESTADÍGRADOS O MEDIDAS RESUMEN


Es un valor que resumen en un solo número información de un conjunto de datos. Ellas son;
Estadígrafos o
Medidas
Resumen.

Medidas de Medidas de
Medidas de Medidas de
Tendencia tendencia NO
Dispersión Forma
Central central

Media Varianza Cuartiles Asimetría

Desviación
Mediana Deciles Curtosis
Estándar

Coeficiente de
Moda Percentiles
Variación

3
TEMA 1. MEDIDAS DE TENDENCIA CENTRAL: indica la tendencia de los datos hacia un valor central.
Pueden ser:
Media aritmética: es el promedio de las mediciones, es la suma de cada valor del conjunto de datos
dividido entre el número total de datos. Se aplica sólo a datos cuantitativos, puede tomar valores
positivos o negativos, dependiendo del conjunto de datos. Se deja influenciar por los valores extremo
(siendo esta una desventaja) y no se puede aproximar, se interpreta con al menos dos decimales
preferiblemente.
∑𝑛𝑖=1 𝑥 𝑖
𝑋̅ =
𝑛
Si los datos son No agrupados pero tabulados, recurrimos a la frecuencia de las categorías;
∑𝑛𝑖=1 𝑥 𝑖 . 𝑓𝑖
𝑋̅ =
𝑛
Si los datos son agrupados en clases, se calcula por medio del intervalo de clases.
∑𝑛𝑖=1(𝑚 𝑖 𝑥 𝑓𝑖 )
𝑋̅ =
𝑛

Existe otros tipos de media como la media armónica, geométrica, las cuales son más específicas como
en el área de economía, etc.
Por ejemplo, si tenemos las edades de 7 niños: 3, 5, 6, 8, 9 ,9,9 la media de las edades de los niños
es:
∑𝑛𝑖=1 𝑥 𝑖 3 + 5 + 6 + 8 + 9 + 9 + 9
𝑋̅ = = =7
𝑛 7
Mediana se define como el valor que ocupa la posición central. Para su cálculo se procede de la
siguiente manera:

Se ordenan los datos de mayor o menor o visceversa


Si los datos son No agrupados y si el número total de datos n es par, la mediana es el promedio entre
los valores centrales.
Ejemplo; supongamos que hay otro niño más, la mediana de las edades de los 8 niños: 3, 3, 5, 6, 8, 9
,9,9 es
6+8
𝑀𝑒 = =7
2

Si los datos son No agrupados y si el número total de datos n es impar, la mediana es el valor que
ocupa la posición central.
Ejemplo; Nuevamente para el conjunto inicial de los 7 niños, la mediana de las edades: 3, 5, 6, 8, 9
,9,9 es 8

4
En tablas de frecuencias para datos no agrupados cuantitativos, la mediana se puede calcular de la
siguiente manera;
𝑛+1
Se calcula , y el valor donde se encuentre en la frecuencia acumulada o lo supere, ese valor será
2
el valor de la mediana. Por ejemplo;

Edad fi Fa
15 2 2
16 5 7
17 2 9
18 3 12

𝑛+1 12+1
Por tanto, , es igual a = 6.5, el valor de la frecuencia acumulada que lo contiene es 7 lo que
2 2
corresponde a 16 años, por lo tanto, esa será la mediana del conjunto de datos.

Para datos agrupado:


𝑛
( − 𝐹𝑎 )
𝑀𝑒 = 𝐿 𝑖 + [ 2 ]x A
𝑓𝑚𝑒

(Se describe con mayor detalle en el ejemplo que se detalla más adelante)
Moda: es el valor que ocurre con mayor frecuencia. La moda puede no existir, en caso de que exista
y sea única se considera unimodal, si hay dos, bimodal, se calcula mediante las frecuencias de las
clases o categorías.

Cálculo de las medidas de tendencia central para datos no agrupados cualitativos.


Moda: Por ser una variable cualitativa solo se puede calcular la moda. Se lee en la columna de
frecuencia simple fi el valor que más se repite. Para este caso la frecuencia que más se repite es 9
correspondiente a los problemas relacionados con el servicio de electricidad. Puede interpretarse
como que el problema que más predomina en la comunidad es el de electricidad.

Frecuencia Frecuencia Frecuencia Relativa


Categoría Frecuencia (fi) Acumulada (Fa) Relativa (fr) Acumulada (Fra)

Agua 7 7 0,23 0,233

Internet 7 14 0,23 0,467

Electricidad 9 23 0,30 0,767

5
Aseo urbano 7 30 0,23 1,00

Total 30

Cálculo de las medidas de tendencia central para datos agrupados.

Media

Recordando que la medida de tendencia central se calcula mediante la fórmula general;

∑𝑛𝑖=1 𝑥𝑖
𝑋̅ =
𝑛
Para datos agrupados se calcula mediante la marca de clase:
∑𝑛𝑖=1(𝑚𝑖 𝑥 𝑓𝑖 )
𝑋̅ =
𝑛

Para el ejemplo de los accidentes de tránsito, sustituimos la fórmula anterior:


(7𝑥20+12𝑥27+17𝑥9+⋯+32𝑥1) 720
𝑋̅ = = = 12
60 60

Por tanto, 12 fallecidos en accidentes de tránsito es el promedio por mes en la provincia de Manabí
en el periodo 2014-2018.

Mediana

Para el cálculo de la mediana en un conjunto de datos agrupados se tiene:


𝑛
(2 − 𝐹𝑎 )
𝑀𝑒 = 𝐿 𝑖 + [ ]x A
𝑓𝑚𝑒

Donde 𝑓𝑚𝑒 es la frecuencia absoluta de la clase donde se encuentra la mediana, A es la amplitud de


la clase y 𝐹𝑎 es la frecuencia acumulada anterior a la clase de la mediana. La clase de la mediana se
obtiene dividiendo el número total de datos entre 2 y ese resultado se busca en la frecuencia
acumulada donde esté el valor o lo supere. Para el ejemplo sería 60/2=30

60
( 2 − 𝐹𝑎 ) (30 − 𝐹𝑎 )
𝑀𝑒 = 𝐿 𝑖 + [ ]x A = 𝑀𝑒 = 𝐿 𝑖 + [ ]x A
𝑓𝑚𝑒 𝑓𝑚𝑒

6
Buscando en la frecuencia acumulada se aprecia que no está exactamente el valor de 30, pero si el
primero que lo supera que es 47, por tanto, la clase en la que pertenece la mediana es la que tiene
el rango entre 10-24;

Continuando con el cálculo;

(30 − 20) (10)


= 𝑀𝑒 = 10 + [ ]x 4 = 𝑀𝑒 = 10 + [ ]x 4
27 27

(10)
= 𝑀𝑒 = 10 + [ ]x 4 = 𝑀𝑒 = 10 + 1,482 = 11,482 𝑓𝑎𝑙𝑙𝑒𝑐𝑖𝑑𝑜𝑠
27

Por tanto, aproximadamente el 50% de los meses de estudio presentan a lo más 12 fallecidos por
mes.

Moda

Para el cálculo de la moda en datos agrupados se tiene la siguiente fórmula:


𝑑1
𝑀𝑜 = 𝐿 𝑖 + [ ]x A
𝑑1 + 𝑑2

En el que;

𝐿 𝑖 es el límite inferior de la clase en la que pertenece la moda.


A es la amplitud de la clase

𝑑1 es la diferencia en valor absoluto de la frecuencia absoluta donde está la moda y la anterior a ella.
𝑑2 es la diferencia en valor absoluto de la frecuencia absoluta donde está la moda y la siguiente a
ella.

7
Frecuencia
Intervalos de Marca de Frecuencia Frecuencia Frecuencia Relativa
Clases Clase Absoluta Acumulada Relativa Acumulada
5-9 7 20 20 0,33 0,33
10-14 12 27 47 0,45 0,78
15-19 17 9 56 0,15 0,93
20-24 22 2 58 0,03 0,97
25-29 27 1 59 0,02 0,98
30-34 32 1 60 0,02 1,00
Total 60 1,00

7 7
𝑀𝑜 = 10 + [ ]x 4 𝑀𝑜 = 10 + [ ] x 4
7 + 18 25

= 𝑀𝑜 = 10 + [0,28]x 4 = 𝑀𝑜 = 10 + 1,12 = 11,12

Por tanto, la cantidad de fallecidos por mes que más predomina en los meses de estudio es
aproximadamente de 11

TEMA 2. MEDIDAS DE TENDENCIA NO CENTRAL


Muchas veces no es de interés el conocer un promedio o el 50% de los datos en que valor se
encuentra sino, por ejemplo, que ingreso tienen las tres cuartas partes de la población, o el peso del
30% de la población entre otros intereses, esto se logra con este tipo de medidas.
Cuartiles: divide la distribución en cuatro partes iguales. Para ello se cuenta con 3 cuartiles el cual:
Q1 indica el valor que ocupa el 25% de los datos, Q 2 indica el valor que ocupa el 50% de los datos, Q3
indica el valor que ocupa el 75% de los datos.
Deciles: divide la distribución en diez partes iguales. Se tiene 9 deciles, en el que, por ejemplo, D8
representa el 80% de los datos.
Percentiles: divide la distribución en cien partes iguales. Para ello se cuenta con 99 percentiles, el
cual, por ejemplo el P33 indica el valor que ocupa el 33% de los datos.

Cálculo de las medidas de tendencia no central para datos agrupados


Cuartiles: Para datos agrupados se identifica inicialmente la clase en la que se encuentra el cuartil.
Los cálculos y la ecuación se muestran a continuación:
Si se desea calcular el primer cuartil el cual corresponde al 25% de los datos;
𝑥𝑛 𝑛
( 4 − 𝐹𝑎 ) (4 − 𝐹𝑎 )
𝑄𝑥 = 𝐿 𝑖 + [ ]x A 𝑄1 = 𝐿 𝑖 + [ ]x A
𝑓𝑄𝑥 𝑓𝑄1

8
60
( 4 − 𝐹𝑎 ) (15 − 𝐹𝑎 )
= 𝑄1 = 𝐿 𝑖 + [ ]x A = 𝑄1 = 𝐿 𝑖 + [ ]x A
𝑓𝑄1 𝑓𝑄1

(15 − 0)
= 𝑄1 = 5 + [ ]x 4 = 𝑄1 = 5 + [0,75]x 4 = 𝑄1 = 5 + 3 = 8
20

En el 25% de los meses de estudio se observó 8 fallecidos al mes o menos

Deciles
El procedimiento es muy similar, para identificar la clase a la que pertenece el decil que se requiere,
a el número total de datos se le multiplica el decil y se divide entre diez.

𝑥𝑛
(10 − 𝐹𝑎 )
𝐷𝑥 = 𝐿 𝑖 + [ ]x A
𝑓𝐷𝑥

Por ejemplo, si se desea calcular el decil ocho, es decir, en el que se encuentra el 80% de los datos,
se procede de la siguiente manera;
8𝑥60
( − 𝐹𝑎 ) (48 − 𝐹𝑎 )
𝐷8 = 𝐿 𝑖 + [ 10 ]x A 𝐷8 = 𝐿 𝑖 + [ ]x A
𝑓𝐷8 𝑓𝐷8

(48 − 47) 1
𝐷8 = 15 + [ ]x 4 𝐷8 = 15 + [ ] x 4
9 9

𝐷8 = 15 + 0,44 = 15,44 9
El 80% de los meses en estudio se observan a lo más 15,44 fallecidos

Percentiles:

Nuevamente se procede de manera similar, se calcula, por ejemplo, el percentil 85

𝑥𝑛 85𝑥60
(100 − 𝐹𝑎 ) ( 100 − 𝐹𝑎 )
𝑃𝑥 = 𝐿 𝑖 + [ ]x A 𝑃85 = 𝐿𝑖 + [ ]x A
𝑓𝑃𝑥 𝑓𝑃85

(51 − 𝐹𝑎 ) (51 − 𝐹𝑎 )
𝑃85 = 𝐿 𝑖 + [ ]x A 𝑃85 = 𝐿 𝑖 + [ ]x A
𝑓𝑃85 𝑓𝑃85

(51 − 47)
𝑃85 = 15 + [ ]x 4
9

4
𝑃85 = 15 + [ ] x 4
9

10
𝑃85 = 15 + 1,78 𝑃85 = 16,78

El 85% de los meses de estudio se registraron a lo más 16,78 fallecidos.

TEMA 3. MEDIDAS DE DISPERSIÓN


Indican que tan concentrados o dispersos están los datos. Para la estadística en general, alta
dispersión en los datos trae como consecuencia dificultad en la toma de muestras, en la
interpretación de promedios, y en e uso de algunas técnicas estadísticas.
Rango se define como la diferencia entre el valor mayor y el valor menor, tiene la desventaja que es
afectado por valores extremos (muy bajo o muy altos del resto de los valores). Si el rango es pequeño,
indica que los valores son poco dispersos, muy similares entre sí.
Rango intercuartílico es la diferencia entre el cuartil 3 y el cuartil 1, por tanto, indica dentro de que
rango se encuentra el 50% de los datos centrales, no es afectado por los valores entremos, se usa
para el cálculo de la asimetría.
Varianza es una medida de dispersión relativa, es la suma de las diferencias al cuadrado de cada valor
con respecto a su media dividido entre el número total de datos, no posee unidades de medida, por
tanto, por si sola no se puede interpretar, se usa para comparar variabilidad de datos en dos g rupos
o más o en dos periodos o más de estudio etc.
∑(𝑋 − 𝜇)2
𝜎2 =
𝑁

Desviación Típica o estándar es calculada por la raíz cuadrada de la varianza, tiene las mismas
unidades de medida que los datos, es por ello que si se puede interpretar. Una desviación muy lejos
(entiéndase por “lejos” a criterio del investigador) hace que la media o promedio sea poco confiable,
mientras que desviaciones estándar pequeñas, indican que los datos están bien concentrados
alrededor de la media y por tanto ésta es una buena representación del conjunto de datos.

∑(𝑋 − 𝜇)2
𝜎=√
𝑁
Coeficiente de Variación: es la relación porcentual que existe entre la desviación y la media, ella
según el siguiente baremo podría indicar si el conjunto de datos es muy o poco variable.
𝑆
𝐶𝑉 = ( ̅) . 100%
𝑋
✓ Si el coeficiente de variación es menor al 10% existe poca variabilidad, es decir, el conjunto
de datos es muy similar con respecto a la variable o característica de estudio.
✓ Si el coeficiente de variación se encuentra entre 10% y 33% la variabilidad es aceptable para
el uso de ciertas técnicas estadísticas.
✓ Si el coeficiente de variación está entre 33% y 50% existe una variabilidad excesiva pero
tolerable.

11
✓ Si es mayor al 50%, la variabilidad es muy excesiva y en esos casos es conveniente segmentar
o clasificar los datos y analizarlos de manera diferente.

Cálculo de las medidas de dispersión para datos agrupados.

Varianza

La varianza para datos agrupados se calcula mediante la fórmula:


(∑ 𝑓𝑖 𝑚 𝑖 )2
∑(𝑓𝑖 𝑚𝑖 2 ) −
𝑆2 = 𝑛
𝑛−1

Para el cálculo necesitamos crear dos columnas adicionales en las que necesitamos la sumatoria de
las misma;
Los 𝑓𝑖 𝑚 𝑖 en el que para cada clase se multiplica la frecuencia absoluta por su respectiva marca de
clase;

Y luego una columna de 𝑓𝑖 𝑚 𝑖 2 que sería la columna recién calculada multiplicada nuevamente por la
marca de clases.

Luego se calculan las sumatorias de cada columna creada, por tanto

∑ 𝑓𝑖 𝑚 𝑖 = 720

∑ 𝑓𝑖 𝑚𝑖 2 = 10190

12
Sustituyendo;
(∑ 𝑓𝑖 𝑚 𝑖)2 7202
∑ (𝑓𝑖 𝑚 𝑖 2 ) − 10190 − ( 60 ) 10190 − 8640 2 1550
𝑆2 = 𝑛 𝑆2 = 𝑆 = = 26,27
𝑆2 = 59
𝑛 −1 60 − 1 59

La variabilidad no se interpreta, con ella calculamos la siguiente medida.

Desviación estándar

Es la raíz cuadrada de la varianza, sustituyendo tenemos:

2 (∑ 𝑓 𝑖 𝑚𝑖 )2
∑(𝑓𝑖 𝑚𝑖 )−
𝑆=√ 𝑛
= 𝑆 = √𝑆 2
𝑛−1

𝑆 = √ 26,27=5,13 fallecidos

Coeficiente de variación

Se calcula y luego se compara según el baremo


𝑆
𝐶𝑉 = ( ̅) . 100%
𝑋
5,13
𝐶𝑉 = ( ) . 100%
12
𝐶𝑉 = 0,428. 100%=42,8%

Existe una variabilidad excesiva pero tolerable.

13
TEMA 4. MEDIDAS DE FORMA
Asimetría (de Pearson) se conoce como sesgo y mide el grado de asimetría de una distribución,
puede ser sesgada a la derecha o sesgo positivo si tiene a la derecha una cola más larga, si ocurre a
la izquierda, se conoce como sesgo a la izquierda o sesgo negativo.

𝑚𝑒𝑑𝑖𝑎 − 𝑚𝑜𝑑𝑎
𝑆𝑒𝑠𝑔𝑜 =
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎

Si el valor es cercano a cero, se dice que es simétrica, en este caso la media, mediana y moda
coinciden.

30

20

10

0
10-14 15-19 20-24 25-29 30-34

Si el valor es positivo, se dice que tiene asimetría positiva, en este caso, a media es mayor a la
mediana y ésta a su vez es mayor a la moda.

30
25
20
15
10
5
0
5-9 10-14 15-19 20-24 25-29 30-34

Si el valor es negativo, se dice que tiene asimetría negativa, la media es menor a la mediana y esta a
su vez menor a la moda.

30

25

20

15

10

0
5-9 10-14 15-19 20-24 25-29 30-34

14
Curtosis mide que tan puntiaguda o achatada es la distribución de frecuencia de los datos, el grado
de agrupación de los datos en la región central, puede ser leptocúrticas, platicúrtica y mesocúrtica.

1(
𝑄3 − 𝑄1 )
𝐶𝑐 = 2 − 0.263
𝑃90 − 𝑃10
Si el valor es mayor a 0 se dice que es leptocúrtica

Si el valor es cercano a 0 se dice que es mesocúrtica


Si el valor es menor a 0 se dice que es platicúrtica.
Leptocúrtica: es cuando la distribución es más puntiaguda y presenta menos variabilidad los datos,
es decir, la mayoría de ellos están cercanos a sus valores centrales.

Mesocúrtica: es cuando la distribución es similar a la distribución normal.

Platicúrtica: es una distribución más achatada, es decir, presenta mayor dispersión los datos.

Cálculo de las medidas de forma para datos agrupados

Asimetría.
𝑚𝑒𝑑𝑖𝑎 − 𝑚𝑜𝑑𝑎
𝑆𝑒𝑠𝑔𝑜 =
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎

12−11,12
𝑆𝑒𝑠𝑔𝑜 = =
5,13

0,88
𝑆𝑒𝑠𝑔𝑜 =
5,13
=0,172

Como es mayor a cero tiene una asimetría positiva (ver histograma de frecuencias) en el cual la Media
es mayor a la Media y Mayor a la Moda.
15
Curtosis
1 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥̅ )4 . 𝑓𝑖
𝐶𝑐 = 𝑛
𝑆𝑥4
Otra manera es mediante percentiles
1(
𝑄3 − 𝑄1 )
𝐶𝑐 = 2 − 0,263
𝑃90 − 𝑃10

3𝑥60
( − 𝐹𝑎 )
𝑄3 = 𝐿 𝑖 + [ 4 ]x A
𝑓𝑃𝑥 𝑄3 = 13,704

𝑛
(4 − 𝐹𝑎 )
𝑄1 = 𝐿 𝑖 + [ ]x A 𝑄1 = 8
𝑓𝑄1

90𝑥60
( 100 − 𝐹𝑎 )
𝑃90 = 𝐿 𝑖 + [ ]x A 𝑃90 = 15 + 3,111 = 18,111
𝑓𝑃85

10𝑥60
( 100 − 𝐹𝑎 ) 𝑃10 = 5 + 1,2 = 6,2
𝑃10 = 𝐿 𝑖 + [ ]x A
𝑓𝑃85

(13,704 − 8)/2 5,704/2


𝐶𝑐 = − 0,263 𝐶𝑐 = − 0,263 𝐶𝑐 = −0,0236
18,111 − 6,2 11,911

Platicúrtica por ser menor a cero

16

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy