Medidas de Resumen
Medidas de Resumen
Medidas de Resumen
MEDIDAS DE RESUMEN
MEDIDAS DE RESUMEN
Población Muestra
Aplico un
Parámetro Estimador
O
Estadígrafo
O
Estadístico
Generan
una
Estimación
Parámetro: Es una medida que describe una variable que utiliza datos de una
población
Estadígrafos / Estadísticos / Estimadores: Es una medida que describe una variable
que utiliza datos de una muestra. Los estadígrafos, estadísticos o estimadores son el
algoritmo matemático a partir del cual, al aplicarlo a una muestra, obtengo un valor
que será denominado estimación.
Por ejemplo: El promedio. La acción de sumar todo y dividirlo por la cantidad de
elementos, cuando lo estoy realizando sobre una muestra, es el estimador; y el
resultado que me devolverá ese algoritmo será la estimación. Si calculamos el
promedio sobre la población, tanto el algoritmo matemático como el resultado son el
parámetro. No hay diferencia para la población ya que la población es una, y cuando
Página 1
Capítulo 3 Medidas de Resumen
aplico el parámetro, ejemplo el concepto media poblacional, voy a tener un solo valor.
No hay diferencia entre estimador y estimación.
Estas medidas de resumen, que explican determinada característica, van a tener
distintos nombres dependiendo de lo que expliquen:
MEDIDAS DE POSICION
Estas medidas no toman en cuenta todos los
valores de la variable en estudio sino que
tienen en cuenta la posición de los mismos
Todas esas medidas mencionadas, cuando las aplicamos a muestras, son estimadores, que nos
van a arrojar un valor, ese valor va a ser la estimación.
Página 2
Capítulo 3 Medidas de Resumen
Ejemplo: Realizo una encuesta: ¿Te gusto la clase? SI – NO – NO SE. Lo único que
puedo hacer con ese tipo de encuesta es contar cual dato (si – no – no se) se
repitió más. Es decir, lo único que puedo hacer es calcular la moda. Si la
respuesta “si” fue la que más se repitió, entonces la moda va a ser “si”.
Ejemplo: 1 1 1 2 3 4 5 6 7 n impar
1 1 1 1 2 3 4 5 6 7 n par
Cuando el conjunto o subconjunto es par, tomo esos dos valores, los sumo y los divido por
dos para obtener la mediana.
Para obtener la posición mediana: n + 1 Mediana: 2,5 Posición mediana: 5,5
2
Página 4
Capítulo 3 Medidas de Resumen
𝑁
µx = ∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑁
𝑖=1 𝑁
N
Referencias:
(Letra minúscula)
∑ Suma i=1 desde la primer observación xi observación i-esima
Lo resaltado con rosa me indica que estoy calculando la media de una población.
N Tamaño poblacional.
*En la parte superior del símbolo de suma va la cantidad de sumandos que tengo.
Página 5
Capítulo 3 Medidas de Resumen
𝑛
𝑋̅ = ∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
𝑖=1 𝑛
n
Referencias:
Lo resaltado con amarillo me indica que estoy calculando la media de una muestra.
n Tamaño muestral.
K Clases
𝑘 𝑘
µ =∑ 𝑥𝑖 × 𝑓𝑖 = ∑ 𝑥𝑖 × 𝑓𝑟𝑖 fi Frec. Abs. Simple
𝑖=1 𝑖=1
fri frec. Relativa simple
N
Me indica que los datos
están agrupados.
Página 6
Capítulo 3 Medidas de Resumen
𝑀
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
𝑀𝑒𝑑𝑖𝑎 𝑅𝑒𝑠𝑢𝑚𝑖𝑑𝑎 = ∑ ( ) ∗ 𝑓𝑟𝑖
2
𝑖=1
𝑀𝑖𝑘𝑠+𝑀𝑖𝑘𝑖
Esa suma está siendo dividida por 2 porque supone que
2 todos los datos se concentran el valor medio del
intervalo. Esa suposición es justamente el problema de la
media resumida
Histograma
Página 7
Capítulo 3 Medidas de Resumen
𝑀
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
∑( ) × 𝑓𝑟𝑖 =
2
𝑖=1
𝐾𝑠𝑢𝑝 𝑀→∞ 100
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
= ∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥 = ∑ ( ) × 𝑓𝑟𝑖 = ∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥
2
𝐾𝑖𝑛𝑓 𝑖=1 0
Referencias:
Ksup El máximo valor de la distribución: El mayor valor del mayor intervalo.
Kinf El minimo valor de la distribución: El menor valor del menor intervalo.
Xi Valor de la clase: Son las marcas de clase de cada intervalo.
Esa integral definida la realizo con el objetivo de perder cada vez menos
información.
Para perder cada vez menos información o, dicho de otra manera, tener cada
vez más información de cada intercalo, tengo que lograr que estos sean cada vez más
chicos. Podemos tomar infinitos intervalos para eso. Si los intervalos son cada vez más
chicos también lo va a ser la diferencia entre la clase superior y la clase inferior: así nos
vamos acercando a una medida más exacta de resumen.
Página 8
Capítulo 3 Medidas de Resumen
Haciendo los intervalos tan chicos como yo quiera puedo llegar al valor de la variable.
Si hago tender a cero la diferencia que hay entre el límite inferior y el límite superior
del intervalo, el resultado va a ser muy parecido a esos límites.
Por ejemplo:
10,001+10,002 Podemos observar que el
= 10,0015 resultado es muy parecido al
2
límite inferior y superior.
Entonces es por eso que en el límite en donde yo tengo infinitos intervalos, en lugar de
poner las marcas de clase ((Miks + Miki)/2) pongo directamente el valor de la variable;
es decir; puedo asociar a cada marca de clase con el punto en sí.
De esta forma si queremos calcular la media resumida de f(x) (que representa los datos
de nuestra variable en observación) lo podríamos hacer a través del cálculo de áreas
con la siguiente integral:
𝐾𝑠𝑢𝑝
∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥
𝐾𝑖𝑛𝑓
Es f(x)
ACLARACIONES:
-Podemos tomar infinitos intervalos porque la variable es continua, y eso significa que
entre un valor y el otro existen infinitos valores.
-Los limites van a depender del fenómeno que se esté estudiando. Pueden tomar
cualquier valor desde -∞ a +∞
Página 9
Capítulo 3 Medidas de Resumen
Medidas de Posición
1. Los Cuartiles (Q): Representan valores de la variable que dividen
a la distribución en cuartos.
-Cuartil 2 (Q2) Es el valor de variable hasta el cual se acumula las dos cuartas
partes de las observaciones (50%) (Coincide con la mediana).
-Cuartil 3 (Q3) Es el valor de variable hasta el cual se acumula las tres cuartas
partes de las observaciones (75%).
𝑅𝑎𝑛𝑔𝑜 = 𝑄4 − 𝑄0
P á g i n a 10
Capítulo 3 Medidas de Resumen
P á g i n a 11
Capítulo 3 Medidas de Resumen
𝑵𝑿 = 𝟕 𝑵𝒀 = 𝟕
𝑹𝑿 = 𝟏𝟎 𝑹𝒀 = 𝟏𝟎
1. El Rango
Ahora voy a calcular distintos tipos de promedio para mensurar la variabilidad dentro
de la distribución y no solo ver qué pasa con las puntas.
P á g i n a 12
Capítulo 3 Medidas de Resumen
(𝒙𝒊 − 𝝁𝑿 ) 15 – 20 = -5 (𝒚𝒊 − 𝝁𝒀 ) 15 – 20 = -5
18 – 20 = -2 19 – 20 = -1
20 – 20 = 0 19 – 20 = -1
20 – 20 = 0 20 – 20 = 0
20 – 20 = 0 21 – 20 = 1
22 – 20 = 2 21 – 20 = 1
25 – 20 = 5 25 – 20 = 5
(−𝟓) + (−𝟐) + 𝟎 + 𝟎 + 𝟎 + 𝟐 + 𝟓
𝑬(𝒙𝒊 − 𝝁𝑿 ) = = 𝟎
𝟕
La media es el valor que compensa las dispersiones menores a ese valor con las
dispersiones mayores a ese valor. Por eso siempre va a dar cero, razón por la cual esta
medida no me sirve como medida promedio de variabilidad.
Como el problema es que tengo valores negativos y positivos que se compensan y por
eso me da cero, para solucionar ese problema voy a aplicar el modulo.
|𝒙𝒊 − 𝝁𝑿 | l 15 – 20 l = 5 |𝒚𝒊 − 𝝁𝒀 | l 15 – 20 l = 5
l 18 – 20 l = 2 l 19 – 20 l = 1
l 20 – 20 l = 0 l 19 – 20 l = 1
l 20 – 20 l = 0 l 20 – 20 l = 0
l 20 – 20 l = 0 l 21 – 20 l = 1
l 22 – 20 l = 2 l 21 – 20 l = 1
l 25 – 20 l = 5 l 25 – 20 l = 5
P á g i n a 13
Capítulo 3 Medidas de Resumen
𝟓+𝟐+𝟎+𝟎+𝟎+𝟐+𝟓 𝟓+𝟏+𝟏+𝟎+𝟏+𝟏+𝟓
𝑬|𝒙𝒊 − 𝝁𝑿 | = = 𝟐 |𝑬(𝒚𝒊 − 𝝁𝒀 )| = = 𝟐
𝟕 𝟕
Este problema surge a veces: cuando calculo la esperanza de los valores absolutos de las
diferencias de las observaciones con respecto a la media puede pasar que siendo distintas
distribuciones me den iguales. Entonces, esta medida tampoco me sirve, porque no me
garantiza que siempre que sean diferentes las distribuciones esta medida me dé diferente
también.
Esto ocurre porque no castiga a las variabilidades más grandes: para que no valga lo mismo
una variabilidad de dos que dos variabilidades de uno. Por eso, para solucionar este problema,
voy a elevar al cuadrado las diferencias entre las observaciones y el valor medio.
NOTA:
P á g i n a 14
Capítulo 3 Medidas de Resumen
𝑛 𝑛
𝑁 (𝑥𝑖 − 𝑋̅)2 𝑁 (𝑥𝑖 − 𝑋̅)2
𝑉𝐴𝑅(𝑋) = 𝑆 2
𝑋 = 𝐸(𝑥𝑖 − 𝑋̅)2 = ∑ × =∑
𝑛−1 𝑁 𝑛−1 𝑛−1
𝑖=1 𝑖=1
Hay medidas en las que utilizo más de un estimador para reemplazar a más de un parámetro.
En ese caso por cada estimador que uso pierdo un grado de libertad.
P á g i n a 15
Capítulo 3 Medidas de Resumen
𝐾 +∞
Media resumida
que calcule
utilizando la
La marca de clase integral
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
2
Va a ser el valor de la
variable continua cuando
tengo infinitos intervalos.
P á g i n a 16
Capítulo 3 Medidas de Resumen
Problema de la varianza:
Su gran problema es que esta expresada en medidas cuadráticas, por lo tanto, no
puedo compararla con otras unidades de medida como la media, ya que se encuentran
en distintas dimensiones. Ejemplo: No puedo comparar un metro cuadrático con un
metro lineal. De la misma forma la varianza esta en unidades cuadráticas
(pertenecientes al espacio bidimensional) mientras que la media está en unidades
lineales (pertenecientes al espacio unidimensional).
𝐾
2
𝜎𝑥 = √∑(𝑥𝑖 − 𝜇𝑋 ) × 𝑓𝑟(𝑥𝑖 )
𝑖=1
𝝈𝒙
𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍 → 𝑪𝑽 =
𝝁𝒙
𝑺𝒙
𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 → 𝑪𝑽 =
̅
𝒙
Ejemplo: Tengo una distribución que tiene un desvío igual a 3 años y una media igual a
1 año. Por otro lado tengo otra distribución que tiene un desvío igual a 12 meses y una
media igual a 6 meses.
𝜎𝑥 = 3 𝑎ñ𝑜𝑠 ∧ 𝜇𝑥 = 1 𝑎ñ𝑜 → 𝐶𝑉 = 3
𝜎𝑦 = 12 𝑚𝑒𝑠𝑒𝑠 ∧ 𝜇𝑦 = 6 𝑚𝑒𝑠𝑒𝑠 → 𝐶𝑉 = 2
Esos valores no usan una unidad de medida de dimensión, entonces los puedo
comparar: 3 tiene mayor variabilidad relativa con respecto a la media.
P á g i n a 17
Capítulo 3 Medidas de Resumen
Momentos Estadísticos
Pueden utilizarse tanto para datos discretos como para datos continuos.
Para variables
discretas de orden K Centrales o Centrados
𝑁 𝑁
𝑋𝑖 𝑘 𝑋𝑖
∑ → ∑
𝑁 𝑁
𝑖=1 𝑖=1
Momento absoluto de
orden 1 es la media
(poblacional en este
caso)
Momentos Centrales:
𝑵 𝑵
(𝒙𝒊 − 𝝁𝒙 )𝑲 (𝒙𝒊 − 𝝁𝒙 )𝟐
∑ → ∑
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏
Momento central de
𝑵 orden 2 es la varianza.
(𝒙𝒊 − 𝝁𝒙 )𝟏 SIEMPRE
∑ =𝟎
𝑵
𝒊=𝟏
P á g i n a 18
Capítulo 3 Medidas de Resumen
Medidas de Forma
1. Simetría: Coeficiente de asimetría de Fisher.
En una distribución simétrica los valores que están por debajo de la media se
distribuyen exactamente de la misma forma que los valores que están por arriba de
esta. Así los valores altos y bajos se neutralizan.
En una distribución sesgada o asimétrica se produce un desequilibrio entre los valores
altos y los bajos. Los valores no se distribuyen de manera simétrica alrededor de la
media.
Sesgados hacia la izquierda: La mayoría de los valores se encuentran en la parte
superior de la distribución. Estos valores hacen que la media se deslice hacia abajo,
provocando que esta sea menor que la mediana.
Sesgados hacia la derecha: La mayoría de los valores se encuentran en la parte inferior
de la distribución. Estos valores hacen que la media se deslice hacia arriba, provocando
que esta sea mayor que la mediana.
𝑁 𝑁 𝑁
1 (𝑥𝑖 − 𝜇𝑥 )3 1 (𝑥𝑖 − 𝜇𝑥 )3 (𝑥𝑖 − 𝜇𝑥 )3 1 𝑚𝑐 (3)
𝐴𝐹 = ∑ ⟹ 𝐴 𝐹 = ∑ = ∑ × =
𝑁 𝜎3 𝑁 𝜎3 𝑁 𝜎3 𝜎3
𝑖=1 𝑖=1 𝑖=1
La asimetría de Fisher
es un promedio de Momento Centrado
comparaciones con de Orden 3 dividido el
respecto a la media desvío al cubo
P á g i n a 19
elevado al cubo.
Capítulo 3 Medidas de Resumen
𝑁
(𝑥𝑖 − 𝜇𝑥 )4 1 𝑚𝑐 (4)
𝐶=∑ × 4=
𝑁 𝜎 𝜎4
𝑖=1
Momento Centrado de
Orden 4 dividido el desvío
a la cuarta (curtosis
poblacional)
𝑛
(𝑥𝑖 − 𝑥̅ )4 1 𝑚𝑐 (4)
𝐶=∑ × 4=
𝑛 𝑠 𝑆4
𝑖=1
Momento Centrado de
Orden 4 dividido el desvío
a la cuarta (curtosis
muestral)
P á g i n a 20