Medidas de Resumen

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 20

Capítulo 3 Medidas de Resumen

MEDIDAS DE RESUMEN

En estadística son valores numéricos que representan una característica determinada


de la población (conjunto) o de la muestra (subconjunto aleatorio)
Cada unidad experimental tiene su característica, su valor, su dato; pero en el conjunto
o subconjunto aleatorio comparten un valor que resume esa característica. Por
ejemplo: Los alumnos de la clase tienen una edad promedio.

MEDIDAS DE RESUMEN

Población Muestra
Aplico un

Parámetro Estimador
O
Estadígrafo
O
Estadístico
Generan
una

Estimación

Parámetro: Es una medida que describe una variable que utiliza datos de una
población
Estadígrafos / Estadísticos / Estimadores: Es una medida que describe una variable
que utiliza datos de una muestra. Los estadígrafos, estadísticos o estimadores son el
algoritmo matemático a partir del cual, al aplicarlo a una muestra, obtengo un valor
que será denominado estimación.
Por ejemplo: El promedio. La acción de sumar todo y dividirlo por la cantidad de
elementos, cuando lo estoy realizando sobre una muestra, es el estimador; y el
resultado que me devolverá ese algoritmo será la estimación. Si calculamos el
promedio sobre la población, tanto el algoritmo matemático como el resultado son el
parámetro. No hay diferencia para la población ya que la población es una, y cuando

Página 1
Capítulo 3 Medidas de Resumen

aplico el parámetro, ejemplo el concepto media poblacional, voy a tener un solo valor.
No hay diferencia entre estimador y estimación.
Estas medidas de resumen, que explican determinada característica, van a tener
distintos nombres dependiendo de lo que expliquen:

MEDIDAS DE TENDENCIA Estas medidas indican como se


CENTRAL agrupan los datos alrededor de un
valor central

Indican de qué manera se diseminan los


datos a lo largo de la distribución MEDIDAS DE VARIACION

MEDIDAS DE POSICION
Estas medidas no toman en cuenta todos los
valores de la variable en estudio sino que
tienen en cuenta la posición de los mismos

Indican que tipo de concentración (sesgada o


no) sigue los datos. Es el patrón de la MEDIDAS DE FORMA
distribución de valores, desde el más bajo
hasta el más alto.

Todas esas medidas mencionadas, cuando las aplicamos a muestras, son estimadores, que nos
van a arrojar un valor, ese valor va a ser la estimación.

Página 2
Capítulo 3 Medidas de Resumen

Medidas de Tendencia Central

1. Modo o Moda (Mo): Indica el valor al que le corresponde la


máxima frecuencia absoluta simple, es decir, el valor que más se
repite.

Ejemplo: Realizo una encuesta: ¿Te gusto la clase? SI – NO – NO SE. Lo único que
puedo hacer con ese tipo de encuesta es contar cual dato (si – no – no se) se
repitió más. Es decir, lo único que puedo hacer es calcular la moda. Si la
respuesta “si” fue la que más se repitió, entonces la moda va a ser “si”.

Algunas consideraciones importantes:

 A la moda no le interesa cuantas veces se repite el valor que más se repite.


No te da esa información.
 Las variables cualitativas nominales solo aceptan la moda como medida de
tendencia central; pero la moda también se puede aplicar a variables
cuantitativas.
 En ocasiones no existe una moda en un conjunto de datos, o bien tienen
más de una moda (bimodal, multimodal). Ejemplo: considere los siguientes
datos sobre el tiempo, en minutos, que le toma a una persona prepararse
para salir: 29 31 35 39 39 40 43 44 44 52. Se observan dos modas: 39
minutos y 44 minutos, ya que cada uno de esos valores se presenta dos
veces.
Un conjunto de datos no tiene moda si ninguno de los valores es “el más
común”, es decir, si todos los valores se repiten la misma cantidad de
veces.
 Los valores extremos no afectan a la moda.

2.1. La Mediana (Me): Es el valor que separa el 50% inferior de los


datos del 50% superior de los datos.
Datos 50% Me 50% datos

Ejemplo: Se realiza una encuesta en la que se debe


Xi fi
seleccionar alguna de las siguientes opciones: Malo –
Malo 20
Regular – Bueno
Regular 10
Regular seria la mediana (vale lo Bueno 20
mismo lo que esta abajo y lo que está
arriba)
Página 3
Capítulo 3 Medidas de Resumen

Algunas consideraciones importantes:


 Te da el valor de variable que acumula la misma cantidad por debajo y por
encima, no te informa cuanto acumula el valor.
 Se puede utilizar a partir de escala ordinal.

2.2. La Mediana con Variables Numéricas: Es aquella posición,


aquel valor, que acumula la misma cantidad de datos por un lado y
la misma cantidad de datos por el otro, sin importar cuánto valen
los datos.

Ejemplo: 1 1 1 2 3 4 5 6 7 n impar

En la posición 5 tengo 4 datos para un lado y


4 datos para el otro.

Mediana: 3 Posición Mediana: 5

1 1 1 1 2 3 4 5 6 7 n par

Cuando el conjunto o subconjunto es par, tomo esos dos valores, los sumo y los divido por
dos para obtener la mediana.
Para obtener la posición mediana: n + 1 Mediana: 2,5 Posición mediana: 5,5
2

Algunas consideraciones importantes:


 A la mediana, para variables cuantitativas, no le importa cuánto valen los
valores que están por debajo o por encima de ella. Solo le importa cuántos
son.
 Si el conjunto de datos contiene un número impar de valores, la mediana es
el valor asociado con el dato ubicado a la mitad.
 Si el conjunto de datos contiene un número par de valores, la mediana es el
valor asociado con el promedio de los datos ubicados a la mitad.

3.1. La Media Aritmética: La media aritmética (generalmente


denominada media) sirve como un “punto de equilibrio” en un
conjunto de datos (como el punto de apoyo en un sube y baja)

Página 4
Capítulo 3 Medidas de Resumen

La media es el centro de gravedad


de la distribución

Algunas consideraciones importantes:


 La media se calcula sumando todos los valores en
un conjunto de datos y luego dividiendo el resultado de
esa suma por el número de valores en dicho conjunto.
 Solamente se puede utilizar para variables
Numéricas.
 Debemos diferenciar si es un parámetro o un estadígrafo.

Media aritmética poblacional: µx


Media aritmética muestral: X
Media Aritmética poblacional para datos desagrupados:

𝑁
µx = ∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑁
𝑖=1 𝑁
N

Referencias:
(Letra minúscula)
∑ Suma i=1 desde la primer observación xi observación i-esima

Lo resaltado con rosa me indica que estoy calculando la media de una población.

N Tamaño poblacional.

*En la parte superior del símbolo de suma va la cantidad de sumandos que tengo.

Página 5
Capítulo 3 Medidas de Resumen

Media Aritmética Muestral para datos desagrupados:

𝑛
𝑋̅ = ∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
𝑖=1 𝑛
n

Referencias:

∑ Suma i=1 desde la primer observación xi observación i-esima

Lo resaltado con amarillo me indica que estoy calculando la media de una muestra.

n Tamaño muestral.

Media Aritmética poblacional para datos agrupados: Referencias:

K Clases
𝑘 𝑘
µ =∑ 𝑥𝑖 × 𝑓𝑖 = ∑ 𝑥𝑖 × 𝑓𝑟𝑖 fi Frec. Abs. Simple
𝑖=1 𝑖=1
fri frec. Relativa simple
N
Me indica que los datos
están agrupados.

Me indica que estoy


trabajando con una
Media Aritmética muestral para datos agrupados:
población.
𝑘 𝑘

𝑋̅ = ∑ 𝑥𝑖 × 𝑓𝑖 = ∑ 𝑥𝑖 × 𝑓𝑟𝑖 Me indica que estoy


trabajando con una
𝑖=1 𝑖=1
muestra.
n

Página 6
Capítulo 3 Medidas de Resumen

3.2. Media Resumida: Se utiliza con datos continuos. Se calcula como


la sumatoria de las Marcas de Clase, donde M representa el
intervalo, por (×) la frecuencia relativa simple.

𝑀
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
𝑀𝑒𝑑𝑖𝑎 𝑅𝑒𝑠𝑢𝑚𝑖𝑑𝑎 = ∑ ( ) ∗ 𝑓𝑟𝑖
2
𝑖=1

Recordatorio: No existe la exactitud en los datos continuos, entonces,


necesariamente cuando tengo que agrupar los datos continuos debo hacerlo en
distribuciones de frecuencia por intervalos de clase.

Miks M i-esima k superior Es la clase superior del intervalo.

Miki M i-esima k inferior Es la clase inferior del intervalo.

𝑀𝑖𝑘𝑠+𝑀𝑖𝑘𝑖
Esa suma está siendo dividida por 2 porque supone que
2 todos los datos se concentran el valor medio del
intervalo. Esa suposición es justamente el problema de la
media resumida

Así calculo las Marcas


Ejemplo: Tengo el intervalo [0;10) con una
de Clase o Punto
frecuencia relativa de 0,2. Esto solo me da
medio del intervalo
información que entre 0 y 10 hay un 20% de las
observaciones. No me dice dónde están dentro
de ese intervalo. Lo que voy a suponer (ya que
no tengo esa información) es que ese 0.2
sucede en la mitad del intervalo (en este caso
ocurriría en 5).

Histograma

Página 7
Capítulo 3 Medidas de Resumen

A partir de esa media resumida generalizamos a una cantidad infinita de


intervalos y suponemos que cada intervalo mide un infinitesimal. Al suponer
eso suponemos que ese intervalo es el valor puntual de la variable continua.

𝑀
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
∑( ) × 𝑓𝑟𝑖 =
2
𝑖=1
𝐾𝑠𝑢𝑝 𝑀→∞ 100
𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
= ∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥 = ∑ ( ) × 𝑓𝑟𝑖 = ∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥
2
𝐾𝑖𝑛𝑓 𝑖=1 0

La integral nos indica eso. La diferencia


entre Miks y Miki tiende a cero.

Referencias:
Ksup El máximo valor de la distribución: El mayor valor del mayor intervalo.
Kinf El minimo valor de la distribución: El menor valor del menor intervalo.
Xi Valor de la clase: Son las marcas de clase de cada intervalo.

fri Frecuencia Relativa Simple.

Esa integral definida la realizo con el objetivo de perder cada vez menos
información.
Para perder cada vez menos información o, dicho de otra manera, tener cada
vez más información de cada intercalo, tengo que lograr que estos sean cada vez más
chicos. Podemos tomar infinitos intervalos para eso. Si los intervalos son cada vez más
chicos también lo va a ser la diferencia entre la clase superior y la clase inferior: así nos
vamos acercando a una medida más exacta de resumen.

Si trazamos una línea que pase


por las marcas de clase
podemos observar unos
“triangulitos” que quedan por
fuera de la línea, y que
representan la información
que perdemos.

Página 8
Capítulo 3 Medidas de Resumen

Para solucionar ese problema,


tendemos a infinito la cantidad de
intervalos (haciéndolos muy muy
chicos). De esa forma podemos
observar que perdemos mucha
menos información,
prácticamente nula, y así
minimizo la posibilidad de
cometer errores al suponer que el
valor se encuentra en la mitad del
intervalo.

Haciendo los intervalos tan chicos como yo quiera puedo llegar al valor de la variable.
Si hago tender a cero la diferencia que hay entre el límite inferior y el límite superior
del intervalo, el resultado va a ser muy parecido a esos límites.
Por ejemplo:
10,001+10,002 Podemos observar que el
= 10,0015 resultado es muy parecido al
2
límite inferior y superior.

Entonces es por eso que en el límite en donde yo tengo infinitos intervalos, en lugar de
poner las marcas de clase ((Miks + Miki)/2) pongo directamente el valor de la variable;
es decir; puedo asociar a cada marca de clase con el punto en sí.
De esta forma si queremos calcular la media resumida de f(x) (que representa los datos
de nuestra variable en observación) lo podríamos hacer a través del cálculo de áreas
con la siguiente integral:
𝐾𝑠𝑢𝑝

∫ 𝑥𝑖 × 𝑓𝑟𝑖 𝑑𝑥
𝐾𝑖𝑛𝑓

Es f(x)

ACLARACIONES:
-Podemos tomar infinitos intervalos porque la variable es continua, y eso significa que
entre un valor y el otro existen infinitos valores.
-Los limites van a depender del fenómeno que se esté estudiando. Pueden tomar
cualquier valor desde -∞ a +∞

Página 9
Capítulo 3 Medidas de Resumen

Medidas de Posición
1. Los Cuartiles (Q): Representan valores de la variable que dividen
a la distribución en cuartos.

Es una medida de posición ya que no toma en cuenta los valores de la variable


en estudio sino que tienen en cuenta la posición de los mismos.

-Cuartil 1 (Q1) Es el valor de variable hasta el cual se acumula la primer cuarta


parte de las observaciones (25%)

-Cuartil 2 (Q2) Es el valor de variable hasta el cual se acumula las dos cuartas
partes de las observaciones (50%) (Coincide con la mediana).

-Cuartil 3 (Q3) Es el valor de variable hasta el cual se acumula las tres cuartas
partes de las observaciones (75%).

-Cuartil 4 (Q4) Es el valor de variable hasta el cual se acumula el total de las


observaciones (100%). Coincide con el último valor de variable.

También hay otras medidas de posición como los deciles (que


dividen los datos en 10 partes iguales) y los percentiles también
conocidos como centiles (que dividen los datos en 100 partes
idénticas)

Medidas de Dispersión o Variación


Las medidas de variación las utilizo para saber qué pasa con la distancia
entre el menor valor y el mayor valor, con datos desagrupados. Es decir, la
variación mide la dispersión de los valores en un conjunto de datos.

1. Rango (Rx) Es una medida de dispersión total (es decir, toma el


total de la distribución y se fija cuanto varia punta a punta), medida
en términos absolutos. El rango es igual al valor más grande menos
el valor más pequeño.

𝑅𝑎𝑛𝑔𝑜 = 𝑥𝑚𝑎𝑠 𝑔𝑟𝑎𝑛𝑑𝑒 − 𝑥𝑚𝑎𝑠 𝑝𝑒𝑞𝑢𝑒ñ𝑜

𝑅𝑎𝑛𝑔𝑜 = 𝑄4 − 𝑄0
P á g i n a 10
Capítulo 3 Medidas de Resumen

Problemas del Rango:

1) Ignora lo que pasa dentro de la distribución (porque solo toma


en cuenta las puntas)
El rango es igual siendo
Ejemplo: 1 – 2 – 3 – 4 – 5 – 6 Rango = 5
distintas las
1–1–1–1–1–6 Rango = 5 distribuciones

2) Es sensible a grandes dispersiones en sus límites (es decir a


grandes cambios en los valores de los limites).

El rango es muy distinto


Ejemplo: 1 – 1 – 1 – 1 – 1 – 106 Rango = 105 y las distribuciones son
1–1–1–1–1–6 Rango = 5 casi iguales. Solo cambia
un valor

Estos problemas podemos solucionarlos construyendo medidas de


variabilidad promedio, que evalúen el comportamiento respecto a la dispersión de
todos los valores de la distribución. El problema va a ser que, como podremos
observar, dichas medidas traerán aparejadas sus propios problemas.
Ejemplo disparador:

Se tienen dos distribuciones de datos, correspondientes a la variable “X” y a la


variable “Y” respectivamente. Dichos valores se exponen a continuación:
(Posterior a los cuadros se encuentran sus desarrollos paso a paso)

𝒙𝒊 (𝒙𝒊 − 𝝁𝑿 ) |𝒙𝒊 − 𝝁𝑿 | (𝒙𝒊 − 𝝁𝑿 )𝟐


15 -5 5 25
18 -2 2 4
20 0 0 0
20 0 0 0
20 0 0 0
22 2 2 4
25 5 5 25
E(X) = 20 𝑬(𝒙𝒊 − 𝝁𝑿 ) = 𝟎 𝑬|𝒙𝒊 − 𝝁𝑿 | = 𝟐 𝟓𝟖
𝑬[(𝒙𝒊 − 𝝁𝑿 )𝟐 ] =
𝟕

P á g i n a 11
Capítulo 3 Medidas de Resumen

𝑵𝑿 = 𝟕 𝑵𝒀 = 𝟕
𝑹𝑿 = 𝟏𝟎 𝑹𝒀 = 𝟏𝟎

𝒚𝒊 (𝒚𝒊 − 𝝁𝒀 ) |𝒚𝒊 − 𝝁𝒀 | (𝒚𝒊 − 𝝁𝒀 )𝟐


15 -5 5 25
19 -1 1 1
19 -1 1 1
20 0 0 0
21 1 1 1
21 1 1 1
25 5 5 25
E(Y) = 20 𝑬(𝒚𝒊 − 𝝁𝒀 ) = 𝟎 𝑬|𝒚𝒊 − 𝝁𝒀 | = 𝟐 𝟓𝟒
𝑬[(𝒚𝒊 − 𝝁𝒀 )𝟐 ] =
𝟕

Objetivo: Quiero encontrar una medida de variabilidad que siempre, pase


lo que pase, me muestre que esas dos distribuciones son diferentes (si es
que lo son).
Procedimiento paso a paso del cuadro:

1. El Rango

Rango de X 25 – 15 = 10 Mi medida de variabilidad en


Rango de Y 25 – 15 = 10 términos absolutos es 10.

Ahora voy a calcular distintos tipos de promedio para mensurar la variabilidad dentro
de la distribución y no solo ver qué pasa con las puntas.

2. La media o Esperanza Matemática

E(X) = (15 + 18 + 20 + 20 + 20 + 22 + 25) / 7 = 20


E(Y) = 15 × 1/7 + 19 × 2/7 + 20 × 1/7 + 21 × 2/7 + 25 × 1/7 = 20

3. La Esperanza de las dispersiones respecto del valor medio:


Calculo el promedio de las comparaciones de cada observación con
respecto a la media.

P á g i n a 12
Capítulo 3 Medidas de Resumen

(𝒙𝒊 − 𝝁𝑿 ) 15 – 20 = -5 (𝒚𝒊 − 𝝁𝒀 ) 15 – 20 = -5
18 – 20 = -2 19 – 20 = -1
20 – 20 = 0 19 – 20 = -1
20 – 20 = 0 20 – 20 = 0
20 – 20 = 0 21 – 20 = 1
22 – 20 = 2 21 – 20 = 1
25 – 20 = 5 25 – 20 = 5

(−𝟓) + (−𝟐) + 𝟎 + 𝟎 + 𝟎 + 𝟐 + 𝟓
𝑬(𝒙𝒊 − 𝝁𝑿 ) = = 𝟎
𝟕

(−𝟓) + (−𝟏) + (−𝟏) + 𝟎 + 𝟏 + 𝟏 + 𝟓


𝑬(𝒚𝒊 − 𝝁𝒀 ) = = 𝟎
𝟕

La media es el valor que compensa las dispersiones menores a ese valor con las
dispersiones mayores a ese valor. Por eso siempre va a dar cero, razón por la cual esta
medida no me sirve como medida promedio de variabilidad.

Como el problema es que tengo valores negativos y positivos que se compensan y por
eso me da cero, para solucionar ese problema voy a aplicar el modulo.

4. La esperanza del módulo de las comparaciones: El promedio


de los valores absolutos de las dispersiones respecto del valor
medio.

|𝒙𝒊 − 𝝁𝑿 | l 15 – 20 l = 5 |𝒚𝒊 − 𝝁𝒀 | l 15 – 20 l = 5
l 18 – 20 l = 2 l 19 – 20 l = 1
l 20 – 20 l = 0 l 19 – 20 l = 1
l 20 – 20 l = 0 l 20 – 20 l = 0
l 20 – 20 l = 0 l 21 – 20 l = 1
l 22 – 20 l = 2 l 21 – 20 l = 1
l 25 – 20 l = 5 l 25 – 20 l = 5

P á g i n a 13
Capítulo 3 Medidas de Resumen

𝟓+𝟐+𝟎+𝟎+𝟎+𝟐+𝟓 𝟓+𝟏+𝟏+𝟎+𝟏+𝟏+𝟓
𝑬|𝒙𝒊 − 𝝁𝑿 | = = 𝟐 |𝑬(𝒚𝒊 − 𝝁𝒀 )| = = 𝟐
𝟕 𝟕

Este problema surge a veces: cuando calculo la esperanza de los valores absolutos de las
diferencias de las observaciones con respecto a la media puede pasar que siendo distintas
distribuciones me den iguales. Entonces, esta medida tampoco me sirve, porque no me
garantiza que siempre que sean diferentes las distribuciones esta medida me dé diferente
también.

Esto ocurre porque no castiga a las variabilidades más grandes: para que no valga lo mismo
una variabilidad de dos que dos variabilidades de uno. Por eso, para solucionar este problema,
voy a elevar al cuadrado las diferencias entre las observaciones y el valor medio.

NOTA:

En estadística se prefiere tener más cantidad de variabilidades pero de una menor


magnitud que menos cantidad de variabilidades de mayor magnitud.

En este caso, voy a


preferir los puntos rosa.

5. La Varianza: El promedio de los valores cuadráticos de las


dispersiones respecto al valor medio

(𝒙𝒊 − 𝝁𝑿 )𝟐 15 – 20 = (−𝟓)𝟐 = 25 (𝒚𝒊 − 𝝁𝒀 )𝟐 15 – 20 = (−𝟓)𝟐 = 25


18 – 20 = (−𝟐)𝟐 = 4 19 – 20 = (−𝟏)𝟐 = 1
20 – 20 = 𝟎𝟐 = 0 19 – 20 = (−𝟏)𝟐 = 1
20 – 20 = 𝟎𝟐 = 0 20 – 20 = 𝟎𝟐 = 0
20 – 20 = 𝟎𝟐 = 0 21 – 20 = 𝟏𝟐 = 1
22 – 20 = 𝟐𝟐 = 4 21 – 20 = 𝟏𝟐 = 1
25 – 20 = 𝟓𝟐 = 25 25 – 20 = 𝟓𝟐 = 25

P á g i n a 14
Capítulo 3 Medidas de Resumen

𝟐𝟓 + 𝟒 + 𝟎 + 𝟎 + 𝟎 + 𝟒 + 𝟐𝟓 𝟓𝟖 Esta medida de variabilidad castiga a


𝑬(𝒙𝒊 − 𝝁𝑿 )𝟐 = = los valores que valen más con
𝟕 𝟕 respecto a los que valen menos y me
informa así que pasa con las
variabilidades dentro de la
distribución. Además, al elevar las
𝟐𝟓 + 𝟏 + 𝟏 + 𝟎 + 𝟏 + 𝟏 + 𝟐𝟓 𝟓𝟒
𝑬(𝒚𝒊 − 𝝁𝒀 )𝟐 = = comparaciones al cuadrado también
𝟕 𝟕 impide que se compensen las
variabilidades menores con las
variabilidades mayores a la media.

Varianza poblacional VAR (X) 𝜎 2𝑋


Varianza muestral VAR (X) 𝑆 2𝑋

Varianza poblacional para datos desagrupados:


𝑁
2 )2
VAR(X) = 𝜎 𝑋 = 𝐸 (𝑥𝑖 − 𝜇𝑋 = ∑(𝑥𝑖 − 𝜇𝑋 )2
𝑖=1

Varianza muestral para datos desagrupados:

𝑛 𝑛
𝑁 (𝑥𝑖 − 𝑋̅)2 𝑁 (𝑥𝑖 − 𝑋̅)2
𝑉𝐴𝑅(𝑋) = 𝑆 2
𝑋 = 𝐸(𝑥𝑖 − 𝑋̅)2 = ∑ × =∑
𝑛−1 𝑁 𝑛−1 𝑛−1
𝑖=1 𝑖=1

En lugar de comparar las Factor de


observaciones con corrección por
respecto a la media finitud
poblacional se compara las
observaciones de la
muestra con respecto a la
media de esa muestra

Siempre que utilizo un estimador para reemplazar a un parámetro desconocido pierdo un


grado de libertad. Como yo no conozco el valor de la media poblacional y la reemplazo por el
valor de esa media muestral estoy utilizando en la construcción de la varianza un estimador
reemplazando a un parámetro. En ese caso en el denominador le tengo que restar 1.

Hay medidas en las que utilizo más de un estimador para reemplazar a más de un parámetro.
En ese caso por cada estimador que uso pierdo un grado de libertad.
P á g i n a 15
Capítulo 3 Medidas de Resumen

Si el tamaño muestral es grande entonces el grado de libertad que se pierde se vuelve


“despreciable” (que reste o no ese 1 no genera cambios grandes en el resultado).
Entonces si n tiende a un número grande voy a calcular la varianza muestral de la
siguiente manera:
𝑛
(𝑥𝑖 − 𝑥̅ )2
𝑉𝐴𝑅(𝑋) = 𝑆 2 𝑋 = ∑
𝑛
𝑖=1

Varianza poblacional para datos agrupados:


𝐾
2
VAR(X) = 𝜎 𝑋 = ∑(𝑥𝑖 − 𝜇𝑋 )2 × 𝑓𝑟(𝑥𝑖 )
𝑖=1

Esto se lee: La suma de las diferencias entre las


observaciones con respecto al valor medio elevados
al cuadrado, multiplicado por la frecuencia relativa
simple.

5.1. Varianza para variables continuas: Voy a dejar de comparar


clases para pasar a comparar marcas de clase (el supuesto de que
todos los datos del intervalo se concentran en la mitad del
intervalo)

𝐾 +∞

𝑉𝐴𝑅 (𝑋) = ∑(𝑥𝑖 −𝜇𝑋 )2 × 𝑓𝑟(𝑥𝑖 ) → ∫ ( 𝑥𝑖 −𝜇𝑋 )2 × 𝑓𝑟(𝑥𝑖 ) 𝑑𝑥


𝑖=1 −∞

Media resumida
que calcule
utilizando la
La marca de clase integral

𝑀𝑖𝑘𝑠 + 𝑀𝑖𝑘𝑖
2
Va a ser el valor de la
variable continua cuando
tengo infinitos intervalos.

P á g i n a 16
Capítulo 3 Medidas de Resumen

Problema de la varianza:
Su gran problema es que esta expresada en medidas cuadráticas, por lo tanto, no
puedo compararla con otras unidades de medida como la media, ya que se encuentran
en distintas dimensiones. Ejemplo: No puedo comparar un metro cuadrático con un
metro lineal. De la misma forma la varianza esta en unidades cuadráticas
(pertenecientes al espacio bidimensional) mientras que la media está en unidades
lineales (pertenecientes al espacio unidimensional).

Para solucionar este problema utilizo el…

6. Desvío estándar Solucionamos el problema poniéndole la raíz


cuadrada a la varianza.

𝐾
2
𝜎𝑥 = √∑(𝑥𝑖 − 𝜇𝑋 ) × 𝑓𝑟(𝑥𝑖 )
𝑖=1

7. Coeficiente de variabilidad Lo que hace es comparar el desvío


con respecto al valor medio. Es una medida de variabilidad relativa
con respecto al valor medio y es adimensional.

𝝈𝒙
𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍 → 𝑪𝑽 =
𝝁𝒙

𝑺𝒙
𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 → 𝑪𝑽 =
̅
𝒙

Ejemplo: Tengo una distribución que tiene un desvío igual a 3 años y una media igual a
1 año. Por otro lado tengo otra distribución que tiene un desvío igual a 12 meses y una
media igual a 6 meses.
𝜎𝑥 = 3 𝑎ñ𝑜𝑠 ∧ 𝜇𝑥 = 1 𝑎ñ𝑜 → 𝐶𝑉 = 3
𝜎𝑦 = 12 𝑚𝑒𝑠𝑒𝑠 ∧ 𝜇𝑦 = 6 𝑚𝑒𝑠𝑒𝑠 → 𝐶𝑉 = 2

Esos valores no usan una unidad de medida de dimensión, entonces los puedo
comparar: 3 tiene mayor variabilidad relativa con respecto a la media.

P á g i n a 17
Capítulo 3 Medidas de Resumen

Momentos Estadísticos
Pueden utilizarse tanto para datos discretos como para datos continuos.

Momentos Estadísticos Absolutos

Para variables
discretas de orden K Centrales o Centrados

- Un momento para variables discretas es un promedio de cosas.


- Los momentos tienen orden 1, orden 2, orden 3, orden k. Son discretos, es
decir, no existe un orden ½.
- No todos los momentos son asociables a medidas de estadística.

Momentos Absolutos: El momento de orden k absoluto es la suma de los valores


de variable elevado a la k sobre N:

𝑁 𝑁
𝑋𝑖 𝑘 𝑋𝑖
∑ → ∑
𝑁 𝑁
𝑖=1 𝑖=1

Momento absoluto de
orden 1 es la media
(poblacional en este
caso)

Momentos Centrales:
𝑵 𝑵
(𝒙𝒊 − 𝝁𝒙 )𝑲 (𝒙𝒊 − 𝝁𝒙 )𝟐
∑ → ∑
𝑵 𝑵
𝒊=𝟏 𝒊=𝟏

Momento central de
𝑵 orden 2 es la varianza.
(𝒙𝒊 − 𝝁𝒙 )𝟏 SIEMPRE
∑ =𝟎
𝑵
𝒊=𝟏

P á g i n a 18
Capítulo 3 Medidas de Resumen

Medidas de Forma
1. Simetría: Coeficiente de asimetría de Fisher.

En una distribución simétrica los valores que están por debajo de la media se
distribuyen exactamente de la misma forma que los valores que están por arriba de
esta. Así los valores altos y bajos se neutralizan.
En una distribución sesgada o asimétrica se produce un desequilibrio entre los valores
altos y los bajos. Los valores no se distribuyen de manera simétrica alrededor de la
media.
Sesgados hacia la izquierda: La mayoría de los valores se encuentran en la parte
superior de la distribución. Estos valores hacen que la media se deslice hacia abajo,
provocando que esta sea menor que la mediana.
Sesgados hacia la derecha: La mayoría de los valores se encuentran en la parte inferior
de la distribución. Estos valores hacen que la media se deslice hacia arriba, provocando
que esta sea mayor que la mediana.
𝑁 𝑁 𝑁
1 (𝑥𝑖 − 𝜇𝑥 )3 1 (𝑥𝑖 − 𝜇𝑥 )3 (𝑥𝑖 − 𝜇𝑥 )3 1 𝑚𝑐 (3)
𝐴𝐹 = ∑ ⟹ 𝐴 𝐹 = ∑ = ∑ × =
𝑁 𝜎3 𝑁 𝜎3 𝑁 𝜎3 𝜎3
𝑖=1 𝑖=1 𝑖=1

La asimetría de Fisher
es un promedio de Momento Centrado
comparaciones con de Orden 3 dividido el
respecto a la media desvío al cubo
P á g i n a 19
elevado al cubo.
Capítulo 3 Medidas de Resumen

2. Coeficiente de Curtosis Compara la altura de la función con


respecto a la distribución normal.

𝑁
(𝑥𝑖 − 𝜇𝑥 )4 1 𝑚𝑐 (4)
𝐶=∑ × 4=
𝑁 𝜎 𝜎4
𝑖=1

Momento Centrado de
Orden 4 dividido el desvío
a la cuarta (curtosis
poblacional)

𝑛
(𝑥𝑖 − 𝑥̅ )4 1 𝑚𝑐 (4)
𝐶=∑ × 4=
𝑛 𝑠 𝑆4
𝑖=1

Momento Centrado de
Orden 4 dividido el desvío
a la cuarta (curtosis
muestral)

P á g i n a 20

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy