Medidas de Dispersion, As, AP.
Medidas de Dispersion, As, AP.
Medidas de Dispersion, As, AP.
50
0.2 40
30
0.1
20
10
0.0
0
0 10 20 30 40 0 4 8 12 16 20
RIQ = Q3 – Q1
Como se puede observar, este indicador informa acerca de la dispersión que
hay en el 50% central de la distribución; es decir, excluye el 25 % más alto y
el 25 % más bajo de un conjunto de datos.
A diferencia del rango, esta medida no se encuentra afectada por los valores
extremos (atípicos u outliers)
3.) VARIANZA
V(X) , S ,
2
2
Es una medida absoluta de variabilidad, más estable que el
rango, aunque sus unidades se expresan en unidades de la
variable, pero al cuadrado; lo que hace difícil su interpretación.
Es un promedio de las desviaciones cuadráticas de un
conjunto de observaciones de una variable respecto a su media
aritmética.
El valor de la varianza puede sufrir un cambio muy
desproporcionado , aun más que la media, por la existencia de
algunos valores extremos en el conjunto
Cálculo de la Varianza Poblacional:
Datos no Clasificados
σ𝑁 2 σ𝑁 2 2
2
(𝑥
𝑖=1 𝑖 − 𝜇) 𝑥
𝑖=1 𝑖 − 𝑁 𝜇
𝜎 = =
𝑁 𝑁
Datos Clasificados
Método General:
σ𝑁 2 2
2
𝑥
𝑖=1 𝑖 𝑖𝑓 − 𝑁 𝜇
𝜎 =
𝑁
Cálculo de la Varianza
Muestral:
Datos no Clasificados
n n
( x x) x nx
2 2 2
i i
S2 i 1
i 1
n 1 n 1
Datos Clasificados
Método General:
xi2 fi n x
2
S2 i 1
n 1
Propiedades y características de la
Varianza:
Cuando se realizan algunas transformaciones en las variables originales, estas también se reflejan
en las medidas de centralización y en las de variación.
Estas propiedades son muy útiles cuando se tiene que calcular el nuevo promedio y la nueva
varianza y no se tienen los datos originales o estos son demasiado numerosos.
En este caso tendremos las siguientes propiedades para la varianza de una variable:
• V(x)≥0
• V ( k ) = 0, si k es constante
• V ( k x ) =k2 V(x)
• V ( x ± k) = V (x)
• V ( x ± y ) = V (x) + V(y) si son variables independientes.
• No permite interpretación lineal por tener las unidades en
estudio con exponente cuadrático.
Ejemplo:
• Calcular la varianza de los siguientes valores numéricos:
5, 9, 11, 7
[ Gastos > xi fi
50 - 80 65 30
80 - 110 95 50
110 - 140 125 85
140 - 170 155 15
4. ) Desviación estándar: S ,
Como la varianza se expresa en unidades (de los datos) al cuadrado, se establece una
medida de variabilidad o dispersión que es mas fácil de interpretar, esta medida es la
DESVIACIÓN ESTANDAR o DESVIACIÓN TÍPICA, cuya interpretación es mas
sencilla, porque tiene las mismas unidades de las observaciones. Se
calcula a partir de la varianza:
S Varianza
s
(100 )
x
Si CV < 25% Baja dispersión
Si CV > 50% Alta dispersión
En otro caso Dispersión moderada
III. MEDIDAS ESTADISTICAS de FORMA
1.) Medidas de Asimetría
• No todas las distribuciones son simétricas. Algunas de las distribuciones son sesgadas a la
izquierda o a la derecha.
• En el caso de existencia de valores extremos, la medida que se ve más afectada es la media
aritmética. No tanto así la Mediana ni la Moda.
• Como sabemos, la moda es el dato que más se repite y por lo tanto está en el pico de la
distribución. Hacia la cola se encuentran la mediana y la media.
Los siguientes gráficos muestran tres distribuciones de datos, dos asimétricas y una simétrica
Distribución Asimétrica Positiva o a la Derecha Distribución Simétrica Distribución Asimétrica Negativa o a la Izquierda
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
COEFICIENTE de PEARSON:
__ __
3( x M e ) ( x Mo )
CA ó CA
S S
Donde:
__
• x : Media aritmética de los datos
• Me : Mediana
• Mo : Moda
• S : Desviación estándar.
Para determinar la simetría o asimetría de los datos tenemos la siguientes posibles valores de Ak :
Si CA > 0 los datos están segados a la derecha (asimetría positiva)
Si CA < 0 los datos están segados a la izquierda (asimetría negativa)
Si CA = 0 la distribución es simétrica
2.) Medidas de Apuntamiento
La Kurtosis, mide el grado de deformación vertical (apuntamiento) de la
distribución de los datos.
COEFICIENTE DE KURTOSIS:
Q 3 Q1
K
2 C 90 C10
Si K 0.263 La distribución es Mesokúrtica o Normal.
K > 0.263
K = 0.263
K < 0.263
Diagrama de cajas (Boxplot)
Es un importante gráfico del análisis exploratorio de datos. Permite tener una
idea visual de la distribución de datos respecto a lo siguiente:
19
Ejemplo: Un grupo de 47 personas fueron sometidas a un tratamiento para disminuir el
nivel de colesterol en la sangre. Se registró el nivel de colesterol de los 47 antes y después
de realizado el tratamiento.
Antes
146 160 182 186 186 190 200 200 202 210 214 216
218 218 220 220 220 226 234 234 236 236 238 240
242 244 244 248 248 258 266 270 270 272 276 276
278 278 282 288 288 294 294 350 385 401 420
Después
142 156 160 162 164 166 168 170 178 178 182 182
182 182 182 182 184 186 188 188 196 198 198 198
198 200 200 204 204 206 212 214 216 218 230 232
236 238 242 242 248 256 256 264 264 280 294
20
Diagrama de cajas (Boxplot)
A continuación se presentan diagramas de cajas para ambas mediciones:
Diagrama de cajas para el nivel de colesterol
450
400
350
Nivel de colesterol
300
250
200
150
Antes Después
21
Diagrama de cajas (Boxplot)
La línea central de la caja corresponde a la Mediana. La línea inferior y superior de la
caja corresponde al primer y tercer Cuartil respectivamente.
Para la observación de la Variabilidad se ve el alto de cada caja y se compara.
Para la determinación de la Asimetría se observa si la línea de la Mediana está más
cerca a la línea superior entonces tiene asimetría negativa (a la izquierda). Si está más
cerca a la línea inferior la asimetría es positiva ( a la derecha)
Para la determinación de los bigotes se debe calcular previamente las siguientes
cantidades:
CI = Q1 – 1.5 RIQ
CS = Q3 + 1.5 RIQ
o El bigote inferior se extiende hasta el dato más pequeño que sea mayor o igual a CI.
o El bigote superior se extiende hasta el dato más grande que sea menor o igual a CS.
22
Diagrama de cajas (Boxplot)
Observaciones:
La primera caja (datos Antes) muestra 3 valores extremos, correspondientes a tres personas
con un nivel de colesterol inusualmente alto (en comparación con el resto de los
participantes). Analizando ambos gráficos queda claro que el nivel de colesterol promedio ha
disminuido debido al tratamiento, y que los resultados después del tratamiento son algo
menos variables que antes del tratamiento. En cuanto a la asimetría de la distribución, en
ambos casos se aprecia cierta asimetría positiva.
23