Modulo 2
Modulo 2
Modulo 2
También es posible hacerlo por medio de cantidades muy específicas, a las cuales
llamaremos "medidas estadísticas". Las medidas estadísticas nos permiten
conocer un poco el comportamiento de la variable y veremos tres tipos diferentes
de medidas estadísticas. Las primeras son las medidas de tendencia central, que
nos indican hacia qué valores tiende el comportamiento de la variable. Las
segundas son las medidas de dispersión, que nos indicarán de qué manera se
tiene la variabilidad o dispersión de los datos, dentro del conjunto de los mismos.
Y las terceras son las medidas de posición, que nos darán una idea de cómo es el
comportamiento de la distribución de todos nuestros datos. Comencemos con las
medidas de tendencia central. Particularmente, veremos tres de ellas y
utilizaremos, nuevamente, las alturas de Godzilla para ejemplificarlas. Tenemos
los siguientes valores para las alturas de Godzilla. La pregunta sería, ¿cuál de
estas 18 observaciones podría representar de mejor manera al total de ellas? Es
decir, queremos un sólo valor que nos pueda dar una idea del comportamiento de
todos los 18 que tenemos. La respuesta más directa podría ser que son 50
metros, ya que es el valor que se repite más veces, tal y como lo podemos ver en
la tabla. Así que tomaremos este valor como medida de la variable y le
llamaremos "moda". Definimos a la moda como la observación que tiene la
frecuencia absoluta mayor, en este caso, 50 metros. Dado que estamos tratando
de representar el comportamiento de la variable, ésta la simbolizaremos con la
letra "X" y, para diferenciar la moda del resto de los valores de variable,
colocaremos un acento circunflejo sobre la "X". De este modo, podemos tener que
nuestra moda es 50 metros. Cabe señalar, que es posible que tengamos más de
una moda, ya que es posible que más de un valor de variable presente en la
misma frecuencia, y que ésta sea en la mayor frecuencia absoluta observada.
Mediana.
Otra posibilidad para encontrar un valor de variable que pueda representarlos de
alguna manera a todos, es colocar una lista en donde tengamos nuestras
observaciones de manera creciente, y buscar justamente la que se encuentre a la
mitad.
En este caso, tenemos un tamaño de muestra par, así que la mitad de la muestra
se encontrará entre las observaciones 9 y 10. Consecuentemente, lo que tenemos
que hacer es revisar qué valores de variables tenemos en las posiciones 9 y 10, y
calcular la mitad de entre estas dos.
En nuestra tabla, podemos observar que tanto la posición 9 como la posición 10,
están ocupadas por alturas de 60 metros. Lo siguiente es calcular un valor entre
60 y 60, que sigue siendo 60, y éste nos dará justamente la medida de la mitad de
nuestras observaciones. A este valor le llamamos mediana, y dado que también es
un valor de variable, la simbolizaremos como x, y para diferenciarla del resto de
los valores le colocaremos una tilde.
Más adelante, veremos una manera más de calcular la mediana. En este caso,
nos quedaremos solamente en decir que la mediana es el valor de la observación
que divide nuestra muestra justo al 50%.
Media aritmética
La tercera medida de tendencia central se conoce como "media aritmética". Su
cálculo es muy sencillo, simplemente sumamos todos los valores de variable y
dividimos entre el total de observaciones hechas. Lo que obtendríamos es una
medida equitativa de las alturas, es decir, estamos repartiendo el total de metros
entre las 18 versiones de Godzilla de manera equitativa. El resultado nos indica
qué altura tendría Godzilla o cada una de las versiones de Godzilla, si todas
midieran exactamente lo mismo. En nuestro ejemplo, la suma sería tal y como se
muestra, y al dividir entre los 18 Godzillas que tenemos en nuestra muestra,
tenemos que la altura media es de 85,25 metros. Dado que la media aritmética es
también un valor de variable, igualmente la simbolizaremos con una "X" y, para
diferenciarla del resto de las variables, colocaremos una barra sobre de ella.
Simbólicamente, tenemos que la media es igual a 85,25 metros de altura.
Coeficiente de variación.
En ocasiones, puede ser de interés el comparar la variabilidad entre dos
poblaciones para una misma variable, por ejemplo, pudiéramos querer comparar
la variabilidad que hay, para una cierta variable, entre dos especies animales.
Cuando se tienen dos poblaciones dentro de las cuales los valores de la variable
no difieren mucho, es muy sencillo hacer esto. Por ejemplo, supongamos que
estamos trabajando con la variable "altura" para mulas y caballos. Las mulas y los
caballos no difieren mucho en cuanto a sus alturas, por lo tanto, la comparación de
variabilidad podría hacerse cotejando cada una de las dos desviaciones estándar
obtenidas de las respectivas muestras y simple sencillamente ubicando cuál es la
que tiene el mayor valor. Pero, en ocasiones, las poblaciones no tienen un
comportamiento tan similar en cuanto a los valores de la variable, por ejemplo,
supongamos que queremos comparar la variabilidad entre los pesos de los gatos y
los pesos de los tigres. Dado que difieren mucho los valores para una y otra
especie, entonces, tenemos que recurrir a otra medida de variabilidad. A esta
medida la llamamos "coeficiente de variación" y se refiere a la relación que tiene la
desviación estándar con respecto de la media. Su cálculo es, pues, el cociente de
la desviación estándar entre la media. Para poderlo utilizar necesitamos cumplir
con dos condiciones. La primera es que las dos poblaciones tengan más o menos
la misma distribución para la variable con la que se está trabajando. La segunda
condición es que en ambos casos se utilice la misma variable, es decir, podremos
comparar variabilidad entre los pesos de los tigres y los pesos de los gatos, pero
no la variabilidad entre las longitudes de los tigres y los pesos de los gatos a
través del coeficiente de variación. Veamos un ejemplo. Comentamos ya que el
cálculo del coeficiente de variación se realiza dividiendo la desviación estándar
sobre la media. Tomemos como variables la altura de dos especies de
dinosaurios. Por un lado, tenemos al parvicursor, el dinosaurio más pequeño del
que se tenga conocimiento, su altura media era de 0,39 metros con desviación
estándar de 0,13 metros. Por otro lado, el dinosaurio más grande del que se tiene
conocimiento fue el titanosaurio, medía 40 metros de altura con desviación
estándar de dos metros. Si quisiéramos comparar la variabilidad en las alturas de
ambas especies, hacerlo a través de observar las desviaciones estándar en cada
uno de ellos no nos lleva mucho. Obviamente, la desviación estándar es mayor en
el titanosaurio, dos metros contra los 13 centímetros del parvicursor. Pero, ello no
implica que la mayor variabilidad se presentará necesariamente el titanosaurio. De
este modo, vamos a revisar, utilizando el coeficiente de variación, cuál de las dos
especies presenta mayor variabilidad en cuanto a su altura. Podemos hacerlo
porque, por un lado, estamos utilizando la misma variable, la altura. Por otro lado,
podemos asumir que la distribución de las alturas en cada una de las dos especies
es más o menos similar. Pocos ejemplares muy por debajo de la media, pocos
ejemplares muy por encima de la media y la gran mayoría de los ejemplares en
cada una de las dos especies con alturas alrededor de la media. Calculando los
coeficientes de variación, encontramos que en el caso del parvicursor tenemos
0,13 sobre 0,39 igual a aproximadamente 0,33. Para el titanosaurio, el coeficiente
de variación será 2 sobre 40 que es igual a 0,5. Observando ambos valores,
encontramos que el parvicursor tiene un coeficiente de variación mayor que el del
titanosaurio, por lo que podemos decir que, para la variable altura, el parvicursor
presenta mayor variabilidad que el titanosaurio. También es posible que
presentemos el coeficiente de variación como un porcentaje. En el caso del
parvicursor será del 33 por ciento y en el caso del titanosaurio del 5 por ciento.
Regla empírica
veremos ahora un hecho estadístico conocido como "regla empírica", que nos
relaciona la tendencia, la variabilidad y la distribución de una serie de datos. La
regla empírica nos dice que, si a la media le restamos y sumamos, sucesivamente,
el valor de la desviación estándar, podremos generar intervalos que agrupen una
cierta cantidad o una cierta proporción determinada de todas nuestras
observaciones. Tomemos el siguiente ejemplo. Se midió la estatura de 100
personas y se obtuvo como medía 171,2 centímetros y, como desviación estándar,
15,4 centímetros. Podemos ver en la gráfica de los 100 datos que la distribución
es más o menos simétrica. La regla empírica dice: si a la media le restamos y le
sumamos una vez el valor de la desviación estándar para crear un intervalo, éste
intervalo contendrá a aproximadamente 68 por ciento de todas las observaciones.
171,2 menos 15,4 es igual a 155,8; y 171,2 más 15,4 es igual a 186,6. El intervalo
[155,8; 186,6] contiene a aproximadamente al 68 por ciento de las observaciones.
Si a la media le restamos y le sumamos dos veces la desviación estándar para
crear un intervalo, éste intervalo contendrá a aproximadamente el 95 por ciento de
las observaciones. 171,2 menos dos veces 15,4 es igual a 140,4; y 171,2 más dos
veces 15,4 es igual a 202. El intervalo de 140,4 a 202 centímetros contiene a
aproximadamente el 95 por ciento de las observaciones. Si a la media le restamos
y le sumamos tres veces la desviación estándar para crear un intervalo, éste
intervalo contendrá a aproximadamente el 99 por ciento de las observaciones.
171,2 menos tres veces 15,4 es igual a 125; 171,2 más tres veces 15,4 es igual a
217,4. Así, el intervalo de 125 a 217,4 centímetros, contiene aproximadamente el
99 por ciento de las observaciones. Finalmente, si a la media le restamos y le
sumamos tres veces y media la desviación estándar, en el intervalo que se
construya se tendrá el total de las observaciones. 171,2 menos tres y media veces
15,4 es igual a 117,3. 171,2 más tres y media veces 15,4 es igual a 225,1. Así, el
intervalo de 117,3 a 225,1 centímetros contiene 100 por ciento de las
observaciones. En nuestro ejemplo podemos observar que en el intervalo obtenido
a partir de restar y sumar tres veces la desviación estándar de la media tenemos,
ya agrupados, el 100 por ciento de nuestras observaciones, pero recordemos que
los porcentajes que indican la regla empírica son aproximados. Estos porcentajes
se han encontrado a través de la observación, de ahí el nombre de "regla
empírica", pero siempre que tengamos una distribución de datos más o menos
simétrica, ésta regla se cumple. La regla empírica es de suma importancia en
temas de probabilidad y de inferencia estadística, por lo cual tenemos que tenerla
siempre presente.