Modulo 2

Medidas descriptivas de tendencia.
También es posible hacerlo por medio de cantidades muy específicas, a las cuales
llamaremos "medidas estadísticas". Las medidas estadísticas nos permiten
conocer un poco el comportamiento de la variable y veremos tres tipos diferentes
de medidas estadísticas. Las primeras son las medidas de tendencia central, que
nos indican hacia qué valores tiende el comportamiento de la variable. Las
segundas son las medidas de dispersión, que nos indicarán de qué manera se
tiene la variabilidad o dispersión de los datos, dentro del conjunto de los mismos.
Y las terceras son las medidas de posición, que nos darán una idea de cómo es el
comportamiento de la distribución de todos nuestros datos. Comencemos con las
medidas de tendencia central. Particularmente, veremos tres de ellas y
utilizaremos, nuevamente, las alturas de Godzilla para ejemplificarlas. Tenemos
los siguientes valores para las alturas de Godzilla. La pregunta sería, ¿cuál de
estas 18 observaciones podría representar de mejor manera al total de ellas? Es
decir, queremos un sólo valor que nos pueda dar una idea del comportamiento de
todos los 18 que tenemos. La respuesta más directa podría ser que son 50
metros, ya que es el valor que se repite más veces, tal y como lo podemos ver en
la tabla. Así que tomaremos este valor como medida de la variable y le
llamaremos "moda". Definimos a la moda como la observación que tiene la
frecuencia absoluta mayor, en este caso, 50 metros. Dado que estamos tratando
de representar el comportamiento de la variable, ésta la simbolizaremos con la
letra "X" y, para diferenciar la moda del resto de los valores de variable,
colocaremos un acento circunflejo sobre la "X". De este modo, podemos tener que
nuestra moda es 50 metros. Cabe señalar, que es posible que tengamos más de
una moda, ya que es posible que más de un valor de variable presente en la
misma frecuencia, y que ésta sea en la mayor frecuencia absoluta observada.
Mediana.
Otra posibilidad para encontrar un valor de variable que pueda representarlos de
alguna manera a todos, es colocar una lista en donde tengamos nuestras
observaciones de manera creciente, y buscar justamente la que se encuentre a la
mitad.
En este caso, tenemos un tamaño de muestra par, así que la mitad de la muestra
se encontrará entre las observaciones 9 y 10. Consecuentemente, lo que tenemos
que hacer es revisar qué valores de variables tenemos en las posiciones 9 y 10, y
calcular la mitad de entre estas dos.
En nuestra tabla, podemos observar que tanto la posición 9 como la posición 10,
están ocupadas por alturas de 60 metros. Lo siguiente es calcular un valor entre
60 y 60, que sigue siendo 60, y éste nos dará justamente la medida de la mitad de
nuestras observaciones. A este valor le llamamos mediana, y dado que también es
un valor de variable, la simbolizaremos como x, y para diferenciarla del resto de
los valores le colocaremos una tilde.
Más adelante, veremos una manera más de calcular la mediana. En este caso,
nos quedaremos solamente en decir que la mediana es el valor de la observación
que divide nuestra muestra justo al 50%.
Media aritmética
La tercera medida de tendencia central se conoce como "media aritmética". Su
cálculo es muy sencillo, simplemente sumamos todos los valores de variable y
dividimos entre el total de observaciones hechas. Lo que obtendríamos es una
medida equitativa de las alturas, es decir, estamos repartiendo el total de metros
entre las 18 versiones de Godzilla de manera equitativa. El resultado nos indica
qué altura tendría Godzilla o cada una de las versiones de Godzilla, si todas
midieran exactamente lo mismo. En nuestro ejemplo, la suma sería tal y como se
muestra, y al dividir entre los 18 Godzillas que tenemos en nuestra muestra,
tenemos que la altura media es de 85,25 metros. Dado que la media aritmética es
también un valor de variable, igualmente la simbolizaremos con una "X" y, para
diferenciarla del resto de las variables, colocaremos una barra sobre de ella.
Simbólicamente, tenemos que la media es igual a 85,25 metros de altura.
Interpretación de las medidas de tendencia central.

De este modo, tenemos que nuestra moda es 50 metros, nuestra mediana es 60
metros, y nuestra media aritmética es 85.25 metros. ¿Cuál de las tres medidas
representará de manera mejor a la variable, altura de Godzilla, que estamos
analizando?
Más allá de que la media sea un poco distinta de la mediana y la moda, que no
son muy diferentes entre sí, hay una razón de peso para no optar por la media
aritmética.
Tenemos una observación que es mucho mayor que todas las demás, aquella de
318 metros, es decir, tenemos un dato atípico en el sentido de que es mucho
mayor que el resto de las observaciones. Este dato atípico, dada la manera en que
calculamos la media aritmética, provoca que ésta sea un valor que sobreestime el
comportamiento de la variable, ya que al tener una altura de ese tamaño
estaríamos repartiendo aún más metros entre las 18 versiones de Godzilla y, de
ese modo, las versiones más bajas estarían ganando un poco en altura. En ese
sentido, la media aritmética puede no ser una buena medida en virtud de que
tenemos un dato atípico.
Con respecto a la moda y a la mediana. Tenemos que la moda corresponde al
valor más pequeño de las alturas, mientras la mediana es un poquito más elevada.
Si tomáramos la moda, estaríamos subestimando el comportamiento real de
nuestra variable altura. Por lo tanto, si queremos representar en nuestro ejemplo
con una sola de las medidas de tendencia central el comportamiento de la variable
altura, nuestra decisión más clara sería hacerlo sobre la mediana.
Medidas descriptivas de posición.

Para darnos una idea de cómo se distribuyen nuestras observaciones es posible
apoyarnos en los valores de variable que acumulan un determinado porcentaje de
la muestra. Para ello tenemos la columna de frecuencias relativas acumuladas en
nuestra tabla de distribución de frecuencias.
Por ejemplo, que el 33% de las observaciones tienen 50 metros de altura o
menos, el 67% tienen 80 metros de altura o menos o el 89% tienen 108 metros de
altura o menos. Es decir, 50 metros acumula el 33% de las observaciones, 80
metros acumula el 67% de las observaciones o 108 metros acumula el 89% de las
observaciones.
Pero, ¿qué ocurre si quisiéramos calcular el valor de variable que acumula un
porcentaje que no se encuentra en nuestra tabla? Por ejemplo, ¿qué valor de
variable acumula el 75% de las observaciones?
Para encontrar estas cantidades nos apoyaremos en el trazo de [INAUDIBLE]
porcentual y encontraremos un método que nos permita calcular estos valores.
Podemos observar en [INAUDIBLE] que para 80 metros se acumula 67% de la
muestra y para 100 metros se acumula el 83%. Por lo tanto, el valor de la altura
para el que se acumule el 75% de la muestra será un valor entre 80 y 100 metros.
Vamos a tomar solo el sector de [INAUDIBLE] porcentual dentro del cual estamos
buscando el valor de la variable para el que se acumule el 75% de la muestra.
Ahora, tracemos las proyecciones horizontales y verticales de los pares ordenados
80, 67 100, 83 y
C, 0.75 donde C es el valor de variable que estamos buscando.
Extenderemos las proyecciones horizontales para los dos porcentajes menores
hasta la proyección vertical de la mayor de las alturas.
Con esto tenemos dos triángulos, uno con vértices en 80, 67, 100, 83 y 100, 67 y
el otro triángulo en vértices en C, 0.75, 100, 0.83 y 100, 0.75. Como el segundo
triángulo se obtuvo al seccionar el primero con una línea paralela a uno de sus
lados, entonces ambos triángulos son semejantes Lo que implica que las
proporciones entre lados correspondientes son iguales. Vamos a plantear esta
idea simbólicamente. La altura del triángulo mayor es 0.83- 0.67 igual a 0.16. En
tanto la altura del triángulo menor es 0.83- 0.75 igual a 0.08. La proporción entre
ambos lados es igual a 2. Es decir, la altura mayor es el doble que la altura menor.
Y al ser los dos triángulos semejantes, entonces la base mayor medirá también el
doble de lo que mida la menor.
La base mayor mide 100- 80 igual a 20 metros mientras que la menor mide 100-
C.
Y la proporción entre ambas se calcula como 100- 80 / 100- C y tendrá que ser
igual a 20 sobre 100- C.
Pero sabemos que esta proporción debe ser igual a 2, que es la proporción entre
las alturas, por lo que 20 entre 100- C es igual a 2. Desde aquí calcular C se
reduce solamente a despejar. [AUDIO_EN_BLANCO] Con lo anterior podemos
concluir que el 75% de las versiones de Godzilla miden 90 metros o menos o bien
que 90 metros es la altura que me acumula el 75% del total de nuestras
observaciones. Vamos a generalizar el proceso que acabamos de seguir.
Partimos entre igualar proporciones y alturas. Ahora lo que haremos es asignar
literales a cada uno de los valores. Para nuestro menor valor de variable, en este
caso 80 metros utilizaremos la letra minúscula a, es decir a minúscula igual a 80.
Para nuestro mayor valor de variable ocuparemos la letra minúscula b, es decir b
minúscula es igual a 100. Y utilizaremos C como ya se hizo con anterioridad para
simbolizar el valor de variable que estamos tratando de calcular.
Ahora haremos lo mismo con los valores de las proporciones, a la proporción
menor 0.67 le llamaremos A mayúscula, a la proporción mayor 0.83 la
simbolizaremos como B mayúscula y utilizaremos C mayúscula para el porcentaje
que define nuestro problema, en este caso decidimos que buscaríamos el valor de
variable que acumula en 75% de las observaciones, de modo tal que por nuestro
ejemplo C mayúscula sería igual a 0.75. De este modo, el modelo general de
manera algebraica queda tal y como se muestra.
La ventaja que tenemos con este modelo es que podemos prescindir del uso de la
[INAUDIBLE] porcentual, siempre y cuando la asignación de variables se haga
estrictamente en apego a lo que aquí se acaba de mostrar.
Clasificación de los cuantiles.

Cuando calculando valores de variable que acumulen determinados porcentajes,
decimos que estamos calculando "cuantiles". Bajo ciertos requerimientos, es
posible que estemos interesados en cuantiles muy en específico. Por ejemplo,
podríamos estar interesados en los valores de variable que acumulen el 25, 50, 75
o 100 por ciento de las observaciones en la muestra, es decir, estaríamos
buscando qué valores de la muestra la seccionan en cuartas partes. Claramente,
aquel valor de variable que acumule el 100 por ciento de las observaciones será el
mayor valor de variable, mientras que el que acumule el 50 por ciento de las
observaciones es el valor de la mediana. Cuando buscamos los valores de
variable que acumulan estos porcentajes, decimos que estamos calculando
"cuartiles". Del mismo modo, podríamos estar interesados en los valores de
variable que acumulan el 20, 40, 60, 80 y 100 por ciento, es decir, los valores de
variable que recortan la muestra en quintas partes. Estos valores de variable les
llamaremos "quintiles". También es posible que querramos calcular los valores de
variable para los que se acumulan el 10, 20, 30, 40, 50, 60, 70, 80, 90 y 100 por
ciento de las observaciones, es decir, los valores de variable que seccionan a la
muestra en 10. A estos valores de variable les llamaremos "deciles". Es claro que
puede haber coincidencias entre algunos tipos distintos de cuantiles. Por ejemplo,
el cuarto decil y el segundo quintil serán exactamente el mismo valor, aquel que
acumula el 40 por ciento de las observaciones. Por último, podríamos calcular
cuantiles sobre cada punto porcentual, es decir, qué valor de variable acumula el 1
por ciento, 2 por ciento, 3 por ciento y así, sucesivamente, hasta el 99 por ciento y
100 por ciento de las observaciones. Dado que son los valores de variable que
están seccionando la muestra en 100 partes, a estos puntos les llamaremos
"centiles". Sin importar qué cuantil estemos interesados en calcular, podemos
utilizar el proceso que desarrollamos anteriormente. Igualmente, este proceso
también nos puede ser útil para el cálculo de la mediana.
Cuartiles y gráfico de caja

Podemos utilizar los cuartiles para el trazo del gráfico de caja. El proceso es el
siguiente. Trazamos un segmento de recta numérica que inicie sobre el menor
valor de variable observado y que finalice sobre el mayor valor de variable
observado. Posteriormente, trazaremos segmentos verticales sobre éste mismo
segmento de recta numérica, justo en donde se localicen el primer cuartil, la
mediana y el tercer cuartil. Luego, uniremos, con rectas horizontales, las rectas
verticales que se sitúan sobre el primer y tercer cuartil, de forma que
construyamos un rectángulo. De esta manera, tenemos el gráfico de caja. En el
caso de que tengamos datos atípicos, entonces, la recta comenzará sea sobre el
segundo valor de variable o sobre el penúltimo, dependiendo si el dato típico es
muy pequeño o muy grande, y este dato atípico se mostrará como un asterisco, al
inicio o al final del gráfico de caja.
Medidas descriptivas de variabilidad

La variabilidad que se presenta al estudiar una variable, es lo que da razón a la
estadística. Sin esta variabilidad completamente fuera del control de los
investigadores, no había necesidad de ningún estudio. Por ejemplo, si no existiera
variabilidad en las estaturas, todas las personas mediríamos lo mismo, y no habría
necesidad de hacer un análisis estadístico.
Hasta este punto, hemos visto en tablas y gráficos la manera de leer la tendencia,
la distribución y la variabilidad de las observaciones, y ya hemos encontrado
medidas tanto para estudiar la tendencia como para delimitar cómo es la
distribución de nuestras observaciones. De este modo, lo que nos resta es ver de
qué manera podemos utilizar medidas estadísticas para describir la variabilidad.
Primeramente, señalaremos que en estadística entendemos como error a la
diferencia que guarda un valor observado con respecto de un valor fijo.
Particularmente, estaremos interesados en estudiar los errores con respecto de la
media, es decir, las diferencias que cada valor observado guarde con respecto de
la media de la altura de Godzilla, que hemos calculado ya como de 85.25 metros.
Es decir, y por ejemplo, si tenemos una versión de Godzilla de 100 metros de
altura, esta versión tendrá un error de 100 menos 85.25 igual a 14.75 metros. Del
mismo modo, una versión de Godzilla de 50 metros de altura tendrá un error con
respecto de la media de 50 menos 85.25 igual a menos 35.25 metros.
Al revisar nuestra tabla de distribución de frecuencias, podemos observar que
ninguna de las 18 versiones de Godzilla arrojó una media
de 85.25 metros para la altura. De esta manera, cada una de las 18 observaciones
tendrá un error con respecto de la media. En algunos casos, será un error
pequeño y, en otros, un error grande. En algunos casos, sería un error por defecto
y, en algunos casos, será un error por exceso.
Si quisiéramos tener una medida del comportamiento de la variabilidad en término
de los errores, una vía sería la de calcular la media aritmética de cada uno de los
18 errores que se presentarán. De esta manera, tendríamos una medida que nos
diría cuánto sería el error para cada una de las observaciones si todas tuvieran el
mismo error con respecto de la media.
De este modo, lo que necesitamos hacer es calcular todos y cada uno de los 18
errores, sumarlos y, posteriormente, repartirlos.
Varianza, desviación estándar y amplitud

Para llevar a cabo el proceso que se propone, podemos apoyarnos en la tabla de
distribución de frecuencias. Lo que haremos es lo siguiente. Tenemos ocho
valores de variable observados. Calcular el error con respecto de la media es
simple. Solamente tenemos que restarle a cada uno de los valores de variable
85.25 que es el valor de la media y colocarlos en la nueva columna.
Ahora, en esta columna tendremos los errores tomados de manera individual para
cada valor de variable, pero no el total de los errores, ya que cada valor de
variable en algunos casos se presentó más de una vez. Por ejemplo, 50 metros de
altura aparece seis veces, de manera tal que su error correspondiente con
respecto a la media de menos 35.25 metros aparece un total de seis veces. Lo
que podemos hacer para simplificar la suma entonces, es multiplicar cada uno de
los errores por su correspondiente frecuencia absoluta de modo tal que tendremos
el total de veces que aparece cada uno de los errores para cada uno de los ocho
valores de variable, y de allí en adelante podemos proceder a sumar para hacer el
reparto que se propone. Al hacer la suma, nos encontramos que el resultado es
cero. Esto nos llevaría a pensar que no hay variabilidad en nuestras
observaciones cuando sabemos que realmente la hay, pues tenemos ocho alturas
diferentes observadas. ¿Por qué entonces tenemos una suma de error igual a
cero? La explicación está en la naturaleza del cálculo de la media. Recordaremos
que, para calcularla, repartimos equitativamente las 18 alturas observadas. Al ser
un reparto equitativo, tendremos tanto error por exceso como por defecto, los
cuales tienden a equilibrarse y darnos esa suma de cero.
Para resolver este problema y continuar nuestro reparto, lo que haremos es tratar
de eliminar los signos negativos en cada uno de los ocho errores individuales que
tenemos, y para ello, podemos elevarlos al cuadrado anotando los resultados en
una nueva columna. Después, para tomar en consideración los 18 errores totales,
multiplicaremos cada uno de estos errores al cuadrado por su frecuencia absoluta
para posteriormente repartirlos. Hay que tomar en consideración que en este
momento ya estaríamos repartiendo errores al cuadrado y no errores. Por lo cual,
una vez hecho el reparto, tendremos que calcular la raíz cuadrada del resultado
para poder llegar al reparto de errores final que estamos buscando.
Si nosotros sumamos los valores en la última columna, observamos que el total es
de 67064.125.
Ahora solo resta hacer el reparto entre los 18 elementos de la muestra. Pero es
necesario hacer aquí una pausa y señalar algo importante. Se ha dicho ya que la
intención de la estadística es tratar de conocer el comportamiento de una variable
de una población a partir de observar el comportamiento de la variable dentro de
la muestra. Se esperaría que el comportamiento de la variable dentro de la
muestra efectivamente refleje el comportamiento de la variable dentro de la
población. Y en ese sentido, podríamos esperar que todas las medidas
estadísticas que tomemos dentro de una muestra sean similares a las que
aparecerían en una población si es que pudiéramos calcularlas. Por ejemplo, la
media de una muestra se esperaría a que fuera igual a la media de la población de
donde fue tomada la muestra, más allá de que no podamos calcular la media de la
población. Esto ocurre para la media y para todas las demás medidas estadísticas
con las que hemos trabajado.
En el caso del reparto de los errores al cuadrado, que es el proceso que estamos
siguiendo en este momento, si nosotros dividimos los errores al cuadrado entre el
tamaño de la muestra, en nuestro ejemplo de 18 versiones, obtendríamos un valor
que sería similar al reparto de los errores al cuadrado dentro de la población. Pero
ocurre que, si en la muestra hacemos el reparto sobre n menos 1 elementos, en
nuestro ejemplo sobre 18 menos 1 elementos, es decir, entre 17 elementos de la
muestra, entonces el resultado se parecería aún más al que esperaríamos obtener
en la población. Entonces, lo que haremos para nuestro reparto será dividir, no
entre 18, sino entre 17.
Cabe decir que cuando estemos repartiendo los errores al cuadrado dentro de la
población, en ese caso no será necesario restar un elemento, sino dividir sobre el
gran total.
Dicho lo anterior, repartiremos la suma de los errores al cuadrado con respecto de
la altura media entre 17 y no entre 18. Esto es 67064.125 entre 17, lo que es igual
a 3944 punto 9485 aproximadamente, que será cuánto es el error al cuadrado con
respecto de la media que le corresponde a cada versión de Godzilla para la altura.
A esta cantidad se le conoce como varianza. Simbólicamente, el proceso que
seguimos para su cálculo es el que se muestra.
Primero, calculamos los errores de cada observación respecto de la media.
Segundo, elevamos al cuadrado estos errores. Tercero, multiplicamos los
cuadrados de los errores por sus respectivas frecuencias absolutas. Cuarto,
sumamos todos estos productos. Y quinto, dividimos entre n menos 1. Como ya se
dijo, a este valor le llamaremos varianza, y lo simbolizaremos como s cuadrada.
Así, en nuestro ejemplo, s cuadrada es igual a 3944.9485. Resta calcular la raíz
cuadrada para saber el reparto del error. La raíz cuadrada de 3944.9485 es
aproximadamente 62.8088. A este valor, que es nuestra medida del error, se le
llama desviación estándar, y la simbolizaremos como s. Así, nuestra desviación
estándar es de 65.8088 metros en nuestro ejemplo de las alturas de Godzilla.
Existe una medida de variabilidad que realmente nos permite saber qué tan
grande puede ser el error dentro de nuestra muestra. Esta medida se llama
amplitud y su cálculo consiste en restar del mayor valor de variable observado el
menor valor de variable observado. En el caso de nuestro ejemplo, basta con
restar de 318 metros los 50 metros que corresponden a la menor altura. Como
resultado, tendríamos 268 metros de diferencia. Esta medida lo que nos indica es
que cualquier error que quisiéramos medir dentro de nuestra muestra, no superará
los 268 metros.
Coeficiente de variación.
En ocasiones, puede ser de interés el comparar la variabilidad entre dos
poblaciones para una misma variable, por ejemplo, pudiéramos querer comparar
la variabilidad que hay, para una cierta variable, entre dos especies animales.
Cuando se tienen dos poblaciones dentro de las cuales los valores de la variable
no difieren mucho, es muy sencillo hacer esto. Por ejemplo, supongamos que
estamos trabajando con la variable "altura" para mulas y caballos. Las mulas y los
caballos no difieren mucho en cuanto a sus alturas, por lo tanto, la comparación de
variabilidad podría hacerse cotejando cada una de las dos desviaciones estándar
obtenidas de las respectivas muestras y simple sencillamente ubicando cuál es la
que tiene el mayor valor. Pero, en ocasiones, las poblaciones no tienen un
comportamiento tan similar en cuanto a los valores de la variable, por ejemplo,
supongamos que queremos comparar la variabilidad entre los pesos de los gatos y
los pesos de los tigres. Dado que difieren mucho los valores para una y otra
especie, entonces, tenemos que recurrir a otra medida de variabilidad. A esta
medida la llamamos "coeficiente de variación" y se refiere a la relación que tiene la
desviación estándar con respecto de la media. Su cálculo es, pues, el cociente de
la desviación estándar entre la media. Para poderlo utilizar necesitamos cumplir
con dos condiciones. La primera es que las dos poblaciones tengan más o menos
la misma distribución para la variable con la que se está trabajando. La segunda
condición es que en ambos casos se utilice la misma variable, es decir, podremos
comparar variabilidad entre los pesos de los tigres y los pesos de los gatos, pero
no la variabilidad entre las longitudes de los tigres y los pesos de los gatos a
través del coeficiente de variación. Veamos un ejemplo. Comentamos ya que el
cálculo del coeficiente de variación se realiza dividiendo la desviación estándar
sobre la media. Tomemos como variables la altura de dos especies de
dinosaurios. Por un lado, tenemos al parvicursor, el dinosaurio más pequeño del
que se tenga conocimiento, su altura media era de 0,39 metros con desviación
estándar de 0,13 metros. Por otro lado, el dinosaurio más grande del que se tiene
conocimiento fue el titanosaurio, medía 40 metros de altura con desviación
estándar de dos metros. Si quisiéramos comparar la variabilidad en las alturas de
ambas especies, hacerlo a través de observar las desviaciones estándar en cada
uno de ellos no nos lleva mucho. Obviamente, la desviación estándar es mayor en
el titanosaurio, dos metros contra los 13 centímetros del parvicursor. Pero, ello no
implica que la mayor variabilidad se presentará necesariamente el titanosaurio. De
este modo, vamos a revisar, utilizando el coeficiente de variación, cuál de las dos
especies presenta mayor variabilidad en cuanto a su altura. Podemos hacerlo
porque, por un lado, estamos utilizando la misma variable, la altura. Por otro lado,
podemos asumir que la distribución de las alturas en cada una de las dos especies
es más o menos similar. Pocos ejemplares muy por debajo de la media, pocos
ejemplares muy por encima de la media y la gran mayoría de los ejemplares en
cada una de las dos especies con alturas alrededor de la media. Calculando los
coeficientes de variación, encontramos que en el caso del parvicursor tenemos
0,13 sobre 0,39 igual a aproximadamente 0,33. Para el titanosaurio, el coeficiente
de variación será 2 sobre 40 que es igual a 0,5. Observando ambos valores,
encontramos que el parvicursor tiene un coeficiente de variación mayor que el del
titanosaurio, por lo que podemos decir que, para la variable altura, el parvicursor
presenta mayor variabilidad que el titanosaurio. También es posible que
presentemos el coeficiente de variación como un porcentaje. En el caso del
parvicursor será del 33 por ciento y en el caso del titanosaurio del 5 por ciento.
Regla empírica
veremos ahora un hecho estadístico conocido como "regla empírica", que nos
relaciona la tendencia, la variabilidad y la distribución de una serie de datos. La
regla empírica nos dice que, si a la media le restamos y sumamos, sucesivamente,
el valor de la desviación estándar, podremos generar intervalos que agrupen una
cierta cantidad o una cierta proporción determinada de todas nuestras
observaciones. Tomemos el siguiente ejemplo. Se midió la estatura de 100
personas y se obtuvo como medía 171,2 centímetros y, como desviación estándar,
15,4 centímetros. Podemos ver en la gráfica de los 100 datos que la distribución
es más o menos simétrica. La regla empírica dice: si a la media le restamos y le
sumamos una vez el valor de la desviación estándar para crear un intervalo, éste
intervalo contendrá a aproximadamente 68 por ciento de todas las observaciones.
171,2 menos 15,4 es igual a 155,8; y 171,2 más 15,4 es igual a 186,6. El intervalo
[155,8; 186,6] contiene a aproximadamente al 68 por ciento de las observaciones.
Si a la media le restamos y le sumamos dos veces la desviación estándar para
crear un intervalo, éste intervalo contendrá a aproximadamente el 95 por ciento de
las observaciones. 171,2 menos dos veces 15,4 es igual a 140,4; y 171,2 más dos
veces 15,4 es igual a 202. El intervalo de 140,4 a 202 centímetros contiene a
aproximadamente el 95 por ciento de las observaciones. Si a la media le restamos
y le sumamos tres veces la desviación estándar para crear un intervalo, éste
intervalo contendrá a aproximadamente el 99 por ciento de las observaciones.
171,2 menos tres veces 15,4 es igual a 125; 171,2 más tres veces 15,4 es igual a
217,4. Así, el intervalo de 125 a 217,4 centímetros, contiene aproximadamente el
99 por ciento de las observaciones. Finalmente, si a la media le restamos y le
sumamos tres veces y media la desviación estándar, en el intervalo que se
construya se tendrá el total de las observaciones. 171,2 menos tres y media veces
15,4 es igual a 117,3. 171,2 más tres y media veces 15,4 es igual a 225,1. Así, el
intervalo de 117,3 a 225,1 centímetros contiene 100 por ciento de las
observaciones. En nuestro ejemplo podemos observar que en el intervalo obtenido
a partir de restar y sumar tres veces la desviación estándar de la media tenemos,
ya agrupados, el 100 por ciento de nuestras observaciones, pero recordemos que
los porcentajes que indican la regla empírica son aproximados. Estos porcentajes
se han encontrado a través de la observación, de ahí el nombre de "regla
empírica", pero siempre que tengamos una distribución de datos más o menos
simétrica, ésta regla se cumple. La regla empírica es de suma importancia en
temas de probabilidad y de inferencia estadística, por lo cual tenemos que tenerla
siempre presente.
Interpretación de información estadística e inferencias informales.

El trabajo estadístico siempre se da en situaciones muy tangibles.
Consecuentemente, es muy fácil que obtengamos conclusiones a partir de lo que
observemos en una muestra, o bien que podamos hacer conjeturas en términos
de lo que nos indiquen los datos. Pero para ello deberemos de saber leer la
información estadística y ser muy críticos de la fiabilidad de la información que
tengamos a la mano. Todo esto, a partir de tener claro qué población estamos
estudiando, con qué tipo de variable o qué tipos de variables estamos trabajando,
cómo se integró la muestra, dónde, cómo, cuándo fueron levantados los datos,
entre otras cosas.
Tomemos como ejemplo el consumo en kilocalorías diarias de nuestros atletas de
alto rendimiento, mismo que se supone debe ser de 2000 kilocalorías al día
aproximadamente. Si seleccionamos una muestra de 30 atletas, posiblemente la
información no sea del todo fiable, ya que podríamos estar dejando afuera algunas
disciplinas y esto sesgaría la información, puesto que el consumo calórico no debe
ser el mismo para hombres que practiquen maratones que para mujeres que
practiquen la arquería. Igualmente, si tomamos una muestra de 500 atletas, pero
todos ellos son hombres o todos ellos son clavadistas, encontraríamos también
que la información esta sesgada, ya que de nueva cuenta el consumo será
diferente entre hombres y mujeres, y también diferente para las distintas
disciplinas. Adicionalmente habrá que considerar si la muestra se levantó antes de
juegos olímpicos o no, por ejemplo, ya que la exigencia en los entrenamientos
será diferente y el consumo podrá ser diferente también que lo habitual. Otra
cuestión que podríamos referir es considerar si la muestra fue levantada en
distintas zonas geográficas del país. Los ejemplos anteriores son situaciones en
las cuales no se está respondiendo al motivo inicial de la investigación, pero no
por ello, no nos dan información. Simplemente deberemos tener cuidado en el
alcance de las conclusiones. Por ejemplo, podríamos decir que para los
clavadistas en particular el consumo medio de kilocalorías al día es de cierta
cantidad pero que esto no implica que sea así para las demás disciplinas. En ese
sentido, todo estudio estadístico deberá indicarnos qué se estudia, de qué
población se estudia, cómo se obtuvieron los datos y el tamaño de muestra como
mínimo, para que podamos hacer una buena crítica de sus resultados.
Discusión sobre datos y resultados.

Supongamos ahora que nos encontramos la siguiente información. Nos indican
que se realizó un estudio sobre la alimentación de los atletas de alto rendimiento
en el país. Para ello, se aplicó una encuesta en todos los centros de alto
rendimiento del país, se aplicó igualmente el instrumento a atletas de todas las
disciplinas y tanto a hombres como a mujeres. Una de las variables que se analizó
fue el consumo en kilocalorías diario para cada uno de los atletas, obteniéndose
una media de 2.216 kilocalorías con desviación estándar de 190 kilocalorías. Este
estudio se realizó dos meses antes de la Olimpiada de 2016. Los resultados se
muestran en el gráfico que aparece a continuación. ¿Qué tan confiables parecen
ser estos resultados? Mucho. Primeramente, se considera una muestra
aceptablemente grande, se encuestó tanto a hombres como a mujeres, se
consideraron todas las posibles disciplinas, todas las distintas zonas geográficas y
además se nos ubica en el tiempo en un espacio muy preciso, que es a pocas
semanas del inicio de una olimpiada.
Podemos ver en el gráfico que el consumo medio en kilocalorías para los atletas
de alto rendimiento va de las 1.900 kilocalorías a las 2.500 kilocalorías al día. Esto
bajo una distribución de datos uniforme, es decir, con frecuencias absolutas más o
menos semejantez para cada observación. Aunque podemos notar que hacia los
extremos del intervalo tenemos consumos mayores.
Con anterioridad se indicó que el consumo medio en kilocalorías diario para
atletas de alto rendimiento debería ser de 2.000. Nuestra media de 2.216
kilocalorías parece indicar que eso se está cumpliendo y con poca variabilidad,
you que al sumar y restar de la media las 190 kilocalorías que tenemos como
desviación estándar, el intervalo no se aleja demasiado de la media. En
conclusión, podríamos decir que el consumo en kilocalorías diarias para los atletas
de alto rendimiento se cumple en lo general, aunque hay sectores, y habría que
ver cuáles son, en los cuales el consumo parece ser más bajo.
Como posible conjetura, podríamos decir lo siguiente. Al observar en el gráfico
que en los extremos del intervalo tenemos mayores consumos, justamente hacia
los valores de 1.900 o 2.500 kilocalorías bajas, que tal vez haya un sector más o
menos grande de atletas que tienen un consumo bajo. Podríamos pensar que tal
vez tengamos un alto número de mujeres inscritas en disciplinas de baja exigencia
en cuanto a consumo energético. Por ejemplo, un alto número de mujeres inscritas
en tiro. Igualmente, el que tengamos observaciones hacia 2.500 calorías con
frecuencias mayores a lo que tiene el resto de las observaciones, podríamos
pensar que tenemos atletas hombres inscritos en maratón o inscritos en prueba de
caminata de 50 kilómetros.

Modulo 2

Cargado por

Copyright:

Formatos disponibles

Modulo 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modulo 2

Cargado por

Copyright:

Formatos disponibles

Medidas descriptivas de tendencia.

Interpretación de las medidas de tendencia central.

Medidas descriptivas de posición.

Clasificación de los cuantiles.

Cuartiles y gráfico de caja

Medidas descriptivas de variabilidad

Varianza, desviación estándar y amplitud

Interpretación de información estadística e inferencias informales.

Discusión sobre datos y resultados.

También podría gustarte

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.