Investigacion de Estadistica
Investigacion de Estadistica
Investigacion de Estadistica
A veces, tratamos con una gran cantidad información. Variables que presentan
muchos datos y muy dispares. Datos con muchos decimales, de diferente signo o
longitud. En estos casos, siempre es preferible calcular medidas que nos ofrezcan
información resumida sobre dicha variable. Por ejemplo, medidas que nos
indiquen cuál es el valor que más se repite.
Sin perjuicio de lo anterior, no hay que irse tan lejos. Si miramos la siguiente tabla
que muestra el salario que cobra cada uno de los trabajadores de una empresa
que fabrica cajas de cartón, tendremos lo siguiente:
Trabajador Salario
1 € 1.235
2 € 1.002
3 € 859
4 € 486
5 € 1.536
6 € 1.248
7 € 1.621
8 € 978
9 € 1.125
10 € 768
Media
Formula
media aritmetica
Consultar explicación y ejemplo de la media
Como se explica en el artículo enlazado anteriormente, existen muchos tipos de
media. La elección de cada tipo de media tiene que ver, principalmente con el tipo
de dato sobre el que se calcula.
Mediana
Moda
Trabajador Salario
1 € 1.236
2 € 1.236
3 € 859
4 € 486
5 € 1.536
6 € 1.536
7 € 1.621
8 € 978
9 € 1.236
10 € 768
La moda sería 1.236€. Si vemos los salarios de los 10 trabajadores, veríamos que
1.236€ se repite en tres ocasiones.
Puede ocurrir que la empresa A presente una desviación estándar de 400 dólares,
mientras la empresa B tenga una desviación estándar de 1.000 dólares. Esto nos
indica que existe mayor desigualdad, por la razón que sea, en los salarios de la
empresa B que en los de la empresa A
SEGÚN WIKIPEDIA
Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo
que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de
variable que se está observando, en este caso se observan variables cuantitativas.
Tipos de promedios: matemáticos y estadísticos.
FORMULARIO
RANGO
VARIANZA
Medidas De Dispersión
Las medidas de tendencia central ofrecen una idea aproximada del comportamiento de una serie
estadística. No obstante, no resultan suficientes para expresar sus características: una misma media
puede provenir de valores cercanos a la misma o resultar de la confluencia de datos estadísticos
enormemente dispares. Para conocer en que grado las medidas de tendencia central son representativas
de la serie, se han de complementar con medidas de dispersión como la varianza o la desviación típica.
Concentración y dispersión
Las medidas de centralización ayudan a determinar el «centro de gravedad» de una distribución
estadística. Para describir el comportamiento general de la serie se necesita, sin embargo, una
información complementaria para saber si los datos están dispersos o agrupados.
Así, las medidas de dispersión pueden definirse como los valores numéricos cuyo objeto es analizar el
grado de separación de los valores de una serie estadística con respecto a las medidas de tendencia
central consideradas.
Las medidas de dispersión son de dos tipos:
Medidas de dispersión absoluta: como recorrido, desviación media, varianza y desviación
típica, que se usan en los análisis estadísticos generales.
Medidas de dispersión relativa: que determinan la dispersión de la distribución estadística
independientemente de las unidades en que se exprese la variable. Se trata de parámetros más
técnicos y utilizados en estudios específicos, y entre ellas se encuentran los coeficientes de apertura,
el recorrido relativo, el coeficiente de variación (índice de dispersión de Pearson) y el índice de
dispersión mediana.
La distribución normal, o campana de Gauss, es una función simétrica (con la media aritmética en el
centro de la serie) con un grado de dispersión bajo (la mayoría de los valores están comprendidos dentro
del valor de la desviación típica ).
Recorrido
La medida de dispersión más inmediata es el recorrido de la distribución estadística, también
llamado rango o amplitud. Dada una serie de valores x 1, x2, ..., xn, su recorrido es la diferencia
aritmética entre el máximo y el mínimo de estos valores:
Desviación media
Como medida de dispersión más frecuentemente utilizada, la desviación media se define como la media
aritmética de los valores absolutos de la desviación de cada valor de la variable con respecto a la media.
Su formulación matemática es la siguiente:
Por su parte, la desviación típica, simbolizada por , se define sencillamente como la raíz cuadrada de la
varianza:
La varianza y la desviación típica, cada una con su respectivo valor, se usan indistintamente en los
estudios estadísticos.
DESVIACIÓN ESTÁNDAR
COEFICIENTE DE VARIACIÓN
EJERCICIOS RESUELTOS
CALCULO DE LA VARIANZA
quedaría
nos daremos cuenta que debemos incluir nuevas columnas a la TDF, que
muestren cada una de las diferencias entre cada marca de clase y la
media (MCI - Media) y también que muestren esta diferencia elevada al
cuadrado y multiplicada por cada Frecuencia Absoluta. Enseguida se
incluyen
Sustituyendo en la formula de la Varianza los datos obtenidos
DESVIACIÓN ESTÁNDAR
y el Coeficiente de Variación es
Medidas de posición.
2. Medidas de Posición
Son indicadores usados para señalar que porcentaje de datos dentro de una distribución de
frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra
en el centro de la distribución de frecuencia, por lo que también se les llama " Medidas de
Tendencia Central ".
Pero estas medidas de posición de una distribución de frecuencias han de cumplir
determinadas condiciones para que lean verdaderamente representativas de la variable a la que
resumen. Toda síntesis de una distribución se considerara como operativa si intervienen en su
determinación todos y cada uno de los valores de la distribución, siendo única para cada
distribución de frecuencias y siendo siempre calculable y de fácil obtención. A continuación se
describen las medidas de posición más comunes utilizadas en estadística, como lo son:
Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 partes iguales: primero,
segundo y tecer cuartil.
Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).
Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero
al noventa y nueve percentil).
Donde:
Coincide, es idéntico o similar al valor de la Mediana (Q2 = Md). Es decir, supera y es superado
por el 50% de los valores de una Serie.
c) Tercer cuartil (Q3):
Aquel valor, termino o dato que supera al 75% y es superado por el 25% de los datos restantes
de la Serie.
Formula de Q3 para series de Datos Agrupados en Clase.
Donde:
El P99 (noventa y nueve percentil) supera al 99% de los datos y es superado a su vez por el 1%
restante.
Idénticas formulas al calculo de la Mediana, cambiando obviamente las
correspondientes posiciones de cada medida.
Para determinar estas medidas se aplicara el principio de la mediana; así, el primer cuartil
cereal valor por debajo del cual se encuentra el 25 por ciento de los datos; bajo el tecer cuartil
se encuentra el 75 por ciento; el 80 decil será el valor por encima del cual estará el 20 por
ciento de los datos, etc.
Como se observa, todas estas medidas no son sino casos particulares del percentil ya que el
primer cuartil no es sino el 25° percentil, el tercer cuartil el 75° percentil, el cuarto decil el 40°
percentil, etc.
Datos no agrupados:
Se hace difícil calcular estas medidas, sin embargo, siguiendo los
mismos principios mencionados para la Mediana, se pueden localizar en la forma siguiente:
Si tenemos una serie de valores X1, X2, X3 … Xn, se localiza el primer cuartil como el
Para los deciles será o siendo A el número del decil; y para los
percentiles o .
Ejemplo:
En una serie de 32 términos se desea localizar el 4° sextil, 8° decil y el 95° percentil.
Esto significa que el 4° textil se encuentra localizado en el termino numero 21, es decir, el que
ocupa la 21° posición; el 8° decil se encuentra localizado entre el termino numero 25° y 26° ; y
el 95° percentil entre la posición 30° y 31° .
Calculo para una distribución de frecuencia
Para el calculo de esta medida en datos agrupados en una distribución de frecuencia, se utiliza
el mismo procedimiento estudiado para el calculo de la Mediana, e; cual es:
1. Se efectúa la columna de las frecuencias acumuladas.
2. Se determina la posición del término cuyo valor se pretende calcular, en caso de ser el
Donde:
1i: limite inferior de la clase que lo contiene.
P: valor que representa la posición de la medida.
fi: la frecuencia de la clase que contiene la medida solicitada.
fa-1: frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic: intervalo de clase.
Ejemplo:
Determinación del primer cuartil, el cuartil textil, el séptimo decil y el 30° percentil.
Salarios N° de empleados fa
200 – 299 85 85
Estos resultados nos indican que el 25 por ciento de los empleados ganan salarios por debajo
de Bs. 334; que sobre Bs. 519,51 ganan el 33,33 por ciento de los empleados; que bajo 541,57
gana el 57 por ciento de los empleados y sobre Bs. 359,88 gana el 70 por ciento de los
empleados.
Muchas veces necesitamos conocer el porcentaje de valores que esta por debajo o por encima
de un valor dado; lo que representa un problema contrario al anterior, esto es, dado un cierto
valor en la abscisa determinar en la ordenada el tanto por ciento de valores inferiores y
superiores al valor dado. Operación que se resuelve utilizando la siguiente formula general:
Donde:
P: lugar percentil que se busca.
P: valor reconocido en la escala X.
fa-1: frecuencia acumulada de la clase anterior a la clase en que esta incluida P.
fi: frecuencia de la clase que contiene a p.
Li: limite inferior de la clase que contiene a P.
Ic: intervalo de clase.
N: frecuencia total.
Ejemplo:
Utilizando la distribución anterior, determinar que porcentaje de personas ganan salarios
inferiores a Bs. 450,00
El 50,75 por ciento de las personas ganan salarios inferiores a Bs. 450.
Método gráfico para fraccionar la distribución
Se pueden obtener en forma gráfica, a través de la curva de la frecuencia acumulada (ojiva).
Para ello basta después de trazar la ojiva, llevar el orden de posición de la medida que se quiere
sobre la ordenada, trazar por ese punto una perpendicular toca a la ojiva, baja una paralela a la
ordenada hasta tocar la abscisa; en el punto donde toque a dicho eje, se encontrará el valor
buscado.
Obtención gráfica de las medidas de posición
Similar o idéntico a la distribución grafica de la Mediana con la sola excepción de que se
llevaría al eje vertical (frecuencias acumuladas) las especificas posiciones de cada indicador de
posición en particular.
Ejemplo:
Forma de obtener los indicadores de posición (cuartiles, deciles y percentiles) para series de
datos agrupados en clases:
Supongamos la siguiente distribución de frecuencias referidas a las estaturas que
representaban 40 alumnos de un curso.
(mts) (fi)
1,60 1,639 5 5
1,64 1,679 8 13
** 1,68 1,719 15 ** 28
* 1,72 1,759 10 38 *
1,76 1,80 2 40
Q3=?
supera esta estatura de 1,736 mts a 8/10 partes de curso y es superado por las 2/10 partes
restantes.
P55 = ?
Esta estatura supera al 55% de los alumnos del curso y es superada por el 45% restante.
Calcular de cada uno de los intervalos de clases cuartiles, deciles y percentiles.
Datos agrupados
I. de clases fi fa
10 – 15 10 10
16 – 21 18 28
22 – 27 10 38
28 – 33 8 46
34 – 39 9 55
40 – 45 7 62
46 – 51 3 65
52 – 57 1 66
n = 66
Cuartiles:
Deciles:
Percentiles:
3. Conclusión
Las medidas de posición en un conjunto de datos están diseñadas para proporcionar al analista
algunas medidas cuantitativas de donde está el centro de los datos en una muestra.
En las medidas de posición se trata de encontrar medidas que sinteticen las distribuciones de
frecuencias. En vez de manejar todos los datos sobre las variables, tarea que puede ser pesada,
podemos caracterizar su distribución de frecuencias mediante algunos valores numéricos,
eligiendo como resumen de los datos un valor central alrededor del cual se encuentran
distribuidos los valores de la variable. La descripción de un conjunto de datos, incluye como un
elemento de importancia la ubicación de éstos dentro de un contexto de valores posibles.
4. Bibliografía
Armando, Soto Negrin. Principios de Estadística. Editorial Panapo. 1999. Pág.: 71-81.
Ernesto, Rivas González. Estadística General. Ediciones de la Biblioteca. Caracas. 2000. Pág.:
164-169.