Tema 2 MIE

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 19

TEMA 2. INTRODUCCIÓN A LA ESTADÍSTICA.

ANÁLISIS DESCRIPTIVO UNIDIMENSIONAL

2.1 Definición de Estadística y su relación con la investigación científica.

La ESTADÍSTICA es la ciencia que estudia los métodos y procedimientos para recoger,


ordenar, describir y resumir datos, siempre que la variabilidad y la incertidumbre sea
consustancial a los mismos; así como de realizar inferencias a partir de dichos datos
mediante el uso de modelos matemáticos de probabilidad.

La Estadística se clasifica en:


ESTADÍSTICA DESCRIPTIVA: cuando los resultados del análisis se refieren al
conjunto de datos observados.
ESTADÍSTICA INFERENCIAL: cuando el objetivo del estudio es obtener conclusiones
generales para un conjunto mayor de datos.

La Estadística resulta imprescindible en cualquier ciencia aplicada que requiera el


análisis de datos donde la variabilidad y la incertidumbre sea una causa intrínseca de los
mismos. Esta variabilidad consiste en que al repetir las observaciones o mediciones
científicas cada vez salen un poco diferentes. Los métodos estadísticos permiten que los
investigadores diseñen experimentos válidos y obtengan conclusiones confiables a partir
de los datos a pesar de esa variabilidad.

Hemos visto que el Método Científico es el procedimiento clásico de la investigación


científica y que tiene tres aspectos fundamentales:

1) La formulación de hipótesis que expliquen hechos del mundo que nos rodea,
2) La toma de observaciones que apoyen o validen esas hipótesis,
3) La confrontación de las observaciones con las consecuencias deducibles de las
hipótesis postuladas, que llevan a la aceptación o rechazo de las hipótesis.
En general, el proceso no termina con la aceptación (provisional) o el rechazo de las
hipótesis, sino que la confrontación conduce a hipótesis modificadas, de las cuales se
deducen consecuencias que deberán verificarse con nuevas observaciones.

El papel de la Estadística en los tres aspectos del Método Científico es muy destacado:

1) Formulación de hipótesis. Es la parte más difícil del trabajo científico y requiere gran
habilidad. En algunas ocasiones las técnicas de la Estadística Descriptiva pueden sugerir
hipótesis apropiadas.

2) Obtención de datos. Se trata de adquirir información que sea relevante en relación


con el problema y que las conclusiones que de ella se extraigan tengan cierto grado de
confiabilidad. Las técnicas del Diseño de Experimentos y del Muestreo Estadístico son
cruciales en esta tarea.

3) Confrontación de las observaciones con las consecuencias de las hipótesis. Para la


realización de este tercer aspecto es necesario, en un primer paso, organizar, representar
y describir la información muestral, resaltando sus aspectos más relevantes, para lo cual

1
se utilizará la Estadística Descriptiva. La segunda y más importante parte del análisis,
que se apoya en la primera, tiene por objeto tratar de generalizar esos aspectos
relevantes de la información y examinar su compatibilidad con las consecuencias de las
hipótesis postuladas. Puesto que la información será incompleta o reflejará la
variabilidad del fenómeno que se observa, la generalización irá acompañada de un grado
de incertidumbre que es cuantificable en términos de probabilidad. Este es el área de
interés de la Inferencia Estadística.

Así pues, la Estadística proporciona una serie de procedimientos para actuar en cada uno
de los pasos de la investigación científica, que son de carácter completamente general y
aplicables en cualquier campo de la ciencia. Además, la Inferencia Estadística posibilita
la inducción incompleta o científica, permitiendo evaluar la conformidad de la
información observada con los modelos teóricos propuestos para explicar la realidad.
Por todo ello, se ha descrito la Estadística como la tecnología o herramienta del Método
Científico.

Algunos ejemplos de problemas en el ámbito de la Actividad Física y el Deporte que se


pueden abordar utilizando métodos estadísticos son:

 Descripción de datos:
- Describir el comportamiento de variables antropométricas, de fuerza,
velocidad, etc. en un grupo de deportistas.
- Obtener valoraciones de las mismas mediante percentiles.

 Análisis de muestras:
- Elegir el tamaño y método de muestreo aleatorio para seleccionar muestras de
una población y garantizar estimaciones con cierta precisión estadística.
- Estimar medias y desviaciones (de edad, peso, talla, %grasa, puntuación enun
test,...) y proporciones (de fumadores, de estudiantes que trabajan, ...) de la
población a partir de datos muestrales.

 Comparación de grupos:
- Comparar medias y desviaciones de las variables en distintos grupos. Por
ejemplo ver si las medias o desviaciones de una fuerza son iguales en
hombres que en mujeres, o entre distintas categorías de edad (infantiles,
cadetes o juveniles).

 Medición de relaciones:
- Cuantificar el grado de dependencia entre: peso y velocidad (correlación), o
entre fumar y practicar deporte habitualmente (asociación).
- Explicar con la curva de regresión como varía la fuerza en función del peso.

 Contrastes de hipótesis:
- Valorar la hipótesis de igualdad de medias (de fuerza, de variables físicas,
etc.) por sexos o grupos de edad en cierta población.
- Valorar la hipótesis de independencia entre variables cualitativas (por
ejemplo: ser o no fumador y practicar o no deporte de modo habitual) o entre
variables cuantitativas (p.e. peso y velocidad) en la población.

2
2.2 Conceptos básicos de muestreo y descripción de datos.

La idea básica que subyace en todos los métodos estadísticos de análisis de datos es
inferir respecto de una población por medio del estudio de una muestra relativamente
pequeña elegida de ésta, la cual se debe elegir de manera adecuada.
Vamos a precisar los conceptos asociados al muestreo estadístico:

Población: Conjunto de individuos en el que nos interesa estudiar algún rasgo o


variable. También es el conjunto de resultados o valores de la variable medido sobre
todos los individuos de la población.
En ocasiones es imposible examinar a todos los miembros de la población y podemos
analizar sólo unos pocos individuos.
Muestra: Conjunto de individuos realmente analizados. También son los resultados o
valores de la variable en esos individuos.
Tamaño poblacional: Número de individuos de la población, lo denotamos por N.
En ocasiones las poblaciones pueden ser infinitas. Un caso frecuente es el de las
poblaciones conceptuales, formadas por todos los posibles valores que pueden ser
observados al repetir un experimento sujeto a incertidumbre.
Tamaño muestral: Número de individuos de la muestra, lo denotamos por n.

Las técnicas de muestreo consisten en mecanismos para la selección de los individuos


que van a componer la muestra.
En muchas ocasiones se trabaja con muestras que no se extraen por un método aleatorio
bien definido, como las muestras de conveniencia (formadas por individuos que el
investigador tiene a mano o voluntarios), o el muestreo de cuotas (garantiza que ciertos
grupos de la población estén representados en la muestra), etc. Sin embargo, los mejores
métodos de muestreo son aquellos que utilizan algún mecanismo aleatorio para la
selección de los individuos que componen la muestra. Estos métodos pertenecen al
Muestreo Probabilístico y tienen la ventaja de que permiten acotar el posible error
asociado a toda inferencia con un grado de confianza prefijado. Los principales métodos
de muestreo probabilístico son: muestreo aleatorio simple, muestreo sistemático,
muestreo estratificado, muestreo por conglomerados y muestreo polietápico.

MUESTREO ALEATORIO SIMPLE


Se escoge de manera sucesiva y con reemplazamiento cada individuo que compondrá la
muestra, otorgando la misma probabilidad a todos los miembros de la población.
Para seleccionar muestras aleatorias simples (m.a.s.) se utilizan frecuentemente tablas
de números aleatorios, o los números pseudo-aleatorios suministrados por ordenadores
o calculadoras.
Ejemplo:
Queremos obtener una m.a.s. de tamaño 10 de 200 individuos.
Para ello primero numeramos los individuos de 1 a 200. Después generamos 10
números aleatorios entre 0 y 1 (con la calculadora: tecla RAN). Cada uno de ellos lo
multiplicamos por el tamaño poblacional N=200, calculamos su parte entera y le
sumamos 1. Así tenemos una muestra de 10 números entre 1 y 200. Por ejemplo:
1 2 3 4 5 6 7 8 9 10
u[0,1) ,1396 ,4313 ,6122 ,2908 ,1557 ,6995 ,3463 ,4456 ,0524 ,1032
200u 27,93 86,26 122,44 58,15 31,15 139,90 69,26 89,13 10,48 20,64
E(200u) 27,00 86,00 122,00 58,00 31,00 139,00 69,00 89,00 10,00 20,00
muestra 28 87 123 59 32 140 70 90 11 21

3
El muestreo aleatorio simple también se puede hacer sin reemplazamiento. Para ello,
bastaría que no aceptásemos valores repetidos.

Otra forma de elegir una m.a.s. de un cierto porcentaje de la población es la siguiente.


Supongamos que tenemos una población de 50 individuos y queremos seleccionar
aproximadamente un 20%, es decir, unos 10 individuos. Procedemos de la siguiente
forma:
- Asignamos un número aleatorio entre 0 y 1 a cada individuo.
- Por las leyes de la probabilidad el 20% de esos números serán menores que 0,20 de
forma que elegiremos en la muestra los individuos con un número aleatorio menor que
0,20. Por ejemplo:

nº nº nº nº nº
individuo aleatorio individuo aleatorio individuo aleatorio individuo aleatorio individuo aleatorio
1 0,8563 11 0,3567 21 0,8133 31 0,5365 41 0,8661
2 0,5180 12 0,2364 22 0,4648 32 0,3865 42 0,6700
3 0,2038 13 0,5873 23 0,4765 33 0,2806 43 0,9459
4 0,7707 14 0,1055 24 0,7697 34 0,0706 44 0,0522
5 0,0713 15 0,0309 25 0,4684 35 0,6340 45 0,3530
6 0,2501 16 0,9804 26 0,8768 36 0,8686 46 0,7592
7 0,1601 17 0,5642 27 0,4829 37 0,0329 47 0,1372
8 0,6711 18 0,8156 28 0,2390 38 0,0648 48 0,4034
9 0,1674 19 0,8075 29 0,6053 39 0,8288 49 0,6723
10 0,6258 20 0,3759 30 0,8769 40 0,8883 50 0,8925

Así obtenemos una m.a.s. de 9 individuos: 7, 9, 14, 15, 34, 37, 38, 44 y 47.

MUESTREO ALEATORIO SISTEMÁTICO


Es una modificación del muestreo aleatorio simple que tiene el objetivo de facilitar el
mecanismo de aleatorización. Se escoge el primer elemento de la muestra, al azar, entre
los k primeros de la población y los demás se obtienen sistemáticamente recorriendo la
población con saltos de k posiciones.
Su principal ventaja se produce cuando los elementos de la población aparecen
ordenados de forma natural (niños en una fila, árboles en hileras, clientes en un listado,
etc.). El inconveniente es que pueda haber periodicidades en la población, de forma que
coincidan con las mismas características todos los individuos que se encuentran a k
posiciones de distancia en la lista.

Ejemplo:
Queremos obtener una muestra de tamaño 52 de la recaudación diaria de un cine durante
el año 2002 (N=365 días).
Para ello primero dividimos 365/52= 7. Después elegimos aleatoriamente un valor entre
1 y 7, por ejemplo 6 y sumamos siempre 7 días: 6, 6+7=13, 13+7=20, 20+7=27, etc. En
este caso, al valer k=7 y ser el 1 de enero del 2002 un martes, la muestra consiste en las
recaudaciones de todos los domingos del año y esto producirá un gran sesgo en las
estimaciones que se obtengan con esta muestra.

4
MUESTREO ESTRATIFICADO
En ciertas ocasiones puede existir alguna información que es conocida antes de la
extracción de la muestra y que está muy relacionada con la característica de interés. Se
llama estrato a todos los miembros de la población que presentan una misma propiedad
(relacionada con la característica de interés). Por ejemplo, si queremos estudiar la altura
de los individuos de una provincia, puede ocurrir que esté muy relacionada con el sexo.
Los estratos son dos: el conjunto de hombres y el de mujeres.
El procedimiento consiste en extraer muestras de forma separada para cada estrato. El
tamaño muestral total se reparte previamente entre los estratos. Después, dentro de cada
estrato, se escogen al azar los individuos que formarán parte de la muestra. Notemos
que, de esta forma, todos los estratos están representados en la muestra. El objetivo es
alcanzar una mayor eficiencia estadística con un menor coste.
La forma de repartir el tamaño muestral entre los estratos se denomina afijación y
puede ser:
Constante: Otorga el mismo tamaño muestral a todos los estratos.
Proporcional: Proporcionalmente al tamaño del estrato.
Óptima: Tiene en cuenta también la variabilidad de la característica de interés en cada
estrato.

Ejemplo:
Queremos estudiar la altura de los alumnos de una clase, teniendo en cuenta el sexo. En
la clase hay 200 alumnos, 150 varones y 50 mujeres. El tamaño muestral es de 20
alumnos.
El reparto constante consistiría en tomar 10 varones y 10 mujeres para la muestra. El
reparto proporcional consistiría en tomar 15 varones y 5 mujeres para la muestra.

MUESTREO POR CONGLOMERADOS


En muchas ocasiones, los individuos de la población se encuentran agrupados de modo
natural, de forma que dicha agrupación debe ser tenida en cuenta si pretendemos acceder
a ellos. Por ejemplo, los niños se encuentran en los colegios, la población general habita
ciudades y pueblos. Los árboles están en parcelas y montes.

Una técnica de muestreo aleatorio simple podría escoger muchos individuos muy
distantes entre sí, haciendo inviable la obtención práctica de la muestra. El muestreo por
conglomerados se plantea por la viabilidad y la reducción de coste.
Llamamos conglomerado a cada grupo de individuos a los que accedemos de forma
conjunta. Por ejemplo, cada colegio es un conglomerado, o cada ciudad. Para que no
disminuya la precisión, se procurará:
- heterogeneidad dentro de cada conglomerado,
- homogeneidad entre los distintos conglomerados.
El procedimiento de muestreo consiste en escoger aleatoriamente los conglomerados a
los que vamos a acudir y después, dentro de cada conglomerado, se toman todos los
individuos o bien se selecciona una muestra de los mismos.
La diferencia fundamental con el muestreo estratificado es que los conglomerados deben
ser muy parecidos entre sí y, al mismo tiempo, cada conglomerado debe ser muy
heterogéneo interiormente, de forma que represente a toda la población. Así se evitará
que la selección de sólo unos pocos conglomerados para la muestra perjudique la
eficiencia estadística.

5
MUESTREO POLIETÁPICO
En muchas ocasiones, sobre todo cuando la población es muy grande y heterogénea, los
tipos de muestreo descritos anteriormente se combinan dando lugar a un muestreo más
complejo que consta de varias etapas. Desde la población se va descendiendo a unidades
de individuos de menor entidad, generalmente mediante muestreo por conglomerados y
estratificado, hasta llegar, después de cierto número de etapas a los individuos que
forman la muestra.

El muestreo aleatorio simple es el método de muestreo básico y más importante. Por


ello, cuando de ahora en adelante hablemos de muestra, supondremos que se trata de
una muestra aleatoria simple (m.a.s.)

Como parece lógico, el tamaño de una muestra tiene una gran relación con el error que
se comete al inferir con ella respecto a la población, de forma que a mayor tamaño
muestral, n, menor error E se comete. Sin embargo, la relación entre n y E no es lineal y
además, las variaciones en el muestreo llevarán a que no todas las muestras del mismo
tamaño produzcan el mismo error. En temas posteriores veremos los fundamentos de las
fórmulas que proporcionan el tamaño muestral necesario para hacer ciertas inferencias.
Pero ahora adelantamos que, con una confianza del 95,5% (Z=2) y un error máximo de
E en la estimación de una proporción poblacional (por ejemplo, proporción de
fumadores entre los universitarios) si usamos m.a.s. necesitaremos:
n  Z 2 / 4E 2 elementos en la muestra, en el caso de una población infinita o
n
n elementos en la muestra, cuando la población es de tamaño N.
n
1
N
Ejemplo. En un centro con 1000 alumnos matriculados, ¿qué tamaño muestral se
necesita para estimar la proporción de fumadores con un error inferior al 0,05 y un
95,5% de confianza?
Paso 1) n =1/0,052 = 400
400
Paso 2) Calculamos n   285,7. La muestra será de 286 alumnos.
400
1
1000

TIPOS DE DATOS O VARIABLES:


Las propiedades, rasgos o cualidades que observamos o medimos en los elementos de
una muestra (o población) se denominan VARIABLES. Pueden ser:

- Cualitativas o ATRIBUTOS (datos categóricos):


o Se describen con palabras
o Las distintas situaciones que presenta se llaman MODALIDADES
o Si las modalidades se pueden ordenar el atributo es ORDINAL

- Cuantitativas o NUMÉRICAS: se describen mediante números o VALORES.


Hay dos tipos:

- Variables DISCRETAS: los valores son números enteros. No siempre se


admite un valor intermedio entre dos valores dados

6
- Variables CONTINUAS: los valores son números reales. Siempre se
admite un valor intermedio entre dos valores dados

2.3 Tablas de frecuencias y representaciones gráficas.

NOTACIÓN: Variable: X
Un valor o modalidad de la variable: xi
Número de elementos o individuos en estudio (muestra): n (TAMAÑO)

FRECUENCIAS:

- FRECUENCIA ABSOLUTA de xi: número de elementos que presentan el valor


xi. Se representa con ni.

- FRECUENCIA RELATIVA de xi: proporción de elementos que presentan el


valor xi. Se representa con fi= ni/n. Se puede multiplicar por 100% para dar el
porcentaje en lugar de la proporción.

- FRECUENCIA ABSOLUTA ACUMULADA de xi: número de elementos que


presentan un valor menor o igual a xi. Sólo tiene sentido cuando la variable se
puede ordenar. Se representa con Ni= n1+n2+…+ ni.

- FRECUENCIA RELATIVA ACUMULADA de xi: proporción de elementos que


presentan un valor menor o igual a xi. Sólo tiene sentido cuando la variable se
puede ordenar.
Se puede multiplicar por 100% para dar el porcentaje en lugar de la proporción.
Se representa con Fi= Ni/n = f1+f2+…+ fi.

Se llama DISTRIBUCIÓN DE FRECUENCIAS al conjunto de modalidades o valores


de una variable junto a las frecuencias correspondientes a dichos valores.
Las distribuciones de frecuencias se presentan de forma ordenada mediante las tablas
estadísticas o TABLAS DE FRECUENCIAS.
Su forma general es la siguiente:

xi ni fi Ni Fi
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
. . . . .
. . . . .
xk nk fk Nk=n Fk=1
TOTAL: n 1

Nota: Si X se puede ordenar los valores xi (distintos) se colocan ordenados de menor a


mayor; sólo en este caso tiene sentido calcular las frecuencias acumuladas.

7
TABLAS DE FRECUENCIAS AGRUPADAS

Cuando la variable X presenta muchos valores diferentes (generalmente cuando la


variable es continua) los valores se suelen agrupar en intervalos denominados
intervalos de clase. Para cada intervalo se definen:

- Los extremos del intervalo: [Li-1 , Li )


- El punto medio o marca de clase: ci= (Li-1 +Li)/2
- La amplitud del intervalo: ai = Li - Li-1
- La altura o densidad del intervalo: hi=ni / ai .

Una tabla de frecuencias agrupadas presenta la siguiente forma:

[Li-1 , Li ) ci ni fi Ni Fi ai hi
[L0 , L1 ) c1 n1 f1 N1 F1 a1 h1
[L1 , L2 ) c2 n2 f2 N2 F2 a2 h2
. . . . . . . .
. . . . . . . .
[Lk-1 , Lk] ck nk fk Nk=n Fk=1 ak hk
n 1

Importante: El número de intervalos y su tamaño debe resultar de un compromiso entre


la precisión de la información y la sencillez en la exposición de los datos. Un criterio
bastante usado, cuando n no es muy grande, es elegir un número próximo a n
intervalos.

REPRESENTACIONES GRÁFICAS:

1. PARA VARIABLES CUALITATIVAS:

- DIAGRAMA DE SECTORES:
Se divide un círculo en tantas porciones como modalidades existan, de modo que el
arco de cada porción i sea proporcional a la frecuencia de la modalidad que
representa. El arco i de cada sector se calcula por la regla de tres:
n  360º
ni  i

- DIAGRAMA DE RECTÁNGULOS:
En el eje de abcisas se escriben las modalidades y para cada una se levanta un
rectángulo cuya altura sea igual a la frecuencia absoluta o relativa de dicha
modalidad. Todos los rectángulos deben tener la misma base.

- PICTOGRAMA:
Similar al diagrama de rectángulos, pero en lugar de un rectángulo se representa un
dibujo alusivo a la variable en estudio.

8
PARA VARIABLES DISCRETAS (NO AGRUPADAS):

- DIAGRAMA DE BARRAS:
En el eje de abcisas se marcan los valores de la variable y encima de cada uno de
ellos se levanta una barra con altura igual a la frecuencia absoluta o relativa de ese
valor.

- DIAGRAMA EN ESCALERA:
Resulta de representar los valores de la variable en el eje de abcisas y sus
frecuencias acumuladas (absolutas o relativas) en el de ordenadas, uniéndolas de
forma que la representación resulte en forma de escalera.

2. PARA VARIABLES CONTINUAS (AGRUPADAS):

- HISTOGRAMA:
Es una unión de rectángulos cuyas bases son los intervalos de clase y cuya área es la
frecuencia (absoluta o relativa) del intervalo. El área total del histograma es el total
de individuos, n o el 100%.

- POLÍGONO DE FRECUENCIAS:
Es la línea poligonal que resulta de unir las alturas correspondientes a las marcas de
clase en un histograma.

- POLÍGONO DE FRECUENCIAS ACUMULADO:


Se obtiene representando los intervalos de clase en el eje de abcisas, sus frecuencias
acumuladas (absolutas o relativas) en el de ordenadas y uniéndolas de forma que
muestren la línea poligonal ascendente de dichas frecuencias acumuladas.

2.4 Medidas descriptivas: de posición, dispersión y forma


Son números que resumen o condensan, de forma clara y concisa, la información
recogida en la tabla de frecuencias.
Si se calculan con las observaciones de toda la población se llaman parámetros.
Si se calculan con las observaciones de una muestra se llaman estadísticos.

CLASIFICACIÓN:
Atendiendo a las características que estudian en la distribución de frecuencias, las
medidas descriptivas se clasifican en:

1. MEDIDAS DE POSICIÓN:
- de tendencia central
- de tendencia no central

1. MEDIDAS DE DISPERSIÓN

2. MEDIDAS DE FORMA:
- de asimetría
- de apuntamiento o curtosis

9
Estudiaremos las siguientes medidas:

MEDIDAS DE POSICIÓN
De tendencia central:
- Media (aritmética y ponderada)
- Mediana
- Moda
De tendencia no central o cuantiles:
- Percentiles
- Cuartiles
- Deciles

MEDIDAS DE DISPERSIÓN

- Rango o Recorrido
- Rango intercuartílico
- Varianza
- Desviación típica
- Coeficiente de variación

MEDIDAS DE FORMA

- Coeficiente de asimetría de Pearson


- Coeficiente de asimetría de Fisher
- Coeficiente de apuntamiento (o curtosis) de Fisher

MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL

LA MEDIA

La media más utilizada es la MEDIA ARITMÉTICA. Se calcula sumando todas las


observaciones de la muestra (total de la variable) y dividiendo por el total de individuos,
es decir:

1 k
x  xi ni
n i 1
NOTA: Cuando las observaciones no están ordenadas en la tabla de frecuencias, sino
que se trabaja directamente con los n valores muestrales sin ordenar hay que tener en
cuenta que los ni  1 .

PROPIEDADES DE LA MEDIA:
1. Se verifica que i xi  x ni  0 . Es decir, la media es el centro de gravedad de
la distribución de frecuencias.
Se verifica que minaR i xi  a  ni se alcanza en a  x . (Mínimos cuadrados)
2
2.
3. Si Y=a+bX, donde a y b son números reales, entonces y  a  bx . (Linealidad)

10
VENTAJAS E INCONVENIENTES DE LA MEDIA:

Ventajas:
 Es fácil de calcular e interpretar.
 Utiliza todos los valores de la distribución de frecuencias.
 Presenta muy buenas propiedades matemáticas que la hacen ideal para su
uso en Inferencia Estadística.

Inconvenientes:
 Es muy sensible a valores extremos de la variable (poco ROBUSTA).
 En variables discretas, la media puede no ser un valor admisible de la
variable.

En ocasiones resulta conveniente utilizar otros tipos de medias (geométrica, armónica,


cuadrática,…).

Una MEDIA PONDERADA por los pesos o ponderaciones w se define de la forma:

x w i i
x i 1
k

w
i 1
i

Se utiliza cuando unas observaciones tienen más importancia que otras. A mayor
importancia de una observación mayor peso o ponderación le corresponde.

LA MEDIANA

Sea X una variable cuyas observaciones han sido ordenadas de menor a mayor. Se
define la MEDIANA de X como el valor de la variable que verifica que un 50% de
observaciones son menores o iguales que ella y el otro 50% son mayores o iguales que
ella. Se denota Me.
Cuando los datos están ordenados en una tabla de frecuencias, la Me es el valor x i
correspondiente a la primera Fi mayor o igual que 0,5=50%. En los casos que se verifica
la igualdad, se suele hacer la media aritmética entre ese valor de xi y el siguiente.
Si la distribución de frecuencias está agrupada en intervalos y se representa mediante un
histograma, la Me divide al histograma en dos partes de igual área.

PROPIEDADES DE LA MEDIANA:
1. Si Y=a+bX entonces Me(Y)=a+bMe(X). (Linealidad).
2. Se verifica que minaR i xi  a ni se alcanza en a  Me .

VENTAJAS E INCONVENIENTES DE LA MEDIANA:

Ventajas:
 Es fácil de calcular e interpretar.
 En variables discretas, la mediana es un valor de la variable.

11
 Es poco sensible a valores extremos de la variable (es ROBUSTA) y por ello
resulta una buena alternativa cuando la media se ve afectada por valores
extremos.

Inconvenientes:
 No utiliza todos los valores de la distribución de frecuencias sino más bien
su orden.
 Sus propiedades matemáticas son complicadas y por ello se usa poco en
Inferencia Estadística.

LA MODA

La MODA es el valor de la variable que presenta mayor frecuencia.


Puede no ser única, en cuyo caso se habla de distribuciones bimodales, trimodales,
multimodades.

Cuando la distribución de frecuencias está agrupada y se representa mediante un


histograma, se denomina moda a un pico o máximo local. En algunos casos, un
histograma bimodal indica que la muestra se puede dividir en dos submuestras que son
distintas entre sí, en alguna manera científica. A cada muestra corresponde una de las
modas.

VENTAJAS E INCONVENIENTES DE LA MODA:

 Es fácil de calcular e interpretar.


 En variables nominales, la moda es la única medida de posición que se puede
calcular.
 Aunque la moda es el valor que más veces se repite, es decir que el grupo
más numeroso de individuos toma ese valor, ese número de individuos es en
ocasiones bajo y poco representativo de lo que ocurre en la población.

RELACIONES ENTRE MEDIA, MEDIANA Y MODA:

En el caso de distribuciones unimodales la mediana suele estar comprendida entre la


media y la moda.
En distribuciones con cierta inclinación (presencia de valores extremos hacia un único
lado) es más aconsejable el uso de la mediana, pero en estudios de inferencia se suele
usar más la media.

MEDIDAS DE POSICIÓN NO CENTRALES O CUANTILES

PERCENTILES

Para una variable X cuyas observaciones han sido ordenadas de menor a mayor se
define el percentil de orden k como el valor xi de la variable que verifica que el k% de
las observaciones son menores o iguales que él y el (100-k)% de las observaciones son
mayores o iguales que ese percentil. Se denota pk.
Hay 99 percentiles, los correspondientes a k=1,2,3,…,99. La mediana es el p50.

12
Para calcular pk se busca la primera frecuencia acumulada Fi mayor o igual que k/100 y
el xi correspondiente es pk. En caso de igualdad se suele calcular una media ponderada
de xi con el valor siguiente.
Cuando los datos están agrupados en intervalos, geométricamente pk divide al
histograma en dos partes: la parte izquierda de área k/100 y la parte derecha con área
(100-k)/100.

CUARTILES
Hay tres cuartiles que son:
q1 = p25
q2 = p50 = Me
q3 = p75
Los tres cuartiles dividen la distribución de frecuencias en cuatro partes de igual
frecuencia (con un 25% cada parte).

Con los cuartiles se hace un gráfico denominado DIAGRAMA DE CAJA cuya forma
es:

o o

LI q1 Me q3 LS

Donde: LI =menor valor xi mayor que q1-1.5 (q3- q1)


LS =mayor valor xi menor que q3+1.5 (q3- q1)

Los valores fuera del intervalo (q1-1.5 (q3- q1) , q3+1.5 (q3- q1) ) se denominan puntos
atípicos (outliers)

DECILES

Hay nueve deciles que son:


d1=p10 , d2=p20 , ..., d5= p50 = Me, ... , d9 = p90 .

Los nueve deciles dividen la distribución de frecuencias en diez partes de igual


frecuencia (con un 10% cada parte).

MEDIDAS DE DISPERSIÓN

Estas medidas nos indican si los valores de la variable que hemos observado están muy
próximos entre sí o por el contrario están muy separados. Cuando están próximos se
habla de poca dispersión o poca variabilidad en la variable o también de homogeneidad
de la distribución. Cuando los valores están separados se habla de mucha dispersión o
variabilidad o también de heterogeneidad.

RANGO O RECORRIDO
Se define Re = xmax – xmin,
siendo xmin el menor valor del la variable y xmax el mayor.

13
Es fácil de calcular e interpretar, pero tiene el inconveniente de que sólo utiliza dos
valores de la variable y de que se puede ver muy afectado por valores extremos.

RANGO O RECORRIDO INTERCUARTÍLICO


Se define como Req= q3 – q1
Corresponde a la longitud del intervalo donde se sitúan el 50% de valores centrales.

VARIANZA
La varianza se define como la media de las desviaciones cuadráticas de las
observaciones con respecto a su media aritmética, es decir

1 k
S X2   xi  x 2 ni
n i 1

Es una medida de dispersión de los datos respecto a su media. Cuanto más pequeña es la
varianza más agrupados están los valores entorno a su media y por tanto mejor
representa la media al conjunto de los datos observados.

PROPIEDADES DE LA VARIANZA:

1. La siguiente igualdad resulta cómoda a efectos de cálculo:


1 
S 2    xi2 ni   x 2
n i 
2. Si Y=a+bX, con a y b números reales, entonces SY2  b 2 S X2

En ocasiones se llama varianza a la cuasivarianza que es

1 k
ˆ
S 
2
 xi  x 2 ni
n  1 i 1

Es evidente que nS 2  n  1Sˆ 2 . En general, la cuasivarianza es más utilizada que la


varinza muestral a efectos de inferencias.

DESVIACIÓN TÍPICA

Las unidades de la varianza son las unidades de la variable al cuadrado y su


interpretación no resulta intuitiva, por ello se define la DESVIACIÓN TÍPICA como la
raíz cuadrada de la varianza.
S   S2
Cuando la desviación típica es pequeña, hay poca dispersión alrededor de la media y
ésta es una medida representativa de la variable.
En principio, una desviación típica mayor o igual que la media indica mucha dispersión
y poca representatividad de la media.

En ocasiones se llama desviación típica a la cuasidesviación típica o desviación


corregida que es Sˆ   Sˆ 2 .

14
PROPIEDADES DE LA DESVIACIÓN TÍPICA:

1. Si Y=a+bX, con a y b números reales, entonces SY  b S X .


2. n S  n  1 Sˆ
3. El intervalo x  2S , x  2S  contiene al menos el 75% de las observaciones.
El intervalo x  3S , x  3S  contiene al menos el 88% de las observaciones.
En general, se puede probar que el intervalo x  kS, x  kS  contiene al menos
el (1-1/k2).100 % de las observaciones.

Se llama TIPIFICACIÓN al proceso de restar la media y dividir por la desviación


típica a una variable X. Así se obtiene una nueva variable ZX que se llama variable
tipificada:
X x
ZX 
SX

Las variables tipificadas son adimensionales, tienen media 0 y varianza 1, y permiten


comparar valores de individuos entre distintas distribuciones.

COEFICIENTE DE VARIACIÓN

Se define como el cociente de la desviación típica entre la media, es decir

SX
CV 
x

Se trata de una medida adimensional que tiene en cuenta la proporción existente entre la
media y la desviación típica, y por ello se suele usar para comparar la variabilidad entre
distintas distribuciones de datos.
Siempre toma valores positivos; cuanto más cercanos a 0 menor dispersión. En general,
valores del CV mayores que 1 indican mucha dispersión.

Nota: El CV sólo tiene sentido para variables positivas, las cuales garantizan que su
media es estrictamente positiva.

MEDIDAS DE FORMA

COEFICIENTES DE ASIMETRÍA

Estas medidas nos indican si una distribución de frecuencias es simétrica ó, si no lo es,


qué grado de asimetría presenta.

Diremos que una distribución de frecuencias es simétrica respecto a un número x si a


cada valor de la variable a la derecha de x le corresponde un valor equidistante a la
izquierda de x y, además, ambos valores tienen la misma frecuencia. Gráficamente, el
lado derecho de la distribución (partiendo de x) es la imagen por un espejo del lado
izquierdo.

15
La falta de simetría se debe a la existencia de valores más extremos por un único lado de
la distribución. Así, distinguiremos entre:
- Asimetría a la derecha o positiva, cuando los valores extremos están a la derecha
(son altos) y hay una cola larga a la derecha de la distribución de frecuencias.
- Asimetría a la izquierda o negativa, cuando los valores extremos están a la
izquierda (son bajos) y hay una cola larga a la izquierda de la distribución de
frecuencias.

Respecto a las medidas de posición, es claro que en distribuciones simétricas y


unimodales media, mediana y moda coinciden; mientras que en las distribuciones
asimétricas la media se desplaza: a la derecha de la mediana (asimetría positiva), o a la
izquierda de la mediana (asimetría negativa).

Existen distintos coeficientes o índices de asimetría, pero todos son adimensionales y se


interpretan igual.

INTERPRETACIÓN:
 Si el coeficiente de asimetría es 0 la distribución es (prácticamente) simétrica.
 Si el coeficiente de asimetría es mayor que 0 la distribución tiene asimetría
positiva. A mayor valor del coeficiente mayor grado de asimetría.
 Si el coeficiente de asimetría es menor que 0 la distribución tiene asimetría
negativa. A mayor valor absoluto del coeficiente mayor grado de asimetría.

COEFICIENTE DE ASIMETRÍA DE FISHER

Es el más utilizado. Su fórmula es:

m3 1
g1 
S X3
siendo m3  
n i
( x i  x ) 3 ni

COEFICIENTE DE ASIMETRÍA DE PEARSON

Solo puede calcularse para distribuciones unimodales. Es muy sencillo y viene dado por
x  Mo
g1 
SX

COEFICIENTES DE APUNTAMIENTO O CURTOSIS

El apuntamiento o curtosis de una distribución de frecuencias hace referencia a su altura


en la zona central.
Para medirlo se utiliza el coeficiente de apuntamiento de Fisher, dado por:

m4 1
g2  4
 3 siendo m4   ( xi  x ) 4 ni
SX n i

Esta medida es adimensional y compara el apuntamiento de una distribución de


frecuencias con el apuntamiento de una distribución de referencia que se denomina
Normal o Gaussiana.

16
INTERPRETACIÓN:

 Si g2>0, la distribución de frecuencias es más apuntada que la Normal y se llama


leptocúrtica.
 Si g2=0, la distribución de frecuencias tiene un apuntamiento similar al de la curva
Normal y se llama mesocúrtica.
 Si g2<0, la distribución de frecuencias es más aplastada que la Normal y se llama
platicúrtica.

Es frecuente que la presencia de observaciones atípicas produzca una alta curtosis.

EJEMPLO.

Una muestra de alumnos de CCAFD arroja los siguientes datos:

Código Nota entrada


Sexo Edad
alumno universidad
1 Hombre 21 7,9
2 Hombre 19 5,9
3 Hombre 19 6,4
4 Mujer 20 6,2
5 Mujer 19 7,5
6 Hombre 19 5,5
7 Hombre 20 7,6
8 Hombre 21 6,8
9 Hombre 19 5,9
10 Hombre 19 5,1

a) Realiza un resumen descriptivo y gráfico de las variables Sexo, Edad y Nota de


entrada en la Universidad. Interpreta los resultados.

1. Tabla de frecuencias y diagrama de sectores de Sexo:

Sexo ni fi
Hombre 8 0,8
Mujer 2 0,2
Total 10 1

Interpretación: En esta muestra de 10 estudiantes hay un 80% de hombres y un 20% de


mujeres. Por tanto, la moda o categoría más frecuente del Sexo es hombre.

17
2. Diagrama de barras y medidas descriptivas de la Edad:

xi (Edad) ni fi Ni Fi xi ni xi2 ni
19 6 0,6 6 0,6 114 2166
20 2 0,2 8 0,8 40 800
21 2 0,2 10 1 42 882
Total 10 196 3848

Media:
Mediana: Me=19 años, valor correspondiente a la primera Fi mayor que 0,5=50%.
Moda: Mo=19 años, valor con mayor frecuencia.
Cuartiles: q1=19 años (primera Fi mayor que 0,25), q2=Me=19 años y q3=20 años
(primera Fi mayor que 0,75).
Varianza:
Desviación típica:
Coeficiente de variación:
Asimetría:

Interpretación: La Edad, en esta muestra de 10 estudiantes, oscila entre 19 y 21 años,


siendo 19 años la edad más frecuente con más de la mitad de los alumnos en dicha edad.
La media es de 19,6 años con una desviación típica de 0,8 años, lo cual representa una
dispersión pequeña de un 4%. Existe asimetría a la derecha lo que indica más dispersión
en las edades superiores y más agrupamiento en edades bajas.

2. Histograma y medidas descriptivas de la Nota de entrada en la Universidad:

Tabla de datos agrupada en intervalos:

Nota
entrada ni
[5,6) 4
[6,7) 3
[7,8) 3
[8,9) 0
[9,10] 0

18
Las medidas descriptivas se hacen con los datos originales, sin agrupar.

Media:
Mediana: Me=(6,2+6,4)/2=6,3 puntos, valor correspondiente al promedio entre las dos
notas centrales (ordenadas).
Moda: Mo=5,9 puntos, valor con mayor frecuencia en los datos desagrupados. Es más
aconsejable indicar el intervalo de mayor altura del histograma, que en este caso sería el
de puntuaciones entre 5 y 6.
Cuartiles: q1=5,9 puntos (primera Fi mayor que 0,25), q2=Me=6,25 puntos y q3=7,5
puntos (primera Fi mayor que 0,75), donde Fi toma los siguientes valores:
xi: 5,1 5,5 5,9 6,2 6,4 6,8 7,5 7,6 7,9
ni: 1 1 2 1 1 1 1 1 1
Ni: 1 2 4 5 6 7 8 9 10
Fi: 0,1 0,2 0,4 0,5 0,6 0,7 0,8 0,9 1

Varianza:
También se puede calcular de la siguiente forma:

.
Desviación típica:
Coeficiente de variación:

Asimetría: ,

Curtosis:

Interpretación: La Nota de entrada en la Universidad, en esta muestra de 10


estudiantes, oscila entre 5,1 y 7,9 puntos, con una media de 6,48 puntos y una
desviación típica de 0,89 puntos, lo cual representa una dispersión de un 13,8% (baja).
La mayor parte de los alumnos obtienen notas entre 5 y 6, estando la mitad por encima
de los 6,25 puntos. Comparando la distribución de notas con la curva normal se observa
una ligera asimetría positiva o cola hacia la derecha (las notas más altas están menos
agrupadas) y un apuntamiento inferior al normal.

19

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy