Tema 2 MIE
Tema 2 MIE
Tema 2 MIE
1) La formulación de hipótesis que expliquen hechos del mundo que nos rodea,
2) La toma de observaciones que apoyen o validen esas hipótesis,
3) La confrontación de las observaciones con las consecuencias deducibles de las
hipótesis postuladas, que llevan a la aceptación o rechazo de las hipótesis.
En general, el proceso no termina con la aceptación (provisional) o el rechazo de las
hipótesis, sino que la confrontación conduce a hipótesis modificadas, de las cuales se
deducen consecuencias que deberán verificarse con nuevas observaciones.
El papel de la Estadística en los tres aspectos del Método Científico es muy destacado:
1) Formulación de hipótesis. Es la parte más difícil del trabajo científico y requiere gran
habilidad. En algunas ocasiones las técnicas de la Estadística Descriptiva pueden sugerir
hipótesis apropiadas.
1
se utilizará la Estadística Descriptiva. La segunda y más importante parte del análisis,
que se apoya en la primera, tiene por objeto tratar de generalizar esos aspectos
relevantes de la información y examinar su compatibilidad con las consecuencias de las
hipótesis postuladas. Puesto que la información será incompleta o reflejará la
variabilidad del fenómeno que se observa, la generalización irá acompañada de un grado
de incertidumbre que es cuantificable en términos de probabilidad. Este es el área de
interés de la Inferencia Estadística.
Así pues, la Estadística proporciona una serie de procedimientos para actuar en cada uno
de los pasos de la investigación científica, que son de carácter completamente general y
aplicables en cualquier campo de la ciencia. Además, la Inferencia Estadística posibilita
la inducción incompleta o científica, permitiendo evaluar la conformidad de la
información observada con los modelos teóricos propuestos para explicar la realidad.
Por todo ello, se ha descrito la Estadística como la tecnología o herramienta del Método
Científico.
Descripción de datos:
- Describir el comportamiento de variables antropométricas, de fuerza,
velocidad, etc. en un grupo de deportistas.
- Obtener valoraciones de las mismas mediante percentiles.
Análisis de muestras:
- Elegir el tamaño y método de muestreo aleatorio para seleccionar muestras de
una población y garantizar estimaciones con cierta precisión estadística.
- Estimar medias y desviaciones (de edad, peso, talla, %grasa, puntuación enun
test,...) y proporciones (de fumadores, de estudiantes que trabajan, ...) de la
población a partir de datos muestrales.
Comparación de grupos:
- Comparar medias y desviaciones de las variables en distintos grupos. Por
ejemplo ver si las medias o desviaciones de una fuerza son iguales en
hombres que en mujeres, o entre distintas categorías de edad (infantiles,
cadetes o juveniles).
Medición de relaciones:
- Cuantificar el grado de dependencia entre: peso y velocidad (correlación), o
entre fumar y practicar deporte habitualmente (asociación).
- Explicar con la curva de regresión como varía la fuerza en función del peso.
Contrastes de hipótesis:
- Valorar la hipótesis de igualdad de medias (de fuerza, de variables físicas,
etc.) por sexos o grupos de edad en cierta población.
- Valorar la hipótesis de independencia entre variables cualitativas (por
ejemplo: ser o no fumador y practicar o no deporte de modo habitual) o entre
variables cuantitativas (p.e. peso y velocidad) en la población.
2
2.2 Conceptos básicos de muestreo y descripción de datos.
La idea básica que subyace en todos los métodos estadísticos de análisis de datos es
inferir respecto de una población por medio del estudio de una muestra relativamente
pequeña elegida de ésta, la cual se debe elegir de manera adecuada.
Vamos a precisar los conceptos asociados al muestreo estadístico:
3
El muestreo aleatorio simple también se puede hacer sin reemplazamiento. Para ello,
bastaría que no aceptásemos valores repetidos.
nº nº nº nº nº
individuo aleatorio individuo aleatorio individuo aleatorio individuo aleatorio individuo aleatorio
1 0,8563 11 0,3567 21 0,8133 31 0,5365 41 0,8661
2 0,5180 12 0,2364 22 0,4648 32 0,3865 42 0,6700
3 0,2038 13 0,5873 23 0,4765 33 0,2806 43 0,9459
4 0,7707 14 0,1055 24 0,7697 34 0,0706 44 0,0522
5 0,0713 15 0,0309 25 0,4684 35 0,6340 45 0,3530
6 0,2501 16 0,9804 26 0,8768 36 0,8686 46 0,7592
7 0,1601 17 0,5642 27 0,4829 37 0,0329 47 0,1372
8 0,6711 18 0,8156 28 0,2390 38 0,0648 48 0,4034
9 0,1674 19 0,8075 29 0,6053 39 0,8288 49 0,6723
10 0,6258 20 0,3759 30 0,8769 40 0,8883 50 0,8925
Así obtenemos una m.a.s. de 9 individuos: 7, 9, 14, 15, 34, 37, 38, 44 y 47.
Ejemplo:
Queremos obtener una muestra de tamaño 52 de la recaudación diaria de un cine durante
el año 2002 (N=365 días).
Para ello primero dividimos 365/52= 7. Después elegimos aleatoriamente un valor entre
1 y 7, por ejemplo 6 y sumamos siempre 7 días: 6, 6+7=13, 13+7=20, 20+7=27, etc. En
este caso, al valer k=7 y ser el 1 de enero del 2002 un martes, la muestra consiste en las
recaudaciones de todos los domingos del año y esto producirá un gran sesgo en las
estimaciones que se obtengan con esta muestra.
4
MUESTREO ESTRATIFICADO
En ciertas ocasiones puede existir alguna información que es conocida antes de la
extracción de la muestra y que está muy relacionada con la característica de interés. Se
llama estrato a todos los miembros de la población que presentan una misma propiedad
(relacionada con la característica de interés). Por ejemplo, si queremos estudiar la altura
de los individuos de una provincia, puede ocurrir que esté muy relacionada con el sexo.
Los estratos son dos: el conjunto de hombres y el de mujeres.
El procedimiento consiste en extraer muestras de forma separada para cada estrato. El
tamaño muestral total se reparte previamente entre los estratos. Después, dentro de cada
estrato, se escogen al azar los individuos que formarán parte de la muestra. Notemos
que, de esta forma, todos los estratos están representados en la muestra. El objetivo es
alcanzar una mayor eficiencia estadística con un menor coste.
La forma de repartir el tamaño muestral entre los estratos se denomina afijación y
puede ser:
Constante: Otorga el mismo tamaño muestral a todos los estratos.
Proporcional: Proporcionalmente al tamaño del estrato.
Óptima: Tiene en cuenta también la variabilidad de la característica de interés en cada
estrato.
Ejemplo:
Queremos estudiar la altura de los alumnos de una clase, teniendo en cuenta el sexo. En
la clase hay 200 alumnos, 150 varones y 50 mujeres. El tamaño muestral es de 20
alumnos.
El reparto constante consistiría en tomar 10 varones y 10 mujeres para la muestra. El
reparto proporcional consistiría en tomar 15 varones y 5 mujeres para la muestra.
Una técnica de muestreo aleatorio simple podría escoger muchos individuos muy
distantes entre sí, haciendo inviable la obtención práctica de la muestra. El muestreo por
conglomerados se plantea por la viabilidad y la reducción de coste.
Llamamos conglomerado a cada grupo de individuos a los que accedemos de forma
conjunta. Por ejemplo, cada colegio es un conglomerado, o cada ciudad. Para que no
disminuya la precisión, se procurará:
- heterogeneidad dentro de cada conglomerado,
- homogeneidad entre los distintos conglomerados.
El procedimiento de muestreo consiste en escoger aleatoriamente los conglomerados a
los que vamos a acudir y después, dentro de cada conglomerado, se toman todos los
individuos o bien se selecciona una muestra de los mismos.
La diferencia fundamental con el muestreo estratificado es que los conglomerados deben
ser muy parecidos entre sí y, al mismo tiempo, cada conglomerado debe ser muy
heterogéneo interiormente, de forma que represente a toda la población. Así se evitará
que la selección de sólo unos pocos conglomerados para la muestra perjudique la
eficiencia estadística.
5
MUESTREO POLIETÁPICO
En muchas ocasiones, sobre todo cuando la población es muy grande y heterogénea, los
tipos de muestreo descritos anteriormente se combinan dando lugar a un muestreo más
complejo que consta de varias etapas. Desde la población se va descendiendo a unidades
de individuos de menor entidad, generalmente mediante muestreo por conglomerados y
estratificado, hasta llegar, después de cierto número de etapas a los individuos que
forman la muestra.
Como parece lógico, el tamaño de una muestra tiene una gran relación con el error que
se comete al inferir con ella respecto a la población, de forma que a mayor tamaño
muestral, n, menor error E se comete. Sin embargo, la relación entre n y E no es lineal y
además, las variaciones en el muestreo llevarán a que no todas las muestras del mismo
tamaño produzcan el mismo error. En temas posteriores veremos los fundamentos de las
fórmulas que proporcionan el tamaño muestral necesario para hacer ciertas inferencias.
Pero ahora adelantamos que, con una confianza del 95,5% (Z=2) y un error máximo de
E en la estimación de una proporción poblacional (por ejemplo, proporción de
fumadores entre los universitarios) si usamos m.a.s. necesitaremos:
n Z 2 / 4E 2 elementos en la muestra, en el caso de una población infinita o
n
n elementos en la muestra, cuando la población es de tamaño N.
n
1
N
Ejemplo. En un centro con 1000 alumnos matriculados, ¿qué tamaño muestral se
necesita para estimar la proporción de fumadores con un error inferior al 0,05 y un
95,5% de confianza?
Paso 1) n =1/0,052 = 400
400
Paso 2) Calculamos n 285,7. La muestra será de 286 alumnos.
400
1
1000
6
- Variables CONTINUAS: los valores son números reales. Siempre se
admite un valor intermedio entre dos valores dados
NOTACIÓN: Variable: X
Un valor o modalidad de la variable: xi
Número de elementos o individuos en estudio (muestra): n (TAMAÑO)
FRECUENCIAS:
xi ni fi Ni Fi
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
. . . . .
. . . . .
xk nk fk Nk=n Fk=1
TOTAL: n 1
7
TABLAS DE FRECUENCIAS AGRUPADAS
[Li-1 , Li ) ci ni fi Ni Fi ai hi
[L0 , L1 ) c1 n1 f1 N1 F1 a1 h1
[L1 , L2 ) c2 n2 f2 N2 F2 a2 h2
. . . . . . . .
. . . . . . . .
[Lk-1 , Lk] ck nk fk Nk=n Fk=1 ak hk
n 1
REPRESENTACIONES GRÁFICAS:
- DIAGRAMA DE SECTORES:
Se divide un círculo en tantas porciones como modalidades existan, de modo que el
arco de cada porción i sea proporcional a la frecuencia de la modalidad que
representa. El arco i de cada sector se calcula por la regla de tres:
n 360º
ni i
- DIAGRAMA DE RECTÁNGULOS:
En el eje de abcisas se escriben las modalidades y para cada una se levanta un
rectángulo cuya altura sea igual a la frecuencia absoluta o relativa de dicha
modalidad. Todos los rectángulos deben tener la misma base.
- PICTOGRAMA:
Similar al diagrama de rectángulos, pero en lugar de un rectángulo se representa un
dibujo alusivo a la variable en estudio.
8
PARA VARIABLES DISCRETAS (NO AGRUPADAS):
- DIAGRAMA DE BARRAS:
En el eje de abcisas se marcan los valores de la variable y encima de cada uno de
ellos se levanta una barra con altura igual a la frecuencia absoluta o relativa de ese
valor.
- DIAGRAMA EN ESCALERA:
Resulta de representar los valores de la variable en el eje de abcisas y sus
frecuencias acumuladas (absolutas o relativas) en el de ordenadas, uniéndolas de
forma que la representación resulte en forma de escalera.
- HISTOGRAMA:
Es una unión de rectángulos cuyas bases son los intervalos de clase y cuya área es la
frecuencia (absoluta o relativa) del intervalo. El área total del histograma es el total
de individuos, n o el 100%.
- POLÍGONO DE FRECUENCIAS:
Es la línea poligonal que resulta de unir las alturas correspondientes a las marcas de
clase en un histograma.
CLASIFICACIÓN:
Atendiendo a las características que estudian en la distribución de frecuencias, las
medidas descriptivas se clasifican en:
1. MEDIDAS DE POSICIÓN:
- de tendencia central
- de tendencia no central
1. MEDIDAS DE DISPERSIÓN
2. MEDIDAS DE FORMA:
- de asimetría
- de apuntamiento o curtosis
9
Estudiaremos las siguientes medidas:
MEDIDAS DE POSICIÓN
De tendencia central:
- Media (aritmética y ponderada)
- Mediana
- Moda
De tendencia no central o cuantiles:
- Percentiles
- Cuartiles
- Deciles
MEDIDAS DE DISPERSIÓN
- Rango o Recorrido
- Rango intercuartílico
- Varianza
- Desviación típica
- Coeficiente de variación
MEDIDAS DE FORMA
LA MEDIA
1 k
x xi ni
n i 1
NOTA: Cuando las observaciones no están ordenadas en la tabla de frecuencias, sino
que se trabaja directamente con los n valores muestrales sin ordenar hay que tener en
cuenta que los ni 1 .
PROPIEDADES DE LA MEDIA:
1. Se verifica que i xi x ni 0 . Es decir, la media es el centro de gravedad de
la distribución de frecuencias.
Se verifica que minaR i xi a ni se alcanza en a x . (Mínimos cuadrados)
2
2.
3. Si Y=a+bX, donde a y b son números reales, entonces y a bx . (Linealidad)
10
VENTAJAS E INCONVENIENTES DE LA MEDIA:
Ventajas:
Es fácil de calcular e interpretar.
Utiliza todos los valores de la distribución de frecuencias.
Presenta muy buenas propiedades matemáticas que la hacen ideal para su
uso en Inferencia Estadística.
Inconvenientes:
Es muy sensible a valores extremos de la variable (poco ROBUSTA).
En variables discretas, la media puede no ser un valor admisible de la
variable.
x w i i
x i 1
k
w
i 1
i
Se utiliza cuando unas observaciones tienen más importancia que otras. A mayor
importancia de una observación mayor peso o ponderación le corresponde.
LA MEDIANA
Sea X una variable cuyas observaciones han sido ordenadas de menor a mayor. Se
define la MEDIANA de X como el valor de la variable que verifica que un 50% de
observaciones son menores o iguales que ella y el otro 50% son mayores o iguales que
ella. Se denota Me.
Cuando los datos están ordenados en una tabla de frecuencias, la Me es el valor x i
correspondiente a la primera Fi mayor o igual que 0,5=50%. En los casos que se verifica
la igualdad, se suele hacer la media aritmética entre ese valor de xi y el siguiente.
Si la distribución de frecuencias está agrupada en intervalos y se representa mediante un
histograma, la Me divide al histograma en dos partes de igual área.
PROPIEDADES DE LA MEDIANA:
1. Si Y=a+bX entonces Me(Y)=a+bMe(X). (Linealidad).
2. Se verifica que minaR i xi a ni se alcanza en a Me .
Ventajas:
Es fácil de calcular e interpretar.
En variables discretas, la mediana es un valor de la variable.
11
Es poco sensible a valores extremos de la variable (es ROBUSTA) y por ello
resulta una buena alternativa cuando la media se ve afectada por valores
extremos.
Inconvenientes:
No utiliza todos los valores de la distribución de frecuencias sino más bien
su orden.
Sus propiedades matemáticas son complicadas y por ello se usa poco en
Inferencia Estadística.
LA MODA
PERCENTILES
Para una variable X cuyas observaciones han sido ordenadas de menor a mayor se
define el percentil de orden k como el valor xi de la variable que verifica que el k% de
las observaciones son menores o iguales que él y el (100-k)% de las observaciones son
mayores o iguales que ese percentil. Se denota pk.
Hay 99 percentiles, los correspondientes a k=1,2,3,…,99. La mediana es el p50.
12
Para calcular pk se busca la primera frecuencia acumulada Fi mayor o igual que k/100 y
el xi correspondiente es pk. En caso de igualdad se suele calcular una media ponderada
de xi con el valor siguiente.
Cuando los datos están agrupados en intervalos, geométricamente pk divide al
histograma en dos partes: la parte izquierda de área k/100 y la parte derecha con área
(100-k)/100.
CUARTILES
Hay tres cuartiles que son:
q1 = p25
q2 = p50 = Me
q3 = p75
Los tres cuartiles dividen la distribución de frecuencias en cuatro partes de igual
frecuencia (con un 25% cada parte).
Con los cuartiles se hace un gráfico denominado DIAGRAMA DE CAJA cuya forma
es:
o o
LI q1 Me q3 LS
Los valores fuera del intervalo (q1-1.5 (q3- q1) , q3+1.5 (q3- q1) ) se denominan puntos
atípicos (outliers)
DECILES
MEDIDAS DE DISPERSIÓN
Estas medidas nos indican si los valores de la variable que hemos observado están muy
próximos entre sí o por el contrario están muy separados. Cuando están próximos se
habla de poca dispersión o poca variabilidad en la variable o también de homogeneidad
de la distribución. Cuando los valores están separados se habla de mucha dispersión o
variabilidad o también de heterogeneidad.
RANGO O RECORRIDO
Se define Re = xmax – xmin,
siendo xmin el menor valor del la variable y xmax el mayor.
13
Es fácil de calcular e interpretar, pero tiene el inconveniente de que sólo utiliza dos
valores de la variable y de que se puede ver muy afectado por valores extremos.
VARIANZA
La varianza se define como la media de las desviaciones cuadráticas de las
observaciones con respecto a su media aritmética, es decir
1 k
S X2 xi x 2 ni
n i 1
Es una medida de dispersión de los datos respecto a su media. Cuanto más pequeña es la
varianza más agrupados están los valores entorno a su media y por tanto mejor
representa la media al conjunto de los datos observados.
PROPIEDADES DE LA VARIANZA:
1 k
ˆ
S
2
xi x 2 ni
n 1 i 1
DESVIACIÓN TÍPICA
14
PROPIEDADES DE LA DESVIACIÓN TÍPICA:
COEFICIENTE DE VARIACIÓN
SX
CV
x
Se trata de una medida adimensional que tiene en cuenta la proporción existente entre la
media y la desviación típica, y por ello se suele usar para comparar la variabilidad entre
distintas distribuciones de datos.
Siempre toma valores positivos; cuanto más cercanos a 0 menor dispersión. En general,
valores del CV mayores que 1 indican mucha dispersión.
Nota: El CV sólo tiene sentido para variables positivas, las cuales garantizan que su
media es estrictamente positiva.
MEDIDAS DE FORMA
COEFICIENTES DE ASIMETRÍA
15
La falta de simetría se debe a la existencia de valores más extremos por un único lado de
la distribución. Así, distinguiremos entre:
- Asimetría a la derecha o positiva, cuando los valores extremos están a la derecha
(son altos) y hay una cola larga a la derecha de la distribución de frecuencias.
- Asimetría a la izquierda o negativa, cuando los valores extremos están a la
izquierda (son bajos) y hay una cola larga a la izquierda de la distribución de
frecuencias.
INTERPRETACIÓN:
Si el coeficiente de asimetría es 0 la distribución es (prácticamente) simétrica.
Si el coeficiente de asimetría es mayor que 0 la distribución tiene asimetría
positiva. A mayor valor del coeficiente mayor grado de asimetría.
Si el coeficiente de asimetría es menor que 0 la distribución tiene asimetría
negativa. A mayor valor absoluto del coeficiente mayor grado de asimetría.
m3 1
g1
S X3
siendo m3
n i
( x i x ) 3 ni
Solo puede calcularse para distribuciones unimodales. Es muy sencillo y viene dado por
x Mo
g1
SX
m4 1
g2 4
3 siendo m4 ( xi x ) 4 ni
SX n i
16
INTERPRETACIÓN:
EJEMPLO.
Sexo ni fi
Hombre 8 0,8
Mujer 2 0,2
Total 10 1
17
2. Diagrama de barras y medidas descriptivas de la Edad:
xi (Edad) ni fi Ni Fi xi ni xi2 ni
19 6 0,6 6 0,6 114 2166
20 2 0,2 8 0,8 40 800
21 2 0,2 10 1 42 882
Total 10 196 3848
Media:
Mediana: Me=19 años, valor correspondiente a la primera Fi mayor que 0,5=50%.
Moda: Mo=19 años, valor con mayor frecuencia.
Cuartiles: q1=19 años (primera Fi mayor que 0,25), q2=Me=19 años y q3=20 años
(primera Fi mayor que 0,75).
Varianza:
Desviación típica:
Coeficiente de variación:
Asimetría:
Nota
entrada ni
[5,6) 4
[6,7) 3
[7,8) 3
[8,9) 0
[9,10] 0
18
Las medidas descriptivas se hacen con los datos originales, sin agrupar.
Media:
Mediana: Me=(6,2+6,4)/2=6,3 puntos, valor correspondiente al promedio entre las dos
notas centrales (ordenadas).
Moda: Mo=5,9 puntos, valor con mayor frecuencia en los datos desagrupados. Es más
aconsejable indicar el intervalo de mayor altura del histograma, que en este caso sería el
de puntuaciones entre 5 y 6.
Cuartiles: q1=5,9 puntos (primera Fi mayor que 0,25), q2=Me=6,25 puntos y q3=7,5
puntos (primera Fi mayor que 0,75), donde Fi toma los siguientes valores:
xi: 5,1 5,5 5,9 6,2 6,4 6,8 7,5 7,6 7,9
ni: 1 1 2 1 1 1 1 1 1
Ni: 1 2 4 5 6 7 8 9 10
Fi: 0,1 0,2 0,4 0,5 0,6 0,7 0,8 0,9 1
Varianza:
También se puede calcular de la siguiente forma:
.
Desviación típica:
Coeficiente de variación:
Asimetría: ,
Curtosis:
19