B1 Anexo1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 36

Estadística Descriptiva: conceptos básicos

Conceptos estadísticos básicos que deben conocerse:


Población: Conjunto de todos los “elementos” que nos gustaría
estudiar; el término “elemento” habitualmente se re…ere a una persona,
pero también podría ser un coche, una sucursal bancaria, etc.
Muestra: Subconjunto de la población para el cual observamos sus
características.
Parámetro: Medida numérica de una característica de la población
que nos interesa estudiar.
Estadístico: Medida numérica de la característica de interés obtenida
en nuestra muestra.
Estadística Descriptiva: conceptos básicos

EJEMPLO 1: Queremos conocer la altura media de los hombres


españoles mayores de edad. Para ello seleccionamos a 500 hombres
españoles mayores de edad y calculamos la media de sus alturas. En
este caso, ¿quiénes son la población, la muestra, el parámetro y el
estadístico?
Población: Todos los hombres españoles mayores de edad.
Muestra: Los 500 hombres españoles seleccionados.
Parámetro: La media de las alturas de todos los hombres españoles
mayores de edad.
Estadístico: La media de las alturas de los 500 hombres españoles
mayores de edad seleccionados.
Clasificación de variables

EJEMPLO 2: Una compañía médica ha realizado una encuesta en la


que se tiene que responder a las siguientes preguntas: sexo, estado
civil, índice de masa corporal (es decir, el peso en kilos dividido por el
cuadrado de la altura en metros), número de veces que se ha acudido
al médico en el último mes y grado de satisfacción con su compañía
médica (posibles respuestas: muy satisfecho/medianamente
satisfecho/nada satisfecho). Las respuestas a las preguntas de esta
encuesta se clasi…can del modo siguiente:
Sexo: Variable categórica nominal.
Estado Civil: Variable categórica nominal.
Índice de masa corporal: Variable numérica continua.
Número de visitas al médico en el último mes: Variable numérica
discreta.
Grado de satisfacción con su compañía médica: Variable
categórica ordinal.
Gráficos para describir variables categóricas

EJEMPLO 3: En una encuesta, se ha preguntado a 112 estudiantes


universitarios en qué medida consideraban saludable su estilo de vida.
Las respuestas posibles eran: muy saludable/bastante saludable/poco
saludable/nada saludable. De los 112 estudiantes, 28 contestaron que
su estilo de vida era muy saludable, 55 que era bastante saludable, 20
que era poco saludable y 9 que no era nada saludable. Estos
resultados se pueden presentar en una tabla de frecuencias:

Estilo de vida Frecuencias Frecuencias Relativas


Muy saludable 28 0.250
Bastante saludable 55 0.491
Poco saludable 20 0.179
Nada saludable 9 0.080
Gráficos para describir variables categóricas
EJEMPLO 3 (Cont.): El diagrama de sectores correspondiente se
obtiene repartiendo los 360o de un círculo entre las categorías, de
forma propocional a su frecuencia. Por ejemplo, a la categoría “nada
9
saludable” le corresponden 112 360 29o del círculo. El grá…co
siguiente indica también las frecuencias relativas de cada categoría, en
porcentaje.

Nada saludable
Muy saludable
8%
Poco saludable 25%
18%

Bastante saludable
49%
Gráficos para describir variables categóricas

Otro modo de visualizar las frecuencias es utilizando un diagrama de


barras, que no es más que un grá…co con barras verticales, en el que
cada barra representa una categoría, y la altura de cada barra es la
frecuencia de la categoría correspondiente. Al igual que el diagrama
de sectores, el diagrama de barras tampoco aporta información nueva,
sino que simplemente permite visualizar rápidamente la información
contenida en las frecuencias observadas
En ocasiones, el diagrama de barras se presenta ordenando las
categorías de más frecuente a menos frecuente. Este tipo de
diagrama de barras recibe el nombre de diagrama de Pareto, y se
utiliza para ver si las frecuencias decrecen lentamente o rápidamente.
Gráficos para describir variables categóricas

EJEMPLO 3 (Cont.): Con las frecuencias calculadas, el diagrama


de barras que se obtiene es:

60 55

50

40
Frecuencia

30 28

20
20

9
10

0
Muy saludable Bastante saludable Poco saludable Nada saludable
Gráficos para describir variables categóricas

EJEMPLO 4: El servicio de atención al cliente de una compañía


telefónica ha recibido en la última semana 523 quejas. La tabla
siguiente muestra las frecuencias de las causas de las quejas recibidas:

Causa de la queja Frecuencia


Avería en el teléfono 76
Avería en la línea 26
Facturación errónea 394
Petición de cambio de compañía no atendida 14
Otras causas 13
Gráficos para describir variables categóricas

EJEMPLO 4 (Cont.): En este tipo de situaciones es habitual utilizar


un diagrama de Pareto, es decir, un diagrama de barras en el que
las categorías se ordenan de más frecuente a menos frecuente:

450
394
400
350
300
Frecuencia

250
200
150
100 76

50 26 14 13
0
Facturación Avería teléfono Avería línea Petición no Otras causas
errónea atendida
Gráficos para describir datos de series temporales

EJEMPLO 5: La tabla siguiente muestra el tipo de cambio


Euro-Dólar el último día laborable de cada mes en 2010:
Mes Dólares por 1 euro
Enero 1.3966
Febrero 1.3570
Marzo 1.3479
Abril 1.3315
Mayo 1.2307
Junio 1.2271
Julio 1.3028
Agosto 1.2680
Septiembre 1.3648
Octubre 1.3857
Noviembre 1.2998
Diciembre 1.3362
Gráficos para describir datos de series temporales
EJEMPLO 5 (Cont.): Estos datos corresponden a una variable
numérica continua. Pero además hay una ordenación temporal en
ellos, por lo que pueden representarse utilizando el tiempo en el eje
horizontal:
Tipo de cambio Euro-Dólar en 2010

1,45
1,4
Dólares por 1 euro

1,35
1,3

1,25
1,2

1,15
1,1
1 2 3 4 5 6 7 8 9 10 11 12
Mes
Gráficos para describir variables numéricas

Dado un conjunto de n observaciones de una variable numérica,


queremos obtener grá…cos que ayuden a visualizar cómo se
distribuyen esas observaciones. Supondremos que la variable que
queremos analizar es numérica continua; al …nal de este apartado
comentaremos qué ocurre con las variables numéricas discretas.
Cuando observamos una variable numérica continua, siempre habrá
muchos resultados diferentes. En este caso, para realizar grá…cos que
permitan visualizar cómo se distribuyen las observaciones es
necesario comenzar agrupándolas.
Comenzaremos este apartado estudiando cómo agrupar las
observaciones y después veremos los dos tipos de grá…cos más
utilizados: el histograma y el polígono de frecuencias acumuladas.
Agrupación de datos y tabla de distribución de
frecuencias
Reglas para agrupar las observaciones de una variable continua:
1. Hay que determinar cuántos grupos se van a considerar; al número
de grupos considerados lo representaremos como k. A cada grupo se le
suele llamar “clase” o, cuando el grupo coincide con un intervalo real,
simplemente “intervalo”. No hay un criterio universal para determinar
el número de clases
p k; una regla posible es de…nir k como el entero
más próximo a n, si n es menor o igual que 400, o k = 20 si n es
mayor que 400.
2. Hay que determinar la longitud de cada una de las k clases. Para
que los grá…cos no lleven a interpretaciones erróneas, es importante
que todas las clases tengan la misma longitud. Para asegurar que todas
las observaciones están en alguna clase se considera como longitud l:
max(Xi ) min(Xi )
l=
k
Si este número tiene muchos decimales, también es posible redondear
hacia arriba.
Agrupación de datos y tabla de distribución de
frecuencias

Reglas para agrupar las observaciones de una variable continua:


3. Una vez determinados k y l, hay que de…nir las clases, teniendo en
cuenta que no pueden solaparse, y que toda observación debe
estar en una y solo una de las clases. Por esta razón, habitualmente
las k clases que se consideran son:

Clase 1: [min(Xi ), min(Xi ) + l ]


Clase 2: (min(Xi ) + l, min(Xi ) + 2l ]

Clase k: (min(Xi ) + (k 1)l, min(Xi ) + kl ]

Obsérvese que en este paso estamos considerando los intervalos


abiertos por la izquierda y cerrados por la derecha, excepto el primero,
que es cerrado por los dos lados. También sería posible considerarlos al
contrario; en este curso lo consideraremos así, porque este es el modo
como lo hace Excel.
Agrupación de datos y tabla de distribución de
frecuencias
EJEMPLO 6: Un supervisor ha observado el tiempo (en segundos)
que tardan 40 empleados en ejecutar una determinada tarea. La tabla
siguiente muestra los 40 tiempos observados:
271 236 294 251 254 263 266 222
259 237 239 282 224 263 267 254
262 278 244 252 264 265 239 225
252 242 248 263 255 274 268 255
263 242 283 252 256 263 269 227
Obsérvese que, aunque se hayan omitido los decimales, esta variable
es continua, pues indica “tiempo”.
Agruparemos las observaciones en 6 clases. Como la observación
menor es 222 y la mayor es 294, la longitud de cada clase será:
294 222
longitud = = 12
6
Agrupación de datos y tabla de distribución de
frecuencias

EJEMPLO 6 (Cont.): Como la menor observación es 222 y la


longitud de cada clase es 12, la primera clase es el intervalo [222,234],
la segunda clase es el intervalo (234,246], la tercera clase es el
intervalo (246,258], la cuarta clase es el intervalo (258,270], la quinta
clase es el intervalo (270,282] y la sexta clase es el intervalo (282,294].
Una vez determinadas las clases, calculamos las frecuencias de cada
una de ellas ni , es decir, contamos cuántas observaciones de la
muestra quedan en cada una de las clases. En este caso n1 = 4,
n2 = 7, n3 = 10, n4 = 13, n5 = 4, n6 = 2.
A partir de las frecuencias, obtenemos las frecuencias relativas
ni
fi = 40 , las frecuencias acumuladas N1 = n1 , N2 = n2 + N1 ,
N3 = n3 + N2 , ..., N6 = n6 + N5 , y las frecuencias acumuladas
relativas Fi = N 40 .
i
Agrupación de datos y tabla de distribución de
frecuencias

EJEMPLO 6 (Cont.): Los valores obtenidos se representan en la


tabla de distribución de frecuencias siguiente:

Tiempo Frec. Frec. Rela- Frec. Acu- Frec. Acum.


empleado ni tiva fi mulada Ni Relativa Fi
[222, 234] 4 0.100 4 0.100
(234, 246] 7 0.175 11 0.275
(246, 258] 10 0.250 21 0.525
(258, 270] 13 0.325 34 0.850
(270, 282] 4 0.100 38 0.950
(282, 294] 2 0.050 40 1.000
Histograma: obtención e interpretación

Una vez agrupadas las observaciones en clases, el histograma se


obtiene simplemente representando barras verticales sobre los
intervalos considerados como clases, siendo la altura de cada barra la
frecuencia.
El histograma sirve para visualizar cómo se distribuyen las
observaciones en el intervalo de variación de la variable. Este grá…co
permite dar respuesta, de modo intuitivo, a preguntas como “¿hay
mayor proporción de observaciones en la zona central o en los
extremos?”, o “¿se reparten las observaciones de modo simétrico
respecto al centro?”.
Histograma: obtención e interpretación

Al observar la distribución de las observaciones con un histograma,


hay dos casos que reciben un nombre especial:
un histograma aproximadamente horizontal indica que las frecuencias
son todas similares, es decir, que todas las observaciones se reparten
uniformemente entre las diferentes clases; por esta razón, en este caso
se dice que el histograma muestra aproximadamente una “distribución
uniforme”;
el histograma más frecuente es el que muestra una mayor proporción
de observaciones en el centro, y un decrecimiento rápido y simétrico a
derecha e izquierda del centro; en este caso se dice que el histograma
muestra aproximadamente una “distribución normal”.
Histograma: obtención e interpretación
EJEMPLO 6 (Cont.): Utilizando las frecuencias antes obtenidas, se
obtiene el histograma:

Histograma

14

12

10
Frecuencia

0
234 246 258 270 282 y mayor...

Límite superior de la clase


Histograma: obtención e interpretación

EJEMPLO 6 (Cont.): Examinando el histograma obtenido se


observa que:
1 Hay una mayor proporción de observaciones en el centro que en los
extremos. Esta característica del histograma nos lleva a pensar que
estas observaciones NO tienen una “distribución uniforme”.
2 El decrecimiento a derecha e izquierda del centro no es similar, por lo
que no hay simetría. Esta segunda característica del histograma nos
lleva a pensar que estas observaciones NO tienen una “distribución
normal”.
Histograma: obtención e interpretación

En ocasiones el histograma se realiza utilizando como altura de cada


barra la frecuencia relativa; en ese caso al histograma resultante se le
suele llamar histograma de densidad. Obsérvese que el histograma
de densidad siempre muestra la misma forma que el histograma
construido con frecuencias absolutas; lo único que cambian son los
valores del eje vertical (los del histograma de densidad son los del
histograma divididos por el número total de observaciones n).
Inconveniente del histograma: no hay un método universal para
seleccionar las clases, y el modo como éstas se seleccionan puede
condicionar los resultados obtenidos.
Polígono de frecuencias acumuladas

Otro grá…co que se utiliza para describir cómo se distribuyen las


observaciones de una variable continua, una vez agrupadas en k
clases, es el llamado polígono de frecuencias acumuladas. Se llama
así a la línea poligonal que une los puntos (c0 , 0), (c1 , F1 ), ...,
(ck 1 , Fk 1 ) y (ck , Fk ), siendo c0 el extremo inferior de la primera
clase, c1 , ..., ck los extremos superiores de las clases 1, ..., k, y F1 , ...,
Fk las frecuencias acumuladas relativas de las clases 1, ..., k. Este
polígono también recibe el nombre de ojiva.
Teniendo en cuenta la de…nición dada, al representar este polígono
debemos considerar en el eje vertical los valores de 0 a 1 (o de 0 a
100 si se expresa en porcentaje). Obsérvese, además, que este
polígono siempre es creciente.
Polígono de frecuencias acumuladas

Obsérvese que el polígono de frecuencias acumuladas nos permite


saber, para un x dado, aproximadamente la proporción de
observaciones de la muestra que son iguales o inferiores a ese x:
basta con mirar cuál es el valor que corresponde en el eje vertical al
valor x del eje horizontal.
Este polígono también nos permite ver dónde hay una mayor
proporción de observaciones: en las zonas en donde los segmentos
correspondientes tengan mayor pendiente (porque ahí es donde hay
más crecimiento de la frecuencia acumulada relativa).
Polígono de frecuencias acumuladas
EJEMPLO 6 (Cont.): Utilizando las frecuencias acumuladas
relativas se obtiene el polígono de frecuencias acumuladas, que
pasa por los puntos (222, 0), (234, 0.1), (246, 0.275), (258, 0.525),
(270, 0.85), (282, 0.95) y (294, 1).

POLÍGONO DE FRECUENCIAS ACUMULADAS

1
Frecuencia acumulada relativa

0,8

0,6

0,4

0,2

0
222 234 246 258 270 282 294
Tiempo empleado (segundos)
Gráficos para describir relaciones entre variables

En este apartado supondremos que queremos analizar la relación


entre dos variables, y que disponemos de observaciones de estas dos
variables en los mismos elementos (por ejemplo, cada observación
puede ser la altura y el peso de una persona). El tipo de grá…co que
nos permite visualizar la relación depende de cómo sean las variables.
En concreto, veremos:
Grá…co para analizar relación entre dos variables numéricas: diagrama
de puntos.
Grá…co para analizar relación entre dos variables categóricas (o entre
variables numéricas que se dan agrupadas): diagramas de barras
conjuntos.
Diagrama de puntos

EJEMPLO 7: La tabla siguiente muestra las cali…caciones medias en


bachillerato y en la prueba de acceso a la universidad de 21 alumnos:

Alumno Nota B. Nota P.A. Alumno Nota B. Nota P.A.


1 7.1 6.3 12 7.1 6.9
2 8.1 7.2 13 6.5 5.1
3 8.0 8.5 14 6.7 6.1
4 8.7 9.1 15 7.2 5.7
5 7.8 9.4 16 7.3 8.2
6 8.4 9.7 17 8.2 8.7
7 6.4 5.5 18 6.8 4.8
8 7.9 7.8 19 7.6 7.8
9 7.1 6.5 20 6.1 4.2
10 7.6 6.7 21 7.8 8.4
11 7.2 7.5
Diagrama de puntos
EJEMPLO 7 (Cont.): Podemos representar conjuntamente las dos
variables con un diagrama de puntos, con las notas de bachillerato
en el eje horizontal y las de la prueba de acceso en el vertical:
Diagrama de puntos

10
Nota media en prueba de acceso

4
6 7 8 9
Nota media en bachillerato

Los puntos están aproximadamente alrededor de una recta con


pendiente positiva; por tanto, parece haber relación lineal directa
entre las variables: cuanto mayor es la nota de bachillerato, mayor
tiende a ser la nota en la prueba de acceso.
Tabla de contingencia y diagramas de barras conjuntos

Supongamos que observamos dos variables categóricas (o dos


variables numéricas que nos dan agrupadas), la primera de ellas con
k1 categorías posibles, y la segunda con k2 categorías posibles. En
este caso, la información relevante sobre los datos para hacer el
análisis estadístico es cuántas observaciones hay en cada uno de los
k1 k2 grupos que se forman al combinar las dos variables. A estos
valores se les llama frecuencias conjuntas.
Las frecuencias conjuntas suelen presentarse en una tabla que recibe
el nombre de tabla de contingencia. Esta tabla se obtiene poniendo
en la primera …la las posibles categorías de una de las dos variables,
en la primera columna las posibles categorías de la otra variable, y
dentro de la tabla cada una de las frecuencias conjuntas en el lugar
que corresponda.
Tabla de contingencia y diagramas de barras conjuntos
EJEMPLO 8: Una empresa está considerando la posibilidad de abrir
un club de fumadores en la ciudad. Esta ciudad tiene tres zonas
claramente diferenciadas: centro (principalmente apartamentos),
norte (principalmente residencias de gran tamaño) y sur
(principalmente edi…cios de pisos). Para analizar en qué zona podría
ser mejor establecer el club, la empresa encarga que se haga una
encuesta sobre qué porcentaje de la población es no fumador,
fumador esporádico o fumador habitual en cada una de las zonas de
la ciudad. Las respuestas de las 500 personas encuestadas se
muestran en esta tabla de contingencia:
Zona No Fumador Fumador Fumador
Esporádico Habitual
Norte 83 27 51
Centro 102 15 40
Sur 87 18 77
Tabla de contingencia y diagramas de barras conjuntos

EJEMPLO 8 (Cont.): La tabla de contingencia la completamos con


una columna adicional que muestra los “totales por …la” y con una
…la adicional que muestra los “totales por columna”:

Zona No Fumador Fumador Fumador TOTAL


Esporádico Habitual
Norte 83 27 51 161
Centro 102 15 40 157
Sur 87 18 77 182
TOTAL 272 60 168 500

La última columna nos indica cuáles son las frecuencias de la variable


“zona de residencia” sin tener en cuenta el tipo de fumador. Por su
parte, la última …la nos indica cuáles son las frecuencias de la variable
“tipo de fumador” sin tener en cuenta la zona de residencia.

INT. ESTAD. (Curso 2015-16) TEMA 1 48 / 54


Tabla de contingencia y diagramas de barras conjuntos

Las frecuencias de una tabla de contingencia pueden representarse


utilizando diagramas de barras conjuntos. Para construir estos
diagramas, lo que se hace es obtener un diagrama con las frecuencias
de cada una de las …las (o de cada una de las columnas) de la tabla, y
luego representar conjuntamente los diagramas de barras obtenidos.
Examinando el grá…co de diagramas de barras conjuntos puede
apreciarse mejor si una de las dos variables se comporta igual o no en
cada una de las categorías posibles de la otra variable.
Tabla de contingencia y diagramas de barras conjuntos
EJEMPLO 8 (Cont.): Si obtenemos los diagramas de barras de
cada una de las zonas, y luego presentamos conjuntamente los tres
diagramas de barras, el grá…co que se obtiene es:
120

102
100
87
83
80 77
Frecuencia

Norte
60 Centro
51 Sur

40
40
27

18
20 15

0
No Fumador Fumador Esporádico Fumador Habitual

En este diagrama de barras se observa que en la zona sur es donde


hay más fumadores habituales, relativamente.
Tabla de contingencia y diagramas de barras conjuntos

EJEMPLO 3 (Cont.): Supongamos que la encuesta sobre el estilo


de vida de los estudiantes universitarios aporta también información
sobre el sexo de los encuestados, y que nos dicen que son mujeres 14
de los que respondieron muy saludable, 28 de los que respondieron
bastante saludable, 8 de los que respondieron poco saludable y 3 de
los que respondieron nada saludable. Podemos entonces presentar los
datos en una tabla de contingencia, distinguiendo entre hombres y
mujeres:

Estilo de Vida Hombres Mujeres TOTAL


Muy saludable 14 14 28
Bastante saludable 27 28 55
Poco saludable 12 8 20
Nada saludable 6 3 9
TOTAL 59 53 112
Tabla de contingencia y diagramas de barras conjuntos

EJEMPLO 3 (Cont.): Queremos analizar si hombres y mujeres se


comportan igual en relación a su estilo de vida, utilizando diagramas
de barras conjuntos. Como el número de hombres no coincide con el
de mujeres, antes de hacer los diagramas de barras obtendremos las
frecuencias relativas de los estilos de vida para hombres y para
mujeres. Como hay 59 hombres y 53 mujeres, lo que debemos hacer
es dividir las frecuencias de la columna de hombres por 59 y las
frecuencias de la columna de mujeres por 53. Así obtenemos la tabla
siguiente:

Estilo de Vida Hombres (Fr. Rel.) Mujeres (Fr. Rel.)


Muy saludable 0.24 0.26
Bastante saludable 0.46 0.53
Poco saludable 0.20 0.15
Nada saludable 0.10 0.06
Tabla de contingencia y diagramas de barras conjuntos

EJEMPLO 3 (Cont.): Utilizando esta tabla de frecuencias relativas,


los diagramas de barras conjuntos que se obtiene son:

0,60
0,53
0,46
Frecuencia relativa

0,40
Hombres
0,26
0,24 Mujeres
0,20
0,20 0,15
0,10
0,06

0,00
Muy saludable Bastante Poco saludable Nada saludable
saludable

Este grá…co muestra que el estilo de vida de las mujeres encuestadas


es más saludable que el de los hombres encuestados.

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy