Investigación - Descriptivos I Corte

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 87

INVESTIGACIÓN

CUANTITATIVA -
DESCRIPTIVOS
En la actualidad se recaban una gran cantidad de datos sobre
diversos temas, en cualquier campo ocupacional, de servicio o de
investigación, inclusive en el campo personal para la toma de
decisiones o la descripción de fenómeno estudiado.

La organización de los datos es uno de los primeros pasos en el


análisis.

1. Ordenar los datos, de acuerdo a su magnitud,


alfabéticamente, lógico, u otro orden
2. Organizar y presentar en diagrama de tallo y hoja
3. Organizar en tablas de frecuencia (datos no agrupados y
datos agrupados)
4. Graficas para datos cualitativos y gráficas para datos
cuantitativos.
Diagramas de Tallos y Hojas

l diagrama "tallo y hojas" permite obtener


simultáneamente una distribución de frecuencias de la
variable y su representación gráfica. Para construirlo
basta separar en cada dato el último dígito de la
derecha (que constituye la hoja) del bloque de cifras
restantes (que formará el tallo).

Esta representación de los datos es semejante a la de


un histograma pero además de ser fáciles de elaborar,
presentan más información que estos.
Graficación de Distribuciones
de Frecuencia
Un gráfico estadístico es una representación visual de una serie
de datos estadísticos. Es una herramienta muy eficaz, ya que un
buen gráfico:

• Capta la atención del lector

• Presenta la información de forma sencilla, clara y precisa

• No induce a error

• Facilita la comparación de datos y destaca las tendencias y las


diferencias;

• Ilustra el mensaje, tema o trama del texto al que acompaña.


Gráficos recomendados según
tipo de variables

V. Cuantitativas

• Histograma: Barras verticales sobre los límites de clases


• Polígono de frecuencia: Líneas conectadas en los puntos
medios de cada intervalo de clase y su respectiva
frecuencia (relativa o absoluta)
• Ojiva (menor que): Líneas en secuencia conectadas sobre
los limites de clases inferiores y su frecuencia acumulada
(porcentual)

V. Cualitativas

Barras (columnas), Pastel (circular) y diagrama de Pareto


GRAFICO DE BARRAS
Un gráfico de barras es una
representación gráfica en un
eje cartesiano de las
frecuencias de una variable
cualitativa o discreta.

En uno de los ejes se posicionan


las distintas categorías de la
variable cualitativa o discreta y
en el otro el valor o frecuencia de
cada categoría en una
determinada escala
GRAFICO DE BARRAS
La orientación del gráfico puede ser:

• Vertical: las distintas categorías están situadas en el eje horizontal y las


barras de frecuencias crecen verticalmente.

• Horizontal: las categorías se sitúan en el eje vertical y las barras crecen


horizontalmente. Suelen usarse cuando hay muchas categorías o sus
nombres son demasiado largos.

Las categorías pueden ordenarse alfabéticamente facilitando su búsqueda o


por sus frecuencias facilitando la comparación de los datos.
GRAFICO DE BARRAS

Se suelen usar para:

• Comparar magnitudes de varias


categorías.

• Ver la evolución en el tiempo de


una magnitud concreta
HISTOGRAMA
Se usa para representar las frecuencias de una variable
cuantitativa continua. En uno de los ejes se posicionan las clases
de la variable continua (los intervalos o las marcas de clase que
son los puntos medios de cada intervalo) y en el otro eje las
frecuencias. No existe separación entre las barras.
HISTOGRAMA: Bi-direccional
Tiene orientación horizontal y contiene dos series de datos cuyas
barras de frecuencias crecen en sentidos opuestos. Las más
comunes son las pirámides de población.
Grafico de líneas
Un gráfico de líneas es una representación gráfica en un eje
cartesiano de la relación que existe entre dos variables reflejando
con claridad los cambios producidos.
Grafico de líneas
Si se unen los puntos medios de las bases superiores de las
barras en los gráficos de barra se obtiene el polígono de
frecuencias.
Ojiva (menos que)

Es una gráfica de línea continua, que representa en el eje de las


Y las frecuencias acumuladas relativas porcentuales y en el eje
de las X se ubican las clases de las característica medida
Gráfico de Pareto

Un gráfico de Pareto es un tipo de


gráfico de barras vertical ordenado
por frecuencias de forma
descendente que identifica y da un
orden de prioridad a los datos.
Un gráfico de sectores es una
Gráfico de representación circular de las frecuencias
relativas de una variable cualitativa o
sectores discreta que permite, de una manera
sencilla y rápida, su comparación.
Gráfico de dispersión

Este gráfico nos informa del grado de correlación entre las


dos variables, es decir, nos muestra si el incremento o
disminución de los valores de una de las variables, denominada
variable independiente y que se suele representar en el eje
horizontal, altera de alguna manera los valores de la otra,
denominada variable dependiente y que representa
generalmente en el eje vertical
Supongamos que un psicólogo ha realizado un
experimento para determinar si hombres y mujeres
difieren en aptitud matemática.

Ella tiene dos juegos de puntajes, uno de los hombres y


uno de las mujeres en el experimento. ¿Cómo puede ella
comparar las distribuciones? Para hacerlo, ella necesita
cuantificarlos. Esto es calculando el puntaje promedio
para cada grupo y luego comparando los promedios

La medida calculada es una medida de la tendencia


central de cada distribución.

MEDIDAS DE TENDENCIA CENTRAL


MEDIA ARITMETICA O PROMEDIO

La media es sensible al valor exacto de todas las puntuaciones


en la distribución
La suma de las desviaciones sobre la media es igual a cero

La media es muy sensible a los puntajes extremos.


Un investigador realizó un experimento con tres grupos
de sujetos. La media del primer grupo fue de 70, y
había 150 sujetos en el grupo. La media del segundo
grupo fue de 80 y había 70 sujetos y el tercer grupo
tenía una media de 70 y 125 sujetos. Calcule la media
general de los tres grupos.
Lim Lim f
inferior superior
[13 15) 10
[15 17) 30
[17 19) 15
[19 21) 15
[21 23) 30

Lim Lim f
inferior superior
[10 20) 10
[20 30) 30
[30 40) 15
[50 60) 15
[60 70) 30
LA MEDIANA

La mediana (símbolo Mdn) se define como el valor de escala


por debajo del cual el 50% de los puntajes caen. Por lo tanto,
es lo mismo que P50.
Lim Lim f
inferior superior
[13 15) 10
[15 17) 30
[17 19) 15
[19 21) 15
[21 23) 30

Lim Lim f
inferior superior
[10 20) 10
[20 30) 30
[30 40) 15
[50 60) 15
[60 70) 30
PROPIEDADES DE LA MEDIANA
La mediana es menos sensible que las puntuaciones medias a
valores extremos.

En circunstancias habituales, la mediana está más sujeta a


la variabilidad del muestreo que la media pero menos sujeta
a la variabilidad del muestreo que la moda.

Como la mediana suele ser menos estable que la media de


una muestra a otra, no es tan útil en estadística inferencial
LA MODA La moda se define como la puntuación
más frecuente en la distribución.
Los estadísticos de tendencia central o posición indican donde
se sitúa un grupo de puntuaciones. Los de variabilidad o
dispersión indican si esas puntuaciones o valores están
próximas o dispersas.

Cuanto menor es la variabilidad en una distribución, más


homogénea es la muestra de sujetos en la variable que estamos
midiendo. El caso extremo de máxima homogeneidad es que
todos los valores serían iguales entre sí y no habría variabilidad.
Para cuantificar la dispersión de los datos se distinguen 2 tipos de
índices:
- Los que miden el grado en que las puntuaciones se asemejan o
diferencian entre sí: Amplitud total o rango y amplitud
intercuartílico
- Los que la dispersión de mide con respecto a alguna medida de
tendencia central como la media aritmética: Varianza y desviación
típica.
0,1 3,1
1,2 3,2
1,4 3,2
4,9 3,2
4,9 3,3
5 3,4
4,9 3,2

CURSO A: 3,2 CURSO B: 3,2


Se obtiene restando el valor más bajo de un conjunto de
observaciones del valor más alto.

 Es fácil de calcular y sus unidades son las mismas que las de la


variable.
 No utiliza todas las observaciones (sólo dos de ellas);
 Se puede ver muy afectada por alguna observación extrema;
 El rango aumenta con el número de observaciones, o bien se
queda igual. En cualquier caso nunca disminuye.
A: 3,6 3,7 3,7 3,8 3,8 3,8 4,8

B: 0,4 3,7 3,7 3,8 3,8 3,8 4,8

C: 22 24 25 30 31 31

D: 22 24 25 25 25 28 29 30 30 31 31
La varianza (S2) , se define como la media
de las diferencias cuadráticas de n
puntuaciones con respecto a su media
aritmética

2   X  
X
2
 x 2
Sx  
n n
EJEMPLO:

X x x2
4 -8 64
2
10 -2 4 2 x 136
12 0 0 Sx    27, 2
14 2 4 n 5
20 8 64
S=136
X  12
La varianza no tiene la misma magnitud que las observaciones (ej. si las
observaciones se miden en metros, la varianza lo hace en metros
cuadrados. Si queremos que la medida de dispersión sea de la misma
dimensionalidad que las observaciones bastara con tomar su raíz cuadrada.
Por ello se define la desviación típica, S, como
X X  X (X  X )2
10 -5 25
12
15
-3
0
9
0
X  15
18 3 9
20 5 25 68
 
2
 13,6
5
  13,6  3,69
Propiedades de la varianza y desviación típica

• Ambas son sensibles a la variación de cada una de las


puntuaciones, es decir, si una puntuación cambia, cambia
con ella la varianza.

• La desviación típica tiene la propiedad de que en el


intervalo (x − 1 S, x + 1 S) se encuentra, al menos, el 68 %
de las observaciones Incluso si tenemos muchos datos y
estos provienen de una distribución

• No es recomendable el uso de ellas, cuando tampoco lo


sea el de la media como medida de tendencia central.

Calcular el rango, varianza y desviación típica de las


siguientes cantidades medidas en metros:

3, 3, 4, 4, 5, 7, 10
Intervalos
Lim Lim Frecuencia
Inferior superior Absoluta
20 25 12
25 30 10
30 35 8
35 40 15
40 45 22
50 55 20
COEFICIENTE DE VARIACION (CV):
Sx
CV   100
X
PARA COMPARAR LA VARIABILIDAD
DE GRUPOS CON MEDIAS MUY
DISTINTAS.

Un psicólogo cognitivo mide la reacción en tiempo de 6 mujeres


y 6 hombres a palabras cargadas emocionalmente.

Se registran las siguientes puntuaciones en milisegundos:

Hombres: 250, 310, 360, 470, 425, 270.


Mujeres: 140,190, 350, 360, 400, 230.

Determine que grupo tiene una mayor variabilidad


REPRESENTACION GRAFICA DE LA
VARIABILIDAD.

REPRESENTACION DE CAJA Y BIGOTES:

70

60

50

40

30

20
N= 50

EDAD
Un especialista en lectura prueba la velocidad de lectura de
niños en cuatro clases de inglés de noveno grado. Hay 42
estudiantes en la clase A, 35 en la clase B, 33 en la clase C
y 39 en la clase D. La lectura media velocidad en palabras
por minuto para las clases fueron como sigue: clase A, 220;
clase B, 185; clase C, 212; y clase D, 172.

¿Cuál es la velocidad media de lectura para todas las


clases combinadas?

Un psicólogo biológico registra el número de células en una


región cerebral particular de gatos y perros que responden a
un estímulo táctil. Se usan nueve gatos y nueve perros. Se
registran los siguientes recuentos de células / animal:

GATOS: 15, 28, 33, 19, 24, 17, 21, 34, 12.
PERROS: 17, 34, 23, 25, 27, 22, 21, 19, 23
Calcular las medidas de tendencia central y dispersión

Que tipo de mascotas tiene una mayor variabilidad


MEDIDAS DE POSICION
MEDIDAS DE POSICION
MEDIDAS DE POSICION

DATOS NO AGRUPADOS

DATOS AGRUPADOS

frecuencia absoluta frecuencia absoluta frecuencia absoluta


Distribucion normal
Un breve resumen sobre estadísticos
• Posición
– Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
• Centralización
– Indican valores con respecto a los que los datos parecen
agruparse.
• Media, mediana y moda
• Dispersión
– Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
– Asimetría
– Apuntamiento o curtosis
Estadísticos de posición
• Se define el cuantil de orden a como un valor de la variable por debajo del
cual se encuentra una frecuencia acumulada a.

• Casos particulares son los percentiles, cuartiles, deciles, quintiles,...


Ejemplos
• El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué
peso se considera “demasiado bajo”?
• Percentil 5

Percentil 5 del peso


25
20
frecuencia

15
10
5
0

1 2 3 4 5

Peso al nacer (Kg) de 100 niños


Ejemplos
¿Qué peso es superado sólo por el 25% de los individuos?
• Percentil 75 o tercer cuartil

Percentil 75 del peso


30
25
20
frecuencia

15
10
5
0

50 55 60 65 70 75 80 85

Peso (Kg) de 100 deportistas


Ejemplos
– El colesterol se distribuye simétricamente en la población. Supongamos
que se consideran patológicos los valores extremos. El 90% de los
individuos son normales ¿Entre qué valores se encuentran los individuos
normales?
Percentiles 5 y 95
20
15
frecuencia

10
5
0

180 200 220 240 260

Colesterol en 100 personas


Ejemplos
– ¿Entre qué valores se encuentran la mitad de los individuos “más
normales” de una población?
• Entre el cuartil 1º y 3º
Percentiles 25 y 75
20
15
frecuencia

10
5
0

150 160 170 180 190

Altura (cm) en 100 varones


Diagramas de Tukey
• Resumen con 5 números: Diagrama de cajas de Tukey: Resumen en 5 números
– Mínimo, cuartiles y

0.08
máximo.
– Suelen dar una buena

0.06
idea de la distribución.

densidad

0.04
• La zona central, ‘caja’,

0.02
Mín. P25 P50 P75 Máx.

contiene al 50% central de

0.00
las observaciones.
40 45 50 55 60 65
– Su tamaño se llama ‘rango Velocidad (Km/h) de 200 vehículos en ciudad
intercuartílico’ (R.I.)
Diagrama de cajas de Tukey: Resumen en 5 números
• Es costumbre que ‘los
bigotes’, no lleguen hasta
0.04

los extremos, sino hasta las


0.03

observaciones que se
densidad

separan de la caja en no
0.02

más de 1,5 R.I. P25 P50 P75


0.01

Mín. Máx.
– Más allá de esa distancia
se consideran anómalas, y
0.00

así se marcan. 80 90 100 110 120 130 140

Velocidad (Km/h) de 200 vehículos en autovía


ASIMETRIA

Si bien es fácil tener una idea de si la distribución es simétrica


o no tras ver la representación gráfica (p.e., un histograma o
un diagrama de caja y bigotes), es importante cuantificar la
posible asimetría de una distribución.

Recordemos que cuando la distribución de los datos es


simétrica, la media, la mediana y la moda coinciden. (Y la
distribución tiene la misma forma a la izquierda y la derecha
del centro)

Si bien muchas distribuciones de variables en salud tienden a


ser simétricas y unimodales, en muchos casos la distribución
que encontramos es asimétrica
MEDIDAS DE TENDENCIA CENTRAL
Y SIMETRIA
El coeficiente de asimetría de Pearson

CA=0 Simétrica
CA>0 Asimétrica derecha
CA<0 Asimétrica izquierda

El coeficiente de asimetría de Fisher


(cuando existe más de una moda):

0.20
0.5
0.20

0.4

0.15
0.15

0.3

0.10
0.10

0.2

0.05
0.05

0.1

x s x s
x s
66 % 78 %
78 %
0.00

0.00
0.0

8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14
CURTOSIS
Platicúrtica (aplanada): curtosis < 0

Mesocúrtica (como la normal): curtosis =


Si el CV  5%: Media aritmética muy 0
representativa
Leptocúrtica (apuntada): curtosis > 0
Si el 5%  CV  20%: La media aritmética
es representativa
Coef. de asimetría > 0: la mayoría de los
Si el CV  20%: La media aritmética es datos están por debajo de la media.
poco representativa
Coef. de asimetría < 0: la mayoría de los
datos están por encima de la media.

Aplanada Apuntada como la normal Apuntada


2.0

0.8
0.3
1.5

0.6
0.2
1.0

0.4
0.1
0.5

0.2
x s
x s x s
68 %
57 % 82 %
0.0

0.0
0.0

0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 -2 -1 0 1 2


N(μ, σ): Interpretación probabilista
• Entre la media y
una desviación
típica tenemos
siempre la misma
probabilidad:
aprox. 68%

• Entre la media y
dos desviaciones
típicas aprox.
95%
Tipificación
• Dada una variable de media μ y desviación típica σ, se
denomina valor tipificado,z, de una observación x, a la
distancia (con signo) con respecto a la media, medido
en desviaciones típicas, es decir

• En el caso de variable X normal, la interpretación es


clara: Asigna a todo valor de N(μ, σ), un valor de N(0,1)
que deja exactamente la misma probabilidad por
debajo.

• Nos permite así comparar entre dos valores de dos


distribuciones normales diferentes, para saber cuál de
los dos es más extremo.
Tabla N(0,1) Z es normal

Calcular P[Z<1,85]
Z es normal
Tabla N(0,1)
Calcular P[Z<1,85]

Solución: 0,968 =
96,8%
Ejemplo:
Consideremos que el peso de los niños en el momento del nacimiento se
distribuye normalmente.
Si sabemos que el peso medio en el momento de nacer son 3,25 kgs y la
desviación típica es de 0,82 kgs, ¿cúal es la probabilidad de que el peso de un
niño varón al nacer sea superior a 4 kgs?
Ejemplo:
Consideremos que el peso de los niños varones españoles en el momento del
nacimiento se distribuye normalmente.
Si sabemos que el peso medio en el momento de nacer son 3,25 kgs y la
desviación típica es de 0,82 kgs, ¿cúal es la probabilidad de que el peso de un
niño varón al nacer sea superior a 4 kgs?
Tipificamos la variable aleatoria X, peso de los niños al nacer.
En el proceso de tipificación, al valor de X=4, le corresponde el valor, z=0,9146 :

X  4  3.25
z   0.9146
 0.82
Tabla N(0,1) Z es normal tipificada.

Calcular P[-0,54<Z<1,85]
Tabla N(0,1) Z es normal tipificada.

Calcular P[-0,54<Z<1,85]

Solución: 0,968-0,295= 0,673


Ejemplo 2:
Según un estudio, la altura de los hombres de cierta ciudad es una v.a. X, que
podemos considerar que se distribuye según una ley gaussiana de valor
esperado =175 cm y desviación típica =10 cm . Dar un intervalo para el que
tengamos asegurado que el 50% de los habitantes de la ciudad estén
comprendidos en él.
En este caso tenemos que buscar en la tabla de la N(0,1) que valor me deja el
25% de los datos hacia la derecha y el valor que me deja el 25 % a la izquierda,
de esta manera tenemos el 50% en los valores centrales.
N(175, 10)

Buscamos el valor tipificado que


me da la Probabilidad de 0,25 en
la N(0,1) que es
aproximadamente 0,675

Por lo tanto si “destipificamos”


X  175
0,675   X  (0,675  10)  175  181,75
10
Como es simétrica la distribución,
el valor que nos deja el 25% por
debajo es -0,675
X  175
 0,675   X  (0,675  10)  175  168,25
10
El 50% de la población tiene
un peso comprendido en el
intervalo [168,25,181,75].
Ejemplo: Cálculo con probabilidades
normales

• El colesterol en la población tiene


distribución normal, con media 200 y
desviación 10.

• ¿Qué porcentaje de indivíduos tiene


colesterol inferior a 210?

• Qué valor del colesterol sólo es


superado por el 10% de los individuos.
• El valor del colesterol que sólo supera el 10% de los individuos es el
percentil 90. Calculemos el percentil 90 de la N(0,1) y deshacemos
la tipificación.
• Se quiere dar una beca a uno de dos
estudiantes de sistemas educativos diferentes.
Se asignará al que tenga mejor expediente
académico.
– El estudiante A tiene una calificación de 8 en un
sistema donde la calificación de los alumnos se
comporta como N(6,1).
– El estudiante B tiene una calificación de 80 en un
sistema donde la calificación de los alumnos se
comporta como N(70,10).
• Solución
– No podemos comparar directamente 8 puntos de A
frente a los 80 de B, pero como ambas poblaciones
se comportan de modo normal, podemos tipificar y
observar las puntuaciones sobre una distribución de
referencia N(0,1)
Como ZA>ZB, podemos decir que el
porcentaje de compañeros del mismo
sistema de estudios que ha superado
en calificación el estudiante A es
mayor que el que ha superado B.
Podríamos pensar en principio que A
es mejor candidato para la beca.
Desviaciones de la Normal
• En la colección de datos pueden darse
desviaciones de las características de la
normal
• Cambios en la Kurtosis o concentración
los datos en torno a la media
– Cuando los datos están muy concentrados
en torno a la media se dice que la
distribución es leptocúrtica
– Cuando los datos están muy dispersos se
llama distribución platicúrtica.
EJEMPLO: Al terminar la carrera, un licenciado en psicología y otro
en económicas reciben sendas ofertas de trabajo, con sueldos
anuales de 18.000 y 24.000 €. La media de los sueldos de los recién
licenciados en psicología es de 16.000€, con una desviación típica de
850€. La media de los sueldos de los recién licenciados en
económicas es de 22.000€, con una desviación típica de 1.200€.
¿Cuál de los dos ha tenido una mejor oferta laboral, en relación a los
sueldos de su profesión?
QUIZ: Al terminar la carrera, un profesional en enfermeria y otro en
económicas reciben sendas ofertas de trabajo, con sueldos anuales
de 18.000 y 24.000 €. La media de los sueldos de los recién
licenciados en psicología es de 16.000€, con una desviación típica de
850€. La media de los sueldos de los recién licenciados en
económicas es de 22.000€, con una desviación típica de 1.200€.
¿Cuál de los dos ha tenido una mejor oferta laboral, en relación a los
sueldos de su profesión?

Solución: Calculamos la variación relativa, en cada caso, con respecto a


la media (es decir, tipificamos):

Psicología: (18000-16000)/850=2’35
Económicas: (24000-22000)/1200=1’66

Por tanto, el sueldo ofrecido al enfermero posee mayor variación


relativa; puesto que la variación es positiva, ello implica que el sueldo
es comparativamente mejor

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy