Estadística Descriptiva y Teoría de La Probabilidad
Estadística Descriptiva y Teoría de La Probabilidad
Estadística Descriptiva y Teoría de La Probabilidad
1.1.1. Definiciones
Estadstica descriptiva: es un subcampo de la estadstica que trata de organizar los datos de tal modo que su anlisis sea lo ms simplificado posible. Una vez todo organizado, se pueden usar las tcnicas de la inferencia estadstica, que usa herramientas probabilsticas para extender las conclusiones obtenidas de la muestra a toda la poblacin que se est estudiando.
1.2.
Tipos de variables
Existen diferentes tipos de variables segn su naturaleza: Cuantitativas (o medibles): pueden ser medidas numricamente. o Continuas: toman valores dentro de un rango. o Discretas: toman valores de una lista finita o contable. Cualitativas (o categricas): no pueden medirse numricamente. Cada observacin es asociada a un nmero o a una letra.
No obstante, hay que tener en cuenta que en variables continuas (ingresos, gastos) una tabla de distribucin de frecuencias proporcionara poca informacin por poder tomar muchos valores. Entonces, lo aconsejable es que se renan los datos en intervalos. Para construir intervalos: Rango: distancia entre el valor menor y el valor mayor que toma una variable en la muestra. Longitud de intervalo: una vez sabido el rango, ste lo tenemos que dividir en tantos intervalos que se necesiten. El nmero de intervalos (I) depender de lo que estemos estudiando.
Construir intervalos. Marca de clase: es el punto medio del intervalo en cuestin. Pueden ser tiles para calcular algunas caractersticas de la variable.
En el caso de variables continuas, usando los dos anteriores clculos se obtiene una aproximacin a la media. Esto sucede porque estn en intervalos, y por ello deberemos usar marcas de clase en vez de los valores observados. Las propiedades de la media son: Si cambiamos las unidades de los valores, no hace falta cambiarlos todos, slo har falta que cambiemos el valor final.
Estadstica I 3 Melanie Nogu Fructuoso Linealidad de la media. La media de cualquier combinacin lineal de dos variables es igual a:
La mediana: es el valor central de la muestra de modo que un 50% de las observaciones son iguales o menores que este valor y un 50% son iguales o mayores. Tenemos que ordenar los valores de menor a mayor y el valor de la mitad es la mediana. Para calcularla depender de si el tamao de la muestra es par o impar. o Par: se va a obtener 2 medianas. Si son dos nmeros diferentes, lo que se debe hacer es el clculo de la media de estos dos valores. Si los datos los tenemos en una tabla de frecuencias, la mediana se encuentra mirando la columna de frecuencias acumuladas absolutas . Es decir, buscamos la mitad de nuestra muestra y la mediana ser aqul valor que sobrepase la mitad de sta. Por ejemplo, si tenemos 350 muestras, la mitad es 175, y entonces la media ser el valor de aquella muestra que supere el 175.
En frecuencia relativa acumulada, es aquella que sobrepasa el 50% (o 0,5). La moda: tomar el valor que aparezca con mayor frecuencia. Para detecta si un valor es moda o no debemos mirar los valores de uno por arriba y uno por debajo. Por ejemplo: Valor de x 2 3 4 5 7 8 Frecuencia absoluta 3 1 2 2 1 1 Por lo tanto diramos que 2,4, 5 y 8 son moda pues son los que tienen mayor frecuencia absoluta a su alrededor. La moda absoluta es el valor ms alto. En nuestro ejemplo tomara el valor de 2. En el caso de variables continuas, la moda se denomina clase modal.
No obstante, esto presenta un problema, y es cuando el error total da 0 y da lugar a la INCORRECTA conclusin de que todas las observaciones son iguales al valor central. Entonces, la solucin es elevar los errores al cuadrado y adems lo dividiremos por el total de valores, obteniendo as el error cuadrtico medio. Cuando v sea la media, el ECM se llamar varianza:
La varianza sirve para que si tenemos 2 muestras con la misma media podamos ver cul de ellas est ms dispersa que la otra. La varianza corregida se calcula:
Propiedad importante: para cualquier valor central de v se tiene que: Desviacin tpica: es la raz cuadrada de la varianza y la denotaremos con una S. esto es as pues cuando calculamos algo con la varianza nos da las unidades elevadas al cuadrado. As conseguiremos la misma medida que nuestros datos.
Estadstica I 5 Melanie Nogu Fructuoso Si tenemos 2 datos con unidades diferentes (como aos y quilmetros) no podemos usar la desviacin tpica. Entonces miraremos si estn dispersos con el coeficiente de variacin, el cual no mira unidades de medida, pues es un valor sin medida. Coeficiente de variacin: ste se calcula: Los cuartiles (o rango intercuartlico): indican diferentes posiciones en la muestra, la cual se divide en 4 grupos y los cuartiles sern los ltimos nmeros de los 4 subgrupos. o Primer cuartil: hasta el 25%. o Segundo cuartil: hasta el 50%. o Tercer cuartil: hasta el 75%. o Cuarto cuartil: el 100%. Para ello, deberemos observar la tabla de frecuencia relativa acumulada. Importante: Q2=Mediana. Para calcular el rango intercuartlico haremos:
Dando lugar a que cuanto ms grande sea RI ms desviacin hay en nuestra muestra.
1.4.
Cuando tenemos variables cualitativas las representaremos con diagramas de barras o sectores. Diagrama de barras: o Representan las frecuencias de una variable. o La altura representa la frecuencia relativa acumulada de cada valor. Diagrama de sectores: o Se usa con los valores de la variable. El tamao de los sectores viene determinado por la frecuencia relativa acumulada. En cambio, cuando tenemos variables continuas usaremos: Histogramas: son equivalentes a los diagramas de barras pero representan la frecuencia relativa acumulada de los intervalos. o Son muy usados en estadstica ya que nos puede mostrar como si fuera una probabilidad. Mirando las barras ms altas tenemos el intervalo con ms probabilidades. Diagrama de cajas: son muy tiles para ver el grado de dispersin.
Mayor valor Q3
RI
Media Mediana=Q2 Q1
Menor valor
frecuencias
marginales
Hasta ahora lo que hemos hecho es analizar una a una las variables y ahora haremos un anlisis multivariante. Esto es as porque nos interesa saber cmo estn relacionadas entre s las variables. Variables cuantitativas: tabla de correlacin. Cualitativa+cuantitativa: tabla de contingencias. Por ejemplo, X1 es el nmero de miembros en la familia y X5 es si tienen (1) o no (0) ADSL: X5 X1 2 3 4 5 7 8 0 2 1 0 1 0 0 1 1 0 2 1 1 1 Esta tabla se llama bidimensional de frecuencias. Adems es una tabla de contingencias pues tiene una variable cualitativa (X5). Llamamos x e y a las variables. Los valores que tomen en la tabla tendrn 2 subndices y vienen denotados por n.
Estadstica I 7 Melanie Nogu Fructuoso Frecuencias marginales: buscamos lo mismo, el grado de relacin entre las variables. A partir de la frecuencia conjunta se puede sacar informacin individual. En nuestro ejemplo, podemos saber el total de familias con dos miembros sumando el nmero que tiene o no tiene ADSL. X5 X1 2 3 4 5 7 8 0 2 1 0 1 0 0 4 0.4 1 1 0 2 1 1 1 6 0.6 3 1 2 2 1 1 10 1 0.3 0.1 0.2 0.2 0.1 0.1 1 Distribucin marginal absoluta de X1
Frecuencia marginal de variable X5 Propiedades: las frecuencias marginales cumplen que el sumatorio da el total. Frecuencia condicionada: nos puede interesar tambin la distribucin de una de las variables cuando fijamos un valor de la otra variable. Por ejemplo, de las familias con 3 miembros que tengan ADSL. Por ello, tendremos que buscar la frecuencia relativa conjunta, la cual en nuestro ejemplo es 0.1 si miramos la frecuencia marginal. Ahora miremos la frecuencia condicionada preguntndonos:
1.6.
Covarianza y correlacin
La covarianza es una medida del grado de relacin existente entre dos variables X e Y: . El signo que tenga la covarianza indica cmo cambian las dos variables: >0 para altos valores de una variable tambin lo ser la otra. <0 para altos valores de una variable la otra ser ms baja.
De la covarianza analizamos el signo y no el nmero, por lo tanto no lo podemos interpretar pues slo indica cun grandes son los valores con los que estamos trabajando. La covarianza depende de las unidades de las variables, y por ello no es un buen indicador de la intensidad de relacin. Coeficiente de correlacin: es la solucin al planteamiento anterior. Tambin se llama coeficiente de Pearson.
Como vemos simplemente es un ratio el cual no tiene unidad de medida. Siempre fluctuar entre 1 y -1. Cuanto ms prximo sea a +-1, ms intensa es la relacin. La relacin es nula cuando sea igual a 0. No obstante, que sea prximo a 0 no significa que no haya relacin.
Estadstica I 9 Melanie Nogu Fructuoso 1.7. Medida y varianza de combinaciones lineales de variables Muchas veces las variables se pueden expresar como combinaciones de otras variables. Por ejemplo los costes de una empresa.
Entonces, diremos que una variable X es una combinacin lineal de las variables X1 y X2 si podemos encontrar dos coeficientes a1 y a2 tales que: