Control de Calidad 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 64

Aspectos básicos de

estadística

M E A. Genoveva L. Landa
gelorenzo@uv.mx
Conceptos básicos de estadística
Colectivos estadísticos

Se llama población objetivo o de referencia la cual


interesa conocer. Esta población puede ser:

Concreta o finita, es decir, estar delimitada e identificada,


en el sentido de saber quiénes y cuáles son sus miembros

Hipotética, cuando no sabemos cuántos elementos


conforman la población, lo importante es caracterizar con
precisión cuándo un elemento pertenece o no a ella, lo cual
establece los límites de la población.
Colectivos estadísticos
Población

Población de Objetivo
muestreo
Inferencia

Juicios

Resultados

Muestra
Medición
Análisis Datos
Estudios enumerativos y
estudios analíticos
En la terminología estadística:

Se dice que el estudio es de carácter enumerativo


cuando la población objetivo es concreta o finita,
es decir, puede expresarse en forma explícita.

Se trata de un estudio analítico cuando la


población objetivo es hipotética.
Estudios enumerativos
Para su aplicación requiere una población objetivo
finita (de tamaño N), es decir, bien delimitada
construida bajo criterios que nos puedan garantizar
cierta representatividad.

En tales estudios su interés radica en conocer


cantidades como el total en alguna característica, la
proporción, el promedio o alguna razón (parámetros).
Estudios analíticos
En este tipo de situaciones no interesa la población de
la que se extrae la muestra (población hipotética),
sino la relación causa-efecto definida sobre una
población más general

En tales estudios su interés radica en estudiar


relaciones causa-efecto

Es muy importante modelar relaciones causa-efecto y


probar hipótesis sobre ellas.
Datos

Dato: unidad estadística básica resultado de una


medición.

Los datos son la materia prima de la estadística y


tiene asociada una escala y un significado.

El uso de gráficos y estadísticos descriptivos


depende de las características de los datos.
Escalas de Medición
Los datos o mediciones pueden clasificarse según su
escala en:

No-métricas (Datos Discretos)


Ø Nominales
Ø Ordinales

Métricas (Datos Continuos)


Ø De intervalo
Ø De razón
v Nominal
• Frecuencias y porcentajes
• Barras y pasteles

v Ordinal
Escala de • Estadísticas de orden
medición
v Intervalo
• Distancias (media
aritmética)

v Razón
• Distancias relativas
Mediciones de Tipo Nominal
La escala de medición más baja es la escala nominal. Como
su nombre lo indica, consiste en designar o "nombrar" las
observaciones o clasificarlas en varias categorías mutuamente
excluyentes y colectivamente exhaustivas. Pueden contener la
descripción del grupo o pueden ser codificadas
numéricamente en forma arbitraria, es decir, no existe un
ordenamiento natural en la clasificación. Por ejemplo:

ü Marca de refresco
ü Votará
ü Género
ü Estado Civil
ü País de procedencia
ü Programa de TV preferido
Mediciones de Tipo Ordinal
Siempre que las observaciones no solo difieran de categoría a
categoría, sino que además puedan clasificarse por grados de
acuerdo con algún criterio, se dice que se miden sobre una
escala ordinal. Ejemplos:
Cambio en la calidad de la prestación de un servicio:
1.  Mejor calidad
2.  Igual calidad
3.  Peor calidad
Nivel socio-económico:
1.  Bajo
2.  Medio-bajo
3.  Medio
4.  Medio-alto
5.  Alto
Mediciones de Intervalo
La escala de intervalo es más especializada que la nominal
y la ordinal. Con esta escala, no sólo es posible ordenar las
mediciones, sino que también se conoce la distancia entre
dos mediciones cualesquiera.

Una particularidad de la escala de intervalo es que el valor


de cero es asignado arbitrariamente y por lo tanto, una
diferencia igual en la escala no corresponde con una
diferencia igual en la característica medida.

En esta escala el cero no indica una ausencia total de la


cantidad que se esta midiendo.
Ejemplo: Temperatura, fechas.
Escalas de Razón
El nivel más alto de medición es la escala de razón. En este
tipo de escala, las mediciones consisten de números que, a
igual tasa de razón sobre la escala representan igual tasa de
razón sobre la característica medida.

En esta escala el cero es absoluto.

El doble en la medición significa el doble en la característica


medida.

Mediciones de este tipo se utilizan para analizar dimensiones


físicas como peso y estatura, entre otras.
Variabilidad y estadística

Variabilidad: fluctuaciones en los datos que resultan


de la medición de algún proceso. O, dicho de otra
forma, es la discrepancia observada entre las
mediciones.

La variabilidad está presente en los procesos. El


estudio, cuantificación e interpretación de la
variabilidad es competencia de la estadística.
Variabilidad y estadística

La variabilidad puede ser de dos tipos:


Ø La asociada a causas atribuibles, que conocemos
por experiencia ya que difiere substancialmente en
alguna época, temporada, etc.
Ø La asociada con el azar, es una variabilidad
natural, que no sabemos a que se deba y por eso
decimos que es no explicada.
Medidas descriptivas para el
análisis exploratorio e inicial de
datos
Estadística Descriptiva:
Organización y Presentación de datos

Ø Tablas:
Proporcionan información a través de conteos.
Ø Gráficos:
Proporcionan información fuertemente a través de la
impresión visual.
Ø Estadísticos Descriptivos:
Valores numéricos que proporcionan información
sobre el “comportamiento de los datos”.
Herramientas de organización datos
Nominales

Tablas de Frecuencias

–Frecuencias absolutas (número de casos)

–Frecuencias relativas (proporción de casos)


Herramientas de organización datos
Ordinales

ADICIONAL a herramientas para datos nominales:

•Tablas de frecuencia

–Frecuencias acumuladas (número acumulado de casos)

–Frecuencias relativas acumuladas (proporción

acumulada de casos)
Herramientas de organización de datos en
escalas de intervalo y de razón

Estadísticos descriptivos:

Medidas de tendencia central


Ø Media aritmética
Ø Mediana
Ø Moda

Medidas de dispersión
Ø Rango
Ø Varianza
Ø Desviación estándar
Medidas Tendencia Central
Las medidas de tendencia central, también conocidas
como medidas de posición central, nos informan sobre los
valores medios de la serie de datos. Entre los principales
indicadores se encuentran:

• Media aritmética
• Mediana
• Moda
Media aritmética
La media aritmética (también llamada promedio o
simplemente media) de un conjunto finito de números es
el valor de una serie de datos cuantitativos que se obtiene
a partir de la suma de todos sus valores dividida entre el
número total de datos.

Una muestra con 𝒏   (minúscula) observaciones, tiene una media 𝒙$ .


Una población con 𝑵 (mayúscula) elementos tiene una media 𝝁 .
Media aritmética

•  Si x1 , x2 , K , xn constituyen las realizaciones de una


variable aleatoria entonces la media aritmética
(muestral) es:
n

∑x
i =1
i
x =
n
•  Es el número que se obtiene al dividir la suma de todos
los valores de la variable entre el número total de
observaciones.
Mediana
•  Si x(1) , x(2) , K , x( n ) constituyen las realizaciones, ordenadas
ascendentemente, de una v.a. entonces la mediana es el
elemento en la posición central.

𝑥(𝑛+1)⁄2                                            𝑆𝑖  𝑛  𝑒𝑠  𝑖𝑚𝑝𝑎𝑟


𝑥" = $𝑥𝑛 ⁄2 + 𝑥(𝑛 ⁄2)+1  
                         𝑆𝑖  𝑛  𝑒𝑠  𝑝𝑎𝑟
2
•  Es el valor de la serie de datos que se sitúa justamente en el
centro de la muestra (un 50% de valores son inferiores y otro
50% son superiores).
•  No presentan el problema de estar influido por los valores
extremos, pero en cambio no utiliza en su cálculo toda la
información de la serie de datos.
Moda
•  La moda (Mo) es el elemento que aparece con más
frecuencia en los datos.
•  Es posible que en algunas ocasiones se presente dos
valores con la mayor frecuencia, lo cual se denomina
bimodal o en otros casos más de dos valores, lo que se
conoce como multimodal.
Algunas consideraciones de la
media aritmética
Aunque la media aritmética es la medida de tendencia
central más simple y más utilizada, hay ocasiones en las
que la mediana es más adecuada para describir la
tendencia central de un conjunto de datos.

Lo más positivo de la media es que en su cálculo se utilizan


todos los valores de la serie, por lo que no se pierde
ninguna información.

Sin embargo, presenta el problema de que su valor se


puede ver muy influido por valores extremos, que se
aparten en exceso del resto de la serie. Estos valores
anómalos podrían condicionar en gran medida el valor de
la media, perdiendo ésta representatividad.
Medidas de Dispersión
Las medidas de dispersión, también llamadas medidas de
variabilidad, muestran la variabilidad de una distribución,
indicando por medio de un número, si las diferentes
puntuaciones de una variable están muy alejadas de la
media aritmética.
•  Rango
•  Varianza
•  Desviación estándar
•  Coeficiente de variación
Rango

•  La medida más simple es el rango.

•  El rango mide la amplitud de los valores de la muestra y


se calcula por diferencia entre el valor más elevado y el
valor más bajo.

𝑹 = 𝒅𝒂𝒕𝒐  𝒎𝒂𝒚𝒐𝒓 − 𝒅𝒂𝒕𝒐  𝒎𝒆𝒏𝒐𝒓


Varianza
•  Mide la distancia existente entre los valores de la serie de
datos y la media.

•  La varianza siempre será mayor que cero.

•  Mientras más se aproxima a cero, más concentrados


están los valores de la serie alrededor de la media.

•  Por el contrario, mientras mayor sea la varianza, más


dispersos están.

•  Sus unidades son las de la variable original al cuadrado.


Varianza
Varianza poblacional

2
∑𝑁
𝑖=1(𝑋𝑖 − 𝜇 )
2
𝜎 =
𝑁
Donde:
𝜇 = 𝑀𝑒𝑑𝑖𝑎  𝑃𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝑁 = 𝑇𝑎𝑚𝑎ñ𝑜  𝑑𝑒  𝑙𝑎  𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝑋𝑖 = 𝑉𝑎𝑙𝑜𝑟  𝑑𝑒  𝑙𝑎  𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛  𝑖  𝑒𝑛  𝑙𝑎  𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒  𝑋

Varianza muestral
𝑛 2
∑ 𝑖=1 ( 𝑋𝑖 − 𝑥̅ )
𝑠2 =
𝑛−1
Donde:
𝑥̅ = 𝑀𝑒𝑑𝑖𝑎  𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜  𝑑𝑒  𝑙𝑎  𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑋𝑖 = 𝑉𝑎𝑙𝑜𝑟  𝑑𝑒  𝑙𝑎  𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛  𝑖  𝑒𝑛  𝑙𝑎  𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒  𝑋
Desviación estándar
Se calcula como la raíz cuadrada positiva de la varianza.
Posee la propiedad de medir la variabilidad en las unidades
originales de la variable de interés.

Desviación estándar poblacional

𝜎 = #𝜎 2
Desviación estándar muestral

𝑠 = #𝑠 2
Coeficiente de variación (CV)

Se calcula como cociente entre la desviación estándar y el


valor absoluto de la media aritmética.

𝜎
𝐶𝑉 = ∗ 100
|𝜇 |

𝑠
𝑐𝑣 = ∗ 100
|𝑥̅ |
Coeficiente de variación (CV)

Se utiliza cuando se quiere comparar el grado de dispersión


de dos distribuciones que no vienen dadas en las mismas
unidades o que las medias no son iguales. Es invariante ante
cambios de escala.

Cuanto mayor es CV mayor es la dispersión y menor la


representatividad de la media.

El valor del CV es igual a 0 cuando no existen diferencias


entre los puntos, resultando entonces una distribución
totalmente homogénea.
Representación gráfica de
datos
Herramientas de organización datos
Nominales

Gráficos

–Gráfica de barras

–Gráfico de pastel

–Polígonos de frecuencias
Herramientas de organización datos
Ordinales

Gráficos

–Polígonos de frecuencias acumuladas

–Gráfica de barras

–Gráfico de pastel

–Polígonos de frecuencias
Herramientas de organización de datos
en escalas de intervalo y de razón
Gráficos:

–Histograma

–Diagrama de dispersión

–Diagrama de Caja (Box-Plot)

–Diagrama de Tallo y Hojas (Stem-and LeafDiagram)

–Diagrama de puntos
Coeficiente de Correlación Muestral
Coeficiente de Correlación r de Pearson

El coeficiente de correlación muestral “r” es aquél que se


utiliza cuando se determina estudiar si existe relación entre
2 variables.

No es utilizado para predecir el valor de una variable


partiendo de otra.
Coeficiente de Correlación r de Pearson

•  La correlación indica la fuerza y la dirección de una


relación lineal entre dos variables aleatorias.
•  Se considera que dos variables cuantitativas están
correlacionadas cuando los valores de una de ellas
varían sistemáticamente con respecto a los valores
homónimos de la otra:
•  Si tenemos dos variables (x y y), existe correlación si al
aumentar los valores de x lo hacen también los de y
(correlación positiva) y viceversa .
•  La correlación entre dos variables no implica, por sí
misma, ninguna relación de causalidad.
Diagramas de dispersión
Supuestos:
El coeficiente de Correlación de Pearson parte de los
siguientes supuestos:

•  X y Y son variables aleatorias.

•  No existe una variable explicativa y otra explicada.

•  Existe una relación lineal entre las variables, la cual


está medida por el coeficiente de correlación.
Propiedades del coeficiente r de Pearson

•  El valor de r no depende de cuál de las dos variables estudiadas


es x y cual es y.
•  El valor de r es independiente de las unidades en las cuales x y y
estén medidas.
•  Los valores que puede tomar el coeficiente: -1 ≤ r ≤ 1.
•  r = 1 si y sólo si todos los pares (xi, yi) quedan en una línea recta
con pendiente positiva
•  r = -1 si y sólo si todos los pares (xi, yi) quedan en una línea recta
con pendiente negativa.
•  El cuadrado del coeficiente de correlación muestral da el valor del
coeficiente de determinación que resultaría de ajustar el modelo
de regresión lineal simple.
Interpretación del valor r de Pearson
Valor r Interpretación
r=1 Existe una correlación directa y perfecta entre las variables

0.7 < r < 1 Existe una correlación directa y fuerte entre las variables
r>0.7 y r<1
0 < r ≤ 0.7 Existe una correlación directa y baja entre las variables
r>0 y r ≤ 0.7

r=0 No existe una correlación entre las variables

-0.7 ≤ r <0 Existe una correlación baja e inversa entre las variables
r <0 y r ≥-0.7
-1 <r < -0.7 Existe una correlación fuerte e inversa entre las variables
r <-0.7 y r ≥-1

r = -1 Existe una correlación perfecta e inversa entre las variables


Correlación
En términos muestrales la correlación están dadas por:
n

∑ ( x − x )( y − y )
i i
ˆ ( x, y )
Cov
i =1
ˆ ( x, y ) =
y Corr
n −1 sx s y

Cuando trabajamos con parejas de variables y nos interesa


determinar el nivel de relación o asociación lineal que existe
entre ellas, debemos recurrir al cálculo de la covarianza
n

∑ ( x − x )( y − y )
i i
ˆ ( x, y )
Cov
ˆ ( x, y ) =
Cov i =1
ˆ ( x, y ) =
y Corr
n −1 sx s y
Prueba de hipótesis para r

Partiendo del supuesto de que la distribución conjunta de las variables


X, Y es la distribución normal bivariada. Sea:
H0: ρ = 0
vs
H1: ρ ≠ 0
ρ es el coeficiente de correlación lineal poblacional

r n−2
Estadístico de prueba: t=
1− r2
Regla de decisión; se rechaza H0 con un nivel de significancia de α si
t > tα / 2, n−2
Tablas de Contingencia

ü Cuando se trabaja con variables categóricas, los datos se


organizan en tablas de doble entrada.
ü Cada entrada representa un criterio de clasificación (variable
categórica).
ü Como resultado de la clasificación, las frecuencias aparecen
organizadas en casillas.
ü Las tablas de contingencia son utilizadas para analizar la -
nominales u ordinales –dependencia o independencia entre
variables cualitativas
ü Por ejemplo: se desea clasificar una muestra de personas por su
género, por sus preferencias políticas, nivel de ingresos, entre
otros.  
Tabla r x c general

La tabla de contingencia se define por el número


de niveles que posee cada una de las características
que se están analizando.

Por ejemplo si se tienen dos características (Fuma


y Género) y cada uno tiene dos niveles, entonces
tendríamos una tabla de contingencia 2 x 2.
Tablas r x c general

Característica B
leve mod sev … c Totales

0-10 n11 n12 n12 . n1c n1.


Característica A

11-30 n21 n22 n23 . n2c n2.


31-70 n31 n32 n33 . n3c n3.
… . . . . . .
r nr1 nr2 nr3 . nrc nr.
Totales n.1 n.2 n.3 . n.c N
Frecuencias
Marginales
Estadísticos
Para determinar si dos variables categóricas se encuentran
relacionadas debemos utilizar alguna medida de
asociación, preferiblemente acompañada de su
correspondiente prueba de significancia.

Existe una amplia variedad de procedimientos estadísticos


diseñados para evaluar el grado de asociación entre dos
variables categóricas (nominales y ordinales) en
diferentes tipos de situaciones.
Prueba de Hipótesis

Si las dos características (variables) de


clasificación son independientes, entonces:

Ho: Existe independencia entre las variables


Ha: No existe independencia entre las variables
Chi cuadrado

Proporciona un estadístico propuesto por Pearson que


permite contrastar la hipótesis de que los dos criterios de
clasificación utilizados (dos variables categóricas) son
independientes.

Se basa en la comparación de las frecuencias observadas


con las frecuencias esperadas.

El estadístico chi cuadrada valdrá cero cuando las


variables sean completamente independientes (frecuencias
observadas=frecuencias esperadas)
Chi cuadrada

La regla general para obtener la frecuencia


esperada de cualquier celda está dada por:

Frecuencia esperada = (Total de la columna) x (Total del renglón)


Total de observaciones

n. j × ni.
Frecuencia esperada = eij =
N
Chi cuadrada

Estadístico de prueba
2
2
χ = ∑∑
c r (n
ij − eij )
j =1 i =1 eij

Donde la suma se extiende a


Si χ 2 > χα2,ν con ν = (r –1)(c – 1) grados de
libertad, se rechaza la hipótesis nula de
independencia y se concluye que las variables
categóricas están relacionadas.
Correlación para datos nominales
El estadístico Chi cuadrado de Pearson permite contrastar la
hipótesis nula de independencia en una tabla de contingencia , pero
no nos dice nada sobre la fuerza de la asociación entre las
variables estudiadas.

Para seleccionar una medida concreta hay que tomar en cuenta el


tipo de variable estudiada y la hipótesis que nos interesa
contrastar.

Las medidas nominales sólo aprovechan información nominal.


Únicamente informan del grado de asociación existente , no de
la dirección o naturaleza de tal asociación.
Correlación para datos nominales
Coeficiente de contingencia:
Toma valores entre 0 y 1, pero difícilmente llega a 1.
Su valor máximo depende del número de filas y columnas.
Un coeficiente de cero significa independencia.
Un coeficiente que alcanza su valor máximo indica asociación
perfecta.

Phi :
En tablas de contingencia (2x2) toma valores entre 0 y 1. Su valor
es idéntico al r de pearson.
En tablas donde una variable tiene más de 2 categorías phi puede
tomar valores más grandes que 1 (no recomendable).
En algunas ocaciones en los paquetes estdísticos toma valores
negativos (error).
Correlación para datos nominales

V de Cramer:

Incluye una ligera modificación de phi


Nunca excede el valor de 1.
En tablas de contingencia (2x2) su valor es idéntico al de phi.
Correlación para datos Ordinales
Con datos ordinales ya tiene sentido hablar de la
dirección de la relación.

Una relación positiva indica que valores altos de una


variable se asocian con valores altos de la otra. Y, los
valores bajos, con los valores bajos.

Una relación negativa indica que los valores altos de una


variable se asocian con los valores bajos de la otra, y los
valores bajos con los altos.
Correlación para datos Ordinales
El coeficiente de correlación de Pearson es una
medida de asociación lineal especialmente
apropiada para estudiar la relación entre variables
cuantitativas (de intervalo y razón).

El coeficiente de correlación de Spearman es una


medida de asociación lineal para estudiar la
relación que existe entre variables cualitativas
ordinales.
Correlación para datos Ordinales
Gamma:
Uno de los coeficientes más conocidos es gamma de
Goodman y Kruskal

Toma valores entre -1 y 1


Si la relación entre dos variables es perfecta y positiva
gamma=1
Si la relación entre dos variables es perfecta y negativa
gamma=-1
Si las variables son independientes gamma=0
Correlación para datos Ordinales
d de Somers:
Cuando una de las variables se considera independiente
(X) y la otra dependiente(Y)
Tau –b de Kendall
Toman valores entre -1 y 1 sólo en tablas de contingencia
cuadradas y si ninguna frecuencia marginal vale cero.
Tau –c de Kendall
Toman valores entre aproximadamente -1 y 1 sea cual sea
el número de filas y de columnas en las tablas de
contingencia.
Correlación cualitativa por cuantitativa

El coeficiente de correlación eta sirve para cuantificar el


grado de asociación existente entre una variable
cuantitativa (medida en escala de intervalo o razón) y
una variable categórica (medida en escala nominal u
ordinal) .

Se trata de un coeficiente que no supone linealidad y


cuyo cuadrado puede interpretarse como la proporción de
varianza de la variable cuantitativa que esta explicada por
la variable categórica.
Resumen
Variable 1 Variable 2 Coeficiente

Cuantitativa-razón Cuantitativa-razón r de Pearson

Cualitativa-nominal Cualitativa-nominal V de Cramer

Cualitativa-ordinal Cualitativa-ordinal Spearman

Cualitativa- Cuantitativa-
Eta
(nominal, ordinal) (Intervalo, razón)

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy