Apuntes

Estadística
Escuela Politécnica de Ingeniería de Gijón
Tema 0 Estadística 1 / 425

Temario
1
Estadística descriptiva.
2
Modelos de probabilidad.
3
Inferencia estadística.
4
Análisis multivariante.
5
Análisis de la fiabilidad.

Tema 1:
Estadística descriptiva

Introducción la Estadística Descriptiva
Primeros conceptos
A. Tablas de frecuencias
B. Representaciones gráficas
B1. Diagrama de barras
B2. Diagrama de sectores
B3. Histograma
B4. Diagrama de caja
C. Medidas descriptivas univariantes

C1.a Medidas de tendencia central
C1.b Otras medidas de posición
C2. Medidas de dispersión

Objetivo de la Estadística Descriptiva
La necesidad de obtener conclusiones acerca de cierta característica (o
variable) de los individuos de una población en estudio (diámetro de los
tornillos, salario de los trabajadores, etc) es habitual en muchos campos
como la ingeniería, la economía, etc.
Por diversas razones (limitaciones intrínsecas, temporales, económicas,
etc) solo se puede estudiar esa característica en un subconjunto de
dicha población (muestra).
El primer paso consiste en procesar la información disponible acerca
de la muestra, y representarla de manera comprensible, utilizando
tablas, gráficos y medidas que nos permitan analizarla
convenientemente. De ello se ocupa la Estadística Descriptiva.

Alcance de la Estadística Descriptiva
La Estadística Descriptiva es una parte de la Estadística que se

dedica a analizar y representar los datos de una muestra.
Este análisis es muy básico, pero fundamental en todo estudio.
Aunque hay tendencia a generalizar a toda la población las
primeras conclusiones obtenidas tras un análisis descriptivo, su
poder inferencial es mínimo y debería evitarse tal proceder.
Otras son las ramas de la estadística que se centran en la
generalización a la población (Inferencia Estadística,
habitualmente basada en contrastes de hipótesis).

Primeros conceptos
Población (population): Colección de individuos o unidades sobre

el que se realiza el estudio. Ejemplo: conjunto de jóvenes
asturianos que están fuera de casa en la franja horaria de 9 pm a
11 pm.
Muestra (sample): Colección de individuos escogidos dentro de la
población, para los cuales se tienen datos de la(s)
característica(s) estudiada(s). Ejemplo: conjunto de jóvenes
encuestados.
Tamaño de Muestra (sample size): Número de elementos en la
muestra. Lo denotaremos por n. Ejemplo: número total de
jóvenes encuestados.

Primeros conceptos (continuación)
Variable estadística (o, simplemente, variable): Cada uno de los

atributos o caracteres estudiados en los individuos la muestra.
Ejemplo: edad (X ), dinero que gasta a la semana (Y ), etc.
Categoría o valor: Cada uno de los distintos valores o categorías
de la variable en la muestra. Notación: xi con i = 1, . . . , k . Si son
numéricos, se asume que están ordenados de menor a mayor.
Ejemplo: x1 =15 años.
Intervalo de valores: En algunas representaciones gráficas, los
valores de la variable se agrupan en intervalos. Notación: Ii con
i = 1, . . . , k .
Ejemplo: [30, 50] (variable medida en e).

Posibles formas de sintetizar la información
Una vez depurados los datos, identificado los posibles errores,
etc., el siguiente paso consistirá en sintetizar la información
mediante: (A) Tablas, (B) Gráficos y (C) Medidas descriptivas.
¿Cuál elegir en cada caso?

Tipos de variables estadísticas
Para saber qué representación es más adecuada, tenemos que saber

qué tipos de datos nos podemos encontrar. Las variables se clasifican
en:
Cualitativas o factores o de texto: sus modalidades no son valores
numéricos.
Nominales: no existe una relación de orden “natural” entre sus
diferentes modalidades. Ejemplo: Estado Civil, Grupo Sanguíneo,
Sexo, Raza, Religión, etc.
Ordinales: sus modalidades no son cuantificables, pero es posible
establecer algún tipo de orden entre ellas. Ejemplo: Nivel de
Estudios (Primarios, Medios, Superiores), Capacitación Laboral
(Baja, Media, Alta), etc.
Cuantitativas o numéricas: sus modalidades llevan implícitamente
asignada una magnitud numérica. A su vez se dividen en:
Discretas. Ejemplo: número de fallos, edad, ...
Continuas. Ejemplo: Velocidad, Tiempo, Diámetro ...

Ejercicio 1.1.1
Determina, en cada caso, cuál es la población y cuál la variable que se
quiere estudiar. Especifica si es una variable cualitativa o cuantitativa,
determinando, en este último caso, si es discreta o continua:
1 Tiempo dedicado a las tareas domésticas por las personas que
trabajan fuera del hogar.
2 Estudios que quieren hacer los estudiantes de un centro escolar
al terminar la Educación Secundaria Obligatoria.
3 Intención de voto en unas elecciones autonómicas.
4 Tiempo que dedican a ver televisión los estudiantes universitarios
en España.
5 Número de aparatos de radio que hay en los hogares españoles.

Representación adecuada según el tipo de datos
TIPO (A) (B) (C)

DE TABLA GRÁFICOS MÁS MEDIDAS DESCRIPTIVAS
VARIABLE FREC. HABITUALES POSICIÓN DISPERSIÓN
Cualitativa-nominal
Moda
(sexo, máquina, ...)
Moda
Cualitativa-ordinal
Mediana
(nivel estudios, ...) Diagrama de barras
Sí Percentiles
Diagrama de sectores
Moda
Cuantitativa-discreta Media
Rango
(no días, no hijos, ...) Mediana
Rec.intercuartílico
Percentiles
Varianza
Media
Cuantitativa-continua Histograma Desv.estándar
No Mediana
(peso, consumo, ...) Diagrama de caja
Percentiles

Frecuencias y porcentajes
Para comprender cómo se construyen tablas y gráficos y cómo se

calculan medidas estadísticas, necesitamos introducir los conceptos
de frecuencia y porcentaje de un valor o categoría.
Frecuencia (frequency) (ni ):
de una categoría o valor xi : Número de elementos de la muestra
que toman ese valor.
de un intervalo de valores Ii : Número de elementos de la muestra
cuyo valor cae dentro de ese intervalo.
Porcentaje (percent) (p̂i ):
de una categoría o valor xi : Porcentaje de elementos de la muestra
que toman ese valor.
de un intervalo de valores Ii : Porcentaje de elementos de la
muestra cuyo valor cae dentro de ese intervalo.

Variables dicotómicas
Un tipo especial de variables cualitativas lo constituyen las

variables dicotómicas, es decir, las que solo admiten dos valores
posibles, para indicar si cada individuo examinado cumple o no
cierta propiedad.
En este caso, los porcentajes de ambos valores suman el 100% y
se denotan habitualmente por p̂ y 100% − p̂.
Ejemplo: el porcentaje de hombres en una muestra de 200
personas con 180 hombres es p̂ = 90%.

A. TABLA DE FRECUENCIAS
Una tabla de frecuencias está formada por tres columnas. En la
primera de ellas se enumeran los distintos valores de la variable
(en orden creciente, si la variable es ordinal o numérica), en la
segunda la frecuencia de cada uno y en la tercera el
correspondiente porcentaje.
Ejemplos:
Tipo de defecto Frecuencia Porcentaje

Rotura 66 33%
Polvo 68 34%
Mal soldado 54 27%
Otros 12 6%
200 100%

B. REPRESENTACIONES GRÁFICAS
En este curso, veremos las siguientes representaciones gráficas:
B1. Diagrama de barras (bar chart)
B2. Diagrama de sectores (pie chart)
B3. Histograma (histogram)

120
100
B4. Diagrama de caja (box-plot)

80
count
60
40
20

B1. Diagrama de barras
Se parte de un sistema de ejes de coordenadas.

Abscisas: se representan los distintos valores/modalidades de la
variable estadística.
Para cada valor/modalidad, se traza una barra o rectángulo de
altura igual a su frecuencia o su porcentaje.
Ejemplos y variantes:
Comparación de preferencias entre una marca conocida y la marca "blanca"

B2. Diagrama de sectores
Se divide un círculo en k sectores.

El área de cada sector debe ser proporcional a la frecuencia del
correspondiente valor de la variable.
Ejemplos y variantes:

Gráfica de sectores vs diagrama de barras
¿Qué tipo de defecto ha ocurrido más?

Gráfica de sectores vs diagrama de barras
¿Qué tipo de defecto ha ocurrido más?
El diagrama de sectores es en general

menos informativo que el de barras

¿Para qué tipo de variables tienen sentido?
Los diagramas de barras o sectores sólo deberían usarse para

variables que toman pocos valores distintos, es decir, de tipo texto
o numéricas discretas.
En el caso de las numéricas continuas no supondrían ningún
resumen de la muestra.

Ejercicio 1.1.8
El diagrama de sectores adjunto describe el número de pruebas
aceleradas de desgaste necesarias para reventar los 2000 neumáticos
que se sometieron a dichas pruebas.
3 pruebas
80%
4 pruebas
5%
2 pruebas
10%
1 prueba
5%
1 Interpreta el diagrama de sectores.
2 ¿Cuántos neumáticos reventaron en la primera prueba? ¿Y en la
tercera?
3 Obtén la tabla de frecuencias asociada a la variable “número de
pruebas necesarias para reventar el neumático”.
4 Representa el diagrama de barras de frecuencias asociado a
estos datos.
B3. Histograma
Previamente se agrupan los valores de la variable en

intervalos, generalmente de igual longitud.
Se utiliza un sistema de ejes de coordenadas.
Abscisas: extremos de los intervalos de agrupación de la variable.
Para cada intervalo de agrupación, Ii , se levanta un rectángulo de
altura igual a
ni (Histograma de frecuencias)
p̂i (Histograma de porcentajes)
p̂i /(100 · anchura(Ii )) (Histograma de densidades)
En este caso, la suma de las áreas de todos los rectángulos es 1.
Volveremos a los histogramas de densidad antes de introducir el

concepto de función de densidad en el tema 2.

Ejemplos de histogramas

Histograma vs diagrama de barras
En el caso de variables continuas, el histograma ...

ofrece una visión realista y resumida del comportamiento de la
variable y
tiene en cuenta la cuantía de cada valor numérico al representarlo
en el eje horizontal, no son simples etiquetas.

Ejercicio 1.1.18
Durante un periodo de 20 días se tomaron al azar cinco
observaciones diarias del diámetro de los pistones que se usan en un
motor de combustión interna. Con los 100 datos obtenidos se obtuvo
el siguiente histograma:
3’955 3’965 3’975 3’985 3’995 4’005 4’015 4’025 4’035 4’045
1 Según este histograma, ¿parece haberse presentado alguna

anomalía en el proceso de producción?
Ejercicio 1.1.18 (cont.)
Al mes siguiente, una vez solucionados ciertos desajustes puntuales,
se volvieron a recoger datos y, con ellos, se obtuvo el siguiente
histograma:
3’955 3’965 3’975 3’985 3’995 4’005 4’015 4’025 4’035 4’045
2 ¿Crees que puede suponerse que la distribución del “diámetro de

los pistones” es simétrica?
3 ¿Alrededor de qué valor estaría la media?
3’955 3’965 3’975 3’985 3’995 4’005 4’015 4’025 4’035 4’045
4 Si las especificaciones de distintos clientes son las que se

describen a continuación, representa dichas especificaciones en
el correspondiente histograma y responde, en cada caso, qué
debería ocurrir con el diámetro de estos pistones para que la
producción mejore respecto a esta característica de calidad?
Especificaciones para el cliente A: 40 01 ± 00 015.
Especificaciones para el cliente B: 40 01 ± 00 035.
Especificaciones para el cliente C: 30 99 ± 00 015.
Especificaciones para el cliente D: 30 99 ± 00 035.
Los diagramas de caja son una presentación visual que describe
varias características importantes de un conjunto de datos, tales
como la dispersión y simetría.
Esta representación gráfica nos ayudará además a detectar la
existencia de valores extremos.
Los componentes principales de este gráfico son un rectángulo, la
“caja”, y dos brazos, los “bigotes”.
Ejemplo:
Explicaremos en detalle la forma de realizar un diagrama de caja

cuando hayamos introducido las medidas descriptivas
Ejercicio 1.1.22
Una empresa de ingeniería que se dedica a obra privada necesita
comparar la durabilidad de cierto material que debe ser expuesto a la
intemperie en dos ubicaciones distintas: A y B. Una de las variables
que influye en la durabilidad del material es la temperatura del lugar en
el que se va a utilizar. Se han recogido los valores de las temperaturas
medias diarias en los dos lugares durante los 365 días del último año.
La información viene resumida en los siguientes diagramas de caja.
UBICACIÓN A UBICACIÓN B
30
28
26
24
22
20
18
16
14
12
10

30
28
26
24
22
20
18
16
14
12
10
1 ¿Dónde han sido, en general, más altas las temperaturas durante

dicho año: en la ubicación A o en B?
2 ¿Dónde han variado más las temperaturas durante dicho año: en
A o en B?
30
28
26
24
22
20
18
16
14
12
10
3 Para garantizar que el material tenga un tiempo de vida superior a

los dos años es necesario que las temperaturas medias diarias no
estén por debajo de los 15o C en un porcentaje superior al 25% de
los días, y además no estén por debajo de los 0o C más de 5% de
los días. ¿Alguna de las dos ubicaciones satisface ambas
restricciones? ¿Alguna de las dos ubicaciones incumple ambas
restricciones?
Representaciones gráficas recomendadas según el
tipo de variable
TIPO DE GRÁFICOS MÁS

VARIABLE HABITUALES
Cualitativa-nominal
Cualitativa-ordinal Diagrama de barras
(nivel estudios, ...) Diagrama de sectores
Cuantitativa-discreta
(no días, no hijos, ...)
Cuantitativa-continua Histograma
(peso, consumo, ...) Diagrama de caja

C. MEDIDAS DESCRIPTIVAS
Consideremos los datos siguientes acerca de la edad de 20

estudiantes de primer curso de ingeniería elegidos al azar.
19 18 20 19 18 18 18 19 20 24
19 23 19 20 22 20 19 18 19 20
Queremos resumirlos por medio de varias medidas descriptivas,

para poder contestar a preguntas del tipo:
¿Cuál es la edad media?
¿Entre qué dos valores se encuentra el 50% de las edades
centrales?
¿Son las edades de unos y otros parecidas entre sí, o están muy
dispersas?

Tipos de medidas descriptivas
C1. Medidas de posición: determinan valores que ocupan cierta

posición en la muestra.
C1.a Medidas de posición central o tendencia central: nos dan una
idea del valor central de los datos. Ejemplo: la media aritmética de
las edades, la edad más frecuente en la muestra, etc.
C1.b Otras medidas de posición: proporcionan valores que ocupan
otras posiciones (no centrales) en la muestra. Ejemplo: el valor que
separa al 75% de los más jóvenes del 25% restante de los menos
jóvenes, etc.
C2. Medidas de variabilidad o dispersión: nos proporcionan
información acerca del grado de dispersión o separación entre los
datos.

• Media aritmética
C1.a Tendencia central • Mediana
C1. Posición • Moda
• Percentiles
C1.b Otras
• Cuartiles
• Rango o recorrido
• Recorrido intercuartílico
C2. Dispersión
• Varianza
• Desviación estándar o típica

C1.a Medidas de tendencia central
Media aritmética (mean): suma de todos los datos dividida entre

el número de datos.
Mediana (median): valor que ocupa la posición central, una vez
ordenados los datos de menor a mayor.
Moda (mode): valor que más se repite en la muestra.

Media aritmética o media
Definición: suma de las n observaciones dividida entre n.

x1 n1 + . . . + xk nk
Cálculo: x =
n
Ejemplo: Se recogió el número de averías mensual de una
máquina durante el año anterior. Los datos recogidos fueron:
0 1 0 0 0 1 1 2 0 0 0 0
El número medio de averías por mes en el año anterior ha sido:
0+1+0+0+0+1+1+2+0+0+0+0
=
12
0 · 8+1 · 3+2 · 1
≈ 00 42.
12

Limitaciones de la media
El valor de la media resulta muy afectado por los valores atípicos

(outliers).
Ejemplo 1. Un abuelo tiene 4 nietos con las siguientes edades
respectivas: 4, 5, 6 y 30 años. La media aritmética, 110 25 años,
nos da una idea equivocada o, al menos, incompleta, del valor
central en la muestra.
Ejemplo 2.
El salario medio en España en 2002 era de 19.808 euros anuales.
Sin embargo, la mitad de los españoles asalariados cobraban
menos de 15.832 euros anuales.
¿Son contradictorios estos datos? ¿El sueldo medio refleja
correctamente el poder adquisitivo de la gente?

Mediana
Definición1 : Si ordenamos los datos muestrales de menor a

mayor, la mediana es el valor central (es decir, el valor que deja,
aproximadamente, al 50% de los datos por debajo y al 50%
restante, por encima).
Cálculo: Ordenamos los n valores de menor a mayor. Si n es
impar, tomamos el valor que ocupa la posición central. Si n es
par, tomamos la semisuma de los dos valores centrales.
Ejemplo: Queremos calcular la mediana de los siguientes datos
5 1 3 3 4 2 3 4 4 5
Paso 1.- Ordenamos los datos: 1 2 3 3 3 4 4 4 5 5.
Paso 2.- Localizamos los dos valores centrales (n = 10 es par):
1 2 3 3 3 4 4 4 5 5.
Paso 3.- La mediana es la semi-suma de ambos:
3+4
Me(X ) = = 30 5.
2
1
La definición formal de este concepto queda fuera del alcance de este curso.
Limitaciones de la mediana
La mediana no es, en general, más adecuada que la media aritmética,
como medida de tendencia central.
Comparemos los expedientes académicos de dos estudiantes de
ingeniería: Beatriz y Gabriel.
Establecemos la siguiente codificación:
Aprobado = 1, Notable = 2, Sobresaliente = 3, M. Honor = 4.
Expedientes académicos:
Beatriz Gabriel
valor no créd. valor no créd.
1 - Aprobado 150 1 - Aprobado 180
2 - Notable 48 2 - Notable 54
3 - Sobresaliente 18 3 - Sobresaliente 6
4 - Matr. Honor 24 4 - Matr. Honor 0
Beatriz tiene un expediente más brillante que Gabriel. Sin embargo,
esto no queda reflejado en la mediana. Las medianas de ambos
expedientes coinciden.
Moda
Definición: El valor más frecuente en la muestra.

Cálculo: Escogemos el valor o los valores que aparezcan con
mayor número de repeticiones en la muestra (es decir, el valor o
valores que tengan frecuencia máxima).
Ejemplos:
Ejemplo 1:
Datos: 1 2 1 4 2 2 4 4 4 5.
La moda es el valor 4.
Ejemplo 2:
Datos: 1 2 1 4 2 2 4 4 5
Las dos modas son los valores 2 y 4.

Limitaciones de la moda
La moda es la única opción posible para variables de tipo cualitativo

nominal.
No debe usarse para variables cuantitativas-continuas.
En el caso ordinal, es susceptible a ser influenciada por valores
similares.
Para saber el éxito de una película el día de su estreno se pregunta a
los asistentes si la película les ha gustado o no:
No gusta Gusta
3 8
A los asistentes que les ha gustado, se les pide una valoración más
detallada:
No gusta Aceptable Buena Muy buena Obra maestra
3 2 2 2 2

Medidas de tendencia central según el tipo de variable
TIPO DE MEDIDAS DESCRIPTIVAS

VARIABLE DE POSICIÓN
Cualitativa-nominal
Moda
Cualitativa-ordinal Moda
(nivel estudios, ...) Mediana
Moda
Cuantitativa-discreta
Mediana
(no días, no hijos, ...)
Media
Cuantitativa-continua Mediana
(peso, consumo, ...) Media

Ejercicio
Describe mediante la(s) medida(s) de posición de tendencia central
adecuada(s) las siguientes variables:
1 Tipos de defecto encontrados en unas piezas:
Tipo de defecto Frecuencia Porcentaje
Rotura 66 33%
Polvo 68 34%
Mal soldado 54 27%
Otros 12 6%
200 100%

Ejercicio (cont.)
2 El diagrama de sectores adjunto describe el número de pruebas
aceleradas de desgaste necesarias para reventar los 2000
neumáticos que se sometieron a dichas pruebas.
3 pruebas
80%
4 pruebas
5%
2 pruebas
10%
1 prueba
5%

Ejercicio (cont.)
3 En un experimento sobre conservación de alimentos, diversos
expertos valoran diversas muestras de salmón atlántico (Salmo
salar ) en una de las siguientes categorías:
Podrido < Marginal < Aceptable < Fresco < Muy fresco
Los resultados obtenidos son los siguientes:

Podrido Marginal Aceptable Fresco Muy fresco
5 35 15 20 25

Ejercicio (cont.)
4 Tiempo de ensamblaje de los últimos 15 automóviles en
producción:
8.1 8.7 8.7 8.8 8.9
8.9 9 9 9 9.1
9.1 9.2 9.3 9.3 9.9

• Percentiles
C1.b Otras
• Cuartiles
C2. Dispersión
• Varianza

C1.b Otras medidas de posición: los percentiles
En ocasiones, necesitamos determinar posiciones no centrales de
los datos muestrales.
Ejemplo: Aproximadamente el 97% de los bebés de 12 meses
mide al menos 70 cm. Solo el 3% de los bebés de esa edad mide
70 cm o menos. Si un bebé de 1 año mide menos de 70 cm, es
necesario estudiar las causas, por si existe algún problema
alimentario, etc. 70 cm es el percentil 3 de la variable “estatura”,
para los bebés de la muestra.
En general, podemos calcular 99 percentiles en una muestra.
Percentil (percentile or centile) j (j = 1, 2, . . . , 98, 99): valor que
(aprox.) deja por debajo al j% de los individuos de la muestra y al
(100 − j)% por encima2 .
Además de los 99 percentiles anteriores, R considera además el
percentil 0 y el percentil 100, que corresponden con el valor
mínimo y máximo, respectivamente, de la muestra.
2
La definición formal de este concepto queda fuera del alcance de este curso.
C1.b Otras medidas de posición: los percentiles
A los tres valores que dividen al conjunto de datos de la muestra

numéricamente ordenados en cuatro partes iguales se les llama
cuartiles (quartiles) y se les denota por ci , i = 1, 2, 3. Así, c1 es el
percentil 25, c2 el percentil 50 o mediana y c3 el percentil 75.

Ejercicio 1.1.16
En una muestra de 100 obleas de silicio, se determinó la cantidad de
partículas contaminantes en cada una de ellas antes de cierto proceso
de lavado y se obtuvieron las siguientes frecuencias:
Cantidad de Partículas 0 1 2 3 4 5
No de obleas 3 15 44 26 11 1
1 ¿Qué porcentaje de las obleas muestreadas tenían al menos una
partícula? ¿y, al menos, cuatro partículas?
2 ¿Qué porcentaje de las obleas muestreadas tenían más de una y
menos de cuatro partículas?
3 Realiza un diagrama de barras con los porcentajes en el eje
vertical.
4 Calcula el número medio de partículas contaminantes por cada
oblea de silicio.
5 Calcula la moda, mediana (y rango) de la variable anterior.
6 Calcula el primer cuartil, el percentil 10, el tercer cuartil y el
percentil 75 de la variable anterior.
• Percentiles
C1.b Otras
• Cuartiles
C2. Dispersión
• Varianza

¿Para qué son necesarias las medidas de dispersión?
Ejemplo 1
Supongamos que somos agentes de compras para una empresa
de fabricación.
Tenemos 2 proveedores diferentes.
Tras varios meses de operación, observamos que ambos
proveedores tardan, en promedio (media aritmética) 100 3 días en
cumplir con los pedidos.
Diagramas de barras, que resumen el número de días de trabajo
necesarios para cumplir con los pedidos de ambos proveedores:
50 50
40 40
30 30
Porcentaje
Porcentaje
20 20
10 10
9 10 11 7 8 9 10 11 12 13 14 15
Número de días Número de días
¿Qué proveedor preferiremos?

¿Para qué son necesarias las medidas de dispersión?
Ejemplo 2
Hemos preguntado a Juan, Ana, Emma y Beatriz cuántas horas al día

han dedicado al estudio individual. Sus respuestas están recogidas en
la tabla adjunta:
Juan Ana Emma Beatriz

Octubre 3 0 0 0
Noviembre 3 2 0 0
Diciembre 3 3 6 3
Enero 4 8 7 10
En tu opinión, ¿cuál de los 4 estudiantes ha sido el más regular? ¿y el

menos regular?

Tipos de medidas de dispersión
La media aritmética, la mediana y la moda proporcionan una idea

acerca de las posiciones centrales en los datos de la muestra.
Los percentiles nos proporcionan una idea acerca de otras
posiciones no centrales.
Las medidas de variación o dispersión indican si los valores
muestrales están muy concentrados o poco concentrados en
torno a las posiciones centrales. Podemos definir varios tipos de
medidas de dispersión basados en:
la diferencia entre los valores máximo y mínimo de la variable en la
muestra (rango o recorrido),
las distancias de los distintos valores con respecto a la media
aritmética (varianza, desviación típica),
la diferencia entre los percentiles concretos: por ejemplo, el
percentil 75 y el percentil 25 (recorrido intercuartílico),
etc.

C2. Medidas de dispersión
Rango o recorrido (range): diferencia entre el máximo y el mínimo

valor en la muestra.
Recorrido intercuartílico (interquartile range): diferencia entre el
percentil 75 (tercer cuartil) y el percentil 25 (primer cuartil).
Varianza (variance): promedio ajustado de las distancias
cuadráticas a la media.
Desviación estándar o típica (standard deviation): raíz cuadrada
positiva de la varianza.

Rango o recorrido
Definición: Diferencia entre los valores máximo y mínimo de la

variable en la muestra.
Cálculo: R(X ) = xk − x1
Limitaciones: Demasiado influenciado por los valores atípicos.
Ejemplo 1:
20 19 21 20 19 19 19 20 21 21
20 21 20 21 21 21 20 19 20 21
R(X ) = 21 − 19 = 2
Ejemplo 2:
20 19 21 20 19 19 19 20 21 21
20 21 20 21 21 21 20 19 20 54
R(Y ) = 54 − 19 = 35
Ejemplo 3:
19 30 54 20 25 37 28 41 33 34
20 43 20 27 45 32 50 19 30 40
R(Z ) = 54 − 19 = 35
Recorrido intercuartílico
Definición: Diferencia entre el cuartil 3 y el cuartil 1.

Cálculo: RIC(X ) = c3 (X ) − c1 (X )
Limitaciones:
Nada influenciado por los valores atípicos.
No tiene en cuenta todos los datos muestrales.
Relación con el diagrama de caja: el recorrido intercuartílico
coincide con la anchura de la caja.
120
100
recorrido intercuartílico
80
count
60
40
20

Ejercicio
El histograma adjunto representa el resumen de una muestra de
consumo de coches. En el eje de ordenadas se representa la
frecuencia de cada intervalo, es decir, el número de coches con
consumo entre esos valores:

Ejercicio (cont.)
Justifica la veracidad o falsedad de las siguientes afirmaciones:

1 La moda es mayor o igual que 24 y menor o igual que 250 5.
2 La mediana es 00 5.
3 La mediana es mayor o igual que 240 5.
4 La media está entre 230 5 y 260 5.
Ejercicio (cont.)
Justifica la veracidad o falsedad de las siguientes afirmaciones:

5 El segundo cuartil coincide con la mediana.
6 El primer cuartil es menor o igual que 25.
7 El recorrido intercuartílico es menor o igual que 3.
8 El rango es 3.
Varianza
Idea gráfica: promedio de cantidades relacionadas con distancias
de valores al centro.
x
xi
Definición: media aritmética ajustada de las distancias

cuadráticas entre los valores de la variable a la media.
Xk
(xi − x)2 ni
i=1
Cálculo3 : s2 =
n−1
Se mide en las unidades de la variable elevadas al cuadrado.
(Ejemplos: m2 , cm2 , g2 , etc.)
3
(Se divide entre n − 1 en lugar de n por cuestiones relacionadas con la
estimación de parámetros poblacionales -Inferencia estadística. A veces se utiliza el
nombre de cuasivarianza.)
Ejemplo de cálculo de la varianza
Datos: 1 2 1 4 2 2 4 4 4 5.
Paso 1: calculamos la media aritmética
1+2+1+4+2+2+4+4+4+5
x= = 20 9
10
Paso 2: la varianza es
(1 − 20 9)2 + (2 − 20 9)2 + (1 − 20 9)2 + . . . + (5 − 20 9)2
s2 = =
9
(1 − 20 9)2 · 2 + (2 − 20 9)2 · 3 + (4 − 20 9)2 · 4 + (5 − 20 9)2 · 1
=
9
= 20 1

Desviación estándar o típica
Definición: Raíz cuadrada positiva de la varianza.

v
u k
uX
u
u (xi − x)2 ni
t i=1
Cálculo: s =
n−1
Ejemplo:
Datos: 1 2 1 4 2 2 4 4 4 5.
Paso 1: calculamos la varianza, s2 = 20 1.
Paso 2: calculamos la raíz cuadrada de la varianza
√
s = 20 1 ≈ 10 45.

Ejercicio
Dados los datos
3, 3, 5, 7, 7 ,
calcula el rango, el recorrido intercuartílico, la varianza y la desviación
típica.

Mediciones adecuadas según el tipo de datos
TIPO DE MEDIDAS MEDIDAS

VARIABLE POSICIÓN DISPERSIÓN
Cualitativa-nominal Moda
Moda
Cualitativa-ordinal
Mediana
(nivel estudios, ...)
Percentiles
Moda
Cuantitativa-discreta Media
Rango
(no días, no hijos, ...) Mediana
Rec.intercuartílico
Percentiles
Varianza
Media Desv.estándar
Cuantitativa-continua
Mediana
(peso, consumo, ...)
Percentiles

Ejercicio 1.1.19
En un estudio sobre la calidad de la producción de cuatro empresas,
se ha anotado el número de artículos defectuosos por lote para los
lotes producidos en un día.
1 Obtén el número mediano de artículos defectuosos por lote en
cada una de las 4 empresas, a partir de los datos siguientes:
i) En la primera empresa se fabricaron 5 lotes y se obtuvieron los
siguientes datos: 1, 3, 7, 9, 14.
ii) En la segunda empresa se fabricaron 4 lotes y se obtuvieron los
siguientes datos: 1, 3, 7, 9.
iii) En la tercera empresa se fabricaron 50 lotes y se obtuvieron los
siguientes datos:
No defectuosos (xi ) 1 3 7 9
Porcentaje 20% 40% 30% 10%
iv) En la cuarta empresa se fabricaron 100 lotes y se obtuvieron los
siguientes datos:
No de lotes 20 10 20 50
i) En la primera empresa se fabricaron 5 lotes y se obtuvieron los
siguientes datos: 1, 3, 7, 9, 14.
ii) En la segunda empresa se fabricaron 4 lotes y se obtuvieron los
siguientes datos: 1, 3, 7, 9.
siguientes datos:
Porcentaje 20% 40% 30% 10%
iv) En la cuarta empresa se fabricaron 100 lotes y se obtuvieron los
siguientes datos:
o
N de lotes 20 10 20 50
2 Calcula la media y el rango de los datos en los casos anteriores.
3 Sin hacer ni una sola operación, justifica si la varianza será mayor
en los datos de la primera o segunda empresa. Después, calcula
ambas varianzas y ambas desviaciones típicas.
siguientes datos:
Porcentaje 20% 40% 30% 10%
4 Sin hacer operaciones, justifica cuándo ha habido más

variabilidad en cuanto al número de artículos defectuosos
producidos en la tercera empresa, si en el día en el que se
recogieron los datos del apartado a.iii) o al día siguiente, en el
que se recogieron los siguientes datos:
Porcentaje 80% 10% 5% 5%

Una vez estudiadas las medidas de posición y dispersión, estamos en

condiciones de explicar detalladamente el método de construcción de
un diagrama de caja.
Se ordenan los valores de la muestra de menor a mayor.
Se divide la muestra en 4 partes de igual número de individuos,
aproximadamente.
Consideramos los valores de corte de esas 4 partes:
mínimo, 1er cuartil, 2o cuartil, 3er cuartil y máximo.
La caja central está delimitada por los cuartiles 1 y 3. La línea
intermedia es el cuartil 2 (o mediana).
A la anchura de la caja central es el recorrido intercuartílico, es
decir, la distancia entre los cuartiles 1 y 3.

Diagrama de caja (continuación)
Se multiplica el recorrido intercuartílico por la cantidad 10 5. A

dicha cantidad, se le llama “paso” (step).
Se calcula
l = cuartil 1 - step y u = cuartil 3 + step.
Cualquier valor de la muestra que esté por debajo de l, o por

encima de u, se considerará un valor atípico y se señalará por
medio de un círculo (círculo vacío, sin relleno).
La pata superior coincidirá con el mayor valor de la muestra
inferior o igual a u.
La pata inferior coincidirá con el menor valor de la muestra
superior o igual a l.

Interpretación del diagrama de caja

Ejemplos de diagramas de caja

Ejercicio 1.1.24
El diagrama de caja siguiente representa el resumen de una muestra.
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Determina para dicha muestra, en caso de que sea posible, el valor de

la mediana, del percentil de orden 75, del cuartil de orden 1, del
recorrido intercuartílico, del percentil de orden 25, del cuartil de orden
3, de la media y del rango. ¿Es 16 un valor atípico de esta muestra?
Si es un valor atípico, ¿debe ser eliminado del estudio?
Tema 2:
Modelos de probabilidad

Introducción
A. Modelos continuos
A1. Distribución normal o gaussiana
A2. Distribución exponencial
A3. Distribución de Weibull
B. Modelos discretos
B1. Distribución binomial
B2. Distribución de Poisson

Experimentos aleatorios
Un experimento es aleatorio cuando:

(a) Se conoce de antemano el conjunto de todos los posibles
resultados. A dicho conjunto, se le llama espacio muestral.
(b) No se conoce el resultado particular del experimento antes de
realizarlo. Si se repite en condiciones iguales, puede aparecer un
resultado distinto.

Experimento aleatorio: ejemplo 1
Experimento: lanzamos un dado y observamos el resultado.

Si lo lanzamos en las “mismas” condiciones, podemos obtener
distintos resultados.
Espacio muestral: Ω = { , , , , , }.

Experimento: elegimos un tornillo al azar y observamos si es

válido o si, por el contrario, tiene algún defecto de fabricación.
Siguiendo el mismo procedimiento de elección, generalmente
sale un tornillo válido, pero, otras veces, uno defectuoso.
Espacio muestral:
Opción 1: Ω = {ω1 , . . . , ωN }. (N es el número total de tornillos
fabricados).
Opción 2: Ω = {v , d}
Experimento: elegimos una mujer adulta al azar en Gijón.

Siguiendo el mismo proceso de elección, podemos elegir a
distintas mujeres.
Espacio muestral: Ω = conjunto de mujeres adultas de Gijón.

Variables aleatorias y sucesos
1 Llamamos variable aleatoria a una función X que asocia un valor

numérico a cada resultado del experimento aleatorio. Representa
una medición o un conteo sobre dicho resultado. Si el espacio
muestral es una población, representa el valor de cierta
característica o atributo de un individuo elegido al azar.
(a) Se conoce, de antemano, el conjunto de posibles valores de la
variable. Según sea ese conjunto, diremos que la variable es
continua (infinidad no numerable de valores posibles) o discreta
(cantidad finita o numerable de valores posibles).
(b) Antes de realizar el experimento, no se conoce el valor particular
de la variable. Si se repite en las mismas condiciones, puede salir
un valor distinto.
2 Un suceso es una afirmación acerca del resultado del
experimento aleatorio. “El resultado cumple la propiedad P” o,
equivalentemente “el resultado pertenece al conjunto A”. Antes
de realizar el experimento, no se sabe si es verdadero o falso.

Ejemplos de variables aleatorias y sucesos
Ejemplo 1 (lanzamiento del dado):

Variable aleatoria: “número que sale al lanzar el dado” . Antes de
lanzar el dado, no sabemos cuál de los seis números va a salir. Es
una variable discreta.
Suceso (ejemplo): “sale un número par” o equivalentemente “el
resultado pertenece al conjunto {2, 4, 6}”. Antes de lanzar el dado,
no sabemos si el suceso es verdadero o falso.
Ejemplo 3 (ciudadanas adultas de Gijón):
Variable aleatoria X : “estatura de una mujer adulta elegida al azar
en Gijón”. Antes de elegirla, no sabemos qué valor va a salir. Es
una variable continua.
Variable aleatoria Y : “número de pie que calza una mujer adulta
elegida al azar en Gijón”. Antes de elegirla, no sabemos qué valor
va a salir. Es una variable discreta.
Suceso (ejemplo): “la persona elegida mide menos de 170 cm”.
Antes de elegirla, no sabemos si el suceso es verdadero o falso.

Ejercicio
Describe un ejemplo de experimento aleatorio. Identifica el espacio
muestral, la variable aleatoria y algún suceso.

Tipos de variables aleatorias
MUESTRA MODELO TEÓRICO EJEMPLOS

A1. Normal
A. CONTINUAS Histograma Función de densidad A2. Exponencial
A3. Weibull
B. DISCRETAS Diagrama de barras Función de masa B1. Binomial
B2. Poisson

Histograma y función de densidad
X =estatura; n =no mujeres encuestadas;
A =amplitud intervalos; áreas=proporciones
n=50, A=1.67 n=200, A=1
n→∞
A→0
N=2000, A=1

Concepto de función de densidad
f : R → R se llama función de densidad

f (x) indica la densidad de probabilidad en el punto x.
Propiedades de f :
fZ(x) ≥ 0, ∀ x
∞
f (x) dx = 1
−∞

Idea de probabilidad: distribuciones de variables
continuas
área( )=proporción de mujeres en la muestra

cuya estatura está comrpendida entre 150 y
155 cm.
área( )= probabilidad de que, al elegir al azar

una mujer, su estatura esté comprendida entre
150 y 155 cm.
Función de densidad: indica probabilidades o “proporciones teóricas”.

Cuando n → ∞ y A → 0, área de arriba (prop.) ≈ área de abajo (prob.).
(Si el modelo teórico describe correctamente a la población.)

Probabilidad de un intervalo a partir de la función de
densidad
! ! x ! b
∞
f(t)dt = P (X ≤ x) f(t)dt = P (a < X < b)
f(t)dt = 1 −∞ a
−∞
= FX (x) = P (a ≤ X ≤ b)

Función de distribución de variables continuas
Llamamos función de distribución de la variable X a la función
F : R → R tal que F (x) = P(X ≤ x), ∀ x ∈ R., es decir, a la
probabilidad de que X tome un valor inferior o igual a x.
Ejemplo: F (155) = probabilidad de que la estatura de una mujer
elegida al azar sea ≤ 155 cm (Proporción de mujeres con
estatura inferior o igual a 155 cm -en la población-).
Relación con la función de densidad:
Z x
F (x) = f (t) dt, ∀x ∈ R y F 0 (x) = f (x).
−∞
Sirve para calcular probabilidades de intervalos. Ejemplo:

F (150) = P(X ≤ 150) y F (155) = P(X ≤ 155).
P(X ≤ 150) + P(150 < X ≤ 155) = P(X ≤ 155). Por tanto:
P(150 < X ≤ 155) = F (155) − F (150).
Aclaración. Si X es continua se tiene que P(X = a) = 0, ∀a ∈ R,
con lo que: P(150 < X < 155) = P(150 < X ≤ 155) = P(150 ≤
X < 155) = P(150 ≤ X ≤ 155).
Esperanza, varianza y desviación típica de una
distribución
Z ∞
Esperanza o media poblacional: µX = E(X ) = x f (x) dx.
−∞
Ejemplo: La estatura media en la población de mujeres
considerada es 165 cm (µX = 165 cm).Z ∞
Varianza poblacional: σX2 = Var(X ) = [x − E(X )]2 f (x) dx.
−∞
Ejemplo: La varianza de las estaturas es 420 25cm2 .
(Cuantifica el grado de dispersión de las alturas en la población.
Se mide en las unidades de la estatura al cuadrado -en cm2 -)
Desviación estándar
p (o desviación típica) poblacional:
σX = DT(X ) = Var(X ).
Ejemplo: La desviación estándar de las estaturas es 60 5 cm.
(También cuantifica el grado de dispersión de las alturas en la
población. Se mide en las mismas unidades de la estatura -en
cm-.)
Ejercicio
Dada la función
λ Si 0 ≤ x ≤ 2
f (x) =
0 En otro caso
1 Calcula el valor λ para el que f es una función de densidad y

dibuja f
2 Calcula E(X ), Var (X ) y DT (X )
3 Calcula la función de distribución
F
3 3 3
4 Calcula P (X ≤ −1), P X ≤ ,P X < ,P X ≥ y
2 2 2
1 3
P ≤X ≤
2 2

Ejercicio
Dada la función −x
λe Si x ≥ 0
f (x) =
0 En otro caso
1 Calcula el valor λ para el que f es una función de densidad y

dibuja f
2 Calcula la función de distribución F
3 Calcula P (X ≤ −1), P (X ≤ 1), P (X < 1), P (X ≥ 1) y
P (1 ≤ X ≤ 2)

Distribuciones continuas notables
1 Estudiaremos tres familias paramétricas de distribuciones de

probabilidad:
A1. Distribución normal N(µ, σ)
A2. Distribución exponencial exp(λ)
A3. Distribución de Weibull W(k , λ)
2 Para cada familia paramétrica especificaremos:
La expresión y representación gráfica de su función de densidad.
El tipo de situaciones en las que aparece.
La expresión de su esperanza, su varianza y su desviación típica.
La expresión de la función de distribución (si procede).
El modo de calcular probabilidades de intervalos, etc.
(Estas expresiones quedarán determinadas por los “parámetros”
asociados a la distribución.)

A1. Distribución normal o gaussiana: definición
La v.a. X sigue distribución normal o gaussiana con parámetros µ y σ

(µ ∈ R, σ > 0), si su función de densidad es:

Utilidad y parámetros de la distribución normal
1 En qué situaciones aparece.- Es un buen modelo para multitud

de características:
Caracteres morfológicos de individuos: estatura, peso, etc.
Otros: calificaciones, demanda semanal (en l, en kg, ...), etc.
2 Parámetros.- Si X ≡ N(µ, σ), entonces:
Esperanza: E(X ) = µ
Varianza: Var(X ) = σ 2
Desviación típica: DT(X ) = σ.
Función de distribución: no tiene expresión explícita.
3 Cómo calcular probabilidades.-
P(X ≤ b) = F (b)
P(X > a) = 1 − F (a)
P(a < X ≤ b) = F (b) − F (a).
Los valores F (b) y F (a) se localizan usando el R-Commander o la
calculadora.

Concepto de puntuación tipificada (z-score)
Supongamos que la variable aleatoria X sigue distribución N(µ, σ).
Consideremos una observación o “puntuación” x ∈ R. Llamamos
puntuación tipificada (z-score) al valor
x −µ
z= .
σ
|z| representa el número de desviaciones típicas que el valor x se
aleja de µ (por encima si z > µ, o por debajo si z < µ).
Denotemos por Φ a la función de distribución de la distribución
N(0,1) (normal estándar). Denotemos por FX a la función de
distribución de X . Entonces:
FX (µ + σz) = Φ(z), ∀ z ∈ R, o, equivalentemente,

x −µ
FX (x) = Φ , ∀ x ∈ R.
σ
Distancias de las puntuaciones a la media: 1σ, 2σ, 3σ
Si X sigue distribución N(µ, σ) entonces:

P(X < µ − σ) = Φ(−1) = 00 1587; P(X < µ + σ) = Φ(1) = 00 8413.
Por tanto: P(µ − σ < X < µ + σ) = Φ(1) − Φ(−1) = 00 6826.
P(X < µ − 2σ) = Φ(−2) = 00 0228; P(X < µ + 2σ) = Φ(2) =

00 9772.
Por tanto: P(µ − 2σ < X < µ + 2σ) = Φ(2) − Φ(−2) = 00 9544.
P(X < µ − 3σ) = Φ(−3) = 00 0013; P(X < µ + 3σ) = Φ(3) =

00 9987.
Por tanto: P(µ − 3σ < X < µ + 3σ) = Φ(3) − Φ(−3) = 00 9974
Ejercicio 2.1.2
Una característica de calidad de un producto con especificaciones
(9, 11), se distribuye según una normal N(10, 00 3). El proceso se
descentra y pasa a fabricar alrededor de 100 8. ¿Qué se puede decir
de la capacidad del proceso para cumplir con las especificaciones
antes y después de descentrarse?
Nota.- En caso de que sea necesario, téngase en cuenta que, dadas
las variables X ≡ N(10, 00 3) e Y ≡ N(100 8, 00 3), se tiene que:
FX (9) = 00 0004, FX (11) = 00 9996,
FY (9) = 00 0000, FY (11) = 00 7475.

Ejercicio 2.1.3
Una empresa que fabrica y embotella zumo de manzana tiene una
máquina automática que llena las botellas de medio litro. Durante un
estudio previo se llegó a la conclusión de que la cantidad media
introducida en cada botella es de medio litro, con una desviación típica
de 5 cl. Si se supone que la cantidad servida en cada botella (en cl)
tiene una distribución normal,
1 ¿Cuál es la probabilidad de que la máquina vacíe más de 550 ml
de líquido en una botella?
2 ¿Cuál es el volumen mínimo esperado del 5% de las botellas con
más zumo?
X ≡ N(50, 5) y Z ≡ N(0, 1), se tiene que:
FX (45) = 00 1587, FX (520 5) = 00 6915, FX (55) = 00 8413,
FX (57 5) = 0 9332, FX (58 224) = 0 9500, FX (60) = 00 9772,
0 0 0 0
FZ (10 5) = 00 9332, FZ (−10 5) = 00 0668.

Durante un estudio previo se llegó a la conclusión de que la cantidad
media introducida en cada botella es de medio litro, con una
desviación típica de 5 cl. Si se supone que la cantidad servida en
cada botella (en cl) tiene una distribución normal,
3 Si la cantidad servida por otra máquina también sigue una
distribución normal con la misma desviación típica que en el caso
anterior, pero no conocemos su media, ¿cuál es la probabilidad
de que el llenado con esa máquina de una botella supere en 70 5
cl a la media? ¿cuál es entonces el porcentaje esperado de
llenados que superan a la media en 70 5 cl?
X ≡ N(50, 5) y Z ≡ N(0, 1), se tiene que:
FX (45) = 00 1587, FX (520 5) = 00 6915, FX (55) = 00 8413,
FX (57 5) = 0 9332, FX (58 224) = 0 9500, FX (60) = 00 9772,
0 0 0 0
FZ (10 5) = 00 9332, FZ (−10 5) = 00 0668.

P[ X ≤ x0 ]
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7703 0,7734 0,7704 0,7793 0,7823 0,7652
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8364 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8930
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9235 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9485 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9762 0,9767
2,0 0,9773 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9934 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9865 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9975 0,9975 0,9976 0,9977 0,9978 0,9978 0,9979 0,9980 0,9980 0,9981
2,9 0,9981 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
Tema 2 3,4 0,9997 0.9997 0,9997 0,9997 0,9997
0,9997Estadística 0,9997 0,9997 0,9997 0,9998 102 / 425
Ejercicio
Considera X ≡ N(0, 2), Y ≡ N(3, 2) y Z ≡ N(0, 1). Haciendo uso de
la tabla de la distribución normal, calcula:
1 P(Z ≤ 0), P(Z ≤ 1), P(Z ≤ 1.33), P(Z ≥ 1.33), P(1 ≤ Z ≤ 1.33),
P(Z ≤ −1) y P(−1.33 ≤ Z ≤ 1.33).
2 P(X ≤ 0), P(X ≤ 2), P(X ≤ 1.6), P(X ≤ −1.6) y
P(−1.6 ≤ X ≤ 1.6).
3 P(Y ≤ 3), P(Y ≤ 5), P(Y ≤ 4.6), P(Y ≤ 1.4) y P(1.4 ≤ Y ≤ 4.6).

A2. Distribución exponencial: definición
La v.a. X sigue distribución exponencial con parámetro λ (λ > 0), si su

función de densidad es:
(
λe−λ x si x > 0
f (x) =
0 si x ≤ 0

Utilidad y parámetros de la distribución exponencial
1 En qué situaciones aparece.- Sirve para representar el tiempo
entre 2 ocurrencias consecutivas de un evento cuando la
velocidad esperada es constante y los sucesos ocurren de forma
independiente. (Ej.: tiempo entre 2 entradas consecutivas
-independientes- a una web.)
2 Parámetros.- Si X ≡ exp(λ), entonces:
Esperanza: E(X ) = 1/λ
Varianza: Var(X ) = 1/λ2
Desviación típica: DT(X ) = 1/λ.(
1 − e−λ x si x > 0
Función de distribución: F (x) =
0 si x ≤ 0
P(X ≤ b) = F (b)
P(X > a) = 1 − F (a)
P(a < X ≤ b) = F (b) − F (a).
Los valores F (b) y F (a) se calculan a partir de la expresión
anterior, o se localizan usando el R-Commander o la calculadora.
Distribución exponencial: falta de memoria
P(X > t + y )
Si X ≡exp(λ), entonces: = P(X > y ), ∀ t > 0, y > 0.
P(X > t)
Ejemplo 1: X =“tiempo (en minutos) entre dos entradas

consecutivas a una web”
X sigue distribución exponencial
X tiene “falta de memoria”
P(X > 12)
Ejemplo: para t = 10, y = 2, vemos que = P(X > 2)
P(X > 10)
Ejemplo 2: Y =“tiempo (en años) entre dos averías consecutivas
de un coche”
Y no sigue distribución exponencial
Y no tiene falta de memoria
P(Y > 12)
Ejemplo: para t = 10, y = 2, vemos que < P(Y > 2)
P(Y > 10)

Ejercicio 2.1.5
El tiempo de vida, en años, de una pieza es una variable aleatoria X
con distribución exponencial de parámetro 00 5.
1 Calcula el tiempo medio de vida de estas piezas.
2 Calcula la probabilidad de que una pieza dure más de dicha
media.
3 La tasa de fallo asociada a una pieza en el instante x (hX (x)) se
define como:
fX (x)
hX (x) =
1 − FX (x)
donde fX y FX representan la función de densidad y de
distribución, respectivamente, de X . Determina el valor de la tasa
de fallo al cabo de tres años.
4 Una pieza se reemplaza inmediatamente si falla o, como muy
tarde, a los 4 años de funcionamiento. Determina el porcentaje
esperado de piezas que se reemplazan sin haberse estropeado.
Ejercicio 2.1.4
El tiempo de duración de un componente electrónico tiene una
distribución exponencial con media de 7 años. Se pide:
1 ¿Qué porcentaje de componentes se espera que duren más de
14 años?
2 La empresa fabricante de dichos componentes establece por
contrato que devuelve el importe del componente si éste se
estropea antes de finalizar el periodo de garantía. ¿De cuánto
tiene que ser dicho periodo si la empresa ha estimado que solo
es rentable si devuelve el dinero de la venta de, como mucho, un
30% de los componentes?

A3. Distribución de Weibull: definición
La v.a. X sigue distribución de Weibull con parámetros k > 0 (parámetro de
forma) y λ > 0 (parámetro de escala), si su función de densidad es:

 k x k −1 −( λx )k
e si x > 0
f (x) = λ λ
0 si x ≤ 0.

Relación con la distribución exponencial
La v.a. X sigue distribución de Weibull con parámetros k > 0 (parámetro de
forma) y λ > 0 (parámetro de escala), si su función de densidad es:

 k x k −1 −( λx )k
e si x > 0
fX (x) = λ λ
0 si x ≤ 0.
Si k = 1, tenemos que

 1 − λx
e si x > 0
fX (x) = λ
0 si x ≤ 0.
Recordemos que la v.a. Y sigue distribución exponencial con parámetro λe
(λe > 0), si su función de densidad es:
(
λe e−λe x si x > 0
fY (x) =
0 si x ≤ 0
Entonces, una distribución de Weibull de parámetros k = 1 y λ > 0 es
1
equivalente a una distribución exponencial de parámetro .
λ
Utilidad y parámetros de la distribución de Weibull
1 En qué situaciones aparece.- Sirve para modelar “tiempos de vida”.
Si k > 1, X representa el tiempo de vida de algo que se deteriora
con el tiempo.
Si k = 1, X representa el tiempo de vida de algo que no se
modifica con el tiempo.
Si k < 1, X representa el tiempo de vida de algo que mejora con el
tiempo.
2 Parámetros.- Si X ≡ W (k , λ), entonces:
Las expresiones de la esperanza, la varianza y la desviación típica
involucran
( a la función Gamma de Euler. No las veremos.
k
1 − e−(x/λ) si x > 0
F (x) =
0 si x ≤ 0
P(X ≤ b) = F (b)
P(X > a) = 1 − F (a)
P(a < X ≤ b) = F (b) − F (a).
Los valores F (b) y F (a) se calculan a partir de la expresión
anterior, o se localizan usando el R-Commander o la calculadora.
Función de fiabilidad, tasa media y tasa de fallo
Denotemos por T a la variable aleatoria que representa la
duración de un dispositivo.
La función de fiabilidad (reliability) R(t) (también llamada función
de supervivencia S(t)), es la complementaria de la f.d. de T , es
decir,
R(t) = 1 − F (t) = P(T > t).
La vida media o tiempo medio hasta el fallo (Mean Time To
Failure) es la duración esperada del dispositivo, MTTF = E(T ).
La tasa de fallo media en un intervalo (t1 , t2 ) es:
R(t1 ) − R(t2 ) P(t1 < T ≤ t2 )
h(t1 , t2 ) = = .
(t2 − t1 )R(t1 ) P(T > t1 ) · (t2 − t1 )
La tasa instantánea de fallo o tasa de riesgo (hazard function or
hazard rate) es:
f (t)
h(t) = lim h(t, t2 ) = .
t2 →t R(t)
Ejercicio 2.1.7
Sea X una variable aleatoria de Weibull de parámetro k > 1 que
representa la duración de un componente hasta que se averíe. Para
montar un circuito, buscamos componentes que nos duren al menos
500 unidades de tiempo. Para seleccionar esos componentes nos dan
a elegir entre 2 tipos. Los componentes del Tipo 1 están sin estrenar,
mientras que los componentes del Tipo 2 no son nuevos. ¿Qué tipo de
componentes es el más adecuado para nosotros?

Ejercicio 2.1.8
El tiempo de duración (en días), X , de cierto proceso sigue
distribución Weibull, con parámetros k = 00 5 y λ = 00 01.
1 Determina la expresión de la “tasa de fallo” de X ,
fX (t)
hX (t) = , t ∈ (0, ∞).
1 − FX (t)
2 A la vista del dato anterior, ¿puede X modelar el tiempo de vida
de un componente que se deteriora con el tiempo?

Ejercicio 2.1.9
Se supone que la duración (en años) de un chip de memoria para un
ordenador mainframe tiene una distribución de tiempo de fallo Weibull
con parámetros de forma k = 2 y parámetro de escala λ = 3.
1 Calcula la probabilidad de que un chip de memoria falle antes de
seis años.
2 Estima la fiabilidad de los chips de memoria a los tres años. (Se
conoce como fiabilidad en un instante t el valor de la probabilidad
de que dure más de este tiempo, t.)

Tipos de variables aleatorias
MUESTRA MODELO TEÓRICO EJEMPLOS

A1. Normal
A. CONTINUAS Histograma Función de densidad A2. Exponencial
A3. Weibull
B. DISCRETAS Diagrama de barras Función de masa B1. Binomial
B2. Poisson

Diagrama de barras y función de masa
X =número de caras en el lanzamiento de 3 monedas;
n =no de veces que lanzamos las 3 monedas
N=100
n=100 N=200
n=200
0,45 0,45
0,4 0,4
0,35 0,35
0,3 0,3
proporción
proporción
0,25 0,25
0,2 0,2
0,15 0,15
0,1 0,1
0,05 0,05
0 0
0 1 2 3 0 1 2 3
proporción 0,1 0,4 0,35 0,15 proporción 0,11 0,39 0,36 0,14
número de caras número de caras
N=1000
n=1000 Modelo teórico
0,4 0,4
0,35 0,35
0,3 0,3
probabilidad
proporción
0,25 0,25
0,2 0,2
0,15 0,15
0,1 0,1
0,05 0,05
0 0
0 1 2 3 0 1 2 3
proporción 0,12 0,38 0,37 0,13 probabilidad 0,125 0,375 0,375 0,125
número de caras número de caras

Concepto de función de masa de probabilidad
Modelo teórico
0,4
0,35
0,3
probabilidad
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4
masa de 0,125 0,375 0,375 0,125
probabilidad
número de caras
p se llama función de masa de probabilidad

p(xi ) indica la probabilidad del valor xi .
Propiedades de p:
Xi ) ≥ 0, ∀ i
p(x
p(xi ) = 1
i

Idea de probabilidad: distribuciones de variables
discretas
Muestra vs modelo teórico
proporciones / probabilidades
0,45
0,4
0,35
0,3
0,25 proporciones
0,2 probabilidades
0,15
0,1
0,05
0
0 1 2 3
proporciones 0,1 0,4 0,35 0,15
probabilidades 0,12 0,38 0,37 0,13
Número de caras
Función de masa: indica probabilidades o “proporciones teóricas”.

Cuando n → ∞ alturas oscuras (prop.) ≈ alturas claras (prob.).
(Si el modelo teórico describe correctamente el experimento.)

Cálculo de probabilidades a partir de la función de
masa
X
P(X ∈ A) = p(xi )
i | xi ∈A
Ejemplo:
X =número de caras en el lanzamiento de 3 monedas.
A = {0, 1, 2}
Probabilidad de que salga alguna cruz
0,4
0,35
0,3
probabilidad
0,25
valores<=2
0,2
valor=3
0,15
0,1
0,05
0
0 1 2 3
número de caras
P(X ≤ 2) = p(0) + p(1) + p(2) = 00 125 + 00 375 + 00 375 = 00 875

suma de las alturas de las tres barras de la izquierda.
P(X ≤ 2) = probabilidad de que salgan 2 caras o menos.
Ejercicio
Dada la función p(n) = α n para n ∈ {1, 2, 3, 4, 5} (p(n) = 0 en
cualquier otro caso).
1 Calcula el valor α para el que p es una función de masa de
probabilidad
2 Calcula la función de distribución F
3 Calcula P (X ≤ −1), P (X ≤ 2), P (X < 2), P(X = 2), P (X ≥ 2) y
P (1 ≤ X ≤ 2)

Esperanza, varianza y desviación típica
X
Esperanza: µX = E(X ) = xi p(xi )
i
X
Varianza: σX2 = Var(X ) = [xi − E(X )]2 p(xi )
i
p
Desviación típica: σX = DT(X ) = Var(X )
La esperanza se mide en las mismas unidades que X .

La varianza se mide en las unidades de X al cuadrado.
La desviación típica se mide en las mismas unidades que X .

Esperanza: medida de centralización
Ejemplo:
Juego de azar que consiste en lanzar una moneda y observar el
resultado.
Gano 1 euro si sale cara, pierdo 1 euro si sale cruz.
X =“ganancia” x1 = −1, x2 = 1, p1 = 00 5, p2 = 00 5.
Ganancia esperada: E(X ) = 0 euros.
jugada (n) 1 2 3 4 5 6 7 8 9 10
ganancia 1 1 -1 1 -1 -1 -1 1 -1 1
gan. media(n) = x (n) 1 1 1/3 00 5 00 2 0 -1/7 0 -1/9 0
lim gan. media(n) = E(X ) = 0.

n→∞

Ejercicio
(a) Juego 1: gano 1 euro si sale cara, pierdo 1 euro si sale cruz.
X =“ganancia en el juego 1”.
(b) Juego 2: gano 100 euros si sale cara, pierdo 100 euros si sale
cruz. Y =“ganancia en el juego 2”.
¿E(X )? ¿E(Y )?
¿Var(X )? ¿Var(Y )?
¿DT(X )? ¿DT(Y )?

Ejercicio
Calcula la esperanza en el juego de la ruleta (por unidad apostada).

Distribuciones discretas notables
1 Estudiaremos dos familias paramétricas de distribuciones de

probabilidad:
B1. Distribución binomial B(n, p)
B2. Distribución de Poisson P(λ)
2 Para cada familia paramétrica especificaremos:
El tipo de situaciones en las que aparece, con ejemplos.
La expresión y representación gráfica de su función de masa.
La expresión de su esperanza, su varianza y su desviación típica.
Estas expresiones quedarán determinadas por los “parámetros”
asociados a la distribución.

B1. Distribución binomial: utilidad
1 Consideramos un experimento aleatorio “de Bernoulli” de

parámetro p. En dichos experimentos hay 2 resultados posibles:
“éxito” (con probabilidad p)
“fracaso” (con probabilidad 1 − p)
2 Lo repetimos n veces, de forma independiente.
3 Consideramos el “número de éxitos en las n realizaciones”.
4 Ese número depende del azar. Es una variable aleatoria, X .
5 Nomenclatura: X sigue distribución binomial con parámetros n y
p.
6 Notación: X ≡ B(n, p).

Distribución binomial: ejemplos
1 X =“número de caras en 4 lanzamientos de una moneda

equilibrada’.’
X ≡ B(4, 00 5).
2 La proporción de fumadores en una gran población es p = 00 2.
Y =“número de fumadores de 10 personas elegidas al azar”.
Y ≡ B(10, 00 2).
3 La proporción de tornillos defectuosos en una línea de fabricación
es p = 00 1.
Z =“número de tornillos defectuosos en una muestra de 50”.
Z ≡ B(50, 00 1).

Distribución binomial: función de masa, esperanza y
varianza
X ≡ B(n, p)
1 x1 = 0, . . . xn = n − 1, xn+1 = n.
2 p = P(éxito), q = 1 − p = P(fracaso).

n k
3 P(X = k ) = p (1 − p)n−k , para k = 0, 1, 2, . . . , n.
k
4 E(X ) = n p.
5 Var(X ) = np (1 − p).

Distribución binomial: función de masa
Ejemplo:
1 Consideramos el lanzamiento de una moneda.
2 Éxito: “sale cara”, fracaso=“sale cruz”.
3 Lo repetimos n = 4 veces.
4 X =“número de caras en los 4 lanzamientos”
(no de éxitos en las n = 4 realizaciones del experimento).
5 X puede tomar los valores:
x1 = 0, x2 = 1, x3 = 2, x4 = 3, x5 = 4.
¿Con qué probabilidad toma cada uno?
6 Ejemplo: p4 = P({ccc+}) + P({cc+c}) + P({c+cc}) + P({+ccc}) =
3
3 1 1 4 1
4 (p) (1 − p) = 4 · · = = .
2 2 16 4
1 1 3 1 1
7 p1 = , p2 = , p3 = , p4 = , p5 =
16 4 8 4 16

Ejercicio 2.1.12
Se sabe que el cinco por ciento de los controladores de disco
producidos en una planta son defectuosos. Se toma una muestra de
15 controladores elegidos al azar de cada producción mensual y se
apunta el número de controladores defectuosos. ¿Cuál es la
proporción esperada de muestras mensuales con, al menos, dos
controladores defectuosos?

Ejercicio 2.1.13
Una empresa realiza un control de calidad sobre las piezas que recibe
del proveedor. Así, para cada lote de 1000 piezas que recibe,
selecciona con reemplazamiento 30 piezas. Si hay, como mucho, dos
defectuosas, éstas son reemplazadas por piezas buenas y el lote es
automáticamente aceptado. Si hay más de dos defectuosas, se
inspecciona todo el lote y se reemplazan las piezas defectuosas de
todo el lote por piezas buenas, tras lo cual se acepta el lote. Si los
lotes tuviesen una proporción de defectuosos del 5%, se pide:
1 ¿Cuál es la probabilidad de que no haya que inspeccionar todo el
lote?
2 Determina la distribución de probabilidad de la variable aleatoria
“número de piezas inspeccionadas”.
3 Calcula el número medio de piezas inspeccionadas por lote.

Ejercicio 2.1.17
La viscosidad de una pintura tapaporo para aviones es una
característica importante de la calidad. La viscosidad de cada lote se
puede suponer que sigue una distribución normal de media 33 y
varianza 00 16. La empresa fabricante realiza controles de calidad
esporádicos que consisten en elegir un lote aleatoriamente y medir su
viscosidad. Si dicha viscosidad está fuera del intervalo 33 ± 00 8 se
produce un aviso, que implica que hay que hacer cierto reajustes en la
producción. Si la viscosidad está fuera del intervalo 33 ± 10 2 se
produce una alarma, que implica parar automáticamente la
producción.
1 ¿Cuál es el porcentaje esperado de lotes que generaran un aviso
o una alarma?
Nota.- En caso de que sea necesario, téngase en cuenta que dadas
X ≡ N(33, 00 16) e Y ≡ N(33, 00 4), se tiene que:
FX (310 8) = 00 0000, FX (320 2) = 00 0000, FX (330 8) = 10 0000, FX (340 2) = 10 0000,
FY (310 8) = 00 0013, FY (320 2) = 00 0228, FY (330 8) = 00 9773, FY (340 2) = 00 9987.
producción.
2 ¿Cuál es el porcentaje esperado de lotes que generaran un aviso,
pero no una alarma?
FX (310 8) = 00 0000, FX (320 2) = 00 0000, FX (330 8) = 10 0000, FX (340 2) = 10 0000,
FY (310 8) = 00 0013, FY (320 2) = 00 0228, FY (330 8) = 00 9773, FY (340 2) = 00 9987.
producción.
3 Si cada trimestre se revisan 1000 lotes independientes, ¿cuántas
paradas de la producción por alarma se esperan por trimestre?
FX (310 8) = 00 0000, FX (320 2) = 00 0000, FX (330 8) = 10 0000, FX (340 2) = 10 0000,
FY (310 8) = 00 0013, FY (320 2) = 00 0228, FY (330 8) = 00 9773, FY (340 2) = 00 9987.
B2. Distribución de Poisson: utilidad
1 Consideramos un intervalo de tiempo.

2 Observamos la aparición de éxitos puntuales en ese tiempo.
3 Supongamos que:
El proceso es estable. A largo plazo, el número medio de éxitos por
unidad de tiempo λ, con λ > 0, es constante.
Los éxitos ocurren aleatoriamente de forma independiente.
4 X =“número de éxitos por unidad de tiempo” es una v.a. discreta.
5 Nomenclatura: X sigue distribución de Poisson con parámetro λ.
6 Notación X ≡ P(λ).

La distribución de Poisson: ejemplos
Resumen: La distribución de Poisson se utiliza para modelar el

número de ocurrencias de cierto evento por unidad de tiempo o de
espacio, cuando se satisfacen ciertas condiciones de independencia y
estabilidad.
1 X =“número de clientes que entran en un determinado comercio
cada hora”.
X ≡ P(25).
2 Y =“número de entradas por minuto a una determinada página
web”.
X ≡ P(10).
3 Extraemos un cm3 de sangre de un paciente.
Z =“número de millones de glóbulos rojos en ese cm3 ”.
Z ≡ P(5).

La distribución de Poisson: función de masa,
esperanza y varianza
X ≡ P(λ)
1 x1 = 0, x2 = 1, . . . , xk +1 = k , . . . .
λk
2 P(X = k ) = e−λ · , para k = 0, 1, 2, . . ..
k!
3 E(X ) = λ.
4 Var(X ) = λ.

Ejercicio 2.1.19
Supongamos que el número de veces que falla un sistema informático
al día es una variable aleatoria X con distribución de Poisson de
parámetro 2.
1 ¿Cuál es el número medio diario de fallos?
2 ¿Cuál es la probabilidad de que el número diario de fallos esté
entre 10 5 y 30 7?

Distribución de Poisson: relación con la distribución
exponencial
Supongamos que:
Yt =“número de ocurrencias en t unidades de tiempo”
Yt ≡ P(λ t), ∀ t > 0
X =“tiempo transcurrido entre dos ocurrencias consecutivas”
Entonces P(X > t) = P(Yt = 0) = e−λ t
y, por tanto, X ≡ exp(λ)

Relación con la distribución exponencial: ejemplos
Exponencial: tiempo transcurrido, en minutos, entre dos visitas

consecutivas a cierta página web → X ≡ exp(10)
Poisson: número de visitas por minuto → Y ≡ P(10)
Exponencial: Tiempo transcurrido, en minutos, entre dos piezas

defectuosas → X ≡ exp(1/15)
Poisson: número de piezas defectuosas por minuto →
Y ≡ P(1/15)
Exponencial: Tiempo transcurrido, en minutos, entre dos

llamadas consecutivas a una centralita → X ≡ exp(2)
Poisson: número de llamadas en 1 minuto → Y ≡ P(2)
número de llamadas en 3 minutos → Y ≡ P(6)

Ejercicio
Supongamos que el número de personas que visita una cierta
estación de metro a la semana sigue una distribución de Poisson con
parámetro 10080. Calcula el tiempo esperado en minutos entre la
llegada de dos personas consecutivas.

Ejercicio 2.1.20
Supongamos que el número de mensajes de entrada a una canal de
comunicación en un intervalo de tiempo de t segundos sigue
distribución de Poisson con parámetro 00 3 t. Calcula las probabilidades
de los siguientes sucesos:
1 Llegarán exactamente dos mensajes en un periodo de 10
segundos.
2 El número de mensajes que llegarán en un intervalo de 5
segundos de duración estará comprendido entre 2 y 4 (ambos
incluidos).
3 El tiempo entre la llegada de dos mensajes consecutivos sea
mayor de 4 segundos.

Tema 3:
Inferencia estadística

Introducción
Estimación puntual
Estimación por intervalo
Contraste de hipótesis
A. Contrastes para una muestra
A1. Contraste de bondad de ajuste
A2. Contraste para un promedio
A3. Contraste para una proporción
B. Contrastes para dos muestras
B1. Contraste para comparar dos proporciones
B2. Contraste para comparar dos varianzas
B3. Contraste para comparar dos promedios

Necesidad de la inferencia estadística
¿El volumen de llenado está dentro de las especificaciones?
La muestra SOLO proporciona información sobre la propia

muestra.
Para obtener conclusiones relativas a toda la población
(producción) es NECESARIO utilizar técnicas de inferencia
estadística (estimación puntual, estimación por intervalo,
contraste de hipótesis,. . . ).
Ejemplo introductorio
El distribuidor sabe que el volumen medio de leche en cada

botella es µ = 199cm3 . (Ha ajustado sus máquinas de llenado
para que el volumen medio sea 199 cm3 y así, en una gran
producción, ahorra mucho dinero.)
Nosotros (inspección técnica) desconocemos ese valor. Solo
podemos examinar parte de la producción. Si, a partir de ese
examen, obtenemos evidencias de que µ 6= 200 cm3 ,
informaremos desfavorablemente y se le pondrá una multa.
Supongamos que, según las especificaciones de las máquinas,
σ = 3 cm3 (dato conocido por el distribuidor y los inspectores
técnicos).
Extraemos una muestra de 100 botellas, que nos proporciona la
siguiente información x = 1990 4 cm3 ¿Qué podemos “inferir”
acerca del valor de µ? ¿Informaremos favorable o
desfavorablemente?
Objetivo de la Inferencia Estadística
Objetivo: Estudiar la distribución de cierta característica o atributo

de una población a partir de la información contenida en una
muestra.
La distribución poblacional es la distribución de probabilidad de
la característica estudiada, X (formalmente, variable aleatoria).
Puede ser total o parcialmente desconocida (por ejemplo,
podemos saber que es normal, pero desconocer los valores de µ
y σ, o saber que es binomial, pero con p desconocido).
Los parámetros son desconocidos pero fijos (no dependen de
la muestra elegida.)
Estudiaremos la forma de hacer inferencias acerca de:
La media poblacional: µ.
La varianza poblacional: σ 2 .
La proporción poblacional: p.

Muestra vs población
Muestra: Se identifica con n realizaciones del experimento

aleatorio (extracción de n individuos de la población). Si se
extraen al azar, con reemplazamiento y de forma independiente,
decimos que es una muestra aleatoria simple.
¿Por qué extraemos una muestra, en lugar de analizar toda la
población?
Los individuos pueden existir conceptualmente, pero no en la
práctica (ejemplo: población de piezas defectuosas que producirá
una máquina en su vida útil).
Por restricciones económicas (encuestas de opinión, etc.)
El estudio puede implicar la destrucción de los individuos
analizados (estudio del tiempo de vida de ciertos componentes,
estudio de la resistencia de cierto material, etc.)
...

Ejercicio 3.1.1
En cada uno de los siguientes casos, determina qué equipo
consideras que ha utilizado un método más adecuado desde el punto
de vista de la eficacia estadística de las conclusiones obtenidas a
partir de dichos datos. Razona el porqué de tu respuesta.
1 Para analizar si las piezas producidas por una empresa tenían la
longitud adecuada, el equipo A toma y mide una muestra de 10
piezas elegidas al azar entre la producción de dicha empresa y el
equipo B toma y mide una muestra de 100 piezas elegidas,
también al azar, de su producción.

2 Para analizar el consumo energético por minuto en una empresa,
el equipo A anota el consumo en 60 instantes de tiempo elegidos
de forma aleatoria entre los 6720 minutos de producción semanal
y el equipo B elige un minuto al azar dentro de esa semana y
anota su consumo, así como el de los 59 minutos posteriores.

3 Para analizar la opinión de los españoles sobre una nueva ley del
gobierno, el equipo A pregunta a 500 personas elegidas al azar
en Madrid y el equipo B pregunta a 500 personas elegidas
también al azar dentro del territorio español.

Principales métodos de Inferencia Estadística
( )
µ = 199 x = 199.4 µ0 = 200
Estimación puntual de µ: x = 1990 4. Error de estimación

(desconocido por los inspectores técnicos): 00 4 cm3 .
Estimación por intervalo de µ: intervalo marcado entre paréntesis,
calculado a partir de la muestra de 100 botellas. Los inspectores
técnicos tienen una alta seguridad (o nivel de confianza) de que
ese intervalo contiene a µ. Pero desconocen el valor de µ.
Contraste de hipótesis acerca de µ: se conjetura la hipótesis de
que µ coincide con el valor µ0 = 200. A partir de la muestra
observada, se decide no rechazarla. No tenemos evidencias
estadísticas para hacerlo, porque el intervalo de confianza
contiene a dicho valor.

Estimación puntual. Ejemplo: estimación de µ
Un primer paso inferencial consiste en dar una estimación puntual

o por valor de la media poblacional µ.
En el ejemplo de las botellas, la estimación más apropiada sería
el valor de la media muestral x = 1990 4 cm3 .
Nos hemos “equivocado” en |x − µ| = |1990 4 − 199|cm3 = 00 4
cm3 .
El distribuidor conoce la magnitud de nuestra “equivocación”,
nosotros no.
Pero, gracias a la Estadística, tenemos métodos para acotar la
probabilidad de que el error cometido (distancia entre nuestra
estimación, x, y el valor que queremos estimar, µ) no supere un
umbral (00 77 cm3 , por ejemplo).

La influencia del tamaño de la muestra
Tras examinar el contenido de las 100 botellas, ¿qué estimación es
más adecuada?:
1 ¿La media de las 30 primeras mediciones?
2 ¿La media de las 50 primeras mediciones?
3 ¿La media de las 50 últimas mediciones?
4 ¿La media de las 100 mediciones?
5 ...
Elegimos la opción 4, porque proporciona estimaciones más

cercanas a µ, para la mayor parte de las muestras de tamaño 100.
Pero cualquiera de las estimaciones correspondientes a las 3
primeras opciones podría estar, en nuestra muestra, más cerca
de µ que la media de las 100 mediciones. ¡Nunca lo sabremos!
Si el proceso de llenado está estabilizado, la opción 2 es igual de
buena que la opción 3. Ambas son mejores que la opción 1.
La influencia del tamaño de la muestra (cont.)
Consideremos el experimento aleatorio que consiste en extraer

una botella al azar. Repetimos dicho experimento n veces.
La media de las n mediciones (media muestral) es una variable
aleatoria. Su valor depende del azar, y varía de una muestra a
otra. La denotamos por X .
Teorema del Límite Central (a partir de n ≥ 30):

σ
X ≡ N µ, √ .
n
Idea del CLT (del inglés Central Limit Theorem):

La media muestral, X , tiene una distribución simétrica en torno a la
media poblacional, µ.
La dispersión de X (variabilidad de unas muestras a otras) depende
de σ (desviación estándar poblacional) y de n (tamaño muestral).
Cuanto mayor es n, menos dispersos están los valores de X .

La influencia del tamaño de la muestra (cont.)
1.2
1.0
0.8
y1
0.6
0.4
0.2
0.0
197 198 199 200 201

3
Opción 1. n = 30 X ≡ N 199, √ = N(199, 00 55)
30
3
Opciones 2 y 3. n = 50 X ≡ N 199, √ = N(199, 00 42)
50
3
Opción 4. n = 100 X ≡ N 199, √ = N(199, 00 3)
100

Tamaño de muestra necesario en las situaciones más
habituales
El tamaño de la muestra se determina para obtener una
estimación apropiada de un determinado parámetro poblacional.
Vamos a ver cómo se obtiene en algunas situaciones que se
presentan habitualmente en la práctica.
denota el máximo error de estimación que nos vamos a permitir.
Parámetro
µ p
a estimar:
• σ conocida o acotada
superiormente
Condiciones: • n ≥ 30
• distribución normal
o n ≥ 30
2
σ 2 1
Nivel 90% n ≥ 10 645 n≥ 10 645
2
2

0 σ 2 0 1
de 95% n ≥ 1 96 n ≥ 1 96
2
2

0 σ 2 0 1
confianza 99% n ≥ 2 576 n ≥ 2 576
2
Ejercicio 3.1.3
Algunas plantas de electricidad están situadas cerca de ríos u
océanos con objeto de que el agua disponible pueda utilizarse para
enfriar los condensadores. Supón que, como parte de un estudio
sobre impacto ambiental, una compañía de electricidad desea estimar
la temperatura media del agua que descarga de su planta. Encuentra
el tamaño muestral mínimo necesario para poder estimar la verdadera
temperatura media con un error de estimación menor o igual de 00 5o C
y un nivel de confianza mayor o igual que 00 95, sabiendo que la
desviación típica poblacional es:
1 Como mucho de 2o C (σ ≤ 2).
2 Como mucho de 1o C (σ ≤ 1).

Ejercicio 3.1.4
Un instituto de opinión pública quiere hacer una encuesta para
conocer la proporción de individuos de una población que están a
favor de una decisión del gobierno.
1 ¿A cuánta gente debe preguntar si, al aproximar la proporción en
la población (p) mediante la proporción en la muestra (p̂), se
quiere cometer un error de estimación menor del 1% y tener una
confianza de, al menos, el 95%?
2 ¿A cuánta gente debe preguntar si se quiere cometer un error de
estimación menor del 20% y tener una confianza de, al menos, el
90%?
3 ¿A cuánta gente debe preguntar si se quiere cometer un error de
estimación menor del 1% y tener una confianza de, al menos, el
99%?

Ejemplo de tamaño muestral en encuestas de opinión
n = 1000 n = 500
= 30 16% = 40 47%
Conf. = 950 5% Conf. = 950 5%

Estimadores usuales de algunos parámetros
PARÁMETRO ESTIMACIÓN
µ (media poblacional) x (media muestral)
p (proporción poblacional) p̂ (proporción muestral)
σ 2 (varianza poblacional) s2 (varianza muestral)
Ejemplos:
VARIABLE PARÁMETRO ESTIMACIÓN
volumen introducido µ: volumen medio x: volumen medio
en cada botella de toda la producción de las 100 botellas
p̂: proporción de defectuosas
1, si la pieza es defectuosa, p: proporción de piezas en una muestra de
0, si la pieza no es defectuosa defectuosas en un lote 10 piezas extraídas
con reemplazamiento
2
s : dispersión entre
tiempo de vida de un 2
σ : dispersión entre tiempos, tiempos de vida
modelo de batería referida a toda la producción de las baterías de una
muestra de la población

Limitaciones de la estimación puntual
La estimación puntual nos da un valor numérico como estimación

del parámetro.
Sería más informativo proporcionar el nivel de confianza de que la
diferencia entre el valor del parámetro y nuestra estimación no
supera un determinado umbral.
Ésta es la idea básica en la estimación por intervalo.

Ejercicio 3.1.2
Para estimar el porcentaje de producción disconforme en una
empresa, se toma una muestra aleatoria de 300 piezas de la
producción de un día cualquiera. Dichas piezas son analizadas en
detalle en el departamento de control de calidad, que determina si son
o no conformes. Se obtiene que 294 de ellas son conformes y el resto,
disconformes. ¿Cuál sería la forma habitual de estimar puntualmente
el porcentaje de piezas disconformes en la producción de esta
empresa? ¿Invalidan los datos anteriores la siguiente afirmación:
“Dentro del total de la producción, el porcentaje real de piezas
disconformes es del 1%”?

Estimación por intervalo: ejemplo
X1 + . . . + X100
Tengamos en cuenta que X = sigue distribución
100
σ
aproximadamente N µ, √ = N(µ, 00 3).
n
Así que P(X − 00 77 < µ < X + 00 77) = P(−00 77 < X − µ < 00 77) =
X −µ
P(−20 575 < < 20 575) = Φ(20 575) − Φ(−20 575) = 00 99.
00 3
Es decir, podemos dividir todas las posibles muestras de tamaño 100 en
dos grupos:
Aquellas para las que (x − 00 77, x + 00 77) contiene al valor µ.
Representan el 99% de todas las muestras.
Aquellas para las que (x − 00 77, x + 00 77) no contiene al valor µ.
Representan solo el 1% de todas las muestras.
De lo anterior inducimos que el intervalo (1990 4 − 00 77, 1990 4 + 00 77) =
(1980 63, 2000 17) contiene a µ con una seguridad muy alta.
El intervalo (1980 63, 2000 17) es un intervalo de confianza para µ al nivel
1 − α = 00 99.
Estimación por intervalo
Intervalo de confianza para µ:

σ σ
(x − zα/2 √ , x + zα/2 √ )
n n

Tamaño muestral, amplitud y nivel de confianza de los
intervalos
• n: tamaño muestral; a mayor n, menor dispersión

• 1 − α: nivel de confianza; proporción de intervalos que cubren a µ
• A: amplitud de los intervalos
Si aumentamos n:
Se puede mantener 1 − α, disminuyendo la amplitud.
Se puede mantener la amplitud, aumentando 1 − α.
Si aumentamos 1 − α:
Para mantener la amplitud, necesitamos aumentar n.
Para mantener n, necesitamos aumentar la amplitud.
Si queremos disminuir A:
Para mantener 1 − α, necesitamos aumentar n.
Para mantener n, necesitamos que disminuya 1 − α.

Intervalos de confianza notables
PARÁMETRO CONDICIONES EXPRESIÓN AL 95%

µ
σ desc. s s
media (x − tn √ , x + tn √ )
distr. normal o n ≥ 30 n n
poblacional
p p p
distr. B(1, p) p̂(1 − p̂) p̂(1 − p̂)
proporción (p̂ − 10 96 √ , p̂ + 10 96 √ )
n ≥ 30 n n
poblacional
tn es un valor que depende de n (disminuye al aumentar n).

En el caso del intervalo de confianza para la proporción muestral,
RCommander permite calcular intervalos de confianza, incluso
para valores pequeños de n. Además, en el caso de valores de n
muy grandes, el mismo programa permite calcular intervalos de
menor amplitud con la misma confianza.

Intervalos de confianza notables
PARÁMETRO CONDICIONES CENTRO AMPLITUD

↑ ↓
µ
σ desc. s
media x n
distr. normal o n ≥ 30 1−α
poblacional
p
distr. B(1, p)
proporción p̂ 1−α n
n ≥ 30
poblacional

I.C. para la media con varianza desconocida
S S
(x − tn−1,1−α/2 √ , x + tn−1,1−α/2 √ )
n n
TABLA DE LA DISTRIBUCION t-Student con n grados de libertad..
1−α
n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779
Tema 3 27 0.684 0.855 1.057 1.314 1.703
Estadística 2.052 2.473 2.771 170 / 425
Ejercicio
Una muestra de tamaño 15 de una variable que sigue una distribución
normal toma los siguientes valores:
14, 14, 14, 14, 14, 15, 15, 15, 15, 15, 16, 16, 16, 16, 16 .
Calcula el intervalo de confianza para la media a un nivel de confianza

del 95% según el método habitual.

Ejercicio 3.1.7
Se han tomado datos para analizar la proporción de anomalías en la
producción diaria de una empresa. Dichos datos han sido introducidos
en R y con ellos se han obtenido los siguientes intervalos de confianza
para dicha proporción a los niveles 95% y 99%:
Por problemas de impresión no se puede ver el nivel de confianza

asociado a cada intervalo. ¿Cuál es el intervalo al 95% y cuál, el
intervalo al 99%?
Ejercicio 3.1.6
Un hormigón de microsílice, reforzado con fibra de acero y mezclado
en húmedo (llamado shotcrete), ya se está comercializando. A fin de
investigar la resistencia a la ruptura del nuevo producto, se consideró
una muestra aleatoria de cincuenta trozos de shotcrete. Dichos trozos
fueron sometidos a una comprensión de 9000 psi hasta que fallaron,
obteniéndose a partir de dichos datos, que el tiempo medio de vida es
40 ± 3 días al 95% de confianza. Determina, de forma justificada, si
pueden o no ser verdaderas las siguientes afirmaciones:
1 El tiempo medio de vida del shotcrete está, con total seguridad,
entre 37 y 43 días.
2 Con esos mismos datos, se obtiene que el tiempo medio de vida
es 40 ± 2 días al 99% de confianza.
3 A partir de otra muestra aleatoria de 50 trozos de shotcrete se ha
obtenido que el tiempo medio de vida es de 33 ± 3 días al 95% de
confianza.
Contraste de hipótesis: conceptos básicos
Una hipótesis es una conjetura acerca de la distribución de una

característica, o conjunto de características de los individuos de la
población (X , Y , . . .)
En un contraste de hipótesis, se formulan siempre 2 hipótesis:
H0 (hipótesis nula) y H1 (hipótesis alternativa).

H0 : µ = 200
Ejemplo de las botellas:
H1 : µ 6= 200
Un test es una regla de decisión que, a cada posible muestra le
asocia una decisión: rechazar o no rechazar la hipótesis nula.
H0 es cierta H0 es falsa
Tipos de errores: Rechazar H0 Error I Dec. correcta
No rechazar H0 Dec. correcta Error II
µ = 200 µ 6= 200
Ejemplo: Informe desfav. Error I (grave) Dec. correcta
Informe favorable Dec. correcta Error II (menos grave)

Toma de decisiones a partir de un test
Utilizamos el test para decidir acerca de la validez de la hipótesis

nula.
Si los datos de la muestra son muy poco compatibles con dicha
hipótesis, hay evidencias estadísticas (aunque no la seguridad
completa) para rechazarla.
En caso contrario, no hay base suficiente para rechazarla. La
aceptación de la hipótesis es muy difícil si solo se usan
procedimientos estadísticos.
Sin embargo, desde el punto de vista práctico, el “no rechazo” de
una hipótesis es, en algunos casos, considerado como la
“aceptación” de la misma.

Nivel de significación
El experto elige de antemano un umbral α (los valores habituales

son: α = 00 01, α = 00 05 y α = 00 1).
Si la probabilidad de cometer error de tipo I con un determinado
test es inferior a α, decimos que es un test al nivel de significación
α.
Para la muestra elegida, el test puede dar como respuesta una de
las siguientes opciones:
Rechazar la hipótesis nula. Tenemos evidencias estadísticas de
que es falsa, aunque existe un ligero riesgo (acotado por α) de
habernos equivocado.
No rechazar la hipótesis nula, porque no tenemos evidencias
estadísticas de que sea falsa.

Potencia de un test
Para un mismo contraste, pueden elegirse distintos tests (reglas

de decisión ante la pareja de hipótesis).
Si fijamos un nivel de significación α, trataremos de elegir, de
entre todos los tests a ese nivel, el más potente.
La potencia de un test está relacionada con la probabilidad de
error de tipo II. (Probabilidad de no rechazar H1 , cuando ésta es,
en realidad, cierta.)

P-valor
La forma tradicional de presentar los resultados de un test
(rechazar o no la hipótesis a un determinado nivel de
significación) no ofrece al analista ninguna idea de si los datos de
la prueba se alejan ligeramente, mucho o muchísimo de la
hipótesis nula.
Para evitar este inconveniente, se suele utilizar el p-valor.
Llamamos p-valor (probability value) o nivel crítico a la
probabilidad de que aparezca una muestra menos compatible con
la hipótesis nula que la muestra que ya hemos obtenido, en el
supuesto de que la hipótesis nula sea cierta. En otras palabras,
representa el grado de compatibilidad de la muestra seleccionada
(en una escala de 0 a 1) con la hipótesis nula.
Una vez que se conoce el p-valor, el responsable de tomar las
decisiones puede determinar por sí mismo en qué medida son
significativos los datos sin que el analista de los datos le imponga
formalmente un nivel de significación preseleccionado.
Relación entre el p-valor y el nivel de significación
Una vez calculado el p-valor, se puede utilizar la técnica tradicional de

presentar los resultados del test, utlizando la siguiente regla:
REGLA DE DECISIÓN
P-valor < α =⇒ Rechazo H0
P-valor ≥ α =⇒ No rechazo H0
Generalmente se considera α = 00 05.

Pasos en un contraste/test de hipótesis

Ejercicio 3.1.8
Responde razonadamente a las siguientes cuestiones:
1 Si el p-valor asociado a un contraste es 0.000, ¿se rechaza la
hipótesis nula? ¿Y si es 0.436?
2 Si, una vez realizado el contraste
H0 : la distribución es normal
H1 : la distribución no es normal,
el p-valor asociado al mismo es 0.212, ¿qué se concluye sobre la

distribución?

Responde razonadamente a las siguientes cuestiones:
3 Se realiza el contraste
H0 : la longitud media es de 15cm.
H1 : la longitud media es distinta de 15cm.
con 200 datos de dos líneas de producción diferentes (100 de

cada una), resultando en la primera un p-valor de 00 001 y en la
segunda, de 00 043. ¿Qué se concluye para cada una de las
líneas de producción sobre la longitud media del producto al nivel
de significación α = 5%? ¿En cuál de las dos las conclusiones
son más fiables?

Pasos en un contraste/test de hipótesis
¿Qué hay que saber para realizar un contraste?

1 Seleccionar un contraste adecuado al problema.
2 Establecer cuáles son H0 y H1 en ese test.
3 Interpretar el p-valor.

Principales tipos de contraste (1/2)
A. CONTRASTES PARA UNA MUESTRA:

A1. Bondad de ajuste.
Ejemplo.- ¿Se puede asumir que la resistencia de las piezas sigue
una distribución normal?
A2. Un promedio.
Ejemplo.- ¿Hay evidencias de que la resistencia promedio es
menor de 32 libras?
A3. Una proporción.
Ejemplo.- ¿Hay evidencias de que el porcentaje de piezas
defectuosas es mayor del 3%?

B. CONTRASTES PARA DOS MUESTRAS:

B1. Comparación de dos proporciones.
Ejemplo.- ¿Hay evidencias de que el porcentaje de piezas
defectuosas es mayor en la línea A que en la línea B?
B2. Comparación de dos varianzas.
Ejemplo.- ¿Se puede asumir que la dispersión de la resistencia es
la misma en las piezas producidas en la línea A que en las
producidas en la línea B?
B3. Comparación de dos promedios4 .
Ejemplos.-
B3.a ¿Hay evidencias de que, en promedio, la resistencia es menor en las
piezas de la línea A que en las de la línea B?
B3.b ¿Hay evidencias de que, en promedio, la resistencia es menor antes
de que las piezas pasen por el horno que después?
4
Realmente se compara el promedio de la diferencia con el valor 0. Las diferencias
formales entre estas comparaciones y las propuestas en el esquema se salen de los
propósitos de este curso.
A. CONTRASTES PARA UNA MUESTRA
H0 : los datos provienen de una población normal

H1 : los datos NO provienen de una población normal
A2. Un promedio.
H0 : promedio = m0 H0 : promedio ≥ m0 H0 : promedio ≤ m0

H1 : promedio 6= m0 H1 : promedio < m0 H1 : promedio > m0
H0 : p = p0 H0 : p ≥ p0 H0 : p ≤ p0
H1 : p 6= p0 H1 : p < p0 H1 : p > p0

A1. Contraste de bondad de ajuste

1 Seleccionar un test adecuado al problema.
Ejemplo
¿Se puede asumir que la resistencia sigue una distribución normal?
Contraste acerca de Tipo de test

normalidad Test de Shapiro-Wilk

Test de normalidad de Shapiro-Wilk

H0 : los datos provienen de una población normal

H1 : los datos NO provienen de una población normal

Fiabilidad en las conclusiones del test de normalidad
Se puede admitir la normalidad, como consecuencia del no

rechazo de H0 en el test de Shapiro-Wilk, siempre y cuando l, a
muestra sea representativa, es decir, tenga un número suficiente
de datos para que, de existir discrepancia con la normal, ésta
pueda ser detectada.
Con cinco datos, por ejemplo, prácticamente nunca se rechazará
la normalidad, aunque la verdadera distribución de los datos no
se parezca en absoluto a la normal.

Otros contrastes de bondad de ajuste
El test de Shapiro-Wilk no es el único que se puede utilizar para

contrastar la normalidad de un conjunto de datos, pero sí que se
considera uno de los test más potentes, sobre todo para muestras
pequeñas (n < 30).
En general, existen otros muchos test de bondad de ajuste, como
por ejemplo, el test de Anderson-Darling, el test de
Kolmogorov-Smirnov, el test chi-cuadrado, etc.
En todos ellos, las hipótesis a contrastar son:
H0 : los datos provienen de una población con cierta distribución (normal,
exponencial, Weibull, etc.)
H1 : los datos NO provienen de una población con esa distribución
Por lo tanto, en todos ellos, p-valores muy pequeños nos llevarán

a rechazar que la distribución de la variable para la que se ha
obtenido la muestra es la especificada.

Ejercicio 3.1.9
Contesta razonadamente a las siguientes cuestiones:
1 ¿Cuál es la hipótesis nula en el test de normalidad de
Shapiro-Wilk?
2 Si, realizado un test de normalidad de Shapiro-Wilk, el p-valor
asociado al mismo es 00 256, ¿se puede admitir la normalidad de
los datos?
asociado al mismo es 00 002, ¿qué se concluye sobre la
distribución?
asociado al mismo es 00 046, ¿qué se concluye sobre la
distribución?
5 ¿Cambiarían las conclusiones anteriores a un nivel de
significación α = 0.01?
6 Dibuja un posible histograma para los tres conjuntos de datos
anteriores.
A2. Contraste para un promedio
Ejemplo
¿Hay evidencias de que la resistencia promedio es menor de 32
libras?
¿Distribución
Contraste para la aproximadamente Tipo de test
normal?
Media (µ) SÍ Test t para una muestra
Mediana (Me) NO Test de Wilcoxon para una muestra5
5
Solo es recomendable cuando la distribución es simétrica. Si los datos muestrales no avalan esta premisa, se pueden
utilizar otros tests que están fuera del alcance de este curso.
Test t para una muestra

1 Seleccionar un adecuado al problema.
Distintos tipos de contrastes de hipótesis para la media:

H0 : µ = µ0 H0 : µ ≥ µ0 H0 : µ ≤ µ0
H1 : µ 6= µ0 H1 : µ < µ0 H1 : µ > µ0

Resultados del test t para una muestra
One Sample t-test

data: Datos$Resistencia
t = -7.0175, df = 199, p-value = 1.734e-11
alternative hypothesis: true mean is less than 32
95 percent confidence interval:
-Inf 30.55954
sample estimates:
mean of x
30.11584

Información adicional del test t para una muestra
(resultados de RCommander)
data: nombre del conjunto de datos y de la variable estudiada.
t y df (degrees of freedom): su estudio está fuera de los
propósitos de este curso.
Proporciona el intervalo de confianza al nivel 95% para el
parámetro estudiado, en este caso, la media poblacional (µ).
En lugar de dar, simultáneamente, una pareja de valores que
contienen a µ con confianza del 95%, proporciona solo una cota
superior (si H1 : µ < µ0 ) o una cota inferior (si H1 : µ > µ0 ) a ese
nivel de confianza.
A igualdad de nivel de confianza, esta cota superior es más precisa
(menor) que el extremo superior del intervalo de confianza habitual.
Por defecto calcula el intervalo al nivel 95%. Se puede modificar el
nivel de confianza en la ventana de RCommander.
Sample estimates: estimador puntual del parámetro µ (en este
caso, el estimador puntual es la media muestral x).
Test de Wilcoxon para una muestra
Distintos tipos de contrastes de hipótesis para la mediana:

H0 : Me = Me0 H0 : Me ≥ Me0 H0 : Me ≤ Me0
H1 : Me 6= Me0 H1 : Me < Me0 H1 : Me > Me0
two.sided less greater
wilcox.test(Datos$Tiempo,alternative=“less”,mu=30)
Wilcoxon signed rank test with continuity correction
data: Datos$Tiempo
V = 959, p-value = 3.669e-08
alternative hypothesis: true location is less than 30

Ejercicio 3.1.10
Estamos interesados en contrastar si la resistencia promedio es
menor o igual que 3 frente a la alternativa de que es mayor. Se aplica
un test de normalidad de Shapiro-Wilk a los datos y se obtiene un
p-valor 00 006.
1 ¿Qué test podríamos utilizar para estudiar la resistencia
promedio?
2 ¿Cuál es la hipótesis nula en este test? ¿Y la alternativa?
3 Si el p-valor que se obtiene es 00 000, ¿qué se concluye sobre la
resistencia promedio?

Ejercicio 3.1.11
Estamos interesados en contrastar si la resistencia promedio es
menor o igual de 3 frente a la alternativa de que es mayor. Se aplica
un test de normalidad de Shapiro-Wilk a los datos y se obtiene un
p-valor 00 756.
1 ¿Qué test podríamos utilizar?
2 Si utilizamos el test t, ¿cuál es la hipótesis nula en este test?¿Y la
alternativa?
3 Si el p-valor que se obtiene es 00 000, ¿qué se concluye sobre la
resistencia promedio?

Ejercicio
Una muestra de tamaño 15 de una variable que sigue una distribución
normal toma los siguientes valores:
14, 14, 14, 14, 14, 15, 15, 15, 15, 15, 16, 16, 16, 16, 16 .
Realiza los siguientes contrastes a un nivel de significación α = 00 05.

H0 : µ ≥ 140 6 contra H1 : < 140 6
H0 : µ ≤ 140 6 contra H1 : µ > 140 6
H0 : µ = 140 6 contra H1 : µ 6= 140 6

A3. Contraste para una proporción

Ejemplo
¿Hay evidencias de que el porcentaje de piezas buenas es mayor del
90%?

Test de proporciones
proporción
para una muestra

Contraste para una proporción

Distintos tipos de contrastes de hipótesis para la proporción:

H0 : p = p0 H0 : p ≥ p0 H0 : p ≤ p0
H1 : p 6= p0 H1 : p < p0 H1 : p > p0

Resultados del test de proporciones para una muestra
Pieza
Buena Defectuosa
190 10
1-sample proportions test without continuity correction
data: rbind(.Table), null probability 0.9
X-squared = 5.5556, df = 1, p-value = 0.009211
alternative hypothesis: true p is greater than 0.9
0.9181082 1.0000000
sample estimates:
p
0.95

Información adicional del test de proporciones para
una muestra (resultados del RCommander)

Proporciona un intervalo de confianza al nivel 95% para el
parámetro estudiado (p, proporción poblacional).
Como el contraste realizado es unilateral, no calcula el intervalo de
confianza “usual”:
contienen a p con confianza del 95%, proporciona solo una cota
superior (si H1 : p < p0 ) o una cota inferior (si H1 : p > p0 ) a ese nivel
de confianza.
Por defecto, calcula el intervalo al nivel 95%. Se puede modificar el
Sample estimates: estimador puntual del parámetro p (en este
caso, el estimador puntual es la proporción muestral p̂).

Ejercicio 3.1.12
Un fabricante de parabrisas afirma que el porcentaje de su producción
que no presenta ningún defecto es de, al menos, el 70%. Cierto
cliente duda de la afirmación. ¿Qué hipótesis debe plantear para
contrastar que el fabricante tiene razón frente a la alternativa de que
no la tiene? Para realizar este contraste analiza 120 parabrisas, de los
cuales 80 no presentan ningún defecto y el p-valor es 00 213, ¿qué se
puede concluir?

Ejercicio 3.1.13
En una empresa quieren contrastar si el porcentaje de días que cierta
máquina está operativa es mayor o igual del 80%, frente a la alternativa de
que es inferior al 80%. Para ello se observa la máquina durante 100 días
(muestra 1) y se obtiene que 72 de ellos estuvo operativa. Otro equipo
técnico observa la misma máquina durante otros 100 días (muestra 2) y
obtiene que estuvo operativa durante 67 días. Los datos obtenidos para
ambas muestras fueron introducidos en R y se obtuvieron las siguientes
salidas:
SALIDA 1:
alternative hypothesis: true p is less than 0.8
SALIDA 2:
X-squared = 4, df = 1, p-value = 0.02275
0 ¿Cuáles serían las hipótesis a contrastar?

salidas:
SALIDA 1:
SALIDA 2:
1 ¿Cuál de las dos salidas se corresponde con la primera muestra y cuál,
con la segunda?
salidas:
SALIDA 1:
SALIDA 2:
2 ¿Qué se concluye en cada uno de los dos casos?

salidas:
SALIDA 1:
SALIDA 2:
3 ¿En cuál de ellos tenemos más confianza en nuestra conclusión?

salidas:
SALIDA 1:
SALIDA 2:
4 ¿Qué habría que hacer distinto si se quisiese contrastar si el porcentaje
de días que la máquina no ha estado operativa es mayor del 20%?
B. CONTRASTES PARA DOS MUESTRAS
H0 : p1 = p2 H0 : p1 ≥ p2 H0 : p1 ≤ p2
H1 : p1 6= p2 H1 : p1 < p2 H1 : p1 > p2
H0 : σ12 = σ22 H0 : σ12 ≥ σ22 H0 : σ12 ≤ σ22

H1 : σ12 6= σ22 H1 : σ12 < σ22 H1 : σ12 > σ22
B3. Comparación de dos promedios6 .
H0 : promedio1 = promedio2 H0 : promedio1 ≥ promedio2 H0 : promedio1 ≤ promedio2

H1 : promedio1 6= promedio2 H1 : promedio1 < promedio2 H1 : promedio1 > promedio2
6
Realmente se compara el promedio de la diferencia con el valor 0. Las diferencias formales
entre estas comparaciones y las propuestas en el esquema se salen de los propósitos de este
curso.
B. CONTRASTES PARA DOS MUESTRAS
B1. Comparación de dos proporciones
Ejemplo.- ¿Hay evidencias de que el porcentaje de piezas defectuosas es
mayor en la línea A que en la línea B?
MUESTRAS INDEPENDIENTES
B2. Comparación de dos varianzas
Ejemplo.- ¿Se puede asumir que la dispersión de la resistencia es la
misma en las piezas producidas en la línea A que en las producidas en
la línea B?
MUESTRAS INDEPENDIENTES
B3. Comparación de dos promedios
B3.a B3.b
Ejemplo.- ¿Hay evidencias de que, Ejemplo.- ¿Hay evidencias de que,
en promedio, la resistencia es en promedio, la resistencia es
menor en las piezas de la línea A menor antes de que las piezas
que en las de la línea B? pasen por el horno que después?
MUESTRAS INDEPENDIENTES DATOS RELACIONADOS

B1. Contraste para comparar dos proporciones

Ejemplo
¿Hay evidencias de que el porcentaje de piezas defectuosas es mayor
en la línea A que en la B?

Test de proporciones
dos proporciones
para dos muestras

Contraste para comparar dos proporciones

Distintos tipos de contrastes de hipótesis para dos proporciones:

H0 : p1 = p2 H0 : p1 ≥ p2 H0 : p1 ≤ p2
H1 : p1 6= p2 H1 : p1 < p2 H1 : p1 > p2

Resultados del test de proporciones para dos
muestras
Defectuosa
Linea D ND Total Count
A 5.0 95.0 100 200
B 3.6 96.4 100 195
2-sample test for equality of proportions
without continuity correction
data: .Table
alternative hypothesis: greater
-0.01940489 1.00000000
sample estimates:
prop 1 prop 2
0.05000000 0.03589744

Información adicional del test de proporciones para
dos muestras (resultados del RCommander)
Proporciona un intervalo de confianza al nivel 95% para la
diferencia de proporciones poblacionales (p1 − p2 ).
Como el contraste realizado es unilateral, no calcula el intervalo de
confianza “usual”:
contienen a p1 − p2 con confianza del 95%, proporciona solo una
cota superior (o inferior, según sea la hipótesis alternativa) a ese
nivel de confianza.
Por defecto, calcula el intervalo al nivel 95%. Se puede modificar el
Sample estimates: estimadores puntuales de las proporciones
poblacionales (p1 y p2 ). Dichos estimadores son las
correspondientes proporciones muestrales.
Ejercicio 3.1.15
Si queremos analizar si el porcentaje de defectuosos es diferente en la
máquina 1 que en la 2 y se han tomado 200 datos en la primera
máquina y 150 en la segunda, ¿cuáles serían las hipótesis a
contrastar? ¿Qué se concluye si el p-valor es 00 000?

Ejercicio 3.1.17
Para comprobar que el porcentaje de graduados que encuentran trabajo en
menos de 6 meses tras finalizar sus estudios es superior en la Escuela de
Ingeniería A que en la B, se encuestó a 120 y 130 graduados en A y B
respectivamente. Los datos obtenidos fueron introducidos en R y, tras
analizar los datos se obtiene la siguiente salida de R:
2-sample test for equality of proportions without continuity correction
data: .Table
alternative hypothesis: greater
-0.04748483 1.00000000
sample estimates:
prop 1 prop 2
0.8000000 0.7615385
¿Qué hipótesis se deben plantear? ¿A qué conclusiones se puede llegar?
¿Habría que hacer algo distinto si se quisiese contrastar si el porcentaje de
graduados de la Escuela B que han encontrado trabajo en los primeros 6
meses es menor que el mismo porcentaje para los de la Escuela A?
B2. Contraste para comparar dos varianzas
Ejemplo
¿Se puede asumir que la dispersión de la resistencia es la misma en
las piezas producidas en la línea A que en las producidas en la línea
B?
Contrastes para
¿Normalidad? Tipo de test
comparar dos
Varianzas (σ12 , σ22 ) SÍ Test F para dos varianzas
Varianzas (σ12 , σ22 ) NO Test de Levene

Contraste para comparar dos varianzas

Distintos tipos de contrastes de hipótesis para dos varianzas:

H0 : σ12 = σ22 H0 : σ12 ≥ σ22 H0 : σ12 ≤ σ22
H1 : σ12 6= σ22 H1 : σ12 < σ22 H1 : σ12 > σ22
Puesto que la desviación estándar se define como la raíz cuadrada

positiva de la varianza, estos mismos contrastes se podrían utilizar
para comparar dos desviaciones estándar.

Ejercicio 3.1.18
Si queremos analizar si la varianza de la temperatura de salida es
menor o igual en la máquina 1 que en la 2 frente a la alternativa de
que es mayor, ¿cuáles serían las hipótesis a contrastar? ¿Qué se
concluye si el p-valor es 00 003?

B3. Contraste para comparar dos promedios

Ejemplos
B3.a ¿Hay evidencias de que, en promedio, la resistencia es menor en las piezas de la
línea A que en las de la línea B?
B3.b ¿Hay evidencias de que, en promedio, la resistencia es menor antes de que las
piezas pasen por el horno que después?
¿Distribuciones
Contraste ¿Muestras
aproximadamente Tipo de test
para la ... independientes?
normales?
Diferencia de las medias SÍ SÍ Test t para muestras independientes
Media de la diferencia NO SÍ Test t para datos relacionados
Diferencia de las medianas SÍ NO Test de Wilcoxon para dos muestras7
Mediana de la diferencia NO NO Test de Wilcoxon para muestras pareadas7
7
Solo es recomendable cuando la distribución de la variable diferencia es simétrica.
Esquema para comparar en promedio

Paso 1: Datos relacionados y muestras
independientes
Cuando se realiza un contraste acerca del promedio de la diferencia,

nos podemos encontrar en alguna de las siguientes situaciones:
B3.a Muestras independientes: se obtienen, generalmente, al estudiar la
misma característica en muestras procedentes de dos poblaciones
diferentes. Ejemplos: consumo cuando no hay averías (X1 ) frente a
consumo cuando sí hay averías (X2 ); estatura de un español elegido al
azar (X1 ) frente a la estatura de un sueco elegido al azar (X2 ), etc.
B3.b Datos relacionados: se obtienen, generalmente, cuando se estudian dos
características en las misma colección de individuos. Ejemplos:
temperatura antes (X ) y temperatura después (Y ) de un tratamiento;
nivel de conocimiento de una materia antes (X ) y después (Y ) de
realizar un curso, etc.

Paso 2: Estudio de la normalidad
El segundo paso, tras determinar si se trata de muestras independientes o datos
relacionados, consiste en analizar si se puede asumir la hipótesis de normalidad,
utilizando el test de normalidad de Shapiro-Wilk, para determinar si es factible
utilizar el test t de comparación de promedios. El procedimiento a realizar depende
del tipo de datos que estemos manejando. Así,
B3.a Si estamos trabajando con muestras independientes, chequearemos la
normalidad de la variable en cada grupo. Por lo tanto, se procede a aplicar el
test de normalidad a:
X1 = “variable en el primer grupo”
X2 = “variable en el segundo grupo”
con lo que se obtendrían dos p-valores, uno asociado con la normalidad de X1

y otro con la de X2 .
B3.b Si estamos trabajando con datos relacionados, debemos chequear la
normalidad de la variable diferencia (X − Y ) de las dos variables estudiadas X
e Y . Con lo cual se procede a calcular la nueva variable:
dif = X − Y
y aplicarle el test de normalidad de Shapiro-Wilk.

Posible paso 3: Igualdad de varianzas
En el caso que estemos trabajando con muestras independientes y se

pueda asumir la normalidad de la variable en cada uno de los dos
grupos, aún nos queda un tercer paso que consiste en determinar si
se puede suponer que la varianza de la variable es igual en los dos
grupos (en cuyo caso se utiliza el test t para muestras independientes
con varianzas iguales) o distinta (en cuyo caso se utiliza el test t para
muestras independientes con varianzas distintas).
Contraste para comparar dos promedios

Distintos tipos de contrastes de hipótesis para comparar dos promedios:

H0 : promedio1 = promedio2 H0 : promedio1 ≥ promedio2 H0 : promedio1 ≤ promedio2
H1 : promedio1 6= promedio2 H1 : promedio1 < promedio2 H1 : promedio1 > promedio2

Ejercicio 3.1.19
Para comparar la temperatura de salida de los productos producidos
en dos máquinas distintas se toman datos para 250 de estos
productos en cada máquina y se contrasta si ambas temperaturas son
iguales, en promedio, frente a la alternativa de que son distintas.
1 Suponiendo normalidad y varianzas iguales, ¿qué test sería el
adecuado para comparar la temperatura en ambas máquinas en
promedio?
2 Si el p-valor asociado a dicho test es 00 234, ¿qué se concluye?
3 ¿Qué test se utilizaría si los datos muestrales no procediesen de
sendas poblaciones normales?
4 ¿Qué se concluiría si el p-valor asociado a dicho test fuese 00 234?

Ejercicio 3.1.22
Se comparan dos procesos de galvanizado. Para determinar si el
primer proceso es mejor (el tiempo que tarda en producirse corrosión
es superior, en promedio) se analizaron 20 piezas sometidas al primer
proceso y 25 sometidas al segundo.
1 Después de aplicar el test de Shapiro-Wilk a las dos muestras se
obtuvo un p-valor de 00 248 para la primera y de 00 0014 para la
segunda. ¿Qué se puede concluir sobre la distribución en cada
caso?
2 ¿Qué test se debe utilizar entonces para comparar el tiempo
promedio hasta la corrosión?
3 Si al aplicar el test del apartado anterior para contrastar si el
tiempo que tarda en producirse corrosión es menor o igual, en
promedio, en el primer proceso que en el segundo, frente a la
alternativa de que es mayor, se obtiene un p-valor de 00 002, ¿qué
se concluye?
Se comparan dos procesos de galvanizado. Para determinar si el
primer proceso es mejor (el tiempo que tarda en producirse corrosión
es superior, en promedio) se analizaron 20 piezas sometidas al primer
proceso y 25 sometidas al segundo.
4 Si en el test de Shapiro-Wilk los p-valores obtenidos hubiesen
sido 00 091 y 00 329, ¿qué test aplicarías para comparar los
tiempos promedio? (Supón que las varianzas son diferentes).
5 Y para este contraste, ¿cuáles serían las hipótesis a plantear?
¿Cuál sería la conclusión si el p-valor obtenido fuese 00 0871?

Ejercicio 3.1.23
Para comparar la temperatura de un producto antes y después de
entrar en la fase de recubrimiento se toman datos para 250 de estos
productos.
1 Suponiendo normalidad, ¿qué test sería el adecuado para
comparar la temperatura promedio antes y después?
2 ¿Cuáles serían las hipótesis nula y alternativa si queremos
contrastar si la temperatura promedio es igual antes y después de
entrar en la fase de recubrimiento?
3 Si el p-valor asociado al contraste anterior es 00 234, ¿qué se
concluye?
4 ¿Qué habría que hacer si no se pudiese suponer la normalidad?
5 ¿Qué se concluiría si el p-valor asociado a dicho test fuese 00 234?

A. CONTRASTES PARA UNA MUESTRA:

Test de normalidad de Shapiro-Wilk.
A2. Un promedio.
Test t para una muestra (pobl. normal).
Test de Wilcoxon para una muestra (pobl. NO normal).

B. CONTRASTES PARA DOS MUESTRAS:

Test F (pobl. normal).
Test de Levene (pobl. no normal).
B3. Comparación de dos promedios.
Test t para muestras independientes (pobl. normal, muestras
independientes).
• Varianzas iguales.
• Varianzas distintas.
Test t para datos relacionados (pobl. normal, datos apareados).
Test de Wilcoxon para dos muestras (pobl. NO normal, muestras
independientes).
Test de Wilcoxon para muestras pareadas (pobl. NO normal, datos
apareados).

Tema 4:
Análisis multivariante

A. Relación entre variables
A1. Variables categóricas - Test de independencia chi-cuadrado
A2. Variables continuas - Test de correlación de Pearson
B. Regresión lineal
Paso 1: búsqueda de un modelo
Paso 2: estimación de los parámetros
Paso 3: adecuación del modelo
Paso 4: realización de pronósticos

Estadística multivariante
En la práctica es muy frecuente recoger información acerca de

más de una variable para cada individuo. Por ejemplo: altura y
peso de cada persona; diámetro interior, diámetro exterior y peso
de cada pieza; etc.
Este tipo de estudios se engloban dentro de lo que se conoce
como Estadística multivariante o multidimensional.
En este tema vamos a profundizar en este tipo de problemas. No
obstante, no es la primera vez que realizamos cosas similares,
puesto que muchos de los contrastes analizados con anterioridad
pueden englobarse dentro de una estructura común de análisis
de relaciones entre variables.

Algunos contrastes para el análisis de relación entre
variables
Así, si denominamos variable explicada a la variable cuyo
comportamiento se quiere comprender y que puede estar
asociada a otra variable y variable explicativa o grupo a la
variable que asume una cierta “influencia” sobre la variable
explicada o, por lo menos, se asocia a cambios en dicha variable,
a continuación se presentan dentro de este esquema general
varios tipos de contrastes, algunos ya vistos y otros nuevos que
veremos en este tema (cuyo nombre aparece resaltado).
VARIABLE VARIABLE TIPO DE TEST E
EXPLICATIVA O GRUPO EXPLICADA HIPÓTESIS NULA
(B1) Contraste de proporciones para dos muestras.

CUALITATIVA CUALITATIVA O H0 : las proporciones de la variable explicada en cada uno de los dos
O CATEGÓRICA CATEGÓRICA grupos o categorías de la variable explicativa son iguales. Esto puede
CON DOS CON DOS considerarse equivalente a decir que no hay relación entre las vari-
CATEGORÍAS CATEGORÍAS ables, es decir, la variable explicativa no influye en la variable expli-
cada.
Ejemplo: Estudio sobre si el porcentaje de fumadores es igual en hombres y en mujeres.

variables

CUALITATIVA (B3.a) Contraste para el promedio de la diferencia (t y Wilcoxon).

O CATEGÓRICA CUANTITATIVA H0 : el promedio de la diferencia es cero. Esto puede considerarse
CON SOLO DOS O NUMÉRICA equivalente a decir que no hay relación entre las variables, es decir, la
CATEGORÍAS variable explicativa no influye en la variable explicada.
Ejemplo: Estudio sobre si el peso medio es igual en hombres y mujeres.
ANOVA de un factor o Kruskal-Wallis.

CUALITATIVA H0 : hay el mismo comportamiento en todos los grupos, en promedio.
O CATEGÓRICA CUANTITATIVA Esto puede considerarse equivalente a decir que no hay relación entre
CON MÁS DE DOS O NUMÉRICA las variables, es decir, la variable explicativa no influye en la variable
CATEGORÍAS explicada.
Ejemplo: Estudio sobre si el peso medio es igual en la gente de España, USA y Japón.

variables

Contraste de independencia chi-cuadrado.

CUALITATIVA CUALITATIVA O H0 : la distribución de probabilidad de la variable en estudio es igual
O CATEGÓRICA CATEGÓRICA en cada grupo o categoría de la variable explicativa. Esto puede con-
CON VARIAS CON VARIAS siderarse equivalente a decir que no hay relación entre las variables,
CATEGORÍAS CATEGORÍAS es decir, la variable explicativa no influye en la variable explicada.
Ejemplo: Estudio sobre si el porcentaje de fumadores es igual en España, USA y Japón.
CUANTITATIVA O CUANTITATIVA Contraste de correlación de Pearson.

NUMÉRICA O NUMÉRICA H0 : No hay relación lineal entre ambas variables.
Ejemplo: Estudio sobre si existe relación lineal entre el peso y la estatura.

Esquema
Por seguir un esquema análogo al caso unidimensional, vamos a

estudiar en primer lugar este tipo de problemas desde un punto
de vista descriptivo, para después realizar contrastes de hipótesis
con el objetivo de extender nuestras conclusiones para toda la
población.

Esquema del tema
A. RELACIÓN ENTRE LAS VARIABLES.
Descriptiva Inferencia
Tablas
A1. Categórica Test chi-cuadrado
Coeficientes: χ2 y C
Diagrama dispersión
A2. Continua Test correlación
Coeficientes: sXY y R
B. DESCRIPCIÓN DE LA RELACIÓN ENTRE VARIABLES

CONTINUAS: REGRESIÓN LINEAL.

A. RELACIÓN ENTRE VARIABLES
Uno de los principales objetivos de este tipo de estudios es la

búsqueda de relaciones entre las variables y el análisis de la
intensidad de tales asociaciones.
Para ello es necesario apoyarse en diversos coeficientes:
Así, si abordamos la relación entre variables categóricas
(cualitativas o cuantitativas discretas) habrá que referirse a los
llamados coeficientes de contingencia, entre los que destaca el
coeficiente chi-cuadrado.
Si la búsqueda de asociación es entre variables de tipo
cuantitativo continuo usaremos el coeficiente de correlación
lineal de Pearson.
Analizaremos por separado cada uno de estos coeficientes y sus
contrastes asociados.

A1. Variables categóricas
Estadística descriptiva bidimensional: tablas
Cuando estudiamos de forma conjunta dos características de los
individuos, la información recogida se puede presentar mediante
una tabla de frecuencias, al igual que ocurría en el caso
unidimensional.
Cuando las variables son categóricas dicha tabla recibe el
nombre de tabla de contingencia (contingency table).
Ejemplo:
SEXO
Sueldo Hombre Mujer TOTAL
De 20 a 35 euros 120 180 300
De 36 a 50 euros 185 15 200
De 51 a 65 euros 495 5 500
TOTAL 800 200 1000

Idea de independencia
¿En cuál de las dos empresas el sueldo es independiente del sexo?

EMPRESA 1 EMPRESA 2
SEXO SEXO
Sueldo Hombre Mujer TOTAL Sueldo Hombre Mujer TOTAL
20 − 35 240 60 300 20 − 35 120 180 300
36 − 50 160 40 200 36 − 50 185 15 200
51 − 65 400 100 500 51 − 65 495 5 500
TOTAL 800 200 1000 TOTAL 800 200 1000

¿En cuál de las dos empresas el sueldo es independiente del sexo?

EMPRESA 1 EMPRESA 2
SEXO SEXO
20 − 35 240 60 300 20 − 35 120 180 300
36 − 50 160 40 200 36 − 50 185 15 200
51 − 65 400 100 500 51 − 65 495 5 500
TOTAL 800 200 1000 TOTAL 800 200 1000
Evidentemente en el primer caso, el sexo no cambia la distribución del

sueldo (independencia), pero en el segundo sí (no independencia).

ni·
En el caso de independencia, ¿qué ocurre con los valores n·j ?
n
EMPRESA 1 - INDEPENDENCIA EMPRESA 2 - RELACIÓN
SEXO SEXO
20 − 35 240 60 300 20 − 35 120 180 300
36 − 50 160 40 200 36 − 50 185 15 200
51 − 65 400 100 500 51 − 65 495 5 500
TOTAL 800 200 1000 TOTAL 800 200 1000

ni·
En el caso de independencia, ¿qué ocurre con los valores n·j ?
n
SEXO SEXO
20 − 35 240 60 300 20 − 35 120 180 300
36 − 50 160 40 200 36 − 50 185 15 200
51 − 65 400 100 500 51 − 65 495 5 500
TOTAL 800 200 1000 TOTAL 800 200 1000
300 300
240 = 800 · 120 6= 240 = 800 ·
1000 1000

Independencia de variables estadísticas
Para que dos variables categóricas cualesquiera con tabla de contingencia:
Y
X y1 y2 ··· ys TOTAL
x1 n11 n12 ··· n1s n1·
x2 n21 n22 ··· n2s n2·
.. .. .. .. .. ..
. . . . . .
xr nr 1 nr 2 ··· nrs nr ·
TOTAL n·1 n·2 ··· n·s n
sean independientes debe cumplirse para todos los pares de valores que:
ni· n·j
nij =
n
nij es la frecuencia observada del par (xi , yj ). Otra notación muy común
para esta frecuencia es Oij .
ni· n·j
es la frecuencia esperada de la modalidad (xi , yj ) si las variables
n
fuesen independientes. Se representa habitualmente por Eij .

Coeficiente chi-cuadrado
El coeficiente chi-cuadrado (chi-square coefficient) compara las

frecuencias observadas con las esperadas en el caso de que las
dos variables sean independientes. Si las frecuencias observadas
y esperadas son muy parecidas, se puede asumir que las
variables son independientes. Si hay diferencias grandes entre
ambas, se puede concluir que existe algún tipo de relación o
asociación entre las dos variables en estudio.
r X
s
2
X (Oij − Eij )2
χ =
Eij
i=1 j=1

Coeficiente chi-cuadrado - Ejemplo 1
EMPRESA 1 - INDEPENDENCIA
SEXO
20 − 35 240 60 300
36 − 50 160 40 200
51 − 65 400 100 500
TOTAL 800 200 1000
300 2 300 2 200 2
(240 − 800 · 1000 ) (60 − 200 · 1000 ) (160 − 800 · 1000 )
χ2 = 300
+ 300
+ 200
+
800 · 1000 200 · 1000 800 · 1000
200 2 500 2 500 2
(40 − 200 · 1000 ) (400 − 800 · 1000 ) (100 − 200 · 1000 )
200
+ 500
+ 500
=0
200 · 1000 800 · 1000 200 · 1000

Coeficiente chi-cuadrado - Ejemplo 2
EMPRESA 2 - RELACIÓN
SEXO
20 − 35 120 180 300
36 − 50 185 15 200
51 − 65 495 5 500
TOTAL 800 200 1000
300 2 300 2 200 2
(120 − 800 · 1000 ) (180 − 200 · 1000 ) (185 − 800 · 1000 )
χ2 = 300
+ 300
+ 200
+
800 · 1000 200 · 1000 800 · 1000
200 2 500 2 500 2
(15 − 200 · 1000 ) (495 − 800 · 1000 ) (5 − 200 · 1000 )
200
+ 500
+ 500
= 4320 34 > 0
200 · 1000 800 · 1000 200 · 1000

Coeficiente de contingencia
El coeficiente de contingencia (contingency coefficient) se obtiene

a partir del coeficiente chi-cuadrado y nos indica el grado de
asociación existente en la muestra entre las dos variables
consideradas. Su fórmula es:
s
χ2
C= , con 0 ≤ C ≤ 1.
χ2 + n
El coeficiente de contingencia, toma valores comprendidos entre

cero y uno.
Cuando está próximo a cero, indica asociación nula o muy débil
entre las variables involucradas.
Cuando está próximo a uno, indica asociación alta, fuerte, o casi
perfecta, dependiendo de la cercanía al número uno.

Coeficiente de contingencia - Ejemplos

SEXO SEXO
20 − 35 240 60 300 20 − 35 120 180 300
36 − 50 160 40 200 36 − 50 185 15 200
51 − 65 400 100 500 51 − 65 495 5 500
TOTAL 800 200 1000 TOTAL 800 200 1000


SEXO SEXO
20 − 35 240 60 300 20 − 35 120 180 300
36 − 50 160 40 200 36 − 50 185 15 200
51 − 65 400 100 500 51 − 65 495 5 500
TOTAL 800 200 1000 TOTAL 800 200 1000
χ2 = 0 χ2 = 4320 34


SEXO SEXO
20 − 35 240 60 300 20 − 35 120 180 300
36 − 50 160 40 200 36 − 50 185 15 200
51 − 65 400 100 500 51 − 65 495 5 500
TOTAL 800 200 1000 TOTAL 800 200 1000
χ2 = 0 χ2 = 4320 34
s ⇓ s ⇓
r r
χ2 0 χ 2 4320 34
C= = =0 C= = 0
= 00 55
χ2 +n 0 + 1000 2
χ +n 432 34 + 1000

Test de independencia chi-cuadrado: hipótesis
Al igual que ocurría en el primer tema, estos estudios descriptivos

solo nos proporcionan información sobre la muestra. Si
pretendemos extenderlos para toda la población es necesario
realizar contrastes de hipótesis adecuados en cada caso.
El contraste empleado en este caso es el test de independencia
chi-cuadrado (chi-square test for independence).
Las hipótesis a contrastar en este test son:
H0 : hay independencia estadística entre las dos variables
H1 : hay dependencia estadística entre las dos variables
Recordemos que el p-valor de un contraste representa el grado
de compatibilidad de la muestra (en una escala de 0 a 1) con la
hipótesis nula.

Test de independencia chi-cuadrado: p-valor
Así pues, en el test de independencia chi-cuadrado representa el
grado de compatibilidad de la muestra con la hipótesis
independencia.
Por lo tanto, si el coeficiente chi-cuadrado aumenta, ¿qué ocurre
con el p-valor, aumenta o disminuye?
Un coeficiente chi-cuadrado mayor, con el mismo número de
clases en cada variable, supone menos credibilidad de la
independencia, por lo que el p-valor debe disminuir.
Basándose en esto y en la distribución aproximada del estadístico
asociado, se tiene que
p − valor = P(T > χ2 )
donde T es una variable aleatoria con distribución χ2(r −1)(s−1) , es
decir, distribución chi-cuadrado con (r − 1)(s − 1) grados de
libertad. Este modelo de distribución continua, es el que da
nombre al contraste y al coeficiente.
Test de independencia chi-cuadrado: ejemplos

SEXO SEXO
20 − 35 240 60 300 20 − 35 120 180 300
36 − 50 160 40 200 36 − 50 185 15 200
51 − 65 400 100 500 51 − 65 495 5 500
TOTAL 800 200 1000 TOTAL 800 200 1000
⇓ ⇓
χ2 = 0 χ2 = 4320 34
⇓ ⇓
Pearson’s Chi-squared test Pearson’s Chi-squared test
data: .Table data: .Table
X-squared = 0, df = 2, p-value = 1 X-squared = 432.3438, df = 2, p-value < 2.2e-16
⇓ ⇓
No rechazo H0 : No hay evidencias es- Rechazo H0 : Hay evidencias estadísticas de
tadísticas de relación entre el sexo de la relación entre el sexo de la persona y el sueldo
persona y el sueldo que cobran por hora. que cobran por hora.

Test de independencia chi-cuadrado: convergencia
A la hora de calcular el p-valor para este contraste, ya hemos
comentado que se utiliza una aproximación a la distribución
chi-cuadrado.
Para que dicha aproximación sea buena, es necesario que se
cumplan ciertas condiciones; entre ellas, que las frecuencias
esperadas Eij (las que tendría que haber habido en cada grupo en
caso de que fuese cierta la hipótesis de independencia (H0 )) no
sean demasiado pequeñas.
Suele asumirse que si existen frecuencias esperadas menores
que 5, éstas no pueden superar el 20% del total de frecuencias en
la tabla.
En el caso de que dicha condición no se cumpla, existe la
convención de proceder a agrupar categorías de las variables de
la tabla hasta solventar el problema, en cuyo caso se vuelve a
obtener el correspondiente p-valor. En caso contrario, el valor del
p-valor debe ser interpretado con cautela.
Frecuencias esperadas
FRECUENCIAS OBSERVADAS (Oij )
SEXO
20 − 35 120 180 300
36 − 50 185 15 200
51 − 65 495 5 500
TOTAL 800 200 1000
FRECUENCIAS ESPERADAS (Eij )

SEXO
300 300
20 − 35 800 = 240 200 = 60 300
1000 1000
200 200
36 − 50 800 = 160 200 = 40 200
1000 1000
500 500
51 − 65 800 = 400 200 = 100 500
1000 1000
TOTAL 800 200 1000

Test de independencia chi-cuadrado: convergencia
En nuestros ejemplos, en ambos casos las frecuencias esperadas

(Eij ) son:
> .Test$expected # Expected Counts
Sexo
Sueldo Hombre Mujer
20-35 240 60
36-50 160 40
51-65 400 100
Con lo que no hay ninguna casilla con frecuencia esperada menor
de 5 y, por tanto, podemos utilizar el p-valor obtenido para obtener
conclusiones.

Ejercicio 4.1.1
Una empresa tiene cuatro máquinas barnizadoras A, B, C y D para
hacer el mismo trabajo, las cuales trabajan de forma continuada
durante los tres turnos del día. De los registros de producción se
obtienen los datos relativos a la máquina y el turno en el que se
produjeron los 212 últimos fallos en el barnizado:
MÁQUINAS
TURNO A B C D
o
1 41 20 12 16
2o 31 11 9 14
3o 15 17 16 10

1 ¿Cuántos fallos fueron cometidos en barnizados de la máquina B
durante el 2o turno del día?
MÁQUINAS
TURNO A B C D
o
1 41 20 12 16
2o 31 11 9 14
3o 15 17 16 10

2 ¿Cuántos fallos fueron cometidos en barnizados de la máquina
B?
MÁQUINAS
TURNO A B C D
o
1 41 20 12 16
2o 31 11 9 14
3o 15 17 16 10

3 ¿Cuántos fallos fueron cometidos en barnizados que no se
realizaron durante el primer turno?
MÁQUINAS
TURNO A B C D
o
1 41 20 12 16
2o 31 11 9 14
3o 15 17 16 10
4 Con estos datos, si se calcula el valor del coeficiente de
independencia chi-cuadrado se obtiene que χ2 = 110 65. En
función de este valor, calcula e interpreta el coeficiente de
contingencia. ¿Las conclusiones obtenidas son directamente
extrapolables para toda la población?
MÁQUINAS
TURNO A B C D
o
1 41 20 12 16
2o 31 11 9 14
3o 15 17 16 10
5 Puesto que P(χ26 ≤ 110 65) = 00 930, el p-valor del test de
independencia chi-cuadrado es 00 070. ¿Qué se concluye al nivel
de significación α = 00 05? ¿Dicha conclusión es para toda la
población?
Esquema del tema

Tablas


A2. Variables numéricas continuas
El coeficiente chi-cuadrado se usa para cuantificar el grado de

dependencia muestral entre dos variables categóricas.
Si estamos interesados en estudiar el grado de relación entre dos
variables numéricas y especialmente si éstas son continuas, la
utilización de este coeficiente carece de sentido.
A continuación vamos a ver formas de medir el grado de relación
entre dos variables cuantitativas o numéricas.
En este caso no vamos a analizar la existencia de relación
genérica, sino que mediremos solo la existencia de relación de
tipo lineal (línea recta) o correlación.
Dos variables pueden tener una relación curvilínea fuerte, a pesar
de que su correlación sea pequeña.

Diagrama de dispersión
Al igual que en el tema 1 la descripción de una variable se podía

hacer tanto con medidas descriptivas, como con gráficos, la
descripción de dos variables también se puede apoyar en
gráficos.
Comenzaremos presentando un gráfico clásico para representar
este tipo de datos, que posteriormente nos servirá de apoyo para
interpretar el coeficiente de correlación.
Dicho gráfico recibe el nombre de diagrama de dispersión,
diagrama bivariante o nube de puntos (scatterplot).

Diagrama de dispersión
La construcción de un diagrama de este tipo puede realizarse de la

siguiente forma:
1 Reunir pares de valores de las dos variables cuya relación se
desea investigar. Con menos de 30 pares es difícil sacar
conclusiones. En torno a 50 suele ser suficiente.
2 Trazar los ejes. Decidir las escalas de forma que ambos ejes
tengan aproximadamente la misma longitud. Marcar los ejes con
valores fáciles de leer.
Si una variable es una característica de calidad y la otra un factor
(de diseño o de producción), se suele situar la primera en el eje
vertical.
3 Situar los puntos en el gráfico. Si dos o más puntos coinciden, se
puede señalar marcando círculos concéntricos.

Diagrama de dispersión: ejemplo didáctico
Supongamos que tenemos datos de una variable bidimensional
(X , Y ), donde X son las horas semanales dedicadas al estudio e Y
las horas semanales dedicadas al ocio. La muestra obtenida, de
tamaño 6, es: (10, 13), (12, 17), (16, 15), (14, 15), (10, 16), (12, 12).

Interpretación del diagrama de dispersión
Los diagramas de dispersión pueden presentar distintos aspectos

según el tipo de relación que exista entre las variables. A continuación
vemos algunos ejemplos:

Covarianza
Los análisis gráficos dan una primera idea sobre si existe o no

relación entre las dos variables, pero suelen ser completados con
el cálculo de coeficientes que nos midan el grado de dicha
relación.
La covarianza (covariance) es una medida de la relación lineal
que existe entre dos variables cuantitativas o numéricas.
Dadas dos variables numéricas X e Y , su covarianza se denota
por sXY y se calcula como:
1 X
sXY = (xi − x)(yj − y )nij
n−1
i,j

Interpretación de la covarianza
1 X
n−1
i,j
Si los pares de valores (xi , yj ) están mayoritariamente sobre una

línea de pendiente positiva, entonces, en la mayoría de los casos,
xi es mayor que x cuando yj es mayor que y y menor que x
cuando yj es menor que y . Por consiguiente, el producto de los
términos (xi − x)(yj − y ) es positivo para la mayoría de los pares.
Esto lleva a que, en tal caso, la covarianza es positiva.
Sin embargo, si los puntos están mayoritariamente sobre una
línea de pendiente negativa, entonces, en la mayoría de los
casos, xi − x es positivo cuando yj − y sea negativo y viceversa.
En consecuencia, el producto (xi − x)(yj − y ) es negativo para la
mayoría de los pares y, por tanto, la covarianza es negativa.

Interpretación de la covarianza
1 X
n−1
i,j
Los siguientes gráficos muestran ejemplos de pares de variables

con covarianzas positiva, negativa y cero.
sXY > 0 sXY < 0 sXY = 0

Covarianza: medida de la relación lineal
La covarianza es una medida de la asociación lineal entre las dos

variables.
Si la relación entre ellas no es lineal, entonces es posible que la
covarianza no sea tan sensible a dicha relación, como puede
verse en el siguiente ejemplo:
Aunque existe una relación identificable entre las variables, la

covarianza es cero.
Coeficiente de correlación de Pearson
Existe otra medida de la relación entre dos variables que, a
menudo, es más fácil de interpretar que la covarianza.
Se trata del coeficiente de correlación de Pearson (Pearson’s
product-moment correlation coefficient), que habitualmente se
denota por RXY o simplemente por R si no hay lugar a
ambigüedad y se define como:
sXY
R=
sX · sY
donde sXY denota la covarianza muestral, sX la desviación típica
muestral de X y sY la desviación típica muestral de Y , es decir,
1 X
sXY = (xi − x)(yj − y )nij ,
n−1
i,j
s v
1 X 1 X
u
sX = (xi − x)2 ni· y sY = t (yj − y )2 n·j
u
n−1 n−1
i j

El coeficiente de correlación precisamente escala la covarianza
por la desviación típica de cada variable. En consecuencia, el
coeficiente de correlación es una cantidad sin dimensiones que
puede emplearse para comparar las relaciones lineales entre
pares de variables que tienen unidades distintas.
Dado que las desviaciones típicas son positivas, el coeficiente de
correlación tiene el mismo signo que la covarianza.
Además, puede demostrarse que, para cualquier par de variables,
su coeficiente de correlación R verifica que:
−1 ≤ R ≤ 1
Si los puntos del diagrama de dispersión tienden a caer a lo largo
de una línea con pendiente positiva (o negativa), entonces R es
próximo a +1 (o −1). Si R es igual a +1 o −1, entonces puede
demostrarse que los puntos caen exactamente a lo largo de una
línea recta.
Dos variables están correlacionadas si tienen una correlación

distinta de cero. Así pues, el coeficiente de correlación es otra
medida del grado de relación lineal entre dos variables.
Evidentemente, que dos variables sean incorreladas no implica
que no pueda existir otro tipo de relación entre ellas, como ya
hemos comentado anteriormente.

Coeficiente de correlación de Pearson: ejemplo
Consideremos de nuevo los datos relativos a las horas semanales dedicadas al
estudio y las horas semanales dedicadas al ocio. Puesto que
xi yi (xi − x)2 (yi − y )2 (xi − x)(yi − y )
10 13 50 44 20 78 30 89
12 17 00 11 50 44 −00 78
16 15 130 44 00 11 10 22
14 15 20 78 00 11 00 56
10 16 50 44 10 78 −30 11
12 12 00 11 70 11 00 89
74 88 270 33 170 33 20 67
se tiene que
1X 74 1X 88
x= xi ni· = = 120 33 y= yj n·j = = 140 67
n 6 n 6
i j
1 X 270 33
sX2 = (xi − x)2 ni· = = 50 47
n−1 5
i
1 X 170 33
sY2 = (yj − y )2 n·j = = 30 47
n−1 5
j

Coeficiente de correlación de Pearson: ejemplo
xi yi (xi − x)2 (yi − y )2 (xi − x)(yi − y )

10 13 50 44 20 78 30 89
12 17 00 11 50 44 −00 78
16 15 130 44 00 11 10 22
14 15 20 78 00 11 00 56
10 16 50 44 10 78 −30 11
12 12 00 11 70 11 00 89
74 88 270 33 170 33 20 67
se tiene que
x = 120 33, y = 140 67, sX2 = 50 47 y sY2 = 30 47
y además
1 X 20 67
sXY = (xi − x)(yj − y )nij = = 00 53.
n−1 5
i,j
Así pues, el coeficiente de correlación de Pearson es:
sXY 00 53
R= = √ √ = 00 12.
sX sY 50 47 30 47

Matriz de correlaciones
En muchas ocasiones nos interesa, dadas varias variables,
identificar la que tiene más relación lineal muestral con otra
variable dada, es decir, mayor coeficiente de correlación.
Para analizar esto, es muy habitual representar los coeficientes
de correlación de Pearson de cada par de variables de forma
matricial.
Así, dada una muestra de r variables X1 , X2 , . . . , Xr , se calculan
los coeficientes de correlación de cada par de variables y con
ellos se obtiene una matriz como la que sigue
X X2 ··· Xr
 1 
X1 R11 R12 ··· R1r
X2 
 R21 R22 ··· R2r 
..  .. .. .. 

..
.  . . . . 
Xr Rr 1 Rr 2 ··· Rrr
donde Rij representa el coeficiente de correlación lineal entre las
variables Xi e Xj .
Matriz de correlaciones
X1 X2 ··· Xr X1 X2 ··· Xr
   
X1 R11 R12 ··· R1r X1 1 R12 ··· R1r
X2  R21 R22 ··· R2r  X2  R12 1 ··· R2r 
..  .. .. .. ..  .. .. ..
   
..  .. 
.  . . . .  .  . . . . 
Xr Rr 1 Rr 2 ··· Rrr Xr R1r R2r ··· 1
Esta matriz recibe el nombre de matriz de correlaciones

(correlation matrix).
Dada su definición, es evidente que la matriz de correlaciones es
una matriz simétrica (puesto que Rij = Rji ) y con diagonal
principal formada toda por unos (Rii = 1).
La variable más correlacionada en la muestra con Xi es aquella
que tiene mayor valor en la fila correspondiente (coeficiente de
correlación) en valor absoluto.

Matriz de correlaciones: ejemplo
Si hemos tomado datos de la emisión de distintos gases por parte de

una empresa, se tiene que:
> rcorr.adjust(acero[,c(“CO”,“CO2”,“N2O”,“NOx”,“SO2”)],
type=“pearson”)
CO CO2 N2O NOx SO2

CO 1.00 0.94 0.82 0.52 0.04
CO2 0.94 1.00 0.85 0.57 -0.03
N2O 0.82 0.85 1.00 0.53 0.01
NOx 0.52 0.57 0.53 1.00 -0.13
SO2 0.04 -0.03 0.01 -0.13 1.00
La tercera fila de la primera tabla muestra los coeficientes de

correlación de N2O con las demás variables. Se observa como el
coeficiente mayor, en valor absoluto, es con CO2.

Test de correlación de Pearson
El coeficiente de correlación de Pearson nos sirve para medir la

existencia o no de relación lineal entre los datos de la muestra,
pero no para analizar la relación lineal en toda la población, es
decir, entre ambas variables aleatorias.
Para sacar conclusiones generales es necesario realizar un
contraste de hipótesis, al que llamaremos test de correlación de
Pearson.
Dicho test se basa, evidentemente, en el valor del coeficiente de
correlación de Pearson.

Test de correlación de Pearson
Las hipótesis a contrastar son:

H0 : hay independencia lineal entre las dos variables
(la correlación lineal entre las variables es nula)
(ρ = 0)
H1 : hay dependencia lineal entre las dos variables
(la correlación lineal entre las variables no es nula)
(ρ 6= 0)
donde ρ representa al coeficiente de correlación de Pearson
poblacional.
Recordemos de nuevo que el p-valor de un contraste representa
el grado de compatibilidad de la muestra (en una escala de 0 a 1)
con la hipótesis nula.

Test de correlación de Pearson: p-valor
Así pues, en el test de correlación de Pearson representa el grado

de compatibilidad de la muestra de datos pareados con la
hipótesis incorrelación.
Por lo tanto, si el valor absoluto del coeficiente de correlación
aumenta, ¿qué ocurre con el p-valor, aumenta o disminuye? Un
valor absoluto del coeficiente de correlación mayor, con el mismo
tamaño muestral, supone menos credibilidad de la incorrelación,
por lo que el p-valor disminuye.
De lo anterior se deduce que, al nivel de significación habitual
α = 00 05, se puede aplicar la siguiente regla de decisión:
p − valor < 00 05 ⇒ existen evidencias de relación lineal entre las
dos variables;
p − valor ≥ 00 05 ⇒ no existen evidencias de relación lineal entre
las dos variables.

Test de correlación de Pearson: ejemplo
Consideremos de nuevo los datos relativos a las horas semanales dedicadas al
estudio y las horas semanales dedicadas al ocio:
Estudio 10 12 16 14 10 12
Ocio 13 17 15 15 16 12
Con estos datos obtenemos que:
Pearson’s product-moment correlation

data: Datos$estudio and Datos$ocio
t = 0.2469, df = 4, p-value = 0.8172
alternative hypothesis: true correlation is not equal to 0
-0.7651220 0.8496011
sample estimates:
cor
0.1225128
Puesto que el p-valor = 00 8172, no rechazamos la hipótesis nula H0 , es decir, no hay

evidencias de relación lineal entre las horas de estudios y las horas de ocio en la
población. No obstante, 6 datos no son suficientes para llegar a ninguna conclusión.
Este ejemplo lo hemos puesto simplemente con fines didácticos.
Ejercicio 4.1.7
Se consideran nueve parejas de variables observadas en una muestra
de tamaño n = 60, que se supone que siguen distribuciones normales
bidimensionales. Los respectivos valores del coeficiente de
correlación muestral de Pearson aparecen en el siguiente esquema:
Los p-valores del test de correlación de Pearson aplicado a cada una

de las nueve parejas de variables, listados en orden creciente, son:
00 000 − 00 000 − 00 000 − 00 000 − 00 002 − 00 002 − 00 125 − 00 125 − 1.
Rellena las casillas en blanco del esquema anterior, estableciendo el
p-valor asociado a cada valor del coeficiente de correlación. Comenta
el esquema anterior.
Test de correlación de Pearson: fiabilidad del p-valor
El resultado del test de correlación de Pearson es fiable solo si la
distribución conjunta de ambas variables es normal bivariada8 o el
tamaño muestral es grande.
No hay una forma completamente satisfactoria de comprobar lo
razonable de la suposición de normalidad bivariada.
Una comprobación parcial consiste en realizar contrastes de normalidad
para cada una de las dos variables, ya que la normalidad bivariada
implica que las distribuciones de cada una de las dos variables sean
normales.
Si se rechaza la hipótesis de normalidad para alguna de las dos
variables y el tamaño muestral es pequeño, el resultado del test de
correlación de Pearson no es fiable.
En tal caso se trabaja con un test de correlación no paramétrico, como
por ejemplo el test de correlación de Spearman, que tiene el mismo
significado que el test de correlación de Pearson, pero se obtiene a
partir del rango de las observaciones.
8
El estudio de la distribución normal bivariada o bidimensional se escapa de los
objetivos de este
Tema 4 curso. Estadística 285 / 425
Ejercicio 4.1.6
En un estudio se han tomado datos sobre el promedio de nivel de
plomo en la sangre de 100 niños de 6 meses a 5 años (X ) y la
cantidad de plomo utilizado en la producción (en 1000 toneladas) de
gasolina (Y ) durante diez periodos de seis meses. Los resultados
obtenidos fueron:
X 90 82 95 ··· 89
Y 130 4 100 7 140 4 ··· 120 3
1 Si estudiamos la normalidad de las variables X e Y a partir de

estos datos y obtenemos:
Shapiro-Wilk normality test Shapiro-Wilk normality test
data: DatosXdata : DatosY
W = 0.9909, p-value = 0.7408 W = 0.9944, p-value = 0.9546
¿es razonable suponer que los pares de valores observados
provienen de una población normal bidimensional?
obtenidos fueron:
X 90 82 95 ··· 89
Y 130 4 100 7 140 4 ··· 120 3
2 Si la covarianza muestral entre X e Y es 230 90, la varianza

muestral de X es 840 27 y la de Y es 70 03, ¿cuánto vale el
coeficiente de correlación muestral de Pearson? Comenta dicho
valor.

obtenidos fueron:
X 90 82 95 ··· 89
Y 130 4 100 7 140 4 ··· 120 3
3 El p-valor para el test de correlaciones es 00 000. Al nivel de

significación α = 00 05, ¿los datos proporcionan evidencias para
concluir que hay relación lineal entre el nivel de plomo en la
sangre y la cantidad de plomo empleado en la producción de
gasolina?

Si consideremos de nuevo los datos relativos a la contaminación
producida por la empresa, podemos obtener con R, además de la
matriz de correlaciones, la matriz de los correspondientes p-valores
para los tests de correlaciones:
R CO CO2 N2O NOx SO2

CO 1.00 0.94 0.82 0.52 0.04
CO2 0.94 1.00 0.85 0.57 -0.03
N2O 0.82 0.85 1.00 0.53 0.01
NOx 0.52 0.57 0.53 1.00 -0.13
SO2 0.04 -0.03 0.01 -0.13 1.00
P-valor CO CO2 N2O NOx SO2

CO 0.0000 0.0000 0.0000 0.6347
CO2 0.0000 0.0000 0.0000 0.7599
N2O 0.0000 0.0000 0.0000 0.9398
NOx 0.0000 0.0000 0.0000 0.1753
SO2 0.6347 0.7599 0.9398 0.1753

En la tercera fila se obtienen todos los p-valores prácticamente
nulos, menos el último que es significativamente mayor que
cualquiera de los niveles de significación α habituales, con lo cual
se concluye que N2O tiene relación lineal significativa con CO, CO2
y NOx, pero no con SO2.
No es rechazable la hipótesis de normalidad para ninguna de las
cinco variables implicadas, puesto que los p-valores del test de
normalidad de Shapiro-Wilk para cada una de ellas son:
p-valor(CO)=00 1485, p-valor(CO2)=00 771, p-valor(N2O)=00 7518,
p-valor(NOx)=00 07302 y p-valor(SO2)=00 2772. Como
consecuencia de esto, tiene sentido interpretar los p-valores
asociados a los contrastes de correlación de Pearson.
De las tres con las que tiene relación, con la que la estimación del
coeficiente de correlación es mayor, en valor absoluto, es con
CO2, con lo que consideramos ésta como la más relacionada
linealmente con N2O.
Gráficamente, estas conclusiones se pueden apoyar con la
correspondiente matriz de diagramas de dispersión:

Contrastes unilaterales sobre el coeficiente de
correlación de Pearson
Con las mismas técnicas del contraste anterior se pueden hacer
contrastes del tipo:
H0 : ρ≤0 H0 : ρ≥0
H1 : ρ > 0 (correlación positiva) H1 : ρ < 0 (correlación negativa)
Con R se obtienen dichos contrastes simplemente marcando la

correspondiente opción para la hipótesis alternativa:

Otros contrastes sobre el coeficiente de correlación de
Pearson
Aunque no vamos a entrar en ellos, porque se escapan de los

objetivos de este curso, existen también procedimientos para
probar hipótesis más generales del tipo H1 : ρ 6= ρ0 .
Ejemplo. Las hipótesis a contrastar, en el caso ρ0 = 00 8, serían de
uno de los tres tipos siguientes:
H0 : ρ = 00 8 H0 : ρ ≤ 00 8 H0 : ρ ≥ 00 8
H1 : ρ 6= 00 8 H1 : ρ > 00 8 H1 : ρ < 00 8

Correlación 6= Causa-efecto
La existencia de correlación no implica una relación causa-efecto.

Ejemplo: supongamos un sistema formado por un interruptor
progresivo y dos bombillas conectadas a él:
Si realizásemos un gráfico de la temperatura de la bombilla 2

frente a la de la bombilla 1, es evidente que detectaríamos
correlación entre ambas temperaturas, e incluso si realizamos un
test de correlación nos saldría significativo.

Correlación 6= Causa-efecto
La existencia de correlación no implica una relación causa-efecto.

Ejemplo:
No obstante, si rebajamos la temperatura de la bombilla 1,

mediante algún método de refrigeración, es evidente que no
conseguiríamos rebajar la temperatura de la 2. La correlación
detectada no se debe a una relación de causa-efecto entre ellas,
sino a que la temperatura de ambas está directamente asociada a
la potencia dada al interruptor.
Es necesario, por tanto, ser prudente a la hora de obtener
conclusiones.

Ejercicio 4.1.5
En un proceso de desarrollo de un prototipo, el ingeniero encargado
de la tarea se encuentra con una variable Y que no puede controlar
fácilmente, pero es una característica importante de la calidad del
producto final y con una variable X que cree que está relacionada con
Y , pero que sí es controlable por él con facilidad. Se han recogido
datos (xi , yi ) de dichas variables en 100 pruebas del prototipo,
obteniéndose el diagrama de dispersión siguiente:
a) En función de este diagrama, ¿crees que hay relación entre las

dos variables?, ¿de qué tipo?
b) Este diagrama, ¿induce a pensar que se puede obtener el valor

deseado de Y regulando el valor de la variable X ? ¿Por qué?
c) A raíz de este estudio, un técnico intentó regular el valor de Y

ajustando el de X , pero se encontró con la desagradable sorpresa
de no conseguirlo, ¿a qué puede ser esto debido?
Ejercicio 4.1.9
Se han considerado unos datos presentados en Consumer Reports
relativos a la aceleración (en s de 0 a 60 millas), el peso (en
toneladas), la potencia (en cv), el rendimiento (en millas por galón) y
los gastos en el taller los últimos dos años (en dólares) de 38
vehículos. Una vez introducidos dichos datos en R, se obtienen las
siguientes matrices de correlaciones y p-valores asociadas:
Aceleracion Peso Potencia Rendimiento Taller
Aceleracion 1.00 -0.69 -0.54 0.63 0.24
Peso -0.69 1.00 0.77 -0.97 -0.20
Pearson correlations:
Potencia -0.54 0.77 1.00 -0.77 -0.11
Rendimiento 0.63 -0.97 -0.77 1.00 0.17
Taller 0.24 -0.20 -0.11 0.17 1.00
Number of observations: 38
Aceleracion Peso Potencia Rendimiento Taller
Aceleracion 0.0000 0.0005 0.0000 0.1423
Peso 0.0000 0.0000 0.0000 0.2405
Pairwise two-sided p-values:
Potencia 0.0005 0.0000 0.0000 0.5239
Rendimiento 0.0000 0.0000 0.0000 0.3216
Taller 0.1423 0.2405 0.5239 0.3216
En función de dichos resultados y suponiendo normalidad, ¿qué
variables tienen relación lineal significativa con el rendimiento? ¿cuál
es la variable que tiene la mayor relación lineal con él en la muestra?
Ejercicio 4.1.10
a) Se dispone de 84 muestras de 1 cc de agua elegidas al azar de un
río A y de otras 84 de un río B. Para cada muestra se analiza su
contenido en oxígeno y fosfatos, obteniéndose los siguientes
resultados:
RÍO A RÍO B
ÓXIGENO ÓXIGENO
FOSFATOS Bajo Medio Alto FOSFATOS Bajo Medio Alto
Bajo 18 10 2 Bajo 10 15 5
Medio 7 26 3 Medio 12 18 6
Alto 3 7 8 Alto 6 10 2
Para estos datos se han obtenido las siguientes salidas:

Pearson’s Chi-squared test Pearson’s Chi-squared test
data: .Table data: .Table
X-squared = 0.367, df = 4, p-value = 0.985 X-squared = 27.946, df = 4, p-value = 1.28e-05
pero el técnico no sabe cuál corresponde al río A y cuál, al B.
Determina el p-valor asociado a cada río y saca las correspondientes
consecuencias a partir de él.
b) Dada una muestra de tamaño 397 de tres variables X , Y y Z , se
tiene que RXY = −00 55 y RXZ = −00 01. Para dichos coeficientes de
correlación se han obtenido los p-valores: 00 0000 y 00 8207, pero no se
sabe cuál corresponde con cada coeficiente. Identifica dichos
p-valores con su respectivo coeficiente y analiza el grado de relación
lineal de X con Y y de X con Z .

Esquema del tema

Tablas


B. REGRESIÓN LINEAL
Origen de la regresión
El término regresión proviene del trabajo de

Sir Francis Galton (1822-1911), un famoso
genetista, primo segundo de Charles Darwin,
quien estudió los tamaños de las semillas en
plantas parentales y en sus progenies, así
como la altura entre padres e hijos.
En ambos casos, él encontró que los hijos de padres más grandes, en
tamaño promedio tendían a ser menores que sus padres, en tanto que
los hijos de padres de menor tamaño, en promedio tendían a ser
mayores que sus padres. Galton denominó a este fenómeno regresión
hacia la mediocridad.

Introducción al análisis de la regresión
Para muchas aplicaciones en ingeniería se necesita modelar las

relaciones entre conjuntos de variables. Por ejemplo:
El rendimiento de un proceso en función de la temperatura y la
presión a las cuales se llevan a cabo las reacciones.
La demanda máxima diaria de una planta generadora de energía
eléctrica como función del número de clientes.
El oxígeno disuelto en muestras de agua de un lago en función
del contenido de algas en la muestra.
...
Hemos visto ya una forma de analizar dichas relaciones, mediante el
diagrama de dispersión y el test de correlaciones. Ahora vamos más
allá, nos interesa desarrollar un método de predicción, es decir, un
procedimiento para estimar el valor de una de las variables en función
de los valores de la o las otras, a partir de la información experimental.

Análisis de la regresión
Así, podríamos conocer qué cambios deben hacerse en ciertas
variables controlables, para obtener los mejores resultados posibles
para otra variable no controlable directamente. Por ejemplo,
podríamos analizar a qué temperatura y presión se obtiene el mejor
rendimiento, etc.
Un método para modelar la relación entre variables se llama análisis
de regresión (regression analysis).
Ejemplo
Y .- demanda máxima diaria en megawatts.
x.- temperatura máxima diaria en grados Fahrenheit.
Y = 2 + 5x +
^ ^
↓ ↓
determinista componente aleatoria

Conceptos fundamentales en el análisis de regresión
Variable explicada, dependiente o respuesta Y : es la variable que

no se controla en el experimento.
Esta respuesta depende de una o más variables explicativas,
independientes o de regresión, digamos x1 , x2 , . . . , xk que a
menudo se controlan en el experimento.
Ecuación de predicción: es la ecuación que ajusta la variable
explicada en función de las variables explicativas.
Tipos de regresión
Regresión lineal simple: Y = β0 + β1 x.
Regresión no lineal simple: Y = β0 + β1 ln(x), Y = β0 x β1 ,
Y = β0 eβ1 x , Y = β0 + β1 /x, etc.
Regresión lineal múltiple: Y = β0 + β1 x1 + β2 x2 + . . . + βn xn .

Pasos en el análisis de la regresión
En cualquiera de los casos, el procedimiento de análisis de regresión

se puede resumir en cuatro pasos:
1 Suponer la forma que tiene el promedio E(Y /x0 ) (componente
determinista del modelo).
2 Utilizar los datos de la muestra para estimar los parámetros
desconocidos del modelo.
3 Comprobar estadísticamente la adecuación del modelo.
4 Cuando se quede satisfecho con la adecuación, usar el modelo
para predicciones, estimaciones, etc.

La navaja de Ockham (Ockham’s razor)
La navaja de Ockham (a veces escrito Occam

u Ockam), principio de economía o principio de
parsimonia, es un principio filosófico atribuido
al fraile franciscano inglés Guillermo de Ock-
ham (1280-1349), según el cual, cuando dos
teorías en igualdad de condiciones tienen las
mismas consecuencias, la teoría más simple
debe ser la preferida.
El principio de parsimonia indica que el modelo de regresión lineal
simple se convierte en el primer candidato para explicar la relación
entre las variables.

Regresión lineal simple (Simple linear regression)
Y = β0 + β1 x +
donde,
Y = variable explicada (variable que se quiere modelar)
x = variable explicativa (variable que se usará como
predictor de Y )
= componente aleatorio de error, con valor promedio 0
β0 = ordenada en el origen (intercept)
β1 = pendiente de la recta, es decir, cantidad en que aumenta
(o disminuye) el promedio de Y por cada aumento
unitario de x
Coeficientes de regresión: β0 y β1

Paso 1: Suponer la forma del modelo
Un primer paso en el análisis de regresión consiste en considerar
el modelo o tipo de ecuación que mejor se adapta al problema en
particular.
Este paso es el más difícil y tiene que ser dado por un experto en
el tema.
En la mayoría de los casos, dicho experto se ayudará del
diagrama de dispersión para comenzar a estudiar la adecuación
del modelo de regresión lineal simple.
Ejemplo
En el ejemplo de la planta generadora de energía eléctrica, se tomó una muestra de
10 días, para los que se anotó la temperatura máxima diaria en grados Fahrenheit (x)
y la demanda máxima diaria en megawatts (y), obteniéndose los siguientes datos:
x 95 82 90 81 99 100 93 95 93 87
y 214 152 156 129 254 266 210 204 213 150
Con estos datos, el diagrama de dispersión obtenido es:
Dicho diagrama sugiere que el modelo

lineal simple, es decir un ajuste del tipo
y = β0 + β1 x ,
puede ser satisfactorio.

En caso de disponer de diferentes variables para construir un modelo
de regresión lineal se cogerá como variable explicativa aquella que
esté más correlada con la variable explicada (es decir, la que tenga el
mayor valor absoluto del coeficiente de correlación).

Paso 2: Estimación de los parámetros
Residuos o errores
Para cada par de observaciones (xi , yi ) se denomina residuo o error al

valor
ei = yi − ŷi
donde ŷi = β0 + β1 xi representa el valor predicho por el modelo.
Se basa en el método de mínimos cuadrados: se seleccionan como
estimadores de los parámetros aquellos que hacen mínima la suma
cuadrática de los errores, que se denotará por SSE (Sum Square of
Errors).
En el caso particular de regresión lineal simple, esto quiere decir que
se eligen como estimadores de β0 y β1 aquellos valores que minimizan
X
SSE = (yj − (β0 + β1 xi ))2 nij .
i,j
Derivando esta expresión respecto a ambos parámetros, igualando a

cero y calculando su signo en la derivada segunda se obtiene que la
solución es
sxy
βˆ1 = 2 , βˆ0 = ȳ − βˆ1 x̄,
sx
donde x e y representan las medias de x e y , respectivamente, sx2 la
varianza muestral de x y sxy la covarianza muestral entre x e y .
Ejemplo
Con los datos del ejemplo de la planta generadora de energía eléctrica, se obtiene
que
x = 91.5 , sx = 6.5 , y = 194.8 , sy = 46.26 , sxy = 284
Por tanto la recta de regresión es
ŷ = βˆ0 + βˆ1 x

Ejemplo
Con los datos del ejemplo de la planta generadora de energía eléctrica, se obtiene
que
x = 91.5 , sx = 6.5 , y = 194.8 , sy = 46.26 , sxy = 284
Por tanto la recta de regresión es
ŷ = − 4190 85 + 60 7175x

Paso 2: Estimación de los parámetros con R
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -419.8491 76.0578 -5.52 0.00056 ***
x 6.7175 0.8294 8.10 3.99e-05 ***
--
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
De la tabla Coefficients (2a columna) obtenemos que la recta de

regresión de la demanda máxima (y ) en función de la temperatura
máxima (x) es:
y = −4190 8491 + 60 7175x
El hecho de que el valor del coeficiente de x sea positivo (60 7175)

indica que la demanda máxima tiende a incrementarse a medida que
aumenta la temperatura máxima diaria para esta muestra de diez días.

Paso 3: Adecuación del modelo
¿Cómo mido la calidad del ajuste?
El analista debe realizar siempre comprobaciones acerca de la

adecuación del modelo antes de comenzar a utilizarlo para hacer
predicciones o pronósticos. Una forma de medir dicha adecuación
será:
Mediante el coeficiente de determinación ajustado. Éste debe ser
lo más cercano a uno posible.
Mediante los p-valores de los contrastes asociados a los
coeficientes, en este caso al coeficiente de regresión (β1 ). Dicho
coeficiente debería ser significativo, es decir, significativamente
distinto de cero.
Mediante el análisis de los residuos o errores. Deben ser
variables aleatorias normales, no correlacionadas, con media
cero y varianza constante.
Coeficiente de determinación o R-cuadrado (R-squared): en el

caso lineal coincide con el cuadrado del coeficiente de
correlación, por lo que se denota por R 2 .
Por lo tanto, en el caso lineal simple se verifica siempre que:
R 2 ∈ [0, 1]
Es una estimación del porcentaje de reducción de la variabilidad

muestral de variable Y con respecto a su promedio cuando se
modela Y como función lineal de x.

Coeficiente de determinación ajustado (Adjusted R-squared):
(n − 1)R 2 − k
Ra2 =
n−k −1
donde n denota el tamaño muestral y k el número de variables
explicativas, en este caso 1.
Es mejor estimador del coeficiente de determinación poblacional y
es el que debe usarse cuando se quieren comparar modelos con
distinto número de variables explicativas.
Al contrario que el coeficiente de determinación, el coeficiente de
determinación ajustado puede tomar valores negativos
(normalmente si el coeficiente de determinación es pequeño).
Paso 3: Adecuación del modelo con R
Multiple R-squared: 0.8913, Adjusted R-squared: 0.8777
De la tabla Resumen del modelo se obtiene que el coeficiente de

determinación es R 2 = 00 8913 y el coeficiente de determinación
ajustado es Ra2 = 00 8777. Además,
El porcentaje de la variabilidad muestral de la demanda máxima
explicado por la regresión es:
890 13%
El hecho de que Ra2 sea cercano a 1 indica que el ajuste no es
malo, de acuerdo con este criterio.

Ejercicio 4.1.11
[...]Un artículo describe el empleo de un análisis de mínimos
cuadrados para estudiar la forma en que y = porosidad (%) se
relaciona con x = peso unitario (lb/pie3 ) en especímenes de hormigón.
Los resultados obtenidos aparecen recogidos a continuación:
Call:
lm(formula = y x, data = Datos)
Residuals:
Min 1Q Median 3Q Max
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 0.938 on 13 degrees of freedom
F-statistic: 484.8 on 1 and 13 DF, p-value: 1.125e-11
1 Comentar el diagrama de dispersión de los datos.

Call:
Residuals:
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
2 Obtener la recta de regresión de la porosidad sobre el peso

unitario.
Call:
Residuals:
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
3 Estimar la pérdida en porosidad por aumento unitario del peso.

Call:
Residuals:
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
4 Pronosticar la porosidad para un peso unitario de 1120 4 lb/pie3 .

Call:
Residuals:
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
5 Señalar, en el diagrama de dispersión, el residuo correspondiente

al décimo especimen, para el que se había obtenido la pareja de
mediciones (1120 4, 180 9) ¿Cuánto vale dicho residuo?
Call:
Residuals:
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
6 Obtener los coeficientes de correlación, determinación y

determinación ajustado para esta recta de regresión y
comentarlos.
El uso del coeficiente de determinación (ajustado) NO es suficiente
Residuals:
-16500238 -15130652 -8719188 2811355 116449945
Coefficients:
(Intercept) -119724647.5 6535899.6 -18.32 <2e-16 ***
x 23343.1 521.9 44.72 <2e-16 ***
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 22910000 on 115 degrees of freedom
F-statistic: 2000 on 1 and 115 DF, p-value: < 2.2e-16

El contraste
H0 : β1 = 0 equivalente, en el caso lineal H0 : ρ = 0
H1 : β1 6= 0 simple, al contraste H1 : ρ 6= 0
puede realizarse mediante la tabla ANOVA.

Si el p-valor obtenido es menor que el nivel de significación
prefijado por el investigador (normalmente 00 05), se rechaza la
hipótesis nula y se llega a la conclusión de que la pendiente no es
cero (β1 6= 0), con lo cual el modelo planteado contribuye con
información para predecir la variable Y .
En otro caso, no se puede rechazar la hipótesis nula, es decir, no
se puede descartar que β1 sea igual a 0. Esto puede deberse a
varias razones:
que el tamaño muestral sea insuficiente,
que exista una relación funcional fuerte entre x e Y , pero que ésta
no sea lineal, o simplemente
que no haya una relación notable entre las dos variables.
En la tabla ANOVA se realiza el contraste

H0 : β1 = 0 (el modelo propuesto no contribuye con información
para describir la variable Y ),
H1 : β1 6= 0 (el modelo propuesto sí contribuye con información
para describir la variable Y ).
El p-valor para dicho contraste puede ser calculado con el software
estadístico R y resulta, en este caso igual a
P − valor = 30 994 · 10−5
En función de este valor, como en cualquier otro contraste, se decide

rechazar la hipótesis nula (H0 ), es decir, se concluye que el modelo
propuesto contribuye significativamente con información acerca de la
demanda máxima diaria.
En la tabla Coefficients también se hace el contraste anterior,

puesto que se contrasta la igualdad a cero de cada coeficiente.
Coefficients:
(Intercept) -419.8491 76.0578 -5.52 0.00056 ***
x 6.7175 0.8294 8.10 3.99e-05 ***
--
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
En el ejemplo anterior,
Contraste P-valor Conclusión

H0 : β0 = 0
00 00056 β0 6= 0
H1 : β0 6= 0
H0 : β1 = 0
30 994 · 10−5 β1 6= 0
H1 : β1 6= 0

Paso 3: Adecuación del modelo - Anscombe
Inicialmente, muchos investigadores basaban sus conclusiones

sobre la adecuación de un modelo de regresión únicamente en el
valor del coeficiente de determinación o, lo que es equivalente en
el caso lineal simple, el coeficiente de correlación.
Para demostrar que quedarse solo con el coeficiente de
determinación era un error, el estadístico F.J. Anscombe presentó
en 1973 su famoso cuarteto de muestras pareadas:

Para cualquiera de estos cuatro pares de variables se verifica que:
Propiedad Valor
Tamaño muestral 11
Media de cada una de las variables x 0 s 9
Varianza de cada una de las variables x 0 s 11
Media de cada una de las variables y 0 s 70 5
Varianza de cada una de las variables y 0 s 40 12
Coef. determinación entre cada una de las variables x 0 s e y 0 s 00 666
Correlación entre cada una de las variables x 0 s e y 0 s 00 816
Recta de regresión y = 3 + 00 5x
En particular se observa que la recta de regresión y el coeficiente

de determinación coinciden en los cuatro casos.

Sin embargo, si representamos los cuatro diagramas de dispersión junto con

dicha recta de regresión, es evidente que el ajuste lineal no es igual de
adecuado en todos los casos:
Con el ejemplo de Anscombe quedó demostrado que basar las conclusiones

sobre la bondad del ajuste solo en el coeficiente de determinación era
insuficiente.
Para solucionar este problema hay que completar el estudio de la adecuación
del modelo con un análisis de residuos, tal como vamos a ver a continuación.

Paso 3: Adecuación del modelo - Análisis de residuos
Para realizar predicciones para la variable Y es necesario que se

cumplan las condiciones de aplicación del modelo sobre los errores.
Dichas condiciones son:
Los errores, para cada valor de x, siguen una distribución normal.
Los errores, para cada valor de x, tienen media cero.
Los errores no están correlacionados.
Los errores son de varianza constante (también llamada
homocedasticidad).
No hay valores que se puedan considerar atípicos entre los
errores.
La validación de estas condiciones se hará a través de los residuos
muestrales obtenidos.

Normalidad de los errores
La contrapartida numérica de los errores aleatorios, es decir, los
residuos, deben ser sujetos a un contraste de normalidad para
detectar la violación de esta hipótesis. Dicho contraste, puede ir
acompañado por un gráfico P-P o Q-Q. En este caso, por
simplificar el procedimiento, vamos a quedarnos con un estudio
gráfico de la normalidad de los errores a través del gráfico Q-Q.

Normalidad de los errores: gráficos Q-Q
La idea básica del gráfico Q-Q consiste en enfrentar, en un mismo

gráfico, los datos que han sido observados frente a los datos
teóricos que se obtendrían de una distribución normal. Si la
distribución de la variable coincide con la normal, los puntos se
concentrarán en torno a la línea recta y = x.
Más en concreto, se representan los cuantiles muestrales
respecto a los cuantiles de la distribución normal. En concreto, en
el eje X representa los cuantiles teóricos y en el eje Y las
observaciones ordenadas.

Normalidad de los errores: ejemplo (n = 10)
Ejemplo
Con los datos de nuestro ejemplo, el gráfico Q-Q proporcionado por el
R es:
Con lo cual parece admisi-
ble considerar que los residuos
siguen una distribución normal,
aunque con n = 10 datos
ninguna conclusión es muy fia-
ble.
Se ha considerado este ejemplo
simplemente con fines didácti-
cos.

Normalidad de los errores: ejemplo (n = 117)
Ejemplo
Con los datos de contaminación del
fichero acero.rda, si se ajusta un
modelo de regresión lineal simple
para predecir la emisión de N2O a
partir del valor de la emisión de
CO2, el gráfico Q-Q proporcionado
por el R está adjunto.
Con lo cual de nuevo parece razo-
nable considerar que los residuos
siguen una distribución normal.
El método de regresión es robusto frente a la no normalidad. Así, si la

distribución de los errores no es normal, pero el número de datos (n) es
elevado, se puede seguir utilizando dicho método.

No correlación de los errores y media cero
Si no existe correlación entre los errores, el gráfico de residuos frente
a valores predichos debería mostrar fluctuaciones aleatorias (sin
patrones) alrededor de un valor cero.
Si la media es cero, la curva de medias debe coincidir con el eje de
abscisas.
Ejemplo

Homocedasticidad de los errores
La varianza homogénea es una suposición importante. Un gráfico de
residuos como el de la izquierda es una señal de una varianza no
homogénea (no homocedasticidad).
La estimación de la desviación típica del error (σ) se representa por s

y es llamada Residual standard error por el paquete R. En nuestro
caso s = 160 18, puesto que

En el ejemplo de Anscombe, si realizamos el gráfico de residuos

frente a pronósticos (Residuals vs Fitted) obtenemos:
Estos gráficos sí permiten determinar cuándo la recta de

regresión es un buen ajuste, tal como puede comprobarse a
continuación, donde son presentados junto con los
correspondientes diagramas de dispersión.

GRÁFICOS DE RESIDUOS FRENTE A PRONÓSTICOS DIAGRAMAS DE DISPERSIÓN
Por lo tanto, completar el estudio sobre la adecuación del modelo

con técnicas como el análisis de residuos, que van más allá del
simple análisis del coeficiente de determinación, es
imprescindible.

Otros gráficos básicos de diagnóstico
Ejemplo de ajuste por regresión lineal en el que se observa que los residuos
tienen media cero (Residuals vs Fitted), no están correlados (Residuals vs
Fitted), siguen una distribución normal (Normal Q-Q),hay homocedasticidad
(Scale-Location) y no hay residuos atípicos (Residuals vs Leverage)

Otros gráficos básicos de diagnóstico
Ejemplo de ajuste por regresión lineal en el que se observa que los residuos
están relacionados (Residuals vs Fitted), no siguen una distribución normal
(Normal Q-Q), hay heterocedasticidad (Scale-Location) y hay residuos
atípicos (Residuals vs Leverage)

Paso 4: Pronósticos
Una vez que se está satisfecho con el modelo encontrado, se puede

utilizar éste para hacer estimaciones y pronósticos.
Ejemplo
Según el modelo y = −4190 8491 + 60 7175x propuesto en nuestro ejemplo, la
estimación de la demanda máxima en un día con una temperatura máxima
de 90 es:
ŷ0 = −4190 8491 + 60 7175(90) = 1840 7259.
De la misma forma, la demanda máxima en un día con una temperatura
máxima de 91 es:
ŷ0 = −4190 8491 + 60 7175(91) = 1910 4434.
Es evidente que por cada unidad en la que aumenta la temperatura, la

demanda aumentará en 60 717 unidades, que es justamente el valor estimado
del coeficiente de regresión β1 .

Paso 4: Pronósticos Extrapolación
¡OJO! Se debe tener cuidado de no emplear la ecuación de predicción
de regresión para valores de x0 fuera de los valores xi que aparecen
en los datos de la muestra. Si no se tiene en cuenta esta advertencia
se pueden cometer errores de estimación y de predicción mucho
mayores que los esperados.

Paso 4: Pronósticos por intervalos
La estimación o pronóstico puntual por sí mismo no informa sobre la

precisión de dicha predicción. Esto se puede solucionar si se trabaja
con intervalos de confianza en lugar de estimaciones puntuales.
Dichos intervalos pueden ser de dos tipos:
Predecir el valor de y0 para una x0 dada. Por ejemplo, predecir la
demanda máxima para un día determinado durante el cual la
temperatura máxima será de 90◦ F (predecir el valor de Y para un
único día).
Estimar el valor promedio E(Y /x0 ) para un valor específico de x0 .
Por ejemplo, la demanda máxima para días durante los cuales la
temperatura máxima es de 90◦ F (estimar el valor promedio de Y
para un número muy grande de días).
De nuevo no tiene sentido plantearse estimaciones por intervalo de Y
fuera de los valores muestrales de la x.

Intervalo de pronóstico para una futura observación y
realizada cuando x = x0
Un intervalo de pronóstico al 100(1 − α)% para una futura observación

Y realizada cuando x = x0 es:
s !
1 (x0 − x̄)2
ŷ0 ± tn−2,α/2 · s 1 + +
n n · Sx2
Ejemplo
Para nuestro ejemplo, un intervalo de pronóstico de la demanda máxima para
un día en el cual la temperatura máxima sea de 90o F será:
r !
0 0 0 1 (90 − 910 5)2
184 7259 ± 2 31 · 16 18 1 + + = (1450 43, 2240 03).
10 10 · 380 05

Intervalo de confianza para E(Y /x0 )
Un intervalo de confianza al 100(1 − α)% del valor promedio de Y

para un x0 fijado (E(Y /x0 )) es
s s !
1 (x0 − x̄)2 1 (x0 − x̄)2
ŷ0 − tn−2,α/2 · s + , ŷ0 + tn−2,α/2 · s + ,
n n · Sx2 n n · Sx2
donde tn−2,α/2 es un valor que depende del tamaño muestral n y del

nivel de confianza 1 − α y s es la desviación estándar de los residuos.
Ejemplo
Con todo esto se obtiene que un intervalo de confianza al 95% para la
demanda media de los días con una temperatura de 90o F es:
r !
0 0 0 1 (90 − 910 50)2
184 7259 ± 2 31 · 16 18 + = (1710 5625, 1960 8878).
10 3800 8

Intervalos de confianza y pronóstico
Hay más incertidumbre en el pronóstico que en la estimación, así un
intervalo de pronóstico es más amplio que un intervalo de confianza.

Paso 4: Pronósticos por intervalos con R
Predicción del promedio

predict(RegModel.1,data.frame(x=c(90)),interval=’confidence’)
fit lwr upr
1 184.7238 172.5829 196.8647
Predicción para un único día de 90o F

predict(RegModel.1,data.frame(x=c(90)),interval=’prediction’)
fit lwr upr
1 184.7238 145.4922 223.9554

Metodología de respuesta superficial
En algunos casos la relación entre las dos variables no es lineal
(regresión no lineal). En otros se necesita más de una variable
explicativa en el modelo de regresión (regresión lineal múltiple). No
obstante estos modelos se escapan de los objetivos de este curso.
En general, muchos de los principios y procedimientos asociados con la
estimación de modelos de regresión polinomial caen en la categoría de
la metodología de respuesta superficial, un conjunto de técnicas que los
ingenieros han utilizado en los últimos años con bastante éxito en muy
distintos campos.

Ejercicio 4.1.12

Ejercicio 4.1.13

Ejercicio 4.1.14

Tema 5:
Análisis de la fiabilidad

Introducción
Función de fiabilidad
A. Fiabilidad de una componente
B. Fiabilidad de un sistema
B1. Conocida la fiabilidad de cada componente.
B2. Conocida la distribución del tiempo de vida de cada
componente.
B3. Condicionada al funcionamiento o no funcionamiento de sus
componentes.
C. Anexo: aspectos formales de la Teoría de la Probabilidad

C1. Regla del producto
C2. Teorema de la probabilidad total
C3. Regla de Bayes

Análisis de la fiabilidad
Un campo en el que se aplica la teoría de la probabilidad es en el

análisis de la fiabilidad. Muchos fabricantes de bienes de
consumo, como los automóviles y la electrónica de consumo,
utilizan la teoría de la fiabilidad en el diseño del producto para
reducir la probabilidad de avería. La probabilidad de avería
también está estrechamente relacionada con la garantía del
producto.
Inicialmente se consideró su importancia en la explotación
espacial y en la tecnología avanzada.

Fiabilidad de los programas espaciales
La historia del programa espacial de los Estados Unidos era

negativa desde la explosión del Challenger en enero de 1986
hasta el vuelo exitoso del Discovery en el otoño del 1988.
Gran parte del problema es imputable a la complejidad del

equipo. El programa espacial de los Estados Unidos depende de
artefactos complejos en extremo, cada uno compuesto de una
amplia red de componentes, que operan en ambientes poco
comunes, con un potencial considerable de fracasos.
Los soviéticos habían mantenido un curso estable mediante
tecnología muy simple.

Intentando evitar el fallo
La mayoría de la gente reconoce que los artículos

manufacturados tienen vidas finitas, y que un mejor diseño de los
productos implica, con frecuencia, unas vidas funcionales más
largas.
La gente es consciente de algunos de los ejemplos catastróficos
de fallos de equipos: fallos de fatiga en el fuselaje de un avión, los
accidentes de los reactores nucleares de Three Mile Island y
Chernobil, el accidente del transbordador espacial Challenger,
etc.

Intentando evitar el fallo
Casi todo el mundo ha experimentado fallos de sistemas a menor

escala, como el de un electrodoméstico, el desgaste de una
batería, o el fallo de una bombilla. Muchos han experimentado
ejemplos potencialmente graves, como el fallo de los neumáticos
de un coche.

Concepto de fiabilidad
La fiabilidad de un dispositivo (componente o sistema), sometido a unas
condiciones de trabajo concretas, es la probabilidad de que éste
funcione correctamente (“sobreviva” sin fallar) durante un determinado
período de tiempo.
La fiabilidad constituye un aspecto fundamental de la calidad de todo
dispositivo. Por tal motivo, resulta especialmente interesante la
cuantificación de dicha fiabilidad, de forma que sea posible hacer
estimaciones sobre la vida útil del producto.
Por ejemplo, en el caso de una avioneta monomotor, será de gran
conveniencia conocer la probabilidad de que éste no falle en diferentes
etapas de su vida (tras 500 horas de funcionamiento, 800 horas de
funcionamiento, etc.).
La obtención de una buena estimación
de la fiabilidad del motor posibilitará la
toma de decisiones racionales acerca de
cuándo conviene revisarlo o cambiarlo por
otro nuevo.
Función de fiabilidad, tasa media y tasa de fallo
Denotemos por T a la variable aleatoria que representa la
duración de un dispositivo.
La función de fiabilidad (reliability) R(t) (también llamada función
de supervivencia), es la complementaria de la f.d. de T , es decir,
R(t) = 1 − F (t) = P(T > t).
La vida media o tiempo medio hasta el fallo (Mean Time To
Failure) es la duración esperada del dispositivo, MTTF = E(T ).
La tasa de fallo media en un intervalo (t1 , t2 ) es:
R(t1 ) − R(t2 ) P(t1 < T ≤ t2 )
h(t1 , t2 ) = = .
(t2 − t1 )R(t1 ) P(T > t1 ) · (t2 − t1 )
La tasa instantánea de fallo o tasa de riesgo (hazard function or
hazard rate) es:
f (t)
h(t) = lim h(t, t2 ) = .
t2 →t R(t)
Ejemplo: tiempo de vida de una lavadora
Denotemos por T el tiempo de vida, en años, de una lavadora (elegida
al azar entre todas las lavadoras de un mismo modelo).
F (t) = P(T ≤ t) es la probabilidad de que la lavadora dure t años
o menos. En otras palabras, la proporción esperada de lavadoras
de ese modelo que duran menos de t años.
R(t) = 1 − F (t) es la probabilidad de que la lavadora dure más de
t años.
E(T ) representa el tiempo esperado de vida de la lavadora. (La
media de los tiempos de vida de las lavadoras de ese modelo).
h(t1 , t2 ) es la proporción de lavadoras, que duran t2 años o
menos, de entre las que sobrepasan los t1 años de vida, por
unidad de tiempo.
f (t)
h(t) = lim h(t, t2 ) = es la tasa instantánea de fallo. Si es
t2 →t R(t)
creciente, significa que la lavadora se va deteriorando con el
tiempo.
Gráfica habitual de la tasa instantánea de fallo
Tasa de fallo h(t)

ETAPA VIDA
ÚTIL
T suele seguir
una distribución
exponencial o
Weibull
PERIODO DE
PERIODO DESGASTE
INFANTIL T suele seguir
T suele seguir una distribución
una distribución Weibull
Weibull
Tiempo t

Fiabilidad y teoría de la probabilidad
A. Fiabilidad de una componente.

B. Fiabilidad de un sistema.
componente.
C. Anexo: aspectos formales de la Teoría de la Probabilidad.

A. FIABILIDAD DE UNA COMPONENTE
Conocida la distribución del tiempo de vida de una componente

T , la fiabilidad en el instante t, como ya hemos comentado, se
obtiene sin más que calcular:
R(t) = P(T > t).
En realidad este tipo de cuestiones ya se han tratado en el tema

2.
Dos distribuciones muy habituales para el tiempo de vida de una
componente son la exponencial y la Weibull.

Funciones de densidad, de distribución, de fiabilidad y
tasa de fallo de la distribución exponencial
λ = 00 5 λ=1 λ=2
Función de densidad Función de distribución
(f (x) = λe−λ x para x > 0) (F (x) = 1 − e−λ x para x > 0)
1.5
1 0.5
0.5
Función de fiabilidad Tasa de fallo o riesgo

(R(t) = e−λ t para t > 0) (h(t) = λ para t > 0)
2
1.5
0.5 1
0.5

Funciones de densidad, de distribución, de fiabilidad y
tasa de fallo de la distribución de Weibull
k = 00 5, λ = 1 k = 1, λ = 1 k = 2, λ = 1
Función de densidad Función de distribución
k
x k −1 x k
(f (x) = e−( λ ) para x > 0) k
(F (x) = 1 − e−(x/λ) para x > 0)
λ λ
1.5
0.5
1
0.5
Función de fiabilidad Tasa de fallo o riesgo

k −1
−(t/λ)k
k t
(R(t) = e para t > 0) (h(t) = para t > 0)
λ λ
0.5
2
1.5
1
0.5

Fiabilidad y teoría de la probabilidad
A. Fiabilidad de una componente.

B. Fiabilidad de un sistema.
componente.
C. Anexo: aspectos formales de la Teoría de la Probabilidad.

B. FIABILIDAD DE UN SISTEMA
Los sistemas -electrónicos, mecánicos o combinados- están

constituidos por componentes o subsistemas de componentes.
Generalmente, indicaremos un componente de un sistema
mediante una letra mayúscula y lo representaremos como un
cuadrado.
En esta figura se muestran dos sistemas, cada uno constituido
por tres componentes, A, B y C:
Sistema en serie Sistema en paralelo
A
A B C B

Sistemas en serie y en paralelo
Supongamos un sistema que tiene k componentes.

Si el sistema falla cuando cualquiera de las componentes falla, se
denomina sistema en serie.
Si el sistema falla solo cuando todas sus componentes fallan, se
denomina sistema en paralelo.
Los sistemas pueden tener estructuras más complicadas, y estar
formados por subsistemas.

Sistemas complejos: dos ejemplos
A
D D E
A B C B
E
F G
C
El sistema de la izquierda está compuesto por 4 subsistemas

colocados en serie. Cada uno de los tres primeros contiene un
solo componente. El cuarto contiene 2 componentes colocados
en paralelo.
El sistema de la derecha está compuesto por dos subsistemas
colocados en serie. El primero está formado por 3 componentes
colocados en paralelo. El segundo, a su vez, está formado por
dos subsistemas colocados en paralelo. Cada uno de ellos está
compuesto por dos componentes colocados en serie.

Estudio de la fiabilidad de sistemas: principales
objetivos
Se persiguen dos objetivos principales. El segundo es una

generalización del primero.
B1. Fijamos un instante t. Suponemos conocida la fiabilidad de
cada componente del sistema en el instante t. Nuestro objetivo es
determinar la fiabilidad del sistema en dicho instante.
B2. Suponemos conocida la función de fiabilidad asociada a cada
componente del sistema y con ella obtenemos su fiabilidad en el
instante t. Nuestro objetivo es determinar la expresión de la
función de fiabilidad del sistema.

Tablas de verdad
Consideremos un sistema formado por k componentes.

Una tabla de verdad es una matriz binaria 2k × (k + 1) que
representa el estado del sistema (1: funciona, 0: no funciona)
asociado a cada posible vector de estados de los componentes.
Número de columnas: k + 1 (k componentes + sistema)
Numero de filas: 2k , es el número de combinaciones posibles para
los estados de los k componentes.
Ejemplo:
C1 C1 C2 C3 S
0 0 0 0
C3 0 0 1 0
C2 0 1 0 0
0 1 1 1
1 0 0 0
1 0 1 1
1 1 0 0
1 1 1 1

Teoría de conjuntos: ejemplo
Consideremos el sistema de la diapositiva anterior.

Consideremos el conjunto de posibles vectores de estado de los
componentes: Ω = {000, 001, 010, 011, 100, 101, 110, 111}
Consideremos el experimento aleatorio consistente en observar el
vector de estados en un instante elegido al azar.
Consideremos los sucesos siguientes:
El suceso “el componente 1 funciona” se puede expresar,
equivalentemente, de la forma “el vector de estados pertenece al
conjunto F1 = {100, 101, 110, 111}”.
El suceso “el sistema funciona” se puede expresar,
equivalentemente, de la forma “el vector de estados pertenece al
conjunto F = {011, 101, 111}”.

Teoría de conjuntos: ejemplo (continuación)
C1 C1 C2 C3 S
0 0 0 0
C3 0 0 1 0
C2 0 1 0 0
0 1 1 1
1 0 0 0
1 0 1 1
1 1 0 0
1 1 1 1
F1 = {100, 101, 110, 111}

F = {011, 101, 111}

Operaciones básicas entre conjuntos
Intersección de dos conjuntos:
A ∩ B = {ω ∈ Ω : ω ∈ A y ω ∈ B}
Unión de dos conjuntos:
A ∪ B = {ω ∈ Ω : ω ∈ A ó ω ∈ B}
(disyunción lógica no exclusiva)

Complementario de un conjunto:
A = {ω ∈ Ω : ω 6∈ A}

Analogı́a entre las operaciones de conjuntos y las puertas lógicas
Operaciones básicas y puertas lógicas: analogía
En la tabla adjunta se muestra la analogı́a existente entre las operaciones entre
conjuntos y las puertas lógicas utilizadas en electrónica digital.
OPERACIÓN REPR. OPERACIÓN PUERTA REPR. PUERTA

A
Complementario A NOT
A
Unión A∪B OR B
Intersección A∩B AND B
B
Diferencia A\B −−−
A
Dif. simétrica A$B XOR B
−−− A∩B NAND B

A
−−− A∪B NOR B
Axiomas y propiedades adicionales de la probabilidad

Aclaraciones:
Consideremos un experimento aleatorio y denotemos al espacio muestral por Ω.
Una medida de probabilidad 1 es una función definida en la clase de todos los sucesos
A\B = A ∩ B del experimento que satisface los axiomas siguientes (axiomas de Kolmogorov):
suceso A, P (A) ≥ 0.
A4B = (AK1)∪Para
B) todo
∩ (A ∩ B)
K2) P (Ω) = 1.
Tema 5 K3) (σ−aditividad) Si A1 , A2 , . . . , A n , . . . es una sucesión de sucesos incompatibles

Estadística 379 / 425
Ejercicio 5.1.3
Si denotamos por FS al suceso “el sistema funciona en un
determinado instante de tiempo”, por FA al suceso “la componente A
funciona en ese instante de tiempo”, por FB al suceso “la componente
B funciona en ese instante de tiempo”, etc., representa el suceso FS
como función de los demás, en cada uno de los siguientes casos:
A
a) En serie: A B C b) En paralelo: B
D A B C D
c) A B C d)
E E
A
A
D E B
e) B f) E
F G C D
C
F G

Ejercicio 5.1.4
Encuentra las seis tripletas de equivalencias (forma cada trío con un
elemento de la izquierda, uno del centro y otro de la derecha), donde
A representa el suceso “funciona A” y B, el suceso “funciona B”.
Funcionan
• • A∩B • •
AyB
No funciona
ninguna • • A • •
de las dos
Funciona A,
• • A∩B • •
pero no B
Al menos una
• • A∩B • •
no funciona
Funciona una
y sólo una • • A∩B • •
de las dos
No funciona A • • (A ∩ B) ∪ (A ∩ B) • •

B1. Determinación de la fiabilidad del sistema,
conocida la fiabilidad de cada componente
Pasos para conseguir el objetivo:

1 Expresar el suceso F =“el sistema funciona correctamente” en
función de los sucesos Fi =“el componente i funciona
correctamente” i = 1, . . . , k combinando las operaciones de unión
e intersección adecuadamente. Utilizar paréntesis donde
corresponda, identificando los sub-sistemas.
2 Determinar la probabilidad del suceso F , teniendo en cuenta las
reglas básicas para calcular la probabilidad de la intersección de
varios sucesos, y la probabilidad de la unión de varios sucesos.

Representación de sistemas mediante conjuntos
Reglas básicas:
Operación Símbolo Disposición
unión ∪ en paralelo
intersección ∩ en serie
Ejemplo:
C1 C1 C2 C3 S
0 0 0 0
C3 0 0 1 0
C2 0 1 0 0
0 1 1 1
1 0 0 0
1 0 1 1
1 1 0 0
1 1 1 1
F = (F1 ∪ F2 ) ∩ F3

Independencia estocástica entre sucesos: idea
intuitiva
0'9 F2
F1
suceso prob.
0'9
0'1
F2 F1 ∩ F2 00 9 · 00 9 = 00 81
F1 ∩ F2 00 9 · 00 1 = 00 09
0'7 F2 F1 ∩ F2 00 1 · 00 7 = 00 07
0'1
F1 F1 ∩ F2 00 1 · 00 3 = 00 03
0'3 F2
P(F2 ) = 00 9 · 00 9 + 00 7 · 00 1 = 00 88, P(F1 ∩ F2 ) 6= P(F1 ) · P(F2 ).
0'9 F2
F1
suceso prob.
0'9
0'1
F2 F1 ∩ F2 00 9 · 00 9 = 00 81
F1 ∩ F2 00 9 · 00 1 = 00 09
0'9 F2 F1 ∩ F2 00 1 · 00 9 = 00 09
0'1
F1 F1 ∩ F2 00 1 · 00 1 = 00 01
0'1 F2
P(F2 ) = 00 9 · 00 9 + 00 9 · 00 1 = 00 9, P(F1 ∩ F2 ) = P(F1 ) · P(F2 ).

Probabilidad de la intersección
Asumiremos que el comportamiento de unos componentes es

estocásticamente independiente del comportamiento de los otros.
Consideremos k sub-sistemas (cada uno de ellos, formado por 1
o varios componentes) colocados en serie.
Denotemos por Fi el suceso “el sub-sistema i funciona
correctamente” . La probabilidad de que simultáneamente los k
sub-sistemas funcionen correctamente es:
P(F1 ∩ . . . ∩ Fk ) = P(F1 ) · . . . · P(Fk ).

Probabilidad de la unión
Consideremos dos sub-sistemas colocados en paralelo.
Fi =“el sub-sistema i funciona correctamente” (i = 1, 2).
La probabilidad de que al menos uno de los dos subsistemas
funcione correctamente es:
P(F1 ∪ F2 ) = P(F1 ) + P(F2 ) − P(F1 ∩ F2 ).
C1 C2 C3 S
0 0 0 0
0 0 1 0
0 1 0 0
0 1 1 1
1 0 0 0
1 0 1 1
1 1 0 0
1 1 1 1
F1 ∪ F2 = {100, 101, 110, 111} ∪ {010, 011, 110, 111} =

{010, 011, 100, 101, 110, 111}

Probabilidad de la unión
Si tenemos n sub-sistemas colocados en paralelo formado por

componentes independientes, podemos aplicar la fórmula anterior
de forma recursiva. Por ejemplo:
P(F1 ∪ F2 ∪ F3 ) = P(F1 ∪ (F2 ∪ F3 ))

= P(F1 ) + P(F2 ∪ F3 ) − P(F1 ∩ (F2 ∪ F3 )).
No obstante, si n es grande, el método anterior puede resultar

demasiado laborioso. En tal caso, suele ser recomendable el
paso a complementarios:
P(F1 ∪ F2 ∪ . . . ∪ Fn ) = 1 − P(F1 ∪ F2 ∪ . . . ∪ Fn )
= 1 − P(F1 ∩ F2 ∩ . . . ∩ Fn )
= 1 − P(F1 ) · P(F2 ) · · · P(Fn ).

Ejercicio 5.1.8
Dados tres componentes con fiabilidades respectivas f1 = 00 8,
f2 = 00 75 y f3 = 00 98, calcula la fiabilidad de cada uno de los tres
sistemas siguientes, suponiendo que hay independencia en el
funcionamiento de los distintos componentes:
(a) C1 C2
(b) C1 C2 C3
C1
(c) C2
C3

B2. Determinación de la fiabilidad del sistema,
conocidas las distribuciones del tiempo de vida de
cada componente
Pasos para conseguir el objetivo:
1 Denotemos por T a la variable aleatoria que representa la
duración del sistema.
2 Expresar el suceso:
F t = {T > t} = “el sistema dura más de t unidades de tiempo” en
función de los sucesos
Fit = “el componente i dura más de t unidades de tiempo”
i = 1, . . . , k . (Paso 1 del objetivo 1.)
3 Determinar la probabilidad del suceso F t , teniendo en cuenta las
sucesivas sub-divisiones en sub-sistemas, y las reglas básicas
para calcular la probabilidad de la intersección y de la unión de
varios sucesos.
4 Obtener la expresión de la función de fiabilidad
R(t) = P(F t ), t ∈ R.
Función de fiabilidad de un sub-sistema de
componentes colocados en serie
Ti =duración del componente i, i = 1, . . . , k .

Ri (t) = P(Ti > t)= fiabilidad del componente i en el instante t.
Probabilidad de que dicho componente dure más de t unidades
de tiempo.
Fiabilidad, en el instante t, del sub-sistema formado por k
componentes dispuestos en serie:
Rs (t) = P[(T1 > t) ∩ . . . ∩ (Tk > t)] = P(T1 > t) · . . . · P(Tk > t) =
R1 (t) · . . . · Rk (t).

Función de fiabilidad de un sub-sistema de
componentes colocados en paralelo
Ti =duración del componente i, i = 1, . . . , k .

Ri (t) = P(Ti > t)= fiabilidad del componente i en el instante t.
Probabilidad de que dicho componente dure más de t unidades
de tiempo.
Rp (t) fiabilidad, en el instante t, del sub-sistema formado por k
componentes dispuestos en paralelo:
1−Rp (t) = P[(T1 ≤ t)∩. . .∩(Tk ≤ t)] = P(T1 ≤ t)·. . .·P(Tk ≤ t) =
[1 − R1 (t)] · . . . · [1 − Rk (t)].
Por tanto,
Rp (t) = 1 − ([1 − R1 (t)] · . . . · [1 − Rk (t)]) .

Sub-sistema de componentes colocados en paralelo.
Redundancias activa y pasiva
Redundancia activa: todos los componentes redundantes están

simultáneamente activos. Es el caso estudiado en la diapositiva
anterior.
Redundancia pasiva: los componentes redundantes se ponen en
funcionamiento solamente en caso de ocurrir un fallo.
Si T1 denota la duración del componente principal y T2 , la duración
del componente redundante pasivo, la duración del sub-sistema
formado por ambos componentes se puede expresar como la
suma T = T1 + T2 .
La fiabilidad del sub-sistema formado por ambos componentes es
Rpp (t) = P(T > t) = P(T1 + T2 > t). El cálculo de la fiabilidad en
este caso está más allá de los propósitos de este curso.

Ejercicio 5.1.14
En una planta industrial, dos bombas, B1 y B2 , colocadas en paralelo,
conducen agua desde un pozo a una depuradora, D, y,
posteriormente, otras dos bombas, B3 y B4 , también colocadas en
paralelo, la trasladan a un depósito como indica la figura.
Los tiempos de vida, en miles de horas, de la depuradora y de las

bombas son variables aleatorias independientes con distribución
exponencial, siendo 20 mil horas la vida media de la depuradora y 30
mil horas la de cada bomba.
1 Calcula la probabilidad de que la depuradora dure más de 20 mil
horas (fiabilidad de la depuradora a las 20 mil horas).

2 Calcula la probabilidad de que la bomba 1 dure más de 20 mil
horas (fiabilidad de la bomba 1 a las 20 mil horas).

3 Calcula la probabilidad de que continúe llegando agua del pozo al
depósito después de 20 mil horas de funcionamiento (fiabilidad de
todo el sistema a las 20 mil horas).
Concepto de probabilidad condicionada
Probabilidad de A condicionada a B: probabilidad de que ocurra

A, si sabemos que ha ocurrido B.
La denotaremos por P(A|B).
¿Cómo definimos a la función P(·|B)?

Probabilidad condicionada: ejemplos
Ej.1. Lanzamiento de un dado. Ω = {1, 2, 3, 4, 5, 6}

1 no elementos del conjunto{2}
P({2}|{2, 4, 6}) = = o
3 n elementos del conjunto{2, 4, 6}
1 no eltos. del conjunto{2, 3} ∩ {2, 4, 6}
P({2, 3}|{2, 4, 6}) = =
3 no eltos. del conjunto{2, 4, 6}
Ej.2. Lanzamiento de dos monedas y observación del número de
caras. Ω = {0, 1, 2}
2 00 5 P({1})
P({1}|{1, 2}) = = 0 = .
3 0 75 P({1, 2})
0
2 05 P({0, 1} ∩ {1, 2})
P({0, 1}|{1, 2}) = = 0 = .
3 0 75 P({1, 2})
P(A ∩ B)
En general, P(A|B) = .
P(B)

Probabilidad condicionada: definición
Dado B con P(B) > 0, se define la probabilidad de A condicionada a B

como:
P(A ∩ B)
P(A|B) = , ∀ A.
P(B)
Definimos PB como PB (A) = P(A|B), ∀ A.

PB (A) = 1 − PB (A), ∀ A, es decir, P(A|B) = 1 − P(A|B), ∀ A.

Fiabilidad condicionada
Denotamos por F t = {T > t} = “el sistema dura más de t unidades de

tiempo” y Fit = “el componente i dura más de t unidades de tiempo”.
Se puede calcular la fiabilidad del sistema en un instante t
condicionada al funcionamiento del componente i:
P(F t ∩ Fit )
P(F t |Fit ) =
P(Fit )
y condicionada al no funcionamiento del componente i:
P(F t ∩ Fit )
P(F t |Fit ) =
P(Fit )

Fiabilidad condicionada (ejemplo)
C1 C1 C2 C3 S
0 0 0 0
C3 0 0 1 0
C2 0 1 0 0
0 1 1 1
1 0 0 0
1 0 1 1
1 1 0 0
1 1 1 1
Por ejemplo, tenemos que la fiabilidad del sistema de la figura en un

instante t condicionada al funcionamiento del componente C1 es:
P(F t ∩ F1t ) P(F1t ∩ F3t )

P(F t |F1t ) = =
P(F1t ) P(F1t )
P(F1t ) · P(F3t )
= = P(F3t )
P(F1t )

Fiabilidad condicionada (ejemplo)
C1 C1 C2 C3 S
0 0 0 0
C3 0 0 1 0
C2 0 1 0 0
0 1 1 1
1 0 0 0
1 0 1 1
1 1 0 0
1 1 1 1
Por ejemplo, tenemos que la fiabilidad del sistema de la figura en un

instante t condicionada al no funcionamiento del componente C1 es:
P(F t ∩ F1t ) P(F1t ∩ F2t ∩ F3t )

P(F t |F1t ) = =
P(F1t ) P(F1t )
P(F1t ) · P(F2t ) · P(F3t )
= = P(F2t ) · P(F3t )
P(F1t )

Ejercicio
Dados tres componentes con fiabilidades respectivas f1 = 00 8,
f2 = 00 75 y f3 = 00 98, calcula la fiabilidad conficionada al
funcionamiento y no funcionamiento de cada uno de los componentes
para cada uno de los tres sistemas siguientes (suponiendo que hay
independencia en el funcionamiento de los distintos componentes):

C. ANEXO: ASPECTOS FORMALES DE LA TEORÍA
DE LA PROBABILIDAD
Los siguientes epígrafes son necesarios a la hora de calcular la

fiabilidad de un sistema, si no se puede suponer la independencia de
sus componentes:
Regla del producto.
Teorema de la probabilidad total.
Regla de Bayes.

Regla del producto
n−1
\
Consideremos n sucesos A1 , . . . , An de manera que P( Ai ) > 0.
i=1
Entonces:
n
\ n−1
\
P( Ai ) = P(A1 ) · P(A2 |A1 ) · P(A3 |(A1 ∩ A2 )) · . . . · P(An |( Ai ))
i=1 i=1
Ejemplo: En una urna hay 5 bolas blancas y 5 negras. Se extraen 3

bolas sin reemplazamiento.
Pregunta: ¿Cuál es la probabilidad de que salgan las tres
blancas?
Solución:
Notación: Ai =“la bola número i es blanca”, i = 1, 2, 3.
5 4 3
P(A1 ∩ A2 ∩ A3 ) = P(A1 ) · P(A2 |A1 ) · P(A3 |(A1 ∩ A2 )) = · ·
10 9 8

Independencia: ejemplo I
Experimento: Lanzamiento de dos monedas

Espacio muestral: Ω = {cc, c+, +c, ++}.
A = {cc, c+} ≡“En la primera moneda sale cara.”
B = {cc, +c} ≡“En la segunda moneda sale cara.”
Nos preguntamos:
¿P(B|A) = P(B)?
Es decir, ¿es B independiente de A?

Independencia: ejemplo II
Experimento: Extracción de 2 bolas sin reemplazamiento.

Espacio muestral: Ω = {bb, bn, nb, nn}.
A = {bb, bn} ≡“La primera bola es blanca.”
B = {bb, nb} ≡“La segunda bola es blanca.”
Nos preguntamos:
¿P(B|A) = P(B)?
Es decir, ¿es B independiente de A?

Independencia: definición
Definición: A y B son independientes si
P(A ∩ B) = P(A) · P(B).
Aclaración: Supongamos que P(A) > 0 y P(B) > 0. Entonces,

estas 3 condiciones son equivalentes:
A y B son independientes.
P(A|B) = P(A).
P(B|A) = P(B).

Independencia de varios sucesos
A1 , . . . , An son independientes dos a dos si Ai y Aj son

independientes para cada par de índices i, j, donde i 6= j.
A1 , . . . , An son totalmente independientes si para cualquier
conjunto de índices {i1 , . . . , ik } ⊆ {1, . . . , n} (k ≤ n), se verifica la
igualdad:
P(Ai1 ∩ . . . ∩ Aik ) = P(Ai1 ) · . . . · P(Aik ).
Ejemplo: A, B y C son totalmente independientes si:
P(A ∩ B) = P(A) · P(B)
P(A ∩ C) = P(A) · P(C)

P(B ∩ C) = P(B) · P(C)
P(A ∩ B ∩ C) = P(A) · P(B) · P(C)

Independencia total: ejemplo
Tenemos una bombilla que se puede encender o apagar con dos

interruptores distintos. Consideremos los 3 sucesos siguientes:
A =“el interruptor 1 está bajado”
B = “el interruptor 2 está bajado”
C = “la bombilla está encendida”.
La cuarta parte de las veces, la pareja de interruptores está en cada
una de las 4 posibles (parejas de) posiciones.
¿Son independientes A y C? ¿Son independientes B y C? ¿Son
independientes A y B?
¿Son totalmente independientes los tres sucesos?

Teorema de la probabilidad total: ejemplo
Etapa 1: Elegimos
una urna al azar.
Etapa 2: Elegimos
URNA 1 URNA 2
una bola al azar.
¿Cuál es la probabilidad de que la bola sea blanca?

¿Es 00 5? ¿Es 00 25? ¿Es 00 4? ¿Ninguna de las anteriores?

Teorema de la probabilidad total: solución del ejemplo
Elegimos cada urna la mitad de las veces y

la mitad de las veces que elegimos la urna 1 sale una bola blanca;
la cuarta parte de las veces que elegimos la urna 2 sale una bola
blanca.
P(B|U1 ) = 00 5
P(B|U2 ) = 00 25
P(U1 ) = P(U2 ) = 00 5
URNA 1 URNA 2
3
Así, P(B) = 00 5 · 00 5 + 00 5 · 00 25 = .
8

Teorema de la probabilidad total
Consideremos una colección de sucesos {A1 , . . . , An } que:

forman una partición del espacio total:
A1 ∪ . . . ∪ An = Ω,
Ai ∩ Aj = ∅, ∀ i 6= j.
P(Ai ) > 0, ∀ i = 1, . . . , n.
Consideremos otro suceso cualquiera, B. Entonces:
n
X
P(B) = P(B|Ai ) · P(Ai ).
i=1

Regla de Bayes: ejemplo
Etapa 1: Elegimos
una urna al azar.
Etapa 2: Elegimos
URNA 1 URNA 2
una bola al azar.
Si la bola es blanca, ¿cuál es la probabilidad de que proceda de la

urna 1?
P(U1 ∩ B) P(B|U1 ) · P(U1 )
P(U1 |B) = = .
P(B) P(B)

Regla de Bayes
Consideremos una colección de sucesos {A1 , . . . , An } que:

forman una partición del espacio total
A1 ∪ . . . ∪ An = Ω,
Ai ∩ Aj = ∅, ∀ i 6= j.
P(Ai ) > 0, ∀ i = 1, . . . , n.
Consideremos otro suceso, B, tal que P(B) > 0. Entonces:
P(B|Aj ) · P(Aj )
P(Aj |B) = n
.
X
P(B|Ai ) · P(Ai )
i=1

Regla de Bayes: ejemplo de los empleados honrados
En un gran almacén, el 10% de los empleados roba.

El encargado trata de averiguar quiénes roban con un detector de
mentiras que tiene un 80% de precisión:
Si el empleado es honrado, la probabilidad de que pase el test es
00 8.
Si el empleado roba, la probabilidad de que no pase el test es 00 8.
Si un empleado no ha pasado el test, ¿cuál es la probabilidad de
que robe?

Ejemplo de los empleados honrados: simulación
Paso 1: Determinemos si eres honrado o no.

(A) Si el último dígito de tu DNI es un 4, entonces robas a la empresa.
(B) En otro caso, eres honrado.
Paso 2: Determinemos si el detector acierta contigo.
(1) Si el penúltimo dígito de tu DNI es un 2 o un 3, entonces el detector
falla.
(2) En otro caso (dicho dígito es distinto de 2 y de 3), el detector
acierta.
Deben levantar la mano aquellas personas que no han pasado el
test (aquellos para los cuales el detector dice que roban). (Los
que cumplen A2 o B1) ¿Cuántos de ellos roban realmente?

Solución del ejemplo de los empleados honrados
Consideremos el experimento que consiste en elegir un empleado al

azar. Utilicemos la siguiente notación:
R =“el empleado roba” R =“el empleado no roba”
T =“el empleado pasa el test del detector”
T =“el empleado no pasa el test”
De acuerdo con nuestra información, sabemos que:
P(R) = 00 1, P(R) = 00 9, P(T |R) = 00 8, P(T |R) = 00 8.
Tenemos que calcular la probabilidad condicionada P(R|T ). De

acuerdo con la regla de Bayes:
P(R ∩ T ) P(T |R) P(R) 00 08

P(R|T ) = = = 0 ≈ 00 31
P(T ) P(T |R) P(R) + P(T |R) P(R) 0 08 + 00 18

Tema 6:
Bibliografía

Bibliografía básica
F. Ardanuy Albajar, Q. Martín Martín: “Estadística para ingenieros”. Hespérides.
G.C. Canavos: “Probabilidad y estadística. Aplicaciones y métodos”. Mc Graw
Hill.
J. L. Devore: “Probabilidad y estadística para ingeniería y ciencias”. Thomson.
R.S. Kenett, S. Zacks: “Estadística industrial moderna”. Thomson.
W. Mendenhall, T. Sincich: “Probabilidad y estadística para ingeniería y
ciencias”. Prentice Hall.
D.C. Montgomery, G.C. Runger: “Probabilidad y Estadística aplicadas a la
Ingeniería”. McGraw-Hill.
W. Navidi: “Estadística para ingenieros y científicos". McGraw Hill.
L. J. Rodríguez, V. Tomeo, I. Uña: “Métodos Estadísticos para Ingeniería”.
Editorial Garceta.
R. L. Scheaffer, J. T. Mc Clave: “Probabilidad y estadística para ingeniería”.
Grupo Editorial Iberoamérica.
R. E. Walpole, R. H. Myers, S. L. Myers: “Probabilidad y estadística para
ingenieros”. Pearson Educación.

Tema 7:
Anexos

Operaciones básicas con sucesos
Ocurre cuando ocurre al

UNIÓN
menos uno de ellos: A o
A∪B
B o ambos
INTERSECCIÓN Ocurre cuando ocurren A

A∩B y B simultáneamente
DIFERENCIA Ocurre cuando ocurre A

A−B pero no ocurre B
COMPLEMENTARIO Ocurre cuando no ocurre

A A

Operaciones básicas con sucesos: propiedades
Asociativa: (A ∩ B) ∩ C = A ∩ (B ∩ C)
(A ∪ B) ∪ C = A ∪ (B ∪ C)
Conmutativa: A ∩ B = B ∩ A
A ∪ B = B ∪ A.
Idempotente: A ∩ A = A
A∪A=A
Elementro neutro: A ∩ Ω = A
A∪∅=A
Elemento absorvente: A ∩ ∅ = ∅
A∪Ω=Ω
Distributiva: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Leyes de De Morgan: A ∩ B = A ∪ B
A∪B =A∩B

Números combinatorios
Recordemos que el factorial de un número natural n, que

denotamos n!, es el producto de todos los números naturales
menores o iguales a n:
n! = n · (n − 1) · · · 3 · 2 · 1
y que por convenio 0! = 1.

Se define el número combinatorio “n sobre k ” como:

n n!
=
k k !(n − k )!
Algunas propiedades de los números combinatorios:

n n n n n n
= =1 = =n =
0 n 1 n−1 k n−k

Propiedades de la exponencial
1 ex+y = ex · ey
ex
2 ex−y = y
e
1
3 e−x = x
e
0
4 e =1
5 lim ex = 0 y lim ex = ∞
x→−∞ x→∞

Propiedades del logaritmo neperiano
1 ln(e) = 1
2 ln(1) = 0
3 ln(x · y ) = ln(x) + ln(y )

x
4 ln = ln(x) − ln(y )
y
5 ln(x y ) = y · ln(x)
ln(x)
6 Cambio de base: loga (x) =
ln(a)

Apuntes

Cargado por

Copyright:

Formatos disponibles

Apuntes

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes

Cargado por

Copyright:

Formatos disponibles

Estadística

Escuela Politécnica de Ingeniería de Gijón

Tema 0 Estadística 1 / 425

Tema 0 Estadística 2 / 425

Tema 1 Estadística 3 / 425

C. Medidas descriptivas univariantes

Tema 1 Estadística 4 / 425

Tema 1 Estadística 5 / 425

La Estadística Descriptiva es una parte de la Estadística que se

Tema 1 Estadística 6 / 425

Población (population): Colección de individuos o unidades sobre

Tema 1 Estadística 7 / 425

Variable estadística (o, simplemente, variable): Cada uno de los

Tema 1 Estadística 8 / 425

¿Cuál elegir en cada caso?

Tema 1 Estadística 9 / 425

Para saber qué representación es más adecuada, tenemos que saber

Tema 1 Estadística 10 / 425

Tema 1 Estadística 11 / 425

TIPO (A) (B) (C)

Tema 1 Estadística 12 / 425

Para comprender cómo se construyen tablas y gráficos y cómo se

Tema 1 Estadística 13 / 425

Un tipo especial de variables cualitativas lo constituyen las

Tema 1 Estadística 14 / 425

Tipo de defecto Frecuencia Porcentaje

Tema 1 Estadística 15 / 425

En este curso, veremos las siguientes representaciones gráficas:

B1. Diagrama de barras (bar chart)

B2. Diagrama de sectores (pie chart)

B3. Histograma (histogram)

B4. Diagrama de caja (box-plot)

Tema 1 Estadística 16 / 425

Se parte de un sistema de ejes de coordenadas.

Comparación de preferencias entre una marca conocida y la marca "blanca"

Tema 1 Estadística 17 / 425

Se divide un círculo en k sectores.

Tema 1 Estadística 18 / 425

¿Qué tipo de defecto ha ocurrido más?

Tema 1 Estadística 19 / 425

¿Qué tipo de defecto ha ocurrido más?

El diagrama de sectores es en general

Tema 1 Estadística 20 / 425

Los diagramas de barras o sectores sólo deberían usarse para

Tema 1 Estadística 21 / 425

Previamente se agrupan los valores de la variable en

Volveremos a los histogramas de densidad antes de introducir el

Tema 1 Estadística 23 / 425

Tema 1 Estadística 24 / 425

En el caso de variables continuas, el histograma ...

Tema 1 Estadística 25 / 425

1 Según este histograma, ¿parece haberse presentado alguna

2 ¿Crees que puede suponerse que la distribución del “diámetro de

4 Si las especificaciones de distintos clientes son las que se

Explicaremos en detalle la forma de realizar un diagrama de caja

Tema 1 Estadística 30 / 425

1 ¿Dónde han sido, en general, más altas las temperaturas durante

3 Para garantizar que el material tenga un tiempo de vida superior a

TIPO DE GRÁFICOS MÁS

Tema 1 Estadística 33 / 425