Apuntes
Apuntes
Apuntes
1
Estadística descriptiva.
2
Modelos de probabilidad.
3
Inferencia estadística.
4
Análisis multivariante.
5
Análisis de la fiabilidad.
Primeros conceptos
A. Tablas de frecuencias
B. Representaciones gráficas
B1. Diagrama de barras
B2. Diagrama de sectores
B3. Histograma
B4. Diagrama de caja
60
40
20
4 pruebas
5%
2 pruebas
10%
1 prueba
5%
1 Interpreta el diagrama de sectores.
2 ¿Cuántos neumáticos reventaron en la primera prueba? ¿Y en la
tercera?
3 Obtén la tabla de frecuencias asociada a la variable “número de
pruebas necesarias para reventar el neumático”.
4 Representa el diagrama de barras de frecuencias asociado a
estos datos.
Tema 1 Estadística 22 / 425
B3. Histograma
3’955 3’965 3’975 3’985 3’995 4’005 4’015 4’025 4’035 4’045
3’955 3’965 3’975 3’985 3’995 4’005 4’015 4’025 4’035 4’045
3’955 3’965 3’975 3’985 3’995 4’005 4’015 4’025 4’035 4’045
28
26
24
22
20
18
16
14
12
10
28
26
24
22
20
18
16
14
12
10
28
26
24
22
20
18
16
14
12
10
19 18 20 19 18 18 18 19 20 24
19 23 19 20 22 20 19 18 19 20
• Media aritmética
C1.a Tendencia central • Mediana
C1. Posición • Moda
• Percentiles
C1.b Otras
• Cuartiles
• Rango o recorrido
• Recorrido intercuartílico
C2. Dispersión
• Varianza
• Desviación estándar o típica
0 1 0 0 0 1 1 2 0 0 0 0
0+1+0+0+0+1+1+2+0+0+0+0
=
12
0 · 8+1 · 3+2 · 1
≈ 00 42.
12
No gusta Gusta
3 8
A los asistentes que les ha gustado, se les pide una valoración más
detallada:
No gusta Aceptable Buena Muy buena Obra maestra
3 2 2 2 2
4 pruebas
5%
2 pruebas
10%
1 prueba
5%
Podrido < Marginal < Aceptable < Fresco < Muy fresco
• Media aritmética
C1.a Tendencia central • Mediana
C1. Posición • Moda
• Percentiles
C1.b Otras
• Cuartiles
• Rango o recorrido
• Recorrido intercuartílico
C2. Dispersión
• Varianza
• Desviación estándar o típica
• Media aritmética
C1.a Tendencia central • Mediana
C1. Posición • Moda
• Percentiles
C1.b Otras
• Cuartiles
• Rango o recorrido
• Recorrido intercuartílico
C2. Dispersión
• Varianza
• Desviación estándar o típica
40 40
30 30
Porcentaje
Porcentaje
20 20
10 10
9 10 11 7 8 9 10 11 12 13 14 15
Número de días Número de días
recorrido intercuartílico
80
count
60
40
20
Datos: 1 2 1 4 2 2 4 4 4 5.
Paso 1: calculamos la media aritmética
1+2+1+4+2+2+4+4+4+5
x= = 20 9
10
Paso 2: la varianza es
(1 − 20 9)2 + (2 − 20 9)2 + (1 − 20 9)2 + . . . + (5 − 20 9)2
s2 = =
9
(1 − 20 9)2 · 2 + (2 − 20 9)2 · 3 + (4 − 20 9)2 · 4 + (5 − 20 9)2 · 1
=
9
= 20 1
A. Modelos continuos
A1. Distribución normal o gaussiana
A2. Distribución exponencial
A3. Distribución de Weibull
B. Modelos discretos
B1. Distribución binomial
B2. Distribución de Poisson
n→∞
A→0
N=2000, A=1
! ! x ! b
∞
f(t)dt = P (X ≤ x) f(t)dt = P (a < X < b)
f(t)dt = 1 −∞ a
−∞
= FX (x) = P (a ≤ X ≤ b)
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7703 0,7734 0,7704 0,7793 0,7823 0,7652
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8364 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8930
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9235 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9485 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9762 0,9767
2,0 0,9773 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9934 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9865 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9975 0,9975 0,9976 0,9977 0,9978 0,9978 0,9979 0,9980 0,9980 0,9981
2,9 0,9981 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
Tema 2 3,4 0,9997 0.9997 0,9997 0,9997 0,9997
0,9997Estadística 0,9997 0,9997 0,9997 0,9998 102 / 425
Ejercicio
Considera X ≡ N(0, 2), Y ≡ N(3, 2) y Z ≡ N(0, 1). Haciendo uso de
la tabla de la distribución normal, calcula:
1 P(Z ≤ 0), P(Z ≤ 1), P(Z ≤ 1.33), P(Z ≥ 1.33), P(1 ≤ Z ≤ 1.33),
P(Z ≤ −1) y P(−1.33 ≤ Z ≤ 1.33).
2 P(X ≤ 0), P(X ≤ 2), P(X ≤ 1.6), P(X ≤ −1.6) y
P(−1.6 ≤ X ≤ 1.6).
3 P(Y ≤ 3), P(Y ≤ 5), P(Y ≤ 4.6), P(Y ≤ 1.4) y P(1.4 ≤ Y ≤ 4.6).
P(X > t + y )
Si X ≡exp(λ), entonces: = P(X > y ), ∀ t > 0, y > 0.
P(X > t)
N=100
n=100 N=200
n=200
0,45 0,45
0,4 0,4
0,35 0,35
0,3 0,3
proporción
proporción
0,25 0,25
0,2 0,2
0,15 0,15
0,1 0,1
0,05 0,05
0 0
0 1 2 3 0 1 2 3
proporción 0,1 0,4 0,35 0,15 proporción 0,11 0,39 0,36 0,14
número de caras número de caras
N=1000
n=1000 Modelo teórico
0,4 0,4
0,35 0,35
0,3 0,3
probabilidad
proporción
0,25 0,25
0,2 0,2
0,15 0,15
0,1 0,1
0,05 0,05
0 0
0 1 2 3 0 1 2 3
proporción 0,12 0,38 0,37 0,13 probabilidad 0,125 0,375 0,375 0,125
número de caras número de caras
Modelo teórico
0,4
0,35
0,3
probabilidad
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4
masa de 0,125 0,375 0,375 0,125
probabilidad
número de caras
proporciones / probabilidades
0,45
0,4
0,35
0,3
0,25 proporciones
0,2 probabilidades
0,15
0,1
0,05
0
0 1 2 3
proporciones 0,1 0,4 0,35 0,15
probabilidades 0,12 0,38 0,37 0,13
Número de caras
0,4
0,35
0,3
probabilidad
0,25
valores<=2
0,2
valor=3
0,15
0,1
0,05
0
0 1 2 3
número de caras
X
Esperanza: µX = E(X ) = xi p(xi )
i
X
Varianza: σX2 = Var(X ) = [xi − E(X )]2 p(xi )
i
p
Desviación típica: σX = DT(X ) = Var(X )
Ejemplo:
Juego de azar que consiste en lanzar una moneda y observar el
resultado.
Gano 1 euro si sale cara, pierdo 1 euro si sale cruz.
X =“ganancia” x1 = −1, x2 = 1, p1 = 00 5, p2 = 00 5.
Ganancia esperada: E(X ) = 0 euros.
jugada (n) 1 2 3 4 5 6 7 8 9 10
ganancia 1 1 -1 1 -1 -1 -1 1 -1 1
gan. media(n) = x (n) 1 1 1/3 00 5 00 2 0 -1/7 0 -1/9 0
¿E(X )? ¿E(Y )?
¿Var(X )? ¿Var(Y )?
¿DT(X )? ¿DT(Y )?
X ≡ B(n, p)
1 x1 = 0, . . . xn = n − 1, xn+1 = n.
2 p = P(éxito), q = 1 − p = P(fracaso).
n k
3 P(X = k ) = p (1 − p)n−k , para k = 0, 1, 2, . . . , n.
k
4 E(X ) = n p.
5 Var(X ) = np (1 − p).
Ejemplo:
1 Consideramos el lanzamiento de una moneda.
2 Éxito: “sale cara”, fracaso=“sale cruz”.
3 Lo repetimos n = 4 veces.
4 X =“número de caras en los 4 lanzamientos”
(no de éxitos en las n = 4 realizaciones del experimento).
5 X puede tomar los valores:
x1 = 0, x2 = 1, x3 = 2, x4 = 3, x5 = 4.
¿Con qué probabilidad toma cada uno?
6 Ejemplo: p4 = P({ccc+}) + P({cc+c}) + P({c+cc}) + P({+ccc}) =
3
3 1 1 4 1
4 (p) (1 − p) = 4 · · = = .
2 2 16 4
1 1 3 1 1
7 p1 = , p2 = , p3 = , p4 = , p5 =
16 4 8 4 16
X ≡ P(λ)
1 x1 = 0, x2 = 1, . . . , xk +1 = k , . . . .
λk
2 P(X = k ) = e−λ · , para k = 0, 1, 2, . . ..
k!
3 E(X ) = λ.
4 Var(X ) = λ.
Supongamos que:
Yt =“número de ocurrencias en t unidades de tiempo”
Yt ≡ P(λ t), ∀ t > 0
X =“tiempo transcurrido entre dos ocurrencias consecutivas”
Entonces P(X > t) = P(Yt = 0) = e−λ t
y, por tanto, X ≡ exp(λ)
Estimación puntual
Contraste de hipótesis
A. Contrastes para una muestra
A1. Contraste de bondad de ajuste
A2. Contraste para un promedio
A3. Contraste para una proporción
B. Contrastes para dos muestras
B1. Contraste para comparar dos proporciones
B2. Contraste para comparar dos varianzas
B3. Contraste para comparar dos promedios
( )
µ = 199 x = 199.4 µ0 = 200
1.2
1.0
0.8
y1
0.6
0.4
0.2
0.0
3
Opción 1. n = 30 X ≡ N 199, √ = N(199, 00 55)
30
3
Opciones 2 y 3. n = 50 X ≡ N 199, √ = N(199, 00 42)
50
3
Opción 4. n = 100 X ≡ N 199, √ = N(199, 00 3)
100
n = 1000 n = 500
= 30 16% = 40 47%
Conf. = 950 5% Conf. = 950 5%
PARÁMETRO ESTIMACIÓN
µ (media poblacional) x (media muestral)
p (proporción poblacional) p̂ (proporción muestral)
σ 2 (varianza poblacional) s2 (varianza muestral)
Ejemplos:
VARIABLE PARÁMETRO ESTIMACIÓN
volumen introducido µ: volumen medio x: volumen medio
en cada botella de toda la producción de las 100 botellas
p̂: proporción de defectuosas
1, si la pieza es defectuosa, p: proporción de piezas en una muestra de
0, si la pieza no es defectuosa defectuosas en un lote 10 piezas extraídas
con reemplazamiento
2
s : dispersión entre
tiempo de vida de un 2
σ : dispersión entre tiempos, tiempos de vida
modelo de batería referida a toda la producción de las baterías de una
muestra de la población
Si aumentamos n:
Se puede mantener 1 − α, disminuyendo la amplitud.
Se puede mantener la amplitud, aumentando 1 − α.
Si aumentamos 1 − α:
Para mantener la amplitud, necesitamos aumentar n.
Para mantener n, necesitamos aumentar la amplitud.
Si queremos disminuir A:
Para mantener 1 − α, necesitamos aumentar n.
Para mantener n, necesitamos que disminuya 1 − α.
S S
(x − tn−1,1−α/2 √ , x + tn−1,1−α/2 √ )
n n
TABLA DE LA DISTRIBUCION t-Student con n grados de libertad..
1−α
n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779
Tema 3 27 0.684 0.855 1.057 1.314 1.703
Estadística 2.052 2.473 2.771 170 / 425
Ejercicio
Una muestra de tamaño 15 de una variable que sigue una distribución
normal toma los siguientes valores:
14, 14, 14, 14, 14, 15, 15, 15, 15, 15, 16, 16, 16, 16, 16 .
REGLA DE DECISIÓN
P-valor < α =⇒ Rechazo H0
P-valor ≥ α =⇒ No rechazo H0
Generalmente se considera α = 00 05.
H0 : la distribución es normal
H1 : la distribución no es normal,
4
Realmente se compara el promedio de la diferencia con el valor 0. Las diferencias
formales entre estas comparaciones y las propuestas en el esquema se salen de los
propósitos de este curso.
Tema 3 Estadística 185 / 425
A. CONTRASTES PARA UNA MUESTRA
A2. Un promedio.
Ejemplo
¿Se puede asumir que la resistencia sigue una distribución normal?
Ejemplo
¿Hay evidencias de que la resistencia promedio es menor de 32
libras?
¿Distribución
Contraste para la aproximadamente Tipo de test
normal?
Media (µ) SÍ Test t para una muestra
Mediana (Me) NO Test de Wilcoxon para una muestra5
5
Solo es recomendable cuando la distribución es simétrica. Si los datos muestrales no avalan esta premisa, se pueden
utilizar otros tests que están fuera del alcance de este curso.
Tema 3 Estadística 192 / 425
Test t para una muestra
wilcox.test(Datos$Tiempo,alternative=“less”,mu=30)
Wilcoxon signed rank test with continuity correction
data: Datos$Tiempo
V = 959, p-value = 3.669e-08
alternative hypothesis: true location is less than 30
14, 14, 14, 14, 14, 15, 15, 15, 15, 15, 16, 16, 16, 16, 16 .
Ejemplo
¿Hay evidencias de que el porcentaje de piezas buenas es mayor del
90%?
Pieza
Buena Defectuosa
190 10
1-sample proportions test without continuity correction
data: rbind(.Table), null probability 0.9
X-squared = 5.5556, df = 1, p-value = 0.009211
alternative hypothesis: true p is greater than 0.9
95 percent confidence interval:
0.9181082 1.0000000
sample estimates:
p
0.95
H0 : p1 = p2 H0 : p1 ≥ p2 H0 : p1 ≤ p2
H1 : p1 6= p2 H1 : p1 < p2 H1 : p1 > p2
6
Realmente se compara el promedio de la diferencia con el valor 0. Las diferencias formales
entre estas comparaciones y las propuestas en el esquema se salen de los propósitos de este
curso.
Tema 3 Estadística 210 / 425
B. CONTRASTES PARA DOS MUESTRAS
B1. Comparación de dos proporciones
Ejemplo.- ¿Hay evidencias de que el porcentaje de piezas defectuosas es
mayor en la línea A que en la línea B?
MUESTRAS INDEPENDIENTES
B2. Comparación de dos varianzas
Ejemplo.- ¿Se puede asumir que la dispersión de la resistencia es la
misma en las piezas producidas en la línea A que en las producidas en
la línea B?
MUESTRAS INDEPENDIENTES
B3. Comparación de dos promedios
B3.a B3.b
Ejemplo.- ¿Hay evidencias de que, Ejemplo.- ¿Hay evidencias de que,
en promedio, la resistencia es en promedio, la resistencia es
menor en las piezas de la línea A menor antes de que las piezas
que en las de la línea B? pasen por el horno que después?
MUESTRAS INDEPENDIENTES DATOS RELACIONADOS
Ejemplo
¿Hay evidencias de que el porcentaje de piezas defectuosas es mayor
en la línea A que en la B?
Defectuosa
Linea D ND Total Count
A 5.0 95.0 100 200
B 3.6 96.4 100 195
2-sample test for equality of proportions
without continuity correction
data: .Table
X-squared = 0.4768, df = 1, p-value = 0.2449
alternative hypothesis: greater
95 percent confidence interval:
-0.01940489 1.00000000
sample estimates:
prop 1 prop 2
0.05000000 0.03589744
Ejemplo
¿Se puede asumir que la dispersión de la resistencia es la misma en
las piezas producidas en la línea A que en las producidas en la línea
B?
Contrastes para
¿Normalidad? Tipo de test
comparar dos
Varianzas (σ12 , σ22 ) SÍ Test F para dos varianzas
Varianzas (σ12 , σ22 ) NO Test de Levene
Ejemplos
B3.a ¿Hay evidencias de que, en promedio, la resistencia es menor en las piezas de la
línea A que en las de la línea B?
B3.b ¿Hay evidencias de que, en promedio, la resistencia es menor antes de que las
piezas pasen por el horno que después?
¿Distribuciones
Contraste ¿Muestras
aproximadamente Tipo de test
para la ... independientes?
normales?
Diferencia de las medias SÍ SÍ Test t para muestras independientes
Media de la diferencia NO SÍ Test t para datos relacionados
Diferencia de las medianas SÍ NO Test de Wilcoxon para dos muestras7
Mediana de la diferencia NO NO Test de Wilcoxon para muestras pareadas7
7
Solo es recomendable cuando la distribución de la variable diferencia es simétrica.
Tema 3 Estadística 221 / 425
Esquema para comparar en promedio
dif = X − Y
B. Regresión lineal
Paso 1: búsqueda de un modelo
Paso 2: estimación de los parámetros
Paso 3: adecuación del modelo
Paso 4: realización de pronósticos
Ejemplo: Estudio sobre si el peso medio es igual en la gente de España, USA y Japón.
Descriptiva Inferencia
Tablas
A1. Categórica Test chi-cuadrado
Coeficientes: χ2 y C
Diagrama dispersión
A2. Continua Test correlación
Coeficientes: sXY y R
SEXO
Sueldo Hombre Mujer TOTAL
De 20 a 35 euros 120 180 300
De 36 a 50 euros 185 15 200
De 51 a 65 euros 495 5 500
TOTAL 800 200 1000
ni·
En el caso de independencia, ¿qué ocurre con los valores n·j ?
n
EMPRESA 1 - INDEPENDENCIA EMPRESA 2 - RELACIÓN
SEXO SEXO
Sueldo Hombre Mujer TOTAL Sueldo Hombre Mujer TOTAL
20 − 35 240 60 300 20 − 35 120 180 300
36 − 50 160 40 200 36 − 50 185 15 200
51 − 65 400 100 500 51 − 65 495 5 500
TOTAL 800 200 1000 TOTAL 800 200 1000
ni·
En el caso de independencia, ¿qué ocurre con los valores n·j ?
n
EMPRESA 1 - INDEPENDENCIA EMPRESA 2 - RELACIÓN
SEXO SEXO
Sueldo Hombre Mujer TOTAL Sueldo Hombre Mujer TOTAL
20 − 35 240 60 300 20 − 35 120 180 300
36 − 50 160 40 200 36 − 50 185 15 200
51 − 65 400 100 500 51 − 65 495 5 500
TOTAL 800 200 1000 TOTAL 800 200 1000
300 300
240 = 800 · 120 6= 240 = 800 ·
1000 1000
nij es la frecuencia observada del par (xi , yj ). Otra notación muy común
para esta frecuencia es Oij .
ni· n·j
es la frecuencia esperada de la modalidad (xi , yj ) si las variables
n
fuesen independientes. Se representa habitualmente por Eij .
EMPRESA 1 - INDEPENDENCIA
SEXO
Sueldo Hombre Mujer TOTAL
20 − 35 240 60 300
36 − 50 160 40 200
51 − 65 400 100 500
TOTAL 800 200 1000
300 2 300 2 200 2
(240 − 800 · 1000 ) (60 − 200 · 1000 ) (160 − 800 · 1000 )
χ2 = 300
+ 300
+ 200
+
800 · 1000 200 · 1000 800 · 1000
200 2 500 2 500 2
(40 − 200 · 1000 ) (400 − 800 · 1000 ) (100 − 200 · 1000 )
200
+ 500
+ 500
=0
200 · 1000 800 · 1000 200 · 1000
EMPRESA 2 - RELACIÓN
SEXO
Sueldo Hombre Mujer TOTAL
20 − 35 120 180 300
36 − 50 185 15 200
51 − 65 495 5 500
TOTAL 800 200 1000
300 2 300 2 200 2
(120 − 800 · 1000 ) (180 − 200 · 1000 ) (185 − 800 · 1000 )
χ2 = 300
+ 300
+ 200
+
800 · 1000 200 · 1000 800 · 1000
200 2 500 2 500 2
(15 − 200 · 1000 ) (495 − 800 · 1000 ) (5 − 200 · 1000 )
200
+ 500
+ 500
= 4320 34 > 0
200 · 1000 800 · 1000 200 · 1000
χ2 = 0 χ2 = 4320 34
χ2 = 0 χ2 = 4320 34
s ⇓ s ⇓
r r
χ2 0 χ 2 4320 34
C= = =0 C= = 0
= 00 55
χ2 +n 0 + 1000 2
χ +n 432 34 + 1000
MÁQUINAS
TURNO A B C D
o
1 41 20 12 16
2o 31 11 9 14
3o 15 17 16 10
MÁQUINAS
TURNO A B C D
o
1 41 20 12 16
2o 31 11 9 14
3o 15 17 16 10
MÁQUINAS
TURNO A B C D
o
1 41 20 12 16
2o 31 11 9 14
3o 15 17 16 10
1 X
sXY = (xi − x)(yj − y )nij
n−1
i,j
1 X
sXY = (xi − x)(yj − y )nij
n−1
i,j
1 X
sXY = (xi − x)(yj − y )nij
n−1
i,j
1 X 270 33
sX2 = (xi − x)2 ni· = = 50 47
n−1 5
i
1 X 170 33
sY2 = (yj − y )2 n·j = = 30 47
n−1 5
j
sXY 00 53
R= = √ √ = 00 12.
sX sY 50 47 30 47
X1 X2 ··· Xr X1 X2 ··· Xr
X1 R11 R12 ··· R1r X1 1 R12 ··· R1r
X2 R21 R22 ··· R2r X2 R12 1 ··· R2r
.. .. .. .. .. .. .. ..
.. ..
. . . . . . . . . .
Xr Rr 1 Rr 2 ··· Rrr Xr R1r R2r ··· 1
Estudio 10 12 16 14 10 12
Ocio 13 17 15 15 16 12
Con estos datos obtenemos que:
H0 : ρ≤0 H0 : ρ≥0
H1 : ρ > 0 (correlación positiva) H1 : ρ < 0 (correlación negativa)
Origen de la regresión
Ejemplo
Y .- demanda máxima diaria en megawatts.
x.- temperatura máxima diaria en grados Fahrenheit.
Y = 2 + 5x +
^ ^
↓ ↓
determinista componente aleatoria
Tipos de regresión
Regresión lineal simple: Y = β0 + β1 x.
Regresión no lineal simple: Y = β0 + β1 ln(x), Y = β0 x β1 ,
Y = β0 eβ1 x , Y = β0 + β1 /x, etc.
Regresión lineal múltiple: Y = β0 + β1 x1 + β2 x2 + . . . + βn xn .
Y = β0 + β1 x +
donde,
Y = variable explicada (variable que se quiere modelar)
x = variable explicativa (variable que se usará como
predictor de Y )
= componente aleatorio de error, con valor promedio 0
β0 = ordenada en el origen (intercept)
β1 = pendiente de la recta, es decir, cantidad en que aumenta
(o disminuye) el promedio de Y por cada aumento
unitario de x
Coeficientes de regresión: β0 y β1
Este paso es el más difícil y tiene que ser dado por un experto en
el tema.
En la mayoría de los casos, dicho experto se ayudará del
diagrama de dispersión para comenzar a estudiar la adecuación
del modelo de regresión lineal simple.
Tema 4 Estadística 310 / 425
Paso 1: Suponer la forma del modelo
Ejemplo
En el ejemplo de la planta generadora de energía eléctrica, se tomó una muestra de
10 días, para los que se anotó la temperatura máxima diaria en grados Fahrenheit (x)
y la demanda máxima diaria en megawatts (y), obteniéndose los siguientes datos:
x 95 82 90 81 99 100 93 95 93 87
y 214 152 156 129 254 266 210 204 213 150
y = β0 + β1 x ,
Residuos o errores
Ejemplo
Con los datos del ejemplo de la planta generadora de energía eléctrica, se obtiene
que
x = 91.5 , sx = 6.5 , y = 194.8 , sy = 46.26 , sxy = 284
Por tanto la recta de regresión es
ŷ = βˆ0 + βˆ1 x
Ejemplo
Con los datos del ejemplo de la planta generadora de energía eléctrica, se obtiene
que
x = 91.5 , sx = 6.5 , y = 194.8 , sy = 46.26 , sxy = 284
Por tanto la recta de regresión es
ŷ = − 4190 85 + 60 7175x
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -419.8491 76.0578 -5.52 0.00056 ***
x 6.7175 0.8294 8.10 3.99e-05 ***
--
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
R 2 ∈ [0, 1]
(n − 1)R 2 − k
Ra2 =
n−k −1
donde n denota el tamaño muestral y k el número de variables
explicativas, en este caso 1.
Es mejor estimador del coeficiente de determinación poblacional y
es el que debe usarse cuando se quieren comparar modelos con
distinto número de variables explicativas.
Al contrario que el coeficiente de determinación, el coeficiente de
determinación ajustado puede tomar valores negativos
(normalmente si el coeficiente de determinación es pequeño).
Tema 4 Estadística 319 / 425
Paso 3: Adecuación del modelo con R
Residuals:
Min 1Q Median 3Q Max
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
Estimate Std. Error t value Pr(>|t|)
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residuals:
Min 1Q Median 3Q Max
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
Estimate Std. Error t value Pr(>|t|)
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residuals:
Min 1Q Median 3Q Max
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
Estimate Std. Error t value Pr(>|t|)
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residuals:
Min 1Q Median 3Q Max
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
Estimate Std. Error t value Pr(>|t|)
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residuals:
Min 1Q Median 3Q Max
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
Estimate Std. Error t value Pr(>|t|)
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residuals:
Min 1Q Median 3Q Max
Coefficients:
-1.7754 -0.5727 -0.1325 0.6034 1.6818
Estimate Std. Error t value Pr(>|t|)
(Intercept) 118.90992 4.49912 26.43 1.10e-12 ***
x -0.90473 0.04109 -22.02 1.12e-11 ***
—
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residuals:
Min 1Q Median 3Q Max
-16500238 -15130652 -8719188 2811355 116449945
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -119724647.5 6535899.6 -18.32 <2e-16 ***
x 23343.1 521.9 44.72 <2e-16 ***
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
En el ejemplo anterior,
Propiedad Valor
Tamaño muestral 11
Media de cada una de las variables x 0 s 9
Varianza de cada una de las variables x 0 s 11
Media de cada una de las variables y 0 s 70 5
Varianza de cada una de las variables y 0 s 40 12
Coef. determinación entre cada una de las variables x 0 s e y 0 s 00 666
Correlación entre cada una de las variables x 0 s e y 0 s 00 816
Recta de regresión y = 3 + 00 5x
Ejemplo
Con los datos de nuestro ejemplo, el gráfico Q-Q proporcionado por el
R es:
Con lo cual parece admisi-
ble considerar que los residuos
siguen una distribución normal,
aunque con n = 10 datos
ninguna conclusión es muy fia-
ble.
Se ha considerado este ejemplo
simplemente con fines didácti-
cos.
Ejemplo
Con los datos de contaminación del
fichero acero.rda, si se ajusta un
modelo de regresión lineal simple
para predecir la emisión de N2O a
partir del valor de la emisión de
CO2, el gráfico Q-Q proporcionado
por el R está adjunto.
Con lo cual de nuevo parece razo-
nable considerar que los residuos
siguen una distribución normal.
Ejemplo
Según el modelo y = −4190 8491 + 60 7175x propuesto en nuestro ejemplo, la
estimación de la demanda máxima en un día con una temperatura máxima
de 90 es:
ŷ0 = −4190 8491 + 60 7175(90) = 1840 7259.
De la misma forma, la demanda máxima en un día con una temperatura
máxima de 91 es:
Ejemplo
Para nuestro ejemplo, un intervalo de pronóstico de la demanda máxima para
un día en el cual la temperatura máxima sea de 90o F será:
r !
0 0 0 1 (90 − 910 5)2
184 7259 ± 2 31 · 16 18 1 + + = (1450 43, 2240 03).
10 10 · 380 05
Ejemplo
Con todo esto se obtiene que un intervalo de confianza al 95% para la
demanda media de los días con una temperatura de 90o F es:
r !
0 0 0 1 (90 − 910 50)2
184 7259 ± 2 31 · 16 18 + = (1710 5625, 1960 8878).
10 3800 8
Función de fiabilidad
B. Fiabilidad de un sistema
B1. Conocida la fiabilidad de cada componente.
B2. Conocida la distribución del tiempo de vida de cada
componente.
B3. Condicionada al funcionamiento o no funcionamiento de sus
componentes.
λ = 00 5 λ=1 λ=2
Función de densidad Función de distribución
(f (x) = λe−λ x para x > 0) (F (x) = 1 − e−λ x para x > 0)
1.5
1 0.5
0.5
1.5
0.5 1
0.5
0.5
1
0.5
0.5
2
1.5
1
0.5
A B C B
A
D D E
A B C B
E
F G
C
C1 C1 C2 C3 S
0 0 0 0
C3 0 0 1 0
C2 0 1 0 0
0 1 1 1
1 0 0 0
1 0 1 1
1 1 0 0
1 1 1 1
A ∩ B = {ω ∈ Ω : ω ∈ A y ω ∈ B}
A ∪ B = {ω ∈ Ω : ω ∈ A ó ω ∈ B}
A = {ω ∈ Ω : ω 6∈ A}
Complementario A NOT
A
Unión A∪B OR B
B
Diferencia A\B −−−
A
suceso A, P (A) ≥ 0.
A4B = (AK1)∪Para
B) todo
∩ (A ∩ B)
K2) P (Ω) = 1.
a) En serie: A B C b) En paralelo: B
D A B C D
c) A B C d)
E E
A
A
D E B
e) B f) E
F G C D
C
F G
No funciona
ninguna • • A • •
de las dos
Funciona A,
• • A∩B • •
pero no B
Al menos una
• • A∩B • •
no funciona
Funciona una
y sólo una • • A∩B • •
de las dos
No funciona A • • (A ∩ B) ∪ (A ∩ B) • •
Reglas básicas:
Operación Símbolo Disposición
unión ∪ en paralelo
intersección ∩ en serie
Ejemplo:
C1 C1 C2 C3 S
0 0 0 0
C3 0 0 1 0
C2 0 1 0 0
0 1 1 1
1 0 0 0
1 0 1 1
1 1 0 0
1 1 1 1
F = (F1 ∪ F2 ) ∩ F3
0'9 F2
F1
suceso prob.
0'9
0'1
F2 F1 ∩ F2 00 9 · 00 9 = 00 81
F1 ∩ F2 00 9 · 00 1 = 00 09
0'9 F2 F1 ∩ F2 00 1 · 00 9 = 00 09
0'1
F1 F1 ∩ F2 00 1 · 00 1 = 00 01
0'1 F2
P(F1 ∪ F2 ∪ . . . ∪ Fn ) = 1 − P(F1 ∪ F2 ∪ . . . ∪ Fn )
= 1 − P(F1 ∩ F2 ∩ . . . ∩ Fn )
= 1 − P(F1 ) · P(F2 ) · · · P(Fn ).
(a) C1 C2
(b) C1 C2 C3
C1
(c) C2
C3
Rs (t) = P[(T1 > t) ∩ . . . ∩ (Tk > t)] = P(T1 > t) · . . . · P(Tk > t) =
R1 (t) · . . . · Rk (t).
[1 − R1 (t)] · . . . · [1 − Rk (t)].
Por tanto,
P(A ∩ B)
En general, P(A|B) = .
P(B)
P(F t ∩ Fit )
P(F t |Fit ) =
P(Fit )
P(F t ∩ Fit )
P(F t |Fit ) =
P(Fit )
C1 C1 C2 C3 S
0 0 0 0
C3 0 0 1 0
C2 0 1 0 0
0 1 1 1
1 0 0 0
1 0 1 1
1 1 0 0
1 1 1 1
C1 C1 C2 C3 S
0 0 0 0
C3 0 0 1 0
C2 0 1 0 0
0 1 1 1
1 0 0 0
1 0 1 1
1 1 0 0
1 1 1 1
Etapa 1: Elegimos
una urna al azar.
Etapa 2: Elegimos
URNA 1 URNA 2
una bola al azar.
P(B|U1 ) = 00 5
P(B|U2 ) = 00 25
P(U1 ) = P(U2 ) = 00 5
URNA 1 URNA 2
3
Así, P(B) = 00 5 · 00 5 + 00 5 · 00 25 = .
8
Etapa 1: Elegimos
una urna al azar.
Etapa 2: Elegimos
URNA 1 URNA 2
una bola al azar.
P(B|Aj ) · P(Aj )
P(Aj |B) = n
.
X
P(B|Ai ) · P(Ai )
i=1
Asociativa: (A ∩ B) ∩ C = A ∩ (B ∩ C)
(A ∪ B) ∪ C = A ∪ (B ∪ C)
Conmutativa: A ∩ B = B ∩ A
A ∪ B = B ∪ A.
Idempotente: A ∩ A = A
A∪A=A
Elementro neutro: A ∩ Ω = A
A∪∅=A
Elemento absorvente: A ∩ ∅ = ∅
A∪Ω=Ω
Distributiva: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Leyes de De Morgan: A ∩ B = A ∪ B
A∪B =A∩B
n! = n · (n − 1) · · · 3 · 2 · 1
1 ex+y = ex · ey
ex
2 ex−y = y
e
1
3 e−x = x
e
0
4 e =1
5 lim ex = 0 y lim ex = ∞
x→−∞ x→∞
1 ln(e) = 1
2 ln(1) = 0
3 ln(x · y ) = ln(x) + ln(y )
x
4 ln = ln(x) − ln(y )
y
5 ln(x y ) = y · ln(x)
ln(x)
6 Cambio de base: loga (x) =
ln(a)