Fiabilidad (apuntes)
Fiabilidad (apuntes)
Fiabilidad (apuntes)
Análisis de Supervivencia
1 Introducción a la Fiabilidad 4
1.2 Contenido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1
Indice 2
2.4 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Capı́tulo 1
Introducción a la Fiabilidad
4
5
Existen otras divisiones posibles, por ejemplo, se puede distinguir entre sistemas
reparables y no reparables. Un sistema reparable es aquél que cuando falla puede
repararse sustituyendo alguno de sus componentes. En el análisis de componentes
no reparables se dispone de las observaciones del tiempo de fallo correspondientes a
varios componentes del mismo tipo, y la hipótesis de independencia e idéntica distri-
bución, i.i.d., suele ser habitual. En los sistemas reparables sin embargo, se utilizan
normalmente medidas sucesivas realizadas sobre el mismo sistema, y la hipótesis de
i.i.d. acerca de la duración de los intervalos de funcionamiento puede no ser plausi-
ble. En consecuencia, el análisis de sistemas reparables requiere técnicas diferentes
a las utilizadas en sistemas no reparables, que se basan en muestras aleatorias.
1.2 Contenido
Dada la amplitud del tema, nos limitaremos a estudiar los métodos estadı́sticos para
analizar problemas relativos al tiempo de fallo de componentes simples no reparables
y no trataremos temas relativos a la fiabilidad de configuraciones.
6
a 26 kV a 30 kV a 32 kV a 34 kV a 36 kV a 38 kV
5.79 7.74 0.27 0.40 0.19 0.7 0.35 0.59 0.09
1579.52 17.05 0.69 0.79 0.96 1.31 0.96 0.99 0.39
2323.70 20.46 2.75 3.91 2.78 3.16 1.69 1.97 0.47
21.02 9.88 13.95 4.15 4.67 2.07 2.58 0.73
a 28 kV 22.66 15.93 27.80 4.85 6.50 2.71 2.90 0.74
68.85 43.40 53.24 82.85 7.35 8.801 3.67 3.99 1.13
108.29 47.30 89.29 100.58 8.27 12.06 5.35 13.77 1.40
110.29 139.07 215.10 31.75 32.52 25.50 2.38
426.07 144.12 33.91 36.71
1067.60 175.88 72.89
194.90
6-MP 6, 6, 6 ,6*, 7, 9*, 10, 10*, 11*, 13, 16, 17*, 19*, 20*, 22, 23, 25*, 32*, 32*
34*, 35*
Placebo 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23
Cabe destacar la gran dispersión que se aprecia en los datos, ası́ como el hecho
de que la censura sea frecuente en el grupo tratado y no exista en el grupo control.
En la tabla 1.5 se muestran los datos correspondientes a una parte de los 137
participantes en el ensayo, los 40 individuos que habı́an recibido tratamiento tera-
péutico contra el cáncer con anterioridad. Para esos pacientes, clasificados en tablas
distintas según el tratamiento asignado y el tipo de tumor, se muestran las variables:
tiempo de supervivencia -que corresponde al tiempo, en dı́as, desde la incorporación
al estudio hasta el fallecimiento- estado general del enfermo, edad e intervalo de
tiempo transcurrido entre el momento del diagnóstico y su entrada al estudio. El
conjunto completo de datos se puede encontrar en el fichero LUNG.DAT.
13
Censura de tipo II. En los ensayos realizados bajo un esquema de tipo II,
con n componentes idénticos, el ensayo finaliza en el momento en que se produce el
r-ésimo fallo (1 ≤ r ≤ n). Ese instante, t (r) , será el valor de los datos censurados
correspondientes a los componentes que en ese momento sigan funcionando. De esta
forma sólo se conocen las r observaciones más pequeñas de la muestra y aparecen
n − r tiempos censurados en el valor t (r) . Este tipo de censura se usa con frecuencia
en los experimentos industriales y es más fácil de analizar desde el punto de vista
estadı́stico.
transcurrido desde la entrada del individuo al ensayo hasta su salida del mismo y δ
es una variable binaria indicadora del tipo de observación, que toma el valor 1 si se
ha observado el fallo y el valor 0 si se trata de una observación censurada.
En las referencias se indica, utilizando los sı́mbolos (R) y (S), si el texto analiza
el aspecto industrial o el biomédico respectivamente, y con un asterisco los libros de
nivel más elemental. En los ejercicios propuestos al final de cada capı́tulo también
se marcan con un asterisco aquellos que presentan mayor dificultad.
17
Conceptos probabilı́sticos
básicos de Fiabilidad
18
19
los sucesos se definen las operaciones habituales -la ocurrencia simultánea de varios
sucesos, la ocurrencia de alguno de ellos, la no ocurrencia de un suceso dado, etc.- y
las operaciones conjuntistas correspondientes -intersección, unión, complementación,
etc.
Representa gráficamente los datos y calcula para las muestras obtenidas, las
medidas descriptivas siguientes: media, mediana, moda, desviación tı́pica, rango,
rango intercuartı́lico, coeficiente de variación y coeficiente de asimetrı́a. Calcula los
correspondientes parámetros de dichas distribuciones de probabilidad y compáralos
con las estimaciones obtenidas en las distintas muestras.
1.0
1.0
0.8
0.8
0.6
0.6
S(t)
f(t)
0.4
0.4
0.2
0.2
0.0
0.0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
t t
La función de densidad se define como una función f definida en IR+ que verifica,
Z ∞
f (x)dx = 1
0
Esta función es monótona no creciente y verifica que S(0) = 1 y S(∞) = lim t→∞ S(t) =
0.
21
P (t ≤ T ≤ t + ∆t | T ≥ t) f (t)
h(t) = lim = .
∆t→0 ∆t S(t)
Esta función representa la tasa instantánea de fallo en el instante t, dado que el
individuo o pieza ha sobrevivido hasta esa edad, figura 2.2. Una visión intuitiva de
la definición anterior nos dice que para todo t y cuando ∆t → 0:
h(t)∆t ≈ P (t ≤ T ≤ t + Dt | T ≥ t).
S(t) = exp[−H(t)].
En algunos casos, en la práctica poco frecuentes, puede ser necesario tratar el tiempo
de vida T como una variable aleatoria discreta; por ejemplo, cuando se mide el
22
tiempo de vida de forma tal que el número de valores distintos que puede tomar la
variable es pequeño y son frecuentes los empates en las observaciones. Supondremos
que el espacio de resultados asociado es ahora ξ = {t (1) , t(2) , t(3) , . . .} donde 0 ≤
t(1) < t(2) < . . .
pj = P (T = t(j) )j = 1, 2, . . .
P
con pj > 0 y j pj = 1. La función de supervivencia,
X
S(t) = P (T > t) = pj
j:t(j) >t
es en este caso una función monótona no creciente, que cambia en los instantes de
fallo t(j) , continua a derecha y tal que S(∞) = 0. A diferencia del caso continuo,
el valor de esta función de supervivencia difiere en los instantes de fallo del que se
obtendrı́a definiendo S(t) = P (T ≥ t).
no obstante, como puede comprobarse desarrollando en serie ln(1 − x), ambas ex-
presiones producirán resultados próximos si los valores h j son pequeños.
- h2(t): Una población de individuos sanos entre los 20 y 40 años de edad, para
los que el único riesgo de muerte, en la práctica, viene dado por distintos tipos
de accidentes (laborales, deportivos, de tráfico, etc.). En esta población, la
función de riesgo es prácticamente constante.
- h4(t): Una población de personas jóvenes que padece cierto defecto congénito y
que es sometida a un proceso quirúrgico complicado para corregirlo, analizada
mientras dura el periodo de recuperación. Esta población presentará una tasa
de riesgo decreciente ya que en estos casos, el principal riesgo de muerte aparece
como consecuencia de la intervención o de sus complicaciones inmediatas.
Si T es una variable continua que toma valores en [0, ∞), con función de densidad
f (x), Rt será también una v.a. continua, con valores en [0, ∞) y función de densidad:
f (x + t)
fRt (x) = x ≥ 0.
S(t)
con λ una constante positiva. Las restantes funciones que caracterizan este modelo
son,
H(t) = λt
S(t) = exp(−λt)
f (t) = λ exp(−λt) para0 ≤ t < ∞.
S(t) = exp[−(λt)γ ]
f (t) = λγ(λt)γ−1 exp[−(λt)γ ] para 0 ≤ t < ∞.
27
1.0
0.5
γ=0.5
0.8
0.4
0.6
0.3
γ=3
S(t)
f(t)
0.4
0.2
γ=0.5
γ=1
0.2
γ=3
0.1
γ=1
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
t t
2.0
γ=0.5 γ=3
1.5
h(t)
1.0
0.5
γ=1
0.0
0 2 4 6 8 10
t
El nombre de esta distribución proviene del fı́sico sueco que la introdujo por primera
vez en 1939 en relación con experimentos de resistencia de materiales. La media de
la distribución es,
Γ(1 + γ −1 )
E(T ) =
λ
donde Γ(x) es la función gamma, definida para todo x > 0 por la integral,
Z ∞
Γ(x) = ux−1 e−u du.
0
0.8
1.0
γ=1
0.8
0.6
0.6
S(t)
0.4
f(t)
0.4
γ=5
0.2
γ=5 γ=1
0.2
γ=0.5
γ=0.5
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
t t
4
γ=0.5
3
h(t)
2
1
γ=1
γ=5
0
0 2 4 6 8 10
t
0.8
2.0
σ=3
µ=0 σ=1 µ=0
0.6
1.5
σ=0.25
0.4
1.0
f(t)
f(t)
µ=0.5
0.2
0.5
µ=1 σ=1
0.0
0.0
0 1 2 3 4 0 1 2 3 4
t t
2.0
µ=0 σ=0.25
1.5
h(t)
1.0
µ=0 σ=1
µ=0.5 σ=1
0.5
µ=1 σ=1
µ=0 σ=3
0.0
0 1 2 3 4
t
Y = ln(T ) = µ + σW,
1.0
1.0
θ=0
θ=0
0.8
0.8
κ=2
0.6
0.6
S(t)
f(t)
κ=0.5
κ=1
0.4
0.4
κ=1
0.2
0.2
κ=2
κ=0.5
0.0
0 1 2 3 4 0 1 2 3 4
t t
1.0
θ=0
κ=2
0.8
0.6
h(t)
0.4
κ=1
0.2
κ=0.5
0.0
0 1 2 3 4
t
0.8
0.3
0.6
0.2
S(t)
f(t)
0.4
0.1
0.2
0.0
0.0
0 1 2 3 4 0 1 2 3 4
t t
0.8
0.6
S(t)
0.4
0.2
0.0
0 1 2 3 4
t
parámetro de escala. Esta es una de las tres distribuciones de tipo Valor Extremo,
VE, que corresponden a las distribuciones lı́mite posibles del máximo de una muestra
aleatoria. Su función de riesgo es,
1
h(t) = exp[(t − α)/β].
β
El interés de esta distribución se debe en gran parte a su relación con la distribución
Weibull: si el tiempo de supervivencia T es W eibull(γ, λ), la variable ln(T ) tiene
una distribución Gumbel de parámetros α = − ln(λ) y β = 1/γ. En las gráficas de
la figura 2.7 se muestran las funciones de densidad, riesgo y supervivencia de esta
distribución con β = 1 y α = 2.
h(t) = λ + γt
donde λ y γ pueden tomar cualquier valor siempre que h(t) sea no negativa.
α1 si 0 ≤ t < t1
α2 si t1 ≤ t < t2
h(t) = ... ...
αk−1 si tk−2 ≤ t < tk−1
αk si t ≥ tk−1 .
2.4 Ejercicios
estas funciones en cierto instante t, con sus valores en el mismo instante cuando T
se mide en segundos?
2.- Comprueba que, tanto en el caso discreto como en el caso continuo, el valor
R∞
esperado de la variable T puede calcularse como E[T ] = 0 S(t)dt.
ii.- ¿Cuál es la tasa de fallo de una célula cuando lleva un año funcionando?
iii.- Entre las células que han estado funcionando durante más de 20.000 horas,
¿qué porcentaje se espera que funcione más de 40.000 horas?
iv.- De las células que han alcanzado la edad de 10.000 horas, ¿cuál es el porcentaje
esperado de células que fallarán cuando lleven funcionando entre 20.000 y
40.000 horas?
i.- Calcula el valor del tiempo medio hasta el fallo de esta pieza.
iv.- Si se sabe que la pieza ha funcionado más de dos horas, calcula la probabilidad
de que falle en el intervalo (2, 3).
6.- En ocasiones, las tasas de fallo se expresan en una unidad denominada FIT,
que equivale al número esperado de fallos del componente por cada 10 9 horas de
funcionamiento efectivo. Supongamos que cierta pieza tiene una tasa constante de
fallo correspondiente a 325.000 FITs.
i.- ¿Cuál es la probabilidad de que falle por primera vez entre el sexto y el
duodécimo mes de funcionamiento, sabiendo que no ha fallado durante los seis
primeros meses? Considera que 1 mes equivale a 160 horas de funcionamiento
efectivo.
7.- La tasa de fallo de cierta pieza que opera de manera continuada puede des-
cribirse mediante la siguiente función,
iii.- ¿Qué vida media tiene una pieza de estas caracterı́sticas? Calcula la mediana
del tiempo de vida.
37
iv.- Cuando una pieza lleva funcionando una semana ininterrumpidamente, ¿cuál
es la distribución de Rt en ese instante? Calcula su valor esperado.
8.- La tabla 2.2 resume una tabla de vida poblacional correspondiente a los Es-
tados Unidos de América, con una población base de 100.000 individuos. Para su
construcción se ha utilizado la información estadı́stica sobre mortalidad correspon-
diente al periodo 1959-1961.
ii.- Calcula la vida media de las personas que viven más de 5 años y menos de 85.
Para calcular este valor considera que la muerte se produce en el punto medio
de cada intervalo).
vi.- Estima la función de riesgo para las personas con 10 años de edad y para las
de 50. ¿Qué conclusiones obtienes al comparar ambas funciones?
9(*).- Dada una distribución de probabilidad continua, considera las cuatro pro-
piedades siguientes:
i.- h(t) es no decreciente para todo t ≥ 0. Las distribuciones con esta propiedad
suelen llamarse distribuciones IFR, o con tasa de fallo creciente.
Intervalo edad 0-1 1-5 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45
N o muertes 2593 409 233 214 440 594 612 761 1080 1686
Intervalo edad 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 > 85
N o muertes 2622 4045 5644 7920 10290 12687 14594 15034 18542
ii.- H(t)/t es no decreciente para todo t > 0. Las distribuciones con esta propiedad
suelen llamarse distribuciones IFRA, o con tasa de fallo creciente en promedio.
iii.- m(t) ≤ m(0) para todo t ≥ 0. Si esto ocurre, suele decirse que las distribucio-
nes tienen la propiedad NBU o ”nueva mejor que usada”.
iv.- m(t) es una función no creciente para todo t ≥ 0. En este caso se habla de
distribuciones con vida residual media decreciente.
b.- i =⇒ iv =⇒ iii.
W1 = nT(1)
h i
Wi = (n − i + 1) T(i) − T(i−1) para i = 2, . . . , n
i.- Comprueba que cada variable Wi sigue una distribución exponencial de parámetro
λ.
E[T ] = γ/λ
V ar[T ] = γ/λ2
P (T ≥ t) = P (Yλt < n)
39
donde Yλt sigue una distribución Poisson de media λt. Para demostrarlo,
comprueba que,
Z n−1
X
∞ (λt)i exp(−λt)
f (x)dx =
t i=0
i!
donde f (x) es la función de densidad de la variable Erlang(n, l).
iv(*).- Verifica que una distribución Gamma(n/2, 1/2) coincide con una distribución
χ2n .
donde θ = −µ/σ y κ = σ −1 .
Estimación no paramétrica de la
supervivencia: análisis de una
muestra
3.1 Introducción
40
41
Las tablas de vida son un procedimiento clásico para describir la mortalidad que
experimenta una población. Este método, cuyo origen se atribuye a Halley (1693),
sigue siendo una herramienta muy utilizada en campos como la demografı́a o los se-
guros de vida. El objetivo de una tabla de vida es expresar el patrón de mortalidad
que experimenta un colectivo de individuos en unas condiciones dadas. Distingui-
remos dos tipos de tablas: las tablas poblacionales, que son una herramienta de
carácter fundamentalmente descriptivo, y las tablas de vida clı́nicas, que tienen
una estructura análoga a la de las anteriores y sirven para estimar la supervivencia
de una población a partir de una muestra.
42
Las fuentes estadı́sticas necesarias para calcular las tasas de mortalidad por
edades son:
- Los datos censales del número de personas vivas de cada edad en un cierto
periodo, por ejemplo un año, medidos en el punto medio del intervalo de
tiempo considerado.
Los procedimientos para estimar las tasas de mortalidad a partir de estos datos
43
lx = lx−t (1 −t qx−t ) .
Tx : número total esperado de años vividos con edad superior a x por las
personas vivas a esa edad. Este valor se obtiene aplicando la idea que lleva a definir
la función t Lx al intervalo (x, ∞). t Lx y Tx+t verifican las relaciones siguientes,
Tx = t Lx +t Lx+t +t Lx+2t + . . .
Tx = t Lx + Tx+t .
(tx , tx+1 ) t qx lx t dx t Lx Tx ex
0-1 dı́as 0.00463 100000 463 273 7387758 73.88
1-7 0.00246 99537 245 1635 7387485 74.22
7-28 0.00139 99292 138 5708 7385850 74.38
28-365 0.00418 99154 414 91357 7380142 74.43
0-1 años 0.01260 100000 1260 98973 7387758 73.88
1-2 0.00093 98740 92 98694 7288785 73.82
2-3 0.00065 98648 64 98617 7190091 72.89
3-4 0.00050 98584 49 98560 7091474 71.93
4-5 0.00040 98535 40 98515 6992914 70.97
5-6 0.00037 98495 36 98477 6894399 70.00
6-7 0.00033 98459 33 98442 6795922 69.02
7-8 0.00030 98426 30 98412 6697480 68.05
8-9 0.00027 98396 26 98383 6599068 67.07
9-10 0.00023 98370 23 98358 6500685 66.08
10-11 0.00020 98347 19 98338 6402327 65.10
11-12 0.00019 98328 19 98319 6303989 64.11
12-13 0.00025 98309 24 98297 6205670 63.12
13-14 0.00037 98285 37 98266 6107373 62.14
14-15 0.00053 98248 52 98222 6009107 61.16
15-16 0.00069 98196 67 98163 5910885 60.19
16-17 0.00083 98129 82 98087 5812722 59.24
17-18 0.00095 98047 94 98000 5714635 58.28
18-19 0.00105 97953 102 97902 5616635 57.34
19-20 0.00112 97851 110 97796 5518733 56.40
20-21 0.00120 97741 118 97682 5420937 55.46
21-22 0.00127 97623 124 97561 5323255 54.53
22-23 0.00132 97499 129 97435 5225694 53.60
23-24 0.00134 97370 130 97306 5128259 52.67
24-25 0.00133 97240 130 97175 5030953 51.74
25-26 0.00132 97110 128 97046 4933778 50.81
26-27 0.00131 96982 126 96919 4836732 49.67
27-28 0.00130 96856 126 96793 4739813 48.94
28-29 0.00130 96730 126 96667 4643020 48.00
29-30 0.00131 96604 127 96541 4546353 47.06
30-31 0.00133 96477 127 96414 4449812 46.12
31-32 0.00134 96350 130 96284 4353398 45.18
32-33 0.00137 96220 132 96155 4257114 44.24
33-34 0.00142 96088 137 96019 4160959 43.30
34-35 0.00150 95951 143 95880 4064940 42.36
47
(tx , tx+1 ) t qx lx t dx t Lx Tx ex
35-36 0.00159 95808 153 95731 3969060 41.43
36-37 0.00170 95655 163 95574 3873329 40.49
37-38 0.00183 95492 175 95404 3777755 39.56
38-39 0.00197 95317 188 95224 3682351 38.63
39-40 0.00213 95129 203 95027 3587127 37.71
40-41 0.00232 94926 220 94817 3492100 36.79
41-42 0.00254 94706 241 94585 3397283 35.87
42-43 0.00274 94465 264 94334 3302698 34.96
43-44 0.00306 94201 288 94057 3208364 34.06
44-45 0.00335 93913 314 93756 3114307 33.16
45-46 0.00356 93599 343 93427 3020551 32.27
46-47 0.00401 93256 374 93069 2927124 31.39
47-48 0.00442 92882 410 92677 2834055 30.51
48-49 0.00488 92472 451 92246 2741378 29.65
49-50 0.00538 92021 495 91773 2649132 28.79
50-51 0.00589 91526 540 91256 2557359 27.94
51-52 0.00642 90986 584 90695 2466103 27.10
52-53 0.00699 90402 631 90086 2375408 26.28
53-54 0.00761 89771 684 89430 2285322 25.46
54-55 0.00830 99087 739 88717 2195892 24.65
55-56 0.00902 88348 797 87950 2107175 23.85
56-57 0.00978 87551 856 87122 2019225 23.06
57-58 0.01059 86695 919 86236 1932103 22.29
58-59 0.01151 85776 987 85283 1845867 21.52
59-60 0.01254 84789 1063 84258 1760584 20.76
60-61 0.01368 83726 1145 83153 1676326 20.02
61-62 0.01493 82581 1233 81965 1593173 19.29
62-63 0.01628 81348 1324 80686 1511208 18.58
63-64 0.01767 80024 1415 79316 1430522 17.88
64-65 0.01911 78609 1502 77859 l351206 17.19
65-66 0.02059 77107 1587 76314 1273347 16.51
66-67 0.02216 75520 1674 74683 1197033 15.85
67-68 0.02389 73846 1764 72964 1122350 15.20
68-69 0.02585 72082 1864 71150 1049386 14.56
69-70 0.02806 70218 1970 69233 978236 13.93
70-71 0.03052 68248 2083 67206 909003 13.32
71-72 0.03315 66165 2193 65069 841797 12.72
72-73 0.03593 63972 2299 62823 776728 12.14
73-74 0.03882 61673 2394 60476 713905 11.58
74-75 0.04184 59279 2480 58039 653429 11.02
48
(tx , tx+1 ) t qx lx t dx t Lx Tx ex
75-76 0.04507 56799 2560 55520 595390 10.48
76-77 0.04867 54239 2640 52919 539870 9.95
77-78 0.05274 51599 2721 50238 486951 9.44
78-79 0.05742 48878 2807 47475 436713 8.93
79-80 0.06277 46071 2891 44626 389238 8.45
80-81 0.06882 43180 2972 41694 344612 7.98
81-82 0.07552 40208 3036 38689 302918 7.53
82-83 0.08278 37172 3077 35634 264229 7.11
83-84 0.09041 34095 3083 32553 228595 6.70
84-85 0.09842 31012 3052 29486 196042 6.32
85-86 0.10725 27960 2999 26461 166556 5.96
86-87 0.11712 24961 2923 23500 140095 5.61
87-88 0.12717 22038 2803 20636 116595 5.29
88-89 0.13708 19235 2637 17917 95959 4.99
89-90 0.14728 16598 2444 15376 78042 4.70
90-91 0.15868 14154 2246 13031 62666 4.43
91-92 0.17169 11908 2045 10886 49635 4.17
92-93 0.18570 9863 1831 8948 38749 3.93
93-94 0.20023 8032 1608 7228 29801 3.71
94-95 0.21495 6424 1381 5733 22573 3.51
95-96 0.22976 5043 1159 4463 16840 3.34
96-97 0.24338 3884 945 3412 12377 3.15
97-98 0.25637 2939 754 2562 8965 3.05
98-99 0.26868 2185 587 1892 6403 2.93
99-100 0.28030 1598 448 1374 4511 2.82
100-101 0.29120 1150 335 983 3137 2.73
101-102 0.30139 815 245 692 2154 2.64
102-103 0.31089 570 177 481 1462 2.57
103-104 0.31970 393 126 330 981 2.50
104-105 0.32786 267 88 223 651 2.44
105-106 0.33539 179 60 150 428 2.38
106-107 0.34233 119 41 99 378 2.33
107-108 0.34870 78 27 64 179 2.29
108-109 0.35453 51 18 42 115 2.25
109-110 0.35988 33 12 27 73 2.20
100000
0.3
60000
0.2
qx
lx
0.1
20000
0.0
0
0 20 40 60 80 100 0 20 40 60 80 100
x (edad en agnos) x (edad en agnos)
tmi : punto medio del intervalo i-ésimo. Esta columna se incluye debido a que la
estimación de las funciones de riesgo y de densidad se realiza en esos puntos.
ci = l i + w i .
51
p̂i = 1 − q̂i .
fˆ(tmi )
ĥ(tmi ) = .
P̂ (tmi )
Notas:
i.- Los datos imprescindibles para la estimación de las funciones definidas en una
tabla de vida clı́nica son, di , ci , y n01 . Notemos que los resultados obtenidos
53
En la tabla 3.3 se muestra una tabla de vida clı́nica, Parker et al. (1946), corres-
pondiente a 2418 hombres enfermos de angina de pecho. El tiempo de supervivencia
mide, en años, el tiempo transcurrido desde el instante del diagnóstico hasta el fa-
llecimiento del enfermo. En la figura 3.2 se han representado las estimaciones de las
funciones de supervivencia, densidad y riesgo. En la gráfica de la función de riesgo se
observa que una vez superado el primer año, que presenta la tasa de fallo más alta,
ésta permanece prácticamente constante hasta el décimo año; en ese instante vuelve
a aumentar durante un intervalo de tres años. El comportamiento final podrı́a no
reflejar una caracterı́stica real de la población, ya que en la cola de la distribución,
al disminuir el número de datos, la estimación es menos fiable. Por esta razón es
conveniente disponer de una medida de la precisión de las estimaciones. Algunas de
estas medidas se presentan en el siguiente apartado.
Los valores de q̂i , p̂i y P̂ (ti ) son estimaciones sujetas a la variabilidad inherente al
proceso de muestreo, por lo que deben completarse con información relativa a su
precisión. Bajo determinadas hipótesis sobre los mecanismos de censura es posible,
54
ˆ
Año P̂ (ti ) fˆ(tmi ) ĥ(tmi ) s.e.[Ŝ(ti )] s.e.[fˆ(tmi )] s.e.[ĥ(tmi )] t̂mri s.e.[t̂mri ]
0 1.0000 0.1886 0.2082 - 0.0080 0.0097 5.33 0.17
1 0.8114 0.0944 0.1235 0.0080 0.0060 0.0082 6.25 0.20
2 0.7170 0.0646 0.0944 0.0092 0.0051 0.0076 6.34 0.24
3 0.6524 0.0738 0.1199 0.0097 0.0054 0.0092 6.23 0.24
4 0.5786 0.0593 0.1080 0.0101 0.0049 0.0093 6.22 0.19
5 0.5193 0.0581 0.1186 0.0103 0.0050 0.0106 5.91 0.18
6 0.4611 0.0439 0.1000 0.0104 0.0047 0.0110 5.60 0.19
7 0.4172 0.0460 0.1167 0.0105 0.0052 0.0135 5.17 0.27
8 0.3712 0.0370 0.1048 0.0106 0.0050 0.0147 4.94 0.28
9 0.3342 0.0355 0.1123 0.0107 0.0053 0.0173 4.83 0.41
10 0.2987 0.0430 0.1552 0.0109 0.0063 0.0236 4.69 0.42
11 0.2557 0.0421 0.1794 0.0111 0.0068 0.0306 4.00+ -
12 0.2136 0.0297 0.1494 0.0114 0.0067 0.0351 3.00+ -
13 0.1839 0.0203 0.1169 0.0118 0.0065 0.0389 2.00+ -
14 0.1636 0.0207 0.1348 0.0123 0.0080 0.0549 1.00+ -
15 0.1429 - - 0.0133 - - - -
1.0
0.15
0.8
0.6
S(t)
f(t)
0.10
0.4
0.05
0.2
0 5 10 15 0 2 4 6 8 10 12 14
t t
0.30
0.20
h(t)
0.10
0.0
0 2 4 6 8 10 12 14
t
Figura 3.2: Estimación de las funciones caracterı́sticas de los pacientes de angina de pecho.
aunque complicado, deducir estimaciones de sus varianzas. Por esta razón, aunque
la metodologı́a de las tablas de vida clı́nicas es antigua, el estudio teórico de las
propiedades estadı́sticas de sus estimadores es reciente y está aún por completar. En
este capı́tulo se presentan algunas de las propiedades y resultados más utilizados. La
mayor parte de estos resultados se han obtenido para el caso de muestras completas,
pero en se suelen generalizar y aplicar también al caso de muestras censuradas.
En el caso sin censura, éstos son los estimadores máximo verosı́miles; este
resultado se obtiene utilizando que el vector (d 1 , d2 , . . . , ds+1 ) sigue una distri-
bución Multinomial de parámetros n 1 , el número de individuos que inician el
estudio, y π1 , π2 , . . . , πs , donde,
s+1
X
n1 = di
i=1
πj = P (tj−1 ) − P (tj ) = p1 . . . pj−1 (1 − pj ) j = 1, 2, . . . , s + 1.
E[q̂j ] = qj
E[p̂j ] = pj
!
1
V ar[q̂j ] = V ar[p̂j ] = pj qj E
nj
Cov(q̂i , q̂j ) = Cov(p̂i , p̂j ) = 0 con i < j.
j
X h j
i2 X
q̂i di
V ar [(P (tj )] ≈ [P̂ (tj )]2 = P̂ (tj ) .
i=1
p̂i ni i=1
ni (ni − di )
58
Notas:
i.- En el proceso de estimación de la varianza de P̂ (tj ) se han utilizado varias apro-
ximaciones e hipótesis. La aproximación de la varianza dada por el método
delta, produce resultados razonables si n es suficientemente grande. La ex-
presión de la varianza de p̂i y la hipótesis de que Cov(p̂i , p̂k ] = 0, adoptadas
por analogı́a con el caso de las muestras sin censura, son más cuestionables,
dependiendo su validez del mecanismo de censura ası́ como de la distribución
del tiempo de vida en el problema bajo estudio.
ii.- En el caso de una muestra sin datos censurados, es fácil comprobar que la
fórmula de Greenwood produce la estimación
h i
h i P̂ (tj ) (1 − P̂ (tj )
Vd
ar P̂ (tj ) = .
n
nj+1
Esta expresión es razonable ya que en este caso P̂ (tj ) = p̂j p̂j−1 . . . p̂1 = n y
la distribución de nj+1 es Binomial de parámetros n, P (tj ).
donde tmj es el punto medio del intervalo [tj−1 , tj ) para el que se verifica P̂ (tj−1 ) ≥
P̂ (ti )/2 y P̂ (tj ) < P̂ (ti )/2. Esta misma expresión sirve para estimar la varianza
d
aproximada de t̂0.5 sin más que tener en cuenta que t̂0.5 = med(R t0 ). En la tabla
fallo es el mismo y por eso se define di , (di ≥ 1), como el número de fallos que se
P
producen en el instante t(i) . Las restantes observaciones, n − di , son los tiempos
de seguimiento de los individuos cuyo fallo no ha sido observado.
di
Como (t0j−1 , t0j ] puede ser arbitrariamente pequeño, se tiene que q̂ j = ni sólo
si t0j es uno de los tiempos de fallo t(i) . La probabilidad de supervivencia en cada
intervalo es,
ni −di
ni si t0(j) es un tiempo de fallo t(i)
p̂j = 1 − q̂j =
1 en otro caso.
Notas:
i.- El estimador KM de la función de supervivencia puede también deducirse como
un estimador máximo verosı́mil generalizado. Posee buenas propiedades en el
caso de muestras grandes y, bajo condiciones de censura bastante generales, es
un estimador consistente de S(t). Al igual que ocurrı́a con los estimadores de
las tablas de vida clı́nicas, el estudio de sus propiedades es una tarea compleja.
1.0
6-MP
Placebo
0.8
0.6
S(t)
0.4
0.2
0.0
0 10 20 30
t
donde r recorre los enteros positivos tales que t̃(r) ≤ t, siendo t̃(r) un tiempo
de fallo observado.
Cuestión: Comprueba la nota ii, es decir que en una muestra sin censura el
estimador KM coincide con la función de supervivencia empı́rica.
ti Ŝ t(i) s.e. Ŝ t(i) I.C. 95%
0 1.000 0.000 -
10 0.944 0.054 (0.839,1.000)
19 0.881 0.079 (0.727,1.000)
30 0.814 0.098 (0.622,1.000)
36 0.746 0.111 (0.529,0.963)
59 0.653 0.130 (0.397,0.908)
75 0.559 0.141 (0.283,0.836)
93 0.466 0.145 (0.182,0.751)
97 0.373 0.143 (0.093,0.653)
107 0.249 0.139 (0.000,0.522)
Tabla 3.4: Estimación de S(t) y un intervalo de confianza al 95% de los tiempos de fallo del uso
del DIU.
1.0
0.8
0.6
S(t)
0.4
0.2
0.0
0 20 40 60 80 100
t
Figura 3.4: Estimación de S(t) y un intervalo de confianza al 95% de los tiempos de fallo del uso
del DIU.
Ŝ(t) − S(x)
q = z1−α/2 ,
S(x)[1−S(x)]
n
1 − Ŝ(x)
n∗ = P dj
,
Ŝ(t) j,t(j) ≤x nj (nj −dj )
Cuestión: Con los datos del experimento clı́nico que aparecen en la primera
cuestión del apartado anterior, calcular la estimación de la varianza de la función
de supervivencia en el instante t = 5 meses.
66
que acumula las contribuciones dj /nj de la función de riesgo en los sucesivos instantes
de fallo t(j) . La mejor estimación de la varianza de este estimador es,
X dj
Vd
ar H̃(t) = 2.
j,t(j)
n
≤t j
H(t) de KM
H(t) de NA
0.6
0.4
H(t)
0.2
0.0
0 10 20 30
t
En la figura 3.3 se muestra la gráfica de los estimadores Ĥ(t) y H̃(t) para el grupo
de control del ensayo de la droga 6-MP. Como se ve, las dos estimaciones son bastante
próximas, y sólo se separan apreciablemente al crecer t. Ambos estimadores sugieren
el carácter exponencial de la distribución de T , dado el aspecto aproximadamente
lineal de las dos gráficas.
Tiempo medio de vida Dado que la esperanza del tiempo de vida coincide con
el área comprendida entre los ejes y la curva S(t), un posible estimador de E[T ] es,
Z ∞
µ̂ = Ŝ(t)dt.
0
Su cálculo no resulta complicado dado que Ŝ(t) es una función constante a trozos.
Tomando L = tM , µtM puede ser una buena aproximación del valor medio de T si
P (T > tM ) es pequeña. Se puede comprobar que,
Z tM
µ̂tM = Ŝ(t)dt.
0
donde el ı́ndice r recorre los enteros positivos tales que la observación t (r) , de la
muestra ordenada, no es censurada, y A r es el área bajo la curva Ŝ(t) a la derecha
de t( r). Este es un estimador sesgado por lo que es habitual -ası́ lo hacen muchos
paquetes estadı́sticos- corregir su sesgo multiplicándolo por un factor n f /(nf − 1),
siendo nf el número de observaciones no censuradas de la muestra.
Ŝ(t) − (1 − p)
h i ≤ z1−α/2 ,
s.e. Ŝ(t)
69
S(t) = exp(−λt).
ln([1−Ŝ(t)]
por lo que bastará analizar la relación lineal entre Ŝ(t))
y ln(t).
3.5 Ejercicios
1.- En cierta clı́nica fueron tratados, entre los años 1944 y 1953, 388 pacientes de
melanoma maligno. La tabla 3.5 muestra la información relativa a los tiempos de
supervivencia de estos enfermos, agrupados en intervalos de un año de longitud. La
tabla proporciona para cada intervalo: el número de personas vivas y en tratamiento
al comienzo del mismo n0i , el número de personas que murieron a causa de la enfer-
medad di y el de las que abandonaron el tratamiento por alguna causa, l i , durante
ese periodo
i.- Construye una tabla de vida clı́nica a partir de los datos anteriores, calcu-
lando en cada intervalo: el no de personas expuestas a riesgo, la proporción
de muertes y las estimaciones de las funciones de supervivencia, densidad y
riesgo.
iii.- Calcula una estimación de la mediana del tiempo restante de vida para un
enfermo en el momento de iniciar el tratamiento, para uno que sigue vivo
72
tras recibirlo durante dos años y para otro que ha sobrevivido cuatro años.
Interpreta los resultados obtenidos.
2.- El mieloma múltiple es una enfermedad mortal que se caracteriza por la acu-
mulación de células enfermas en la médula. Los datos de la tabla 3.6 proceden de un
estudio realizado con el fin de establecer la posible asociación entre la supervivencia
y el sexo de los pacientes.
i.- Tomando como lı́mite inferior de los intervalos los puntos: 0, 6.5, 11.5, 19.5
y 60, construye dos tablas de vida, una para los hombres y otra para las
mujeres. En cada una de ellas, calcula para cada intervalo, el n o de personas
expuestas a riesgo, la proporción de muertes y las estimaciones de las funciones
de supervivencia, densidad y riesgo en los puntos medios de los intervalos.
ii.- Estima el percentil 75 del tiempo de vida correspondiente a los hombres. Esti-
ma la mediana del tiempo restante de vida para una mujer a la que se acaba de
detectar la enfermedad y para otra que lleva diagnosticada y en tratamiento
11.5 meses.
B: 3, 4, 4, 6, 6, 6*, 9, 10*, 11, 13, 20, 21, 22, 22, 24, 31*, 36, 42*, 55, 68.
B: 1.05, 2.92, 3.61, 4.20, 4.49, 6.72, 7.31, 9.08, 9.11, 14.49*, 16.85, 18.82*, 26.59*,
30.26*, 41.34*.
i.- Calcula el estimador de Kaplan-Meier de la función de supervivencia para cada
uno de los grupos anteriores y compáralos. ¿Se aprecia alguna diferencia en la
probabilidad de sobrevivir un año entre los dos tipos de enfermos?
6.- Con los datos del Ejemplo 3 del primer capı́tulo, relativos al ensayo de la
droga 6-MP, contesta a las siguientes cuestiones:
i.- Calcula y representa gráficamente el estimador de Kaplan-Meier de S(t) en el
grupo tratado con la droga 6-MP y en el grupo de control.
iii.- Compara las estimaciones de la mediana del tiempo de remisión en los dos
grupos.
7.- Los datos de la tabla 3.7 son los tiempos de vida, en meses, de un grupo de
121 pacientes con cáncer de pecho, que fueron tratadas durante el periodo 1929-38.
Utilizando un paquete estadı́stico, responde a las siguientes cuestiones,
i.- Calcula el estimador KM de la función de supervivencia. Estima las probabi-
lidades de sobrevivir un año y cinco años y calcula la varianza aproximada de
estas estimaciones.
ii.- Agrupa los datos en intervalos de un año de longitud y construye una tabla
de vida clı́nica. Compara las estimaciones de la probabilidad de sobrevivir un
año y cinco años calculadas con los datos agrupados, con las obtenidas en el
apartado anterior.
76
0.3 0.3* 4.0* 5.0 5.6 6.2 6.3 6.6 6.8 7.4* 7.5
8.4 8.4 10.3 11.0 11.8 12.2 12.3 13.5 14.4 14.4 14.8
15.5* 15.7 16.2 16.3 16.5 16.8 17.2 17.3 17.5 17.9 19.8
20.4 20.9 21.0 21.0 21.1 23.0 23.4* 23.6 24.0 24.0 27.9
28.2 29.1 30 31 31 32 35 35 37* 37* 37*
38 38* 38* 39* 39* 40 40* 40* 41 41 41*
42 43* 43* 43* 44 45* 45* 46* 46* 47* 48
49* 51 51 51* 52 54 55* 56 57* 58* 59*
60 60* 60* 61* 62* 65* 65* 67* 67* 68* 69*
78 80 83* 88* 89 90 93* 96* 103* 105* 109*
109* 111* 115* 117* 125* 126 127* 129* 129* 139* 154*
ii.- Ajusta por mı́nimos cuadrados una recta a las observaciones del gráfico y obtén
estimaciones de los parámetros de forma y escala de la distribución.
iv.- Estima la mediana del tiempo de vida de este modelo de despertador mediante
un procedimiento paramétrico basado en que T sigue un modelo Weibull.
10.- Con los datos del Ejemplo 1 del primer capı́tulo sobre el comportamiento de
un elemento aislante sometido a distintos voltajes, dibuja los gráficos de adecuación
de una distribución Weibull a los tiempos de fallo correspondientes a dos de los
voltajes.
i.- ¿Es plausible la hipótesis de que los tiempos de fallo en ambos casos siguen
una distribución Weibull con el mismo parámetro de forma γ?
ii.- Calcula mediante mı́nimos cuadrados los estimadores de los parámetros del
modelo Weibull y compara la estimación de la función de supervivencia obte-
nida a partir de ellos, con la función de supervivencia empı́rica.
i.- Dibuja un gráfico para analizar la hipótesis de que los datos provienen de
una distribución Lognormal. Haz una estimación preliminar de la media y la
desviación tı́pica de dicha distribución.
i.- Predice el número de ventiladores que fallarán durante las próximas 2000 ho-
ras si, cuando un ventilador falla, éste es sustituido inmediatamente por otro
ventilador de un nuevo modelo que, se supone, no falla nunca.
ii.- Calcula una cota superior para el número de fallos que pueden observarse con
probabilidad 0.90.
Análisis comparativo de la
supervivencia: Métodos no
paramétricos
4.1 Introducción
78
79
Tabla 4.1: Tabla correspondiente al instante t(j) para comparar dos grupos.
fallos ocurridos en el instante t(j) en cada muestra y por dj el número total de fallos
observados en ese instante, es decir, d j = dAj + dBj . Análogamente, denotaremos
por nAj y nBj el número de individuos en riesgo en cada muestra justo antes del
instante t(j) , y por nj la suma nAj + nBj . Toda esta información se puede disponer
en un conjunto de J tablas de contingencia 2 × 2, una para cada tiempo de fallo. La
tabla correspondiente al instante t (j) se muestra en la tabla 4.1.
H0 : SA (t) = SB (t) ∀t ≤ τ
o, equivalentemente,
H0 : hA (t) = hB (t) ∀t ≤ τ.
estadı́stico que tiene media cero y, bajo la hipótesis de que las J tablas son indepen-
dientes, varianza la suma de las varianzas de los sumandos. Aplicando el teorema
central del lı́mite se puede justificar, si el número de tiempos de fallo no es demasiado
pequeño, que UL tiene una distribución aproximadamente Normal, es decir,
PJ
UL j=1 (dAj − eAj )
= P 1/2 ∼ N (0, 1).
(V ar[UL ])1/2 J
j=1 V ar[dAj ]
En estas condiciones se define una familia de tests cuyo estadı́stico tiene la es-
tructura siguiente, PJ
j=1 wj (dAj − eAj )
U = P 1/2 ,
J 2
j=1 wj V ar[dAj ]
Los diferentes vectores de peso proporcionan a cada test propiedades que los
hacen más adecuados en determinadas condiciones:
i.- El test log-rank, es el más adecuado y potente cuando la hipótesis alternativa
es la de riesgo proporcional:
θ
H1 : SA (t) = SB (t) ∀t ≤ τ.
1
Placebo
6-MP
0
log(H(t))
-1
-2
0 5 10 15 20 25
t
Figura 4.1: Gráfico para comprobar la hipótesis de riesgo proporcional en los dos grupos del
ensayo 6-MP.
ii.- El test de Gehan fue deducido originalmente por ese autor como generalización
del test de Mann-Whitney, o test de suma de rangos de Wilcoxon, al caso de
muestras con observaciones censuradas. Breslow generalizó el test de Kruskal-
Wallis para k muestras. En este estadı́stico se utiliza como peso el número
total de individuos en riesgo en cada instante. En situaciones de riesgo no
proporcional, este test resulta más potente que el log-rank.
iii.- Tarone y Ware (1977) comprobaron que el test de Gehan resulta muy sensible
a los esquemas de censura, y que puede ser poco fiable cuando la distribución
de los tiempos de censura en los grupos que se comparan es muy diferente.
Tras estudiar distintos esquemas de pesos de la forma w j = f (nj ), propusieron
√
wj = nj , que representa un compromiso entre el test de Gehan y el log-rank.
iv.- El test de Prentice (1978) es también una generalización del test de Wilcoxon a
muestras censuradas. Los pesos utilizados son valores próximos a la estimación
Kaplan-Meier de la función de supervivencia en los instantes t (j) , calculada a
partir de la muestra combinada.
Se debe observar que para rechazar la hipótesis nula, el estadı́stico U debe acu-
mular discrepancias del mismo signo. En efecto, el valor de U será significativamente
grande, o pequeño, si la mayor parte de los sumandos de su numerador tienen el
mismo signo, lo que ocurre cuando la diferencia en la supervivencia entre los dos gru-
pos es consistente a lo largo del tiempo; es decir, si S A (t) < SB (t) o SA (t) > SB (t)
para todo t. En otras condiciones, el estadı́stico U no siempre detecta diferencias
en la supervivencia de los grupos, pues al sumar términos de diferente signo, se
pueden obtener valores de U muy próximos a 0. En general, el comportamiento
de la supervivencia en la comparación de tratamientos suele ser consistente; si no
es ası́, es preferible utilizar otro tipo de tests, como las generalizaciones del test de
Kolmogorov-Smirnov a muestras con datos censurados.
Los tests citados en el apartado 4.3 para comparar la supervivencia en dos grupos
de población pueden generalizarse al caso de G grupos, con G ≥ 3. La hipótesis
nula sigue siendo,
frente a la alternativa de que las tasas de fallo de al menos dos de los grupos difieran
para algún instante t.
con k = 1, . . . , G − 1 y l = 1, . . . , G − 1.
Los vectores de pesos que se utilizan para construir los diferentes tests son los mismos
que en el caso de dos grupos.
Para poder establecer comparaciones válidas entre dos o más grupos es fundamental
que los individuos de la muestra sean lo más homogéneos posible, excepto en el
factor que define los grupos, a fin de garantizar que las diferencias que se observan
en las distintas submuestras estén asociadas únicamente a ese factor. Si existen
variables conocidas y controlables en el ensayo que se cree que pueden influir en
la supervivencia -como el sexo, la edad, la fase de la enfermedad, etc.- es necesario
controlar el efecto de esas covariables realizando una asignación estratificada. En este
tipo de asignación, a partir de los diferentes valores de esas covariables, se definen
categorı́as, denominadas estratos, de forma que los individuos de un mismo estrato
puedan considerarse homogéneos y en cada uno de ellos se realiza una asignación
aleatoria de los individuos a los grupos. Si no se procede de esta forma, se podrı́an
atribuir al efecto del factor que define los grupos, diferencias debidas a las distintas
caracterı́sticas de los individuos.
Los tests citados en la sección 4.3 son también aplicables en esta situación con
ligeras modificaciones. Supongamos que se quiere comparar la supervivencia de G
grupos y que a partir de un conjunto de covariables se han definido M estratos. La
hipótesis que se desea contrastar ahora es,
Utilizando los datos del estrato s-ésimo se calculan las cantidades s dAj , s eAj ,
Var[s dAj ]. A partir de ellas y del correspondiente vector de pesos se construye, de
forma análoga a la indicada en el apartado 4.4, el vector U s y la matriz Vs , que
resumen la situación dentro de ese estrato. Sumando los vectores obtenidos en los
PM PM
diferentes estratos se definen U = s=1 Us yV = s=1 Vs , con los que se construye
el estadı́stico global,
Q = U 0 V −1 U.
86
La variable categórica que define los grupos que se comparan puede no ser una va-
riable nominal, como el sexo o el grupo sanguı́neo, sino una variable ordinal cuyas
categorı́as tienen un orden intrı́nseco, por ejemplo la gravedad de un tumor, la can-
tidad de dosis administrada, etc. En estos casos, en lugar de plantear una hipótesis
alternativa genérica -que la función de riesgo de alguno de los grupos es diferente-
es preferible plantear una hipótesis alternativa más especı́fica, como la existencia
de un orden o tendencia en la supervivencia ligada a la variable ordinal que define
los grupos. Supongamos que hay G, con G > 2, grupos en estudio, enumerados de
acuerdo con el orden que se piensa puede existir entre las funciones de riesgo. La
alternativa a la hipótesis de igualdad es ahora,
o, equivalentemente,
Al comparar con un test general grupos en los que existe una estructura de
orden como la indicada con un test general, es posible que no se lleguen a apreciar
diferencias significativas en su supervivencia. Sin embargo, con un test que incorpore
información especı́fica sobre la estructura de orden, es más probable que se detecten
las diferencias existentes.
Para construir un test de tendencia se asocia a cada grupo una puntuación a k , con
a1 < a2 , < . . . , < aG , de modo que los valores mayores correspondan a los grupos
de mayor riesgo. La elección habitual de ese vector a = (a 1 , a2 , . . . , aG ) consiste
en tomar ak = k, aunque dependiendo de la información que aporta la variable
clasificatoria pueden elegirse cantidades que caractericen mejor los distintos grupos,
como la edad media, la dosis recibida, etc. El estadı́stico del test se construye a
partir del vector U y la matriz V calculados como se indicó en el apartado 4.4, pero
87
4.7 Ejercicios
2.- Utilizando los datos sobre enfermos de mieloma múltiple del ejercicio 2 del
capı́tulo 3, analiza gráficamente si la hipótesis de riesgo proporcional en los grupos
de hombres y mujeres es plausible y, según el resultado, contrasta la igualdad de
supervivencia en los dos grupos utilizando el test que consideres adecuado.
3.- Con los datos de los pacientes con enfermedad de Hodking del ejercicio 5
del capı́tulo 3, contrasta si la supervivencia del grupo que habı́a recibido terapia
anteriormente y la del que no la habı́a recibido son significativamente distintas,
utilizando el test log-rank y el de Gehan. Analiza los resultados obtenidos con los
dos tests.
1 2 3 4 5 6 7 8 9 10
P1 di 167 45 45 19 17 11 8 5 6 7
ni − d i 220.0 173.5 127.5 108.0 91.0 79.5 71.0 66.0 59.5 52.0
P2 di 185 88 55 43 32 31 20 7 6 6
ni − d i 559.0 461.0 396.0 343.0 299.0 235.0 170.0 132.0 101.5 71.0
A partir de esta información plantea un test para compara los dos tratamientos.
6.- Utilizando los datos del ensayo realizado para comparar dos tratamientos
de quimioterapia en enfermos de cáncer de pulmón descrito en el ejemplo 5 del
capı́tulo 1, compara la eficacia de los dos tratamientos, tomando en consideración la
posible influencia del tipo de tumor. El conjunto de datos se encuentra en el fichero
LUNG.DAT.
ción de un tumor. Suponiendo que los niveles de dosis utilizados fueron linealmente
crecientes, analiza si el aditivo tiene un efecto cancerı́geno en los ratones. Realiza
ese mismo contraste tomando en consideración la posible influencia del sexo. Los
datos se encuentran en el fichero TUMOR.DAT y las variables son: dosis (codificada
de 1 a 4), sexo, tiempo de supervivencia y estado de la observación.