MC03 Manual Epidat 3.1 Ayuda Tablas de Contingencia
MC03 Manual Epidat 3.1 Ayuda Tablas de Contingencia
MC03 Manual Epidat 3.1 Ayuda Tablas de Contingencia
INDICE
TABLAS DE CONTINGENCIA.....................................................................................................2
CONCEPTOS GENERALES ......................................................................................................2
TABLAS DE ASOCIACIN: EXPOSICINENFERMEDAD ...............................................4
TABLAS 2X2 SIMPLES .........................................................................................................4
Estudio transversal ...............................................................................................................5
Estudio de cohortes ..............................................................................................................8
Estudio de casos y controles...............................................................................................12
TABLAS 2X2 ESTRATIFICADAS......................................................................................17
TABLAS 2XN SIMPLES ......................................................................................................19
TABLAS 2XN ESTRATIFICADAS .....................................................................................23
BIBLIOGRAFA....................................................................................................................24
TABLAS GENERALES ............................................................................................................25
TABLAS MXN ......................................................................................................................25
REGRESIN LOGSTICA ...................................................................................................31
Conceptos generales...........................................................................................................31
Recomendaciones...............................................................................................................47
BIBLIOGRAFA....................................................................................................................48
TABLAS DE CONTINGENCIA
CONCEPTOS GENERALES
Analizar la distribucin de una variable con relacin a otra u otras es una actividad corriente en
Salud Pblica vinculada, la mayora de las veces, a la bsqueda de un patrn que indique la
relacin, (o la falta de ella) entre las variables estudiadas. Este es un proceso clave en la
identificacin de las posibles causas de los problemas de salud, y tambin de factores que, an
cuando no puedan ser finalmente considerados causales, resulten estar asociados a estos daos
y constituyan importantes elementos prcticos para la identificacin de grupos con mayores
riesgos de padecer un determinado dao.
El estudio de la influencia de una variable (variable independiente) sobre la forma en que se
modifica otra (variable dependiente) es conocido como anlisis bivariado; y ser multivariado
cuando el estudio evale de forma simultnea el efecto sobre una variable dependiente de dos o
ms variables independientes.
Las tablas de contingencia (tablas de doble entrada) son una herramienta fundamental para este
tipo de anlisis. Estn compuestas por filas (horizontales), para la informacin de una variable y
columnas (verticales) para la informacin de otra variable. Estas filas y columnas delimitan
celdas donde se vuelcan las frecuencias de cada combinacin de las variables analizadas. En su
expresin ms elemental, las tablas tienen solo 2 filas y 2 columnas (tablas de 2x2); en Epidat 3.0
estas tablas presentan la siguiente estructura tipo:
Enfermedad
Factor de riesgo
No
Total
Expuestos
...
...
...
No expuestos
Total
...
...
...
...
...
...
donde las filas identifican el nivel de exposicin a la variable en estudio y las columnas la
categora en relacin a la enfermedad (y las personas-tiempo en el caso de utilizar tasas de
incidencia).
En general, las tablas pueden abarcar varias filas (M) y columnas (N). El anlisis puede
ocasionalmente involucrar ms variables; por ejemplo, puede considerarse una tercera variable,
cada una de cuyas clases d lugar a una tabla de MxN.
En muchos anlisis subyacen dos hiptesis. Un ejemplo tpico es el caso en que se tiene una que
afirma la existencia de cierta asociacin entre las variables estudiadas. Ocasionalmente, por su
estructura terica, el problema encarado permite hablar de una variable dependiente y de
variables independientes. Otras veces, sin embargo, el examen de la asociacin no est
previamente direccionado. En cualquier caso, la otra hiptesis afirma que no existe tal relacin y
que ambas variables tienen completa independencia (hiptesis nula). Salvo en situaciones muy
especiales, la simple inspeccin de la informacin contenida en las tablas de contingencia no
permite ser concluyente sobre cul de las dos hiptesis es la que ha de elegirse como vlida.
Para examinar este problema, un primer paso puede ser calcular la frecuencia relativa de cada
celda (las medidas de frecuencia pueden ser diversas: prevalencia, incidencia acumulada,
densidad de incidencia, odds, etc.).
Sin embargo, el anlisis de la relacin entre las variables estudiadas es ms directo cuando se
computan medidas de asociacin. Estas medidas, basadas en la comparacin entre las
frecuencias del dao en diferentes grupos, pueden realizarse a travs de razones (razn de
prevalencias, riesgo relativo, odds ratio) o de sus diferencias (riesgo atribuible y fraccin
atribuible). Finalmente, para evaluar la posibilidad de que los resultados observados sean solo
producto del azar, la estadstica clsica aporta una serie de mtodos y pruebas que permiten
pronunciarse al respecto. Dichas pruebas computan la probabilidad de haber obtenido los datos
empricamente observados, calculada bajo el supuesto de que la hiptesis de nulidad es correcta
(la cual se denota como p). En general, la mayora de los investigadores trabajan con un nivel
de significacin del 5% (equivalentemente, con un nivel de confianza del 95%), por lo que aceptan
que existe asociacin entre las variables estudiadas cuando el valor de p es menor que 0,05.
Tanto las medidas de efecto, como las pruebas estadsticas a utilizar, dependern del diseo del
estudio de donde se han obtenido los datos, del tipo de variables y categoras consideradas y de
que se haya considerado o no ms de un estrato (una tercera variable).
Las pruebas de significacin estadstica que acompaan el anlisis basan su examen en
comparar los resultados observados con los esperados (bajo el supuesto de que no hay
asociacin). Cuanto mayor sea la diferencia entre la distribucin observada y la esperada, menos
razonable es suponer que la distribucin observada sea solo producto del azar.
El clculo de los valores esperados se realiza usando los valores marginales de la tabla,
asumiendo que la probabilidad para cada categora es la misma que la de todo el grupo y que no
existe asociacin entre las variables estudiadas.
As, en una situacin en la que se conoce que hay 300 individuos y que los valores marginales
son, por una parte, que 100 estn enfermos y 200 sanos y, por otra parte, que 60 de los 300
estuvieron expuestos a cierto factor de riesgo y 240 no, entonces los valores esperados para cada
celda pueden calcularse obteniendo el producto de los dos valores marginales de la celda y
dividindolo por el gran total. Por ejemplo, el nmero esperados de enfermos entre los
expuestos ser de 60x100/300 = 20, y el de no enfermos no expuestos: 240x200/300 = 160. El
resultado de ese cmputo de valores esperados para las celdas se muestra en la tabla siguiente.
Enfermedad
Factor de riesgo
No
Total
Expuestos
20
40
60
No expuestos
Total
80
160
240
100
200
300
En la prctica, en las tablas de 2x2 solo sera necesario calcular el valor esperado de una celda,
porque los valores de las restantes se podrn deducir del que sta asuma y de los valores
marginales. En el ejemplo, si se espera que haya 20 enfermos expuestos, los 80 enfermos
restantes sern no expuestos. Y como de los 60 expuestos solo 20 estn enfermos, los restantes 40
sern sanos. As, el valor de la celda correspondiente a los no enfermos no expuestos no puede
ser otro que 160 para completar los 200 no enfermos.
Esta dependencia e independencia de las celdas se conoce como grados de libertad y, como se vio,
en las tablas 2x2 solo hay un grado de libertad. El clculo de los grados de libertad resulta de
multiplicar el nmero de columnas menos 1 por el nmero de filas menos 1:
Grados de libertad = (n de columnas1) x (n de filas1)
Las pruebas de independencia basadas en las discrepancias entre frecuencias observadas y
esperadas slo son vlidas en el caso de muestras grandes. Si la muestra es pequea, se
recomienda utilizar mtodos exactos, como la prueba de Fisher, que calcula la probabilidad
exacta de obtener los resultados observados si las dos variables son independientes y los totales
marginales son fijos.
Finalmente, es importante considerar que para poder realizar estos clculos, las categoras de las
variables debern ser excluyentes y exhaustivas. Es decir, deber evitarse que algunas
observaciones puedan errneamente ingresar en 2 ms categoras as como que, por el
contrario, algunas observaciones no sean consideradas en categora alguna.
Este mdulo est integrado por 4 submdulos:
Tablas de asociacin: exposicinenfermedad
Tablas de 2x2
(simples y estratificadas)
Tablas de 2xN
(simples y estratificadas)
Tablas generales
Tablas de MxN
Regresin logstica
Epidat 3.0 permite una entrada manual de los datos en las tablas 2x2, 2xN y MxN, y calcular las
medidas de frecuencia, de asociacin o efecto y las pruebas especficas para cada diseo de
estudio, tipo de variables y estructura de la tabla.
En el caso de tablas 2x2, Epidat 3.0 permite, de forma opcional, sumar 0,5 a todas las frecuencias
de la tabla en el caso de que alguna de ellas sea igual a cero. Si no se activa esta opcin, el
programa slo presentar aquellos resultados que es posible computar.
Para el clculo de la regresin logstica los datos podrn ser ingresados en forma manual o
desde un archivo.
Estudio transversal
Estudio de cohortes
Para tasas de incidencia
Para incidencia acumulada
Estudio de casos y controles
Estudio de casos y controles emparejados
Estudio transversal
Los estudios transversales examinan la prevalencia de enfermedades y problemas de salud y
tambin de conocidos o potenciales factores de riesgo y/o proteccin. Se tratan bsicamente de
una imagen fotogrfica de la poblacin, o de una muestra de ella, en la que se explora, a nivel
individual y en forma simultnea, la presencia o ausencia (o niveles) de una o ms variables
independientes y de una o ms variables potencialmente dependientes de las primeras. Si bien
la imagen de una fotografa da la sensacin de que en un estudio de este tipo la informacin se
recolecta en un instante (un da o pocos das), la recoleccin de datos puede ser ms
prolongada (semanas o meses). Sin embargo, la informacin de cada individuo seguir siendo
una foto.
Entre sus mayores ventajas estn, en general, su bajo costo, su relativa facilidad de ejecucin y la
posibilidad de obtener estimaciones puntuales de las prevalencias de varias enfermedades e
informacin de varios factores potencialmente determinantes en un mismo momento. Entre sus
mayores limitaciones estn la dificultad (y con frecuencia, imposibilidad) para establecer la
relacin temporal entre lo que seran las exposiciones y los daos, la limitacin para obtener
incidencias y la vulnerabilidad a diferentes tipos de sesgos.
El formato que se usar de la tabla para el anlisis bivariado de variables dicotmicas de los
estudios transversales presentar a la variable independiente (exposicin) en las filas y la
variable dependiente (enfermedad o dao) en las columnas:
Factor de riesgo o factor de
proteccin
Enfermedad o dao
S
No
Total
Expuestos
a+b
No expuestos
c+d
a+c
b+d
a+b+c+d
Total
Medidas de frecuencia
Prevalencia de enfermedad en expuestos y no expuestos.
Prevalencia de exposicin en enfermos y no enfermos.
Medidas de asociacin
No
Total
Expuestos
58
62
120
No expuestos
22
258
280
Total
80
320
400
Enfermos
Sanos
Total
-------- -------- -------58
62
120
22
258
280
-------- -------- -------80
320
400
Prevalencia de la enfermedad
----------------------------------En expuestos
En no expuestos
Razn de prevalencias
----------------------------------
Estimacin
---------0,483333
0,078571
6,151515
----------
IC(95,0%)
--------- --------3,955011 9,567897 (Katz)
--------- ---------
Prevalencia de exposicin
----------------------------------En enfermos
En no enfermos
Razn de prevalencias
-----------------------------------
Estimacin
---------0,725000
0,193750
3,741935
----------
IC(95,0%)
--------- --------2,882081 4,858324 (Katz)
--------- ---------
OR
IC(95,0%)
--------- --------- --------10,970674 6,243768 19,276133 (Woolf)
6,264300 19,204815 (Cornfield)
Prueba Ji-cuadrado de asociacin
---------------------------------------Sin correccin
Correccin de Yates
Estadstico
Valor p
--------- --------86,0119
0,0000
83,5007
0,0000
Valor p
--------0,0000
0,0000
Prevalencia en expuestos y no expuestos. Por tratarse de estudios transversales, las frecuencias del
dao se presentan como tasas de prevalencia puntualmente estimadas. Estas tasas miden el
nmero de personas que presentaban el dao en el momento del estudio en cada grupo
(expuestos y no expuestos) en comparacin con el total de la poblacin en ambos grupos.
Si la informacin recolectada en el estudio transversal registrase la ocurrencia de una
determinada enfermedad o dao durante un perodo determinado (por ejemplo, se ha indagado:
Ha presentado al menos un episodio convulsivo en los ltimos 6 meses?), los datos obtenidos
han de interpretarse como incidencias o riesgos. Ntese que en tal caso el estudio es transversal
porque la pregunta se formula en el momento actual, pero de hecho es una pregunta que, por su
naturaleza, contempla la precedencia temporal de los acontecimientos.
En el ejemplo, la prevalencia en los expuestos fue de 48,3% (58 de las 120 mujeres con
antecedentes de dieta pobre en calcio tenan osteoporosis), en tanto entre los no expuestos la
prevalencia fue de 7,9% (22 de 280).
Razn de prevalencias. Esta razn permite comparar la prevalencia de expuestos con la de los no
expuestos. Cuando la prevalencia en expuestos es ms alta, la razn es superior a 1 y esto estara
indicando que la exposicin aumenta el riesgo de tener ese dao. Si la razn es menor que 1,
estara indicando lo opuesto (sera un factor de proteccin). Si fuera igual a 1, entonces la
prevalencia en ambos es similar, lo que sugerira que la exposicin no est relacionada con el
dao.
El intervalo de confianza de la razn de prevalencias representa un recorrido de valores dentro
del cual hay una determinada confianza (generalmente 95%) de que se encuentre el verdadero
valor de la razn.
El resultado del ejemplo muestra que la razn de las prevalencias fue de 6,15 (IC 95%:
[3,96 ; 9,57]), indicando que existira una asociacin entre el antecedente y el dao. El IC 95%
sugiere que el verdadero valor estara dentro de ese recorrido. Un enfoque a veces empleado
sugiere examinar si el valor 1 se halla dentro del intervalo o no y hacer de hecho por esa va una
prueba de significacin. En este caso, como el extremo inferior del intervalo est por arriba de 1,
se rechazara la hiptesis de que no hay asociacin y de que la que se ha observado sea solo
producto del azar.
Medidas de significacin estadstica. Finalmente, los resultados presentan las medidas de
significacin estadstica que se resumen en el valor de p, la probabilidad de haber hallado estos
resultados en el supuesto que no hay asociacin. Valores de p menores a 0,05 implican que tal
probabilidad es menor al 5%. Este valor est relacionado con la amplitud y posicin del
intervalo de confianza. Cuando ambos extremos del intervalo de confianza estn a uno u otro
lado de 1, el valor de p ser menor que 0,05, en tanto que si un extremo est por debajo de 1 y el
otro por arriba, p ser superior a 0,05. Pese a esta estrecha relacin entre ambos enfoques, para
una mejor representacin del fenmeno estudiado es recomendable considerar el intervalo de
confianza, que resulta ms informativo.
Estudio de cohortes
Los estudios de cohortes sustentan su estrategia de anlisis en el seguimiento en el tiempo de
dos o ms grupos de individuos que han sido divididos segn el grado de exposicin a un
determinado factor (corrientemente en 2 grupos: expuestos y no expuestos).
Al inicio ninguno de los individuos incluidos en ambos grupos tiene la enfermedad o dao en
estudio y el objetivo es comparar la incidencia de nuevos casos entre ambos grupos. Estas
incidencias pueden ser calculadas de dos formas:
Como nmero de casos nuevos en relacin a la poblacin que inicia la cohorte
(incidencia acumulada);
Considerando el perodo que cada individuo permaneci en el grupo (tasa de incidencia
o densidad de incidencia).
La incidencia acumulada es ms sencilla de calcular porque como denominador solo se requiere
el nmero de individuos que se incluy en cada grupo. Sin embargo, la tasa de incidencia es una
medida ms precisa, ya que considera el momento en que se producen los casos y los perodos
de seguimiento de los individuos que pueden no ser iguales para todos los sujetos. Por ejemplo,
si el dao en un grupo aparece ms tempranamente que en otro, aunque al final del perodo
ambos grupos hayan acumulado igual nmero de casos, la incidencia acumulada en ambos
grupos ser la misma, pero la tasa de incidencia en el grupo donde los casos fueron ms
prematuros ser ms elevada. De forma similar, si se decide seguir a un grupo por 4 aos y
algunos individuos abandonan el estudio al finalizar el ao 2, el peso de estos individuos en el
denominador debera ser la mitad del de aquellos individuos que s permanecieron bajo
observacin los 4 aos, ya que los restantes pudieron adquirir la enfermedad en los aos 3 y 4.
La mayor ventaja de este tipo de estudios es su capacidad analtica para aceptar o rechazar
hiptesis. Permiten estudiar incidencias y estn poco expuestos a los sesgos de seleccin. Su
mayor eficiencia se logra cuando se valoran exposiciones raras, que no podran ser estudiadas
con otro tipo de estudios, y para dolencias de cortos perodos entre el comienzo de la exposicin
y la aparicin de la enfermedad. Su mayor limitacin viene dada por sus costos, en general muy
elevados, en especial para el estudio de daos poco frecuentes o de largos perodos de latencia.
El formato de la tabla para el anlisis de los estudios de cohorte es similar a las otras tablas de
contingencia, solo que para el clculo de las tasas de incidencia se considerar el perodo,
(personastiempo):
Factor de riesgo
o factor de proteccin
Enfermedad o dao
Personastiempo
Expuestos
T1
No expuestos
T0
a+c
T=T1+T0
Total
Los resultados que Epidat 3.0 brinda son:
Medidas de frecuencia
Riesgo en expuestos y no expuestos (incidencia acumulada) o,
Tasa de incidencia en expuestos y no expuestos (densidad de incidencia).
Medidas de asociacin
Riesgo relativo o razn de las tasas de incidencia e intervalo de confianza (Katz).
Diferencia de riesgos o diferencia de tasas de incidencia e intervalo de confianza.
Fraccin atribuible o prevenible para la poblacin expuesta e intervalo de confianza.
Odds ratio e intervalo de confianza (Woolf y Cornfield), para incidencia acumulada.
Medidas de impacto
Fraccin atribuible o prevenible para la poblacin.
Medidas de significacin estadstica
Para incidencia acumulada:
Prueba Ji-cuadrado de asociacin, con y sin correccin.
Prueba exacta de Fisher y valor de p, unilateral y bilateral.
Para tasa de incidencia:
Prueba de asociacin.
Ejemplo
Para evaluar el efecto de la exposicin a asbesto sobre el riesgo de fallecer por cncer
respiratorio, un estudio compar un grupo de 6.245 trabajadores expuestos a este agente con
otro grupo de 7.895 trabajadores sin exposicin a este factor.
A lo largo de 22 aos de seguimiento, en el primer grupo se presentaron 76 defunciones por
cncer en el aparato respiratorio, en tanto que en el grupo no expuesto el nmero de
defunciones por esta causa fue 28. El tiempo total de seguimiento del grupo expuesto fue de
116.157 personas-ao, mientras que en el segundo grupo fue de 177.636.
Ingresados estos datos en las tablas se tendr:
Tabla para incidencia acumulada
Defuncin por cncer
Exposicin a asbesto
No
Total
Expuestos
76
6.169
6.245
No expuestos
28
7.867
7.895
Total
104
14.036
14.140
Defunciones
Personas-ao
Expuestos
76
116.157
No expuestos
28
177.636
Total
104
293.793
Enfermos
Sanos
Total
-------- -------- -------76
6169
6245
28
7867
7895
-------- -------- -------104
14036
14140
Estimacin
--------------------------------- ---------Riesgo en expuestos
0,012170
Riesgo en no expuestos
0,003547
Riesgo relativo
3,431431
Diferencia de riesgos
0,008623
Odds ratio
3,461385
--------------------------------- ---------Fraccin atribuible en expuestos
0,708576
Fraccin atribuible poblacional
0,517806
Prueba Ji-cuadrado de asociacin
---------------------------------------Sin correccin
Correccin de Yates
IC(95,0%)
--------- --------2,227679 5,285644 (Katz)
0,005604 0,011642
2,241395 5,345416 (Woolf)
2,248792 5,327744 (Cornfield)
--------- --------0,551102 0,810808
0,338412 0,648556
Estadstico
--------35,5135
34,3422
Valor p
--------0,0000
0,0000
10
Casos Personas-Tiempo
-------- --------------76
116157
28
177636
-------- --------------104
293793
Estimacin
---------0,000654
0,000158
4,150889
0,000497
---------0,759088
0,554718
IC(95,0%)
--------- --------2,691321 6,402016
0,000338 0,000655
--------- --------0,628435 0,843799
0,388850 0,675569
Prueba de asociacin
Estadstico Z
-------------------6,8954
Valor p
--------0,0000
11
valor obtenido para el odds ratio (3,46) es muy prximo al del riesgo relativo por tratarse de una
enfermedad rara.
La razn de las tasas de incidencia result mayor (4,15). Esta diferencia es consecuencia del
diferente tiempo en promedio de seguimiento en uno y otro grupo, y pone de manifiesto la
conveniencia de considerar esta medida y no solo el riesgo relativo.
Fraccin atribuible o prevenible entre los expuestos. Representa la fraccin del dao que podra ser
evitada entre los expuestos si se eliminara enteramente esa exposicin. Este tipo de anlisis
asume causalidad. Esto significa que, efectivamente, la exposicin es el factor responsable del
exceso de dao en el grupo de expuestos y que, por lo tanto, si no hubiera existido tal
exposicin, esa fraccin de sujetos que padecen el dao no hubiera ocurrido.
La fraccin atribuible es aplicable a un anlisis de tipo prospectivo. Responde a la pregunta
cunto dao se podr evitar si esta poblacin no se expusiera en absoluto a tal factor? Pero
cuando la exposicin de hecho existe y se pretende estimar la reduccin del dao al eliminar la
exposicin, esto es solo aplicable en caso de que la exposicin sea totalmente reversible.
Por ejemplo, si un grupo de personas tiene un exceso de riesgo por no usar cinturn de
seguridad al conducir, y se elimina la exposicin (todos comienzan a usar cinturn), mediante la
fraccin atribuible se podr estimar el monto relativo del dao que se evitar. Sin embargo, esto
no podr aplicarse al hbito de fumar porque se trata de una exposicin no reversible en un
100% (el riesgo de los nunca fumadores no es similar al de los exfumadores). En cualquier caso,
este indicador puede tener una virtualidad terica en la medida que cuantifica, supuestamente,
el peso etiolgico de determinado factor en trminos de la salud pblica.
En el caso del ejemplo, un 70,8% (IC 95%: [55,1% ; 81,1%]) del cncer en el aparato respiratorio
entre los trabajadores expuestos, podra ser atribuido al asbesto.
Fraccin atribuible o prevenible en la poblacin. Esta es una medida del impacto potencial que
tendra la eliminacin de una exposicin en toda la poblacin. Representa la fraccin del dao
total que podra ser evitada y, como en el caso anterior, se asume causalidad y solo es aplicable
para exposiciones totalmente reversibles o para la construccin de escenarios prospectivos.
Siguiendo con el ejemplo, una fraccin atribuible poblacional de 0,518 significa que un 51,8% de
los casos de cncer respiratorio en la poblacin de trabajadores, podra atribuirse a la exposicin
a asbestos.
Las medidas de significacin estadstica tienen una interpretacin similar a la de las tablas para
estudios transversales.
12
Controles
Total
Expuestos
a+b
No expuestos
c+d
Total
a+c
b+d
a+b+c+d
El odds ratio estimado (OR = (axd)/(cxb)) ser mayor cuanto mayor sea el nmero de casos
expuestos y el de controles no expuestos y menor cuanto mayor sea el nmero de casos no
expuestos y el de controles expuestos.
El nmero de controles por cada caso es variable de estudio en estudio, pero en general oscila
entre uno y tres; a lo sumo, se toman cuatro controles por cada caso. No tiene mayor inters
tomar ms de cuatro controles por caso, ya que la potencia de la prueba no crece de manera
apreciable, mientras que s lo hacen los costos. Por esta razn, excepto que se cuente con los
datos a un bajo costo, superar los 4 controles por caso no es recomendable. Por otro lado, cuando
existe un gran nmero de casos, y quizs dificultades para obtener controles, es posible tambin
disear un estudio donde la relacin caso/control sea 2 a 1 3 a 1.
Entre las principales ventajas de este tipo de diseo comparado con los estudios de seguimiento
est su eficiencia en costo y tiempo, en especial para enfermedades poco comunes y/o de largos
perodos de incubacin. Esta eficiencia deriva del hecho de que, una vez diagnosticada la
enfermedad o el evento, solo es necesario incluir en el estudio un nmero relativamente
pequeo de casos, y en especial de controles. Esto lo diferencia significativamente de los
estudios de seguimiento donde, por ejemplo en las enfermedades raras, deber seguirse la
evolucin de una enorme cantidad de individuos para obtener unos pocos casos.
Otra ventaja de los estudios de casos y controles, comparados con los de seguimiento, es la
posibilidad de estudiar varias exposiciones en forma simultnea.
La mayores desventajas de los estudios de casos y controles son, por un lado, el sesgo de seleccin
que pueda introducirse al elegir los controles y, por otro, el hecho de que a la hora de la
inclusin de los individuos en el estudio tanto las exposiciones como el dao ya han ocurrido.
Esto dificulta establecer la precisin y la similitud de criterio con que exposiciones y daos han
sido medidos en los participantes. Existe incluso el potencial problema que se presenta en los
estudios transversales, donde la secuencia exposicin-dao podra estar invertida en algunos
casos (esto es, que la exposicin se haya modificado como consecuencia del dao, o de estadios
subclnicos de la dolencia) sin que el investigador tenga la posibilidad siquiera de enterarse.
Esto hace que este tipo de estudios est particularmente expuesto a errores de clasificacin tanto
en la evaluacin de las exposiciones, como en la de los resultados.
Entre estos errores es importante destacar el sesgo del recuerdo, que surge de un recuerdo
modificado en los casos respecto de los controles y el sesgo en la recoleccin de los datos
13
(sesgo del observador) inducido por el hecho de que el observador realiza un esfuerzo diferencial a
la hora de evaluar cada sujeto en dependencia de que sea un caso o un control.
Los estudios de casos y controles no permiten estimar directamente las medidas de riesgo
dentro de cada grupo, ya que la proporcin de enfermos en el grupo de expuestos y en el de no
expuestos depender de la decisin del investigador en cuanto al nmero de casos y de
controles involucrados en el estudio. Dicho de otra manera, la muestra tpicamente no es
representativa de la poblacin en cuanto a la proporcin enfermos/no enfermos y ello cancela la
posibilidad de estimar adecuadamente las tasas de enfermos entre expuestos y de enfermos
entre los que estn libres de la exposicin.
Con el objetivo de controlar diferentes factores de confusin posibles, tales como edad,
gnero, consumo de tabaco, etc., es corriente que los casos y los controles sean emparejados
segn estas caractersticas. Cuando esto se realiza durante el anlisis, los datos pueden ser
procesados como si este emparejamiento no se hubiera realizado o, por el contrario, a travs de
una tabla especial que busca comparar las diferencias entre estos pares.
En un estudio de casos y controles, Epidat 3.0 presenta los siguientes resultados:
Medidas de frecuencia
Proporcin de casos expuestos.
Proporcin de controles expuestos.
Medidas de asociacin
Odds ratio e intervalo de confianza (Woolf y Cornfield), para incidencia acumulada.
Fraccin atribuible o prevenible para la poblacin expuesta e intervalo de confianza.
Medidas de impacto
Fraccin atribuible o prevenible para la poblacin.
Medidas de significacin estadstica
Para datos no emparejados:
Prueba Ji-cuadrado de asociacin, con y sin correccin.
Prueba exacta de Fisher y valor de p, unilateral y bilateral.
Para datos emparejados:
Prueba de asociacin de McNemar.
Ejemplo
Con el objetivo de investigar si la lactancia materna constituye un factor de proteccin para el
cncer de mama, un estudio incluy a 755 mujeres menores de 36 aos de 11 regiones sanitarias
del Reino Unido, a las que se les diagnostic cncer de mama durante el perodo 1982 a 1985.
Para cada caso se eligi un control al azar de la lista de pacientes del mismo mdico general que
asista al caso. Estos controles deban tener una diferencia de edad con los casos menor a 6
meses. Cada caso y su correspondiente control fueron entrevistados por el mismo encuestador.
Los resultaron mostraron que en el grupo de casos, 255 mujeres realizaron una lactancia plena
14
de al menos 3 meses, mientras que entre los controles este antecedente estaba presente en 487
mujeres (de los 255 controles de los casos que tuvieron una lactancia plena, 160 lactaron y 95 no,
en tanto de los 500 controles de los casos que no lactaron, 327 si lo haban hecho y 173 no).
Ingresados estos datos en las tablas, los datos quedan resumidos del modo siguiente:
Casos y controles
Casos
Controles
Exp.
No exp.
Casos
Controles
Total
Total
Exp.
255
487
742
Exp.
160
95
255
No exp.
500
268
768
No exp.
327
173
500
Total
755
755
1.510
Total
487
268
755
Casos Controles
Total
-------- -------- -------255
487
742
500
268
768
-------- -------- -------755
755
1510
Estimacin
---------0,337748
0,645033
0,280657
IC(95,0%)
--------- --------0,227028 0,346954 (Woolf)
0,227051 0,346920
---------0,719343
0,392876
(Cornfield)
Estadstico
--------142,6224
141,3956
Valor p
---------0,0000
0,0000
Valor p
--------0,0000
0,0000
15
Controles
-----------------------------Expuestos No expuestos
Total
------------ ------------ -----------160
95
255
327
173
500
------------ ------------ -----------487
268
755
Estimacin
---------0,337748
0,645033
0,290520
----------
IC(95,0%)
--------- --------0,220645 0,381744
--------- ---------
16
Caf
Casos
Controles
196
104
No
89
106
OR = 2,24
Sin embargo, al considerar un tercer factor como el tabaco y dividir los individuos del estudio en
dos estratos (fumadores y no fumadores) no parece existir relacin entre caf y cncer de
pncreas en los no fumadores y tampoco en los fumadores (OR = 1 en ambos grupos).
No fumadores
Fumadores
Caf
Casos
Controles
Casos
Controles
32
64
164
40
No
48
96
41
10
OR = 1,0
OR = 1,0
El anlisis por estratos hace evidente que el consumo de tabaco ha distorsionado la relacin
entre el consumo de caf y el cncer de pncreas. En esta relacin es el tabaco el que estara
incrementando el riesgo de cncer de pncreas, y como entre los fumadores el consumo de caf
es ms frecuente, la tabla simple mostraba una asociacin entre caf y cncer de pncreas.
El anlisis individual de cada estrato debe ser complementado con un anlisis que estime el
efecto general considerando los valores de cada estrato. El mtodo de Mantel-Haenszel es uno
17
de los mtodos disponibles ms tiles para este anlisis. La existencia de diferencias entre los
resultados de un anlisis no estratificado y uno estratificado estar mostrando que el factor por
el que se estratific ejerce un efecto de confusin en la relacin que exhiben los factores
estudiados.
Si bien es posible la estratificacin conjunta de varios factores con el objetivo de controlarlos o
ajustarlos simultneamente (varones fumadores, varones no fumadores, mujeres fumadoras,
mujeres no fumadoras), la generacin de varios estratos disminuye notablemente el tamao
muestral de cada estrato, lo que hace en extremo inestables las estimaciones realizadas al
interior de cada estrato.
Epidat 3.0 permite la realizacin de tablas 2x2 estratificadas para estudios transversales, de
cohortes (con incidencia acumulada o con tasas de incidencia), y de casos y controles.
Ejemplo
En el anlisis estratificado recin comentado, donde un estudio de casos y controles busca
analizar el efecto del consumo de caf en la incidencia de cncer de pncreas, pero considerando
el posible efecto de confusin del consumo de tabaco, los resultados del anlisis de las tablas
2x2, previa estratificacin, seran los siguientes:
Tablas de contingencia : Tablas 2x2 estratificadas
Tipo de estudio
: Caso-control
Nmero de estratos: 2
Nivel de confianza: 95,0%
Tabla global
--------------Expuestos
No expuestos
--------------Total
Casos
---------196
89
---------285
Controles
---------104
106
---------210
Total
---------300
195
---------495
OR
---------1,000000
1,000000
---------2,244598
1,000000
1,000000
IC(95,0%)
------------------0,578205
1,729490
0,461694
2,165934
------------------1,552439
3,245358
0,639586
1,563510
0,639586
1,563510
Prueba de homogeneidad
Ji-cuadrado
-----------------------Combinada (M-H)
0,0000
Ponderada
0,0000
gl
---------1
1
(Woolf)
(Woolf)
(Woolf)
Valor p
---------1,0000
1,0000
18
gl
---------1
Valor p
---------1,0000
Estos resultados incluyen una tabla global (suma de los estratos), el odds ratio e intervalo de
confianza (calculado segn el mtodo de Woolf) para cada estrato, el odds ratio de la tabla global
(odds ratio crudo) y el odds ratio combinado (mtodo de Mantel-Haenszel) y ponderado por el
mtodo del inverso de la varianza. Adems, se presentan las pruebas de homogeneidad entre
estratos y de asociacin de Mantel-Haenszel.
La diferencia entre el odds ratio crudo (2,24) y el combinado de Mantel-Haenszel (1,00) seala el
efecto de confusin que ejerce la variable por la que se estratifica.
La prueba de homogeneidad permite examinar las diferencias entre los odds ratio de los estratos.
En el caso presentado, el Ji-cuadrado es bajo y el valor de p, superior a un 5% (p>0,05), hace
pensar que no hay diferencias apreciables entre los OR en los estratos y que, por ende, los
resultados ajustados pueden considerarse para el conjunto. Un resultado que indique lo
contrario marcar la necesidad de presentar por separado los resultados de cada estrato.
Finalmente, la Prueba de asociacin de Mantel-Haenszel, con un valor de p por arriba de 0,05,
seala la falta de asociacin entre la exposicin y el dao (caf y cncer de pncreas), una vez
controlado el efecto del tabaco.
alcohol y el ndice de masa corporal, todos con relacin a la mortalidad. Una asociacin en
forma de U significa que ambos extremos en los niveles de exposicin presentan mayor
mortalidad que alguno de los valores intermedios. Los nios de bajo peso al nacer, y tambin los
de alto peso, tienen mayor mortalidad que los de peso adecuado. En estos casos se buscar usar
como referencia aquel nivel que represente la situacin de menor riesgo.
En forma adicional, se podr dar un peso a cada categora de exposicin para el clculo de la
prueba de tendencia lineal, que contrasta la hiptesis de ausencia de tendencia lineal en el
crecimiento del riesgo a medida que aumenta la exposicin. El mtodo usual para definir las
puntuaciones consiste en asignar los valores 1, 2, ..., N, respectivamente, a los N niveles; si la
exposicin est medida en escala continua, otra posibilidad es asignar a cada categora de
exposicin el punto medio del intervalo. Ms que de las puntuaciones asignadas a cada nivel, la
prueba de tendencia depende de la distancia entre los valores numricos definidos. Por ejemplo,
en el caso de 3 niveles de exposicin, la prueba produce el mismo resultado con puntuaciones 1,
2 y 3 que con 10, 20 y 30, porque en ambos casos la distancia entre valores es constante; sin
embargo, se obtendra un valor diferente si se asignan los valores 1, 10 y 100.
Cuando el resultado de esta prueba genera una p con un valor menor a 0,05 se seala una alta
posibilidad de que exista una tendencia lineal en la que a mayor exposicin aumenta el riesgo.
La modificacin de la puntuacin de cada categora permite cambiar el peso relativo de los
diferentes niveles de exposicin.
Ejemplo
En un anlisis del riesgo de morir en el primer ao de vida con relacin al peso al nacer, un
estudio de cohorte realizado en dos hospitales permiti establecer lo siguiente:
Peso al nacer
Nmero de
nacidos vivos
Defunciones
antesdel 1er ao
Tasa de mortalidad
por 1.000
Menos de 1.500 g
65
45
692,3
1.500 a 2.499 g
370
34
91,9
2.500 a 4.199 g
6.400
57
8,9
4.200 g o ms
89
89,9
Total
6.924
144
20,8
El anlisis en Epidat 3.0 de estos mismos datos en una tabla de contingencia 2xN para estudios
de cohorte (incidencia acumulada) muestra los siguientes resultados:
Tablas de contingencia : Tablas 2xN simples
Tipo de estudio
:
Tipo de datos
:
Niveles de exposicin:
Nivel de confianza
:
Cohortes
Incidencia acumulada
4
95,0%
20
Tabla
--------------Enfermos
Sanos
--------------Total
Riesgo
------0,6923
0,0919
0,0089
0,0899
Nivel de exposicin
------------------Nivel 1
Nivel 2
Ref.->
Nivel 3
Nivel 4
RR
IC(95,0%)
-------- -------------------77,7328 57,2954 105,4603 (Katz)
10,3177
6,8365 15,5714 (Katz)
1,0000
10,0926
4,9630 20,5242 (Katz)
gl Valor p
-------- -------3
0,0000
gl Valor p
-------- -------1
0,0000
En la tabla con los datos se han ingresado como enfermos a las defunciones y como sanos a los
nacidos en cada nivel de peso que sobrevivieron el primer ao. El nivel 1 representa a los que
pesaron menos de 1.500 gramos, el nivel 2 a los que pesaron de 1.500 a 2.499, el nivel 3 de 2.500 a
4.199 y el nivel 4 a los que pesaron 4.200 ms.
Luego de la tabla se presentan los riesgos (que equivalen a las tasas de la tabla anterior), y luego
el riesgo relativo y sus intervalos de confianza (IC 95%). Como se seal como nivel de
referencia al nivel 3 (peso adecuado), el RR del nivel 3 es 1, en tanto los restantes RR se deben
interpretar como exceso de riesgo en relacin a los nios que nacieron con peso adecuado.
La prueba de homogeneidad con un Ji-cuadrado muy elevado y un valor de p<0,0001, seala
que existe un riesgo distinto en los diferentes niveles de exposicin, comparados con el de
referencia.
21
Finalmente, la prueba de tendencia lineal har pensar que existe una relacin lineal en la que a
menor peso sea mayor el riesgo de morir antes del ao. Sin embargo, como el patrn de los
riesgos muestra una curva en forma de J, al eliminar el nivel de exposicin 4 (nios de alto
peso al nacer), la prueba de tendencia lineal arroja resultados an ms significativos:
Tablas de contingencia : Tablas 2xN simples
Tipo de estudio
:
Tipo de datos
:
Niveles de exposicin:
Nivel de confianza
:
Cohortes
Incidencia acumulada
3
95,0%
Tabla
--------------Enfermos
Sanos
--------------Total
Riesgo
------0,6923
0,0919
0,0089
Nivel de exposicin
------------------Nivel 1
Nivel 2
Ref.->
Nivel 3
RR
IC(95,0%)
-------- -------------------77,7328 57,2954 105,4603 (Katz)
10,3177
6,8365 15,5714 (Katz)
1,0000
-
gl Valor p
-------- -------2
0,0000
gl Valor p
-------- -------1
0,0000
22
Peso al nacer
Nmero de nacidos
vivos
Defunciones antes
del 1er ao
Tasa de mortalidad
por 1.000
Total
Total
Total
Hosp A Hosp B
Hosp A Hosp B
Hosp A Hosp B
Menos de 1.500 g
65
40
25
45
21
24
692,3
525,0
960,0
1.500 a 2.499 g
370
220
150
34
18
16
91,9
81,8
106,7
2.500 a 4.199 g
6.400
3.390
3.010
57
25
32
8,9
7,4
10,6
4.200 g o ms
89
60
29
89,9
83,3
103,4
Total
6.924
3.710
3.214
144
69
75
20,8
18,6
23,3
Cohortes
Incidencia acumulada
95,0%
4
2
Tabla global
--------------Enfermos
Sanos
--------------Total
RESULTADOS CRUDOS
Nivel de exposicin
------------------Nivel 1
Nivel 2
Ref.->
Nivel 3
Nivel 4
RR
IC(95,0%)
-------- -------------------77,7328 57,2954 105,4603 (Katz)
10,3177
6,8365 15,5714 (Katz)
1,0000
10,0926
4,9630 20,5242 (Katz)
23
RR
IC(95,0%)
-------- -------------------80,2639 59,4295 108,4022 (Mantel-Haenszel)
10,5647
6,9896 15,9685 (Mantel-Haenszel)
1,0000
10,6525
5,2134 21,7661 (Mantel-Haenszel)
gl Valor p
-------- -------1
0,0000
Los RR crudos son iguales a los del anlisis simple, ya que de hecho se calculan sin considerar
los estratos; en cambio, los RR ajustados consideran el efecto de la variable hospital (lugar de
realizacin del parto). A pesar de que los riesgos para los diferentes grupos de peso difieren
entre un hospital y otro (en el hospital B la tasa de mortalidad result ms elevada), la escasa
diferencia entre los RR crudos y ajustados de los niveles 2 y 4 seala que el riesgo que implica
nacer con un peso de 1.500 g a 2.499 g, o de 4.200 g o ms no est significativamente
influenciado por el hospital donde se produjeron los nacimientos. Sin embargo, en el caso de los
nios nacidos con menos de 1.500 g (nivel 1) la diferencia entre los RR (crudo y ajustado) estara
indicando que el lugar del parto modifica el efecto del riesgo del bajo peso. En otras palabras, las
tasas de mortalidad en el hospital B son mayores, pero en el caso particular de los nios con
muy bajo peso el riesgo de morir es mayor en el hospital B.
El resto de los resultados deben interpretarse como en el anlisis simple.
BIBLIOGRAFA
1. Breslow NE, Day NE. Statistical methods in cancer research I. The analysis of case-control studies.
Lyon: IARC; 1980.
2. Everitt BS. The analysis of contingency tables. London: Chapman and Hall; 1977.
3. Fleiss JL. Statistical methods for rates and proportions. New York: John Wiley & Sons; 1981.
4. Rothman KJ, Greelnland S. Modern epidemiology. 2nd ed. Philadelphia: Lippincott-Raven;
1998.
5. Schlesselman JJ. Cases-control studies. Design, conduct, analysis. New York: Oxford University
Press; 1982.
24
TABLAS GENERALES
TABLAS MXN
Una tabla de contingencia MxN se obtiene cuando se clasifican los individuos de una muestra
con respecto a dos variables cualitativas con M y N categoras respectivamente. Esta
clasificacin debe ser exhaustiva y mutuamente exclusiva, lo que significa que todos los
individuos puedan asignarse a una categora, y solo a una. En Epidat 3.0, el submdulo de
Tablas MxN permite analizar 2 variables nominales u ordinales en tablas de hasta 20 columnas
por 20 filas.
En general, la cuestin ms importante que se plantea ante una tabla de contingencia es si las
variables son independientes o no. Para resolver esta cuestin se han propuesto diversas
pruebas de hiptesis; las incluidas en Epidat 3.0 son: la prueba Ji-cuadrado de Pearson, la
prueba de razn de verosimilitudes y, para tablas 2x2, la prueba Ji-cuadrado con correccin de
Yates y la prueba exacta de Fisher.
La prueba Ji-cuadrado de Pearson se basa en la hiptesis de que no hay discrepancias entre las
frecuencias observadas en la tabla y las esperadas en caso de independencia o no asociacin
entre las variables. El estadstico de esta prueba sigue, aproximadamente, una distribucin
Ji-cuadrado con (M-1)x(N-1) grados de libertad. Cochran ha estudiado la validez de la
aproximacin y recomienda que slo se utilice esta prueba cuando se cumplan las siguientes
condiciones: menos de un 20% de las celdas de la tabla tienen frecuencia esperada menor que 5 y
ninguna celda tiene frecuencia esperada menor que 1.
Para tablas 2x2, existe una versin del estadstico Ji-cuadrado de Pearson que, para mejorar la
aproximacin, incorpora una correccin por continuidad, llamada correccin de Yates, pero hay
una gran discrepancia en la literatura en cuanto a la validez de este procedimiento, que muchos
autores cuestionan. Para tablas basadas en tamaos de muestra grandes, se obtienen resultados
similares con y sin correccin; y en el caso de muestras pequeas la recomendacin es utilizar
mtodos exactos, como es el caso de la prueba exacta de Fisher. Esta prueba calcula la
probabilidad exacta de obtener los resultados observados si las dos variables son independientes
y los totales marginales son fijos.
La prueba de razn de verosimilitudes es una alternativa a la prueba Ji-cuadrado para contrastar
la hiptesis nula de que las dos variables son independientes, y est basado en la teora de la
mxima verosimilitud. El estadstico de esta prueba, que sigue tambin una distribucin
Ji-cuadrado con (M-1)x(N-1) grados de libertad, se basa en comparar la probabilidad de los
datos observados con la probabilidad de los datos esperados en caso de ser cierta la hiptesis de
independencia. Por tanto, valores altos del estadstico son indicativos de asociacin entre las
variables. La distribucin del estadstico es tambin aproximada, por lo que puede no ser
apropiado si el tamao de la muestra es pequeo.
Por otra parte, Epidat 3.0 calcula varias medidas que cuantifican la intensidad de la asociacin
entre las dos variables de la tabla de contingencia. Algunas de estas medidas son vlidas en
general para variables nominales; otras son especficas de variables ordinales. En el primer caso,
se incluyen:
Coeficiente de contingencia C. Toma valores entre 0 y 1. Vale 0 en caso de independencia completa;
sin embargo, no siempre toma el valor mximo de 1, porque incluso en el caso de asociacin
completa, el valor de C depende del nmero de filas y columnas de la tabla.
25
26
ndices, igual que en el caso de la Tau de Goodman y Kruskal, uno cuando la variable
independiente es la situada en las filas y otro en el caso de que dicha variable sea la de
columnas. Estos coeficientes tambin toman valores entre -1 y 1.
Para estas medidas de asociacin con datos ordinales Epidat 3.0 presenta el error estndar y una
prueba de significacin.
Coeficiente de correlacin por rangos de Spearman. Es una medida de correlacin utilizada
habitualmente para variables ordinales. Los valores de cada una de las variables se clasifican de
menor a mayor y se calcula el coeficiente de correlacin de Pearson en base a los rangos. Los
valores del coeficiente de correlacin por rangos de Spearman varan entre 1 y 1, y un valor 0
indica que no existe ninguna relacin lineal entre las variables.
Por ltimo, en el caso de tablas 2xN con variables ordinales Epidat 3.0 realiza una prueba de
tendencia lineal, que contrasta la hiptesis de que los porcentajes, calculados para cada columna,
tienden a aumentar o disminuir a lo largo de la primera fila o, equivalentemente, de la segunda
fila.
Ejemplo 1
Para analizar si la distribucin de los motivos de consulta en 4 centros de atencin ambulatoria
peditrica eran similares, se clasificaron las consultas en 6 grupos: (1) Medicina preventiva; (2)
Infecciones respiratorias altas; (3) Otras enfermedades agudas; (4) Enfermedades crnicas; (5)
Traumatismos e intoxicaciones; y (6) Problemas sociales.
La tabla resultante fue la siguiente:
Centro de Salud
Centro A
Centro B
Centro C
Centro D
Total
1
350
120
426
267
1.163
Total
560
229
646
392
1.827
3
------65
38
34
35
------172
4
------12
6
7
5
------30
5
------23
10
45
18
------96
6
------23
12
67
18
------120
Total
------560
229
646
392
------1827
27
3
------11,61
16,59
5,26
8,93
------9,41
4
------2,14
2,62
1,08
1,28
------1,64
5
------4,11
4,37
6,97
4,59
------5,25
6
------4,11
5,24
10,37
4,59
------6,57
Total
---------100,00
100,00
100,00
100,00
---------100,00
gl Valor p
-------- -------15
0,0000
gl Valor p
-------- -------15
0,0000
0,0098
0,0156
El porcentaje de celdas con frecuencia esperada menor que 5, que se informa inmediatamente
debajo de la tabla, est vinculado a las limitaciones para la utilizacin de la prueba Ji-cuadrado
de Pearson. Estas limitaciones son:
Menos de un 20% de celdas con frecuencia esperada menor que 5.
Ninguna celda con frecuencia esperada menor que 1.
Como ninguna de estas dos condiciones est presente, puede considerarse vlido el uso de la
Ji-cuadrado de Pearson. Esta, por otra parte, indica que se puede descartar enfticamente que la
distribucin observada sea solo producto del azar. Lo que, en otras palabras, indica que existe
un patrn de distribucin de los motivos de consulta que no es el mismo en todos los centros.
De hecho, el porcentaje de motivos en la categora 6 (Problemas sociales), result mucho mayor
en el centro C que en los restantes centros.
Por su parte, los valores de los coeficientes de contingencia y de Cramer obtenidos indican una
asociacin baja entre el centro de salud y el motivo de consulta.
28
El valor 0,0156 del coeficiente Tau de Goodman y Kruskal calculado considerando la variable
Centro de salud (filas) como independiente tiene la siguiente interpretacin: conociendo el
centro donde se hizo la consulta, se reduce en un 1,56% la probabilidad de cometer un error al
predecir el motivo de la consulta (columnas). Esto significa que el centro de salud no tiene
capacidad predictiva sobre el motivo de la consulta.
Ejemplo 2
Se quiere estudiar la relacin entre la edad de las mujeres y su aceptacin de una ley sobre
interrupcin del embarazo. Para ello se ha llevado a cabo una encuesta sobre 400 mujeres cuyos
resultados se recogen en la siguiente tabla:
Baja
21
24
30
37
40
Edad
18-35
36-50
51-65
> 65
Aceptacin
Media
34
31
30
30
30
Alta
25
25
20
13
10
Dada la naturaleza ordinal de las dos variables, debe seleccionarse la opcin de Datos
ordinales en la pantalla de entrada de Epidat 3.0 Los resultados que muestra el programa son
los siguientes:
Tablas de contingencia : Tablas MxN
Nmero de filas
: 5
Nmero de columnas: 2
Filas y columnas : Ordinales
Frecuencias observadas
---------1
2
3
4
5
---------Total
1
---------21
24
30
27
40
---------142
Porcentajes (Total)
---------1
2
3
4
5
---------Total
1
---------7,07
8,08
10,10
9,09
13,47
---------47,81
2
---------34
31
30
30
30
---------155
Total
---------55
55
60
57
70
---------297
2
---------11,45
10,44
10,10
10,10
10,10
---------52,19
Total
---------18,52
18,52
20,20
19,19
23,57
---------100,00
29
gl Valor p
-------- -------4
0,2883
gl Valor p
-------- -------4
0,2855
0,0168
0,0044
Estadstico Z Valor p
------------- -------2,1144 0,0345
Tau-c de Stuart
-0,1369
0,0648
-2,1144
0,0345
-0,1712
0,0804
-2,1144
0,0345
D de Sommers
Filas/Columnas
Columnas/Filas
-0,1372
-0,0858
0,0649
0,0406
-2,1144
-2,1144
0,0345
0,0345
Estadstico t
gl
-------------- -------2,0977
295
Valor p
-------0,0368
Cuando las dos variables son ordinales, como en este ejemplo, Epidat 3.0 muestra todos los
resultados que se presentan para variables nominales, vlidos tambin en este caso y, adems,
las medidas de asociacin especficas para variables ordinales.
Las medidas nominales cuantifican el grado de asociacin, mientras que las ordinales indican
adems si la asociacin es montona en el sentido de que la clasificacin en una variable tiende a
aumentar cuando lo hace la otra (asociacin positiva) o a disminuir (asociacin negativa).
30
REGRESIN LOGSTICA
Conceptos generales
Entre los propsitos de muchas investigaciones epidemiolgicas se halla el establecimiento de
las leyes que rigen los fenmenos que se examinan. El examen se realiza tpicamente en un
marco complejo, donde la coexistencia de factores mutuamente relacionados determina el
comportamiento de otros. Para sondear o incluso desentraar la naturaleza de tales relaciones, el
investigador puede auxiliarse, entre otras alternativas, del anlisis de regresin. La regresin
logstica (RL) forma parte del conjunto de mtodos estadsticos que caen bajo tal denominacin
y es la variante que corresponde al caso en que se valora la contribucin de diferentes factores
en la ocurrencia de un evento simple.
En general, la RL es adecuada cuando la variable de respuesta es politmica (admite varias
categoras de respuesta, tales como MEJORA MUCHO, MEJORA, SE MANTIENE IGUAL,
EMPEORA, EMPEORA MUCHO), pero es especialmente til en particular cuando solo hay dos
posibles respuestas (cuando la variables de respuesta es dicotmica), que es el caso ms comn.
Tal es el caso, por ejemplo, de las siguientes situaciones: el paciente muere o sobrevive en las
primeras 48 horas de su ingreso, el organismo acepta o no un trasplante, se produjo o no un
intento suicida antes de los 60 aos, etc.) y lo que se quiere es construir un modelo que exprese
la probabilidad de ocurrencia del evento de que se trate en funcin de un conjunto de variables
independientes. La finalidad con que se construye ese modelo no es nica: bsicamente, puede
tratarse de un mero esfuerzo descriptivo de cierto proceso, puede hacerse en el contexto de la
bsqueda de explicaciones causales o puede desearse la construccin de un modelo para la
prediccin.
La RL es una de las tcnicas estadstico-inferenciales ms empleadas en la produccin cientfica
contempornea. Surge en la dcada del 60 con la aparicin del trabajo de Cornfield, Gordon y
Smith1 sobre el riesgo de padecer una enfermedad coronaria que constituye su primera aplicacin
prctica trascendente. Su generalizacin dependa de la solucin que se diera al problema de la
estimacin de los coeficientes. El algoritmo de Walker-Duncan2 para la obtencin de los
estimadores de mxima verosimilitud vino a solucionar en parte este problema, pero era de
naturaleza tal que el uso de computadoras era imprescindible.
De su amplio y creciente empleo han dado cuenta varias revisiones. Silva, Prez y Cuellar3
consignan que sta fue la tcnica estadstica ms usada entre los 1.045 artculos publicados por
American Journal of Epidemiology entre 1986 y 1990 (casi 3 de cada 10 trabajos all publicados). Levy y
Stolte4 llevaron a cabo un estudio para caracterizar la tendencia en el uso de mtodos estadsticos
surgidos recientemente (entre los 60 y los 70) y que, adems, hubieran tenido un impacto
considerable en el anlisis de datos biomdicos; entre ellos figura la regresin logstica. Las propias
American Journal of Public Health y American Journal of Epidemiology han puesto de manifiesto que la
tendencia en el uso de la RL fue creciente en los artculos de ambas revistas. El porcentaje de
31
artculos publicados en la dcada de los 70 que hicieron uso de este recurso fue 0,7%; ya en los 80,
ascendi espectacularmente a 17,0% y a lo largo de la dcada de los 90 alcanz 28,1%.
En MEDLINE, base de datos que contiene referencias bibliogrficas y resmenes de 4.500 revistas
biomdicas de la literatura de habla inglesa, usando PUBMED se encontr que el crecimiento en los
ltimos cinco aos ha sido sostenido: los resmenes publicados que hacen mencin del trmino
logistic regression son para 1997, 1998, 1999, 2000 y 2001, respectivamente, los siguientes: 3.394, 3.654,
3.972, 4.397 y 5.218.
Regresin logstica para datos tabulados. Epidat 3.0 se ocupa del anlisis de datos tabulados; la
regresin logstica es el nico mtodo de regresin que puede emplearse legtimamente con datos
recogidos en tablas de contingencia (vase Silva5). Este hecho, unido al intenso empleo
contemporneo de este recurso, determin que la presente versin de Epidat incluyera la tcnica de
RL, para lo cual se emple el algoritmo sugerido por Jones6.
Debe enfatizarse, sin embargo, que con frecuencia los datos disponibles no son susceptibles de ser
recogidos en una tabla de contingencia por involucrar variables continuas, en cuyo caso ha de
emplearse un programa que contemple esta posibilidad. Por otra parte, al emplear la RL, como
ocurre en rigor con cualquier otra tcnica estadstica, se debe ser cauteloso. Si bien el modelo no
tiene restricciones en cuanto a la distribucin de las variables independientes (eso es lo que hace
posible, precisamente, que se pueda emplear con datos tabulados), para que el anlisis tenga
sentido pleno, debe aplicarse con fines predictivos solo en los estudios prospectivos, cuando se
tenga certeza de que los acontecimientos registrados por las variables independientes ocurrieron
antes que los desenlaces. Por otra parte, si se emplea para el tratamiento de estudios retrospectivos
(estudios de casos y controles), entonces debe tenerse en cuenta que no se puede emplear el modelo
para hacer predicciones.
La variable de respuesta se codificar siempre como 1 si el evento se produce, y como 0 en caso
opuesto. Cada variable independiente se codificar como 1, 2, , k, donde k es el nmero de
categoras que contiene. Si hay r variables independientes con k1, k2, ..., kr categoras respectivamente, se tendrn en total 2k1k2...kr configuraciones posibles; para cada una de ellas hay que
consignar el nmero de sujetos de la muestra que se encuadran en dicha configuracin (la
frecuencia). En Epidat 3.0, el nmero mximo de variables independientes es 10.
Variables dummy. Las variables explicativas de tipo nominal con ms de dos categoras deben
ser incluidas en el modelo definiendo variables dummy. Epidat 3.0 permite indicar que una
variable independiente sea tratada de este modo y, en tal caso, construye automticamente las
dummy correspondientes.
Brevemente dicho, el sentido de las variables dummy es el siguiente: supngase que cierta
variable es nominal (raza, religin profesada, grupo sanguneo, etc.) y consta de k categoras; deben
crearse entonces k-1 variables dicotmicas que son las llamadas variables dummy asociadas a esta
variable nominal. Se denotarn por Z1, Z2, ..., Zk-1. A cada categora o clase de la variable nominal le
corresponde un conjunto de valores de los Zi con el cual se identifica dicha clase.
La manera ms usual de definir estas k-1 variables es la siguiente: si el sujeto pertenece a la primera
categora, entonces las k-1 variables dummy valen 0: se tiene Z1= Z2= ...= Zk-1; si el sujeto se halla en
la segunda categora, entonces Z1=1 y las restantes valen 0; Z2 vale 1 solo para aquellos individuos
que estn en la tercera categora, en cuyo caso las otras variables asumen el valor 0, y as
sucesivamente hasta llegar a ltima categora, para la cual Zk-1 es la nica que vale 1.
32
Si la variable nominal de inters es el grupo sanguneo, la cual tiene k=4 categoras (sangre tipo O,
tipo A, tipo B y tipo AB); en este caso se tendran los siguientes valores de las variables dummy para
cada grupo sanguneo:
Variable nominal
(grupo sanguneo)
Z1
Z2
Z3
O
A
B
AB
0
1
0
0
0
0
1
0
0
0
0
1
En cualquier caso, si se ajusta un modelo que incluya una variable nominal con k clases, sta
debe ser sustituida por las k-1 variables dummy, y a cada una de ellas corresponder su
respectivo coeficiente.
Como se ilustra ms adelante, una de las razones que confiere especial inters a la regresin
logstica consiste en que suple en buena medida al anlisis basado en la estratificacin. Al igual
que el anlisis estratificado, la RL permite la evaluacin y control del efecto de confusin, as
como evaluar y describir el de interaccin.
Bondad de ajuste del modelo. Siempre que se ajusta un modelo de regresin, de cualquier tipo,
una precaucin importante a los efectos de sacar conclusiones es la de corroborar que este
modelo se ajusta efectivamente a los datos usados. La RL no es una excepcin. Epidat 3.0
permite evaluar la calidad del ajuste del modelo estimado mediante el test de bondad de ajuste
de Hosmer y Lemeshow7. El estadstico que ellos proponen se calcula definiendo 10 grupos
mediante los deciles de las probabilidades predichas por el modelo, y comparando las
frecuencias observadas en dichos grupos con las esperadas.
Es bien conocido que, en el contexto de la regresin lineal mltiple, se suele emplear el llamado
coeficiente de determinacin (R2) para cuantificar mediante una nica medida, con cotas
interpretables, el grado de explicacin de la variabilidad de la variable de respuesta
conseguido con el modelo por parte de las variables independientes. Varias sugerencias se han
hecho para obtener algo similar en el marco de la RL. Sin embargo, no hay una opinin unnime
sobre cul podra ser la mejor. Epidat 3.0 ha incorporado una, preferida por Mittlbck y
Schemper8 (quienes examinan 12 posibles mediciones) a la que se denomina aqu, anlogamente,
coeficiente de determinacin. R2 es un nmero que se halla necesariamente entre 0 y 1. Alcanza el
valor 1 cuando el vaticinio es perfecto (esto quiere decir, que R2 alcanzara el valor mximo solo
si el modelo atribuyera probabilidad 1 a aquellos sujetos de la muestra que efectivamente
tuvieron el evento, y valores iguales a 0 a quienes no lo tuvieron) y R2 se aproxima a 0 en la
medida que las probabilidades atribuidas por el modelo disten ms, respectivamente, de 1 y 0.
Cabe advertir, no obstante, que este coeficiente no mide la bondad del ajuste (un concepto
diferente al de variabilidad explicada por el modelo), la cual debe valorarse a travs de las
pruebas especficamente diseadas con ese fin (en particular, la prueba de Hosmer y
Lemeshow).
Cociente de verosimilitud. Para que un modelo sea considerado adecuado, ste debe atribuir una
alta probabilidad de enfermar a aquellos sujetos para los cuales Y=1 (o sea, a los que padecen la
33
muestra tengan la condicin que realmente tienen. Si se llama Pi a la probabilidad estimada por
el modelo de que el i-simo sujeto tenga la condicin, se puede computar la expresin siguiente:
V = P1 P2 L Pd (1 Pd+1 ) (1 Pd+2 ) L (1 Pn )
d sujetos con
la condicin
n d sujetos sin la
condicin
conocida como la verosimilitud del modelo. Un modelo completamente exitoso, el cual atribuya una
probabilidad de enfermar igual a 1 a cada sujeto enfermo y de 0 a cada sujeto libre de la
enfermedad, tendra una verosimilitud mxima de 1; por el contrario, un modelo relativamente no
exitoso tendra una verosimilitud pequea. En consecuencia, la proximidad de la verosimilitud a 1
expresa cun eficiente ha sido este recurso para modelar la realidad.
Debido a que la funcin de verosimilitud mide la plausibilidad de un modelo de regresin
logstica, no debe sorprender que para valorar su capacidad predictiva sea central la consideracin
de la verosimilitud; es decir, de la magnitud V antes introducida; concretamente, se suele emplear
la expresin:
L=-2ln V
A esta transformacin se le conoce como lejana del modelo (o deviance en ingls). Ntese que,
siendo V<1, su logaritmo siempre ser negativo; de modo que la lejana L siempre ser un nmero
positivo. El grado de ajuste de un modelo es mejor cuanto ms prxima a 1 es la verosimilitud y, en
consecuencia, cuanto ms se aproxima a cero la lejana.
Siempre que se ajusta un modelo, el algoritmo de la regresin logstica computa dos lejanas: la que
corresponde propiamente al modelo que se ha ajustado (L), y la que corresponde al modelo nulo
(L0) que es aquel en que no se ha incorporado ninguna variable independiente.
La lejana del modelo nulo es ms grande que la de cualquier modelo ampliado. Esto es razonable
debido a que se trata de un modelo mucho menos sofisticado y debe necesariamente tener una falta
de ajuste mayor. La diferencia entre estas lejanas mide el aporte que hacen las variables
incorporadas al modelo. Es decir, para valorar dicho aporte se puede calcular el cociente o razn de
verosimilitudes:
V
RV = L 0 L = 2 ln V0 + 2 ln V = 2(ln V0 ln V ) = 2 ln 0
V
que se distribuye Ji-cuadrado con k grados de libertad, donde k es el nmero de variables presentes
en el modelo ampliado.
En general, esta razn de verosimilitudes es til, en fin, para determinar si hay una diferencia
significativa entre incluir en el modelo todas las variables y no incluir ninguna; o, dicho de otro
34
modo: RV sirve para evaluar si las variables X1, X2, ..., Xk tomadas en conjunto, contribuyen
efectivamente a "explicar" las modificaciones que se producen en P(Y=1).
Curva ROC. En un contexto predictivo debe seleccionarse el mejor modelo entre todos los
posibles. El rea bajo la curva ROC es una forma de comparar diferentes modelos, ya que da una
medida de la capacidad predictiva de los mismos. Cuanto mayor sea esa rea, ms eficiente es el
modelo. Para un modelo concreto, la curva ROC se construye del modo siguiente:
Las probabilidades predichas por el modelo permiten, definiendo un punto de corte, clasificar a
los sujetos en dos grupos: los que presentan el evento (respuesta 1) y los que no lo presentan
(respuesta 0). Desde esta perspectiva, puede considerarse el modelo de regresin logstica como
una prueba diagnstica cuantitativa, para la que es posible calcular la sensibilidad (porcentaje
de sujetos con el evento que son clasificados correctamente por el modelo) y la especificidad
(porcentaje de sujetos sin el evento que son clasificados correctamente por el modelo). La curva
ROC se obtiene representando, en un cuadrado de lado 1, los valores de 1-especificidad frente a
sensibilidad para todos los posibles puntos de corte en las probabilidades predichas.
La curva empieza en el punto (0,0), que corresponde al punto de corte 1, y termina en (1,1) que
se obtiene al considerar el 0 como punto de corte. Si el modelo tiene capacidad predictiva nula,
la curva coincide con la diagonal principal del cuadrado, y el rea bajo la curva toma su valor
mnimo de 0,5. Por el contrario, un modelo perfecto tiene una curva ROC con rea 1.
Nota: En los modelos mltiples puede ser interesante incorporar la interaccin
entre dos variables explicativas; esto significa que la influencia de una
variable sobre la respuesta puede ser diferente en funcin de los valores
que tome otra variable incluida en el modelo. Epidat 3.0 no contempla
la posibilidad de definir interacciones de forma automtica, pero esta
posibilidad se puede encarar por parte del usuario definiendo
previamente el producto de las dos variables cuya interaccin se desea
evaluar, e incluyndola en el modelo como una explicativa ms. Sin
embargo, si al menos una de las variables cuya interaccin se quiere
valorar se fuera a tratar como dummy, entonces no se debe emplear para
dicha variable la construccin automtica de variables dummy que
realiza Epidat 3.0 (ya que producira un resultado errneo). En tal caso,
las variables dummy han de ser construidas por el usuario y ste ha de
incorporar a la tabla de contingencia k-1 productos (los de dichas
variables dummy por la otra variable considerada en la interaccin).
Vase el ejemplo 1 para comprender mejor este problema.
Naturalmente, esta idea puede extenderse a ms variables. Podran
incorporarse trminos que involucren a tres o ms de ellas. Una regla
general que se ha dado es que, si en un ajuste se incluye un trmino de
cierto orden, se incluyan entonces todos los de orden inferior.
Ejemplo 1
Supngase que se quiere modelar a travs de la RL la relacin entre el hecho de tener
anticuerpos a cierto VIRUS (variable de respuesta: 1-SI, 0-NO) y dos variables independientes:
ZONA DE RESIDENCIA (con 4 categoras: 1-NORTE, 2-SUR, 3-ESTE y 4-OESTE) y FACTOR
35
ZONA
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
RH
1
1
1
1
2
2
2
2
1
1
1
1
2
2
2
2
FRECUENCIA
445
729
32
242
464
757
67
284
463
772
82
290
483
789
90
316
Al realizar el ajuste con VIRUS en funcin de ZONA y RH, se declara ZONA como dummy, y se
obtiene lo siguiente:
Tablas de contingencia : Regresin logstica
Archivo de trabajo: C:\Archivos de programa \Epidat 3.0 \Ejemplos \Tablas de
contingencia\VIRUS.xls
Campo que identifica:
Variable respuesta: VIRUS
Frecuencias: FRECUENCIA
Variables explicativas: ZONA RH
Nivel de confianza:
Variable
Valor
----0
1
----Total
95,0%
respuesta:
N sujetos
---------3020
3285
---------6305
Variables Dummy:
ZONA
Categora ZONA-1
--------- -----1
0
2
1
3
0
4
0
ZONA-2
-----0
0
1
0
ZONA-3
-----0
0
0
1
36
Coeficiente
----------0,108645
0,009200
0,515650
0,102583
-0,045509
Variable
-----------ZONA-1
ZONA-2
ZONA-3
RH
Odds ratio
---------1,009243
1,674727
1,108029
0,955511
0,0028
S.E.
---------
Valor de Z
----------
Valor p
-------
0,058917
0,134489
0,075566
0,050541
0,156153
3,834145
1,357522
-0,900438
0,8759
0,0001
0,1746
0,3679
IC(95,0%)
-------------------0,899177
1,132781
1,286669
2,179824
0,955496
1,284912
0,865395
1,055010
Respuesta = 0
Valor observado Valor esperado
--------------- -------------464
469,33
757
762,63
445
439,67
729
723,37
284
281,99
242
244,01
99
99,00
Ji-cuadrado
----------0,4693
g.l. Valor p
---- ------5 0,9932
Respuesta = 1
Valor observado Valor esperado
--------------- -------------483
477,67
789
783,37
463
468,33
772
777,63
316
318,01
290
287,99
172
172,00
37
CURVA ROC
Area ROC
---------0,5180
EE
---------0,0071
0,0073
IC(95%)
------------------------0,5040
0,5319
0,5037
0,5322
Delong
Hanley & McNeil
Ahora bien, si Ud. quiere que el modelo contemple la interaccin (INTER) entre ZONA y RH,
debe incluir como una variable ms el producto de estas dos ltimas. Si ZONA fuera una
variable cuantitativa (como nmero de hijos) u ordinal (como una escala de satisfaccin) la tabla
que habra que crear sera la siguiente:
VIRUS
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
ZONA
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
RH
1
1
1
1
2
2
2
2
1
1
1
1
2
2
2
2
INTER
1
2
3
4
2
4
6
8
1
2
3
4
2
4
6
8
FRECUENCIA
445
729
32
242
464
757
67
284
463
772
82
290
483
789
90
316
38
Nota: Advirtase que, en este caso, la variable INTER no se codifica con valores
1, 2, 3, ..., sino que es simplemente el producto de las otras dos.
Sin embargo, puesto que ZONA ha de tratarse a travs de las variables dummy, esto sera
incorrecto en este caso. Pero para hacer el ajuste incorporando la interaccin de ZONA y RH, no
se debe indicar a Epidat que maneje la ZONA a travs de variables dummy, sino que deben
construirse las 3 variables dummy previamente y luego los tres productos procedentes de stas
con RH. La tabla de contingencia sera como sigue:
VIRUS
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
Z1
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
Z2
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
Z3
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
RH
1
1
1
1
2
2
2
2
1
1
1
1
2
2
2
2
Z1-RH
0
1
0
0
0
2
0
0
0
1
0
0
0
2
0
0
Z2-RH
0
0
1
0
0
0
2
0
0
0
1
0
0
0
2
0
Z3-RH
0
0
0
1
0
0
0
2
0
0
0
1
0
0
0
2
FRECUENCIA
445
729
32
242
464
757
67
284
463
772
82
290
483
789
90
316
El archivo VIRUS1.xls, que se incluye en el paquete de Epidat 3.0, contiene esta tabla de
contingencia.
Al realizar el ajuste se obtiene lo siguiente:
Tablas de contingencia : Regresin logstica
Archivo de trabajo: C:\Archivos de programa \Epidat 3.0 \Ejemplos \Tablas de
contingencia\VIRUS1.xls
Campo que identifica:
Variable respuesta: VIRUS
Frecuencias: FRECUENCIA
Variables explicativas: Z1 Z2 Z3 RH Z1-RH Z2-RH Z3-RH
Nivel de confianza:
95,0%
Variable respuesta:
Valor
N sujetos
-------------0
3020
1
3285
-------------Total
6305
La sucesin de estimadores ha convergido
39
N iteraciones necesarias: 3
-2 ln Verosimilitud inicial: 8729,444680
-2 ln Verosimilitud final : 8705,834318
Cociente de verosimilitud
Estadstico
g.l. Valor p
-------------- ------23,6104
7 0,0013
Coeficiente de determinacin:
Variable
-----------Constante
Z1
Z2
Z3
RH
Z1-RH
Z2-RH
Z3-RH
Coeficiente
----------0,039173
0,034045
1,546052
0,215945
0,000479
-0,016387
-0,645534
-0,074655
Variable
-----------Z1
Z2
Z3
RH
Z1-RH
Z2-RH
Z3-RH
Odds ratio
---------1,034631
4,692907
1,241034
1,000479
0,983746
0,524383
0,928064
0,0036
S.E.
---------
Valor de Z
----------
Valor p
-------
0,187378
0,470753
0,242614
0,092912
0,117848
0,279461
0,151323
0,181693
3,284208
0,890078
0,005159
-0,139053
-2,309920
-0,493344
0,8558
0,0010
0,3734
0,9959
0,8894
0,0209
0,6218
IC(95,0%)
-------------------0,716621
1,493763
1,865245 11,807229
0,771384
1,996626
0,833915
1,200314
0,780856
1,239354
0,303229
0,906831
0,689876
1,248489
Respuesta = 0
Valor observado Valor esperado
--------------- -------------445
445,00
464
464,00
757
757,00
729
729,00
284
284,00
242
242,00
99
99,02
Ji-cuadrado
----------0,0000
g.l. Valor p
---- ------5 1,0000
Respuesta = 1
Valor observado Valor esperado
--------------- -------------463
463,00
483
483,00
789
789,00
772
772,00
316
316,00
290
290,00
172
171,98
Ejemplo 2
40
Supngase que se evala la satisfaccin con la atencin primaria de 1.027 personas mediante la
variable SATISF (0- Satisfecho, 1- Insatisfecho) y que la probabilidad de estar insatisfecho se
quiere poner en funcin de r=3 variables, a saber:
RAZA, con k1 = 3 categoras: 1- Negro, 2- Blanco, 3- Mestizo
GNERO, con k 2 = 2 categoras: 1- Hombre, 2- Mujer
EDAD, con k 3 = 2 categoras: 1- Adulto, 2- Anciano
Entonces, se tendrn 2322=24 configuraciones y hay que informar, por tanto, las respectivas
frecuencias. Esto quiere decir que hay que teclear los datos de una tabla de contingencia de 4
entradas, o prepararla de antemano en EXCEL, Dbase o ACCESS para que el programa la lea
automticamente:
SATISF
RAZA
GENERO
EDAD
FREQ
109
19
54
14
90
44
13
84
42
13
54
27
45
20
211
33
97
21
El archivo SATISF.xls que se incluye en este paquete de programas contiene la tabla con los datos
de este ejemplo. Puesto que la variable RAZA no es ordinal, es razonable plantear que sea
41
manejada como una variable dummy. Sin embargo, no es menester hacerlo en la tabla de entrada
sino que ello se menciona entre las entradas manuales cualquiera sea la va de comunicar los
datos.
Al aplicar el programa a los datos precedentes se obtiene:
Tablas de contingencia : Regresin logstica
Archivo de trabajo: C:\Archivos de programa \Epidat 3.0 \Ejemplos \Tablas de
contingencia \SATISF.xls
Campo que identifica:
Variable respuesta: SATISF
Frecuencias: FREQ
Variables explicativas: RAZA GENERO EDAD
Nivel de confianza:
Variable
Valor
----0
1
----Total
95,0%
respuesta:
N sujetos
---------496
531
---------1027
Variables Dummy:
RAZA
Categora RAZA-1
--------- -----1
0
2
1
3
0
RAZA-2
-----0
0
1
Coeficiente
-----------0,545640
-0,061063
1,618271
-0,128420
0,012738
Odds ratio
----------
0,1522
S.E.
---------
Valor de Z
----------
Valor p
-------
0,189369
-0,322453
0,158472
10,211732
0,143426
-0,895378
0,193605
0,065795
IC(95,0%)
--------------------
0,7471
0,0000
0,3706
0,9475
42
RAZA-1
RAZA-2
GENERO
EDAD
0,940764
5,044360
0,879484
1,012820
0,649066
3,697556
0,663963
0,693003
1,363554
6,881728
1,164963
1,480231
Respuesta = 0
Valor observado Valor esperado
--------------- -------------111
113,12
104
105,26
117
114,21
19
18,39
42
42,25
97
92,10
6
10,72
Ji-cuadrado
----------3,6689
g.l. Valor p
---- ------5 0,5980
Respuesta = 1
Valor observado Valor esperado
--------------- -------------52
49,88
52
50,74
56
58,79
9
9,61
97
96,75
232
236,90
33
28,28
CURVA ROC
Area ROC
---------0,7032
EE
---------0,0161
0,0161
IC(95%)
------------------------0,6717
0,7347
0,6717
0,7347
Delong
Hanley & McNeil
Ejemplo 3
43
S (1)
No (0)
Nuevo (1)
37
Convencional (0)
14
22
OR=0,30
Si a partir de los datos brutos se estima el efecto del rgimen de atencin de enfermera sobre el
hecho de desarrollar una infeccin, el odds ratio resultante es de 0,30 (procedente de computar la
llamada razn de productos cruzados (722)/(1437).
Considrese, adems, que se quiere evaluar si la edad del paciente (se nombrar EDAD a esta
variable) constituye una variable de confusin en la relacin que pudiera existir entre el rgimen
organizativo y el hecho de desarrollar una infeccin.
Est claro que la variable EDAD cumple con los tres criterios convencionalmente admitidos (De
Irala, Martnez y Guilln9) para ser considerada como variable de confusin. Primero, el riesgo de
infeccin aumenta con la edad. Segundo la proporcin de pacientes mayores de 40 aos es mayor
en el grupo que recibi el rgimen de atencin convencional. Por ltimo, es inverosmil creer que el
efecto protector del rgimen de intervencin sobre el hecho de desarrollar una infeccin se
produzca a travs de la edad.
Para valorarlo, los datos se dividen en dos categoras de edad (menores e iguales o mayores de 40
aos). En este caso, se codifica la variable del modo siguiente: EDAD=1 si el sujeto es menor de 40
aos y EDAD=2 si no lo es, lo que produce la configuracin que recoge la Tabla 2. Los estimados
del odds ratio en las dos categoras son de 0,41 y 0,36 respectivamente.
Un mtodo usual para valorar una confusin consiste en comparar de forma directa el estimado
bruto del efecto y el estimado de ste una vez controlado el presunto factor de confusin. Para ello
se debe obtener una estimacin del efecto global a partir de los datos estratificados, mediante una
media ponderada de las estimaciones de los efectos por estrato.
44
Infeccin
Edad<40 (1)
Edad40 (2)
S (1)
No (0)
22
15
12
13
OR1=0,41
OR2=0,36
Retomando nuevamente el ejemplo, ser posible que el odds ratio total de 0,30 refleje, en alguna
dimensin, el efecto confusor que pudiera tener la edad en la relacin entre el rgimen de atencin
de enfermera y la infeccin?
Dentro de cada categora o estrato formado por los dos grupos de edad (menores de 40 y no
menores de 40) se puede calcular el odds ratio como nica medida de la asociacin entre el rgimen
y la infeccin. Una medida nica global se obtiene como un promedio ponderado de los odds ratio
dentro de los estratos. Esto es exactamente lo que provee el odds ratio de Mantel Haenszel que, en
este caso, como puede corroborarse a travs del anlisis de tablas 2x2 estratificadas en este mismo
mdulo, arroja el valor 0,37.
Al usar el submdulo de regresin logstica hay que teclear los datos de una tabla de contingencia
de 3 entradas con 8 celdas, o prepararla en EXCEL, Dbase o ACCESS para que el programa la lea
automticamente segn la siguiente estructura:
INFEC
0
0
0
0
1
1
1
1
REGIMEN
0
0
1
1
0
0
1
1
EDAD
1
2
1
2
1
2
1
2
FREQ
9
13
22
15
2
12
2
5
El archivo CADERA.xls que se incluye en este paquete de programas contiene la tabla arriba
expuesta. Al emplear el programa, el usuario puede elegir cuntas y cules variables
independientes incorporar al modelo. A continuacin se exponen los resultados que se obtienen
cuando se pone una sola variable (REGIMEN), y luego los que se producen cuando se adiciona
la variable EDAD.
Coeficiente
-----------0,451473
-1,210425
Variable
-----------REGIMEN
Odds ratio
---------0,298071
S.E.
---------
Valor de Z
----------
Valor p
-------
0,535158
-2,261807
0,0237
IC(95,0%)
-------------------0,104422
0,850838
Coeficiente
-----------2,759493
-0,974758
1,332184
Variable
-----------REGIMEN
EDAD
Odds ratio
---------0,377284
3,789310
S.E.
---------
Valor de Z
----------
Valor p
-------
0,554901
0,622533
-1,756635
2,139941
0,0790
0,0324
IC(95,0%)
-------------------0,127156
1,119438
1,118560 12,836931
Varias cosas procede subrayar a partir de los tres ejemplos desarrollados. Sucintamente, cabe
llamar la atencin sobre las siguientes:
a) El anlisis de la RL suple al anlisis estratificado. Ntese que, en el caso de los
pacientes operados de la cadera, el odds ratio (0,298) coincide con la razn de productos
cruzados correspondiente a la Tabla 1. El intervalo de confianza que produce la RL
[0,10 ; 0,85] es tambin coincidente con el que se obtiene mediante el anlisis no
paramtrico que arroja el anlisis hecho a travs de tablas de 2x2 incluido en otro
submdulo del presente mdulo. Por otra parte, el OR=0,377 que se obtiene a travs del
exponencial del coeficiente que corresponde a REGIMEN en el modelo que incluye las
46
dos variables independientes, no es otra cosa que la estimacin de Mantel Haenszel (lo
mismo ocurre con el intervalo de confianza).
b) La valoracin sobre el posible papel confusor de un factor se desarrolla de manera
gil. Basta correr el modelo con y sin el factor y comparar los coeficientes de la variable
independiente. En el ejemplo de los operados de la cadera, se compara 0,298 con 0,377 lo
cual permite pensar que s hay efecto confusor. El OR correspondiente a REGIMEN tiene,
en el primer caso, un intervalo de confianza que no contiene al 1 (significativo al nivel
0,05) mientras que el que se obtiene cuando se controla la edad s lo contiene (pierde la
significacin).
c) El ajuste suele ser bueno. El resultado que se ha obtenido en estos ejemplos, donde los
valores esperados y observados son muy parecidos, es tpico.
d) Si el contexto del problema es predictivo, la probabilidad del suceso para un perfil de
entrada dado ha de computarse independientemente empleando los coeficientes
estimados. Por ejemplo, en el Ejemplo 1, si se quiere saber cul es la probabilidad de que
un sujeto est insatisfecho, hay que aplicar la frmula siguiente:
P ( SATISF = 1) =
1
1 + exp( 0 1 RAZA1 2 RAZA2 3 GENERO 4 EDAD)
donde:
P(SATISF = 1) = 0,853
Para un hombre blanco de menos de 40 aos, el perfil de entrada sera: RAZA1 = 1 ,
Recomendaciones
Las variables explicativas deben tener una relacin montona con la probabilidad del
evento que se estudia.
Las variables independientes involucradas en el modelo no deben estar correlacionadas
entre s. Si la correlacin entre dos variables es alta, entonces los resultados de la RL son
poco confiables. Concretamente, los errores estndares se incrementan apreciablemente y
suele ocurrir que los coeficientes no son significativamente diferentes de cero, aunque la
aportacin global de las variables s lo sea.
Debe recordarse que el conjunto de variables dummy constituye un todo indisoluble con
el cual se suple a una variable nominal. Cualquier decisin que se adopte o valoracin
que se haga concierne al conjunto ntegro.
47
BIBLIOGRAFA
1. Cornfield J, Gordon T, Smith WN. Quantal response curves for experimentally uncontroled
variables. Bulletin of the International Statistical Institute 1961; 38: 97-115.
2. Walker SH, Duncan DB. Estimation of the probability of an event as a function of several
independent variables. Biometrika 1967; S4: 167-79.
3. Silva LC, Prez C, Cuellar I. Uso de la estadstica en la investigacin de salud contempornea.
Gac Sanit 1994; 9(48): 189-95.
4. Levy PS, Stolte K. Statistical methods in public health and epidemiology: a look at the recent
past and projections for the next decade. Stat Methods Med Res 2000; 9: 41-55.
5. Silva LC. Excursin a la regresin logstica en ciencias de la salud. Madrid: Daz de Santos; 1995.
6. Jones RH. Probability estimation using a multinomial logistic function. Journal of Statistical
and Computer Simulation 1975; 3: 315-29.
7. Hosmer DW Jr, Lemeshow S. Applied Logistic Regression. New York: John Wiley & Sons; 1989.
8. Mittlbck M, Schemper M. Explained variation for logistic regression. Stat Med 1996; 15:
1987-97.
9. De Irala J, Martnez MA, Guilln F. Qu es una variable de confusin? Med Clin (Barc) 2001;
117: 377-85.
48
Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.
Alternative Proxies: