Libro Categoricos
Libro Categoricos
Libro Categoricos
2005
ii
Prefacio
iii
iv
Índice general
I Elementos Básicos XI
1. Introducción 1
1.1. Categorización de variables continuas . . . . . . . . . . . . . . . . 3
1.2. Tipos de Estudios . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Retrospectivo o Caso-Control . . . . . . . . . . . . . . . . 3
1.2.2. Prospectivo . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3. Transversales . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.4. Programas de Computador para Datos Cualitativos . . . 4
1.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. Lanzamiento de un par de dados . . . . . . . . . . . . . . 4
1.3.2. Ejemplo de niños zurdos . . . . . . . . . . . . . . . . . . . 5
1.3.3. Homicidios de niños en Medellı́n . . . . . . . . . . . . . . 5
1.3.4. Ejemplo sobre Tipo de Sangre . . . . . . . . . . . . . . . 5
1.3.5. Datos sobre accidentalidad vial . . . . . . . . . . . . . . . 8
1.3.6. Ejemplo sobre Accidentalidad Laboral . . . . . . . . . . . 9
1.3.7. Ejemplo sobre rendimiento académico . . . . . . . . . . . 9
1.3.8. Ejemplo sobre salubridad . . . . . . . . . . . . . . . . . . 10
1.3.9. Otro ejemplo de salubridad . . . . . . . . . . . . . . . . . 11
1.3.10. Ejemplo sobre colegios en Antioquia . . . . . . . . . . . . 11
1.4. Razones y proporciones . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1. Razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2. Proporción . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5. Funciones en R para Datos Cualitativos . . . . . . . . . . . . . . 13
1.5.1. Funciones para manipular tablas . . . . . . . . . . . . . . 13
1.5.2. Funciones para Probar Bondad de Ajuste . . . . . . . . . 19
1.6. Análisis Exploratorio de una Tabla . . . . . . . . . . . . . . . . . 21
2. Herramientas Asintóticas 25
2.1. El T.C.L. y la Distribución Multinomial . . . . . . . . . . . . . . 27
2.2. Distribución Asintótica de la Producto Multinomial . . . . . . . 27
v
vi ÍNDICE GENERAL
3. Tablas Unidimensionales 29
3.1. Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.1. Pruebas de hipótesis con respecto a π . . . . . . . . . . . 30
3.1.2. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . 30
3.2. Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . 35
3.2.3. Qué hacer cuando hay celdas con cero observaciones? . . 37
3.2.4. Entropı́a como mediada de polarización en la multinomial 38
3.2.5. Tamaño muestral . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.6. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . 38
3.3. Ajustes a la prueba G2 . . . . . . . . . . . . . . . . . . . . . . . . 40
4. Tablas Bidimensionales 43
4.1. Esquemas de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.1. Esquemas de Muestreo para Tablas 2 × 2 . . . . . . . . . 44
4.2. La Prueba χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . 48
4.2.1. la Prueba Chi-cuadrado para Bondad de Ajuste . . . . . . 50
4.2.2. Limitaciones de la Prueba Chi-cuadrado . . . . . . . . . . 50
4.2.3. La Corrección por Continuidad de Yates . . . . . . . . . . 51
4.2.4. Esquemas de Muestreo para Tablas I × J . . . . . . . . . 51
4.3. Tamaños Muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 51
5. Medidas de Asociación 53
5.1. Medidas de Asociación en Tablas 2 × 2 . . . . . . . . . . . . . . . 53
5.1.1. Medidas basadas en la χ2 de Pearson . . . . . . . . . . . 53
5.1.2. El Estadı́stico G2 . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.3. El Q de Yule . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.1.4. Prueba de Simetrı́a de McNemar . . . . . . . . . . . . . . 56
5.2. La Razón de Odds . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.1. Problema con celdas con ceros . . . . . . . . . . . . . . . 58
5.2.2. Propiedades de la razón de odds . . . . . . . . . . . . . . 59
5.2.3. Distribución asintótica de la Razón de Odds:
Esquema de muestreo multinomial . . . . . . . . . . . . . 59
5.2.4. Intervalo de confianza aproximado para ψ:
Esquema de muestreo Producto Binomial . . . . . . . . . 61
5.2.5. Programa en R para calcular la razón de odds . . . . . . 63
5.3. Riesgo Relativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.3.1. Riesgo Atribuı́ble . . . . . . . . . . . . . . . . . . . . . . . 69
5.3.2. Método Delta Aplicado al Logit Muestral . . . . . . . . . 71
5.4. Ejemplo usando el PROC FREQ del SAS . . . . . . . . . . . . . 72
5.4.1. Medidas de Concordancia . . . . . . . . . . . . . . . . . . 75
5.4.2. Sensibilidad, Especificidad y Valor Predictivo . . . . . . . 78
5.5. Medidas de Asociación en Tablas Bidimensionales I × J . . . . . 81
5.5.1. Pruebas de Asociación . . . . . . . . . . . . . . . . . . . . 81
5.5.2. Prueba de Simetrı́a de McNemar . . . . . . . . . . . . . . 89
ÍNDICE GENERAL vii
7. Tablas Multidimensionales 97
7.1. La Paradoja de Simpson . . . . . . . . . . . . . . . . . . . . . . . 97
7.1.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.2. Prueba de Homogenidad de Simon o de Woolf . . . . . . . . . . . 98
7.3. Estimador y Prueba de Mantel-Haenzel . . . . . . . . . . . . . . 99
VI Anexos 259
15.Resultados Asintóticos 261
15.1. Distribuciones Muestrales de los MLE . . . . . . . . . . . . . . . 261
15.2. Modelos Loglineales . . . . . . . . . . . . . . . . . . . . . . . . . 262
15.3. Modelos de Independencia para tablas Bidimensionales . . . . . . 264
15.4. Tablas de Contingencia y Modelos Loglineales . . . . . . . . . . . 265
15.4.1. Estadı́stico de la razón de verosimilitud (Deviance) . . . . 269
15.4.2. El método de Newton-Raphson . . . . . . . . . . . . . . . 269
15.5. Elementos Básicos de Inferencia . . . . . . . . . . . . . . . . . . . 270
15.5.1. Teorema de Rao-Blackwell . . . . . . . . . . . . . . . . . . 270
15.5.2. Teorema de Lehmann-Scheffé . . . . . . . . . . . . . . . . 271
15.5.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . 273
15.5.4. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 274
15.5.5. Pruebas Condicionales . . . . . . . . . . . . . . . . . . . . 275
15.6. Estimación por el Método de Máxima Verosimilitud . . . . . . . 276
15.6.1. Distribución Multinomial MN(N, π) . . . . . . . . . . . . 278
15.6.2. Distribución Producto Multinomial P M (n+ , π) . . . . . . 281
15.6.3. Distribución Producto Poisson P P (µ) . . . . . . . . . . . 282
15.7. Apéndice A: Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . 283
15.8. Apéndice B: Datos . . . . . . . . . . . . . . . . . . . . . . . . . . 284
15.8.1. Datos sobre rendimiento académico . . . . . . . . . . . . . 284
15.8.2. Datos sobre mortalidad en Antioquia . . . . . . . . . . . . 286
15.8.3. Datos sobre las Elecciones de 1994 . . . . . . . . . . . . . 291
15.8.4. REGRESION POISSON . . . . . . . . . . . . . . . . . . . 292
15.9. Apéndice C: Estimación por Máxima Verosimilitud . . . . . . . . 293
15.10.Métodos de Estimación . . . . . . . . . . . . . . . . . . . . . . . 297
15.11.Estimación por Mı́nimos Cuadrados ponderados (WLSE) . . . . 297
15.12.Estimación Mı́nimo χ2 (MCE) . . . . . . . . . . . . . . . . . . . 298
15.13.Estimación Mı́nimo χ2 Modificada DE θ DADO Z (MMCE) . . 298
15.13.1.Distribución Multinomial M N (N, π) . . . . . . . . . . . . 299
15.13.2.Distribución Producto Multinomial . . . . . . . . . . . . . 299
15.13.3.Distribución Poisson P P (µ) . . . . . . . . . . . . . . . . . 299
15.14.Pruebas Asintóticas de Bondad de Ajuste . . . . . . . . . . . . . 300
15.14.1.Prueba χ2 de la razón de verosimilitud . . . . . . . . . . . 300
16.Referencias 303
x ÍNDICE GENERAL
Parte I
Elementos Básicos
xi
Capı́tulo 1
Introducción
Variable continua Una variable decimos que es continua si puede tomar cual-
quier valor en un intervalo de la recta real. Ejemplos de estas variables
son la estatura de una persona, el peso de un objeto, la edad exacta de
alguien, etc. En teorı́a las probabilidades para estas variables se calculan
para intervalos y la probabilidad de un valor particular es cero.
1
2 CAPÍTULO 1. INTRODUCCIÓN
En forma esquemática
Continua
Discreta
Variable
Nominal
Categórica
Ordinal
Las relaciones entre varias variables categóricas se estudian mediante el análi-
sis de tablas de frecuencia o conteos. Algunos de los objetivos de los análisis son:
1.2.2. Prospectivo
En este tipo de estudios podemos considerar los Ensayos Clı́nicos, donde
los objetos se asignan aleatoriamente a los experimentos y los de cohorte, donde
se hace un seguimiento a través del tiempo a un grupe interés. La pregunta a
responderserı́a : Quépasará?
1.2.3. Transversales
La pregunta serı́a: Qué está pasando? Los estudios de caso-control y los
de cohorte son llamados observacionales. Los ensayos clı́nicos son experimenta-
les. Tablas tı́picas con datos transversales son las presentadas en los anuarios
estadı́sticos.
4 CAPÍTULO 1. INTRODUCCIÓN
1.3. Ejemplos
Es muy fácil encontrar ejemplos reales de tablas de contigencia ya que apa-
recen con frecuencia tanto en revistas como en periódicos. A continuación pre-
sentamos ejemplos de tablas de contingencia.
Resultado 2 3 4 5 6 7 8 9 10 11 12
Frecuencia 4 8 10 11 22 14 22 18 10 5 6
Nos podemos preguntar si con los datos anteriores podrı́amos jugar tranquila-
mente este juego de parqués, o sea si los dados son buenos o están cargados.
Si el par de dados fueran perfectos, entonces el modelo teórico serı́a el que
aparece en la siguiente tabla:
Resultado 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
Probabilidad 36 36 36 36 36 36 36 36 36 36 36
Resultado 2 3 4 5 6 7 8 9 10 11 12
Esperada 3.61 7.22 10.83 14.44 18.06 21.67 18.06 14.44 10.83 7.22 3.61
1 El Apéndice A presenta una extensa introducción al sistema SAS, que recomendamos sea
Grupo Edad Sexo 1990 1991 1992 1993 1994 1995 1996 1997
0 M 2 2 2 5 2 0 7 6
F 1 2 0 3 1 2 2 4
1-4 M 1 5 7 6 2 2 3 1
F 0 1 1 3 2 0 1 2
5-14 M 62 107 107 83 75 52 74 56
F 9 24 19 25 12 13 12 17
15-17 M 911 1129 538 577 525 521 411 352
F 42 73 38 41 41 29 36 26
Fuente: El Colombiano, Junio 7 de 1998.
La tabla anterior produce una profunda tristeza.
38 serán O positivo
7 serán O negativo
34 serán A positivo
6 serán A negativo
8 serán B positivo
2 serán B negativo
4 serán AB positivo
1 será AB negativo
Esta tabla nos debe permitir cotejar las informaciones que poseemos.
8 CAPÍTULO 1. INTRODUCCIÓN
Parte Afectada
Edad Sexo Tiempo en el Oficio M. Inferior M. Superior Otra
Menor de Masculino Menos de un año 537 913 860
30 Años Uno a 4 años 186 449 338
Cinco o más años 34 69 65
Femenino Menos de un año 43 140 37
Uno a 4 año 22 109 41
Cinco o más años 11 20 8
30 a Masculino Menos de un año 352 567 544
39 años Uno a 4 años 162 375 278
Cinco o más años 115 226 183
Femenino Menos de un año 28 129 24
Uno a 4 años 34 102 39
Cinco o más años 38 83 32
40 o Masculino Menos de un año 179 300 262
más años Uno a 4 años 76 181 157
Cinco o más años 109 273 199
Femenino Menos de un año 19 51 27
Uno a 4 años 16 64 20
Cinco o más años 56 132 54
Institucion Resultado
Vivos Muertos
Oficial 4757 430
Privado 5148 464
Fuente: Revista de Planeación Metropolitana,
Medellı́n, Vol. 2, No. 5, pp212, 1992
Area Metropolitana
Jornada Mañana Unificada
Tipo Alto Medio Bajo Alto Medio Bajo
Femenino 19 17 14 8 2 5
Masculino 5 4 6 5 3 0
Mixto 10 15 43 9 5 26
Jornada Tarde Noche
Tipo Alto Medio Bajo Alto Medio Bajo
Femenino 1 4 9 0 0 0
Masculino 2 3 5 0 1 0
Mixto 4 7 51 0 1 45
Otra Area Diferente de la Metropolitana
Jornada Mañana Unificada
Tipo Alto Medio Bajo Alto Medio Bajo
Femenino 0 1 1 1 2 7
Masculino 1 0 2 1 3 6
Mixto 0 4 46 2 12 108
Jornada Tarde Noche
Tipo Alto Medio Bajo Alto Medio Bajo
Femenino 0 0 0 0 0 0
Masculino 0 0 0 0 0 1
Mixto 1 1 23 0 1 34
Fuente: Antioquia 1995. Estudios Descriptivos
Doc. No. 5, S.N.P. 115, ICFES, 1996.
12 CAPÍTULO 1. INTRODUCCIÓN
1.4.1. Razón
Razón
Una razón es utilizada para comparar las frecuencias de dos clases mu-
tuamente excluyentes. Un ejemplo es el ı́ndice de masculinidad en una
población o cohorte que se define como
Número de hombres
Número de mujeres
P (A)
P (B)
Indice
1.4.2. Proporción
La proporción es una clase especial de razón en la cual el numerador es
el tamaño (en un sentido general) una parte del conjunto utilizado en el
denominador, o sea,
a
p=
a+b
donde a es el tamaño de un conjunto A y a + b es el tamaño del conjunto
AB.
>edad<-c(22,31,37,23,22,35,23,19,42,35,33,36,18)
>cut(edad,breaks=3)
[1] 1 2 3 1 1 3 1 1 3 3 2 3 1
attr(,"levels"):
[1] "17.76+ thru 25.92" "25.92+ thru 34.08" "34.08+ thru 42.24"
>cut(edad,pretty(edad))
[1] "15+ thru 20" "20+ thru 25" "25+ thru 30" "30+ thru 35"
[5] "35+ thru 40" "40+ thru 45"
14 CAPÍTULO 1. INTRODUCCIÓN
>edad<-c(22,31,37,23,22,35,23,19,42,35,33,36,18)
> table(cut(edad,breaks=3))
> sexo<-factor(c(1,2,1,2,2,1,1,1,2,2,1,1,2),labels=c(’Mujer’,’Hombre’))
> table(cut(edad,breaks=3),sexo)
sexo
Mujer Hombre
(18,26] 3 3
(26,34] 1 1
(34,42] 3 2
>
rownames()
colnames()
> partos.dat<-array(c(4757,5148,430,464),c(2,2))
> partos.dat
[,1] [,2]
[1,] 4757 430
[2,] 5148 464
> rownames(partos.dat)<-c(’Oficial’,’Privado’)
> colnames(partos.dat)<-c(’Vivos’,’Muertos’)
> partos.dat
Vivos Muertos
Oficial 4757 430
Privado 5148 464
1 50 1 1 1 0 48 3 1 1 28 2
1 62 2 1 1 0 59 2 0 1 38 5
1 44 2 1 1 0 44 2 0 1 22 3
1 44 3 1 0 0 23 2 1 0 1 1
1 33 2 1 1 0 37 2 1 1 5 1
...
Si queremos crear una tabla que cruce la escolaridad del hombre vs.
la escolaridad de la mujer entonces el comando será:
> ftable(parejas[,c(3,8)])
ESCOLM 1 2 3
ESCOLH
1 17 8 3
2 5 32 15
3 0 24 45
>
Una tabla más compleja surge cuando cruzamos las variables CA-
SARH, CASARM, ESCOLH, ESCOLM.
> ftable(parejas[,c(5,10,3,8)])
ESCOLM 1 2 3
CASARH CASARM ESCOLH
0 0 1 1 0 0
2 0 2 1
3 0 2 7
1 1 2 1 0
2 1 1 0
3 0 2 5
1 0 1 6 3 1
2 1 4 3
3 0 2 5
1 1 8 4 2
2 3 25 11
3 0 18 28
>
0 0 5 2 6
1 5 1 6
1 0 7 5 13
1 28 15 54
>
> ftable(cut(parejas[,11],breaks=c(0,5,10,100)),parejas[,5],parejas[,10])
1.5. FUNCIONES EN R PARA DATOS CUALITATIVOS 17
0 1
(0,5] 0 5 5
1 7 28
(5,10] 0 2 1
1 5 15
(10,100] 0 6 6
1 13 54
>
> tabulate(c(2,3,5))
[1] 0 1 1 0 1
> tabulate(c(2,3,3,5), nb = 10)
[1] 0 1 2 0 1 0 0 0 0 0
>
> levels(as.factor(parejas[,5]))
[1] "0" "1"
>
> binom.test(42,100,p=0.50)$p.value
[1] 0.1109183
> binom.test(42,100,p=0.50,alt=’’l’’)$p.value
[1] 0.06660531
> binom.test(42,100,p=0.50,alt=’’g’’)$p.value
[1] 0.955687
> prop.test(45,100,conf.level=.9)$conf.int
[1] 0.3657761 0.5370170
attr(,"conf.level"):
[1] 0.9
>chisq.test(datos.dat)
data: datos.dat
X-squared = 3.8451, df = 2, p-value = 0.1462
donde
x Un vector de valores.
y Puede ser un vector de valores o el nombre de una distribución.
alternative ”two.sided”(default), ”less”, o ”greater”.
exact Un valor lógico que indica si se debe calcular un valor p exacto.
Solo funciona en la prueba bilateral.
prop.test(x, n, p = NULL,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95, correct = TRUE)
woolf.test(x)
donde x es un arreglo 2 × 2 × k.
rhyper(nn, m, n, k)
que originó los datos podemos utilizar funciones de los valores de la tabla que
nos den un mejor entendimiento del problema. Para ilustrar esto consideremos
la tabla que aparece a continuación y que hace referencia a los resultados de
un examen parcial de estadı́stica I. Este examen se realizó bajo la metodologı́a
de selección múltiple. Para controlar el fraude se tenı́an dos temas, los cuales
contenı́an las mismas preguntas pero en orden diferente. Además el examen se
le aplicó simultáneamente a tres grupos diferentes.
Resultado
Ganó Perdió
Grupo Tema A Tema B Tema A Tema B
1 20 15 8 7
2 15 17 5 4
3 16 16 3 4
> resultados<-array(c(20,15,8,7,15,17,5,4,16,16,3,4),dim=c(2,2,3))
> resultados
, , 1
[,1] [,2]
[1,] 20 8
[2,] 15 7
, , 2
[,1] [,2]
[1,] 15 5
[2,] 17 4
, , 3
[,1] [,2]
[1,] 16 3
[2,] 16 4
Ganó Perdió
Tema A 20 8
Tema B 15 7
, , 2
Ganó Perdió
Tema A 15 5
Tema B 17 4
, , 3
Ganó Perdió
Tema A 16 3
Tema B 16 4
>
> apply(resultados,3,sum)
[1] 50 41 39
> apply(resultados,c(1,2),sum)
Ganó Perdió
Tema A 51 16
Tema B 48 15
> apply(resultados,c(1),sum)
Tema A Tema B
67 63
> apply(resultados,c(2,3),sum)
[,1] [,2] [,3]
Ganó 35 32 32
Perdió 15 9 7
1. Entienda el problema:
a) Es la situación observacional?
b) Es experimental?
2. Realice un análisis preliminar de la o las tablas: calcule porcentajes, ra-
zones entre porcentajes, mire cuáles combinaciones de celdas tienen cero
observaciones, etc. Escriba un reporte inicial detallando los resultados de
esta parte y sus sospechas y hallazgos. No omita detalle.
3. Determine cuáles variables son respuesta y cuáles son los factores.
4. Seleccione un modelo preliminar.
5. Estime el modelo.
6. Refine el modelo.
7. Evalúe el modelo.
8. Escriba el reporte definitivo.
Capı́tulo 2
Herramientas Asintóticas
Xn − µn D
→ N (0, 1)
σn
{µn } y σn2 son sucesiones de constantes.
No es necesario que µn y σn2 sean la media y la varianza de Xn , ni aún que
Xn posea tales momentos.
Resultado 1 Si Xn es AN µn , σn2 , entonces también Xn es AN µ̃n , σ̃n2 , si
y sólo si
σ̃n2
→ 1y
σn2
µ̃n − µn
→ 0
σn
Resultado 2 Si Xn es AN µn , σn2 , entonces también an Xn +bn es AN µn , σn2 ,
si y sólo si
an → 1y
µn (an − 1) − bn
→ 0
σn
25
26 CAPÍTULO 2. HERRAMIENTAS ASINTÓTICAS
√
n−1 n−1
Ejemplo 2.1 Si Xn es AN (n, 2n) entonces n Xn es AN pero √
n
Xn no lo
es.
Teorema 2.1 Suponga que Xn es AN µ, σn2 con σn → 0. Sea g una fun-
ciónde valor ral diferenciable
en X = µ con g 0 (µ) =
6 0. Entonces g (Xn ) es
0 2 2
AN g(µ), [g (µ)] σn
0
Teorema 2.2 Suponga que X n = (Xn1 , Xn2 , · · · , Xnk ) es AN µ, b2n Σ con
0
Σ matriz de covarianzas y bn → 0. Sea g(x) = (g1 (x), g2 (x), · · · , gm (x), ) ,
0
donde x = (x1 , x2 , · · · , xk ) , una función con argumento un vector y donde cada
componente es una función de valor real y tiene un diferencial no cero gi (µ; t),
0
x = (t1 , t2 , · · · , tk ) , en x = µ. Haga
∂gi
D= |x=µ
∂xj m×k
esto es
X̄ n ∼ AN (µ, Σ)
Σ1 + · · · + Σn
→ Σ, n→∞
n
y que
n Z
1X 2
kx − µi k dFi (x) → 0, n → ∞, ∀ > 0
n i=1 kx−µi k>√n
Entonces
n n
!
1X 1X 1
X i ∼ AN µ, Σ
n i=1 n i=1 i n
2.1. EL T.C.L. Y LA DISTRIBUCIÓN MULTINOMIAL 27
Cada vector Xi puede está compuesto de ceros y un uno que nos indica a
cuál categorı́a pertence el iésimo elemento de la muestra. Su matriz de varianzas
y covarianzas es
π1 (1 − π1 ) −π1 π2 ··· −π1 πR
−π1 π2 π2 (1 − π2 ) · · · −π2 πR
ΣX =
.. .. ..
. . .
−π1 πR −π2 πR · · · πR (1 − πR )
Σ1 0 ··· 0
0 Σ2 ··· 0
ΣSR×SR =
.. .. .. ..
. . . .
0 0 · · · ΣS
Capı́tulo 3
Tablas Unidimensionales
29
30 CAPÍTULO 3. TABLAS UNIDIMENSIONALES
Hallemos l00 (π) para poder hallar la varianza asintótica del estimador π̂.
Pn Pn
∂ 2 l(π) i=1 xi n − i=1 xi
l00 (π) = = − −
∂π 2 π2 (1 − π)2
La varianza asintótica es −E[(l00 (π))]−1 .
Pn Pn −1
xi n − i=1 xi π(1 − π)
var(π̂) = −E − i=1 − =
π2 (1 − π)2 n
Métodos Aproximados
Basado en el Teorema Central del Lı́mite Este es el intervalo propuesto
en la mayorı́a de textos básicos en estadı́stica (Canavos, 1988; Wonnacott y
Wonnacott, 1979; Roussas, 1973; Walpole, 1992; Meyer, 1986; Mood et al., 1974)
r r !
π̂(1 − π̂) π̂(1 − π̂)
π̂ − zα/2 , π̂ + zα/2
n n
L(θ)
R(θ) =
L(θ̂)
Zurdos 136
Diestros 340
Intervalo.proporcion
<-function(exitos,fracasos,nivel=0.95){
alfa<-1-nivel
y<-exitos
n<-exitos+fracasos
LI<-1/(1+(n-y+1)/(y*qf(alfa/2,2*y,2*(n-y+1))))
LS<-1/(1+(n-y)/((y+1)*qf(1-alfa/2,2*(y+1),2*(n-y))))
list(LI=LI,LS=LS)
}
> Intervalo.proporcion(136,340)
$LI
[1] 0.2455206
$LS
[1] 0.3285939
>
Se puede por tanto decir que el porcentaje de niños zurdos está entre el 24.5 %
y el 32.8 %. Este dato puede ser de utilidad para personas que diseñan muebles
o para los encargados de compras de sillas universitarias, ya que de 100 sillas
al menos 24 deben ser para zurdos.
3.2.1. Estimación
Asumamos que X1 , X2 , · · · ,P Xn es una muestra aleatoria de una multinomial
k
M (1, (π1 , π2 , · · · , πk )0 ) donde i=1 πi = 1. Cada Xi es un vector con ceros y
con un único uno en la posición correspondiente a la categorı́a que pertenece la
observación.
π1
π2
.
E(Xi ) =
.
.
πk
π1 (1 − π1 ) −π1 π2 ··· −π1 πk
−π2 π1 π2 (1 − π2 ) · · · −π2 π b
var(Xi ) = Σ =
.. .. .. ..
. . . .
−πk π1 −πk π2 · · · πk (1 − πk )
La función de verosimilitud será:
n!
L(π1 , π2 , · · · , πk ) = π n1 π n2 · · · πknk
n1 !n2 ! · · · nk ! 1 2
donde
Pn i es el número de observaciones que pertenecen a la i-ésima categorı́a y
n
n = i=1 ni .
El log de la verosimilitud será
X k
n!
l = log(L(π1 , π2 , · · · , πk )) = log + ni log(πi )
n1 !n2 ! · · · nk ! i=1
∂l∗ n1
= +λ
∂π1 π1
∂l∗ n2
= +λ
∂π2 π2
.. .. ..
. . .
∂l∗ n1
= +λ
∂πk πk
k
∂l∗ X
= πi − 1
∂λ i=1
3.2. MODELO MULTINOMIAL 35
Método de Goodman
LIi = 2
2(n + z(α i /2)
)
y
q
n−ni
2 2
z(αi /2)
+ 2ni + zαi /2 z(αi /2)
+ 4ni n
LSi = 2
2(n + z(αi /2)
)
Bootstrap
El método bootstrap proporciona una manera directa y sencilla para hallar
intervalos simultáneos para los parámetros de la distribución multinomial. Para
hallarlos se procede ası́:
1. A partir de la muestra estime los parámetros por máxima verosimilitud.
ni
π̂i = i = 1, 2, · · · , k
n
2. Genere M muestras de tamaño n de una distribución multinomial con
parámetros π̂1 , π̂2 , · · · , π̂k . Para cada muestra estime los parámetros
π1 , π2 , · · · , πk , digamos que para la muestra j los estimadores son π̂1j , π̂2j , · · · , π̂kj
n oM
3. Para cada π̂ij , construya un histograma y calcule los percentiles
j=1
.025/(k-1) y 0.975/(k-1), denotémoslos por π̂i0,025 y π̂i0,975
Ejemplo 3.2 Los tipos de sangre La tabla presenta los datos sobre el tipo de
sangre presentados en el capı́tulo I sobre una muestra de personas de la región
central y oriental de Antioquia
Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
π̂i 0.60000000 0.31139241 0.01392405 0.07468354
Intervalos simultáneos: TCL
Lim. Inf. 0.556465534 0.270242626 0.003511297 0.051322879
Lim. Sup. 0.64353447 0.35254218 0.02433680 0.09804421
Intervalos simultáneos: Quesenberry y Hurst
Lim. Inf. 0.53763946 0.25675391 0.00505438 0.04795771
Lim. Sup. 0.65927993 0.37184116 0.03776781 0.11451171
Intervalos simultáneos Bootstrap
Lim. Inf. 0.5509415 0.2746835 0.005063291 0.05094146
Lim. Sup. 0.6414636 0.3518987 0.026582278 0.09842563
Intervalos simultáneos: Sison y Glaz
Lim. Inf. 0.5658 0.2772 0.0000 0.0405
Lim. Sup. 0.6363 0.3477 0.0502 0.1109
Intervalos simultáneos: Sison y Glaz II
Lim. Inf. 0.5646 0.2759 -0.0215 0.0392
Lim. Sup. 0.6354 0.3465 0.0494 0.1101
− ln(α)
n
Dado que estamos bajo el caso multinomial y podemos tener más de una
categorı́a con cero observaciones, esta cota la podemos modificar a
− ln(α/k)
n
L(π1∗ , · · · , πk∗ )
n! ∗n1 ∗n2
n1 !n2 !···nk ! π1 π2 · · · πk∗nk
R(π1 , · · · , πk ) = = n! n 1 n2 nk
L(π1 , · · · , πk ) n1 !n2 !···nk ! π1 π2 · · · πk
Lo cual se reduce a
n1 n 2 nk
π1∗ π2∗ πk∗
R(π1 , · · · , πk ) = ···
π1 π2 πk
Ejemplo 3.3 (Los tipos de sangre) El periódico El Tiempo (Abril 2 del 2000)
presentó una tabla con los porcentajes de los diferentes tipos de sangre en la po-
blación.
La siguiente tabla presenta los datos sobre el tipo de sangre en una muestra
de personas de la región central y oriental de Antioquia
Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
π̂i 0.60000000 0.31139241 0.01392405 0.07468354
La siguiente función en R nos permite realizar los cálculos:
prueba.multinomial
<-function(observado,prob.teoricas){
if(length(observado)!=length(prob.teoricas))stop(’Longitudes diferentes!’)
observado<-ifelse(observado==0,0.5,observado)
G2<--2*sum(observado*log(prob.teoricas/(observado/sum(observado))))
gl<-length(observado)-1
valor.p<-1-pchisq(G2,gl)
list(G2=G2,valor.p=valor.p)
}
> prueba.multinomial(c(474,246,11,59),c(0.577,0.292,0.091,0.021))
$G2
[1] 177.1022
40 CAPÍTULO 3. TABLAS UNIDIMENSIONALES
$valor.p
[1] 0
>
Los resultados anteriores nos llevan a creer que la distribución presentada
en el periódico no es correcta.
Ejemplo 3.4 (Sobre los resultados del juego de dados) En un juego de
parqués se registraron los resultados del lanzamiento de un par de dados 130
veces. A partir de estos resultados quiere uno ver si los dados son conjuntamente
buenos.
Resultado 2 3 4 5 6 7 8 9 10 11 12
Frecuencia 4 8 10 11 22 14 22 18 10 5 6
La hipótesis a verificar es la que la suma de los dos dados tiene una distri-
bución producida por un par de dados justos:
Resultado 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
Probabilidad esperada 36 36 36 36 36 36 36 36 36 36 36
> prueba.multinomial(c(4,8,10,11,22,14,22,18,10,5,6),
+ c(1,2,3,4,5,6,5,4,3,2,1)/36)
$G2
[1] 8.75751
$valor.p
[1] 0.555261
K
!
2
1 X 1
E G = K −1+ −1
6N π
i=1 i
K
! K
!
1 X 1 1 1 X 1
+ − 2 +O + 3
6N 2 i=1 πi π N i=1 πi3
K
!
2 X 1
V ar G2
= 2(K − 1) + −1
3N i=1 πi
K
! K
!
4 X 1 1 1 X 1
+ − 2 +O + 3
3N 2 i=1 πi π N i=1 πi3
G2
G2M ejorado =
q
donde q ha sido definido de varias formas. Dos soluciones que Smith et al.
exponen son una debida a Williams
K
!
1 X 1
q =1+ −1
6N (K − 1) i=1 πi
µ
µ(M − µ) − σ 2
a = 2
Mσ
a(M − µ)
b =
µ
42 CAPÍTULO 3. TABLAS UNIDIMENSIONALES
Tablas Bidimensionales
“Una dama declara que catando una taza de té con leche, puede
distinguir si la leche o la infusión de té fué vertida primero en la taza.
Consideremos el problema de diseñar un experimento por medio del
cual este aserto puede ser testado. Con este propósito permı́tasenos
primero formular un experimento de forma simple con miras a es-
tudiar sus limitaciones y sus caracterı́sticas: aquellas que aparecen
como fundamentales para el método experimental, cuando está bien
desarrollado y las que no son esenciales sino auxiliares.
Nuestro experimento consiste en mezclar ocho tazas de té cuatro
en una forma y cuatro en la otra, y presentarlas ordenadas al azar al
sujeto que debe juzgarlas. El sujeto ha sido informado de antemano
en qué consistirá el test, a saber: que se le pedirá que cate ocho
tazas, que éstas serán cuatro de cada clase, y que le serán presentadas
ordenadas al azar, que es un orden no determinado arbitrariamente
por elección humana, sino por la manipulación actual de los aparatos
fı́sicos usados en juegos de azar, cartas, dados, ruletas, etc., o, más
43
44 CAPÍTULO 4. TABLAS BIDIMENSIONALES
Clasificación II
1 2 Total
Clasificación I 1 a b k1 = a + b
2 c d k2 = c + d
Total n1 = a + c n2 = b + d N
n1 n2 k1 k2
a b a c
PHo (A = a) = =
N N
k1 n1
P (A ≤ aα1 ) ≤ α1
palabra exacta cuando se habla de la Prueba Exacta de Fisher. Como D’Agostino et al. (1988)
notan, esta prueba es muy conservadora y tiene una potencia muy pobre comparada con la
chi-cuadrada.
46 CAPÍTULO 4. TABLAS BIDIMENSIONALES
Decisión
Té Leche
Lo que primero Té 3 1
se colocó Leche 1 3
data: data.te
p-value = 0.4857
alternative hypothesis: two.sided
Ho : π1 = π2 = (π)
Bajo Ho tenemos,
n1 n2
P (A = a, B = b) = π a+b (1 − π)N −(a+b)
a b
P (A ≥ aα | A + B = a + b) ≤ α
Esta es una prueba condicional con nivel α. Coincide con la prueba de una
cola de Fisher-Irwin, tomando a + b = k1 . Tal prueba condicional con nivel α
para todo posible valor de a+b se puede aceptar como una prueba incondicional
de nivel α.
N!
P (A = a, B = b, C = c) = πa πb πc πd
a!b!c!d! 11 12 21 22
donde d = N − a − b − c y πij es la probabilidad de la (i, j)-ésima celda,
i, j = 1, 2.
La hipótesis de interés corriente es
n n
donde Oij y Eij = i+N +j son los valores observados y esperados, respec-
tivamente, en la (i,j)-ésima celda, ni+ es el total de la i-ésima fila, n+j es el
total de la j-ésima columna y N es el total. Denotamos f = (n − 1)(m − 1).
En aplicaciones para probar independencia usualmente asumimos que χ2 ∼ χ2f ,
suponiendo que los valores esperados en las celdas no sean muy pequeños. Este
ha sido un tema de discusión y sobre el cual no hay reglas precisas ya que la
prueba es asintótica. Roscoe y Byars (1971) dicen:
2N N2
var(χ2 ) = (ν − σ)(µ − τ ) + στ
N −3 N −1
donde
(N − n)(n − 1) (N − m)(m − 1)
ν = ,µ=
N −1 N −1
P P
n −1 n2 m −1 m2
i=1 ni+ − N N j=1 n+j − N N
σ = ,τ=
N −2 N −2
si este valor de la varianza es menor que 2f use la aproximación χ2 para
obtener una prueba conservadora.
iii) Si la var(χ2 ) es mayor que 2f o si la prueba conservadora es inadecuada,
utilice una aproximación gamma basada en los dos primeros momentos de la χ2
si α ≤ 0,95 o los tres primeros momentos de la χ2 si α > 0,95.
Como un ejemplo tı́pico del uso de esta prueba tenemos el siguiente: Escudero
(1995) realizó una encuesta para un estudio sobre fármacodependencia entre los
estudiantes de la Universidad Nacional-Sede Medellı́n. De la encuesta puede
obtenerse la siguiente tabla:
Ha usado cocaı́na?
Nunca Sı́ Total
Ha fumado Nunca O11 = 267 O12 = 3 270
marihuana? Sı́ O21 = 49 O22 = 25 74
Total 316 28 344
50 CAPÍTULO 4. TABLAS BIDIMENSIONALES
Una pregunta que podemos plantearnos es: Son el haber usado marihuana
alguna vez y cocaı́na alguna vez independientes? Bajo la hipótesis de indepen-
dencia, la siguiente tabla nos presenta los valores esperados Eij .
Ha usado cocaı́na?
Nunca Sı́ Total
Ha fumado Nunca E11 = 248,02327 E12 = 21,976744 270
marihuana? Sı́ E21 = 67,97675 E22 = 6,023256 74
Total 316 28 344
La prueba es asintótica.
Existe discusión entre los autores sobre la corrección por continuidad (Ver
D’Agostino et al.,1988).
4.3. TAMAÑOS MUESTRALES 51
Medidas de Asociación
N (ad − bc)2
χ2 =
k1 k2 n1 n2
El coeficiente φ
r
χ2
φ=
N
Para aquellas tablas en las cuales una dimensión sea mayor que 2, puede
no estar entre 0 y 1 ya que el valor de la chi-cuadrado puede ser mayor que el
tamaño muestral.
53
54 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
El Coeficiente de Contingencia
s
χ2
C=
χ2 + N
Esta medida fue sugerida por Pearson. Está confinada al rango 0 y 1, pero
puede no alcanzar el lı́mite superior del intervalo. Por ejemplo, para tablas 4×4,
el máximo valor de es 0.87.
V de Cramér
s
χ2
V =
N (k − 1)
El Coeficiente de Tschuprov
s
χ2
T = p
N (I − 1)(J − 1)
5.1.2. El Estadı́stico G2
El estadı́stico G2 está basado en la razón de verosimilitud, y es tal vez la
medida de ajuste que más sirve en el análisis de datos categóricos, dadas sus
propiedades.
XX
G2 = 2 nij [log(nij ) − log(eij )]
i j
n++ !
π n11 π n12 π n21 π n22
n11 !n12 !n21 !n22 ! 11 12 21 22
n n n n
(e11 ) 11 (e12 ) 12 (e21 ) 21 (e22 ) 22
LR = n n n n
(n11 ) 11 (n12 ) 12 (n21 ) 21 (n22 ) 22
n n
donde eij i+
n++
+j
es el valor esperado de la celda i − j. Tomado logaritmo,
tomando el signo negativo y multiplicando por dos tenemos
XX eij
G2 = −2 log(LR) = nij log
i j
nij
5.1.3. El Q de Yule
El Q de Yule es una medida de asocición que ha resistido el paso del tiempo.
Se define como
ab − cd
Q=
ab + cd
Si n++ es razonablemente grande, la distribución de Q es normal, con varianza
1 1 1 1 1
(1 − Q2 )2 ( + + + )
4 a b c d
El rango de Q es (−1, 1), con los puntos extremos corespondiendo a asociación
completa (positiva o negativa) y con 0 como no asociación.
A continuación presentamos una función en R que permite calcular estas
medidas de asociación para una tabla 2 × 2 y la aplicamos al ejemplo del primer
capı́tulo sobre destreza manual y sexo.
medidas.de.asociación.2x2<-function(a,b,c,d){
k1<-a+b
k2<-c+d
n1<-a+c
n2<-b+d
N<-n1+n2
56 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
chi<-N*(a*d-b*c)^2/(k1*k2*n1*n2)
phi<-sqrt(chi/N)
C<-sqrt(chi/(chi+N))
V<-phi
T<-phi
Q<-(a*b-c*d)/(a*b+c*d)
list(chi2=chi,phi=phi,C=C,V=V,T=T,Q=Q)
> medidas.de.asociación.2x2(79,202,57,138)
$chi2
[1] 0.07036408
$phi
[1] 0.01215828
$C
[1] 0.01215738
$V
[1] 0.01215828
$T
[1] 0.01215828
$Q
[1] 0.3396575
>
(b − c)2
χ2 =
b+c
> library(ctest)
> mcnemar.test(matrix(c(13,12,25,97),ncol=2,byrow=T))
> mcnemar.test(matrix(c(13,12,25,97),ncol=2,byrow=T),correct=F)
La prueba nos indica que no hay simetrı́a en la tabla, esto es, la insatisfacción
de uno de los cónyugues no es la misma si se trata de mujeres o de hombres.
A Ac
B P (A ∩ B) P (Ac ∩ B)
Bc P (A ∩ B c ) P (Ac ∩ B c )
P [B | Ac ]
P [B c | Ac ]
1 La palabra odds no tiene una única y precisa traducción, algunos la traducen como dis-
P [B|A]
P [B c |A]
ψ= P [B|Ac ]
P [B c |Ac ]
A Ac
B a b
Bc c d
El de Haldane:
(a + 12 )(d + 21 )
ψbH =
(c + 21 )(b + 12 )
El de Jewell:
ad
ψbJ =
(b + 1)(c + 1)
δ
X N1 N2
(a − j)ρj
j k1 − j
j=s
1. Es un número nonegativo.
2. Cuando todas las celdas tienen probabilidades positivas, la independencia
entre las dos variables es equivalente a ψ = 0.
3. Es invariante bajo el intercambio de filas o columnas.
4. Es invariante bajo multiplicaciones de filas y columnas.
5. La interpretación es clara. Valores de ψ que se alejen de 1.0 en una direc-
ción particular representa una asocición fuerte. Dos valores de ψ pueden
representar un mismo nivel de asociación (un valor y su inverso) pero en
direcciones opuestas. Para simetrizar esta medida se trabaja con el log(ψ).
Valores menores que uno indican una asociación negativa, mientras valores
mayores que 1 indican una asociación positiva.
6. Puede usarse en tablas I × J (y tablas multidimensionales) mirando series
de particiones 2 × 2 o mirando subtablas 2 × 2.
Ahora
E[Yi ] = π
cov(Yi ) = Σ i = 1, ..., n
σjj = var(Yij ) = πj (1 − πj )
σjk = cov(Yij , Yik ) = E(Yij Yik ) − E(Yij )E(Yik )
= −πj πk j 6= k
Σ = Diag(π) − ππ T
n
1X
π
b = Yi
n i=1
60 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
(Diag(π) − ππ T )
cov(b
π) = ¯ → Matriz singular
n
Teorema 5.1 (Teorema central del lı́mite multivariable) Bajo el supues-
to que Yi , i = 1, · · · , n sea una muestra aleatoria de una distribución M ultinomial(π, 1),
entonces √ a
n(bπ − π) → N (0, Diag(π) − ππ T )
cuando n → ∞.
Ahora
g(π) = log(π)
∂g −1
= Diag(π)
∂π
La covarianza de la matriz asintótica de
√
π ) − log(π)]
n [log(b
es
−1 −1 −1
Diag(π) − ππ T Diag(π) = Diag(π) − 11T
Diag(π)
Para una matriz C de constantes
√ a −1
π ) − log(π)] → N (0, CDiag(π) C T − C11T C T
nC [log(b
Con base en el anterior resultado, consideremos el siguiente vector
π11
π12
π21
π22
El Odds ratio será π11
π21 π11 π22
OR = π12 =
π22 π12 π21
Ahora
C(log(π)) = [1 − 1 − 1 1]
entonces
−1
CDiag(π)C T − C11T C T
1
0 0 0
π11 1 1 1
0 1
π12 0 0 −1 1
[1 1 1 1] −1
= [1 − 1 − 1 1] 1
− [1 − 1 − 1 1]
0 0 π21 0 −1 1 −1
1 1 1 1
0 0 0 π
22
1
1 1 1 1 −1
= − −
π11 π12 π21 π22 −1
1
1 1 1 1
= + + +
π11 π12 π21 π22
5.2. LA RAZÓN DE ODDS 61
L = exp(R − (1,96)b
σR )
U = exp(R + (1,96)b
σR )
donde
ψb = r
R = loge ψb
donde
Xi
π
bi = i = 1, 2
ni
Asumamos que X1 y X2 son variables aleatorias independientes.
π
b1 π
b2
var(R) = var log + var log
1−π b1 1−πb2
hagamos !
X
n X
g(X) = log X
= log
1− n
n−X
derivando
dg(X) 0 n
= g (X) =
dX X(n − X)
Por medio de la formula de Taylor, expandimos g(X) alrededor de un punto
arbitrario ”a” 0
g(X) ≈ g(a) + (X − a)g (a)
0
note que cuando g (X) = 0 entonces
g(a)
X =a−
g 0 (a)
62 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
> intervalo.razon.odds<-function(Tabla,nivel=0.95,correccion=0.5){
Tabla<-ifelse(Tabla==0,0.5,Tabla)
odds<-Tabla[1,1]*Tabla[2,2]/(Tabla[1,2]*Tabla[2,1])
error<-odds*sqrt(1/Tabla[1,1]+1/Tabla[1,2]+1/Tabla[2,1]+1/Tabla[2,2])
z<-qnorm(0.5+nivel/2)
LI<-odds-z*error
LS<-odds+z*error
list(odds=odds,error=error,LI=LI,LS=LS)
}
>nacimientos.medellin<-matrix(c(4757,430,5148,464),ncol=2,byrow=T)
> nacimientos.medellin
[,1] [,2]
[1,] 4757 430
[2,] 5148 464
> intervalo.razon.odds(nacimientos.medellin)
$odds
[1] 0.9971124
$error
[1] 0.06969253
$LI
[1] 0.8605176
$LS
[1] 1.133707
>
> odds.nacimientos<-intervalo.razon.odds(nacimientos.medellin)
> odds.nacimientos$LI
[1] 0.8605176
> odds.nacimientos$LS
[1] 1.133707
> odds.nacimientos$odds
[1] 0.9971124
>
64 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
> fisher.test(matrix(c(4757,430,5148,464),ncol=2,byrow=T))
>
Intervalo bootstrap
Mediante el bootstrap es posible construir un intervalo de confianza para la
razón de odds.
intervalo.bootstrap<-function(a,b,c,d,nivel=0.95){
temp<-matrix(rep(1,1000),ncol=1)
m<-a+b
n<-c+d
k<-a+c
res<-apply(temp,1,rhyper,m,n,k)
or<-res*(n-k+res)/((m-res)*(k-res))
or
}
intervalo.bootstrap<-function(a,b,c,d,nivel=0.95){
n1<-a+c
n2<-b+d
pi1<-a/n1
pi2<-b/n2
5.2. LA RAZÓN DE ODDS 65
cat(’\n’,’Tama~
no muestral población 1:’,n1,’ Prob. éxito:’,pi1,’\n’)
cat(’\n’,’Tama~
no muestral población 2:’,n2,’ Prob. éxito:’,pi2,’\n’)
res.a<-rbinom(1000,n1,pi1)
res.a<-ifelse(res.a==0,0.5,res.a)
res.c<-n1-res.a
res.b<-rbinom(1000,n2,pi2)
res.b<-ifelse(res.b==0,0.5,res.b)
res.d<-n2-res.b
or<-res.a*res.d/(res.b*res.c)
or
}
Tama~
no muestral población 1: 5187 Prob. éxito: 0.9171004
Tama~
no muestral población 2: 5612 Prob. éxito: 0.91732
> quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
0.866078 1.135535
>
intervalo.bootstrap<-function(a,b,c,d,nivel=0.95){
or<-function(x){
ifelse(x==0,0.5,x)
res<-x[1]*x[4]/(x[2]*x[3])
res
}
n<-a+b+c+d
pi1<-c(a,b,c,d)/n
res<-apply(t(rmultinom(10000,n,pi1)),1,or)
res
}
intervalo.bootstrap<-function(a,b,c,d,nivel=0.95){
temp<-matrix(rep(1,1000),ncol=1)
res.a<-apply(temp,1,rpois,a)
res.b<-apply(temp,1,rpois,b)
res.c<-apply(temp,1,rpois,c)
res.d<-apply(temp,1,rpois,d)
or<-res.a*res.d/(res.b*res.c)
or
}
a
N a
∗ π̂1 n1
N n1
r = = b = b
π̂2 N
n2 n2
N
5.3. RIESGO RELATIVO 67
π1 (1 − π1 )
π̂1 ∼ AN π1 ,
n1
π2 (1 − π2 )
π̂2 ∼ AN π2 ,
n2
Factor de Riesgo
Fumar No fumar Total
Trombosis 10 8 18
Sin trombosis 290 692 982
Total 300 700 1000
entonces una persona que fuma tiene aproximadamente 3 veces más posibilidades
de sufrir una trombosis que una persona que no fuma.
IC.RR<-function(a,n1,b,n2,nivel=0.95){
if(a==0) a<-0.5
if(b==0) b<-0.5
pi1<-a/n1
pi2<-b/n2
RR<-pi1/pi2
68 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
alfa<-1-nivel
z<-qnorm(nivel+alfa/2)
sd<-RR*sqrt((1-pi1)/(pi1*n1)+(1-pi2)/(pi2*n2))
LI<-RR-z*sd
LS<-RR+z*sd
list(RR=RR,pi1=pi1,pi2=pi2,LI=LI,LS=LS)
}
> IC.RR(10,300,8,700)
$RR
[1] 2.916667
$pi1
[1] 0.03333333
$pi2
[1] 0.01142857
$LI
[1] 0.2339111
$LS
[1] 5.599422
>
IC.RR.boot<-function(c1,n1,c2,n2,nivel=0.95){
temp<-matrix(rep(1,1000),ncol=1)
if(c1>0) p1<-c1/n1
else p1<-0.5/n1
if(c2>0) p2<-c2/n2
else p2<-0.5/n2
res1<-apply(temp,1,rbinom,n1,p1)/n1
res2<-apply(temp,1,rbinom,n2,p2)/n2
RR<-res1/res2
RR
}
> res<-IC.RR.boot(10,300,8,700)
5.3. RIESGO RELATIVO 69
> quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
1.060606 8.560417
>
(1,165, 7,634)
Factor de Riesgo
Fumador No Fumador
A Ac Total
Cáncer B 40=a 20=b 60=n1
No Cáncer Bc 40=c 100=d 140=no
Total 80=m1 120=mo 200
o sea que hay tres veces más riesgo de desarrollar cáncer si se fuma que si no se
fuma. Ahora, la probabilidad estimada de desarrollar cáncer, sin tener en cuenta
la presencia o ausencia del factor de riesgo es:
n1 60
P̂ [cáncer] = P̂ [B] = = = 0,30
N 200
Ahora
40 20 60 3
P̂ [cáncer] = P̂ [B] = P̂ [AB] + P̂ [Ac B] = + = =
200 200 200 10
70 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
b 20
P̂ [B | Ac ] = = = 0,17,
b+d 120
o sea que 17 % de los no fumadores desarrollan cáncer. Ası́, si el fumar no
fuera un factor de riesgo, entonces esperarı́amos que 0.17×80 de los fumadores
desarrollaran cáncer, es decir 13.6.
Ası́
40 − 13,6 = 26,4 → número de personas que desarrollan cáncer que puede atribuirse al fumar
40 − 13,6 26,4
= = 0,44 = 44 %
60 60
o sea que el 44 % de los cánceres observados pudieran haber sido prevenidos si
el factor de riesgo, es decir fumar, fuese eliminado.
Definamos el riesgo atribuible
P [AB] − P [B | Ac ] P [A]
ρA =
P [B]
a b a+c
N − b+d · N ad − bc
rA = a+b
=
N
(a + b)(b + d)
(L, U )
donde
L = 1 − exp(L2 )
U = 1 − exp(L1 )
donde
L1 = w − zα/2 σ
bw
L2 = w + zα/2 σ
bw
donde
w = ln(1 − rA ) y
s
c + rA (a + d)
σ
bw =
Nb
IC.RA.boot<-function(a,b,c,d,nivel=0.95){
temp<-matrix(rep(1,1000),ncol=1)
n1<-a+c
n2<-b+d
if(a>0) p1<-a/n1
else p1<-0.5/n1
if(b>0) p2<-b/n2
else p2<-0.5/n2
res1<-apply(temp,1,rbinom,n1,p1)
res2<-apply(temp,1,rbinom,n2,p2)
RA<-(res1*(n2-res2)-res2*(n1-res1))/((res1+res2)*n2)
RA
}
> mean(res<-IC.RA.boot(40,20,40,100))
[1] 0.4464592
> 4/9
[1] 0.4444444
> hist(res)
> quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
0.2856117 0.6078431
>
P [A](ρ − 1)
ρA =
1 + P [A](ρ − 1)
se tiene que
E[b
π] = π
π(1 − π)
var[b
π] =
n
ademas
π(1 − π)
b ∼ AN
π π,
n
Considere el Logit muestral
π
b
g(b
π ) = log
1−πb
asi
y
g(y) = log = log(y) − log(1 − y)
1−y
1 1
g 0 (y) = +
y 1−y
1−y+y
=
y(1 − y)
1
=
y(1 − y)
de donde
1
g 0 (b
π ) |b
π =π
=
π(1 − π)
de donde
π 1
π ) ∼ AN
g(b log ,
1−π nπ(1 − π)
Resultado
Institución Vivos Muertos
Oficial 4757 430
Privado 5148 464
Fuente: Revista de Planeación Metropolitana,
Medellı́n, Vol. 2, No. 5, pp212, 1992
5.4. EJEMPLO USANDO EL PROC FREQ DEL SAS 73
************************************************************;
* Ejemplo del PROC FREQ en tablas 2x2 *;
************************************************************;
options ps=65 ls=75 nodate nonumber;
data partos;
input institu $ result $ frec;
cards;
oficial vivos 4757
oficial muertos 430
privado vivos 5148
privado muertos 464
;
proc freq data=partos;
weight frec;
tables institu*result/exact;
run;
quit;
74 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
Persona 2
Persona 1 Bien Mal Total
Bien n11 n12 n1+
Mal n21 n22 n2+
Total n+1 n+2 n
Persona 2
Persona 1 Bien Mal Total
Bien π11 π12 π1+
Mal π21 π22 π2+
Total π+1 π+2 1,0
n11 + n22
C=
n
θ1 − θ2
1 − θ2
Para el caso de dos categorı́as, el error estándar está dado por (Le, 1998, pp.
160)
p
2 n1+ n+1 n2+ n+2 /2
σ̂κ =
n2 − (n1+ n+1 + n2+ n+2 )
Ejemplo 5.2 (Le, 1998) La siguiente tabla presenta los resultados de las eva-
luaciones de dos enfermeras sobre el color de la membrana del tı́mpano y el
diagnóstico: Normal (gris) o No normal (blanca, rosada, naranja o roja). Los
datos de 100 evaluaciones se presentan en la siguiente tabla:
Enfermera 2
Enfermera 1 Normal No Normal
Normal 35 10
No Normal 20 35
5.4. EJEMPLO USANDO EL PROC FREQ DEL SAS 77
IC.kappa.asint<-function(a,b,c,d,nivel=0.95){
N<-a+b+c+d
n.1m<-a+b
n.2m<-c+d
n.m1<-a+c
n.m2<-b+d
k<-2*(a*d-b*c)/(n.1m*n.m2+n.m1*n.2m)
error<-2*sqrt((n.1m*n.m1*n.2m*n.m2)/N)/(N^2-(n.1m*n.m1+n.m2*n.2m))
alfa.medio<-(1-nivel)/2
z<-qnorm(nivel+alfa.medio)
LI<-k-z*error
LS<-k+z*error
list(k=k,LI=LI,LS=LS)
}
> IC.kappa.asint(35,10,20,35)
$k
[1] 0.4059406
$LI
[1] 0.2138253
$LS
[1] 0.5980559
IC.kappa.boot<-function(a,b,c,d,nivel=0.95){
kappa1<-function(x){
a<-x[1]
b<-x[2]
c<-x[3]
d<-x[4]
78 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
n.1m<-a+b
n.2m<-c+d
n.m1<-a+c
n.m2<-b+d
k<-2*(a*d-b*c)/(n.1m*n.m2+n.m1*n.2m)
k
}
k<-kappa1(c(a,b,c,d))
N<-a+b+c+d
probs<-c(a,b,c,d)/N
alfa.medio<-(1-nivel)/2
res<-quantile(apply(rmultinom(1000,N,probs),2,kappa1),
probs=c(alfa.medio,(nivel+alfa.medio)))
LI<-res[1]
LS<-res[2]
list(k=k,LI=LI,LS=LS)
> IC.kappa.boot(35,10,20,35)
$k
[1] 0.4059406
$LI
2.5%
0.2412451
$LS
97.5%
0.571183
y la especificidad como:
Cuando se realizan las pruebas para estimar los parámetros tenemos una
tabla como la siguiente:
La especificidad como:
n21
Especif icidad = π̂2(2) = π̂21 =
N2
y el intervalo de confianza será:
−1 −1 !
N2 − n21 + 1 N2 − n21
1+ , 1+
n21 F2n21 ,2(N2 −n21 +1),1−α/2 (n21 + 1)F2(n21 +1),2(N2 −n21 ),α/2
Población 1
Resultado
Enfermedad + −
+ 45000 5000
− 5000 45000
Población 2
Resultado
Enfermedad + −
+ 9000 1000
− 9000 81000
PP = P (D = + | T = +)
T
P (D = + T = +)
=
P (T = +)
T
P (D = + T = +) P (D = +)
=
P (T = +) P (D = +)
P (D = +)
= P (T = + | D = +)
P (T = +)
Pero
\ \
P (T = +) = P D =+ T =+ +P D =− T =+
= P (T = + | D = +) P (D = +) + P (T = + | D = −) P (D = −)
= P (T = + | D = +) P (D = +) + (1 − P (T = − | D = −)) (1 − P (D = +))
= P revalencia × Sensibilidad + (1 − P revalencia) × (1 − Especif icidad)
P revalencia × Sensibilidad
PP =
P revalencia × Sensibilidad + (1 − P revalencia) × (1 − Especif icidad)
1. El coeficiente φ r
χ2
φ=
N
Para aquellas tablas en las cuales una dimensión sea mayor que 2, puede
no estar entre 0 y 1 ya que el valor de la chi-cuadrado puede ser mayor
que el tamaño muestral.
82 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
2. El Coeficiente de Contingencia
s
χ2
C=
χ2 +N
Esta medida fue sugerida por Pearson. Esta medida está confinada al rango
0 y 1, pero puede no alcanzar el lı́mite superior del intervalo. Por ejemplo,
para tablas 4 × 4, el máximo valor de es 0.87.
3. V de Cramér s
χ2
V =
N (k − 1)
data futbol;
infile ’futbol.dat’;
input plocal pvisi glocal gvisi tiempo $ @@;
gol_loca=glocal;
if glocal ge 3 then gol_loca=3 ;
gol_visi=gvisi;
if gvisi ge 3 then gol_visi=3;
proc freq;
tables gol_loca*gol_visi/all;
title ’Tabla de Goles del Local vs. Goles del Visitante’;
run;
quit;
5.5. MEDIDAS DE ASOCIACIÓN EN TABLAS BIDIMENSIONALES I ×J83
Frequency|
Percent |
Row Pct |
Col Pct | 0| 1| 2| 3| Total
---------+--------+--------+--------+--------+
0 | 28 | 15 | 6 | 2 | 51
| 11.43 | 6.12 | 2.45 | 0.82 | 20.82
| 54.90 | 29.41 | 11.76 | 3.92 |
| 30.77 | 16.30 | 13.04 | 12.50 |
---------+--------+--------+--------+--------+
1 | 28 | 38 | 15 | 7 | 88
| 11.43 | 15.51 | 6.12 | 2.86 | 35.92
| 31.82 | 43.18 | 17.05 | 7.95 |
| 30.77 | 41.30 | 32.61 | 43.75 |
---------+--------+--------+--------+--------+
2 | 17 | 22 | 16 | 4 | 59
| 6.94 | 8.98 | 6.53 | 1.63 | 24.08
| 28.81 | 37.29 | 27.12 | 6.78 |
| 18.68 | 23.91 | 34.78 | 25.00 |
---------+--------+--------+--------+--------+
3 | 18 | 17 | 9 | 3 | 47
| 7.35 | 6.94 | 3.67 | 1.22 | 19.18
| 38.30 | 36.17 | 19.15 | 6.38 |
| 19.78 | 18.48 | 19.57 | 18.75 |
---------+--------+--------+--------+--------+
Total 91 92 46 16 245
37.14 37.55 18.78 6.53 100.00
84 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
reliability.alpha<-function(x){
score.total<-0
var.items<-0
var.total<-0
z.x<-0
z.score.total<-0
z.var.items<-0
z.x<-scale(x, center = TRUE, scale = TRUE)
n.items<-length(x)
var.total<-var(score.total)
z.var.total<-var(z.score.total)
cronbachs.alpha<-(n.items/(n.items-1))*((var.total -
var.items)/var.total)
z.cronbachs.alpha<-(n.items/(n.items-1))*((z.var.total -
z.var.items)/z.var.total)
return(cronbachs.alpha, z.cronbachs.alpha)}
> temp<-matrix(c(10,5,18,20,8,16,5,13,
+ 11,7,3,4),byrow=T,ncol=4)
> lambda(temp)
[1] 0.1204819
>
Equivalentemente definimos λa :
PJ
j=1 nmj − nm+
λa =
n++ − nm+
donde nmj es la mayor celda en la -ésima columna de la tabla y nm+ es la
mayor de los totales marginales de las filas.
El λ de Goodman y Kruskal
P (1) − P (2)
λresultado =
P (1)
lambda<-function(Tabla){
N<-sum(Tabla)
max.suma.filas<-max(apply(Tabla,2,sum))
sum.max.filas<-sum(apply(Tabla,1,max))
lambda.b<-(sum.max.filas-max.suma.filas)/(N-max.suma.filas)
max.suma.cols<-max(apply(Tabla,1,sum))
sum.max.cols<-sum(apply(Tabla,2,max))
lambda.a<-(sum.max.cols-max.suma.cols)/(N-max.suma.cols)
lambda<-((sum.max.filas-max.suma.filas)+
(sum.max.cols-max.suma.cols))/(2*N-max.suma.filas-max.suma.cols)
list(lambda.b=lambda.b,lambda.a=lambda.a,lambda=lambda)
> lambda(temp)
88 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
$lambda.b
[1] 0.1204819
$lambda.a
[1] 0.1791045
$lambda
[1] 0.1466667
Razón de Odds
La razón de odds no se generaliza tan directamente a estas tablas y se sugiere
el análisis de las razones de odds para diversas particiones.
k(k−1)
con 2 grados de libertad.
> McNemar.prueba<-function(tabla){
+ if(nrow(tabla)!=ncol(tabla))stop(’Tabla no es simétrica!!!’)
+ e<-(tabla+t(tabla))/2
+ chi2<-sum((tabla-e)^2/e)
+ gl<-nrow(tabla)*(nrow(tabla)-1)/2
+ valor.p<-1-pchisq(chi2,gl)
+ list(chi2=chi2,gl=gl,valor.p=valor.p)
+ }
> ojos.dat<-matrix(c(1520,266,124,66,234,1512,432,78,
+ 117,362,1772,205,36,82,179,492),ncol=4,byrow=T)
> ojos.dat
[,1] [,2] [,3] [,4]
[1,] 1520 266 124 66
[2,] 234 1512 432 78
[3,] 117 362 1772 205
[4,] 36 82 179 492
> McNemar.prueba(ojos.dat)
$chi2
[1] 19.10655
$gl
[1] 6
90 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
$valor.p
[1] 0.0039874
>
> ojos.dat<-matrix(c(1520,266,124,66,234,1512,432,78,117,362,1772,
+ 205,36,82,179,492),ncol=4,byrow=T)
> mcnemar.test(ojos.dat)
data: ojos.dat
McNemar’s chi-squared = 19.1066, df = 6, p-value = 0.003987
D = Total de pares para los cuales a la vez i > i0 y j < j 0 ó i < i0 y j > j 0 .
Cuando hay asociación fuerte entre el par de variables, el número S será gran-
de y D será pequeño.
5.6.2. τ de Kendall
2(S − D)
τ=p
((S + D + Ta )(S + D + Tb ))
5.6.3. d de Somer
Variaciones de los estadı́sticos anteriores que pueden ser más apropiadas
cuando una de las variables puede ser considerada como dependiente de la otra
son las siguientes:
S−D
dba =
S + D + Tb
S−D
dab =
S + D + Ta
Upton recomienda la selección del λ de Goodman y Kruskal para tablas
nominales y el γ de Goodman y Kruskal para tablas ordinales, si las dos variables
tienen igual importancia, y el λb de Goodman y Kruskal o el dab de Somers si
la variable B depende de la variable A.
La siguiente función en R permite el cálculo de estas medidas.
medidas<-function(tabla){
I<-nrow(tabla)
J<-ncol(tabla)
S<-0
D<-0
Ta<-0
Tb<-0
for(i in 1:I){
for(j in 1:J){
if(i<I){
tabla3<-tabla[(i+1):I,j]
Tb<-Tb+tabla[i,j]*sum(tabla3)
}
if(j<J){
tabla4<-tabla[i,(j+1):J]
Ta<-Ta+tabla[i,j]*sum(tabla4)
}
}
}
GK<-(S-D)/(S+D)
d1<-(S-D)/(S+D+Tb)
d2<-(S-D)/(S+D+Ta)
K<-2*(S-D)/sqrt((S+D+Ta)*(S+D+Tb))
list(D=D,S=S,Ta=Ta,Tb=Tb,GoodmanKruskal=GK,
dbaSomers=d1,dabSomers=d2,tauKendall=K)
}
temp<-matrix(c(13,13,12,22,
4,24,28,34,
3,8,15,24),ncol=4,byrow=T)
> medidas(temp)
$D
[1] 3627
$S
[1] 5534
$Ta
[1] 4914
5.7. ELIMINANDO CATEGORÍAS EN UNA VARIABLE 93
$Tb
[1] 3739
$GoodmanKruskal
[1] 0.2081650
$dbaSomers
[1] 0.1478295
$dabSomers
[1] 0.1354885
$tauKendall
[1] 0.283049
>
> genera.tabla<-function(N,prob){
+ p1<-prob[1]
+ p2<-prob[2]
+ p3<-prob[3]
+ if(sum(prob)>1)stop(’Vector de probabilidades incorrecto’)
+ numeros.aleatoris<-runif(N)
+ numeros.aleatorios<-runif(N)
+ numeros.aleatorios<-ifelse(numeros.aleatorios<p1,1,
+ ifelse(numeros.aleatorios<(p1+p2),2,
+ ifelse(numeros.aleatorios<(p1+p2+p3),3,4)))
+ resultado<-tabulate(numeros.aleatorios)
+ tabla<-matrix(resultado,ncol=2,byrow=T)
+ tabla
94 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
+ }
> genera.tabla(100,c(0.2,0.4,0.2))
[,1] [,2]
[1,] 15 42
[2,] 24 19
> genera.tabla(1000,c(0.2,0.4,0.05))
[,1] [,2]
[1,] 217 389
[2,] 49 345
> genera.tabla(1000,c(0.2,0.4,0.9))
Error in genera.tabla(1000, c(0.2, 0.4, 0.9)) :
Vector de probabilidades incorrecto
> calcula.odds<-function(N,probs){
+ tabla<-genera.tabla(N,probs)
+ odds<-tabla[1,1]*tabla[2,2]/(tabla[1,2]*tabla[2,1])
+ odds
+ }
> simula.odds<-function(N,prob,Nsim){
resultado<-matrix(rep(N,Nsim),ncol=1)
resultado<-apply(resultado,1,FUN=’calcula.odds’,prob)
resultado
}
>
> temp<-simula.odds(100,c(0.2,0.3,0.4),1000)
> par(mfrow=c(1,2))
> hist(temp,main=’Dist. de la Razón de Odds’,
sub=’N=100, p11=0.2,p12=0.3,p21=0.4’)
> hist(log(temp),main=’Dist. del log de Razón de Odds’,
sub=’N=100, p11=0.2,p12=0.3,p21=0.4’)
Capı́tulo 6
95
96 CAPÍTULO 6. ESTIMACIÓN DEL TAMAÑO POBLACIONAL N
N
X −M
NX
log (L(N )) = log(K) − log(i) + log(i)
i=N −n+1 i=N −M −n+y+1
donde
n!M !
K=
y!(M − y)!(n − y)!
Para hallar el estimador de máxima verosimilitud para N , derivamos la an-
terior función con respecto a N e igualamos a cero
N −M
NX
d log (L(N )) X 1 1
=− + =0
dN i i
i=N −n+1 i=N −M −n+y+1
d2 log(L(N ))
y 1 1
= 2 − (n − y) − 2
d N2 N (N − M )2 N
Capı́tulo 7
Tablas Multidimensionales
7.1.1. Ejemplo
Consideremos por ejemplo la siguiente tabla
97
98 CAPÍTULO 7. TABLAS MULTIDIMENSIONALES
Resultado
Exito Fracaso
Tratamiento 1 140 130
Tratamiento 2 210 125
H0 : ψ 1 = ψ 2 = · · · = ψ K
donde
Ri = log Ψ̂i
1 1 1 1 1
ωi = = + + +
var(R
d i) ai bi ci di
K
X ωi
R̄ = PK Ri
i=1 j=1 ωj
2 T1 T2 + T3 T4
σ̂log (ψ̂ ) = 2R2 + 2RS + 2S 2
MH
donde
(ai + di )
Pi =
Ni
ai di
Ri =
Ni
(bi + ci )
Qi =
Ni
(bi ci )
Si =
Ni
XK
R = Ri
i=1
K
X
S = Si
i=1
K
X
T1 = Pi Ri
i=1
100 CAPÍTULO 7. TABLAS MULTIDIMENSIONALES
K
X
T2 = Pi Si
i=1
K
X
T3 = Qi Ri
i=1
K
X
T4 = Qi Si
i=1
Este estadı́stico tiene una distribución asintótica χ2(1) bajo el modelo de inde-
pendencia condicional.
La siguiente tabla presenta información sobre partos de más de 20 sema-
nas de embarazo en el Valle del Aburrá (Información obtenida de los Anuarios
estadı́sticos de Antioquia):
Año 1996
Resultado
Peso Vivo Muerto
2500 gr o menos 4337 389
Más de 2500 gr 40716 128
Año 1997
Resultado
Peso Vivo Muerto
2500 gr o menos 4697 373
Más de 2500 gr 55098 137
Año 1998
Resultado
Peso Vivo Muerto
2500 gr o menos 5069 513
Más de 2500 gr 49577 131
En R la librerı́a ctest posee la función mantelhaen.test() que permite
realizar tanto pruebas de hipótesis como estimación de la razón de odds para
tablas estratificadas.
7.3. ESTIMADOR Y PRUEBA DE MANTEL-HAENZEL 101
> partos<-array(c(4737,389,40716,128,
+ 4697,373,55098,137,
+ 5069,513,49577,131),dim=c(2,2,3),list(c(’Vivos’,’Muertos’),
c(’2500gr o menos’,’Más de 2500gr’),c(’1996’,’1997’,’1998’)))
> partos
, , 1996
, , 1997
, , 1998
>
> library(ctest)
> mantelhaen.test(partos)
data: partos
Mantel-Haenszel X-squared = 8345.42, df = 1, p-value = < 2.2e-16
alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
0.02793310 0.03511536
sample estimates:
common odds ratio
0.03131901
> (4737/389)/(40716/128)
[1] 0.03828236
> (4697/373)/(55098/137)
[1] 0.03131097
> (5069/513)/(49577/131)
102 CAPÍTULO 7. TABLAS MULTIDIMENSIONALES
[1] 0.02610935
>
> apply(partos, 3, function(x) (x[1,1]*x[2,2])/(x[1,2]*x[2,1]))
1996 1997 1998
0.03828236 0.03131097 0.02610935
>
> woolf(partos)
[1] 0.02749509
>
Parte II
Modelos Loglineales
103
Capı́tulo 8
Modelos Loglineales
Clasificacion II
B1 B2 Total
Clasificacion I A1 π11 π12 π1+
A2 π21 π22 π2+
Total π+1 π+2 π++
105
106 CAPÍTULO 8. MODELOS LOGLINEALES
donde X X X X
λA
i = λB
j = λAB
ij = λAB
ij = 0
i j i j
λA
2 = −λA
1
λB
2 = −λB
1
λAB
22 = −λAB AB AB
12 = λ11 = −λ21
Entonces
X X X X X
νij = µ+ λA
i + λB
j + λAB
ij
i i i i i
I × ν·j = I × µ + 0 + I × λB
j +0
Sumando en j tenemos
IJν·· = IJµ + 0 + 0 + 0
Por lo tanto
ν·· = µ
Sustituyendo tenemos
λA
i = νi· − ν··
λB
j = ν·j − ν··
λAB
ij = νij − νi· − ν·j + ν··
νij = µ + λA B
i + λj
8.2. AJUSTANDO MODELOS LOGLINEALES 107
Ahora,
πij = exp(νij ) = exp(µ + λA B
i + λj )
También
π++ = π1+ + π2+
= exp(µ) exp(λA A
exp(λB B
1 ) + exp(−λ1 ) 1 ) + exp(−λ1 )
de donde obtenemos
π1+ π+2
= exp(µ + λA B
i + λj ) = π12
π++
que corresponde al modelo de independencia.
P (N = n) =
i j
nijk !
k
X X X
L(M) = nµ + ni++ λA
i + n+j+ λB
j + n++k λC
k
i j k
XX XX
+ nij+ λAB
ij + ni+k λAC
ik
i j i k
XX XX XXX
+ nij+ λAB
ij + n+jk λBC
jk + nijk λABC
ijk
i j j k i j k
XXX
+ exp(µ + λA
i + λB
j + λC
k + λAB
ij + λAC
ik + λBC ABC
jk + λijk )
i j k
108 CAPÍTULO 8. MODELOS LOGLINEALES
log(mijk ) = µ + λA B C AB AC BC ABC
i + λj + λk + λij + λik + λjk + λijk (ABC)
log(mijk ) = µ + λA B C AB AC BC
i + λj + λk + λij + λik + λjk (AB,AC,BC)
log(mijk ) = µ + λA B C AB AC
i + λj + λk + λij + λik (AB,AC)
log(mijk ) = µ + λA B C AB BC
i + λj + λk + λij + λjk (AB,BC)
log(mijk ) = µ + λA B C AC BC
i + λj + λk + λik + λjk (AC,BC)
log(mijk ) = µ + λA B C AB
i + λj + λk + λij (AB,C)
log(mijk ) = µ + λA B C BC
i + λj + λk + λjk (A,BC)
log(mijk ) = µ + λA B C AC
i + λj + λk + λik (AC,B)
log(mijk ) = µ + λA B C
i + λ j + λk (A,B,C)
m
b +++ = n
8.2. AJUSTANDO MODELOS LOGLINEALES 109
Ahora
∂L XX
= ni++ − mijk
∂λA
i j k
= ni++ − mi++ i = 1, ..., I
igualando a cero
m
b i++ = ni++ i = 1, ..., I
Asi
∂L
= 0⇒m
b +j+ = n+j+ j = 1, ..., J
∂λB
j
∂L
= ni+k − mi+k = 0 ⇒ m
b i+k = ni+k ∀i, k
∂λAC
ik
∂L
= n+jk − m+jk = 0 ⇒ m
b +jk = n+jk ∀j, k
∂λBC
jk
> partos.dat<-array(c(4757,5148,430,464),c(2,2))
> partos.dat
[,1] [,2]
[1,] 4757 430
[2,] 5148 464
> loglin(partos.dat,list(1,2),fit=T)
2 iterations: deviation 0
$lrt
[1] 0.00171166
$pearson
[1] 0.001711714
$df
[1] 1
$margin
$margin[[1]]
[1] 1
$margin[[2]]
[1] 2
> rownames(partos.dat)<-c(’Oficial’,’Privado’)
> colnames(partos.dat)<-c(’Vivos’,’Muertos’)
> partos.dat
Vivos Muertos
Oficial 4757 430
Privado 5148 464
>
> partos.MInd<-loglin(partos.dat,list(1,2),fit=T,param=T)
2 iterations: deviation 0
> partos.MInd$param
$"(Intercept)"
[1] 7.304328
8.2. AJUSTANDO MODELOS LOGLINEALES 111
$"1"
Oficial Privado
-0.03937583 0.03937583
$"2"
Vivos Muertos
1.202545 -1.202545
>
> partos.MInd$fit
Vivos Muertos
Oficial 4757.592 429.4081
Privado 5147.408 464.5919
>
> residuales<-partos.dat-partos.MInd$fit
> residuales
Vivos Muertos
Oficial -0.5919067 0.5919067
Privado 0.5919067 -0.5919067
> residuales/sqrt(partos.MInd$fit)
Vivos Muertos
Oficial -0.008581429 0.02856394
Privado 0.008250095 -0.02746107
>
Tabla Tabla
Observada Esperada
4757 430 4757.592 429.4081
5148 464 5147.408 464.5919
Residuales Residuales
Crudos Estandarizados
-0.5919067 0.5919067 -0.008581429 0.02856394
0.5919067 -0.5919067 0.008250095 -0.02746107
νij = µ + λA
i
o también
νij = µ + λB
j
o también
> ninos.dat<-array(c(79,57,202,138),c(2,2))
> loglin(ninos.dat,list(2),fit=T)
> loglin(ninos.dat,list(),fit=T)
> loglin(ninos.dat,list(1,2),fit=T)
> loglin(ninos.dat,list(1:2),fit=T)
8.3. MODELO LOGLINEAL CON TRES FACTORES 113
79 202
Saturado 0 0 0
57 138
80.28 200.71
Independencia 1 0.07036408 0.0702684
55.71 139.28
68 170
No efecto de sexo 2 15.60588 15.69374
68 170
119 119
Uniformidad 3 106.6723 106.0172
119 119
νijk = µ + λA B C AB AC BC ABC
i + λj + λk + λij + λik + λjk + λijk Con restricciones:
X X X X X X X
λAi = B
λj = C
λk = AB
λij = AB
λij = AC
λik = λAC
ik
i j k i j i k
X X X X X
= λBC
jk = λBC
jk = λABC
ijk = λABC
ijk = λABC
ijk =0
j k i j k
X X νijk
νi.. =
j
JK
k
X X νijk
ν.j. =
i
IK
k
114 CAPÍTULO 8. MODELOS LOGLINEALES
X X νijk
ν..k =
i j
IJ
X νijk
νij. =
K
k
X νijk
ν.jk =
i
I
X νijk
νi.k =
j
J
Se tiene que
X
I × ν.jk = νijk
i
= I × µ + I × λB C BC
j + I × λk + I × λjk teniendo en cuenta las restricciones
I × J × K × ν... = I × J × K × µ entonces
ν... = µ
λA
i = νi.. − ν...
B
λj = ν.j. − ν...
λCk = ν..k − ν...
AB
λij = νij. − νi.. − ν.j. + ν...
λAC
ik = νi.k − νi.. − ν..k + ν...
λBC
jk = ν.jk − ν.j. − ν..k + ν...
ABC
λijk = νijk − νij. − νi.k − ν.jk + νi.. + ν.j. + ν..k − ν...
λABC
111 = ν111 − ν11. − ν1,1 − ν,11 + ν1.. + ν,1. + ν.,1 − ν...
1 1 1
= ν111 − (ν111 + ν112 ) − (ν111 + ν121 ) − (ν111 + ν211 )
2 2 2
1 1
+ (ν111 + ν112 + ν121 + ν122 ) + (ν111 + ν112 + ν211 + ν212 )
4 4
1
+ (ν111 + ν121 + ν211 + ν221 )
4
1
− (ν111 + ν112 + ν121 + ν122 + ν211 + ν212 + ν121 + ν222 )
8
1
= ν111 − (3ν111 + ν112 + ν121 + ν211 )
2
1
+ (3ν111 + 2ν112 + 2ν121 + 2ν211 + ν212 + ν122 + ν221 )
4
8.4. AJUSTE PROPORCIONAL ITERATIVO: IPF 115
1
− (ν111 + ν112 + ν121 + ν122 + ν221 + ν212 + ν221 + ν222 )
8
12ν111 + 4ν112 + 4ν121 + 4ν211 − 6ν111 − 4ν112 − 4ν121 − 4ν211 − 2ν122 − 2ν221 − 2ν212
= ν111 −
8
1
− (ν111 + ν112 + ν121 + ν122 + ν221 + ν212 + ν221 + ν222 )
8
6ν111 − ν122 − ν221 − ν212 + ν112 + ν121 + ν222 + ν211
= ν111 −
8
Se tiene que
ν111 + ν122 + ν221 + ν212 − ν112 − ν121 − ν222 − ν211
λABC
111 =
8
1
= (log(π111 ) + log(π122 ) + log(π221 ) + log(π212 ) − log(π112 )
IJK
− log(π121 ) − log(π212 ) − log(π211 )
1 π111 π122 π221 π212
= log
IJK π112 π121 π222 π211
(l,2) (l−1,2)
3. Pare cuando la diferencia absoluta entre mijk y mijk sea lo suficien-
temente pequeña.
Note que es posible ajustar primero por [C] y luego por [AB].
Para ilustrar el procedimiento consideremos el siguiente ejemplo:
Cercanı́a de Intensidad de Resultado
la Percepción la Preferencia Votó No votó
Débil 91 39
No Fuerte Mediana 121 49
Fuerte 64 24
Débil 214 87
Muy Fuerte Mediana 284 76
Fuerte 201 25
91 39 n11+ = 130
121 49 n12+ = 170
64 24 n21+ = 88
214 87 n22+ = 301
284 76 n31+ = 360
201 25 n32+ = 226
Primera Iteración:
mij+
1 1 2
1 1 2
1 1 2
1 1 2
1 1 2
1 1 2
(1,1) nij+ (0,2)
mijk = (l−1,2) mijk
mij+
(1,1) n11+ (0,2)
m111 = (0,2) m111 = 130
2 1 = 65
m11+
(1,1) n11+ (0,2)
m112 = (0,2) m112 = 130
2 1 = 65
m11+
8.4. AJUSTE PROPORCIONAL ITERATIVO: IPF 117
65 65
85 85
44 44
150.5 150.5
180 180
113 113
99,4118 30,5882
130,000 40,0000
67,2941 20,7059
230,1765 70,8235
275,2941 84,7059
172,8235 53,1765
title1;
title2 ’************************************************’;
title3 ’* EJEMPLO DE MODELOS LOGLINEALES EN SAS-CATMOD *’;
title4 ’************************************************’;
title5;
proc format;
value per 1=’No Fuerte’ 2=’Muy Fuerte’;
120 CAPÍTULO 8. MODELOS LOGLINEALES
data uno;
do persp=1 to 2;
do inte=1 to 3;
do resu=1 to 2;
input frec @@;
output; end;end;end;
format persp per.
inte int. resu res.;
label persp=’Percepcion’
inte=’Intensidad’
resu=’Resultado’;
cards;
91 39 121 49 64 24 214 87 284 76 201 25
;
proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp inte resu;
title ’Modelo 1’;
run;
proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|inte resu;
title ’Modelo 2’;
run;
proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|resu inte;
title ’Modelo 3’;
run;
proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp inte|resu;
title ’Modelo 4’;
run;
8.6. USANDO EL SAS PARA MODELOS LOGLINEALES 121
proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|inte persp|resu;
title ’Modelo 5’;
run;
proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|inte inte|resu;
title ’Modelo 6’;
run;
proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|resu inte|resu;
title ’Modelo 7’;
run;
proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|inte resu|inte persp|resu;
title ’Modelo 8’;
run;
quit;
122 CAPÍTULO 8. MODELOS LOGLINEALES
Capı́tulo 9
Seleccionando un Modelo
mezclas.
123
124 CAPÍTULO 9. SELECCIONANDO UN MODELO
1. A: Sexo
2. B: Clasificación ICFES
3. C: Jornada
4. D: Región
Del paso anterior podemos descartar de una vez dos modelos: (ABC, BCD, ABD)
y (ABC, ACD, ABD). Sus valores p los rechazan y podemos decir que es-
tos modelos no ajustan con los valores de la tabla. Nos quedan dos modelos
que podemos considerar como plausibles, aunque uno de ellos es clara-
mente mejor que el otro: el que tiene un mayor valor-p, o sea el modelo
(BCD, ACD, ABD) o sea la interacción ABC no es significativa.
G2(BCD,ACD,ABD) − G2(ABC,BCD,ACD,ABD) = 11,87283
gl(BCD,ACD,ABD) − gl(ABC,BCD,ACD,ABD) = 24 − 12 = 12
valor − p = 0,4559462
4. Paso 4: Eliminación de otra interacción
Seguimos buscando la reducción en la complejidad de nuestro modelo.
Procedemos a eliminar una de las mayores interacciones que restan en el
modelo seleccionado en el paso anterior.
M odelo G2 G.L. AIC valorp
(BCD, ACD, AB) 28,79952 28 −27,20048 0,4227
(BCD, ABD, AC) 41,37525 30 −18,62475 0,0809
(ACD, ABD, BC) 35,2374 30 −24,7626 0,2341
G2(BCD,ACD,AB) − G2(BCD,ACD,ABD) = 5,39385
gl(BCD,ACD,AB) − gl(BCD,ACD,ABD) = 28 − 24 = 4
valor − p = 0,2492189
Se logró eliminar otra interacción de segundo orden, aquella que involucra
sexo, resultado del ICFES y región.
5. Paso 5: Podemos simplicar más
M odelo G2 G.L. AIC valorp
(BCD, ABD) 62,53211 32 −1,46789 0,0010
(ACD, AB, BC, BD) 40,44407 34 −27,55593 0,2071
(BCD, AB, AC, AD) 46,27413 34 −21,72587 0,0780
G2(ACD,AB,BC,BD) − G2(BCD,ACD,AB) = 11,64455
gl(ACD,AB,BC,BD) − gl(BCD,ACD,AB) = 34 − 28 = 6
valor − p = 0,07038477
La prueba anterior nos lleva por lo tanto a aceptar el nuevo modelo pro-
puesto. Seguimos un paso más a ver si podemos reducir la complejidad de
nuestro modelo.
6. Paso 6: Otra simplificación
M odelo G2 G.L. AIC valorp
(ACD, AB, CD) 69,30073 36 −2,69927 0,0007
(ACD, AB, BD) 82,48395 40 2,48395 0,0001
(ACD, BC, BD) 80,48046 38 4,48086 0,0001
(AB, BC, BD, AC, AD, CD) 64,52528 40 −15,47472 0,0083
Ninguno de los anteriores modelos fue bueno para reproducir aproximada-
mente los valores de la tabla. El proceso por lo tanto se para con el modelo
obtenido en el paso previo. El modelo final será (ACD, AB, BC, BD).
126 CAPÍTULO 9. SELECCIONANDO UN MODELO
data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man fem alto 19 metro man masc alto 5 metro man mixto alto 10
metro man fem bajo 14 metro man masc bajo 6 metro man mixto bajo 43
metro man fem medio 17 metro man masc medio 4 metro man mixto medio 15
metro uni fem alto 8 metro uni masc alto 5 metro uni mixto alto 9
metro uni fem bajo 5 metro uni masc bajo 0 metro uni mixto bajo 26
metro uni fem medio 2 metro uni masc medio 3 metro uni mixto medio 5
metro tar fem alto 1 metro tar masc alto 2 metro tar mixto alto 4
metro tar fem bajo 9 metro tar masc bajo 5 metro tar mixto bajo 96
metro tar fem medio 4 metro tar masc medio 4 metro tar mixto medio 8
;
proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada|sexo/freq prob predict oneway;
title ’ MODELO SATURADO: Probabilidad de Ser Clasificado
BUENO por el ICFES’;
run;
proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado
BUENO por el ICFES’;
9.2. ANALIZANDO LOS PARÁMETROS INDIVIDUALMENTE 127
run;
quit;
CATMOD PROCEDURE
ONE-WAY FREQUENCIES
Variable Value Frequency
--------------------------
CLASIF alto 63
bajo 204
medio 62
SEXO fem 79
masc 34
mixto 216
POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
--------------------------------
1 man fem 50
2 man masc 15
3 man mixto 68
4 tar fem 14
5 tar masc 11
6 tar mixto 108
7 uni fem 15
8 uni masc 8
9 uni mixto 40
128 CAPÍTULO 9. SELECCIONANDO UN MODELO
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio
RESPONSE PROBABILITIES
Response Number
Sample 1 2 3
---------------------------------
1 0.38 0.28 0.34
2 0.33333 0.4 0.26667
3 0.14706 0.63235 0.22059
4 0.07143 0.64286 0.28571
5 0.18182 0.45455 0.36364
6 0.03704 0.88889 0.07407
7 0.53333 0.33333 0.13333
8 0.625 0 0.375
9 0.225 0.65 0.125
Response
Sample Function
------------------
1 0.38000
2 0.33333
3 0.14706
4 0.07143
5 0.18182
9.2. ANALIZANDO LOS PARÁMETROS INDIVIDUALMENTE 129
6 0.03704
7 0.53333
8 0.62500
9 0.22500
DESIGN MATRIX
Sample 1 2 3 4 5 6 7 8 9
---------------------------------------------------------------------
1 1 1 0 1 0 1 0 0 0
2 1 1 0 0 1 0 1 0 0
3 1 1 0 -1 -1 -1 -1 0 0
4 1 0 1 1 0 0 0 1 0
5 1 0 1 0 1 0 0 0 1
6 1 0 1 -1 -1 0 0 -1 -1
7 1 -1 -1 1 0 -1 0 -1 0
8 1 -1 -1 0 1 0 -1 0 -1
9 1 -1 -1 -1 -1 1 1 1 1
ANALYSIS-OF-VARIANCE TABLE
Source DF Chi-Square Prob
--------------------------------------------------
INTERCEPT 1 71.18 0.0000
JORNADA 2 19.52 0.0001
SEXO 2 16.20 0.0003
JORNADA*SEXO 4 5.96 0.2021
RESIDUAL 0 . .
CATMOD PROCEDURE
Response: CLASIF Response Levels (R)= 3
Weight Variable: FREC Populations (S)= 9
Data Set: ICFES Total Frequency (N)= 329
Frequency Missing: 0 Observations (Obs)= 26
ONE-WAY FREQUENCIES
Variable Value Frequency
--------------------------
CLASIF alto 63
bajo 204
medio 62
SEXO fem 79
masc 34
mixto 216
POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
--------------------------------
9.2. ANALIZANDO LOS PARÁMETROS INDIVIDUALMENTE 131
1 man fem 50
2 man masc 15
3 man mixto 68
4 tar fem 14
5 tar masc 11
6 tar mixto 108
7 uni fem 15
8 uni masc 8
9 uni mixto 40
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio
RESPONSE PROBABILITIES
Response Number
Sample 1 2 3
---------------------------------
1 0.38 0.28 0.34
2 0.33333 0.4 0.26667
3 0.14706 0.63235 0.22059
4 0.07143 0.64286 0.28571
5 0.18182 0.45455 0.36364
6 0.03704 0.88889 0.07407
7 0.53333 0.33333 0.13333
8 0.625 0 0.375
9 0.225 0.65 0.125
132 CAPÍTULO 9. SELECCIONANDO UN MODELO
data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man fem alto 27 metro man masc alto 10
metro man mixto alto 19 metro man fem bajo 19
metro man masc bajo 6 metro man mixto bajo 69
metro man fem medio 19 metro man masc medio 7
metro man mixto medio 20 metro tar fem alto 1
metro tar masc alto 2 metro tar mixto alto 4
metro tar fem bajo 9 metro tar masc bajo 5
metro tar mixto bajo 96 metro tar fem medio 4
metro tar masc medio 4 metro tar mixto medio 8
;
proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
population jornada sexo;
134 CAPÍTULO 9. SELECCIONANDO UN MODELO
CATMOD PROCEDURE
ONE-WAY FREQUENCIES
SEXO fem 79
masc 34
mixto 216
POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
--------------------------------
1 man fem 65
2 man masc 23
3 man mixto 108
4 tar fem 14
5 tar masc 11
6 tar mixto 108
RESPONSE PROFILES
9.3. ELIMINADO CLASES DE UNA VARIABLE 135
Response CLASIF
----------------
1 alto
2 bajo
3 medio
RESPONSE FREQUENCIES
Response Number
Sample 1 2 3
---------------------------------
1 27 19 19
2 10 6 7
3 19 69 20
4 1 9 4
5 2 5 4
6 4 96 8
RESPONSE PROBABILITIES
Response Number
Sample 1 2 3
---------------------------------
1 0.41538 0.29231 0.29231
2 0.43478 0.26087 0.30435
3 0.17593 0.63889 0.18519
4 0.07143 0.64286 0.28571
5 0.18182 0.45455 0.36364
6 0.03704 0.88889 0.07407
5 0.18182 1 -1 0 1
6 0.03704 1 -1 -1 -1
ANALYSIS-OF-VARIANCE TABLE
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.2280 0.0305 55.92 0.0000
JORNADA 2 0.0885 0.0182 23.74 0.0000
SEXO 3 0.0253 0.0405 0.39 0.5330
4 0.0847 0.0542 2.45 0.1177
-----Observed----- -----Predicted----
Function Standard Standard
Sample Number Function Error Function Error Residual
----------------------------------------------------------------
1 1 0.415385 0.061123 0.341806 0.048431 0.073578
2 1 0.434783 0.103367 0.401287 0.078906 0.033495
3 1 0.175926 0.036638 0.206571 0.033402 -0.03065
4 1 0.071429 0.06883 0.164733 0.050016 -0.0933
5 1 0.181818 0.116291 0.224214 0.079881 -0.0424
6 1 0.037037 0.018172 0.029498 0.017791 0.007539
9.3. ELIMINADO CLASES DE UNA VARIABLE 137
data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man fem alto 27 metro man mascymix alto 29
metro man fem bajo 19 metro man mascymix bajo 77
metro man fem medio 19 metro man mascymix medio 27
metro taryno fem alto 1 metro taryno mascymix alto 6
metro taryno fem bajo 9 metro taryno mascymix bajo 104
metro taryno fem medio 4 metro taryno mascymix medio 12
;
proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
population jornada sexo;
title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado’;
title2 ’BUENO por el ICFES’;
run;
quit;
CATMOD PROCEDURE
ONE-WAY FREQUENCIES
SEXO fem 79
mascymix 255
POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
-----------------------------------
1 man fem 65
2 man mascymix 133
3 taryno fem 14
4 taryno mascymix 122
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio
RESPONSE FREQUENCIES
Response Number
Sample 1 2 3
---------------------------------
1 27 19 19
2 29 77 27
3 1 9 4
4 6 104 12
9.3. ELIMINADO CLASES DE UNA VARIABLE 139
RESPONSE PROBABILITIES
Response Number
Sample 1 2 3
---------------------------------
1 0.41538 0.29231 0.29231
2 0.21805 0.57895 0.20301
3 0.07143 0.64286 0.28571
4 0.04918 0.85246 0.09836
ANALYSIS-OF-VARIANCE TABLE
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.1967 0.0247 63.29 0.0000
140 CAPÍTULO 9. SELECCIONANDO UN MODELO
-----Observed----- -----Predicted----
Function Standard Standard
Sample Number Function Error Function Error Residual
----------------------------------------------------------------
1 1 0.415385 0.061123 0.350866 0.048573 0.064518
2 1 0.218045 0.035805 0.240184 0.033465 -0.02214
3 1 0.071429 0.06883 0.153244 0.050238 -0.08182
4 1 0.04918 0.019578 0.042561 0.019204 0.006619
data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man femymas alto 37 metro man mixto alto 19
metro man femymas bajo 25 metro man mixto bajo 69
metro man femymas medio 26 metro man mixto medio 20
metro tar femymas alto 3 metro tar mixto alto 4
metro tar femymas bajo 14 metro tar mixto bajo 96
metro tar femymas medio 8 metro tar mixto medio 8
;
proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
population jornada sexo;
title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado’;
title2 ’BUENO por el ICFES’;
run;
quit;
CATMOD PROCEDURE
9.3. ELIMINADO CLASES DE UNA VARIABLE 141
ONE-WAY FREQUENCIES
POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
----------------------------------
1 man femymas 88
2 man mixto 108
3 tar femymas 25
4 tar mixto 108
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio
142 CAPÍTULO 9. SELECCIONANDO UN MODELO
RESPONSE FREQUENCIES
Response Number
Sample 1 2 3
---------------------------------
1 37 25 26
2 19 69 20
3 3 14 8
4 4 96 8
RESPONSE PROBABILITIES
Response Number
Sample 1 2 3
---------------------------------
1 0.42045 0.28409 0.29545
2 0.17593 0.63889 0.18519
3 0.12 0.56 0.32
4 0.03704 0.88889 0.07407
ANALYSIS-OF-VARIANCE TABLE
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.1999 0.0223 80.25 0.0000
JORNADA 2 0.0850 0.0184 21.43 0.0000
SEXO 3 0.0839 0.0232 13.04 0.0003
-----Observed----- -----Predicted----
Function Standard Standard
Sample Number Function Error Function Error Residual
----------------------------------------------------------------
1 1 0.420455 0.052621 0.368828 0.043407 0.051627
2 1 0.175926 0.036638 0.200954 0.033681 -0.02503
3 1 0.12 0.064992 0.198754 0.04653 -0.07875
4 1 0.037037 0.018172 0.03088 0.017823 0.006157
data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man femymix alto 46 metro man masc alto 10
metro man femymix bajo 88 metro man masc bajo 6
metro man femymix medio 39 metro man masc medio 7
metro tar femymix alto 5 metro tar masc alto 2
144 CAPÍTULO 9. SELECCIONANDO UN MODELO
proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
population jornada sexo;
title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado’;
title2 ’BUENO por el ICFES’;
run;
quit;
CATMOD PROCEDURE
ONE-WAY FREQUENCIES
POPULATION PROFILES
9.3. ELIMINADO CLASES DE UNA VARIABLE 145
Sample
Sample JORNADA SEXO Size
----------------------------------
1 man femymix 173
2 man masc 23
3 tar femymix 122
4 tar masc 11
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio
RESPONSE FREQUENCIES
Response Number
Sample 1 2 3
---------------------------------
1 46 88 39
2 10 6 7
3 5 105 12
4 2 5 4
RESPONSE PROBABILITIES
Response Number
Sample 1 2 3
---------------------------------
1 0.2659 0.50867 0.22543
2 0.43478 0.26087 0.30435
3 0.04098 0.86066 0.09836
4 0.18182 0.45455 0.36364
146 CAPÍTULO 9. SELECCIONANDO UN MODELO
ANALYSIS-OF-VARIANCE TABLE
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.2319 0.0396 34.21 0.0000
JORNADA 2 0.1132 0.0185 37.49 0.0000
SEXO 3 -0.0780 0.0399 3.82 0.0508
-----Observed----- -----Predicted----
Function Standard Standard
9.4. UN EJEMPLO 147
9.4. Un Ejemplo
En esta sección consideraremos un ejemplo desarrollado por Lee (1978)
que nos ilustra sobre el análisis que se puede realizar en la contrucción de
un modelo que lleva a un mejor entendimiento del problema. Consideremos
la siguiente tabla que contiene la información recogida de 66 adultos saca-
dos al azar y clasificados por sexo (femenino, masculino), opinión acerca
del contenido de una serie de televisión (aprobado o desaprobado), y su
localización demográfica (rural o urbana),
Rural Urbana
Aprueba Desaprueba Aprueba Desaprueba
Femenino 3 7 6 12
Masculino 5 15 17 1
Varios modelos pueden considerarse, por ejemplo el modelo saturado,
S×O
log(mijk ) = µ + λSi + λO L
j + λk + λij + λS×L
ik + λO×L
jk + λS×O×L
ijk
Este modelo ajusta perfectamente a los datos, sus residuales son cero, pero
no hay reducción de la complejidad del problema. Se pueden considerar
muchos modelos que no sean saturados, por ejemplo,
S×O
log(mijk ) = µ + λSi + λO L
j + λk + λij + λS×L
ik + λO×L
jk
log(mijk ) = µ + λSi + λO L
j + λk
Modelos Especiales
ξi
πij =
ξi + ξj
Sea nij el número de veces que i fue preferido a j y nji lo contrario. Sea
Nij = nij +nji . Si las Nij comparaciones son ralizadas independientements
con la misma probabilidad πij , entonces nij ∼ Binomial (Nij , πij ).
149
150 CAPÍTULO 10. MODELOS ESPECIALES
Parte III
Aproximación GSK
151
Capı́tulo 11
La Aproximación GSK
11.1. Introducción
El análisis de datos cualitativos es un área de importancia en el trabajo
aplicado. El modelo lineal clásico ha sido utilizado extensivamente y con
mucho éxito en múltiples situaciones. En el análisis de regresión estamos
interesados en predecir la media de una variable, llamada la respuesta,
basados en un conjunto de variables, llamadas los predictores. La regresión
clásica asume que la respuesta es continua y distribuı́da normalmente.
Tiene ventajas que lo hacen muy útil para el usuario, entre ellas tenemos:
153
154 CAPÍTULO 11. LA APROXIMACIÓN GSK
R
X
πij − 1 = 0, i = 1, 2, · · · , S
j=1
Adicionalmente
R
X
nij = ni , i = 1, 2, · · · , S
j=1
π11
π12
.
.
.
π1R
π21
π22
π=
.
.
.
π2R
.
.
.
πSR
πsr (1 − πsr )
var(b
πsr ) =
ns+
πsr πsr0
cov(b bsr0 ) = −
πsr , π 6 r0
,r=
ns+
cov(b bsr0 ) = 0 si s 6= s0 .
πsr , π
ya que la covariación entre filas debe ser cero porque las subpoblaciones
se asumen independientes.
···
b
V1 0 0
0 V2
b ··· 0
V = .
b SR×SR
.. .. .. ..
. . .
0 0 · · · VS
b
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 157
donde
bs1 (1 − π
π bs1 ) −b πs1 πbs2 ··· −bπs1 π bsR
1 −b πs2 πbs1 bs2 (1 − π
π bs2 ) · · · −bπs2 π bsR
V =
bS
R×R .. .. .. ..
ns+
. . . .
−bπsR π bs1 −bπsR π bs2 ··· π bsR (1 − π bsR )
fT ×1 = KT ×U {log(AU ×SR π
bSR×1 )}
data uno;
input partido $ actitud $ voto $ frecuen @@;
cards;
L L L 620 L L C 80 L N L 367 L N C 64 L C L 116
L C C 63 I L L 89 I L C 40 I N L 151 I N C 150
I C L 69 I C C 153 C L L 13 C L C 55 C N L 52
C N C 200 C C L 50 C C C 511
;
proc catmod;
weight frecuen;
response 1 0;
model voto=partido actitud / freq prob predict oneway;
run;
quit;
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 159
POPULATION PROFILES
Sample
Sample PARTIDO ACTITUD Size
----------------------------------
1 C C 561
2 C L 68
3 C N 252
4 I C 222
5 I L 129
6 I N 301
7 L C 179
8 L L 700
9 L N 431
RESPONSE PROFILES
Response VOTO
--------------
1 C
2 L
160 CAPÍTULO 11. LA APROXIMACIÓN GSK
RESPONSE FREQUENCIES
Response Number
Sample 1 2
------------------------
1 511 50
2 55 13
3 200 52
4 153 69
5 40 89
6 150 151
7 63 116
8 80 620
9 64 367
RESPONSE PROBABILITIES
Response Number
Sample 1 2
------------------------
1 0.91087 0.08913
2 0.80882 0.19118
3 0.79365 0.20635
4 0.68919 0.31081
5 0.31008 0.68992
6 0.49834 0.50166
7 0.35196 0.64804
8 0.11429 0.88571
9 0.14849 0.85151
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 161
ANALYSIS-OF-VARIANCE TABLE
Source DF Chi-Square Prob
--------------------------------------------------
INTERCEPT 1 4031.22 0.0000
PARTIDO 2 901.17 0.0000
ACTITUD 2 97.39 0.0000
PROC FORMAT;
VALUE edadf 1=’< 30 a~
nos’
2=’30-39 a~nos ’
3=’40 y más’;
VALUE experf 1=’Menos de un a~
no’ 2=’Uno a 4 a~
nos’ 3=’Cinco o más a~
nos’;
VALUE partef 1=’Inferior’ 2=’Superior’ 3=’Otra’;
VALUE sexof 1=’Hombres’ 2=’Mujeres’;
RUN;
DATA acciden;
DO edad=1 TO 3;
DO sexo=1 TO 2;
DO exper=1 TO 3;
DO parte=1 TO 3;
INPUT frec @@;OUTPUT;
END;END;END;END;
FORMAT exper experf.;
FORMAT edad edadf.;
FORMAT parte partef.;
FORMAT sexo sexof.;
CARDS;
537 913 860 186 449 338 34 69 65 43 140 37 22 109 41
11 20 8 352 567 544 162 375 278 115 226 183 28 129
24 34 102 39 38 83 32 179 300 262 76 181 157 109 273
199 19 51 27 16 64 20 56 132 54
;
QUIT;
DATA hemorro;
DO historia=1 TO 3;
DO droga=1 TO 2;
DO resulta=1 TO 2;
INPUT frecuen @@;OUTPUT;
END;END;END;
CARDS;
13 10 15 14 30 20 27 18 19 19 8 23
;
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 165
QUIT;
CATMOD PROCEDURE
POPULATION PROFILES
Sample
Sample DROGA HISTORIA Size
---------------------------------
1 1 1 23
2 1 2 50
3 1 3 38
4 2 1 29
5 2 2 45
6 2 3 31
RESPONSE PROFILES
Response RESULTA
-----------------
1 1
2 2
166 CAPÍTULO 11. LA APROXIMACIÓN GSK
Response
Sample Function Variance
----------------------------
1 0.5652 0.0107
2 0.6000 0.004800
3 0.5000 0.006579
4 0.5172 0.008610
5 0.6000 0.005333
6 0.2581 0.006176
DESIGN MATRIX
Sample 1 2 3 4 5 6
-----------------------------------------------------
1 1 1 1 0 1 0
2 1 1 0 1 0 1
3 1 1 -1 -1 -1 -1
4 1 -1 1 0 -1 0
5 1 -1 0 1 0 -1
6 1 -1 -1 -1 1 1
ANALYSIS-OF-VARIANCE TABLE
RESIDUAL 0 . .
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 167
1 2 3 4 5 6
---------------------------------------------------------------------------
1 0.00117177 0.00005398 0.00043615 -.00032733 0.00011887 -.00009843
2 0.00005398 0.00117177 0.00011887 -.00009843 0.00043615 -.00032733
3 0.00043615 0.00011887 0.00277969 -.00128060 0.00022683 -.00007442
4 -.00032733 -.00009843 -.00128060 0.00201621 -.00007442 9.540E-06
5 0.00011887 0.00043615 0.00022683 -.00007442 0.00277969 -.00128060
6 -.00009843 -.00032733 -.00007442 9.540E-06 -.00128060 0.00201621
1 2 3 4 5 6
---------------------------------------------------------------------------
1 1.0000000 0.0460711 0.2416681 -0.2129562 0.0658620 -0.0640375
2 0.0460711 1.0000000 0.0658620 -0.0640375 0.2416681 -0.2129562
3 0.2416681 0.0658620 1.0000000 -0.5409360 0.0816042 -0.0314360
4 -0.2129562 -0.0640375 -0.5409360 1.0000000 -0.0314360 0.0047318
5 0.0658620 0.2416681 0.0816042 -0.0314360 1.0000000 -0.5409360
6 -0.0640375 -0.2129562 -0.0314360 0.0047318 -0.5409360 1.0000000
-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
1 1 0.56521739 0.10336653 0.56521739 0.10336653 0
2 1 0.6 0.06928203 0.6 0.06928203 0
3 1 0.5 0.08111071 0.5 0.08111071 0
4 1 0.51724138 0.09279245 0.51724138 0.09279245 0
5 1 0.6 0.07302967 0.6 0.07302967 0
6 1 0.25806452 0.07858983 0.25806452 0.07858983 0
CATMOD PROCEDURE
POPULATION PROFILES
Sample
Sample DROGA HISTORIA Size
---------------------------------
1 1 1 23
2 1 2 50
3 1 3 38
4 2 1 29
5 2 2 45
6 2 3 31
RESPONSE PROFILES
Response RESULTA
-----------------
1 1
2 2
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 169
Response
Sample Function Variance
----------------------------
1 0.5652 0.0107
2 0.6000 0.004800
3 0.5000 0.006579
4 0.5172 0.008610
5 0.6000 0.005333
6 0.2581 0.006176
DESIGN MATRIX
Sample 1 2 3 4
-------------------------------------
1 1 1 1 0
2 1 1 0 1
3 1 1 -1 -1
4 1 -1 1 0
5 1 -1 0 1
6 1 -1 -1 -1
ANALYSIS-OF-VARIANCE TABLE
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.5060 0.0341 219.68 0.0000
DROGA 2 0.0469 0.0330 2.01 0.1562
HISTORIA 3 0.0377 0.0525 0.52 0.4728
170 CAPÍTULO 11. LA APROXIMACIÓN GSK
1 2 3 4
-------------------------------------------------------------------
1 0.00116535 0.00003146 0.00042737 -.00032490
2 0.00003146 0.00109213 0.00008594 -.00008894
3 0.00042737 0.00008594 0.00276055 -.00127400
4 -.00032490 -.00008894 -.00127400 0.00201379
1 2 3 4
-------------------------------------------------------------------
1 1.0000000 0.0278901 0.2382772 -0.2120876
2 0.0278901 1.0000000 0.0494942 -0.0599758
3 0.2382772 0.0494942 1.0000000 -0.5403377
4 -0.2120876 -0.0599758 -0.5403377 1.0000000
-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
1 1 0.56521739 0.10336653 0.59054922 0.07815105 -0.0253318
2 1 0.6 0.06928203 0.64439464 0.05921582 -0.0443946
3 1 0.5 0.08111071 0.4235543 0.06593795 0.0764457
4 1 0.51724138 0.09279245 0.4968272 0.07508645 0.02041418
11.4. APLICACIONES 171
11.4. Aplicaciones
11.4.1. Modelo de Dos Clasificaciones
Después de una cirugı́a de úlcera duodenal puede quedar una molestia
conocida como el sı́ndrome de descarga. La siguiente tabla presenta la
información correspondiente a varios pacientes sometidos a la cirugı́a.
Hospital Procedimiento Evaluación Clı́nica del Sı́ndrome
Qurirúrgico Ninguno Ligero Moderado Score Promedio
1 A 23 7 2 1.3
B 23 10 5 1.5
C 20 13 5 1.6
D 24 10 6 1.6
2 A 18 6 1 1.3
B 18 6 2 1.4
C 13 13 2 1.6
D 9 15 2 1.7
3 A 8 6 3 1.7
B 12 4 4 1.6
C 11 6 2 1.5
D 7 7 4 1.8
4 A 12 9 1 1.5
B 15 3 2 1.4
C 14 8 3 1.6
D 13 6 4 1.6
donde
A: drenaje y vagotomı́a
B: 25 % antrectomı́a y vagotomı́a
C: 50 % hemigastrectomı́a y vagotomı́a
D: resección
El score medio de cada tratamiento dentro de cada hospital se calculó como
Entonces
1 2 3 0 0 0 0 0 0 ··· 0 0 0
0 0 0 1 2 3 0 0 0 ··· 0 0 0
A16×48 =
.. .. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . . .
0 0 0 0 0 0 0 0 0 ··· 1 2 3
172 CAPÍTULO 11. LA APROXIMACIÓN GSK
La matriz de diseño es
1 1 0 0 1 0 0
1 1 0 0 0 1 0
1 1 0 0 0 0 1
1
1 0 0 −1 −1 −1
1 0 1 0 1 0 0
1
µ
0 1 0 0 1 0
α1
1 0 1 0 0 0 1
α2
1 0 1 0 −1 −1 −1
β7×1 = α3
X16×7 = 1
0 0 1 1 0 0
τ1
1 0 0 1 0 1 0
τ2
1 0 0 1 0 0 1
τ3
1
0 0 1 −1 −1 −1
1 −1 −1 −1 1 0 0
1 −1 −1 −1 0 1 0
1 −1 −1 −1 0 0 1
1 −1 −1 −1 −1 −1 −1
donde
µ: efecto promedio general
αi : efecto diferencial del i-ésimo hospital, i = 1, 2, 3
τj : efecto diferencial del j-ésimo tratamiento, j = 1, 2, 3
El parámetro α4 puede calcularse como α4 = −α1 − α2 − α3 y la de τ4
como τ4 = −τ1 − τ2 − τ3 .
Las estimaciones de los parámetros son
µ̂ = 1,54
α̂1 = −0,04 α̂2 = −0,04 α̂3 = 0,11 α̂4 = −0,03
τ̂1 = −0,11 τ̂2 = −0,07 τ̂3 = 0,05 τ̂4 = 0,13
Las siguientes matrices C son utilizadas para calcular las sumas de cuadra-
dos para efectos de tratamientos ajustadas por hospital y para hospitales
ajustadas por tratamientos
0 1 0 0 0 0 0
CHospital = 0 0 1 0 0 0 0
0 0 0 1 0 0 0
y
0 0 0 0 1 0 0
CT ratamientos = 0 0 0 0 0 1 0
0 0 0 0 0 0 1
La tabla de análisis de varianza asociada es
Fuente de Variación Suma de Cuadrados Grados de Lbertad
Hospitales 2.33 3
Tratamientos 8.90 3
Error 6.32 9
11.4. APLICACIONES 173
DATA dumping;
DO evalua=1 TO 3;
DO proc_qui=1 TO 4;
DO hospital=1 TO 4;
INPUT frecuen @@;OUTPUT;
END;END;END;
CARDS;
23 23 20 24 18 18 13 9 8 12 11 7 12 15 14 13
7 10 13 10 6 6 13 15 6 4 6 7 9 3 8 6
2 5 5 6 1 2 2 2 3 4 2 4 1 2 3 4
;
QUIT;
CATMOD PROCEDURE
POPULATION PROFILES
Sample
Sample PROC_QUI HOSPITAL Size
------------------------------------
1 1 1 32
2 1 2 38
3 1 3 38
4 1 4 40
5 2 1 25
6 2 2 26
7 2 3 28
8 2 4 26
174 CAPÍTULO 11. LA APROXIMACIÓN GSK
9 3 1 17
10 3 2 20
11 3 3 19
12 3 4 18
13 4 1 22
14 4 2 20
15 4 3 25
16 4 4 23
RESPONSE PROFILES
Response EVALUA
----------------
1 1
2 2
3 3
ANALYSIS-OF-VARIANCE TABLE
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 1.5449 0.0345 1999.88 0.0000
PROC_QUI 2 -0.0408 0.0527 0.60 0.4388
3 -0.0356 0.0535 0.44 0.5055
4 0.1061 0.0703 2.28 0.1312
HOSPITAL 5 -0.1105 0.0541 4.17 0.0411
6 -0.0730 0.0579 1.59 0.2073
7 0.0496 0.0560 0.78 0.3757
0 1 1 1 −1 0 0 0 −1 0 0 0 −1 0 0 0
0 −1 0 0 1 0 1 1 0 −1 0 0 0 −1 0 0
A4×16 =
0 0 −1 0 0 0 −1 0 1 1 0 1 0 0 −1 0
0 0 0 −1 0 0 0 −1 0 0 0 −1 1 1 1 0
π11
π12
π13
π16×1 = π14
π21
..
.
π44
0,1507 −0,0894 −0,0430
Σ̂f ∗ = 10−4 0,2601 −0,1420
0,2538
DATA ojos;
DO izquier=1 TO 4;
DO derecho=1 TO 4;
INPUT frecu @@;OUTPUT;
END;END;
CARDS;
1520 266 124 66 234 1512 432 78 117 362 1772 205 36 82 179 492
;
11.4. APLICACIONES 177
QUIT;
CATMOD PROCEDURE
Sample
Sample Size
----------------
1 7477
RESPONSE PROFILES
14 4 2
15 4 3
16 4 4
RESPONSE FREQUENCIES
Response Number
Sample 1 2 3 4 5 6
------------------------------------------------------------
1 1520 266 124 66 234 1512
RESPONSE FREQUENCIES
Response Number
Sample 7 8 9 10 11 12
------------------------------------------------------------
1 432 78 117 362 1772 205
RESPONSE FREQUENCIES
Response Number
Sample 13 14 15 16
------------------------------------------
1 36 82 179 492
ANALYSIS-OF-VARIANCE TABLE
RESIDUAL 0 . .
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.2597 0.00468 3073.03 0.0000
2 0.2995 0.00464 4160.17 0.0000
3 0.3319 0.00483 4725.25 0.0000
TIME 4 0.00461 0.00194 5.65 0.0174
5 0.00227 0.00255 0.80 0.3726
6 -0.00341 0.00252 1.83 0.1757
K log(Am) = Xβ
DATA tratam;
DO A=1 TO 2;
DO B=1 TO 2;
DO C=1 TO 2;
INPUT frecu @@;OUTPUT;
END;END;END;
CARDS;
6 16 2 4 2 4 6 6
;
PROC CATMOD;
WEIGHT frecu;
RESPONSE MARGINALS;
MODEL A*B*C=_RESPONSE_;
REPEATED TIME 3/_RESPONSE_=TIME;
RUN;
QUIT;
CATMOD PROCEDURE
Sample
Sample Size
1 46
11.4. APLICACIONES 181
RESPONSE PROFILES
Response A B C
1 1 1 1
2 1 1 2
3 1 2 1
4 1 2 2
5 2 1 1
6 2 1 2
7 2 2 1
8 2 2 2
1 1 0.60870 1 1 0
2 0.60870 1 0 1
3 0.34783 1 -1 -1
ANALYSIS-OF-VARIANCE TABLE
RESIDUAL 0 . .
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.5217 0.0431 146.84 0.0000
182 CAPÍTULO 11. LA APROXIMACIÓN GSK
data nacidos;
input institu $ nacimien $ peso $ frec;
cards;
oficial vivo menos 4757
oficial muerto menos 430
privado vivo menos 5148
privado muerto menos 464
oficial vivo mas 38360
11.5. MODELOS LOGLINEALES VS. MODELOS POR GSK 183
proc catmod;
weight frec;
response 1 0;
model nacimien=institu peso institu*peso/freq prob predict oneway;
title ’Ilustracion del Metodo GSK’;
title2 ’=========================================’;
run;
quit;
CATMOD PROCEDURE
ONE-WAY FREQUENCIES
POPULATION PROFILES
Sample
Sample INSTITU PESO Size
--------------------------------
1 oficial mas 38566
2 oficial menos 5187
184 CAPÍTULO 11. LA APROXIMACIÓN GSK
RESPONSE PROFILES
Response NACIMIEN
------------------
1 muerto
2 vivo
RESPONSE FREQUENCIES
Response Number
Sample 1 2
------------------------
1 206 38360
2 430 4757
3 210 42307
4 464 5148
RESPONSE PROBABILITIES
Response Number
Sample 1 2
------------------------
1 0.00534 0.99466
2 0.0829 0.9171
3 0.00494 0.99506
4 0.08268 0.91732
ANALYSIS-OF-VARIANCE TABLE
Source DF Chi-Square Prob
--------------------------------------------------
INTERCEPT 1 1088.01 0.0000
INSTITU 1 0.01 0.9071
11.5. MODELOS LOGLINEALES VS. MODELOS POR GSK 185
RESIDUAL 0 . .
Datos Ordinales
187
Capı́tulo 12
189
190 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES
Definimos los logits sucesivos por λ∗1 , λ∗2 , ..., λ∗I−1 por
∗ πi
λi (π) = ln , i = 1, 2, ..., I − 1
πi+1
0
λ∗ = [λ∗1 , λ∗2 , ..., λ∗I−1 ] es una función 1-1 de los λ. Tenemos que
∗ πi πi+1
λi = ln − ln = λi − λi+1 , i = 1, 2, ..., I − 1
πI πI
I−1
πi πi+1 πI−1 X
λi = ln · ··· = λ∗i , i = 1, ..., I − 1
πi+1 πi+2 πI j=1
1
M : πi = , para todo i = 1, 2, ..., I
I
o equivalentemente
M : λ = 0 o M : λ∗ = 0
el estadı́stico de Wald.
o equivalentemente
o equivalentemente
1
0 ··· 0
π1
1
0 π2 ··· 0
F(ζ) =
.. .. .. ..
. . . .
1
0 0 ··· πI−1
π1 (1 − π1 ) −π1 π2 ··· −π1 πI−1
−π2 π1 π2 (1 − π2 ) −π2 πI−1
Σ(ζ) =
.. .. .. ..
. . . .
−πI−1 π1 −πI−1 π2 ··· πI (1 − πI−1 )
1−π1
π1 −1 ··· −1
−1 1−π2
π2 ··· −1
T
M(ζ) = F(ζ)Σ(ζ)F (ζ) =
.. .. .. ..
. . . .
1−πI−1
−1 −1 πI−1
−1
= (Diag(π)) − 11T
Intervalo de Número de
Tiempo (min.) Goles
00-15 128
16-30 140
31-45 147
46-60 169
61-75 170
76-90 198
194 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES
*******************************************;
* Programa en SAS-IML para ajustar un *;
* modelo para tendencia de probabilidad *;
*******************************************;
proc iml;
mserr=ssq(resid)/(5-1);
var_cov=inv(t(X)*M1*X)*mserr;
print ’MSE=’ mserr;
print ’Matriz de Varianzas y Covarianzas de los estimadores’;
print var_cov;
pi_est=exp(logits)/(1+sum(exp(logits)));
temp=1-sum(pi_est);
pi_est=pi_est//temp;
print ’Probabilidades estimadas’ pi_est;
goles_est=sum(goles)*pi_est;
print goles_est;
quit;
LAMBDA
-0.436237
-0.346625
-0.297834
-0.158368
-0.152469
PI
0.1344538
0.1470588
0.1544118
0.177521
0.1785714
M
6.4375 -1 -1 -1 -1
-1 5.8 -1 -1 -1
-1 -1 5.4761905 -1 -1
-1 -1 -1 4.6331361 -1
-1 -1 -1 -1 4.6
THETA
-0.092581
LOGITS
196 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES
RESID
Residuales 0.0266672
0.0236985
-0.020092
0.0267933
-0.059888
MSERR
MSE= 0.0014952
VAR_COV
0.000046
PI_EST
Probabilidades estimadas 0.1305919
0.1432595
0.1571559
0.1724004
0.1891235
0.2074688
GOLES_ES
124.32347
136.38307
149.61246
164.12514
180.04556
197.5103
12.3. MODELOS ORDINALES BIDIMENSIONALES 197
B
B1 B2 ··· BJ Total
A1 n11 n12 ··· n1J n1+
A2 n21 n22 ··· n2J n2+
.. .. .. .. .. ..
. . . . . .
AI nI1 nI2 ··· nIJ nI+
Total n+1 n+2 ··· n+J n++
log(mij ) = µ + λA B AB
i + λj + λij
proc iml;
cota=0.0001;
difmax=10000;
datos={61 28 7,
68 23 13,
58 40 12,
53 38 16};
u={1,2,3,4};
v={1,2,3};
u=u/sqrt(t(u)*u);
v=v/sqrt(t(v)*v);
uivj=u*t(v);
unouivj=j(nrow(datos),ncol(datos),1)-uivj;
nimas=datos[,+];
nmasj=datos[+,];
m=j(nrow(datos),ncol(datos),1);
mviejo=m;
ss1=t(u)*datos*v;
ss2=sum(datos)-ss1;
do while(difmax>cota);
mimas=m[,+];
m=hdir((nimas/mimas),m);
mmasj=m[+,];
m=hdir(t(nmasj/mmasj),t(m));
m=t(m);
12.3. MODELOS ORDINALES BIDIMENSIONALES 199
ss3=t(u)*m*v;
ss4=sum(m)-ss3;
t1=ss1/ss3;
t2=ss2/ss4;
temp11=j(nrow(datos),ncol(datos),t1);
temp12=j(nrow(datos),ncol(datos),t2);
temp1=(temp11)##uivj;
temp2=(temp12)##unouivj;
m=m#temp1#temp2;
difmax=max(abs(m-mviejo));
mviejo=m;
end;
g2=2*sum(datos#log(datos/m));
gl=(nrow(datos)-1)*(ncol(datos)-1)-1;
quit;
log(mij ) = µ + λA B
i + λj + τi (vj − v̄)
X X X
λA
i = λB
j = τi = 0
Paso 1: !
(t+1) ni+ (t)
mij = (t)
mij
mi+
Paso 2: !
(t+2) n+j (t+1)
mij = (t+1)
mij
m+j
Paso 3:
!vj∗ !1−vj∗
∗ ∗
P P
(t+3) b vb nib b (1 − vb ) nib (t+2)
mij = (t+2) (t+2)
mij
∗ ∗
P P
b vb mib b (1 − vb ) mib
donde los los vj∗ son los scores luego de un re-escalamiento de tal forma
que 0 ≤ vj∗ ≤ 1.
DATA dumping;
DO severida=1 TO 3;
DO hospital=1 TO 4;
DO operacio=1 TO 4;
INPUT frecuen @@;OUTPUT;
END;END;END;
CARDS;
23 23 20 24 18 18 13 9 8 12 11 7 12 15 14 13
7 10 13 10 6 6 13 15 6 4 6 7 9 3 8 6
2 5 5 6 1 2 2 2 3 4 2 4 1 2 3 4
;
RUN;
QUIT;
CATMOD PROCEDURE
POPULATION PROFILES
Sample
Sample OPERACIO HOSPITAL Size
------------------------------------
1 1 1 32
2 1 2 25
3 1 3 17
4 1 4 22
5 2 1 38
6 2 2 26
7 2 3 20
8 2 4 20
9 3 1 38
10 3 2 28
11 3 3 19
12 3 4 25
13 4 1 40
14 4 2 26
15 4 3 18
16 4 4 23
RESPONSE PROFILES
Response SEVERIDA
------------------
1 1
2 2
202 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES
3 3
ANALYSIS-OF-VARIANCE TABLE
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
12.3. MODELOS ORDINALES BIDIMENSIONALES 203
-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
1 1 -0.9382696 0.39317855 -0.6748231 0.61012479 -0.2634466
2 -2.7080502 0.73029674 -2.4678746 0.61012479 -0.2401756
-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
16 1 -0.2623643 0.42062225 -0.1011445 0.57631128 -0.1612198
2 -1.5581446 0.5501196 -1.613473 0.57631128 0.0553284
CATMOD PROCEDURE
POPULATION PROFILES
Sample
Sample HOSPITAL OPERACIO Size
------------------------------------
1 1 1 32
2 1 2 38
3 1 3 38
4 1 4 40
5 2 1 25
6 2 2 26
7 2 3 28
8 2 4 26
9 3 1 17
10 3 2 20
11 3 3 19
12 3 4 18
13 4 1 22
14 4 2 20
15 4 3 25
16 4 4 23
RESPONSE PROFILES
Response SEVERIDA
------------------
1 1
2 2
3 3
2 -0.42744 -1.88707 1 2 1 0 0
3 -0.10536 -1.88707 1 3 1 0 0
4 -0.40547 -1.73460 1 4 1 0 0
5 -0.94446 -3.17805 1 1 0 1 0
6 -0.81093 -2.48491 1 2 0 1 0
7 0.14310 -2.56495 1 3 0 1 0
8 0.63599 -2.48491 1 4 0 1 0
9 0.11778 -1.54045 1 1 0 0 1
10 -0.40547 -1.38629 1 2 0 0 1
11 -0.31845 -2.14007 1 3 0 0 1
12 0.45199 -1.25276 1 4 0 0 1
13 -0.18232 -3.04452 1 1 -1 -1 -1
14 -1.09861 -2.19722 1 2 -1 -1 -1
15 -0.24116 -1.99243 1 3 -1 -1 -1
16 -0.26236 -1.55814 1 4 -1 -1 -1
ANALYSIS-OF-VARIANCE TABLE
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 -0.8499 0.2599 10.70 0.0011
2 -2.4991 0.4284 34.03 0.0000
OPERACIO 3 0.2224 0.0924 5.79 0.0161
4 0.2015 0.1448 1.93 0.1643
HOSPITAL 5 -0.1672 0.1592 1.10 0.2934
6 0.0137 0.2407 0.00 0.9547
7 0.0651 0.1790 0.13 0.7161
8 -0.5813 0.3198 3.30 0.0691
9 0.2224 0.1963 1.28 0.2573
10 0.5085 0.2714 3.51 0.0609
12.3. MODELOS ORDINALES BIDIMENSIONALES 207
-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
1 1 -0.9382696 0.39317855 -0.7946677 0.5037383 -0.1436019
2 -2.7080502 0.73029674 -2.2839877 0.5037383 -0.4240625
-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
16 1 -0.2623643 0.42062225 -0.0804932 0.53719297 -0.181871
2 -1.5581446 0.5501196 -1.6341629 0.53719297 0.07601828
prop.trend.test <-
function (x, n, score = 1:length(x))
{
method <- "Chi Square Test for Trend in Proportions"
dname <- paste(deparse(substitute(x)), "out of", deparse(substitute(n)))
dname <- paste(dname, ",\n using scores:", paste(score, collapse = " "))
freq <- x/n
p <- sum(x)/sum(n)
freq <- x/n
p <- sum(x)/sum(n)
w <- n/p/(1 - p)
a <- anova(lm(freq ~ score, weight = w))
chisq <- a["score", "Sum Sq"]
names(chisq) <- "X-squared"
df <- 1
names(df) <- "df"
pval <- 1 - pchisq(chisq, 1)
rval <- list(statistic = chisq, parameter = df, p.value = pval,
method = method, data.name = dname)
class(rval) <- "htest"
return(rval)
12.3. MODELOS ORDINALES BIDIMENSIONALES 209
}
210 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES
Parte V
211
Capı́tulo 13
Regresión Logı́stica y
Modelo Logit
213
214 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
por lo tanto
var(i ) = πi (1 − πi )2 + (1 − πi )(−πi )2 = πi (1 − πi )
Transformaciones en π
πi = P (α + βxi )
Entonces tenemos
πi = Φ(α + βxi ) ←−conocido como modelo lineal probit y
1
πi = Λ(α + βxi ) = 1+exp{−(α+βxi )} ←−conocido como modelo lineal
logı́stico o logit.
Es un poco más ventajoso trabajar con el modelo logit por cuestiones de
interpretación. Haciendo
1
= 1 + exp {−(α + βxi )}
πi
1
− 1 = exp {−(α + βxi )}
πi
πi
= exp(α + βxi )
1 − πi
πi
log = α + βxi
1 − πi
−1 πi
Λ (πi ) = log
1 − πi
1
πi = Λ(xTi β) =
1 + exp(−xTi β)
πi
Λ−1 (πi ) = log = xTi β
1 − πi
Pn Pn
log (L(β)) = i=1 yi xTi β − i=1 log 1 + exp(xTi β)
n n
∂ log L(β) X X exp(xTi β)
= yi xi − xi
∂β i=1 i=1
1 + exp(xTi β)
n n
∂ log L(β) X X 1
= yi xi − xi
∂β i=1 i=1
1 + exp(−xTi β)
En forma matricial es
XT p = XT y
donde p = (p1 , p2 , ..., pn )T . La matriz de información es
2
∂ log L(β)
I(β) = −E
∂β∂β T
πx
log = α + βx
1 − πx
Cuando x = 0 entonces el modelo será:
π0
log =α
1 − π0
y cuando x = 1 el modelo será
π1
log =α+β
1 − π1
Por lo tanto
π1
π1 π0 1−π1
β = log − log = log = log (ψ)
1 − π1 1 − π0 π0
1−π0
resultado<-matrix(c(4757,430,5148,464),ncol=2,byrow=T)
tipo<-c(’Oficial’,’Privado’)
res<-glm(resultado~as.factor(tipo),family=binomial)
summary(res)
Call:
glm(formula = resultado ~ as.factor(tipo), family = binomial)
Deviance Residuals:
[1] 0 0
218 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.403587 0.050357 47.731 <2e-16 ***
as.factor(tipo)Privado 0.002892 0.069894 0.041 0.967
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> res$fitted.values
[1] 0.9171004 0.9173200
>
>
> 4757/(4757+430)
[1] 0.9171004
>
> 5148/(5148+464)
[1] 0.91732
>
> 4757*464/(5148*430)
[1] 0.9971124
> log(4757*464/(5148*430))
[1] -0.002891729
>
Accidental Violenta
1 1336 6062
2 97 244
3 45 171
4 85 390
5 97 433
6 51 424
7 267 951
8 150 766
9 161 644
muerte<-matrix(c(
1336,6062,97,244,45,171,85,390,
97,433,51,424,267,951,150,766,
161,644),ncol=2,byrow=T)
region<-c(’Valle de Aburrá’,
’Bajo Cauca’,
’Magd. Medio’,
’Nordeste’,
’Norte’,
’Occidente’,
’Oriente’,
’Suroeste’,
’Urabá’)
res<-glm(muerte~as.factor(region),family=binomial)
summary(res)
Call:
glm(formula = muerte ~ as.factor(region), family = binomial)
Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
220 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
> res<-glm(muerte~as.factor(1:nrow(muerte)),family=binomial)
> summary(res)
Call:
glm(formula = muerte ~ as.factor(1:nrow(muerte)), family = binomial)
Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.51236 0.03022 -50.039 < 2e-16 ***
as.factor(1:nrow(muerte))2 0.58990 0.12378 4.766 1.88e-06 ***
as.factor(1:nrow(muerte))3 0.17736 0.17025 1.042 0.29751
as.factor(1:nrow(muerte))4 -0.01114 0.12346 -0.090 0.92813
as.factor(1:nrow(muerte))5 0.01633 0.11633 0.140 0.88834
as.factor(1:nrow(muerte))6 -0.60555 0.15126 -4.003 6.25e-05 ***
as.factor(1:nrow(muerte))7 0.24209 0.07557 3.204 0.00136 **
as.factor(1:nrow(muerte))8 -0.11819 0.09426 -1.254 0.20992
as.factor(1:nrow(muerte))9 0.12607 0.09315 1.353 0.17595
---
13.1. ESTIMACIÓN DEL MODELO LOGÍSTICO POR MÁXIMA VEROSIMILITUD221
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> res$fitted.values
[1] 0.1805893 0.2844575 0.2083333 0.1789474 0.1830189 0.1073684 0.2192118
[8] 0.1637555 0.2000000
> region<-as.factor(c(1,2,1,1,1,6,7,1,1))
> res2<-glm(muerte~region,family=binomial)
> summary(res2)
Call:
glm(formula = muerte ~ region, family = binomial)
Deviance Residuals:
[1] -1.449e-01 2.075e-07 1.015e+00 -1.298e-01 1.063e-01 0.000e+00
[7] -4.944e-07 -1.392e+00 1.364e+00
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.50798 0.02553 -59.069 < 2e-16 ***
region2 0.58553 0.12272 4.771 1.83e-06 ***
region6 -0.60992 0.15039 -4.056 5.00e-05 ***
region7 0.23772 0.07381 3.220 0.00128 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> res2$fitted.values
[1] 0.1812379 0.2844575 0.1812379 0.1812379 0.1812379 0.1073684 0.2192118
[8] 0.1812379 0.1812379
>
222 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
data uno;
input x y frec;
cards;
0 0 4757
0 1 430
1 0 5148
1 1 464 ;
proc catmod;
direct x;
model y=x;
weight frec;
run;
POPULATION PROFILES
Sample
Sample X Size
1 0 5187
2 1 5612
RESPONSE PROFILES
Response Y
1 0
2 1
13.1. ESTIMACIÓN DEL MODELO LOGÍSTICO POR MÁXIMA VEROSIMILITUD223
MAXIMUM-LIKELIHOOD ANALYSIS
Sub -2 Log Convergence Parameter Estimates
Iteration Iteration Likelihood Criterion 1 2
0 0 14970.593 1.0000 0 0
1 0 6713.0314 0.5516 1.6684 0.000878
2 0 6190.9811 0.0778 2.2358 0.001986
3 0 6166.7645 0.003912 2.3926 0.002771
4 0 6166.6642 0.0000163 2.4035 0.002891
5 0 6166.6642 3.407E-10 2.4036 0.002892
LIKELIHOOD RATIO 0 . .
options ls=70;
data uno;
input rebaja nhogares ncupones;
cards;
5 200 32
10 200 51
15 200 70
20 200 103
30 200 148
;
Response Profile
Ordered Binary
Value Outcome Count
1 EVENT 404
2 NO EVENT 596
Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio
INTERCPT 0.112
REBAJA 1.115
*************************************************;
* Ejemplo en SAS de Regresion Logistica con *;
* datos ergonomicos. *;
* Var. Dependiente: SEXO 1:Hombre 5:Mujer *;
* Var. Indep. p27: Longitud del pie (cms) *;
* p29: Longitud de la mano (cms) *;
*************************************************;
data temp;
set chucho.nuevo;
proc logistic;
model sexo=p27 p29/covb;
title ’Regresion Logistica para Predecir el Sexo a’;
title2 ’partir de las longitudes del pie y la mano’;
run;
quit;
Response Profile
Ordered
Value SEXO Count
1 1 1315
2 5 785
Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
SC 2783.648 1428.949 .
-2 LOG L 2775.999 1406.000 1369.999 with 2 DF (p=0.0001)
Score . . 1022.656 with 2 DF (p=0.0001)
data icfes;
infile ’c:\datos\icfes.dat’;
input sexo $ ano biologia quimica
fisica sociales apt_verb espanol
apt_mate con_mate electiva opcion $;
proc logistic;
model sexo= biologia quimica
fisica sociales apt_verb espanol
apt_mate con_mate electiva/selection=b;
title ’Seleccion del Modelo HACIA ATRAS’;
run;
proc logistic;
model sexo= biologia quimica
fisica sociales apt_verb espanol
apt_mate con_mate electiva/selection=f;
title ’Seleccion del Modelo HACIA ADELANTE’;
run;
proc logistic;
model sexo= biologia quimica
fisica sociales apt_verb espanol
apt_mate con_mate electiva/selection=s;
title ’Construccion del Modelo STEPWISE’;
run;
quit;
13.2. CONSTRUYENDO UN MODELO LOGÍSTICO 229
Response Profile
Ordered
Value SEXO Count
1 F 74
2 M 58
Odds
Variable Ratio
INTERCPT 999.000
FISICA 0.771
SOCIALES 0.894
ESPANOL 1.199
13.2. CONSTRUYENDO UN MODELO LOGÍSTICO 233
Response Profile
Ordered
Value SEXO Count
1 F 74
2 M 58
Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio
INTERCPT 999.000
FISICA 0.771
SOCIALES 0.894
ESPANOL 1.199
Response Profile
Ordered
Value SEXO Count
1 F 74
2 M 58
Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio
INTERCPT 999.000
FISICA 0.771
SOCIALES 0.894
ESPANOL 1.199
b ) y V y s evaluados en β `
donde s = (y − y
Los valores ajustados ni π
bi = ybi
bi (1 − π
La varianza estimada de yi es νii = ni π bi )
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 239
si (yi − ni πbi )
χi = √ =p
νii bi (1 − π
ni π bi )
f) La deviance h i
D = −2 ` X β;
b y − ` θ;
by
donde ` θ;
b y : Máximo de la función log-verosimilitud basada en ajustar
cada punto exactamente. θi = log nyii .
Para la regresión logı́stica los elementos fundamentales para la detección
de puntos outliers e influenciales son un vector de residuales y una matriz
de proyección X
D= d2i
donde
√ n o 1
b yi 2
di = ± 2 ` θbi ; yi − ` xi T β;
********************************************************;
* Ejemplo en SAS de DIAGNOSTICOS en regresion logistica*;
* Variable Dependiente: Accidentado (1=Si, 0=No) *;
* Variable Independiente: Velocidad (Km/Hora) *;
********************************************************;
data uno;
input veloc acciden @@;
cards;
55 1 36 0 45 0 60 1 65 1 55 0 48 1 47 0 53 0
;
proc logistic;
model acciden=veloc/influence iplots;
run;
quit;
Response Profile
Ordered
Value ACCIDEN Count
1 0 5
2 1 4
Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 241
Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio
INTERCPT 999.000
VELOC 0.790
1 55.0000 -0.8174 | * | |
2 36.0000 0.1299 | |* |
3 45.0000 0.3758 | | * |
4 60.0000 -0.4530 | * | |
5 65.0000 -0.2511 | *| |
6 55.0000 1.2234 | | * |
7 48.0000 -1.8675 |* | |
8 47.0000 0.4759 | | * |
9 53.0000 0.9662 | | * |
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 243
Regression Diagnostics
Deviance Residual
Case (1 unit = 0.22)
Number Value -8 -4 0 2 4 6 8
1 -1.0116 | * | |
2 0.1829 | |* |
3 0.5140 | | * |
4 -0.6110 | * | |
5 -0.3497 | * | |
6 1.3528 | | * |
7 -1.7328 |* | |
8 0.6389 | | * |
9 1.1483 | | * |
Regression Diagnostics
Hat Matrix Diagonal
Case (1 unit = 0.02)
Number Value 0 2 4 6 8 12 16
1 0.2054 | * |
2 0.1322 | * |
3 0.2508 | * |
4 0.2951 | *|
5 0.2583 | * |
6 0.2054 | * |
7 0.2297 | * |
8 0.2413 | * |
9 0.1818 | * |
244 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
Regression Diagnostics
INTERCPT Dfbeta
1 0.1370 | |* |
2 0.0533 | * |
3 0.2210 | | * |
4 0.2600 | | * |
5 0.1504 | |* |
6 -0.2050 | * | |
7 -0.8625 |* | |
8 0.2472 | | * |
9 0.0296 | * |
Regression Diagnostics
VELOC Dfbeta
Case (1 unit = 0.1)
Number Value -8 -4 0 2 4 6 8
1 -0.1806 | * | |
2 -0.0519 | *| |
3 -0.2080 | * | |
4 -0.2819 | * | |
5 -0.1580 | * | |
6 0.2702 | | * |
7 0.7808 | | *|
8 -0.2277 | * | |
9 0.0205 | * |
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 245
Regression Diagnostics
C
Case (1 unit = 0.08)
Number Value 0 2 4 6 8 12 16
1 0.2173 | * |
2 0.00296 |* |
3 0.0631 | * |
4 0.1219 | * |
5 0.0296 |* |
6 0.4868 | * |
7 1.3496 | *|
8 0.0949 | * |
9 0.2536 | * |
Regression Diagnostics
CBAR
Case (1 unit = 0.06)
Number Value 0 2 4 6 8 12 16
1 0.1727 | * |
2 0.00257 |* |
3 0.0473 | * |
4 0.0859 | * |
5 0.0220 |* |
6 0.3868 | * |
7 1.0397 | *|
8 0.0720 | * |
9 0.2075 | * |
246 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
1 1.1961 | * |
2 0.0360 |* |
3 0.3115 | * |
4 0.4593 | * |
5 0.1442 | * |
6 2.2168 | * |
7 4.0422 | *|
8 0.4803 | * |
9 1.5261 | * |
Regression Diagnostics
DIFCHISQ
Case (1 unit = 0.28)
Number Value 0 2 4 6 8 12 16
1 0.8408 | * |
2 0.0194 |* |
3 0.1885 | * |
4 0.2912 | * |
5 0.0850 |* |
6 1.8836 | * |
7 4.5270 | *|
8 0.2985 | * |
9 1.1409 | * |
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 247
-+------------------------+------------------------+--
P RESCHI | |
e | |
a 2 + +
r | |
s | . |
o 1 + . +
n | |
| . . |
R 0 + . +
e | . . |
s | . |
i -1 + +
d | |
u | |
a -2 + . +
l | |
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
-+------------------------+------------------------+--
D RESDEV | |
e | |
v 2 + +
i | |
a | . |
n 1 + . +
c | . . |
e | . |
0 + +
R | . |
e | . |
s -1 + . +
i | |
d | . |
u -2 + +
a | |
l -+------------------------+------------------------+--
0 5 10
Case Number INDEX
248 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
-+------------------------+------------------------+--
H | |
0.3 + . +
H | |
a | |
t | . . |
| . |
D | . |
i | |
a 0.2 + . . +
g | . |
o | |
n | |
a | |
l | . |
| |
0.1 + +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
--+------------------------+------------------------+--
I 0.5 + +
N | |
T | . |
E | . . . |
R | . . |
C 0.0 + . +
P | |
T DFBETA0 | . |
| |
D | |
f -0.5 + +
b | |
e | |
t | |
a | . |
-1.0 + +
--+------------------------+------------------------+--
0 5 10
Case Number INDEX
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 249
--+------------------------+------------------------+--
V 1.0 + +
E | |
L | . |
O | |
C | |
0.5 + +
| |
DFBETA1 | . |
| |
D | |
f 0.0 + . +
b | . |
e | . . . . |
t | . |
a | |
-0.5 + +
--+------------------------+------------------------+--
0 5 10
Case Number INDEX
-+------------------------+------------------------+--
C 1.5 + +
I | |
| . |
D | |
i | |
s 1.0 + +
p | |
l C | |
a | |
c | |
e 0.5 + . +
m | |
e | . |
n | . |
t | . . . |
0.0 + . . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
250 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
-+------------------------+------------------------+--
C 1.5 + +
I | |
| |
D | |
i | |
s 1.0 + . +
p | |
l CBAR | |
a | |
c | |
e 0.5 + +
m | . |
e | |
n | . . |
t | . . |
0.0 + . . . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
-+------------------------+------------------------+--
DIFDEV | |
D 4 + . +
e | |
l | |
t | |
a | |
| |
D | . |
e 2 + +
v | |
i | . |
a | . |
n | |
c | . . |
e | . . |
0 + . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 251
-+------------------------+------------------------+--
D 6 + +
e | |
l | |
t | |
a | . |
4 + +
C | |
h DIFCHISQ | |
i | |
S | |
q 2 + . +
u | |
a | . |
r | . |
e | . . |
0 + . . . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
252 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
Capı́tulo 14
Regresión Logı́stica
Multinomial
exp(xTi γj )
πij = Pm T
l=1 exp(xi γl )
253
254 CAPÍTULO 14. REGRESIÓN LOGÍSTICA MULTINOMIAL
Asi
m
w
Y
p(yi ) = πijij
j=1
Usando el modelo
n Y
m wij
Y exp(xTi γj )
p (y1 , y2 , ..., yn X) = Pm T
i=1 j=1 l=1 exp(xi γl )
y
n X
m
( m
!)
X X
log (L(γ1 , γ2 , ..., γm )) = Wij xTi γj − log exp(xTi γl )
i=1 j=1 l=1
n X
m n m
!
X X X
= Wij xTi γj − log exp(xTi γl )
i=1 j=1 i=1 l=1
Estas
Pecuaciones pueden resolverse numéricamente sujetas a las restriccio-
m
nes j=1 cj = 0.
Nivel Educativo
Hombre
Mujer 1 2 3
1 17 5 0
2 8 32 24
3 3 15 45
parejas<-read.table(’c:/parejas.txt’,header=T)
escolmuj<-parejas[,9]
escolhom<-parejas[,4]
library(nnet)
> summary(multinom(escolmuj~escolhom))
# weights: 9 (4 variable)
initial value 163.693231
iter 10 value 116.717807
final value 116.716096
converged
Call:
multinom(formula = escolmuj ~ escolhom)
Coefficients:
(Intercept) escolhom
2 -3.223631 2.568471
3 -5.963363 3.668512
Std. Errors:
(Intercept) escolhom
2 0.8547668 0.5587736
3 1.0983385 0.6229113
Correlation of Coefficients:
2:(Intercept) 2:escolhom 3:(Intercept)
2:escolhom -0.9306203
3:(Intercept) 0.6798904 -0.6883345
3:escolhom -0.7642459 0.8631553 -0.9268761
>
1
P (Y ≤ j | X) =
1 + exp [− (αj + Xβ)]
> parejas<-read.table(’c:/parejas.txt’,header=T)
> library(MASS)
> escolmuj<-parejas[,9]
> escolhom<-parejas[,4]
>inghom<-parejas[,5]
> summary(polr(as.factor(escolmuj)~as.factor(escolhom)+as.factor(inghom)))
Call:
polr(formula = as.factor(escolmuj) ~ as.factor(escolhom) + as.factor(inghom))
Coefficients:
Value Std. Error t value
as.factor(escolhom)2 2.4188099 0.5493499 4.4030410
as.factor(escolhom)3 3.9357571 0.5867226 6.7080375
as.factor(inghom)1 0.5897497 0.7702928 0.7656176
Intercepts:
14.2. MODELO DE ODDS PROPORCIONALES 257
> summary(polr(as.factor(escolmuj)~as.factor(escolhom)))
Call:
polr(formula = as.factor(escolmuj) ~ as.factor(escolhom))
Coefficients:
Value Std. Error t value
as.factor(escolhom)2 2.463945 0.5468318 4.505854
as.factor(escolhom)3 4.005384 0.5814585 6.888512
Intercepts:
Value Std. Error t value
1|2 0.3025 0.3936 0.7686
2|3 3.3397 0.5341 6.2526
> summary(polr(as.factor(escolmuj)~as.factor(inghom)))
Call:
polr(formula = as.factor(escolmuj) ~ as.factor(inghom))
Coefficients:
Value Std. Error t value
as.factor(inghom)1 1.567863 0.7447047 2.105349
Intercepts:
Value Std. Error t value
1|2 -0.2983 0.7192 -0.4147
2|3 1.8223 0.7392 2.4650
AIC: 302.3358
>
Parte VI
Anexos
259
Capı́tulo 15
Resultados Asintóticos
donde H βb es la matriz de segundas derivadas de la función log-verosimilitud
evaluada en β =β. b Asintóticamente H es igual al valor esperado que
está relacionado con la matriz de información
h i
J = E UUT = E [−H]
pero
U βb = 0
261
262 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
asi
E βb = β
ya que h i
J = E UUT
y
T
J −1 = J −1
ya que J es simétrica.
Asi, para muestras grandes
T
βb − β J βb − β ∼ χ2p
cuando n → ∞.
y frecuencia total
N
X
yi = n
i=1
15.2. MODELOS LOGLINEALES 263
valor esperado
E[yi ] = nθi i = 1, ..., N
entonces
E[yjk ] = nθj. θ.k (∗)
θjk = θ.k ∀j
esto sugiere que para los GLM el logaritmo es la función link natural entre
E[yi ] y una combinación lineal de parámetros
Ejemplo
sujeto a X X
αj = βk = 1
j k
o
α1 = 0 y β1 = 0
1 + (J − 1) + (K − 1) = J + K − 1 = 6
15.4. TABLAS DE CONTINGENCIA Y MODELOS LOGLINEALES 265
ηjk = µ + αj + βk + (αβ)jk
y
D=0
D ∼ χ2N −p
con N = 12 y p = 6.
Para este problema
X σ
D=2 σ log = 51,795
e
y como
P χ26 > 50 < 0,001
Ejemplo
Ejemplo
Ejemplo
B1 ··· BK TOTAL
A1 y11 ··· y1k y1.
A2 y21 ··· y2k y2.
.. .. .. ..
. . . .
AJ yj1 ··· yj1 yj.
TOTAL y,1 ··· y.j n = y..
J Y
k y
Y λjkjk e−λjk
f (y; λ) =
j=1 k=1
yjk !
Si hay restricción en los yjk ’s, por ejemplo, n fijo, de la propiedad aditiva
n ∼ P oisson(λ..)
XX
λ.. = λjk
15.4. TABLAS DE CONTINGENCIA Y MODELOS LOGLINEALES 267
J Y
K y
Y λjkjk e−λjk
f (Y | n) = λn −λ..
.. e
j=1 k=1 n!
J Y
K y
Y θjkjk λjk
= n donde θjk = (∗)
j=1 k=1
yjk ! λ..
QJ QK QJ QK
ya que λn.. = j=1 k=1 λy..jk y e−λ = j=1 k=1 e−λjk . A (∗) la llama-
remos Distribución multinomial.
Otra forma de restricción es para tablas en las cuales los totales de fila
o de columna, en lugar del total, son fijos. En esta caso la distribución
de probabilidades para cada fila (o columna) es multinomial; por ejemplo,
para la j − ésima fila con total de fila fijo yj. la distribución es
k y
Y θjkjk
f (yj1 , ..., yjk | yj. ) = yj. !
yjk !
k=1
donde X
θjk = 1
k
J k y
Y Y θjkjk
f (y | yj. , j = 1, ..., J) = yj. (∗∗)
j=1
yjk !
k=1
donde X
θjk = 1 ∀j
k
Ejemplo
µ
bi (0) valores ajustados bajo Ho
µ
bi (1) valores ajustados bajo H1
268 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
1 X 2
Do = [yi − µ
bi (0)]
σ2 i
1 X 2
D1 = [yi − µ
bi (1)]
σ2 i
si Ho es correcto
D1 ∼ χ2n−p
si H1 es correcto
Do ∼ χ2n−q
∆D = Do − D1 ∼ χ2p−q
b y) ≈ `(β;
`(β; b y) + (β − β) b + 1 (β − β)
b T U (β) b T H(β)(β
b − β)
b (∗)
2
donde
∂`
U (β)
b : Vector de Scores, que se obtiene de evaluada en ∼β
c
∂βj
∂2`
H(β)
b : Matriz de segundas derivadas evaluada en βb
∂βj ∂βk
entonces h i
b y ∼a χ2
b y − ` β;
2 ` β; p
15.4. TABLAS DE CONTINGENCIA Y MODELOS LOGLINEALES 269
D ∼ χ2n−p (si las 2 primeras componentes son independientes y la tercera es cero) (∗∗)
b`+1 = b` + (X T V` X)−1 X T (y − p` )
donde
1
p` =
1 + exp(−XT
i bi )
y
p` i
V` = diag
1 − p` i
(X T V` X)−1 X T (y − p` ) ≈ 0
y asi
XT y = XT p
El trabajo con datos categóricos está sustentado en gran parte por resul-
tados asintóticos a pesar de que en los últimos tiempos se ha logrado un
gran avance en métodos exactos.
de Inferencia
270 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
t∗ (S) = E (T | S)
no depende de θ. Asi
T ∗ = t∗ (S) = E (T | S)
E [T ∗ ] = ES [T ∗ ]
= ES [E (T | S)]
= E [T ]
= J (θ)
15.5. ELEMENTOS BÁSICOS DE INFERENCIA 271
E [E (Y | X)] = E (Y )
ahora
Se tiene la igualdad
var (T ) = var (T ∗ )
si y solo si
E [var (T | S)] = 0
T = E [T | S] = T ∗
Definicion
Una familia de funciones densidad de probabilidad
{fT (t; θ) : θ ∈ Θ}
T ∗ = E [T | S]
var (T ∗ ) ≤ var (T ) ∀θ
Θ = {θ : ai ≤ bi i = 1, ..., k}
no depende de θ.
2) Las funciones qj (θ) son no triviales, funcionalmente independientes y
continuas de las θi .
0
3) a) Para una variable aleatoria continua, las derivadas tj (x) son funcio-
nes de x continuas linealmente independientes en A.
b) Para una variable aleatoria discreta, las tj (x) son funciones no triviales
de x en A, y ningunas son funciones lineales de las otras.
TEOREMA
Si X1 , ..., Xn es una m.a de un miembro de una CER, entonces los es-
tadı́sticos
n
X n
X
S1 = t1 (xi ) , ..., Sk = tk (xi )
i=1 i=1
Ejemplo
Sea X ∼ binomial (1, p)
1−x
f (x, p) = px (1 − p)
p
= (1 − p) exp x ln x ∈ A = {0, 1}
1−p
que es con
p
q1 (p) =
1−p
t1 (x) = x
t (xi ) = xi
Xn
S = xi
i=1
p (1 − p)
= p − p2 −
n
1
= p (1 − p) 1 −
n
asi
n
E X 1−X = p (1 − p)
n−1
y este es el UMVUE de p (1 − p) .
Definición
274 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
P [(x1 , ..., xn ) ∈ C ∗ | θo ] = α
n−s
nsπoS (1 − πo )
λ= n−s ≤k
nsπ1S (1 − π1 )
S
{}πo (1 − π1 )π1 (1 − πo ) ≤ k1
o
S ln{}πo (1 − π1 )π1 (1 − πo ) ≤ ln k1
rechace Ho si s ≥ k2
P [S ≥ i | π = πo ] = 1 − B (i − 1; n, πo ) = αi
asi para enteros i = 1, ..., n pruebas exactas mas poderosas se logran para
rechazar Ho si s ≥ i.
Definición
Sea X1 , ..., Xn con fdpc f (x1 , ..., xn ; θ) para θ ∈ Θ, y considere hipotesis
de la forma
Ho : θ ∈ Θo
Ha : θ ∈ Θ − Θo
15.5. ELEMENTOS BÁSICOS DE INFERENCIA 275
máx πC ∗ (θ) = α
θ∈Θo
y
πC ∗ (θ) ≥ πC (θ)
Ho : θ ≤ θo
Ha : θ > θo
donde
P [t (x) ≤ k | θo ] = α
θ : parametronuisance
S : estadı́sticosuf icienteparaθ
la distribución de X | S no depende de θ.
Ejemplo
X ∼ binomial (n1 , π1 )
Y ∼ binomial (n2 , π2 )
276 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
Ho : π1 = π2 = π
Ha : π1 < π2
bajo Ho , la fdpc es X y Y es
n1 +n2 −(x+y)
f (x, y) = n1 xn2 yπ x+y (1 − π)
fS,y (S, y)
fY /S (y) =
fS (S)
fX,Y (S − y, y)
=
fS (S)
n1 +n2 −S
n1 S − yn2 yπ S (1 − π)
= n1 +n2 −S
n1 + n2 Sπ S (1 − π)
n2 yn1 S − y
=
n1 + n2 S
donde
y = 0, ..., S
S = 0, ..., n1 + n2
L(θ;
b y) = sup L(θ, y).
θ∈Θ
∂ log L
=0
∂θ
asumiendo θ que caiga en Θ.
Si YT es una muestra (XT1 , XT2 , ..., XTN ) de tamaño N, donde las XT1 0 s son
i.i.d. con ley f (x; θ) entonces
N
Y
p(y; θ) = f (xl ; θ)
l=1
∂ 2 log f (X; θ)
ijk (θ) = −E
∂θj ∂θk
Más generalmente, supongamos que YT contiene muestras aleatorias (XT1j , XT2j , ..., XTnj j )
de tamaño nj , donde los XTlj0 s, l = 1, ..., nj son i.i.d., con densidad fj (x; θ),
j = 1, 2, ..., s. Entonces
nj
s Y
Y
p(y; θ) = f (xlj ; θ),
j=1 l=1
s
X nj
N = nj y → λj > 0 cuando N → ∞
j=1
N
Con
s
∂ 2 log f (X; θ)
X
ikk0 (θ) = − λj E
j=1
∂θk ∂θk0
Ası́
s
X
I(θ) = λj Ij (θ)
j=1
Considere
R∗ = R−1
π1
π2
π∗ = .
..
πR−1
πi = πi (β), i = 1, 2, · · · , R
ó
π = π(β)
f (π) = 0
u = (R − 1) − m = R∗ − m
Ejemplo
tenemos
R = rc
M = (r − 1) + (c − 1)
µ = (R − 1) − M = (r − 1)(c − 1)
L(θ;
b y) = sup L(θ; y)
mathbf θ∈Θ
∂ ln L(θ; y)
=0
∂θ
∂ 2 ln f (X; θ)
ijk (θ) = −E
∂θj ∂θk
Mas generalmente, supongamos que Y0 contiene muestras aleatorias (X01j , X02j , ..., X0nj j )
de tamaño nj donde los X0`j ` = 1, ..., nj son i.i.d, con densidad fj (X; θ)
j = 1, 2, ..., s, entonces
nj
s Y
Y
P (y; θ) = fj (X`j ; θ)
j=1 `=1
s
X
N = nj (15.1)
j=1
nj
→ λj cuando N → ∞ (15.2)
N
s
∂ 2 ln fj (X; θ)
X
ikk0 (θ) = − λj E
j=1
∂θk ∂θk0
asi
s
X
I(θ) = λj Ij (θ)
j=1
donde
Ij : matriz de información para la j-ésima población
s
X
R= rj
j=1
υijk = µ + λA B C AC
i + λj + λk + λik
Pregunta 2
Considere la siguiente tabla de frecuencias en una investigación sobre el
aborto. Las variables son: Sexo, Opinion y Edad.
TABLA 1
Estrato x Trabaja x Rendimiento
Estrato
1y2 3 4 5y 6
Trabaja ? No Si No Si No Si No Si
Rendi- Alto 5 1 18 14 16 13 6 3
mien- Medio 9 5 32 31 21 11 56 4
to Bajo 4 6 14 9 4 7 1 3
TABLA 2
Estrato x Facultad x Rendimiento
Estrato
1y2 3
Facultad Agro. Arq. Min. Agro. Arq. Min.
Rendi- Alto 0 2 4 9 9 14
mien- Medio 3 1 10 13 8 44
to Bajo 2 0 8 5 1 17
4 5y6
Facultad Agro. Arq. Min. Agro. Arq. Min.
Rendi- Alto 0 9 20 1 5 3
mien- Medio 1 6 25 2 0 8
to Bajo 2 0 9 0 0 4
TABLA 3
Trabaja x Uso de Biblioteca x Sexo x Rendimiento
No Usa la Usa la
Biblioteca Biblioteca
Hombre Mujer Hombre Mujer
No Rendi- Alto 4 2 23 16
Trabaja mien- Medio 1 4 33 30
to Bajo 2 1 10 10
Rendi- Alto 1 0 23 7
Trabaja mien- Medio 5 0 32 14
to Bajo 2 3 17 3
TABLA 4
Edad x Sexo x Rendimiento
Edad 1 2
Sexo Hombre Mujer Hombre Mujer
Rendi- Alto 4 2 23 16
mien- Medio 1 4 33 30
to Bajo 2 1 10 10
Edad 3 4
Rendi- Alto 1 0 23 7
mien- Medio 5 0 32 14
to Bajo 2 3 17 3
286 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Valle de Aburra ¡1 año 349 12 285 12
de Aburrá 1-4 87 7 83 5
5-9 46 5 48 3
10-14 151 3 64 2
15-19 1496 31 154 2
20-24 1750 52 135 8
25-29 1381 30 148 8
30-34 1052 35 181 10
35-39 827 19 169 7
40-44 558 20 170 6
45-49 404 16 195 8
50-54 402 19 255 3
55-59 473 19 367 14
60-64 633 18 526 17
65 y más 2807 113 3375 85
Bajo Cauca ¡1 año 28 13 32 13
1-4 10 14 15 11
5-9 5 3 7 2
10-14 5 4 2 5
15-19 15 16 3 6
20-24 24 31 7 7
25-29 20 8 4 3
30-34 20 15 7 7
35-39 16 16 8 2
40-44 5 12 7 0
45-49 10 3 8 3
50-54 15 6 8 3
55-59 14 5 8 4
60-64 20 6 13 5
65 y más 65 39 64 19
288 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
Continuación TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Magdalena Medio ¡1 año 11 7 14 4
1-4 2 2 1 3
5-9 2 3 3 1
10-14 2 3 1 0
15-19 7 3 1 0
20-24 11 10 4 1
25-29 11 13 1 3
30-34 8 3 3 0
35-39 11 12 1 1
40-44 7 6 3 2
45-49 10 6 6 2
50-54 7 8 8 4
55-59 6 5 8 1
60-64 8 6 11 1
65 y más 66 20 52 15
Nordeste ¡1 año 17 19 17 21
1-4 5 15 11 14
5-9 1 9 1 3
10-14 4 6 2 4
15-19 27 16 2 2
20-24 46 40 5 3
25-29 32 27 3 6
30-34 32 19 6 6
35-39 22 14 6 4
40-44 13 10 6 3
45-49 15 10 5 6
50-54 20 8 8 10
55-59 10 9 9 4
60-64 35 16 19 7
65 y más 127 80 120 59
15.8. APÉNDICE B: DATOS 289
Continuación TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Norte ¡1 año 27 38 10 23
1-4 4 22 4 13
5-9 0 8 2 2
10-14 6 9 2 4
15-19 15 25 4 5
20-24 38 51 4 5
25-29 25 37 6 11
30-34 20 24 5 6
35-39 16 15 9 5
40-44 17 10 4 6
45-49 9 16 8 15
50-54 15 17 10 9
55-59 16 12 16 17
60-64 26 23 29 18
65 y más 145 127 152 104
Occidente ¡1 año 9 31 16 10
1-4 4 5 7 12
5-9 7 2 2 2
10-14 6 2 2 2
15-19 10 15 6 5
20-24 25 26 3 0
25-29 13 17 1 3
30-34 10 19 9 6
35-39 9 12 4 5
40-44 10 17 4 5
45-49 9 20 3 5
50-54 9 13 2 7
55-59 7 13 10 8
60-64 11 15 11 7
65 y más 91 105 99 80
290 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
Continuación TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Oriente ¡1 año 40 51 28 43
1-4 14 24 13 20
5-9 6 12 8 8
10-14 8 9 2 5
15-19 64 35 11 10
20-24 74 60 9 11
25-29 66 50 16 7
30-34 58 55 18 9
35-39 48 44 10 7
40-44 38 34 13 10
45-49 32 42 14 12
50-54 35 26 18 19
55-59 34 37 37 15
60-64 50 47 64 34
65 y más 365 220 398 186
Suroeste ¡1 año 33 32 26 33
1-4 10 19 7 22
5-9 5 10 3 7
10-14 6 14 1 7
15-19 35 42 4 4
20-24 50 47 6 11
25-29 38 56 7 5
30-34 33 44 6 17
35-39 33 42 5 13
40-44 22 33 16 11
45-49 29 29 16 20
50-54 17 31 24 16
55-59 28 31 28 24
60-64 45 46 35 37
65 y más 253 191 282 179
15.8. APÉNDICE B: DATOS 291
Continuación TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Urabá ¡1 año 33 18 25 17
1-4 19 10 21 9
5-9 8 4 3 3
10-14 11 6 7 0
15-19 49 21 11 6
20-24 97 35 8 9
25-29 69 45 20 4
30-34 57 35 6 5
35-39 48 21 10 6
40-44 38 12 9 3
45-49 24 11 11 3
50-54 27 6 9 5
55-59 30 5 12 3
60-64 16 7 27 4
65 y más 98 37 66 23
Columna 1: Departamento
µy e−µ
Py (y; µ) = y = 0, 1, 2, ...
y!
considere x1 , ..., xk
Para el subgrupo i, i = 1, 2, ..., n sea yi : número observado de eventos
y sean
`i tiempo total para el grupo i.
15.9. APÉNDICE C: ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 293
Pk
βo + βj xij
λ (Xi , β) : función de Xi y β e j=1 , donde β es la tasa
de falla del grupo i.
xi = (xi1 , ..., xi1 ) → grupo i
β = (β1 , ..., βk )
E [yi ] = µi = `i λ (xi , β) i = 1, ..., n
Yi es P oisson note que λ (xi , β) > 0
µy e−µi
Pyi (yi ; µi ) = i
yi ! i = 1, ..., n
[`i λ(Xi ,β)]yi e−`i λ(Xi ,β )
Pyi (yi ; µi ) = P1 (Yi = yi ; β) = yi ! yi = 0, 1, ...;
i = 1, 2, ..., n
n
Y
L (Y; β) = Pyi (yi ; β)
i=1
n y
[`i λ (Xi , β)] i e−`i λ(Xi ,β)
Y
=
i=1
yi !
Pn
{ i=1 [`i λ (Xi , β)] i } e− i=1 `i λ(Xi ,β)
Qn y
= Qn
i=1 yi !
donde
Entonces la ecuación
n
X ∂
log fXi (xi θ) = 0
i=1
∂θ
Prueba:
Sea x1 , x2 , ..., xn la realización de X1 , X2 , ..., Xn . Sea
n
X
L(θ) = log fX (xi θ)
i=1
n
1 X ∂2
B1 = log fX (xθ) |θ=θo (3.47)
n i=1 ∂θ2
n
1X
B2 = H3 (xi ) (3.48)
n i=1
Se sigue entonces que para δ > 0 y > 0 dados existe No (, δ) tal
que, para n ≥ No ,
1
P |Bo | ≥ δ 2
≤ t
3
1 1
P B1 ≥ − k 2 (θo ) ≤ t
2 3
1
P {|B2 | ≥ 2M } ≤ t
3
k2 (θo )
Sea δ = θ − θo . Asuma que S ha ocurrido y que |δ| < 2(M +1) .
Si δ > 0, la parte izquierda de la ecuación (3.50) es menor que
δ 1
δ 2 − k 2 (θo ) + M δ 2 = δ (M + 1)δ − k 2 (θo ) < 0
2 2
n
X ∂
log fXi (xi θ) = 0, en el intervalo (θo − δ, θo + δ)
i=1
∂θ
2
Escogiendo δ muy pequeno sujeto a |δ| < 2(Mk +1) , podemos hacer
P (S) cada vez mayor. Luego existe un estimador de máxima vero-
similitud consistente. Esto completa la prueba de la primera parte.
Sea θ(x
b 1 , ..., xn ) una raiz de la ecuación de verosimilitud
n
X ∂
log fXi (xi θ) = 0
i=1
∂θ
15.10. MÉTODOS DE ESTIMACIÓN 297
Por
√ las ecuaciones (3.51) y (3.52) y el teorema Linderberg-Lévy,
− nBo está distribuido asintóticamente
√ normal con media 0 y va-
rianza k 2 (θo ) cuando n → ∞. Luego n(θ − θo ) está distribuida
−1
asintóticamente normal con media 0 y varianza k 2 (θo ) cuando
n → ∞.
(N, π)
z =bπ∗
= π∗
Σ∗ (b
π∗ ) = Diag(b π∗ ) − πb∗ πb∗T
R∗ = R − 1
M∗ (b
π∗ ) = f∗ (b
π∗ )Σ∗ (bπ∗ )f∗T (b
π∗ )
Además
f (π)
rank = µ + 1 ∀π ∈ Π
1T (µ+1)×R
1T = [1, 1, ..., 1]
298 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
∂fi (π)
f (π) =
∂πj µ×R
T
Σ(π) = Diag(π) − ππ
T T
f (π)Σ(π)f (π) = f ∗ (π ∗ )Σ∗ (π ∗ )f ∗ (π ∗ ) ∀π
T
S 2 (β,b
π) π ) − X(β)] M−1 (b
= N [f (b π ) − X(β)]
π ) [f (b
∂χ2 (θ; z)
=0
∂θ
T
Y 2 (θ; z) = N (z − (θ)) Σ−1
∗ (z) (z − (θ))
15.13. ESTIMACIÓN MÍNIMO χ2 MODIFICADA DE θ DADO Z (MMCE)299
Resultado:
ya que
1T (p∗ − π∗ ) = (1 − pR ) − (1 − πR ) = πR − pR
asi
R n
X (pi − πi )2 X (ni − N πi )2
χ2 = N =
i=1
πi i=1
N πi
s X rj
X (nij − nj πij )2
χ2 (π, p) =
j=1 i=1
nj πij
R
X (ni − µi )2
χ2 (µ, n) =
i=1
µi
300 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
Hipotesis nula
Ho : θ ∈ ΘM
L(θbM ; y)
ΛM (y) = 0 ≤ ΛM ≤ 1
L(θ;
b y)
ΛM (y) ≤ λα
P (ΛM (y) ≤ λα | Ho) ≤ α
G2M (y) → χ2µ cuando N → ∞(indice adecuado relacionado conel tamaño muestral
Bajo Ho
G2M (y) = −2 ln ΛM
Los grados de libertad para ladistribución limite son
µ = Dim(Θ) − Dim(ΘM )
Rechace Ho si
G2M ≥ χ2µ,α
Esta prueba se conoce como prueba de bondad de ajuste del modelo
M.
El modelo M usualmente se especifica bien como
L(b
θM1 ;y)
L(θbM1 ; y) L(b
θ ;y) ΛM1 (y)
ΛM1 |M (y) = = =
L(θbM ; y) L(b
θM ;y) ΛM (y)
L(b
θ ;y)
ν = Dim(ΘM ) − Dim(ΘM1 )
Referencias
303
304 CAPÍTULO 16. REFERENCIAS