Apostila Estatistica
Apostila Estatistica
Apostila Estatistica
27 de outubro de 2015
Sumário
1 Introdução 9
1.1 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Estatı́stica Descritiva 11
2.1 Tipos de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Arredondamento dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Notação Cientı́fica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Algarismos ou Dı́gitos Significativos . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Exemplo de Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Distribuição de Freqüências e Proporções . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 Classes de Freqüência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 Freqüências Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Medidas Associadas a Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 Medidas de Posição Central . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.3 Erro-Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.4 Fator Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.5 Momentos de uma Distribuição de Freqüências . . . . . . . . . . . . . . . . 22
2.4.6 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.7 Medidas de Achatamento ou curtose . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Medidas Associadas a Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . 24
2.5.1 Entropia de Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.2 Entropia de Brillouin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.3 Entropia de Tsallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Exemplo de Uso da Média Geométrica: Juros Compostos . . . . . . . . . . . . . . 25
2.6.1 O problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.2 Um Ativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7 Considerações sobre o Cálculo Numérico de Algumas Grandezas . . . . . . . . . . 26
2.7.1 Média em Tempo Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7.2 Cálculos de Variância, Assimetria e Curtose . . . . . . . . . . . . . . . . . . 26
2.7.3 Algoritmos para ordenação em postos . . . . . . . . . . . . . . . . . . . . . 26
2.8 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Cálculo de Probabilidades 29
3.1 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Probabilidade e suas Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Probabilidade Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6 Métodos de Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
4 Variáveis Aleatórias 39
4.0.1 Variáveis Aleatórias Unidimensionais . . . . . . . . . . . . . . . . . . . . . . 39
4.0.2 Função de Repartição ou Distribuição Acumulada . . . . . . . . . . . . . . 40
4.1 Variáveis Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Função Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Função Caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Parâmetros Associados à Distribuição de Probabilidades . . . . . . . . . . . . . . . 41
4.4.1 Normalização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.2 Parâmetros de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.3 Parâmetros de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.4 Parâmetros de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.5 Parâmetros de Curtose (Excesso) . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5 Variáveis Aleatórias Multidimensionais . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.1 Parâmetros Associados à Distribuição de Probabilidades . . . . . . . . . . . 43
4.5.2 Função de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5.3 Mudança de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Distribuições Discretas 49
5.1 Distribuição Uniforme ou Equiprovável . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1.1 Espaçamentos Iguais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3 Distribuição Simétrica de Bernoulli (Ising) . . . . . . . . . . . . . . . . . . . . . . . 49
5.4 Distribuição de Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.5 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.6 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.6.1 População de Tamanho Finito . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.7 Distribuição Binomial Negativa ou Distribuição de Pascal . . . . . . . . . . . . . . 52
5.8 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.9 Distribuição Multinomial ou Polinomial . . . . . . . . . . . . . . . . . . . . . . . . 54
5.10 Distribuição Hipergeométrica Generalizada . . . . . . . . . . . . . . . . . . . . . . 55
5.11 O Problema da Ruı́na do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.11.1 Jogo com Três Estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.11.2 Jogo com M Estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.12 Paradoxo de Parrondo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.13 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 Distribuições Contı́nuas 61
6.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3 Distribuição de Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.4 Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.5 Distribuição Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.6 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.7 Distribuição do χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
7 Distribuições Multivariadas 71
7.1 Variáveis Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Soma de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.3 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3.1 Teorema Central do Limite: Lévy-Gnedenko . . . . . . . . . . . . . . . . . . 72
7.4 Distribuições Bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4.2 Distribuição de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8 Experimentação 75
9 Estatı́stica Indutiva 77
9.1 Teoria da Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.1.1 Amostragem Casual Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.1.2 Amostragem aleatória Estratificada . . . . . . . . . . . . . . . . . . . . . . 78
9.1.3 Amostragem por Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . 78
9.1.4 Eliminação de Dados Suspeitos . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.1.5 Ausência de Resposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.2 Estatı́sticas e Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.1 Erro Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.2 Viés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.3 Erro Quadrático Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.4 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.5 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.3.6 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.3.7 Estimadores de Mı́nimos Quadrados . . . . . . . . . . . . . . . . . . . . . . 81
9.3.8 Estimadores de Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . 82
10 Distribuições Amostrais 83
10.1 Distribuição Amostral do Número de Sucessos para Populações Finitas . . . . . . . 83
10.2 Distribuição Amostral da Proporção para Populações Finitas . . . . . . . . . . . . 83
10.3 Distribuição Amostral do Número de Sucessos para Populações Infinitas . . . . . . 83
10.4 Distribuição Amostral da Proporção para Populações Infinitas . . . . . . . . . . . . 83
10.4.1 Aproximação pela distribuição Normal . . . . . . . . . . . . . . . . . . . . . 84
10.5 Distribuição Amostral da Soma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
11 Intervalos de Confiança 87
11.1 Uma População . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
11.1.1 Média (Variância da População Conhecida) . . . . . . . . . . . . . . . . . . 87
11.1.2 Mediana (Variância da População Conhecida) . . . . . . . . . . . . . . . . . 87
11.1.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
11.1.4 Média (Variância da População Desconhecida) . . . . . . . . . . . . . . . . 88
11.1.5 Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
11.1.6 Coeficiente de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
11.2 Duas Populações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
11.2.1 Razão entre Variâncias das Populações . . . . . . . . . . . . . . . . . . . . . 89
11.2.2 Diferenças de Médias (Variância da População Conhecidas) . . . . . . . . . 90
11.2.3 Diferenças de Médias (Variâncias da Populações Desconhecidas e Iguais) . . 90
11.2.4 Diferenças de Médias (Variâncias da Populações Desconhecidas mas Dife-
rentes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
11.2.5 Diferenças de Médias em Amostras Emparelhadas . . . . . . . . . . . . . . 91
11.2.6 Diferenças de Proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
11.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
12 Teste de Hipóteses 93
12.1 Passos para a Construção de um Teste de Hipóteses . . . . . . . . . . . . . . . . . 94
12.2 Nı́vel Descritivo ou Valor P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
12.2.1 Respondendo a um Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . 95
12.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
16 Regressão 125
16.1 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
16.1.1 Método dos Mı́nimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . 125
16.1.2 Erro Padrão da Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
16.1.3 Estatı́stica do Coeficiente de Regressão β 0 : Análise de Variância . . . . . . 126
16.1.4 Estatı́stica do Intercepto α0 . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.1.5 Intervalo de Confiança para y 0 . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.1.6 Coeficiente de Determinação . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.1.7 Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.2 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
16.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
8
Lista de Tabelas
9
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
14.8 Tabela 2 × 2 de proporções para cálculo de risco relativo e razão das chances (odds
ratio) com p1,1 + p1,2 + p2,1 + p2,2 = 1. . . . . . . . . . . . . . . . . . . . . . . . . . 117
14.9 Tabela 2 × 2 de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
14.10Tabela 2 × 2 de proporções. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
14.11Resumo dos tipos de Estudos e possibilidade de cálculos. . . . . . . . . . . . . . . . 120
14.12Valores de X e Y para as realizações indexadas por i. . . . . . . . . . . . . . . . . 120
10
Lista de Figuras
11
Capı́tulo 1
Introdução
13
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
1.1 Bibliografia
Estas notas de aulas foram baseadas nas seguin-
tes referências:
14
Capı́tulo 2
Estatı́stica Descritiva
15
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
de dı́gitos com que se escrevem os valores da Multiplicando um número por 10n , com n >
variável. Notemos que, normalmente, a apro- 0 tem-se o mesmo resultado que deslocar a
ximação implı́cita ao se considerar cada valor vı́rgula, para direita, n − 1 casas e com n <
de uma variável contı́nua será de, no máximo, 0 tem-se o mesmo resultado que deslocar a
metade da precisão com que os dados são medi- vı́rgula, para a esquerda, |n| casas.
dos.
As técnicas da Estatı́stica Descritiva são 2.2.2 Algarismos ou Dı́gitos Signi-
idênticas para variáveis quantitativas discretas
e contı́nuas. Isso deve-se ao fato de, formal-
ficativos
mente, os valores da variável contı́nua serem Os algarismos corretos, separados dos ze-
sempre apresentados dentro de um certo grau ros necessários para a localização da vı́rgula,
de aproximação. chamam-se algarismos ou dı́gitos significativos
do número.
Por exemplo, 1, 66 tem 3 algarismos signifi-
2.2 Arredondamento dos cativos, 4, 5300 tem 5 algarismos significativos,
Dados 1, 8 × 10−3 tem 2 algarismos significativos en-
quanto que 1, 800 × 10−3 tem 4.
Quando fala-se na prática de variáveis quanti- Se a altura, uma variável quantitativa
tativas contı́nuas, devemos falar em arrendon- contı́nua, for determinada com precisão com três
damento de dados. O resultado do arredon- dı́gitos significativos, por exemplo, 1, 64 metros,
damento de um número como 72, 8 para o in- o 1 é o dı́gito mais significativo (metro), en-
teiro mais próximo é 73, posto que 72, 8 está quanto que o 4 (centimetro) é o dı́gito menos
mais próximo de 73 do que 72. Semelhante- significativo.
mente, 72, 8146 arredondado para o centésimo As variáveis quantitativas discretas têm um
mais próximo, ou com duas casas decimais, é número infinito de algarismos significativos, são
72, 81, porque 72, 8146 está mais próximo de naturalmente exatos.
72, 81 do que de 72, 82. Ao arredondar 72, 465 Em alguns casos, pode ser difı́cil decidir quais
para o centésimo mais próximo deparamo-nos são os algarismos significativos sem informações
com um dilema pois 72, 465 dista igualmente de adicionais. Por exemplo, o número 186000000
72, 46 e de 72, 47. Usa-se, na prática, aproximar pode ter 3, 4, . . . , 9 algarismos significativos.
para o número par mais próximo que precede Se se souber que ele tem 5 algarismos significa-
o 5. Assim, 72, 465 é arredondado para 72, 46, tivos será melhor escrever em notação cientı́fica
o número 183, 575 é arredondado para 183, 58. 1, 8600 × 108 .
Esta prática é especialmente valiosa para redu- Se a altura for de 1, 64 metros, isto signi-
zir ao mı́nimo os erros acumulados por arredon- fica que seu valor verdadeiro está compreendido
damento, quanto trata-se de grande número de entre 1, 635 e 1, 655 metros, seguindo a con-
operações2 . venção de aproximação para o número par mais
próximo.
Ao efetuar cálculos que envolvem multi-
2.2.1 Notação Cientı́fica
plicação, divisão (potenciação e extração de
Ao escrever números, especialmente que com- raı́zes) o resultado final não pode ter mais al-
portem muitos zeros, antes ou depois da vı́rgula, garismos significativos do que o que tem me-
é conveniente empregar a notação cientı́fica. nor quantidade deles. Ao efetuar adições e
Nesta notação o número é escrito com so- subtrações de números, o resultado final não
mente um dı́gito a esquerda da vı́rgula e o res- pode ter mais algarismos significativos depois
tante como sendo casas decimais multiplicado da vı́rgula do que o que tiver menor quantidade
por potências de 10. deles nessa condição.
Assim em notação cientı́fica 5 é escrito como:
5 × 100 , 10 é escrito como: 1 × 101 , 72, 465 = 2.2.3 Exemplo de Coleta de Dados
7, 2465 × 102 , 0, 00018 = 1, 8 × 10−4 , etc.
2 Utiliza-se,
Considere as variáveis: Sexo, Avaliação do Ano,
principalmente em cálculos númericos a
Número de Irmãos e Altura em metros (m).
convenção de aproximar o 5 para cima, ou seja, 72, 465 é
aproximado para 72, 47. Este procedimento acarreta um A variável Sexo tem como domı́nio os valo-
erro maior devido as aproximações. res: masculino (M) e feminino (F). Ela é uma
16
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Exemplo
2.3 Distribuição de
Considere os dados da Tabela 2.1. As tabe-
Freqüências e Pro- las para a variávelSexo é apresentada na Ta-
porções bela 2.3. Para a variável Avaliação do Ano
as freqüências e proporções são apresentadas na
Considera-se uma forma de resumir os dados. Tabela 2.4. Para a variável Número de Irmãos
Define-se a freqüência com sendo o número de as freqüências e proporções são apresentadas na
realizações (observações) para cada valor da Tabela 2.5.
variável considerada.
Consideramos primeiramente o caso de
2.3.1 Classes de Freqüência
variáveis qualitativas e variáveis quantitativas
discretas. Consideramos agora variáveis quantitativas
O primeiro passo para descrever um conjunto contı́nuas. É óbvio que para um número fixo de
de dados é verificar o número de vezes que um algarismos significativos (precisão) as variáveis
dado valor, dos possı́veis k valores do domı́nio contı́nuas podem ser representadas por variáveis
(realizações), da variável considerada foi obser- discretas, na unidade do dı́gito menos significa-
vado, ou seja, a freqüência dos diversos valores tivo. Neste caso, dependendo do número de me-
existentes da variável. didas realizadas, pode-se ter um domı́nio muito
Denota-se a freqüência do i-ésimo valor obser- grande, com poucas realizações para certos va-
vado por fi . lores.
Sendo n o número total de elementos obser- Para contornar este problema, no caso de
vados, verifica-se que: variáveis contı́nuas e algumas vezes no caso
de variáveis discretas, as freqüências serão, na
k
X verdade associadas a intervalos de variação da
fi = n , (2.1) variável e não a valores individuais. Com este
i=1
procedimento, perde-se resolução (precisão) mas
onde k é o número de diferentes valores existen- ganha-se na representação dos dados. Esses in-
tes da variável. tervalos são chamados de classes de freqüência.
Com a finalidade de poder comparar dois con- As classes de freqüência são comumente repre-
juntos de dados com um número diferente de sentadas pelos seus pontos médios.
obsevações é interessante considerar o quociente Com relação as classes de freqüência, é co-
da freqüência pelo número total de elementos, mum encontrar o problema de determinar o
ou seja, a freqüência relativa ou proporção: número k de classes que deve ser considerado,
17
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Tabela 2.1: Dados brutos referententes as caracterı́sticas: Sexo, Avaliação do Ano, Número de
Irmãos e Altura em metros. O ı́ndice i se referem aos indivı́duos.
18
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Tabela 2.2: Esquema de tabelas de freqüências e proporções. O ı́ndice i varre o domı́nio da variável
X, ou seja, pecorre todas as realizações dessa variável.
e o menor valor:
x< = 1, 54 m .
2.3.2 Freqüências Acumuladas
A amplitude dos dados é dada pela Eq. 2.5: Quando se trata de variáveis quantitativas é in-
teressante também considerar a freqüência acu-
R = 1, 85 − 1, 54 = 0, 31 m . mulada:
O número k de classes que deve ser conside-
j
rado é dado pela Eq. 2.4 e é da ordem de: X
Fj = fi , (2.7)
k=6. i=1
A amplitude da classe é dada pela Eq. 2.6: onde 1 ≤ j ≤ k. Note que para j = k, Fk = n.
0, 31 Dividindo Fj por n temos a freqüência relativa
h= ∼ 0, 05 m . acumulada, ou proporção acumulada:
6
Estas classes são ilustradas na Tabela 2.7: Fj
É importante ressaltar que a amplitude das Pj0 = . (2.8)
n
classes não deve ser fracionária em relação à pre-
cisão com que os dados são apresentados, pois Notamos que a freqüência acumulada e que a
isso impossibilitaria uma correta subdivisão em proporção acumulada não podem serP curvas de-
k
classes. Por esta razão as vezes é conveniente crescentes, ou seja, Fj+1 ≥ Fj , e que j=1 Pj0 =
definir xin ≤ x< e xf i ≥ x> . 1.
19
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
20
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Tabela 2.6: Esquema de tabela de classes de freqüências e proporções. O ı́ndice i varre todas as
k classes. A notação a → b indica o intervalo semi-aberto [a, b[, ou seja, a está incluso e b excluso
da classe.
Tabela 2.7: Classes de freqüências e proporções para a variável Altura (m). xini = 1, 50 m,
h = 0, 05 m, k = 8 e xf in = 1, 90 m.
• multiplicando-se todos os valores de uma Para a variável Altura dos dados da Tabela 2.1
variável por uma constante α, a média do obtem-se:
conjunto fica multiplicada por essa cons-
tante: µ(X) = x̄ = 1, 70 m .
µ(αX) = αµ(X) . (2.12)
Supondo que não conhecessemos os dados da
Tabela 2.1 mas somento os dados já classifica-
• somando-se ou subtraindo-se uma cons- dos.
tante α de todos os valores de uma variável, Para a variável Número de Irmãos (Ta-
a média do conjunto fica acrescida ou dimi- bela 2.5) obtem-se:
nuida dessa constante: 1
µ(X) = x̄ = (1 ∗ 0 + 14 ∗ 1 + 19 ∗ 2 + 3 ∗ 3 + 2 ∗ 4)
39
µ(X ± α) = µ(X) ± α . (2.13) 70
= = 1, 8 = 2 irmãos.
6
39
Este ponto se tornará mais claro quando trabalhar-
mos com a estimação de parâmetros. Para a variável Altura, deve-se considerar os
21
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Tabela 2.8: Classes de freqüências e proporções para a variável Altura (m) onde o tamanho das
classes é desigual. xini = 1, 50 m, h = 0, 05 m, k = 8 e xf in = 1, 90 m.
pontos médios das classes (Tabela 2.7) obtem- Para a variável Altura dos dados da Ta-
se: bela 2.1 obtem-se:
22
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Considerando a variável Número de Irmãos onde Li é o limite inferior da classe que contém
dos dados da Tabela 2.1 não é possı́vel cal- a mediana, n o número de elementos do con-
cular a média geométrica pois existe um va- junto de dados, Fa a soma das freqüências das
lor nulo (i = 22). Para a variável Altura classes anteriores à que contém a mediana, fmd
dos dados da Tabela 2.1 obtem-se: a freqüência da classe que contém a mediana,
e hmd a amplitude da classe que contém a me-
µh (X) = x̄h = 1, 70 m . diana. Nesta expressão admite-se que os valo-
res observados da variável tenham se distribuı́do
Tanto a média geométrica quanto a média homogeneamente dentro das diversas classes.
harmônica privilegiam os menores valores de X
com relação a média aritmética, sendo que este
Exemplo. Considerando a variável Número
efeito é mais acentuado na média harmônica do
de Irmãos dos dados compilados da Tabela 2.1
que na média geométrica.
obtem-se:
md = .
Mediana
Para a variável Altura dos dados compilados da
A mediana é uma quantidade que, como a
Tabela 2.1 obtem-se:
média, também procura caracterizar o centro da
distribuição de freqüências, porém, de acordo md = .
com um critério diferente. Ela é calculada com
base na ordem dos valores que formam o con- A mediana pode ser usada como alternativa,
junto de dados. em relação à média, para caracterizar o cen-
Os dados de uma observação podem ser orde- tro do conjunto de dados. A mediana é menos
nados de maneira crescente ou decrescente. A sensı́vel aos valores extremos do que a média.
posição de um dado valor nesse conjunto orde- Nos casos de distribuições de freqüências que
nado é chamada de posto ou ordem na seqüência. apresentam nos extremos classes abertas (do
A idéia ligada ao conceito de mediana é dividir tipo menor que ou maior que), a mediana, a
o conjunto ordenados de valores em duas partes rigor, deve ser usada, ao invés da média, para
com igual número de elementos. a caracterização do centro da distribuição, pois,
Definimos a mediana de um conjunto de n em tais casos, o cálculo da média não pode, a
valores ordenados, para n ı́mpar, como igual rigor, ser executado.
ao valor de ordem (n + 1)/2 desse conjunto.
Se n for par, a mediana poderá ser definida
Moda
como qualquer valor siutado entre o de ordem
n/2 e n/2 + 1. Por simplificação, para n par, Definimos a moda (ou modas) de um con-
considera-se a mediana como o valor médio en- junto de valores como o valor (ou valores) de
tre os valores de ordem n/2 e n/2+1 do conjunto máxima freqüência. No caso de distribuições de
de dados. freqüência fala-se em classe modal, como sendo a
classe de maior número de realizações. No caso
Exemplo. Considerando a variável Número de classes de mesma amplitude, é comum defi-
de Irmãos dos dados brutos da Tabela 2.1 obte- nir também a moda com um ponto pertencente
mos: a mediana a classe modal tal que:
Q2 = 2 irmãos. d1
mo = Li + h, (2.17)
d1 + d2
Para a variável Altura dos dados brutos da Ta-
bela 2.1 obtem-se: onde Li é o limite inferior da classe modal, d1
a diferença entre a freqüência da classe modal
Q2 = 1, 70 m . e a da classe imediatamente anterior, d2 a di-
ferença entre a freqüência da classe modal e a
Considerando uma distribuição em classes de
da classe imediatamente seguinte h a amplitude
freqüências (dados compilados), pode-se calcu-
das classes. Esse procedimento tem a limitação
lar a mediana pela expressão:
de pressupor a existência de uma única classe
n/2 − Fa modal não situada num dos extremos da distri-
md = Li + hmd , buição de freqüências.
fmd
23
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Percentil. Os noventa e nove percentis (P1 , Para a variável Altura dos dados da Tabela 2.1
P2 , . . ., P99 ) dividem os dados ordenados em obtem-se:
cem grupos com cerca de 1% dos dados em cada
grupo. dM = .
24
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
n par ı́mpar
Quartil
Q1 n/4 e n/4 + 1 (n + 1)/4
Q2 n/2 e n/2 + 1 (n + 1)/2
Q3 3n/4 e 3n/4 + 1 3(n + 1)/4
25
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
• somando-se ou subtraindo-se uma cons- Para a variável Altura dos dados da Tabela 2.1
tante de todos os valores de uma variável, obtem-se:
a variância não se altera:
X̄ = 1, 701 m ,
σ 2 (X ± α) = σ 2 (X) . (2.27)
s2X = 0, 0064 m2 ,
A média e a variância são grandezas impor- sX = 0, 080 m ,
tantes em Estatı́stica, uma vez que são os dois 1, 701
únicos parâmetros da distribuição normal que cv(X) = = 21, 3 .
0, 080
9
aparece com muita freqüência .
Do ponto de vista prático, ela tem o inconve- 2.4.3 Erro-Padrão
niente de se expressar numa unidade quadrática
em relação a variável em questão. Este incon- Para amostras é conveniente trabalhar com o
10
veniente é sanado com a definição de desvio erro-padrão:
padrão. s
Defini-se o desvio-padrão como a raiz qua- SE = √ . (2.31)
n
drada positiva da variância.
2.4.4 Fator Z
DP (X) = σ(X) . (2.28)
É conveniente em geral transformar os dados
O desvio-padrão se expressa na mesma uni- para uma grandeza adimensional indicando a
dade da variável, sendo, por isso, de maior inte- posição de cada elemento com relação a média
resse que a variância nas aplicações práticas. e ao desvio-padrão dos dados.
Na quase totalidade dos casos, o desvio- Esta grandeza é denominada de fator-z, ou
padrão supera um sexto da amplitude dos dados escore z, e expressa em geral por:
e é inferior a um terço da amplitude dos dados,
isto é: R/6 < σ < R/3. xi − média
zi = , (2.32)
O coeficiente de variação é definido para uma desvio-padrão
população por: esta é uma grandeza importante em estatı́stica
pois indica o quão longe cada observação dista
DP (X) σ(X) da média em unidades de desvio-padrão.
CV (X) = = , (2.29) O fator-z é negativo, quando o valor da ob-
µ(X) µ(X)
servação for menor do que a média e positivo
e para uma amostra: caso contrário. O módulo de z indica quantos
sX desvios-padrão a observação dista da média
cv(X) = . (2.30) Para uma população tem-se:
X̄
Sua vantagem é caracterizar a dispersão dos xi − µ(X)
dados em termos relativos a seu valor médio. zi = ,
σ(X)
Além disso, por ser adimensional, o coeficiente
de variação fornece uma maneira de se compa- e para uma amostra:
rarem as dispersões de variáveis cujas unidades xi − X̄
são irredutı́veis. zi = .
sX
26
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
27
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
A fim de fixar o zero como referência, utiliza- prováveis (p1 = . . . = pn = 1/n). Neste caso a
remos o coeficiente de excesso: entropia é máxima: SS,max = ln n.
Pn
Como veremos adiante ŜS ≡ − i=1 p̂i ln p̂i ,
γ4 = a4 − 3 . (2.48) onde n é o tamanho de uma amostra e p̂i é a
Este coeficiente é adimensional, sendo ne- proporção que o evento i aconteceu é um esti-
gativo para as distribuições platicúrticas, nulo mador viesado de SS , ou seja, ele subestima a
para as distribuições mesocúrticas e positivo entropia da população amostrada. No entanto
para as distribuições leptocúrticas. o viés diminui a medida que n cresce, indicando
Na amostra que ŜS é um estimador consistente.13
Se tivermos k classes:
1 k
!
g4 = 1 X
(n − 1)(n − 2)(n − 3) SS = n ln n − fi ln fi , (2.51)
n
! n i=1
n(n + 1) X
(xi − x̄)4 − 3(n − 1)3(2.49)
,
s4 i=1 onde fi = pi n é o número de realizações na
classe i.
que é o estimador de γ4 .
informação, todas as realizações são igualmente glewood Cliffs, New Jersey, 1984.
K. O. Bowman, K. Hutcheson, E. P. Odum and L. R.
11 Algumas vezes refere-se a medida de falta de in- Shenon, Comments on the distribution of indices of di-
formação sobre o sistema como sendo a medida de de- versity, pp. 315-366, in: G. P. Patil, E. C. Pielou and
sordem W. E. Waters (eds.), Vol. 3, Many Species Populations,
12 C. E. Shannon, A mathematical theory of communi- Ecosystems, and Systems Analysis, Pennsylvania State
cation, Bell System Tech. J. 27, 379-423, 1948. University Press, University Park 1971.
28
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
n n+1
2.6 Exemplo de Uso da
X Y
Pn = Mi (1 + rj ) (rn+1 = 0) . (2.56)
i=0 j=i+1
Média Geométrica: Ju-
ros Compostos
2.6.1 O problema Rentabilidades Iguais e Movimentações
Iguais
Para quantificar a variação do preço de um dado
ativo (pense em uma conta de poupança) ao Considere as seguinte situação:
longo do tempo vamos discretizar o tempo em
14 E.C. Pilou, The measurement of diversity in diffe- r1 = r2 = . . . = rn = r (2.57)
rent types of biological collections, J. Theoret. Biol. 13
131-144, 1966. M1 = M2 = . . . = M n = M (2.58)
29
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
2.8 Exercı́cios
Média Geométrica 1. Some os números: 4, 35; 8, 65; 2, 95; 12, 45;
6, 65; 7, 55 e 9, 75
Escrevendo a média geométrica:
(a) diretamente, Resp: 52,35.
" n
Y
#1/n (b) arrendondando para um dı́gito após
? a vı́rgula segundo a convenção do
r = (1 + ri ) −1 (2.60)
i=1 número par mais próximo, Resp:
52,4.
thus, (c) arrendondando para um dı́gito após a
vı́rgula segundo a convenção de que
o 5 se arredonda para cima. Resp:
n+1
Y 52.7
(1 + ri ) = (1 + r? )n (2.61)
i=1 e tire as conclusões sobre as aproximações.
Resp: Seguindo a convenção de arren-
pois rn+1 = 0. damento para o par mais próximo se
erra menos.
É interessante definir a média geométrica para
os τ (τ ∈ [1, n]) intervalos de tempo precedentes 2. Escreva cada número abaixo empregando a
como: notação cientı́fica.
n
4. Contou-se o número de erros de impressão
da primeira página de um jornal durante 50
X
?
Pn = Mi (1 + rn−i )n−i . (2.64)
i=0
dias, obtendo-se os resultados abaixo:
30
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
(b) Represente graficamente a freqüência, (a) Faça uma tabela das classes, densi-
proporção e proporção acumulada em dade de freqüência, densidade de pro-
função das classes. porção.
(c) Calcule a média de erros e indique o (b) Represente graficamente a densidade
valor nos gráficos. de freqüência e densidade de pro-
(d) Calcule o desvio padrão indicando os porção em função das classes.
valores nos gráficos. (c) Calcule as médias e indique os valores
nos gráficos.
(e) Obtenha a mediana, primeiro e ter-
ceiro quartil. (d) Calcule os desvios-padrões indicando
os valores nos gráficos.
(f) Calcule o coeficiente de assimetria e de
excesso. (e) O preço do aluguél de imóveis na zona
rural é independente do preço na zona
(g) Calcule a curtose. urbana?
31
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
32
Capı́tulo 3
Cálculo de Probabilidades
• experimento qualquer processo que permite • evento simples constitui um possı́vel resul-
ao pesquisador fazer observações. tado de S. Por exemplo {K} ou {C} no
lançamento de uma moeda, ou {K, K} ou
Um experimento pode ser:
{C, K}, etc. no lançamento de duas moe-
• determinı́stico, se, ao repetir o experimento das.
nas mesmas condições, obtem-se sempre o
• evento composto constitui mais do que
mesmo resultado. Por exemplo, o tamanho
um possı́vel resultado de S. Por exem-
do metro padrão.
plo, considere o evento de sair pelo menos
• aleatório, se, ao repetir o experimento nas uma cara no lançamento de duas moedas:
mesmas condições, não obtem-se sempre o {{K, K}, {K, C}, {C, K}}.
mesmo resultado. Por exemplo, considere
• evento certo é próprio espaço amostral
o lançamento de uma moeda. O resultado
S, Por exemplo, sair cara ou coroa no
pode ser cara (K) ou coroa (C).
lançamento de uma moeda.
Considere experimentos aleatórios. Chama-se São válidas para os eventos as operações com
de: conjuntos.
Temos assim os conceitos de:
• espaço amostral, ou espaço das possi-
bilidades, ao conjunto de S (em ge- • Evento interseção (A ∩ B), evento for-
ral o mais detalhado possı́vel) de to- mado pelos resultados que pertencem a
dos os resultados possı́veis de ocorrer A e a B. Por exemplo sair cara e
em um experimento aleatório (sujeito às coroa no lançamento de duas moedas
leis do acaso). Exemplo, no lançamento {{K, C}, {C, K}}.
33
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
34
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Teorema da probabilidade total Sejam A1 , outro lado, eventos mutuamente exclusivos são
A2 , . . ., An , eventos mutuamente exlusivos eventos em que o resultado de B é excluı́do pelo
e exaustivos (ou seja, forma uma partição), resultado obtido em A, ou seja, P (B ∩ A) = 0,
e B um evento qualquer de S. Então: uma vez que P (B|A) = 0.
n
X
P (B) = P (B|Ai )P (Ai ) .
i=1 3.6 Métodos de Contagem
Teorema de Bayes Nas mesmas condições 3.7 Teoria da Confiabilidade
que o teorema da probabilidade total:
P (Ai |B) = Pn
P (B|Ai )P (Ai )
, 3.8 Interpretações da Pro-
j=1 P (B|Aj )P (Aj )
babilidade
com i = 1, 2, . . . , n.
Existem diferentes interpretações para o con-
O teorema de Bayes é usado quando se co- ceito de probabilidade. Elas são: a inter-
nhece o resultado e deseja-se conhecer a proba- pretação clássica, a interpretação de freqüências
bilidade que o resultado observado tenha vindo e a interpretação bayesiana.
de uma das possı́veis fontes. É o teorema utili-
zado pelos detetives. O resultado é o crime, o
trabalho do detetive é designar as probabilida- 3.8.1 Intepretação Clássica da
des que levam cada suspeito a ter cometido o Probabilidade
crime.
Seja N o número total de possı́veis resultados
A regra prática é a seguinte: em uma árvore
de um experimento. Se em NA de todos estes
de probabilidades, considere somente a sucessão
possı́veis resultados, o evento A ocorre, então a
de eventos possam levar ao resultado desejado
probabilidade do evento A acontecer é dada por:
(conhecido). Some então todas estas proba-
bilidades (são eventos mutuamente exclusivos). NA
Esta soma é a normalização dos possı́veis cami- P (A) = lim ,
N →∞ N
nhos na árvore que levam ao resultado desejado.
A probabilidade de que o resultado tenha vindo desde que a ocorrência de todos os eventos te-
de uma dada fonte, é o produto das probabilida- nham a mesma chance de ocorrer. A principal
des (que podem ser condicionadas) ao longo do crı́tica a esta definição é que ter a mesma chance
caminho que sai da fonte e vai até o resultado significa ser igualmente provável.
final, dividido pela soma de todos os possı́veis
caminhos.
3.8.2 Intepretação Clássica da
Probabilidade
3.5 Eventos Independentes
A probabilidade do evento A é o seguinte limite
Se P (A|B) = P (A|B ) = P (A), o evento A é da freqüência relativa:
C
35
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
36
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
(i) nenhum dos eventos ocorre. 14. Sejam A e B dois eventos de um mesmo
espaço amostral. Se P (A) = 2/5, P (A ∪
6. Dois eventos mutuamente exclusivos po- B) = 7/10 e P (B) = p. Para que valor de
dem ser independentes? Dois eventos in- p os eventos
dependentes podem ser mutuamente exclu-
sivos? Por quê? (a) A e B são mutuamente exclusivos?
(b) A e B são independentes?
7. Uma caixa contém 25 bolas numeradas de 1
a 25. Extraindo-se uma bola ao acaso, qual 15. Prove que:
a probabilidade de que seu número
(a) P (A(C) ) = α e P (B (C) ) = β então
(a) par; P (A ∩ B) ≥ 1 − α − β;
(b) ı́mpar; (b) Se P (A|B) ≥ P (A), então P (B|A) ≥
(c) par e maior do que 10; P (B);
(d) primo e maior do que 3; (c) P (e(C) ) ∩ F (C) ) = 1 − P (E) − P (F ) +
(e) múltiplo de 3 e 5. P (E ∩ F ).
37
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
38
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
(a) royal flush (dez, valete, dama, rei e ás possı́veis para cada questão, das quais ape-
do mesmo naipe); nas uma é correta. Se o estudante não sabe
(b) uma seqüência do mesmo naipe (não a resposta para uma dada questão, ele esco-
sendo o royal flush); lhe ao acaso uma das m respostas possı́veis.
(c) uma seqüência de naipes diferentes; (a) Qual a probabilidade do aluno respon-
(d) quatro cartas tenham o mesmo valor der corretamente a questão? Resp.:
(de um mesmo tipo); [1 − p(m − 1)]/m.
(e) uma trinca e um par (3 cartas do (b) Se o estudante respondeu correta-
mesmo valor e 2 cartas com mesmo va- mente a questão, qual é a probabi-
lor); lidade de ele tenha “chutado” a res-
(f) uma trinca; posta? Resp.: (1 − p)/[1 + p(m − 1)].
39
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
41. A probabilidade de se chegar a um estaci- 44. No jogo de crap, um dos jogadores lança
onamento antes das 8 horas é 0,40. Nestas um par de dados. Se a soma dos pontos
condições a probabilidade de se encontrar for 7 ou 11, ele ganha; se for 2, 3 ou 12,
lugar é 0,60 e chegando depois das 8 horas ele perde. Caso contrário, ele continuará
é de 0,30. lançando sucessivamente os dois dados até
repetir a soma de pontos da primeira jo-
(a) Qual a probabilidade de estacionar? gada, caso em que ganha ou até sair 7 caso
40
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
em que perde. Qual a probabilidade de (d) Generalize este resultado para uma di-
vitória do jogador?1 Resp.: 598/1485. mensão d sabendo que o volume da es-
fera de raio R é Γ(d/2 + 1)rd /Γ[(d +
45. Um torneio de tênis será disputado entre 1)/2]
oito tenistas pelo sistema de eliminatória
simples. As probabilidades de vitória em 47. Calcular:
confrontos individuais são proporcionais a:
2, 3, 4, 2, 3, 6, 1 e 4 para os tenistas A, (a) a probabilidade de que um mês de ja-
B, C, D, E, F , G e H, respectivamente. A neiro tenha 5 domingos. Resp.: 3/31.
tabela foi elaborada como segue: (b) a probabilidade de que um mês de ju-
nho tenha 5 domingos. Resp.: 2/30.
jogo 1: A × B
(c) a probabilidade de que o mês de ja-
jogo 2: C × D
neiro tenha 5 domingos para:
jogo 3: E × F
i. ano não bisexto Resp.: 3/31.
jogo 4: G × H ii. ano bisexto Resp.: 3/31.
jogo 5: vencedor do jogo 1 × vencendor do iii. ano em geral (bisexto ou
jogo 2 não) Resp.: (3/4)(3/31) +
jogo 6: vencedor do jogo 3 × vencendor do (1/4)(3/31) = 3/31.
jogo 4 (d) a probabilidade de que o mês de feve-
jogo 7: vencedor do jogo 5 × vencendor do reiro tenha 5 domingos para:
jogo 6 i. ano não bisexto Resp.: 0.
ii. ano bisexto Resp.: 1/7.
Será campeão o vencedor do jogo 7. Qual
a probabilidade de que o tenista A seja iii. ano em geral (bisexto ou não)
campeão? Resp.: (3/4)0 + (1/4)(1/7) =
1/28.
46. Considere as seguintes situações: (e) a probabilidade de que o primeiro dia
(a) Um cı́rculo está incrito em um qua- do mês seja uma segunda feira:
drado. Se um mosquito pousar to- i. ano não bisexto Resp.: 1/7.
talmente ao acaso dentro do qua- ii. ano bisexto Resp.: 1/7.
drado, qual a probabilidade de que iii. ano em geral (bisexto ou não)
ele também pouse dentro do cı́rculo? Resp.: 1/7.
Resp.: π/4.
(b) Uma esfera está incrita dentro de um 48. O farol A fica aberto 20 segundos em um
cubo. Se um mosquito estiver voando minuto; o farol B 30 s/min. e o farol
totalmente ao acaso dentro do cubo, C 40 s/min. Estando os farois bastante
qual a probabilidade de que, em um espaçados, qual a probabilidade de um mo-
dado instante, ele também esteja den- torista encontrar:
tro da esfera? Resp.: π/6.
(a) todos os farois abertos?
(c) Se o quadrado e o cubo tiverem o
(b) pelo menos um farol fechado?
mesmo tamanho de aresta, compare
as probabilidade de estar dentro do (c) apenas um farol aberto?
cı́rculo e dentro da esfera. Resp.:
(π/6)/(π/4) = 2/3. Como você ex- 49. Um ponto x é escolhido ao acaso no in-
plica este resultado? Resp.: Efeito tervalo [0, 1]. A seguir, um outro ponto
de borda. Existe mais cantos no y é escolhido ao acaso no intervalo [0, x],
cubo do que no quadrado. Dado k ∈ [0, 1], calcule a probabilidade de
y ∈ [0, k].
1 Utilize:
∞
X 1 50. Uma agulha de comprimento d é jogada ao
ai =
i=0
1−a acaso sobre um chão onde existem linhas
para a < 1. paralelas distanciadas de ` onde d < `.
41
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
(a) Mostre que a probabilidade da agulha 53. Suponhamos que se realizou um teste para
interceptar alguma linha é 2d/(π`). detectar determinada doença rara e que
(b) Mostre que, se no lugar da agulha, este teste seja capaz de descobrir a doença
um triângulo de lados a ≤ b ≤ c é em 97% das pessoas afetadas. Suponha-
deixado cair ao acaso sobre o mesmo mos que, além disso, quando ele é experi-
chão onde c < `, a probabilidade do mentado em pessoas sadias, 5% delas são
triângulo interceptar alguma linha é incorretamente diagnosticadas como tendo
(a + b + c)/(π`). a doença. Finalmente, suponhamos que,
quando é tentado o teste em indivı́duos
51. Considere uma urna contendo 3 bolas pre- que tenham outras doenças mais brandas,
tas e 5 bolas vermelhas. Retire duas bolas 10% deles são incorretamente diagnostica-
da urna sucessivamente. dos. Sabe-se que as porcentagens, na po-
pulação total, dos indivı́duos dos três tipos
(a) Obtenha os resultados possı́veis e considerados aqui, são de 1%, 96% e 3%,
as respectivas probabilidades para respectivamente. O problema é calcular a
extrações sem reposição. Resp.: probabilidade de que um indivı́duo, esco-
P (pp) = 6/56, P (pv) = 15/56, lhido ao acaso, da população, e testado com
P (vp) = 15/56 e P (vv) = 20/56. relação a doença rara, tenha realmente a
doença, se o teste indicar que ele está afe-
(b) Obtenha os resultados possı́veis e tado.
as respectivas probabilidades para
extrações com reposição. Resp.: 54. Joga-se uma moeda não viciada 5 vezes.
P (pp) = 9/64, P (pv) = 15/64,
P (vp) = 15/64 e P (vv) = 25/64. (a) Construa o espaço amostral;
(c) Calcule a probabilidade de tirar uma (b) Qual a probabilidade de aparecer ne-
bola preta na primeira e na segunda nhuma cara, uma cara, duas caras,
extrações, três cara, quatro caras e cinco caras?
42
Capı́tulo 4
Variáveis Aleatórias
43
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
4.0.2 Função de Repartição ou exigindo que f (x) seja uma função limitada.
Distribuição Acumulada Observamos que uma PNdistribuição de proba-
bilidades discreta pi ( i=1 pi = 1) pode ser es-
A função de repartição, ou distribuição acumu- crita no caso contı́nuo como:
lada, é a função é definida por:
N
X
F (x) = P (X ≤ x) . f (x) = pi δ(x − xi ) .
i=1
No caso discreto:
X onde δ(x−xi ) é o funcional delta de Dirac assim
F (x) = P (xi ) , definido:
xi ≤x Z ∞
e no caso contı́nuo, dx g(x)δ(x − xi ) = g(xi ) .
−∞
Z x
F (x) = dx0 f (x0 ) .
−∞ 4.2 Função Geradora de
A função densidade de probabilidade pode ser Momentos
obtida da função acumulada através de sua de-
rivada com relação ao argumento: A função geradora de momentos é definida
como: Z ∞
dF (x0 )
f (x) = . M (y) = dx exy f (x) .
dx0 x0 =x −∞
44
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
45
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
significando que a probabilidade de encontrar O quarto momento pode ser associado a cur-
um valor de X em torno da média a k desvios- tose K ou quarto momento com relação ao valor
−2
padrão decresce com k . Como exemplo, a pro- médio.
babilidade de encontrar o valor de X no inter- N 4
valo [µ − 2σ ≤ X ≤ µ + 2σ] é menor ou igual a 1 X xi − µ(X)
K= −3.
1/4. N i=1 σ(X)
Para qualquer distribuição unimodal e
A curtose é uma grandeza adimensional e ca-
simétrica que possua média e desvio-padrão,
racteriza se uma distribuição tem um pico mais
tem-se a desigualdade de Camp-Meidell:
acentuado do que uma distribuição gaussiana
4 (K > 0, leptocúrtica) ou se é mais achatada
P (|X − µ| ≥ kσ) ≤ 2 . (4.8) do que uma distribuição normal (K < 0, pla-
9k
ticúrtica). O termo −3 faz K = 0 para uma
Observe que é possı́vel considerar somente distribuição normal (|K| ∼ 0, mesocúrtica).
variáveis contı́nuas no formalismo. As variáveis Observamos que:
discretas podem ser obtidas através do uso da
função δ(x) de Dirac: • Existem muitos casos em que diverge
(|K| → ∞).
n
• Para uma distribuição normal K ∼
X
f (x) = p(x) δ(x − xi ) . (4.9) p
i=1
24/N .
46
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
n1
X nd
X onde Pi (x) e fi (x) são funções de uma única
... P (xi1 , . . . , xid ) = 1 , variável.
i1 =1 id =1
d nd
Z ∞
Y X ~ ) = µ(Y
E(Y ~)= d~xf (~x)~y (~x) .
P (Xi = xi ) = P (xi1 , . . . , xid ) ,
−∞
i=1 ji (6=i)=1
Para a média temos as seguintes propriedades:
ou seja, excluı́-se a soma ou integral da variável
de interesse. No caso contı́nuo: 1. E(k) = k onde k é uma constante;
47
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
~ = kE(X);
2. E(k X) ~ 4.5.2 Função de Correlação
~ ±Y
3. E(X ~ ) = E(X)
~ ± E(Y
~) Para distribuições multidimensionais, é interes-
sante definir a função de correlação:
~ ± k) = E(X)
4. E(X ~ ± k;
A covariância é dada por:
~ e Y
Se as variáveis X ~ são independentes,
então:
Cov(Xi , Xj ) ≡ E(Xi Xj ) − E(Xi )E(Xj )
Z ∞
~ ·Y
E(X ~ ) = E(X)
~ · E(Y
~). = d~xf (~x)xi xj −
−∞
Z ∞ Z ∞
Parâmetros de Dispersão d~xf (~x)xi d~xf (~
(4.12)
x)xj .
−∞ −∞
Estes parâmetros caracterizam a variabilidade
das variáveis aleatórias. Se Xi e Xj são variáveis independentes temos
A covariância é definida por: que: E(Xi Xj ) = E(Xi )E(Xj ), de modo que a
covariância é nula.
Cov(X , X ) = E{[X − E(X )][X − E(X )]} O coeficiente de correlação é definido como:
i j i i j j
= E(Xi Xj ) − E(Xi )E(Xj ).(4.10) Cov(Xi , Xj )
ρi,j = ,
Note que a covariância é uma dı́ade que pode σ(Xi )σ(Xj )
ser representada por uma matriz. As variâncias onde notamos que ρ ∈ [−1, 1]. Tendo xj entre
dos componentes de X ~ são obtidas pelo elemen- xi e xi + dxi , podemos interpretar |ri,j | como
tos da diagonal principal. de modo que para a sendo a probabilidade de obter o xj entre xi e
componente i de ~x, temos que a variância é dada xi + dxj .
por: Notamos que podemos definir a covariância
para momentos superiores:
Var(Xi ) = σ 2 (Xi ) = E{[Xi − E(Xi )]2 }
= E(Xi2 ) − E2 (Xi ) . (4.11) Cov(Xip , Xjq ) ≡ E(Xip Xjq ) − (E)(Xip )E(Xjq ) .
As propriedades da variância são, no que se- e a função de correlação:
gue abaix k é uma constante:
1. Var(k) = 0; (p,q) Cov(Xip , Xjq )
ρi,j = .
σ(Xip )σ(Xjq )
2. Var(kXi ) = k 2 Var(kXi );
3. Var(Xi ± Xj ) = Var(Xi ) + Var(Xj ) ± 4.5.3 Mudança de Variáveis
2Cov(Xi Xj ),
As variáveis aleatórias: ~x são geradas pela dis-
4. Var(Xi ± k) = Var(Xi ). tribuição ρ(~x), de modo que a probabilidade de
~ são independentes, se tirar ~x entre [~x, ~x + d~x] é dp = d~xρ(~x). Con-
~ e Y
Se as variáveis X
siderando novas variáveis ~y = F (~x) temos que:
então:
Cov(Xi , Xj ) = 0 , 0
d~x
ρ (~y )d~y = ρ(~x)d~x → ρ(~y ) = ρ(~x) ,
e d~y
48
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
1. Considere uma variável aleatória discreta T 4. Considere o lançamento de dois dados si-
cuja distribuição de probabilidade é: multaneamente e admita que os dados não
T
P (T )
2
1/10
3
1/10
4
4/10
5
2/10
6
1/10
7
1/10
são viciados. Para cada um dos items a
seguir, determine o domı́nio da variável
Determine:
aleatória X e sua distribuição de probabili-
(a) P (T ≥ 6); dades:
(b) P (|T − 4| > 2); (a) X é o maior valor observado;
(c) P (T ser um número primo); (b) X é a soma dos valores observados;
(d) E(X); (c) X é o produto dos valores observados;
(e) Var(X). (d) P (Xser um número par);
2. Seja X uma variável aleatória discreta com (e) X é a diferença entre o maior e o me-
distribuição de probabilidade P [X = x] = nor valor observado;
c2−x para x = 0, 1, 2, . . . e nula no comple-
mentar. 5. Mostre que para αi constante:
Determine: Xn n
X
E( αi Xi ) = αi E(Xi ) .
(a) o valor da constante c; i=1 i=1
(b) P (X > 5);
6. Seja X uma variável aleatória com E(X 2 )
(c) P (Xser um número ı́mpar);
finito e sejam α e β constantes reais.
(d) E(X);
(e) Var(X). (a) Mostre que: Var(αX + β) =
α2 Var(X);
3. Considere uma variável aleatória discreta (b) Calcule E[(βX + 4)2 ] se E(X) = 4 e
tendo a seguinte distribuição de proba- Var(X) = 3.
bilidades: P [X = x] = cx para x =
0, 1, 2, . . . , N e zero fora deste conjunto. 7. Considere dois lançamentos consecultivos
Determine: de um dado que não é viciado. Sejam: X :
número de vezes em que é obtida a face 1,
(a) o valor da constante c para N = 4; x = 0, 1, 2; Y : número de vezes que é ob-
(b) o valor da constante c para um valor tida a face 6, y = 0, 1, 2; e Z = X + Y :
qualquer de N (inteiro positivo); número de vezes que aparece ou uma face
1 ou uma face 6, z = 0, 1, 2. Determine:
(c) P (X ≤ a) com a ≤ N ;
(d) P (Xser um número par); (a) Var(X);
(e) E(X); (b) Var(Y );
49
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
11. Um livro de apostadores recomenda a se- 15. Um produto de venda sazonal traz lucro B
guinte estratégia que afirma ser vencedora reais por unidade vendida e um prejuı́zo L
no jogo de roleta. Aposte 1 R$ nas verme- reais por cada unidade estocada e não ven-
lhas. Se o resultado do giro da roleta for dida. O número X de unidades vendidas
vermelha (cuja probabilidade vale 18/38), deste produto em um certo supermecardo é
50
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
51
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
52
Capı́tulo 5
Distribuições Discretas
Apresentamos algumas das principais distri- Observe que a média somente dos valores extre-
buições de probabilidade que, pela sua im- mos.
portância merecem um estudo especial. Con- O momento de assimetria é nulo, pois a dis-
forme veremos, tais distribuições partem da tribuição é simétrica e a curtose vale??.
pressuposição de certas hipóteses bem defini-
das. Como diversas situações reais muitas vezes
se aproximam dessas hipóteses, os modelos aqui 5.2 Distribuição de Ber-
descritos são úteis no estudo de tais situações,
daı́ sua importância. noulli
Seja um experimento onde podem ocorrer so-
5.1 Distribuição Uniforme mente dois resultados: um que interessa, que
chamamos de sucesso, ou o que não interessa,
ou Equiprovável que chamamos de fracasso. Associamos uma
variável aleatória X aos possı́veis resultados, de
Considere uma variável aleatória X discreta
forma que X = 1, se o resultado for um sucesso,
que pode assumir n valores x1 , x2 , . . . , xn . Se
isto acontece com probabilidade p e X = 0, se o
este valores tiverem a mesma probabilidade de
resultado for um fracasso que acontece com pro-
ocorrência p = 1/n tem-se a distribuição uni-
babilidade q = 1 − p. A variável aleatória assim
forme ou distribuição equiprovável.
definida tem distribuição de Bernoulli.
1/n para X = x1 , x2 , . . . , xn
P (X) =
0 caso contrário q = 1 − p para x = 0
(5.1) P (X) = p para x = 1 (5.6)
O valor esperado e variância são: 0 caso contrário
n
1 X
E (X) = xi (5.2) Pode-se mostrar que:
n i=1
1 X
n E(X) = p (5.7)
Var(X) = [xi − E (X)]2 . (5.3) Var(X) = p(1 − p) = pq (5.8)
n i=1
γ3 = (5.9)
5.1.1 Espaçamentos Iguais γ4 = . (5.10)
Podemos escrever os valores de xi = xi−1 +hi−1 ,
onde hi−1 = x1 − xi−1 . Merece destaque o caso
em que estes valores são equiespaçados, ou seja,
5.3 Distribuição Simétrica
a diferença entre eles é constante h1 = . . . = de Bernoulli (Ising)
hn−1 − = h. Neste caso a distribuiç é perfei-
tamente caracterizada por três parâmetros de Associamos uma variável aleatória X aos
onde temos: possı́veis resultados, de forma que X = 1, se
x1 + xn n o resultado for um sucesso, isto acontece com
E (X) = = h (5.4) probabilidade p e X = −1, se o resultado for
2 2
h2 (n2 − 1) um fracasso que acontece com probabilidade
Var(X) = . (5.5) q = 1 − p. A variável aleatória assim definida
12
53
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
tem distribuição simétrica de Bernoulli ou dis- o número de ordenamento possı́veis para n ele-
tribuição de Ising. mentos distintos. Como exitem somente duas
realizações possı́veis, divide-se pelo número de
q = 1 − p para x = −1 ordenamentos possı́veis dessas realizações.
P (X) = p para x = 1 (5.11) O número de combinações de n elementos k a
0 caso contrário
k vale:
Pode-se mostrar que: n n n!
= =
k n−k k! (n − k)!
E(X) = 0 (5.12)
Γ(n + 1)
Var(X) = E(X 2 ) = 1 (5.13) = , (5.16)
Γ(k + 1) Γ(n − k + 1)
γ3 = (5.14)
onde Z ∞
γ4 = . (5.15)
Γ(z) = dt tz−1 e−t , (5.17)
0
54
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
55
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
56
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
A média vale E(X) = k/p, a variância kq/p2 , Na prática quando o número de elementos re-
a assimetria?? e a curtose??. Os parâmetros tirados n for muito menor que o número total
são: de elementos N (n N ), usa-se a distribuição
binomial como aproximação da distribuição hi-
k
E(k) = µ = (5.45) pergeométrica.2
p
kq
Var(X) = σ 2 = 2 (5.46)
p Jogo da Megasena
γ3 = (5.47)
γ4 = 6 + . (5.48) Um aplicação interessante da distribuição hiper-
geométrica é no jogo da megasena. Neste jogo
N = 60 bolas são numeradas e dipostas em uma
Para k = 1 obtem-se a distribuição
urna. Na extração, R = 6 bolas são retiradas da
geométrica.
urna sem reposição. O jogador pode escolher
n ≥ 6 dezenas em uma cartela e ganha prêmio
5.8 Distribuição Hiper- se tiver os k = 6 números do R = 6 números
extraı́dos fazendo a sena, se tiver k = 5 dos
geométrica R = 6 números fazendo a quina ou k = 4 dos
R = 6 números fazendo uma quadra. Então a
Consideremos um conjunto de N elementos, r
distribuição hipergemétrica nos fornece a proba-
dos quais têm uma determinada caracterı́stica
bilidade de fazer a sena k = 6, a quina k = 5 e
(por exemplo sucesso) onde r ≤ N . São ex-
a quadra k = 4 jogando n ≥ 6 dezenas.
traı́dos n elementos sem reposição, onde n ≤ N .
A distribuição de probabilidade da variável
aleatória X, igual ao número de elementos com a 6 54
referida caracterı́stica que estarão entre os n re- k n−k
Pn (k) = , (5.54)
tirados é dita uma distribuição hipergeométrica 60
n
r N −r
k n−k A nossa referência é fazer a sena jogando n =
P (X = k) = ,
N
n 2 Seja:
com k = 0, 1, 2, . . . , n e r = 0, 1, 2, . . . , N .
r
N −r
Chamando p = r/N e q = (N − r)/N , os k n−k
P (X = k) =
parâmetros são:
N
n
E(k) = µ = np (5.49) n!
=
N − n k!(n − k)!
Var(X) = σ 2 = npq (5.50) r!(N − r)!(N − n)!
N −1 .
r (r − k)!(N − r − n + k)!N !
q − p N − 1 N − 2n
γ3 = √ (5.51)
npq N − n N − 2 Se N n, r k e N − r 1
γ4 = muito complicado . (5.52)
1
n
P (X = k) =
k N (N − 1) . . . [N − (n + 1)]
A função caracterı́stica é:
(N − r)(N − r − 1) . . . [N − r − (n − k + 1)]
N −r r(r − 1)(r − 2) . . . [r − (k + 1)]
n−k
n ıt =
n N r
rk (1 − )(n−k) .
φ(t) = F (−n, −r, N −r−n+1, e ) , k Nn N
N
n Chamando p = r/N tem-se a distribuição binomial:
(5.53)
onde F (a, b, c, d) é a função hipergeométrica. P (X = k) =
n
pk (1 − p)n−k .
Note que se as extrações fossem feitas com k
reposição, terı́amos uma distribuição binomial.
57
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
58
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
59
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
61
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
62
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
63
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
determine quantas flores o florista deveria máximo, a 3 petroleiros por dia. Se mais
ter em estoque a fim de maximizar o lucro do que 3 petroleiros aportarem em um dia,
esperado. o excesso é enviado a outro porto.
17. A cada noite, diferentes meteorologistas nos (a) Em um dia, qual a probabilidade de se
fornecem a “probabilidade” de que irá cho- enviar petroleiros para outro porto?
ver no dia seguinte. Para avaliar o quão (b) De quanto deverão ser aumentadas as
boa são estas previsões, é possı́vel atribuir instalações para permitir atender a to-
escores a cada um desses meteorologistas, dos os navios que chegarem pelo me-
como segue: se o metereologista diz que nos em 95 % dos dias?
irá chover no dia seguinte com probabili-
dade p, então ele receberá um escore de (c) Qual o número médio de petroleiros
1 − (1 − p)2 se chover no dia seguinte e de que chegam por dia?
1 − p2 se não chover. Acompanhando os es- 21. A duração do “tonner” de uma máquina de
cores obtidos pelos meteorologistas durante fotocópias pode ser modelado como normal
um certo intervalo de tempo, podemos con- com média 15 e desvio-padrão 2 (em mi-
cluir que o meteorologista com maior es- lhares de cópias). Para uma amostra de 12
core médio é aquele que melhor prediz o fotocopiadoras a duração do “tonner” será
tempo.Suponha agora que um meteorolo- observada e pergunta-se a probabilidade de,
gista está ciente deste procedimento de es- em média, durar:
cores e deseja maximizar o seu escore es-
perado em um dia. Se este meteorologista (a) menos do que 16 mil cópias?
acredita que de fato irá chover no dia se-
(b) mais do que 13 mil cópias?
guinte com probabilidade p∗ , qual o valor
que ele deve dizer para maximizar o seu es- (c) entre 12 e 14 mil cópias?
core esperado? Interprete o resultado.
18. Na manufatura de certo artigo, é sabido que
1 entre 10 artigos é defeituoso. Qual a pro-
babilidade de que em uma amostra casual
simples de tamanho 4 contenha:
64
Capı́tulo 6
Distribuições Contı́nuas
65
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
que tem como média αβ e como variância β 2 . varia muito mais lentamente do que Pn (k), uma
A distribuição gama é usada para representar expansão em série de Taylor de ln Pn (k) con-
fenômenos limitados de um lado,(0 ≤ X < ∞), verge mais rapidamente do que a expansão em
tais como a distribuição de tempos entre: reca- Pn (k).
librações de instrumentos, compras de um item Expandindo ln Pn (k) em série de Taylor em
estocado, etc. torno de µ(K) tem-se:
A distribuição gama com α inteiro pode ser
considerada como uma genelarização da dis- ln Pn (k) = ln Pn (µ(K)) +
tribuição exponencial, representando a distri- ∂ ln Pn (k)
[k − µ(K)] +
buição do intervalo decorrido entre α + 1 su- ∂k
k=µ(K)
cessos consecultivos. Analogamente a distri-
1 ∂ 2 ln Pn (k)
buição exponencial, a distribuição gama não [k − µ(K)]2 + . . . .
tem memória. 2 ∂n2
k=µ(K)
Vemos que:
6.5 Distribuição Beta ln Pn (k) = ln n! − ln k! − ln(n − k)! +
A função densidade de probabilidade de uma k ln p + (n − k) ln(1 − p) .
distribuição beta é dada por: ∂ ln Pn (k) ∂ ln k! ∂ ln(n − k)!
= − − +
∂k ∂k ∂k
Γ(κ + η) κ−1
f (p) = p (1 − p)η−1 , (6.12) ln p − ln(1 − p) .
Γ(κ)Γ(η)
Como n 1, usamos a aproximação de Stir-
com 0 ≤ x ≤ 1. Os parâmetros são: ling ?:
κ √
E(k) = µ= (6.13) k
κ+η k! ' 2πk( )k → ln k! ' k ln k − k (k 1) ,
κη e
Var(X) = σ2 = (6.14)
(κ + η)2 (κ + η + 1) então temos que:
γ3 = (6.15) ∂ ln k!
= ln k .
γ4 = 6+ . (6.16) ∂k
Para k = np
Usando uma transformação conveniente
pode-se mudar os limites do campo de definição ∂ ln Pn (k)
=0,
da variável P para dois valores quaisquer a e b. ∂k
k=µ(K)
Observe que a função densidade de probabi-
lidade beta, que tem como variável a probabili- ou seja, a distribuição tem um máximo em k =
dade p é similar a distribuiçãp binomial que tem µ(K).
com variável o número de sucessos k. A distri- A segunda derivada pode ser calculada
buição beta é usada para representar fenômenos
limitados de dois lados a ≤ P ≤ b, tais como a ∂ 2 ln Pn (k) 1 1
2
=− − .
distribuição da proporção da população entre o ∂k k n − k
menor e o maior valor, distribuição de tempo a Para k = µ(K), temos:
ser gasto na execução de uma certa tarefa, etc.
∂ 2 ln Pn (k)
1 1
2
=− =− 2 .
∂k np(1 − p) σ
6.6 Distribuição Normal k=µ(K)
= 1,
−∞
6.7 Distribuição do χ2
como Considere ν variáveis aleatórias normais, pa-
∞ √ dronizadas e independentes entre si, isto é,
1 (k − µ(K))2
Z
dk exp(− ) = 2πσ , Xi : N (0, 1), i = 1, 2, . . . , ν, então a variável
−∞ 2 σ2 aleatória χ2 definida como a soma dos quadra-
temos: dos dos Xi tem uma distribuição do χ2
1
Pn [µ(K)] = √ . ν
2πσ 2
X
χ = Xi2 .
Deste modo obtemos a distribuição normal, i=1
também chamada de Gaussiana:
A função densidade de probabilidade é:
1 (k − µ(K))2
1
Pn (k) = √ exp − .
2πσ 2 σ2 (χ2 )ν/2−1 exp(−χ2 /2)
f (χ2 ) = ,
Notamos que a distribuição normal depende 2ν/2 Γ(ν/2)
de somente dois parâmetros, o valor médio 2
µ(K) = µ e o desvio-padrão σ. Esta distribuição com χ > 0.
é simétrica em torno de µ(K) e unimodal e ge- O parâmetro ν recebe o nome de graus de li-
ralmente representada por: berdade e corresponde ao número de variáveis
normais independentes. O valor médio da dis-
1 1 x−µ 2 tribuição de χ2 é: E(χ2 ) = ν e a variância
NX (µ, σ) = √ exp[− ( ) ].
2πσ 2 σ Var(χ2 ) = 2ν.
é conveniente definir uma distribuição normal Como propriedades tê-se :
com média nula µ = 0 e desvio-padrão unitaário
χ2p + χ2q = χ2p+q ,
σ = 1, esta distribuição é chamada de distri-
buição normal padrão e pode ser obtida de qual- onde p e q são os graus de liberdade.
quer outra distribuição normal através da mu-
A função acumulada de f (χ2 ), que é a distri-
dançe. variáveis.
buição do χ2 é dada pela função gama incom-
x−µ pleta
z= .
σ C(χ2 , ν) = P (ν/2, χ2 /2) .
Esta grandeza adimensional z chamada de
padrão z quantifica quanto a variável de in-
teresse se afasta (ou se aproxima) da média
6.8 Distribuição t de Stu-
em unidades de desvio-padrão. A área entre dent
z ∈ [−σ, σ] é aproximadamente de 0.6826, a
área entre z ∈ [−2σ, 2σ] é aproximadamente de Seja uma variável aleatória normal padronizada
0.9544 e a área entre z ∈ [−3σ, 3σ] é aproxi- X e uma variável aleatória Y seguindo uma dis-
madamente de .9972. Este fato demonstra o tribuição do χ2 com ν graus de liberdade com
rápido caimento da distribuição a medida que X e Y independentes, então a variável
|z| se afasta da origem.
A função acumulada da distribuição normal é νX
t= √ ,
dada por: Y
1 erfc(z) se z < 0 tem a distribuição de Student com ν graus de
C(z) = , liberdade.
2 1 + erf(z) se z ≥ 0
67
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
68
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
69
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
70
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
6.16.2 q=1
Neste caso obtem-se a distribuição normal:
2
e−βx
P1 (x) = p .
π/β
6.16.3 1<q<3
1/2
q−1 Γ[1/(q − 1)]
Pq (x) =
π Γ[(3 − q)/(2(q − 1))]
1
. (6.25)
[1 + (q − 1)x2 ]1/(q−1)
√
Lembrando que Γ(1/2) = π, para q = 2 esta distribuição é a distribuição de Cauchy-Lorentz
1
P2 (x) = .
π(1 + x2 )
ubiquity of Lévy distributions in nature, Phys. Rev. Lett. 75, 3589-3593 (1995).
71
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
6.17 Distribuição de Gibbs Para c < 1, a função acumulada Pac (x) apre-
senta uma nı́tida curvatura em um gráfico log-
ou Distribuição de log exibindo ainda um comportamento linear
Boltzmann relativamente grande a medida que c diminui.
Esta distribuição pode então ser utilizada para
A função densidade de probabilidade de Gibbs levar em consideração um regime de escala limi-
ou Boltzmann é: tado e a transição para o regime de não-escala.11
Quando se utiliza a exponencial esticada, o des-
eE(x)/T
p(x) = ∞ vio de uma lei de potência deve ser de apresentar
dx0 eE(x0 )/T
R
−∞ uma caracterı́stica fundamental e simplesmente
um efeito de tamanho finito.
onde E(x) é uma função da variável aleatória
x e T é um parâmetro de controle. A forma
da distribuição é controlada pela mudança do 6.19 Distribuição de Voigt
parâmetro T , que é chamado de temperatura
em termodinâmica. Esta função densidade de A função densidade de probabilidade de Voigt é
12
probabilidade não é em geral analiticamente in- definida como:
tegrável a não ser em alguns muito simples E, a
Z ∞
e−y
2
72
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Então:
p(~x, ~y ) = p(~x|~y )p(~y )
Também vale:
p(~x, ~y )
p(~y |~x) = ,
p(~x)
e
p(~x, ~y ) = p(~y |~x)p(~x) .
Combinando estes resultados:
73
Capı́tulo 7
Distribuições Multivariadas
75
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
∞ 2 Z ∞ −σs2
1
Z
−jks
1 − (s−hsi)
2 − 2 (k−
j(s−hsi) 2
2 )
p(s) = dke p̃(k) p(s) = e 2σs
dke σs
2π −∞
2π −∞
(s−hsi)2
√
1
Z ∞ N 1 − 2σ2 2π
= e (7.4)
Y
dke−jks f˜i (k) . (7.3)
s
= 2π σs
2π −∞ i=1
76
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
2
NX,Y (µX , σX , µY , σY2 , ρ) =
1
p
2πσX σY 1 − ρ2
−1 2 2
exp z + zY − 2ρzX zY
2(1 − ρ2 ) X
x − µX
zX =
σX
y − µY
zY = ,
σY
onde µX e µY são os valores médios, σX e σY
são os desvios-padrão e ρ é a correlação entre X
e Y.
Em termos das variáveis reduzidas têm-se a
distribuição normal bivariada padrão:
1
NzX ,zY (0, 1, 0, 1, ρ) = p
2π 1 − ρ2
−1
zx2 + zy2 − 2ρzx zy
exp ,
2(1 − ρ2 )
77
Capı́tulo 8
Experimentação
79
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
80
Capı́tulo 9
Estatı́stica Indutiva
81
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
82
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
1. Sorteio, em estágio único, de uma amos- (b) se C ≤ Cc , não a há dados a eliminar.
tra casual simples de alguns conglomerados.
Todos os elementos de cada conglomerado Tamanho da amostra n Cc
sorteado serão considerados. Este procedi- 5 1,65
mento pode alterar o tamanho da amostra 6 1,73
e/ou a fração de amostragem previamente 7 1,80
definidas. 8 1,86
9 1,92
2. Sorteio em dois estágios. No primeiro uma 10 1,96
amostra casual simples de conglomerados é 12 2,03
sorteado e, no segundo, serão sorteados ele- 14 2,10
mentos de cada conglomerado selecionado, 16 2,16
adotando a fração de amostragem f2 calcu- 18 2,20
lada em função da fração f1 determinada 20 2,24
no estágio precedente. Fixa-se que todos os 22 2,28
elementos têm a mesma probabilidade f de 24 2,31
pertencer à amostra sorteada. Isto equivale 26 2,35
a dizer que a amostra é eqüiprobabilı́stica, 30 2,39
assim f2 = f /f1 . Este procedimento pre- 40 2,50
serva a fração de amostragem previamente 50 2,58
definida mas não o tamanho da amostra. 100 2,80
200 3,02
3. Sorteio em dois estágios com probabilidade 500 3,29
proporcional ao tamanho dos conglomera- 5000 3,89
dos. Este procedimento preserva tanto o 50000 4,42
tamanho da amostra quanto a fração de 500000 4,89
amostragem pré-definidos. O número de 5000000 5,33
elementos sorteadosde cada conglomerado 50000000 5,73
é constante. Estes valores são válidos para distribuições
aproximadamente normais.
9.1.4 Eliminação de Dados Sus-
peitos Critério de Arley
Ocorre as vezes na prática que, ao levantarmos O critério de Arley deve ser utilizado se o des-
dados amostrais verificamos que, certos elemen- vio padrão da população σ não for conhecido e
tos não deveriam pertencer a amostra. Há al- consiste de:
guns critérios para a eliminação de dados.
1. Calcular x̄ e s,
Critério de Chauvenet 2. determinar r = max(|xi − x̄|)/s, com i =
O critério de Chauvenet deve ser utilizado se o 1, 2, · · · , n,
desvio padrão da população σ for conhecido e
3. determinar C = d/σ, se não conhecermos
consiste de:
σ, devemos substituir por s,
1. calcular x̄, 4. Comparar com rc , onde rc é dado pela dis-
2. determinar d = max(|xi − x̄|), com i = tribuição r− de Student com ν = n − 2
1, 2, · · · , n, graus de liberdade.
83
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
84
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
1
= q 2. O estimador md ele é não-viesado pois
Var(T ) + Viés2 (T ) Viés(md) = E(md) − µ = µ − µ = 0. Ele
1 é consistente pois, como ele é não-viesado
= q (9.2). limn→∞ Viés(mdn ) = 0 e
1
2 + Viés2 (T )
Precisão (T )
π σ2
lim Var(mdn ) = lim =0.
Um estimador preciso tem variância pequena, n→∞ n→∞ 2 n
mas pode ter um erro quadrático médio grande.
Por outro lado, um estimador acurado é não- 3. Os dois estimadores X̄ e md são não-
viesado e tem variância pequena, o que implica viesados e consistentes, mas X̄ é mais efici-
em um erro quadrático médio pequeno. ente do que md pois Var(X̄) < Var(mdn ) =
π/2Var(X̄).
9.3.6 Propriedades dos Estimado- 4. Considere o estimador
res 1X
σ̂ 2 = i = 1n (xi − X̄)2 .
Deseja-se de um estimador que ele seja acurado n
e eficaz. Para atingir estes objetivos os estima- Tem-se
dores devem ter várias propriedades:
n−1 2
E(σ̂ 2 ) = σ
1. Um estimador dever ser não enviesado: n
2
Viés(T ) = 0. 2σ 4
n−1
Var(σ̂ 2 ) = .
n n−1
2. Um estimador deve ser consistente se:
limn→∞ P [|Viés(Tn ) − θ| > ] → 0. Este estimador é viesado pois Viés(σ̂ 2 ) =
σ 2 /n, mas consistente pois
3. Se T e T 0 são dois estimadores não-viesados
de um mesmo parâmetro θ, e Var(T ) < lim Viés(σ̂ 2 ) = 0 (9.3)
Var(T 0 ), então, T é dito mais eficiente do n→∞
85
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
86
Capı́tulo 10
Distribuições Amostrais
87
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
88
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
89
Capı́tulo 11
Intervalos de Confiança
91
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
têm-se n variáveis independentes e o valor médio onde sE é o erro padrão e ν é o número de graus
x̄, o problema tem n − 1 graus de liberdade, ou de liberdade doP sistema. Observe que para cal-
n
seja, n − 1 variáveis independentes. cularmos s2 = i=1 (xi − x̄)2 /(n − 1) devemos
Para um dado coeficiente de confiança γ conhecer x̄, como temos n variáveis e x̄ o pro-
obtem-se os valores χ2> (γ, ν) e χ2< (γ, ν) (a dis- blema tem n−1 graus de liberdade pois somente
tribuição de χ2 somente admite valores nulo e n − 1 variáveis são independentes.
positivos e em geral não é simétrica em torno de Para um dado coeficiente de confiança γ
E(χ2 ) = µ. Resolvendo em σ obtêm-se: obtem-se os valores ±tγ,ν (a distribuição de t
νs2 νs2 é simétrica em torno da origem). Resolvendo
≤ σ2 ≤ . em µ obtêm-se:
χ2> (γ, ν) χ2< (γ, ν)
| {z } | {z }
2
σ< 2
σ> µ = x̄ ± tγ,ν sE .
O intervalo de confiança para o desvio-padrão:
√ √ Aproximação para grandes amostras
νs νs
≤σ≤ .
χ> (γ, ν) χ< (γ, ν) Se ν 1 a função de densidade de probabili-
dade t de Student converge para a N(0, 1), deste
Aproximação para grandes amostras modo o valor tγ,ν é praticamente independente
do tamanho da amostra n e de isto corresponde
Se ν 1, a distribuição do χ2 converge para
a trocar o tγ,ν por zγ .
uma distribuição normal com valor esperarado:
E(χ2 ) = n (11.5) µ = x̄ ± zγ sE .
Var(χ2 ) = 2n , (11.6)
uma distribuição: N(n, 2n). Assim os valores Determinação do tamanho da amostra
limites de intervalo de confiança são:1 Considere |Erro(X̄)| = |X̄ − µ| = ||. Para que
2
√
χ > (γ, ν) = n ± zγ 2n , (11.7) com um dado coeficiente de confiança γ se tenha
< um erro ( > 0) na estimativa de µ usa-se
e este intervalo pass a ser escrito como: a Eq. 11.3 para a determinação do número de
2 2
σ = s ± zγ sE,σ2 2
(11.8) elementos n na amostra:
r z s 2
2 2 2 n =
γ
.
sE,σ2 = s . (11.9)
n
Para o desvio-padrão têm-se:2
11.1.5 Proporção
σ = s ± zγ sE,σ (11.10)
s O intervalo de confiança para a probabilidade é
sE,σ = √ . (11.11) dada por:3
2n
L1 ≤ p ≤ L2 ,
11.1.4 Média (Variância da Po- com
pulação Desconhecida)
k = p̂n (11.12)
Neste caso considera-se a distribuição amostral
da variável: k
L1 = (11.13)
x̄ − µ k + (n − k + 1)Fα(2),ν1 ,ν2
t = ν1 = 2(n − k + 1) (11.14)
sE
s ν2 = 2k (11.15)
sE = √
n (k + 1)Fα(2),ν10 ,ν20
ν = n−1, L2 = (11.16)
p
n − k + (k + 1)Fα(2),ν10 ,ν20
1 Mais rápido ainda converge a distribuição de 2χ2
p √ p ν10 = ν2 + 2 (11.17)
com E( 2χ2 ) = 2n − 1 e Var( 2χ2 ) = 1. Ver B. L.
van der Waerden, Mathematical Statistics, pp. 102-103, ν20 = ν1 − 2 (11.18)
Springer-Verlag, Berlin, 1969.
2 M. R. Spiegel, Estatı́stica, pp. 239, Makron Books, 3 J. H. Zar, Biostatistical Analysis, Prentice-Hall, En-
92
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
93
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
(1) (2) (n )
xb , xb , . . . , xb b , de onde pode-se conhecer 11.2.3 Diferenças de Médias
para cada amostra a média e a variância amos- (Variâncias da Populações
tral: x̄a , s2a , x̄b e s2b . Desconhecidas e Iguais)
A variável:
Para duas amostras de tamanho na e nb
(1) (2) (n )
s2a /σa2 com as observações: xa , xa , . . . , xa a e
F (νa , νb ) = (11.19) (1) (2) (nb )
s2b /σb2 xb , xb , . . . , xb , de onde pode-se conhecer
νa = na − 1(11.20) para cada 2amostra2a média e a variância amos-
tral: x̄a , sa , x̄b e sb . Têm-se
νb = nb − 1 . (11.21)
µd = E(Xd ) = E(Xa ) − E(Xb ) = µa − µb .
A variável F (νa , νb ) segue a distribuição de
Fisher-Snedecor com νa graus de liberdade no A média da diferença das observações é:
numerador e νb graus de liberdade no denomi-
nador. x̄d = x̄a − x̄b .
O intervalo de confiança vale:
Uma vez que as variâncias populacionais são
2 iguais mas desconhecidas, a melhor maneira de
(sa /sb )2 (sa /sb )2
σa estimar esta variância é utilizando a média das
≤ ≤ (11.22)
Fγ,> (νa , νb ) σb Fγ,< (νa , νb ) variâncias amostrais ponderada pelo número de
1 graus de liberdade (tamanho da amostra):
Fγ,< (νa , νb ) = (11.23)
Fγ,> (νb , νa )
νa s2a + νb s2b
s2D = (11.26)
νa + νb
11.2.2 Diferenças de Médias νa = na − 1 (11.27)
(Variância da População νb = nb − 1 . (11.28)
Conhecidas)
A variável pivotal é escrita como:
Para duas amostras de tamanho na e nb
com as observações:
(1) (2) (n )
xa , xa , . . . , xa a e x̄d − µd
t = (11.29)
(1) (2) (n )
xb , xb , . . . , xb b , de onde pode-se conhecer sE
r
para cada amostra a média e a variância amos- 1 1
sE = sD + (11.30)
tral: x̄a , s2a , x̄b e s2b . Têm-se na nb
ν = νa + νb = na + nb − 2 , (11.31)
µd = E(Xd ) = E(Xa ) − E(Xb ) = µa − µb .
onde a variável t segue uma distribuição t-de
A média da diferença das observações é: Student com ν graus de liberdade.
Desta maneira obtem-se:
x̄d = x̄a − x̄b . µd = x̄d ± tγ,ν sE .
94
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
95
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
96
Capı́tulo 12
Teste de Hipóteses
Uma hipótese, em estatı́stica, é uma alegação, Qualquer que seja a decisão tomada, estamos
ou afirmação, sobre uma propriedade de uma sujeitos a cometer erros. Estes erros podem ser
população (parâmetro) através dos resultados de dois tipos:
obtidos em amostras. O objetivo do teste es-
tatı́stico é fornecer ferramentas que nos permi- 1. Erro do tipo I: não aceitar a hipótese
tam validar ou refutar hipóteses. A construção nula H0 quando ela é verdadeira. Designa-
de um teste de hipótese pode ser colocada do se a probabilidade de cometer este erro por
seguinte modo. α, que também é chamado de nı́vel de sig-
Considere uma variável X em uma dada po- nificância do teste de hipótese.
pulação. Considere também uma hipótese so-
2. Erro do tipo II: aceitar a hipótese nula
bre determinado parâmetro θ dessa população,
H0 quando ela é falsa. Designa-se por β a
com relação a um valor θ0 que pode ser visto
probabilidade de cometer este erro.
como um parâmetro de uma população de con-
trole. Por exemplo este parâmetro pode ser a O teste de hipótese é fundamentado no nı́vel
média populacional µ, a variância σ 2 , a pro- de significância α. Observa-se que da três
porção de sucesso p etc. Colhe-se uma amos- variáveis α, β e n, somente duas são indepen-
tra aleatória de n (finito) elementos dessa po- dentes. Isto quer dizer que dados os erros tipo I
pulação, obtem-se o estimador T (X1 , . . . , Xn ) (α) e II (β), pode-se determinar o tamanho da
de θ. Este estimador pode ser a média amostral amostra (n). Ou dado α e n, pode-se determinar
x̄ = (x1 + . . . + xn )/n, a variância amostral s2 , a β.
proporção de sucesso na amostra p̂ etc. Através Caso a hipótese nula H0 não seja aceita,
dos valor deste estimador T deseja-se comprovar aceita-se a hipótese alternativa H1 , que é a
ou refutar a hipótese considerada. hipótese complementar à hipótese nula. Com
A hipótese de trabalho é a hipótese que es- relação as hipóteses nulas consideradas acima,
tamos colocando à prova. Escreve-se então a têm-se como hipóteses alternativas: H1 : θ 6= θ0 ,
hipótese complementar , ou seja, a hipótese que H1 : θ < θ0 e H1 : θ > θ0 , respectivamente.
é verdadeira se a hipótese de trabalho for falsa. O objetivo do teste de hipótese é dizer,
Chama-se hipótese nula H0 aquela que possui através de uma estatı́stica T obtida de uma
um sinal de igualdade (=). A hipótese nula pode amostra, se H0 é ou não aceitável para um dado
ser tanto a hipótese de trabalho ou quanto a nı́vel de significância α. A idéia é sempre assu-
hipótese complementar. mir que a hipótese nula H0 (θ = θ0 , θ ≥ θ0 , θ ≤
Considere todas as possibilidades de com- θ0 ) é verdadeira e colocar a prova esta idéia no
paração para a hipótese nula: H0 : θ = θ0 , pior dos casos. Da distribuição amostral da es-
ou H0 : θ ≥ θ0 ou ainda H0 : θ ≤ θ0 . A tatı́stica T considerada, obtêm-se valores de re-
hipótese nula é então colocada a prova pela con- ferência da variável pivotal para um dado nı́vel
sideração dela ser verdadeira no pior dos casos. de significância α.
Chama-se a atenção para a expressão: no pior No conjunto de hipóteses: H0 : θ = θ0 e
dos casos, pois é somente neste valor que se pode H1 : θ 6= θ0 faz-se um teste bilateral (teste bi-
conhecer a distribuição amostral e o valor de caudal) (pois aparece o sinal de diferente (6=) na
seus parâmetros. Seguindo esta consideração, a hipótese alternativa), deste modo não aceita-se
hipótese nula pode ser aceita ou não pelo teste H0 para valores muito pequenos (T < T< ) ou
de hipótese. muito grandes (T > T> ) de T com relação aos
97
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
valores de referência T<,> que são obtidos para atribuir alguns valores, escolhido dentro do caso
um dado nı́vel de signifância do teste. alternativo, e encontrar os valores corresponden-
Já no conjunto de hipóteses: H0 : θ ≥ θ0 e tes de β. Este procedimento será tratado em
H1 : θ < θ0 , faz-se um teste unilateral à es- detalhes nos testes de hipóteses considerados.
querda (teste unicaudal à esquerda), deste modo
não aceita-se H0 para valores muito pequenos
(T < T< ) de T (pois aparece o sinal de menor
(<) em H1 ).
12.1 Passos para a Cons-
Finalmente se H0 : θ ≤ θ0 e H1 : θ > θ0 faz- trução de um Teste de
se um teste unilateral à direita (teste unicaudal
á direita) não aceitando H0 para valores muito
Hipóteses
grandes (T > T> ) (pois aparece o sinal de maior
Vimos acima o procedimento para realizar um
(>) em H1 ).
teste de hipótese. A seguir mostra-se uma
Os valores de T< e/ou T> determinam a
seqüências de passos que pode ser utilizada sis-
região de rejeição, também chamada de região
tematicamente para qualquer teste de hipóteses.
crı́tica do teste de hipótese. Convém salientar
que a construção da região de rejeição é sempre
feita assumindo que H0 é verdadeira no pior dos 1. Determine a hipótese de trabalho e sua
casos. A região de rejeição (ou crı́tica) é cons- complementar a partir de dados do pro-
truı́da de modo que quando H0 for verdadeira, blema considerado.
a probabilidade de não aceitar H0 é α. Caso
o valor observado da estatı́stica T (variável pi- 2. Fixe a hipótese nula H0 como sendo aquela
vota) pertença a esta região, não aceita-se H0 , que contenha um dos sinais: =, ≥ ou ≤. A
consequentemente, aceita-se H1 ; caso contrário, hipótese alternativa é o caso complementar
aceita-se H0 . e imperativamente terá um dos sinais: 6=,
No entanto utiliza-se os verbos apoiar ou re- <, >, dependendo de H0 .
jeitar na resposta de um teste de hipótese per-
mitindo assim saber se H0 é a hipótese de tra- 3. Use a teoria estatı́stica e as informações dis-
balho ou sua complementar. Se hipótese nula ponı́veis para decidir qual estatı́stica (esti-
fora a hipótese de trabalho ela pode ser rejei- mador, consequentemente variável pivotal)
tada ou não pelo teste estatı́stico. Se H0 não será usada para julgar H0 .
for a hipótese de trabalho ela pode ser apoiada
ou não pelo teste.
4. O tipo de teste é determinado pela hipótese
É interessante estabelecer uma relação en-
alternativa H1
tre o nı́vel de signficância α e o coeficiente de
confiança γ de um problema de estimação de
parâmetros. Para testes bilaterais (bicaudais), (a) Se em H1 aparecer o sı́mbolo 6=, o teste
esta relação é dada por: será lateral, ou seja, a região de re-
jeição é desconexa. Cada lado tem a
α=1−γ , probabilidade α/2 de não aceitar H0
caso ela seja verdadeira (erro tipo I).
e para testes unilaterais (monocaudais):
(b) Se em H1 aparecer o sı́mbolo <, o teste
2α = 1 − γ . será unilateral à esquerda, ou seja, a
região de rejeição é determinada de tal
O poder do teste está relacionado com o erro modo que se tenha a probabilidade α
tipo II e é dado por: de não aceitar H0 caso ela seja verda-
deira (erro tipo I).
P =1−β ,
(c) Se em H1 aparecer o sı́mbolo >, o teste
e representa a probabilidade de aceitar H0 sem será lateral à direita, ou seja, a região
cometer o erro tipo II. de rejeição é determindad de tal modi
A determinação do valor de β já é bem mais que se tenha a probabilidade α de não
difı́cil, pois usualmente não se especificam va- H0 caso ela seja verdadeira (erro tipo
lores fixos para o parâmetro em H1 . Pode-se I).
98
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
99
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
automóvel é de 15,0 km/litro. Uma revista medida com os seguintes resultados: 84, 81,
especializada verificou o consumo de 25 des- 77, 85, 69, 80 e 79.
ses veı́culos, escolhidos ao acaso, e consta-
tou consumo médio de 14,3 km/litro. Ad- (a) Teste que a média é 82 contra a alter-
mita que o consumo siga o modelo normal nativa de ser 80. Use α = 2%.
com variância igual a 9 (km/litro)2 . (b) Determine o poder do teste para o
nı́vel de significância dado.
(a) Teste, ao nı́vel de significância de
6%, a afirmação da montadorade que (c) Determine o intervalo de confiança
a média de consumo é igual a 15,0 para média com nı́vel de confiança de
km/litro, contra a hipótese alternativa 98%.
de ser igual a 14,0 km/litro.
(b) Determine a probabilidade de erro 10. O tempo de permanência de engenheiros
tipo II. recém formados no primeiro emprego, em
anos, foi estudado considerando um modelo
(c) Determine o poder do teste. normal com média e variância desconheci-
das. Por analogia com outras categorias
6. A vida média de uma amostra de 100
profissionais, deseja-se testar se a média é
lâmpadas de certa marca é de 1615 horas.
2 anos contra a alternativa de ser 3 anos.
Por similaridade a outros processos de fa-
Para uma amostra de 15 engenheiros, a
bricação, supomos o desvio-padrão igual a
média obtida foi de 2,7 anos e o desvio-
120 horas. Utilizando α = 5%, deseja-
padrão amostral 1,4 anos.
mos testar se a duração média de todas as
lâmpadas dessa marca é igual a 1600 horas.
(a) Para o nı́vel de significância de 1%,
(a) Qual é a conclusão? qual a conclusão do teste?
(b) Determine a probabilidade de erro (b) Determine o poder do teste para o
tipo II se a média fosse 1620 horas. nı́vel de significância dado.
(c) Qual o poder do teste acima? (c) Determine o intervalo de confiança
7. Um criador tem constatado uma proporção para média com nı́vel de confiança de
de 10% do rebanho com verminose. O ve- 99%.
terinário alterou a dieta dos animais e acre-
dita que a doença diminuiu de intensidade. 11. Uma amostra de 20 observações de uma
Um exame em 100 cabeças do rebanho, es- variável com distribuição normal foi colhida
colhidas ao acaso, indicou 8 delas com ver- obtendo-se desvio-padrão 1,2. No teste da
minose. Ao nı́vel de 8%, há indı́cios de que média ser maior do que 5, foi estabelecida
a proporção diminuiu? a região crı́tica {t ∈ R|t > 2, 033}. Deter-
mine a probabilidade de erro tipo I.
8. Uma amostra com 10 observações de uma
variável aleatória normal forneceu média de 12. O número de pontos em um exame de inglês
5,5 e variância amostral d4. Deseja-se tes- tem sido historicamente ao redor de 80.
tar ao nı́vel de significância de 5%, se a Sorteamos alguns estudantes que fizeram
média na população é igual ou menor do recentemente esse exame e observamos se-
que 6. guinte freqüência de notas:
(a) Qual é a conclusão?
Notas Freqüência
(b) Qual o valor-P? 50 → 60 1
(c) Calcule o intervalo de confiança para 60 → 70 1
i. γ = 95% 70 → 80 4
80 → 90 4
ii. γ = 90%
9. Admitindo que a pressão sangüı́nea arterial
em homens siga o modelo normal, pacien- Pode-se afirmar de que a média diminuiu
tes foram sorteados e tiveram sua pressão ao nı́vel de significância de 5 %?
100
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
101
Capı́tulo 13
Alguns Testes de Hipóteses Paramétricos
Nos testes de hipóteses paramétricos todas as 13.1.2 Média com variância popu-
populações consideradas têm caracterı́sticas que lacional desconhecida
seguem uma função de densidade normal. Isto
quer dizer que as grandezas: média e variância x̄ − µ0
t = (13.3)
(ou desvio-padrão) têm significado no problema. sE
Estas grandezas são de fato as grandezas rele- s
sE = √ (13.4)
vantes pois parametrizam a função densidade de n
probabilidade que representa a população. ν = n−1. (13.5)
103
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
104
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
105
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
106
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
7. (2,5 pt) Em uma comparação entre dois (a) (0,5 pt) Pode-se dizer que os desvios-
métodos de ensino, 11 crianças utilizando padrões são iguais ao nı́vel de signi-
o método A montaram um quebra-cabeças ficância de 0,10? Resp. F =
em um tempo médio de 3,2 minutos e com 0, 301 ∈ [0, 331, 3, 14] ⇒ rejeita H0
desvio-padrão de 0,5 minuto. Um outro (b) (0,5 pt) Qual a variância (ou
grupo com 10 crianças, utilizando o método variâncias) das populações com coefi-
B, montou o mesmo quebra-cabeças em 2,8 ciente de confiança de 0,95? Resp.
minutos com desvio-padrão de 0,6 minuto. 1, 2 ≤ σ1 ≤ 3, 1 e 2, 2 ≤ σ2 ≤ 5, 4 Kg.
(a) (2,0 pt) Ao nı́vel de significância de (c) (1,0 pt) Pode-se dizer que x̄2 é maior
5%, pode-se afirmar que o método B do que x̄1 de 2,0 Kg para α = 10%?
é mais eficiente para montar quebra- Resp. −1, 75 < t = 0, 542 < 1, 75 ⇒
cabeças? Justifique os passos para não rejeita H0
chegar a conclusão. Resp. 0, 331 ≤ (d) (1,0 pt) Obtenha o(s) intervalo(s) de
F = 0.694 ≤ 3, 137 ⇒ não rejeita a confiança para a média populacional
igualdade de variâncias H0 , isto conti- (as médias populacionais) ao nı́vel de
nua válido para α = 5% e t = 1, 66 < confiança 0,95. Resp. 3, 4 ≤ µ1 ≤
tc = 1, 73 ⇒ não rejeita H0 . 5, 8 Kg e 3, 9 ≤ µ2 ≤ 8, 1 Kg.
107
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
2. As amostras são aleatórias e mutuamente Deste modo pode-se obter a variável pivotal do
independentes. teste:
a SQD
X s2D = QMD =
νD = νi = n − a , (13.8) νD
a
i=1
X
SQD = SQD,i
i=1
onde
a
X SQD,i = νi s2i
n= ni (13.9)
i=1
108
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
109
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
T1 T2 T3 T4 T5 T6
47 42 3 66 13 30
38 36 27 27 12 33
29 33 48 9 30 12
92 0 3 6 30 24
41 18 27 42 18 57
44 57 42 12 48 44
47 48 69 21 18 30
62 15 63 33 9 24
59 18 30 24 30 31
44 45 42 39 27 18
47 30 60 18 39 33
41 27 39 63 27 23
27 66 24 39
66 15 33
24 7 24
27 30
37
24
15
27
42
n 12 15 21 12 13 16
x̄ 49, 250 35, 400 34, 952 30, 000 25, 000 30, 312
s2 257, 114 295, 971 393, 648 384, 545 114, 923 115, 829
Tabela 13.2: Dados brutos e compilados de 6 tratamentos. Para realizar o teste de ANOVA, os
tamanhos das amostras podem ser diferentes.
• a hipótese nula for aceita (µ1 = µ2 = . . . = nı́vel de significância em cada estimação para:
µa = µ)
α 2α
α∗ = 1 − (1 − α)1/nT ≈ = ,
nT a(a − 1)
então todas as amostras consideradas provêm de (13.15)
uma mesma população: N (µ, σ 2 ). Em termos o qual chamamos de nı́vel de significância de
práticos isto significa que os dados podem ser Bonferroni.
agrupados.
Considerando as populações duas a duas, a Um fator
comparação de médias com o teste t de Stu-
dent não é aconselhável, pois este procedimento Um fator, ou um tratamento, é uma carac-
é pouco eficiente. O número de testes que deve terı́stica que nos permite diferenciar as po-
ser realizado é pulações umas das outras. Na prática pode-se
considerar como populações de interesse. O ob-
a a(a − 1) jetivo é testar se as diferentes amostras podem
nT = = , ser provenientes de populações classificadas por
2 2
apenas uma categoria (fator ou tratamento).
onde a é o número de amostras e o nı́vel de sig- Considere a tratamentos (amostras). Na
nifância para os nT testes é αT = 1 − (1 − α) , nT amostra 1 têm-se n1 dados; na amostra 2, n2 e
onde α é o nı́vel de significância de cada teste de na a-ésima amostra têm-se na dados. Estes da-
Student. Por exemplo, para estimar os interva- dos estão representados na Tabela 13.3.2. Con-
los de confiança para cada média individual e, sidere como exemplo númerico a Tabela 13.1:2
então testar a igualdade das médias ao nı́vel de 2 Neste caso: a = 4, n = 10, n = 11, n = 12 e
1 2 3
significância αT = α, deve-se corrir o seguinte n4 = 13.
110
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
T1 T2 ... Ta estimada por x̄, que pode ser obtido dos dados
(1) (2) (a)
x1 x1 ... x1 resumidos por:
(1) (2) (a)
x2 x2 ... x2
.. .. .. a
. . . 1 X
x̄ = ni x̄i , (13.21)
(1) (2) (a) n i=1
x n1 x n2 ... x na
(i)
Tabela 13.3: Dados xj para a tratamentos onde n é dado pela Eq. 13.16. Este valor é o
(amostras) , com i = 1, 2, . . . , a e j = 1, 2, . . . , ni mesmo que o valor obtido pela Eq. 13.17.3 Já
para utilização do método ANOVA de um fator. para estimar a variância pode-se proceder de
duas maneiras distintas.
Uma maneira é estimar a variância populacio-
Considerando a hipótese nula (H0 ) verda- nal σ 2 utilizando as variâncias amostrais obtidas
(i)
deira, todos os n dados xj (número de ob- dentro do tratamento (ou grupo). Pode-se então
servações), onde: estimar σ 2 através da média das variâncias
amostrais ponderadas pelo número de graus de
a
X liberdade da amostra:
n= ni , (13.16)
i=1 SQD
s2D = QMD = Pa
provêm de uma mesma população com média i=1 νi
µ = µ1 = µ2 = . . . = µa . Observe que já as- SQD
sumimos que as populações são normais e as = (13.22)
νD
variâncias são iguais σ 2 = σ12 = σ22 = . . . = Xa
σa2 , assim esta população é representada por: SQD = νi s2i (13.23)
N (µ, σ 2 ). A média µ da população é estimada i=1
por: νi = ni − 1 (13.24)
a ni
1 XX (i)
a
x̄ = x , (13.17)
X
n i=1 j=1 j νD = νi
i=1
onde n é dado pela Eq. 13.16. a
X
A variância da população é estimada por: = ni − a = n − a , (13.25)
i=1
SQT
s2T = QMT = (13.18)
νT onde n é dado pela Eq. 13.16. A grandeza SQD
ni
a X
X (i) se refere a soma dos quadrados dentro dos trata-
SQT = [xj − x̄]2 (13.19) mentos (ou grupos). Observe que o número to-
i=1 j=1
tal de medidas n deve ser maior do que o número
νT = n − 1 , (13.20) de tratamentos a para que o número de graus de
liberdade νD seja positivo.
onde x̄ e n são dados pelas Eqs. 13.17 e 13.16,
respectivamente. O número de graus de liber- A outra maneira de estimar a variância popu-
dade total νT é o número total de elementos me- lacional σ 2 é utilizando o valor das médias amos-
nos uma unidade. Aqui SQT se refere à soma trais. Sabemos que se H0 for verdadeiro, x̄i2está
dos quadrados total e QMT ao quadrado médio distribuı́do seguindo a distribuição N (µ, σ /a).
total (que é proporcional à variância total). Assim a estimação entre os tratamentos ou gru-
O uso de SQ soma dos quadrados e QM
quadrado médio é usual na nomenclatura dos 3 Considere:
métodos ANOVA.
a
Imagine agora que tenhamos somente os resu- 1 X
x̄ = ni x̄i
mos dos dados da Tabela 13.3.2 que é mostrado n i=1
na Tabela 13.3.2. a ni
1 X ni X (i)
Se conhecemos somente o resumo dos dados =
n i=1 ni j=1 j
x .
(Tabela 13.3.2) e assumindo que a hipótese nula
(H0 ) seja verdadeira, a média populacional µ é
111
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
pos pode ser feita através de: onde ∆µi é o efeito do i-ésimo tratamento.
Desta maneira cada observação pode ser escrita
SQE
s2E = QME = (13.26) como:
νE
a (i)
X xj = µ + ∆µi + i,j . (13.33)
SQE = ni (x̄i − x̄)2 (13.27)
i=1
A hipótese nula H0 : µ1 = . . . = µa e alter-
νE = a−1, (13.28) nativa H , de que pelo menos uma das médias é
1
onde x̄ e n são dados pela Eqs. 13.21 e 13.16 diferente das demais pode ser reformulada pela
respectivamente. A grandeza SQE se refere a seguintes hipóteses:
soma dos quadrados entre os tratamentos (ou
grupos). H0 : ∆µ1 = ∆µ2 = . . . = ∆µa = 0
Destas grandezas somente duas são indepen- H1 : pelo menos um efeito ∆µi 6= 0.
dentes, pois elas estão relacionadas:
Não é difı́cil mostrar que:
SQT = SQE + SQD . (13.29)
ni
a X a
(i)
X X
Estas duas variâncias formam a variância total. [xj − x̄]2 = ni (x̄i − x̄)2 +
i=1 j=1 i=1
νE s2E + νD s2D
s2T = , | {z } | {z }
νT SQT SQE
ni
a X
de modo que as três variâncias não são inde- (i)
X
[xj − x̄i ]2 .
pendentes mas seguem a regra acima. Pode-se i=1 j=1
então considerar somente duas variâncias. | {z }
SQD
Considere o seguinte modelo. Cada ob-
servação pode ser escrita como:
É necessário comparar uma medida apropri-
(i)
xj = µi + i,j , ada da variação entre os tratamentos com a va-
riação dentro destes (tratamentos), assim bus-
onde i = 1,2,. . . , a e j = 1, 2, . . . , ni e i,j é o cando detectar diferenças significativas nas ob-
resı́duo, erro com relação a j-ésima observação servações devido aos seus efeitos.
do i-ésimo tratamento, É feita então a suposição O valor esperado de s2E vale:
de que os resı́duos são:
a
1. variáveis aleatórias independentes com 2 2 1 X
E(sE ) = σ + (∆µi )2 , (13.34)
média nula e variância σ2 desconhecida. a − 1 i=1
2. normais N (0, σe2 ).
de modo que se H0 for verdadeiro então a esti-
Escrevendo as médias de todos os tratamentos: mativa pontual da variância populacional vale:
a
1 X σ 2 = E(s2E ) . (13.35)
µ= µi (13.30)
a i=1
Observe que a segunda estimativa da variância
e
populacional
µi = µ + ∆µi (13.31) σ 2 = E(s2D ) (13.36)
a
é indiferente a veracidade ou falsidade da
X
∆µi = 0, (13.32)
i=1
hipótese nula.
112
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Uma vez que s2E superestima σ 2 quando H0 é 2α/[a(a−1)] (Eq. 13.15), deve ser utilizado. As-
falsa, têm-se que: sim, a diferença entre duas médias vale:
113
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
não da média da população de controle. Neste A variância entre as amostras mede a variação
caso deve-se fazer a − 1 comparações. Este teste entre as médias amostrais
a
é chamado de teste de Dunnet. Fixa-se a po- 1X
pulação de controle, como sendo a população 1 x̄ = x̄i (13.53)
a i=1
do exemplo abaixo:
s2E = n0 s2x̄ (13.54)
a
µi − µ1 = x̄i − x̄1 ± tγ ∗ ,νi +ν1 sD,i,1 × 1 X
r s2x̄ = (x̄i − x̄)2 . (13.55)
1 1 a − 1 i=1
+ (13.49)
ni n1
A média ponderada pelo número de graus de
νi s2i + ν1 s21 liberdade das variâncias em cada amostra é a
sD,i,1 = (13.50)
νi + ν1 variância dada por:
γ ∗ = (1 − α)1/(a−1) (13.51) a
α 2 1X 2
≈ 1− , (13.52) sD = s
a−1 a i=1 i
114
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
assim
SQD
s2D =
a(n0 − 1)
Dois Fatores
Exercı́cios
1. 2,0 pt. Considere as notas de provas P1 ,
P2 e P3 dada pelos professores Pa , Pb e Pc :
Pa Pb Pc
P1 7,3 8,8 6,8
8,9 7,8 7,9
8,2 4,8 5,6
4,3 9,1 9,1
P2 8,0 5,1 7,1
7,3 8,5 7,1
6,6 7,4 8,7
6,0 7,7 4,1
P3 4,5 3,1 5,9
9,3 7,8 6,8
3,6 6,2 5,3
7,7 7,6 7,9
115
Capı́tulo 14
Variáveis Bidimensionais
Pky 0
Até agora, vimos como organizar e resumir in- p0i,. = j=1 pi,j (distribuição marginal de X).
formações pertinentes a uma única variável, mas A proporção de observações da variável Y assu-
freqüentemente estamos interessados em anali- mindo o valor yj , contando todos as realizações
Pkx 0
sar o comportamento conjunto de duas ou mais em X é dada por p0.,j = i=1 pi,j (distribuição
variáveis. Iremos nos deter basicamente em marginal de Y ).
variáveis bidimensionais, mas a extensão para Um dos objetivos principais de uma distri-
mais de duas variáveis é imediata. buição conjunta é descrever a associabilidade
Suponhamos que queremos analisar o com- existente entre as variáveis, isto é, queremos co-
portamento conjunto de duas variáveis X e Y , nhecer o grau de dependência entre elas.
onde o domı́nio de X é divido em kx classes e o
domı́nio de Y em ky classes. A freqüência ob-
servada das realizações simultâneas de X e Y 14.1 Coeficiente de Con-
é dada por fi,j , onde o ı́ndice i = 1, 2, . . . , kx tingência
e o ı́ndice j = 1, 2, . . . , ky . Todos os fi,j for-
mam a distribuição conjunta de X e Y . A dis- Para quantiticar a denpendência entre variáveis
tribuição marginal de X é dada pelas somas qualitativas e quantitativas, considere a ta-
Pky
fi (X) = j=1 fi,j e a distribuição marginal de bela de freqüência 14.1, onde designamos
Pkx
Y é dada fj (Y ) = i=1 fi,j . Isto pode ser re- as freqüências como sendo valores observados
presentado para n observações de duas variáveis oi,j = fi,j como ilustrado abaixo (Tabela 14.3).
pela tabela 14.1. Supomos agora que as variáveis X e Y se-
Em vez de trabalharmos com as freqüências jam independentes. Para as observações da Ta-
absolutas, podemos construir tabelas com as bela 14.3, as freqüências esperadas são:
freqüências relativas (proporções), mas aqui ky kx ky
existem três possibilidades de expressar a pro- X X X
ei,j = p0.,j fi,k = ( p0k,1 )( fi,k ) (14.1)
porção:
k=1 k=1 k=1
117
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Quanto maior for o valor de χ2 , maior será o O coefienciente de contigência pode ser corri-
grau de associação (dependência) entre as duas gido r
variáveis.1 , 2 ∗ t
C =C , (14.5)
Defini-se então o coeficiente de contigência3 t−1
s onde t = min(kx , ky ) é o menor valor entre o
χ2 + n número de linhas e o número de coluna na tabela
C= , (14.3)
χ2 considerada.
mial quando o número de observações n for muito grande Para esta tabela o coeficiente de contigência
n 1. vale:
3 Devido a K. Pearson.
4 C = 1 somente se χ2 → ∞. |f1,1 f2,2 − f1,2 f2,1 |2 f.,.
5 O valor crı́tico de C (C ) é obtido de χ2 . χ2 = , (14.6)
c c f1,. f2,. f.,1 f.,2
118
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
119
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
120
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Um RR = 5 significa que uma pessoa exposta Se a doença afetar somente uma pequena fração
tem 5 vezes mais chance de contrair a doença. da população (em ambos os grupos, expostos
Muitos padrões de p1,1 , p1,2 , p2,1 e p2,2 po- e não expostos) o risco relativo é aproximada-
dem ter o mesmo risco relativo. Isto não é sur- mente igual a razão das chances P P ' OR.
preendente pois um único número RR está resu- Se OR ou RR forem maiores do que 1, o grupo
mindo os outros quatro números. Em particu- exposto tem maior risco de contrair a doença,
lar, a quantidade de doentes e/ou exposição está caso contráriom o grupo não exposto tem maior
faltando. Considera-se o conceito de chance que risco de contrair a doença.
é muito comum em jogos. Por exemplo, diz-se Considere agora a situação em que as
que a chance de um cavalo em particular de ga- variáveis são sucesso/fracasso e População
nhar uma corrida é “3 para 1”, que significa que 1/ População 2 como mostrado na Ta-
a probabilidade do dado cavalo vencer é 3 vezes bela 14.9.
maior do que a de não vencer. Ela é maior do As vezes a relação entre proporções é freqüen-
que qualquer outro cavalo temente entendida mais facilmente em termos
121
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Sucesso Fracasso
Amostra 1 p̂1 q̂1 = 1 − p̂1 Tipos de Estudos
Amostra 2 p̂2 q̂2 = 1 − p̂2
Vamos considerar em seguida os diversos tipos
de estudos que podem ser realizados em tabelas,
Tabela 14.10: Tabela 2 × 2 de proporções. vamos considerar em particular as tabelas 2 ×
2. Os estudos podem ser cruzado, prospectivo e
retrospectivo de acordo com os totais maginais
Intervalo de Confiança para Razão das da tabela.
Chances
ˆ ≤ 5, 0, onde OR
Se o valor de 0, 2 ≤ OR ˆ é dado
Estudo Cruzado. Existe uma amostra de
pela Eq. 14.15 utilize o método descrito abaixo. tamanho f.,. de uma população e ambas as
Caso contrário métodos mais sofisticados devem variáveis (exposição e doença, por exemplo) são
ser empregados.8 medidas em cada elemento da amostra, neste
8 Veja por exemplo: D. G. Kleinbaum, L. L. Kup- caso os totais das linhas e colunas são aleatórios
per and H. Morgenstern Epidemiologic research: prin-
ciples and quantitative methods, Wadsworth, Belmont, 9 Existe uma regra ligeiramente diferente chamada de
122
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
enquanto que f.,. é fixo, o que implica em: casos, para evitar um grande número de entra-
das é conveniente agrupar os dados em interva-
f1,1 los de classes, de modo análogo ao feito no caso
p̂1,1 = (14.25)
f.,. unidimensional. Note que este agrupamento em
f1,2 classes implica em uma perda de informação dos
p̂1,2 = (14.26) dados. Variáveis quantitativas são passı́veis de
f.,.
f2,1 critérios de análise mais refinados.
p̂2,1 = (14.27) Considere as variáveis quantitativas X e Y da
f.,.
Tabela 14.12.
f2,2 Estes dados podem ser representados em um
p̂2,2 = . (14.28)
f.,. diagrama de dispersão.
Para se obter um diagrama de dispersão pri-
Estudo Prospectivo. Se os totais das linhas meiramente devemos fazer uma transformação
forem fixos e mas os totais das colunas são de coordenadas. Neste novo sistema de coorde-
aleatórios (como na Tabela 14.10) isto implica nadas, o sistema inicial é transladado de modo
em: que a origem fique localizada no ponto médio
da nuvem de ponto no diagrama de dispersão.
f1,1
p̂1,1 = (14.29) Para uma população: x−µ(X) e y−µ(Y ) e para
f1,1 + f1,2 uma amostra: x − X̄ e y − Ȳ . Além disto, como
f1,2 o desvio-padrão nas coordenadas X e Y podem
p̂1,2 = (14.30)
f1,1 + f1,2 ser diferentes, devemos mudar a escala dos ei-
f2,1 xos. Em unidades de desvio padrão, obtem-se a
p̂2,1 = (14.31) grandeza adimensional:
f2,1 + f2,2
f2,2
p̂2,2 = . (14.32)
f2,1 + f2,2 x − µ(X) y − µ(Y )
z (X) = e z (Y ) = .
σ(X) σ(Y )
Estudo Retrospectivo. Se os totais das li- (14.37)
(X) (Y )
nhas forem aleatórios e mas os totais das colunas Se o ponto (zi , zi ) estiver no primeiro
são fixos isto implica em: quadrante (zi
(X)
> 0 e zi
(Y )
> 0) ou terceiro
(X) (Y )
f1,1 quadrante (zi < 0 e zi < 0) no dia-
p̂1,1 = (14.33) grama de dispersão, o produto dos escores é
f1,1 + f2,1 (X) (Y )
f1,2 positivo zi zi > 0. Por outro lado, se o
p̂1,2 = (14.34) (X) (Y )
f1,1 + f2,1 ponto (zi , zi ) estiver no segundo quadrante
(X) (Y )
f2,1 (zi < 0 e zi > 0) ou quarto quadrante
p̂2,1 = (14.35) (X) (Y )
(zi > 0 e zi < 0) no diagrama de dispersão,
f1,2 + f2,2
(X) (Y )
f2,2 o produto dos escores é negativo zi zi < 0.
p̂2,2 = . (14.36) Considere as seguintes situações:
f1,2 + f2,2
Pn (X) (Y )
• Se soma i=1 zi zi for positiva, isto
Resumo. A tabela 14.11 resume os diversos
indica que a maioria dos pontos estão no
tipos de resumo e quais as grandezas que podem
primeiro e terceiro quadrantes10 indicando
ser calculadas
a tendência de aumento de Y quando X
aumenta e diminuição de Y quando X di-
minui, ou seja, uma dependência entre as
14.3 Coeficiente de Cor- variáveis X e Y .
relação
• Se a soma for negativa, isto indica que
Quando as variáveis envolvidas são ambas do a maioria dos pontos estão no segundo e
tipo quantitativo, pode-se efetuar uma análise quarto quadrantes indicando a tendência de
da dependência pelo coeficiente de contingência. 10 Esta soma pode ser influenciada por valores discre-
Neste caso, resume-se os dados em tabelas de pantes. Este valores podem introduzir erros na inter-
distribuição conjunta de freqüência. Em alguns pretação.
123
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
i X Y
1 x1 y1 n
2 x2 y2 1 X (X) (Y )
r(X, Y ) = z zi , (14.39)
.. .. .. n − 1 i=1 i
. . .
n xn yn onde r é o estimador de ρ.
O coeficiente de correlação varia então no in-
tervalo [−1, 1], se |ρ(X, Y )| ou |r(X, Y )| for 1,
Tabela 14.12: Valores de X e Y para as rea-
isto indica uma correlação perfeita, ou seja, uma
lizações indexadas por i.
dependência perfeita entre X e Y . Considere os
seguintes casos:
diminuição de Y quando X aumenta e um
aumento de Y quando X diminui, ou seja, • O sinal positivo de ρ(X, Y ) ou r(X, Y )
uma dependência entre as variáveis X e Y . indica que quando X cresce Y cresce, e
quando X diminui Y diminui.
• Se a soma for “próxima” de zero11 isto in-
dica que os pontos estão dispersos nos qua- • O sinal negativo indica que quando X
tro quadrantes em torno da origem, não in- cresce Y diminui, e quando X diminui Y
dicando nenhuma tendência, ou seja, a não cresce.
dependencia entre X e Y 12 • Se |ρ(X, Y )| ou |r(X, Y )| for nulo, não
existe correlação entre as variáveis X e Y ,
Para eliminar a dependência do número de ou seja, o valor de Y não depende das al-
pontos considerados (tanto na população quanto terações nos valor de X.
na amostra) deve-se dividir a soma pelo número
de elementos. Para uma população o coeficiente Observamos que:
de correlação é definido como:
1. ρ(X, Y ) = ρ(Y, X) e r(X, Y ) = r(Y, X),
n
ou seja, a variável X dependende de Y do
1 X (X) (Y ) mesmo modo que Y depende de X e
ρ(X, Y ) = z zi = µ(Z (X) Z (Y ) ) ,
n i=1 i
2. ρ(X, X) = ρ(Y, Y ) = 1 e r(X, X) =
(14.38)
r(Y, Y ) = 1, ou seja, uma variável tem uma
ou seja, o coeficiente de correlação é a média do
correlação perfeita com ela mesma.
produtos dos fatores Z.
Para uma amostra, o coeficiente de correlação Nota-se que se o comportamento de Y não for
é definido como13 : linear com X, pode-se definir uma nova variável
11 O critério de proximidade será melhor detalhado X 0 , de modo que esta variável seja uma função
quando estudarmos o intervalo de confiança para o coe- de X (X 0 = f (X)).
ficiente de correlação.
12 Existem casos onde as variáveis X e Y são mas a Considere como exemplo fenômenos que se-
soma acima é nula. Por exemplo podemos citar o caso em guem leis exponenciais, ou seja, o comporta-
que os q pontos (xi , yi ) estão formam uma circunferência mento linear é encontrado para X e exp(αX).
yi = ± 1 − x2i . Neste caso X 0 = exp(αX), é conveniente na
13 Neste caso prática usar uma escala logaritmica para Y ,
xi − X̄ yi − Ȳ note que a relação linear é esperada para: Y =
ziX = e ziY = . a + b exp(αX) então log(Y − a) = log(b) + αX.
sX sY
Na escala semi-log obtem-se uma reta para
124
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
125
Capı́tulo 15
Variáveis Multidimensionais
127
Capı́tulo 16
Regressão
X Y onde ei é o resı́duo.
x1 y1
x2 y2
.. ..
. . 16.1.1 Método dos Mı́nimos Qua-
xn yn drados
Tabela 16.1: Valores de X e Y a serem utiliza- O método dos mı́nimos quadrados é o mais re-
dos. finado e consiste em minimizar a soma sobre
i = 1, 2, . . . , n das diferenças, resı́duos:
Admite-se que:
1. investiga-se somente relações lineares e ei = yi − ŷi (16.3)
129
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
130
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
131
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
i. a, tempo volume
1,00 6,15
ii. b e 1,20 7,90
iii. c. 1,40 9,40
1,60 10,50
1,80 11,00
5. Para avaliar se o nı́vel de tensão ocasionada 2,00 14,00
por exames escolares, 12 estudantes foram
escolhidos e sua pulsação foi medida antes Deseja-se obter a regressão: ŷ = b0 + b1 x +
a e depois d do exame b2 x2 .
132
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Consumo de Ar Secador
Energia Cond. de Cabelo
(KWh) (hora) (hora)
35 1,5 1,0
63 4,5 2,0
66 5,0 2,0
17 2,0 0,0
94 8,5 3,0
79 6,0 3,0
93 13,5 1,0
66 8,0 1,0
94 12,5 1,0
82 7,5 2,0
78 6,5 3,0
65 8,0 1,0
77 7,5 2,0
75 8,0 2,0
62 7,5 1,0
85 12,0 1,0
43 6,0 0,0
57 2,5 3,0
33 5,0 0,0
65 7,5 1,0
33 6,0 0,0
133
Capı́tulo 17
Processos Estocásticos
Considere um experimento com resultado ζ qualquer tempo futuro t + 1 para dados estados
que forma o espaço S. A cada valor de ζ passados e o estado presente é independente dos
um ı́ndice t é atribuı́do e define-se a função estados passados e depende somente do estado
X(t, ζ), onde t é freqüentemente interpretado presente, i.e.,
como sendo o tempo. Têm-se então uma famı́lia
de funções para diferentes valores de t para cada Pi→j (t + 1) = P [X(t + 1) = j|X(t) = i,
ζ. Esta famı́lia de funções é chamada de pro- X(t − 1) = it−1 , . . . , X(0) = i0 ]
cesso estocástico. Um processo estocástico pode = P [X(t + 1) = j|X(t) = i] .
ser visto como uma função de duas variáveis.
Para um valor especı́fico de ζ (ζi ), ela repre- O resultado de uma dada tentativa depende so-
senta uma simples função do tempo enquanto mente do resultado da tentativa precedente e
que para um dado tempo t (ti ), ela representa não em qualquer outra. A grandeza Pi→j é cha-
uma variável aleatória. Retirando o termo ζ da mada de probabilidade de transição é o elemento
notação, um processo estocástico {X(t), t ∈ T }, de uma matriz de probabilidade de transição de
é referido como sendo um estado do processo um passo P
no instante t. O espaço, que contem todos os
P0→0 P0→1 P0→2 · · · · · ·
possı́veis valores das variaveis aleatórias X(t) é P1→0 P1→1 P1→2 · · · · · ·
chamado de espaço de estados.
.. .. ..
A evolução de algum processo fı́sico no tempo P = . . . P i→j ,
pode ser descrito por processos estocásticos. .. .. .. ..
. . . .
Um exemplo clássico de um processo estocástico
é uma caminhada aleatória na qual um moeda
(17.1)
é lançada e uma pessoa anda um passo para a
onde Pi→j ≥ 0 para todo i e j tal que i, j ≥ 0 e
direita se sai cara K na moeda e anda um passo
para a esquerda se sai coroa C. A posição da ∞
X
pessoa após t lançamentos da moeda é X(t), que Pi→j = 1 ,
claramente depende da seqüência de caras e co- j=8
135
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Se no instante inicial t = 0 tem-se o vetor ~a(0), Qualquer estado i é dito ter um perı́odo d se
(n)
então: Pi→i = 0, quando n não for divisı́vel por d de
modo que d é o maior número com esta propri-
~a(1) = P (1)~a(0) edade. Qualquer estado com perı́odo 1 é cha-
~a(2) = P (2)~a(1) = P (2)P (1)~a(0) mado de estado aperiódico.
.. .. Uma cadeia de Markov irredutı́vel composta
. = . de estados aperiódicos é chamada de cadeia de
t
Y Markov irredutı́vel e aperiódica.
~a(t) = P (t)~a(t − 1) = P (i)~a(0) .
i=1
Probabilidade Limite
Quando a matriz de transição não se modifi- Se uma cadeia de Markov for irredutı́vel e
car no tempo, i.e., P (1) = P (2) = . . . = P (t) = (n)
aperiódica com probabilidade de transição Pi→j
P , escreve-se: o limite:
~a(t) = P t~a(0) . (17.4) qj = lim Pi→j
(n)
j≥0,
n→∞
(t)
A probabilidade de transição a t passos Pi→j do existe e é independent do estado inicial. A pro-
estado i ao estado j é a probabilidade de que o babilidade qj é um elemento de um vetor de pro-
processo saia do estado i e transicione ao estado babilidade estacionário ou de eqüilı́brio com a
j em t passos adicionais, assim seguinte propriedade:
(t) X
Pi→j = P ({X(m + t) = j|X(m) = i) , qj = 1 qj ≥ 0 ,
j
com t > 0.
A equação de Chapman-Kolmogorov: e é a única solução não-negativa da equação:
X
∞ qj = Pi→j qi j ≥ 0 ,
(t+m) (t) (m)
X
Pi→j = Pi→k Pk→j i
k=0
Observe também que:
é utilizada para calcular a probabilidade de X
transição de (t + m) passos em termos de uma qj = Pi→j qj ,
probabilidade de transição de m passos e de uma i
probabilidade de transição de t passos. uma vez que P é uma matriz estocástica, então:
136
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Para um processo de Poisson, estes intervalos de estado Pn para o estado Pn+1 é exponen-
são tratados como variáveis aleatórias indepen- cial para qualquer valor de n. É conveniente
dentes tiradas de uma população distribuı́da ex- representar um processo de Poisson esquemati-
ponencialmente, i.e., uma população com função camente como:
densidade de probabilidade f (x) = λe−λx para λ λ λ λ
alguma constante fixa λ. P0 −→ P1 −→ P2 −→ P3 −→ . . . .
A distribuição exponencial é particularmente Seja Pj a probabilidade do j-ésimo estado, que
conveniente para a modelagem matemática pois é o estado quando exatamente j eventos ocorre-
ela implica em uma taxa fixa de ocorrência. ram. Estas probabilidades são funçôes do tempo
Para ver porque este é o caso, considere um sis- e tipicamente inicializa-se com as condições ini-
tema que comece no estado 0 no tempo inicial ciais: P0 (0) = 1, Pj (0) = 0 para todo j >
t = 0, e mude para o estado 1 no instante de 0. Dado que os intervalos entre as ocorrências
tempo t = T , onde T é retirado aleatoriamente são retirados de uma distribuição exponencial,
de uma distribuição exponencial. Qual a pro- gostaria-se de obter a probabilidade que exata-
babilidade de que o sistema esteja no estado 1 mente n eventos ocorram até o instante t. Em
em algun instante de tempo arbitrário t1 ? A outras palavras, quer-se determinar a probabi-
resposta obviamente é a integral da função den- lidade Pn (t). Uma vez que todas as transições
sidade de probabilidade de t = 0 até t = t1 . Se são distribuı́das exponencialmente, têm-se ime-
Pj (t) denota a probabilidade do sistema estar diatamente que:
no estado j no instante t, têm-se:
Z t1 dP0
= −λP0 (17.8)
P1 (t1 ) = dt λe−λt = 1 − e−λt1 . (17.5) dt
0 dP1
= λP0 − λP1 (17.9)
A probabilidade do sistema ainda estar no es- dt
tado 0 no instante t1 é justamente a probabili- dP2
= λP1 − λP2 (17.10)
dade complementar desta, i.e., P0 (t1 ) = e−λt1 . dt
Para qualquer instante de tempo t, a equação ..
acima mostra que a taxa absoluta de variação . . (17.11)
de probabilidade do sistema estar no estado Com a condição inicial que P0 (0) = 1, a primeira
1 é dP1 /dt = λe−λt , têm-se então a seguinte equação pode ser resolvida imediatamente e re-
relação: sulta em P0 (t) = e−λt . Substituindo este resul-
dP1
= λP0 . (17.6) tado na segunda equação, têm-se: dt P1 + P1 =
dt λe−λt .1 Cuja solução é:2
É claro que, uma vez que P0 + P1 = 1, pode-se Z
trocar P0 por 1 − P1 e escrever: P1 (t) = e−λt dt λe−λt eλt + Ce−λt
dP1
dt
+ λP1 = 1 , (17.7) = (λt)e−λt . (17.12)
que é simplesmente um atraso de primeira Substituindo a expressão para P1 (t) na próxima
ordem com “constante de tempo” 1/λ e a equação do sistema tem-se:
solução desta equação diferencial é justamente a
dP2
Eq. 17.5. O significado da Eq. 17.6 é que pode- + λP2 = λ(λt)e−λt , (17.13)
se expressar a derivada do estado devido a uma dt
1 Lembre que a solução geral para qualquer equação
transição exponencial como o produto da taxa
de transição λ com a probabilidade do estado da forma:
dx
λ + F (t)x = G(t)
inicial P0 −→ P1 . dt
De modo geral, para qualquer número de es- é
Z
tados, se as transições de um estado para outro x(t) = e−r dt G(t)er + C
são todas exponenciais, pode-se escrever imedi- Z
atamente o sistema de equações diferenciais que r = dt F (t) ,
governam as probabilidades de estar em cada
onde C é uma constante de integração.
um dos estados. Este procedimento permite cal- 2 Considere x = P , F (t) = λ e G(t) = λe−λt , de
1
cular o comportamente de um processo de Pois- onde r = λt e usando C = 0 para satisfazer a condição
son, porque (por definição) o tempo de transição inicial P1 (0) = 0.
137
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
que pode ser resolvida e resulta em: no instante t. Cada “transição λ” provoca uma
mudança do estado n para o estado n+1 e Cada
(λt)2 −λt
P2 (t) = e , (17.14) “transição µ” provoca uma mudança do estado
2 n para o estado n − 1. No começo do dia a loja
onde foi utilizado a condição inicial: P2 (0) = 0. está vazia, i.e,, o sistema está no estado 0 com
Repitindo este procedimento, pode-se mostrar probabilidade P0 (0) = 1. O sistema de equações
por indução que a probabilidade do nésimo es- dinâmicas é:
tado no instante t é: dP0
= −λP0 + µP1 (17.17)
n
(λt) −λt dt
Pn (t) = e . (17.15) dP1
n! = λP0 − λP1 − µP1 + µP2(17.18)
dt
Esta é a distribuição de probabilidade para um dP2
processo de Poisson de contagem que representa = λP1 − λP2 − µP2 + µP3(17.19)
dt
a probabilidade de que exatamente n eventos ..
tenham ocorrido até o instante t. A soma destas . . (17.20)
probabilidade de n = 0 até ∞ é igual a 1.3
Convem mencionar que uma vez que a distri- Solução Estacionária
buição de intervalos entre ocorrências sucessivas
é exponencial, a distribuição de Poisson é es- Freqüentemente está-se interessado no estado
tacionária, significando que qualquer momento estacionário das probabilidades, i.e., a distri-
pode ser tomado como instante inicial t = 0, o buição de probabilidades uma vez que o sis-
que implica que a probabilidade de n ocorrências tema tenha alcançado o equilı́brio e tenha es-
em um intervalo de tempo depende somente do tabilizado. Esta condição é caracterizada pelo
tamanho do intervalo e não depende de quando fato que todas a derivadas das probabilidades
este intervalo aparece. se anulam, de modo que a primeira equação
O valor esperado do número de ocorrências no implica em: P1 = (λ/µ)P0 , e pode ser subs-
instante t é dado por: tituı́da na segunda equação para resultar em:
P2 = (λ/µ)2 P0 e assim por diante. Em geral
∞
X têm-se Pn = (λ/µ)n P0 . Uma vez que a soma de
E(n, t) = nPn (t) = λt . (17.16) todas a probabilidades é igual a 1, têm-se:
n=0
" 2 #
λ λ P0
17.1.1 Teoria das Filas P0 1 + + + ... = =1,
µ µ 1 − λ/µ
Uma aplicação tı́pica de transições exponenciais
e modelos de Poisson é na teoria das filas. Supo- que resulta em P0 = 1 − (λ/µ) e então:
nha, por exemplo, que fregueses entrem em uma n
loja em instante aleatórios com uma taxa cons- λ λ
Pn = 1 − , (17.21)
tante λ e que os seus pedidos sejam processados µ µ
em uma taxa constante µ. Quantos fregueses
que é a distribuição geométrica. Neste exemplo
estarão esperando em um dado instante?
de fregueses esperando em uma loja, a distri-
Pode-se modelar este processo usando as
buição geométrica é a probabilidade de que exa-
transições exponenciais como ilustrado pelo es-
tamente n fregueses estejam esperando (inclu-
quema:
sive aqueles sendo atendidos). O número espe-
λ λ λ λ rado de fregueses esperando (i.e., o comprimento
−→ −→ −→ −→
P0 ←− P1 ←− P2 ←− P3 ←− . . . , médio da fila) é dado por:
µ µ µ µ
∞ n
X λ λ
onde o n-ésimo estado representa o estado E(n) = n 1−
µ µ
quando n fregueses estão esperando e Pn (t) de- n=0
nota a probabilidade que aquele estado esteja λ/µ
= . (17.22)
3 Lembrete: 1 − λ/µ
∞
X (λt)n
eλt = . Este tipo de fila é chamada algumas vezes de
n=0
n!
fila M/M/1, onde o primeiro M significa que as
138
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
dP0
= −λP0 + µP1 (17.23)
dt
dP1
= λP0 − µP1 , (17.24)
dt
com as condições P0 + P1 = 1. Assim: dt P0 +
(λ + µ)P0 = µ com a condição inicial P0 (0) = 1
a solução é:
µ λ
P0 (t) = + e−(λ+µ)t .
λ+µ λ+µ
Analogamente, pode-se considerar um sis-
tema finito que consiste dos 3 estados mais bai-
xos, o que leva a seguinte equação diferencial:
2
µ − λ2
3
µ − λ3
2
dt P0 +2 dt P0 + P0 = µ2 .
µ−λ µ−λ
139
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Para ver este padrão considere os quatro estados representados na forma matricial:
−λ µ 0 0 P0 Ṗ0
λ −(λ + µ) µ 0 P1 = Ṗ1 .
(17.25)
0 λ −(λ + µ) µ P2 Ṗ2
0 0 λ −µ P3 Ṗ3
Em geral pode-se resolver este problema de auto valores encontrando as raı́zes do polinômio
caracterı́stico, e para um sistema de n estados encontra-se n raı́zes distintas,onde uma das quais
é nula, correspondente a constante de integração na solução da forma diferencial geral. As outras
n − 1 raı́zes são:
2 estados −(λ + µ)√
3 estados −(λ + µ) ± λµ √ √
4 estados −(λ + µ)√ −(λ + µ) ± √2 λµ
√ √
5 estados −(λ + µ) ± 1+2 5 λµ −(λ + µ) ± 1−2 5 λµ √ √
√
6 estados −(λ + µ) −(λ + µ) ± λµ −(λ + µ) ± 3 λµ
Os autovalores para um sistema de n estados são:
kπ p
−(λ + µ) ± 2 cos λµ k = 1, 2, . . . , [n/2] , (17.26)
n
juntamente com o autovalor 0. Observe que para n par o autovalor com k = n/2 é simplesmente
−(λ + µ). No caso mais geral, se m divide por n, então os autovalores de um sistema com n
estados são um subconjunto daqueles de m estados. Baseados nestes autovalores, a solução geral
para um sistema de n estados é da forma:
[n/2]
X √ √
P0 (t) = γ + e−(λ+µ)t αk e2t cos(kπ/n) λµ
+ βk e−2t cos(kπ/n) λµ
, (17.27)
k=1
1 − λ/µ
γ= . (17.28)
1 − (λ/µ)n
140
Capı́tulo 18
Statistical Methods for Rater Agreement
In many fields it is common to study agre- ged to improve agreement. However if an ins-
ement among ratings of multiple judges, ex- trument is already in a final format, the same
perts, diagnostic tests, etc. We are concer- methods might not be helpful.
ned here with categorical ratings: dichotomous Very often agreement studies are an indirect
(Yes/No, Present/Absent, etc.), ordered cate- attempt to validate a new rating system or ins-
gorical (Low, Medium, High, etc.), and nomi- trument. That is, lacking a definitive criterion
nal (Schizophrenic, Bi-Polar, Major Depression, variable or “gold standard”, the accuracy of a
etc.) ratings. Likert-type ratings–intermediate scale or instrument is assessed by comparing its
between ordered-categorical and interval-level results when used by different raters. Here one
ratings, are also considered. There is little con- may wish to use methods that address the issue
sensus about what statistical methods are best of real concern, how well do ratings reflect the
to analyze rater agreement (we will use the gene- true trait one wants to measure?
ric words “raters” and “ratings” here to include In other situations one may be considering
observers, judges, diagnostic tests, etc. and combining the ratings of two or more raters to
their ratings/results.) To the non-statistician, obtain evaluations of suitable accuracy. If so,
the number of alternatives and lack of consis- again, specific methods suitable for this purpose
tency in the literature is no doubt cause for con- should be used.
cern. This review1 aims to reduce confusion and A second common problem in analyzing agre-
help researchers select appropriate methods for ement is the failure to think about the data
their applications. from the standpoint of theory. Nearly all sta-
Despite the many apparent options for analy- tistical methods for analyzing agreement make
zing agreement data, the basic issues are very assumptions. If one has not thought about the
simple. Usually there are one or two methods data from a theoretical point of view it will be
best for a particular application. But it is neces- hard to select an appropriate method. The the-
sary to clearly identify the purpose of analysis oretical questions one asks do not need to be
and the substantive questions to be answered. complicated. Even simple questions, like “is the
The most common mistake made when analy- trait being measured really discrete, like pre-
zing agreement data is not having a explicit sence/absence of a pathogen, or is the trait re-
goal. It is not enough for the goal to be “measu- ally continuous and being divided into discrete
ring agreement” or “finding out if raters agree”. levels” (e.g., “low”, “medium”, “high”) for con-
There is presumably some reason why one venience? If the latter, is it reasonable to as-
wants to measure agreement. Which sta- sume that the trait is normally distributed? Or
tistical method is best depends on this re- is some other distribution plausible?
ason. Sometimes one will not know the answers to
For example, rating agreement studies are of- these questions. That is fine, too, because there
ten used to evaluate a new rating system or ins- are methods suitable for that case also. The
trument. If such a study is being conducted du- main point is to be inclined to think about data
ring the development phase of the instrument, in this way, and to be attuned to the issue of
one may wish to analyze the data using methods matching method and data on this basis.
that identify how the instrument could be chan-
These two issues–knowing ones goals and con-
1 http://ourworld.compuserve.com/homepages/ sidering theory, are the main keys to successful
jsuebersax/agree.htm#recs analysis of agreement data. Following are some
141
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
other, more specific issues that pertain to the se- and 33% motor skill. Thus their essential defini-
lection of methods appropriate to a given study. tions of what the trait means differ. Similarity
One can broadly distinguish two reasons for in raters’ trait definitions can be assessed with
studying rating agreement. Sometimes the goal various estimates of the correlation of their ra-
is estimate the validity (accuracy) of ratings in tings, or analogous measures of association.
the absence of a “gold standard”. This is a re- Category definitions, on the other hand, dif-
asonable use of agreement data: if two ratings fer because raters divide the trait into different
disagree, then at least one of them must be in- intervals. For example, by “low skill” one ra-
correct. Proper analysis of agreement data the- ter may mean subjects from the 1st to the 20th
refore permits certain inferences about how li- percentile. Another rater, though, may take it
kely a given rating is to be correct. to mean subjects from the 1st to the 10th per-
Other times one merely wants to know the centile. When this occurs, rater thresholds can
consistency of ratings made by different raters. usually be adjusted to improve agreement. Si-
In some cases, the issue of accuracy may even milarity of category definitions is reflected as
have no meaning–for example ratings may con- marginal homogeneity between raters. Margi-
cern opinions, attitudes, or values. nal homogeneity means that the frequencies (or,
One should also distinguish between modeling equivalently, the “base rates”) with which two
vs. describing agreement. Ultimately, there are raters use various rating categories are the same.
only a few simple ways to describe the amount of Because disagreement on trait definition and
agreement: for example, the proportion of times disagreement on rating category widths are dis-
two ratings of the same case agree, the propor- tinct components of disagreement, with different
tion of times raters agree on specific categories, practical implications, a statistical approach to
the proportions of times different raters use the the data should ideally quantify each separately.
various rating levels, etc. All other things being equal, a simpler sta-
The quantification of agreement in any other tistical method is preferable to a more compli-
way inevitably involves a model about how ra- cated one. Very basic methods can reveal far
tings are made and why raters agree or disa- more about agreement data than is commonly
gree. This model is either explicit, as with la- realized. For the most part, advanced methods
tent structure models, or implicit, as with the are complements to, not substitutes for simple
kappa coefficient. With this in mind, two basic methods.
principles are evident: To illustrate these principles, consider the
It is better to have a model that is explicitly example for rater agreement on screening mam-
understood than one which is only implicit and mograms, a diagnostic imaging method for de-
potentially not understood. tecting possible breast cancer. Radiologists
The model should be testable. Methods vary often score mammograms on a scale such as
with respect to how well they meet the these “no cancer”, “benign cancer”, “possible malig-
two criteria. nancy”, or “malignancy”. Many studies have
Consider that disagreement has different com- examined rater agreement on applying these ca-
ponents. With ordered-category (including di- tegories to the same set of images. In choosing
chotomous) ratings, one can distinguish between a suitable statistical approach, one would first
two different sources of disagreement. Raters consider theoretical aspects of the data. The
may differ: trait being measured, degree of evidence for can-
cer, is continuous. So the actual rating levels
1. in the definition of the trait itself; or would be viewed as somewhat arbitrary discre-
2. in their definitions of specific rating levels tizations of the underlying trait. A reasonable
or categories. view is that, in the mind of a rater, the ove-
rall weight of evidence for cancer is an aggregate
A trait definition can be thought of as a weigh- composed of various physical image features and
ted composite of several variables. Different ra- weights attached to each feature. Raters may
ters may define or understand the trait as dif- vary in terms of which features they notice and
ferent weighted combinations. For example, to the weights they associate with each.
one rater Intelligence may mean 50% verbal skill One would also consider the purpose of analy-
and 50% mathematical skill; to another it may zing the data. In this application, the purpose
mean 33% verbal skill, 33% mathematical skill, of studying rater agreement is not usually to es-
142
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
timate the accuracy of ratings by a single rater. do not express agreement in terms that are es-
That can be done directly in a validity study, pecially useful. The growing consensus among
which compares ratings to a definitive diagnosis statisticians is that kappa coefficients are vastly
made from a biopsy. overused and that they should most definitely
Instead, the aim is more to understand the not be viewed as the default or standard way
factors that cause raters to disagree, with an ul- to measure agreement. It is unfortunate that
timate goal of improving their consistency and published studies have been slow to recognize
accuracy. For this, one should separately assess this.
whether raters have the same definition of the
basic trait (that different raters weight various 18.1.1 Dichotomous data
image features similarly) and that they have si-
milar widths for the various rating levels. The Two raters
former can be accomplished with, for example,
1. test association between raters with the log
latent trait models. Moreover, latent trait mo-
odds ratio;
dels are consistent with the theoretical assump-
tions about the data noted above. Raters’ rating 2. use McNemar’s test to evaluate marginal
category widths can be studied by visually re- homogeneity.
presenting raters’ rates of use for the different
rating levels and/or their thresholds for the va- The tetrachoric correlation coefficient can be
rious levels, and statistically comparing them used if its assumptions are sufficiently plausible
with tests of marginal homogeneity. a priori. Consider reporting these raw agree-
Another possibility would be to examine if ment indices: the proportion of overall agree-
some raters are biased such that they make ge- ment, and the proportions of agreement specific
nerally higher or lower ratings than other raters. to each category.
One might also note which images are the sub-
ject of the most disagreement and then to try
Multiple raters
identify the specific image features that are the
cause of the disagreement. If the underlying trait is assumed to be continu-
Such steps can help one identify specific ways ous, use latent trait models to assess association
to improve ratings. For example, raters who among raters and estimate the correlation of ra-
seem to define the trait much differently than tings with the true trait. These models can also
other raters, or use a particular category too be used to assess marginal homogeneity among
often, can have this pointed out to them, and raters. If the underlying trait is assumed to
this feedback may promote their making ratings be discrete, consider use of latent class models.
in a way more consistent with other raters. Another possibility is to consider each pair of
raters and proceed as described for two raters.
143
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
144
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
This value is useful and informative. Taken The joint consideration of ps+ and ps− ad-
by itself, however, it has limitations. The most dresses the objection that with extreme preva-
obvious is that it does not distinguish between lences or “base rates” agreement may be high
agreement on the two levels of the trait (e.g., by chance alone.
agreement on positive ratings vs. agreement on With the epidemiological example above, it is
negative ratings). true that chance ratings would produce a high
Consider an epidemiological application po – and ps− would also be high. But, if only
where a positive rating corresponds to a po- chance were operating, ps+ would be extremely
sitive diagnosis for a very rare trait–one, say, low. A high value for both ps+ and ps− would
with a prevalence of 1 in 1, 000, 000. Then imply that the observed level of agreement is
we would not be much impressed if po is very higher than would occur by chance. Thus, by
high–even above 0.99; one might assume this is calculating both ps+ and ps− , and requiring that
mainly due to agreement on trait absence. both be high to consider agreement satisfactory,
This relates to Cohen’s (1960) original criti- one meets the original criticism raised against
cism of po –that it can be high even when raters raw agreement indices.
make ratings purely by chance. In this example,
if both raters simply guessed “trait absent” the Significance, standard errors, interval es-
large majority of times, they would agree most timation
of the time (they would also be correct most of
the time–a related, but different issue). Proportion of overall agreement
While Cohen was correct in his diagnosis of Statistical significance. In testing the signi-
the potential problem, his proposed solution, ficance of po , the null hypothesis is that ra-
the kappa coefficient, is a more extreme response ters are independent, with their marginal
than is necessary (see the Kappa Coefficients probabilities equal to the observed marginal
page for full discussion). proportions. For a 2×2 table, the test is the
In fact, the potential limitation of po can be same as a usual test of statistical indepen-
remedied in a simpler way. That is to calculate dence in a contingency table. The following
proportions of agreement specific to each cate- methods are suitable and will produce mos-
gory. tly the same results:
145
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Confidence intervals The Wald or “normal a/N , b/N , c/N and d/N . One then calcula-
approximation” method for constructing tes the proportion of specific positive agre-
confidence limits of a proportion is not re- ement for each simulated data set – which
commended when the proportion is less we denote p∗s+ . The standard deviation of
than .20 or greater than .80.3 Since po is of- (p∗s+ minus ps+ ) across all simulated data
ten above .80, the Wald method should ge- sets estimates the standard error of ps+ .
nerally not be used. Agresti (1996) suggests The delete-1 (Efron, 1982) jackknife works
a simple alternative which is much better, by calculating ps+ for four alternative ta-
and numerous other methods of varying bles where one case is subtracted from each
exactness are available. Again, the nonpa- of the four cells. A few simple calculati-
rametric bootstrap, described in the next ons then provide an estimate of the stan-
section, can be used to estimate a confi- dard error of ps+ . The delete-1 jackknife
dence interval for po . requires less computation, but the nonpara-
metric bootstrap is often preferred, especi-
Proportions of specific agreement ally in conjunction with confidence interval
construction.
Statistical significance. Logically speaking,
there is only one test of independence in Confidence intervals. To estimate a confi-
a 2 × 2 table. If, using the methods descri- dence range with the nonparametric boots-
bed above, po is found significant, then ps+ trap, one proceeds as described above to ge-
and ps− may be taken as significant as well. nerate a large number (for confidence range
estimation, the number should be at least
Standard errors. If one were to regard the va-
500) of simulated data sets. The value of
lue of 2a + b + c as fixed, then both ps+ and
p∗s+ is calculated for each, and these values
ps− could be interpreted as simple propor-
are then sorted by magnitude. Confidence
tions; one could then calculate their stan-
limits of ps+ are obtained with reference to
dard error as with Eq. 18.4 and get confi-
this ranking. For example, the 95% con-
dence ranges using any of the methods des-
fidence range is estimated by the values of
cribed above. This assumption is met if one
p∗s+ that correspond to the 2.5 and 97.5 per-
assumes fixed marginals (it is more gene-
centiles.
ral, since it requires only that the positive-
rating marginals for both raters sum to a An advantage of bootstrapping is that one can
constant). This assumption is not without use the same set of simulated data sets to es-
precedence; Cook & Farewell (1995), for timate not only the standard errors and confi-
example, suggest it is not very limiting. dence limits for ps+ and ps− , but for po , and,
Alternatively, the delta method can be used in fact, any other statistics defined on the 2 × 2
to estimate the standard errors of these table, such as the odds ratio, marginal homoge-
terms. (Further details on this approach neity indices, and, if so desired, the kappa coef-
will be supplied.) ficient, all at the same time.
One can also obtain the standard errors by
using the nonparametric bootstrap or the 18.2.2 Two Raters, Polytomous
jackknife. These are described below with Ratings
reference to ps+ , but they apply equally
well to ps− . We now consider results for two raters making
polytomous (either ordered category or purely
With the nonparametric bootstrap (Efron nominal) ratings.
& Tibshirani, 1993), one constructs a large Let C denote the number of rating categories
number of simulated data sets of size N by or levels.
sampling with replacement from the obser- Results for the two raters may be summarized
ved data; for a 2 × 2 table, this can be done as a C ×C table such as Table 18.2. In the table,
simply by using random numbers to assign n denotes the number of cases assigned rating
ij
simulated cases to cells with probabilities of category i by Rater 1 and category j by Rater
3 Agresti A. An introduction to categorical data 2, with i, j = 1, . . . , C. When a “.” appears in
analysis. New York: Wiley, 1996. a subscript, it denotes a marginal sum over the
146
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
2nii
ps (i) = . (18.7)
ni. + n.i
Overall Agreement
This is equivalent to collapsing the C × C table
For this design, po is the sum of frequencies of into a 2 × 2 table for each category i, conside-
the main diagonal of table {nij } divided by sam- ring the binary distinction “category i” (+) vs
ple size, or “not category i” (−), and calculating ps+ . This
C also suggests a simple way to test significance of
1 X
po = nii . (18.5) ps (i): one collapses the table to form the appro-
N i=1 priate 2 × 2 table, and performs any standard
test of independence, as described earlier.
Again, po can be viewed as a sample propor- The jackknife or nonparametric bootstrap be
tion. Its standard error and confidence intervals used to estimate standard errors and confidence
can be calculated with the methods described intervals. The nonparametric bootstrap can be
for 2 × 2 tables. Testing significance, though, is used to test statistical significance.
slightly more complex than with a 2 × 2 table,
one cannot, for example, merely perform a χ2 18.2.3 Generalized Case
or G2 test of independence.
One alternative is to test significance of po We now consider generalized formulas for the
by calculating the kappa coefficient and tes- proportions of overall and specific agreement.
ting that for significance; if kappa is signifi- They apply to binary, ordered category, or no-
cant/nonsignificant, then po may be assumed minal ratings and permit any number of raters,
significant/nonsignificant, and vice versa. That with potentially different numbers of raters or
is because the numerator of kappa is simply the different raters for each case.
difference between po and the level of agreement
expected under the null hypothesis of indepen- Specific agreement
dence.
The parametric bootstrap can also be used Let there be K rated cases indexed by k =
to test statistical significance. This is like the 1, . . . , K. The ratings made on case k are sum-
nonparametric bootstrap already described, ex- marized as:
cept that samples are generated from the null
hypothesis distribution. Specifically, one cons-
tructs a table corresponding to Table 18.2, {njk }(j = 1, . . . , C) = {n1k , n2k , ..., nCk }
where the expected frequency for every cell (i, j)
is: where njk is the number of times category j
(j = 1, . . . , C) is applied to case k. For example,
ni. n.j
n0ij = . (18.6) if a case k is rated five times and receives ratings
N
of 1, 1, 1, 2, and 2, then n1k = 3, n2k = 2, and
One then constructs many – say 500, simulated {njk } = {3, 2}.
samples of size N from the distribution {n0ij } Let nk denote the total number of ratings
and the calculates p∗o for each. The po for the made on case k; that is,
actual data is viewed statistically significant if C
it exceeds the specified percentage (e.g., 5%) of X
∗ nk = njk . (18.8)
the po values.
j=1
If one already has a computer program for
nonparametric bootstrap standard error and For case k, the number of actual agreements
confidence range estimation, only slight modifi- on rating level j is
cations are needed for it to perform a parametric
bootstrap significance test. njk (njk − 1) . (18.9)
147
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
The total number of agreements specifically Standard errors, interval estimation, sig-
on rating level j, across all cases is nificance
K
X The jackknife or, preferably, the nonparametric
S(j) = njk (njk − 1) . (18.10) bootstrap can be used to estimate standard er-
k=1 rors of ps(j) and po in the generalized case. The
bootstrap is uncomplicated if one assumes ca-
The number of possible agreements specifi-
ses are independent and identically distributed
cally on category j for case k is equal to
(iid). In general, this assumption will be accep-
njk (nk − 1) (18.11) ted when:
the same raters rate each case, and either
and the number of possible agreements on ca- there are no missing ratings or ratings are mis-
tegory j across all cases is: sing completely at random.
the raters for each case are randomly sampled
K
X and the number of rating per case is constant or
Sposs (j) = njk (nk − 1) . (18.12)
random.
k=1
in a replicate rating (reproducibility) study,
The proportion of agreement specific to ca- each case is rated by the procedure the same
tegory j is equal to the total number of agree- number of times or else the number of replicati-
ments on category j divided by the total number ons for any case is completely random. In these
of opportunities for agreement on category j, or cases, one may construct each simulated sample
by repeated random sampling with replacement
S(j)
ps (j) = . (18.13) from the set of K cases.
Sposs (j) If cases cannot be assumed iid (for example,
if ratings are not missing at random, or, say, a
Overall agreement study systematically rotates raters), simple mo-
difications of the bootstrap method–such as two-
The total number of actual agreements, regar-
stage sampling, can be made.
dless of category, is equal to the sum of Eq. (9)
across all categories, or The parametric bootstrap can be used for sig-
nificance testing. A variation of this method,
XC patterned after the Monte Carlo approach des-
O= S(j) . (18.14) cribed by Uebersax (1982), is as follows:
j=1 Loop through s, where s indexes simulated
data sets
The total number of possible agreements is
Loop through all cases k
X K Loop through all ratings on case k
Oposs = nk (nk − 1) . (18.15) For each actual rating, generate a random si-
k=1 mulated rating, chosen such that:
Pr(Rating category=j—Rater=i) = base rate
Dividing Eq. 18.14 by Eq. 18.15 gives the overall
of category j for Rater i.
proportion of observed agreement, or
If rater identities are unknown or for a repro-
O ducibility study, the total base rate for category
po = . (18.16) j is used.
Oposs
148
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
149
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Rater 1 Rater 2 + −
+ a b a+b
− c d c+d
a+c b+d Total
Tabela 18.3: Crossclassification frequencies for binary ratings by two raters Rater 1 Rater 2.
150
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
all pairs of raters. One might then report, say, Fleiss JL. Statistical methods for rates and
the average value and range of values across all proportions, 2nd Ed. New York: John Wiley,
rater pairs. 1981.
Khamis H. Association, measures of. In Ar-
Alternatives mitage P, Colton T (eds.), The Encyclopedia of
Biostatistics, Vol. 1, pp. 202-208. New York:
Given data by two raters, the following alterna- Wiley, 1998.
tives to the odds ratio may be considered. Somes GW, O’Brien, KF. Odds ratio estima-
tors. In Kotz L, Johnson NL (eds.), Encyclope-
• In a 2 × 2 table, there is a close relationship dia of statistical sciences, Vol. 6, pp. 407-410.
between the odds ratio and loglinear mode- New York: Wiley, 1988.
ling. The latter can be used to assess both Sprott DA, Vogel-Sprott MD. The use of the
association and marginal homogeneity. log-odds ratio to assess the reliability of dichoto-
mous questionnaire data. Applied Psychological
• Cook and Farewell (1995) presented a mo- Measurement, 1987, 11, 307-316.
del that considers formal decomposition of
a 2 × 2 table into independent components
which reflect (1) the odds ratio and (2) mar- 18.4 Tests of Marginal Ho-
ginal homogeneity.
mogeneity
• The tetrachoric and polychoric correlations
are alternatives when one may assume that Consider symptom ratings (1 = low, 2 = mode-
ratings are based on a latent continuous rate, 3 = high) by two raters on the same sample
trait which is normally distributed. With of subjects, summarized by a 3 × 3 table 18.4.
more than two rating categories, extensions Here pij denotes the proportion of all cases
of the polychoric correlation are available assigned to category i Rater 1 and category j by
with more flexible distributional assumpti- Rater 2. (The table elements could as easily be
ons. frequencies.) The terms p1. , p2. , and p3. denote
the marginal proportions for Rater 1–i.e. the
• Association and quasi-symmetry models total proportion of times Rater 1 uses categories
can be used for N ×N tables, where ratings 1, 2 and 3, respectively. Similarly, p.1 , p.2 , and
are nominal or ordered-categorical. These p.3 are the marginal proportions for Rater 2.
methods are related to the odds ratio. Marginal homogeneity refers to equality (lack
of significant difference) between one or more
• When there are more than two raters, la- of the row marginal proportions and the corres-
tent trait and latent class models can be ponding column proportion(s). Testing margi-
used. A particular type of latent trait mo- nal homogeneity is often useful in analyzing ra-
del called the Rasch model is related to the ter agreement. One reason raters disagree is be-
odds ratio. cause of different propensities to use each rating
category. When such differences are observed, it
18.3.6 References may be possible to provide feedback or improve
instructions to make raters’ marginal proporti-
Either of the books by Agresti are excellent star- ons more similar and improve agreement.
ting points. Agresti A. Categorical data analy- Differences in raters’ marginal rates can be
sis. New York: Wiley, 1990. formally assessed with statistical tests of mar-
Agresti A. An introduction to categorical data ginal homogeneity (Barlow, 1998; Bishop, Fien-
analysis. New York: Wiley, 1996. berg & Holland, 1975; Ch. 8). If each rater
Bishop YMM, Fienberg SE, Holland PW. Dis- rates different cases, testing marginal homoge-
crete nultivariate analysis: theory and practice. neity is straightforward: one can compare the
Cambridge, Massachusetts: MIT Press, 1975 marginal frequencies of different raters with a
Cook RJ, Farewell VT. Conditional inference simple chi-squared test. However this cannot
for subject-specific and marginal agreement: be done when different raters rate the same ca-
two families of agreement measures. Canadian ses – the usual situation with rater agreement
Journal of Statistics, 1995, 23, 333-344. studies; then the ratings of different raters are
151
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
1 2 3
1 p11 p12 p13 p1.
2 p21 p22 p23 p2.
3 p31 p32 p33 p3.
p.1 p.2 p.3 1.0
not statistically independent and this must be data. While some of the methods described be-
accounted for. low are potentially more powerful, this comes at
Several statistical approaches to this problem
the price of making assumptions which may or
are available. Alternatives include: may not be true. The simplicity of the nonpara-
metric tests lends persuasiveness to their results.
• Nonparametric tests A mild limitation is that these tests apply
only for comparisons of two raters. With more
• Bootstrap methods
than two raters, of course, one can apply the
• Loglinear, association, and quasi-symmetry tests for each pair of raters.
models
• Latent trait and related models
18.4.2 Bootstrapping
Bootstrap and related jackknife methods
18.4.1 Nonparametric tests (Efron, 1982; Efron & Tibshirani, 1993) provide
a very general and flexible framework for tes-
The main nonparametric test for assessing mar- ting marginal homogeneity. Again, suppose one
ginal homogeneity is the McNemar test. The has an N × N crossclassification frequency table
McNemar test assesses marginal homogeneity summarizing agreement between two raters on
in a 2 × 2 table. Suppose, however, that one an N-category rating. Using what is termed the
has an N × N crossclassification frequency table nonparametric bootstrap, one would repeatedly
that summarizes ratings by two raters for an N - sample from this table to produce a large num-
category rating system. By collapsing the N ×N ber (e.g., 500) of pseudo-tables, each with the
table into various 2 × 2 tables, one can use the same total frequency as the original table. Vari-
McNemar test to assess marginal homogeneity ous measures of marginal homogeneity would be
of each rating category. With ordered-category calculated for each pseudo-table; for example,
data one can also collapse the N × N table in one might calculate the difference between the
other ways to test rater equality of category th- row marginal proportion and the column mar-
resholds, or test raters for overall bias (i.e., a ginal proportion for each category, or construct
tendency to make higher or lower rating than an overall measure of row vs. column marginal
other raters.) The Stuart-Maxwell test can be differences.
used to test marginal homogeneity between two Let d∗ denote such a measure calculated for
raters across all categories simultaneously. It a given pseudo-table, and let d denote the same
thus complements McNemar tests of individual measure calculated for the original table. ¿From
categories by providing an overall significance the pseudo-tables, one can empirically calculate
value. the standard deviation of d∗ , or σd∗ . Let d0 de-
?? Further explanation of these methods and note the true population value of d. Assuming
their calculation can be found by clicking on the that d0 = 0 corresponds to the null hypothesis
test names above. of marginal homogeneity, one can test this null
MH, a computer program for testing marginal hypothesis by calculating the z value:
homogeneity with these methods is available on-
d
line. For more information, click here. z= (18.25)
These tests are remarkably easy to use and σ d∗
are usually just as effective as more complex and determining the significance of the standard
methods. Because the tests are nonparame- normal deviate z by usual methods (e.g., a table
tric, they make few or no assumptions about the of z value probabilities).
152
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
The method above is merely an example. analyzing the data with a loglinear, association,
Many variations are possible within the fra- or quasi-symmetry model, the addition of mar-
mework of bootstrap and jackknife methods. ginal homogeneity tests may require relatively
An advantage of bootstrap and jackknife little extra work.
methods is their flexibility. For example, one A possible limitation is that loglinear, asso-
could potentially adapt them for simultaneous ciation, and quasi-symmetry models are only
comparisons among more than two raters. well-developed for analysis of two-way tables.
A potential disadvantage of these methods is Another is that use of the difference G2 test
that the user may need to write a computer typically requires that the unrestricted model
program to apply them. However, such a pro- fit the data, which sometimes might not be the
gram could also be used for other purposes, such case.
as providing bootstrap significance tests and/or
confidence intervals for various raw agreement
indices. 18.4.4 Latent trait and related
models
18.4.3 Loglinear, association and Latent trait models and related methods such
quasi-symmetry modeling as the tetrachoric and polychoric correlation co-
efficients can be used to test marginal homo-
If one is using a loglinear, association or quasi-
geneity for dichotomous or ordered-category ra-
symmetry model to analyze agreement data, one
tings. The general strategy using these methods
can adapt the model to test marginal homoge-
is similar to that described for loglinear and re-
neity. For each type of model the basic approach
lated models. That is, one estimates both an
is the same. First one estimates a general form
unrestricted version of the model and a restric-
of the model–that is, one without assuming mar-
ted version that assumes marginal homogeneity,
ginal homogeneity; let this be termed the ”un-
and compares the two models with a difference
restricted model.”Next one adds the assumption
G2 test. With latent trait and related models,
of marginal homogeneity to the model. This is
the restricted models are usually constructed by
done by applying equality restrictions to some
assuming that the thresholds for one or more ra-
model parameters so as to require homogeneity
ting levels are equal across raters.
of one or more marginal probabilities (Barlow,
1998). Let this be termed the ”restricted mo- A variation of this method tests overall rater
del.” bias. That is done by estimating a restricted
Marginal homogeneity can then be tested model in which the thresholds of one rater are
using the difference G2 statistic, calculated as: equal to those of another plus a fixed constant.
A comparison of this restricted model with the
corresponding unrestricted model tests the hy-
differenceG2 = G2 (restricted)−G2 (unrestricted) pothesis that the fixed constant, which corres-
ponds to bias of a rater, is 0.
where Another way to test marginal homogeneity
G2 (restricted) and G2 (unrestricted) are the using latent trait models is with the asymp-
likelihood-ratio chi-squared model fit statistics totic standard errors of estimated category th-
(Bishop, Fienberg & Holland, 1975) calculated resholds. These can be used to estimate the
for the restricted and unrestricted models. standard error of the difference between the th-
The difference G2 can be interpreted as a chi- resholds of two raters for a given category, and
squared value and its significance determined this standard error used to test the significance
from a table of chi-squared probabilities. The of the observed difference.
df are equal to the difference in df for the un- An advantage of the latent trait approach is
restricted and restricted models. A significant that it can be used to assess marginal homoge-
value implies that the rater marginal probabili- neity among any number of raters simultane-
ties are not homogeneous. ously. A disadvantage is that these methods
An advantage of this approach is that one can require more computation than nonparametric
test marginal homogeneity for one category, se- tests. If one is only interested in testing mar-
veral categories, or all categories using a uni- ginal homogeneity, the nonparametric methods
fied approach. Another is that, if one is already might be a better choice. However, if one is
153
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
already using latent trait models for other rea- independent is not very informative; raters are
sons, such as to estimate accuracy of individual dependent by definition, inasmuch as they are
raters or to estimate the correlation of their ra- rating the same cases).
tings, one might also use them to examine mar- It is the second use of kappa–quantifying ac-
ginal homogeneity; however, even in this case, it tual levels of agreement–that is the source of
might be simpler to use the nonparametric tests concern. Kappa’s calculation uses a term called
of marginal homogeneity. the proportion of chance (or expected) agree-
If there are many raters and categories, data ment. This is interpreted as the proportion of
may be sparse (i.e., many possible patterns of times raters would agree by chance alone. Howe-
ratings across raters with 0 observed frequen- ver, the term is relevant only under the conditi-
cies). With very sparse data, the difference G2 ons of statistical independence of raters. Since
statistic is no longer distributed as chi-squared, raters are clearly not independent, the relevance
so that standard methods cannot be used to de- of this term, and its appropriateness as a correc-
termine its statistical significance. tion to actual agreement levels, is very questio-
nable.
Thus, the common statement that kappa
18.4.5 References is a ”chance-corrected measure of agree-
Barlow W. Modeling of categorical agreement. ment”misleading. As a test statistic, kappa can
The encyclopedia of biostatistics, P. Armitage, verify that agreement exceeds chance levels. But
T. Colton, eds., pp. 541-545. New York: Wiley, as a measure of the level of agreement, kappa is
1998. not ”chance-corrected”; indeed, in the absence
Bishop YMM, Fienberg SE, Holland PW. Dis- of some explicit model of rater decisionmaking,
crete multivariate analysis: theory and practice. it is by no means clear how chance affects the
Cambridge, Massachusetts: MIT Press, 1975 decisions of actual raters and how one might cor-
Efron B. The jackknife, the bootstrap and rect for it.
other resampling plans. Philadelphia: Society A better case for using kappa to quantify ra-
for Industrial and Applied Mathematics, 1982. ter agreement is that, under certain conditions,
Efron B, Tibshirani RJ. An introduction to it approximates the intra-class correlation. But
the bootstrap. New York: Chapman and Hall, this too is problematic in that (1) these con-
1993. ditions are not always met, and (2) one could
instead directly calculate the intraclass correla-
tion.
18.5 Kappa Coefficients
18.5.1 Pros and Cons
Though the kappa coefficient was very popular
for many years, there has been continued and Pros
increasing criticism of its use. At the least, it
• Kappa statistics are easily calculated and
can be said that (1) kappa should not be viewed
software is readily available (e.g., SAS
as the standard or default way to quantify agre-
PROC FREQ).
ement; (2) one should be concerned about using
a statistic that is the source of so much contro- • Kappa statistics are appropriate for testing
versy; and (3) one should consider some of the whether agreement exceeds chance levels
alternatives so as to make an informed decision. for binary and nominal ratings.
One can distinguish between two possible uses
of kappa: as a way to test rater independence Cons
(i.e. as a test statistic), and as a way to quan-
tify the level of agreement (i.e., as an effect- • Kappa is not really a chance-corrected me-
size measure). The first use involves testing asure of agreement (see above).
the null hypothesis that there is no more agree- • Kappa is an omnibus index of agreement. It
ment than might occur by chance given random does not make distinctions among various
guessing; that is, one makes a qualitative, ”yes types and sources of disagreement.
or no”decision about whether raters are inde-
pendent or not. Kappa is appropriate for this • Kappa is influenced by trait prevalence
purpose (although to know that raters are not (distribution) and base-rates. As a result,
154
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
kappas are seldom comparable across stu- resampling: is one level of agreement significan-
dies, procedures, or populations (Thomp- tly different from another? Journal of Psychia-
son & Walter, 1988; Feinstein & Cicchetti, tric Research, 1996, 30, 483-492.
1990). Maclure M, Willett WC. Misinterpretation
and misuse of the kappa statistic. American
• Kappa may be low even though there are Journal of Epidemiology, 1987, 126, 161-169.
high levels of agreement and even though Uebersax JS. Diversity of decision-making
individual ratings are accurate. Whether models and the measurement of interrater agre-
a given kappa value implies a good or a ement. Psychological Bulletin, 1987, 101, 140-
bad rating system or diagnostic method de- 146.
pends on what model one assumes about
the decisionmaking of raters (Uebersax,
1988). Overviews
• With ordered category data, one must se- Cook RJ. Kappa. In: The Encyclopedia of Bios-
lect weights arbitrarily to calculate weigh- tatistics, T. P. Armitage, Colton, eds., pp. 2160-
ted kappa (Maclure & Willet, 1987). 2166. New York: Wiley, 1998.
Fleiss JL. Statistical methods for rates and
• Kappa requires that two rater/procedures proportions. 2nd ed. New York: John Wiley,
use the same rating categories. There are 1981, 38-46.
situations where one is interested in mea- Kraemer HC. Measurement of reliability for
suring the consistency of ratings for raters categorical data in medical research. Statisti-
that use different categories (e.g., one uses cal Methods in Medical Research. 1(2):183-99,
a scale of 1 to 3, another uses a scale of 1 1992.
to 5). Shrout PE. Measurement reliability and agre-
Tables that purport to categorize ranges of ement in psychiatry. Statistical Methods in Me-
kappa as “good,´´ “fair,” “poor” etc. are dical Research. 7(3):301-17, 1998 Sep.
inappropriate; do not use them.
Calculation of the Kappa Coefficient
18.5.2 Bibliography: Kappa Coef- Cohen J. A coefficient of agreement for nominal
ficient scales. Educational and Psychological Measure-
ment. 20:37-46, 1960.
Where to Start
Fleiss JL. Measuring nominal scale agreement
Cohen J. A coefficient of agreement for nominal among many raters. Psychological Bulletin.
scales. Educational and Psychological Measure- 76:378-81, 1971.
ment, 196037-46, 1960. Fleiss JL. Statistical methods for rates and
Cohen J. Weighted kappa: Nominal scale proportions. 2nd ed. New York: John Wiley,
agreement with provision for scaled disagree- 1981, 38-46.
ment or partial credit. Psychological Bulletin.
70:213-20, 1968. Weighted Kappa
Cook RJ. Kappa. In: The Encyclopedia of
Biostatistics, T. P. Armitage, Colton, eds., pp. Cicchetti DV. A new measure of agreement
2160-2166. New York: Wiley, 1998. between rank ordered variables. Proceedings of
Cook RJ. Kappa and its dependence on mar- the American Psychological Association, 1972,
ginal rates. In: The Encyclopedia of Biostatis- 7, 17-18. Cicchetti DV. Comparison of the null
tics, P. Armitage, T. Colton, eds., pp. 2166- distributions of weighted kappa and the C or-
2168. New York: Wiley, 1998. dinal statistic. Applied Psychological Measure-
Hutchinson TP. Focus on Psychometrics. ment, 1977, 1, 195-201.
Kappa muddles together two sources of disagre- Cohen J. Weighted kappa: Nominal scale
ement: tetrachoric correlation is preferable. Re- agreement with provision for scaled disagree-
search in Nursing & Health, 1993, 16, 313-316. ment or partial credit. Psychological Bulletin.
McKenzie DP, Mackinnon AJ, Peladeau N, 70:213-20, 1968.
Onghena P, Bruce PC, Clarke DM, Harrigan S, Fleiss JL, Cohen, J. The equivalence of weigh-
McGorry PD. Comparing correlated kappas by ted kappa and the intraclass correlation coeffici-
155
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
156
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
157
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Computer Methods & Programs in Biomedicine. Some authors recommend a version of the Mc-
33(1):35-41, 1990 Sep. Nemar test with a correction for discontinuity,
Gamsu CV. Calculating reliability measures calculated as:
for ordinal data. British Journal of Clinical Psy-
chology. 1986 Nov; Vol 25(4): 307-308. (|b − c| − 1)2
χ2 = b+c. (18.27)
Moussa MA. The measurement of interobser- /
ver agreement based on categorical scales. Com-
puter Programs in Biomedicine. 19(2-3):221-8, but this is controversial.
1985. Statistical significance is determined by eva-
Oud JH, Sattler JM. Generalized kappa co- luating the probability of χ2 with reference to
efficient: A Microsoft BASIC program. Beha- a table of cumulative probabilities of the chi-
vior Research Methods, Instruments and Com- squared distribution or a comparable computer
puters. 1984 Oct; Vol 16(5): 481. function. A significant result implies that mar-
Strube MJ. A general program for ginal frequencies (or proportions) are not homo-
the calculation of the kappa coefficient. geneous. The test is inherently two-tailed. For
Behavior-Research-Methods,-Instruments-and- a one-tailed test, one could divide the obtained
Computers. 1989 Dec; Vol 21(6): 643-644. p value by two.
Uebersax JS. GKAPPA: Generalized kappa When b and/or c are small, the McNemar test
coefficient (computer program abstract). Ap- χ2 is not well approximated by the chi-squared
plied Psychological Measurement, 1983, 5, 28. distribution. When, say, (b + c) < 10 a two-
Valiquette CAM, Lesage AD, Cyr M, Toupin tailed exact test, based on the cumulative bino-
J. Computing Cohen’s kappa coefficients using mial distribution with p = q = .5, can be used
SPSS MATRIX. Behavioral Research Methods, instead.
Instruments and Computers, 1994, 26, 60-61. Example Let the cells of a 2 × 2 table be
Vierkant RA. A SAS macro for calculating bo- as 18.6.1:
otstrapped confidence intervals about a kappa
40 10
coefficient. Paper presented at the annual SUGI
20 50
(SAS User’s Group) Meeting, 2000?
Tabela 18.5: Example data
18.6 McNemar Tests of
Marginal Homogeneity By Eq. 18.26, the McNemar test χ2 = (10 −
20)2 /(10 + 20) = 100/30 = 3.33 (1 df, p = .068).
18.6.1 The McNemar test Using the continuity correction (Eq. 18.27),
2
The McNemar test (McNemar, 1947; Sheskin, χ = 2.70 (1 df, p = .100).
2000, pp. 491-508; Somes, 1983) is an extremely With the exact test, p = 0.099.
simple way to test marginal homogeneity in K ×
K tables. The basic McNemar test applies to 2× 18.6.2 Test of marginal homoge-
2 tables. Consider table 18.1 that summarizes
agreement between two raters on a dichotomous
neity for a single category
trait. Given ratings on a K-level categorical variable,
Marginal homogeneity implies that row totals agreement between two raters is summarized by
are equal to the corresponding column totals, or a K × K crossclassification table. Table 3 below
(a + b) = (a + c) (c + d) = (b + d). is an example with three rating categories of 1
Since the a and the d on both sides of the = low, 2 = moderate, and 3 = high.
equations cancel, this implies b = c; this is the with, nij being the number of cases assigned
basis of the McNemar test. category i by Rater 1 and category j by Rater
The McNemar statistic is calculated as 2. To test marginal homogeneity for a single ca-
tegory, one collapses the full table into a 2 × 2
(b − c)2
χ2 = . (18.26) table. Specifically, to test row/column margi-
b+c nal homogeneity for category k, one collapses all
2
The value χ can be viewed as a chi-squared rows and columns corresponding to the other ca-
statistic with 1 df. tegories. For example, to test marginal homoge-
158
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Whereas the method above tests row/column The value of d~0 S −1 d~ = χ2 = 13.76. With 2
homogeneity with respect to each individual ca- df, p = 0.001.
tegory, the Stuart-Maxwell test (Stuart, 1955;
Maxwell, 1970; Everitt, 1977) tests marginal ho- 18.6.4 Test of equal category th-
mogeneity for all categories simultaneously. The
test is calculated in the following way. Consi-
resholds
der a K × K frequency table of the same form The Concept of Rater Thresholds With ordered-
as Table 18.6.2. Let column vector d~ contain category ratings, it is often theoretically reaso-
any K − 1 of the values, d1 , d2 , . . . , dK where nable and intuitively appealing to consider the
di = ni. − n.i (i = 1, . . . , K) Let S denote the idea of rater thresholds. By this view, raters be-
(K − 1) × (K − 1) matrix of the variances and gin with a subjective continuous impression of
covariances of the elements of d. ~ The elements how much trait a case has. Then they apply
of S are equal to: sii = ni. + n.i − 2nii and subjective thresholds or cutpoints which map
sij = −(nij + nji ). that impression into a particular rating cate-
The Stuart-Maxwell statistic is calculated as: gory. For example, if the trait is “mobility”,
χ2 = d~0 S −1 d,
~ where d~0 is the transpose of d~ and a rater first perceives a given patient’s level as
−1
matrix S is the inverse of S. χ2 is interpreted falling somewhere on a continuum. The rater
as a chi-squared value with df equal to K − 1. then applies thresholds to assign a specific ra-
In the case of K = 2, the Stuart-Maxwell sta- ting category of, say, low, moderate, or high, as
tistic and the McNemar statistic (Eq. 18.26) are illustrated below.
159
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Tabela 18.7: Table 18.6.2 collapsed to test row/column homogeneity for the “low” category.
Tabela 18.8: Table 18.6.2 collapsed to test row/column homogeneity for the “mod.” category.
low mod. high row total ting category and a narrower definition of the
low 20 10 5 35 middle rating category. Rater 2, then, would
moderate 3 30 15 48 tend to use the lowest rating category more of-
high 0 5 40 45 ten, and the middle category less often, than
column total 23 45 60 128 Rater 1. We now return to the 3 × 3 crossclas-
sification in Table 18.6.2. Suppose one wishes
Tabela 18.9: Hypothetical summary of ratings to test whether the lowest threshold (t2 ) is the
by Rater 1 (rows) and Rater 2 (columns). same for both raters. To do this one would first
collapse all rows after Row 1 and all columns
after Column 1. Then one would perform the
McNemar test on the resulting 2 × 2 table. A
low moderate high
significant result would imply that threshold t2
<--------|------------|---------------->
differs between the two raters. (Note that here
t2 t3
the 2 × 2 table and associated McNemar test is
Actual Trait Level (continuous)
the same as with Table 18.6.2.)
In the example above, a case whose judged To test equality of threshold t3 between ra-
trait level is below threshold t2 would be assig- ters, one would collapse Rows 1 and 2, and Co-
ned the rating category “low”. A case whose lumns 1 and 2 to produce the following 2 × 2
judged trait level is above threshold t3 would table 18.6.4 and perform a McNemar test on
be assigned the rating category “high”. A case this table.
whose judged trait level is between the two th- In general, with a K × K table, one can test
resholds would be assigned the rating category equality of a given threshold k (k = 2, . . . , K)
“moderate”. by collapsing rows/columns 1 to k − 1 and col-
Threshold tk (k = 2, . . . , K) is the minimum lapsing rows/columns k to K, and performing
trait level a case must display to be assigned the basic McNemar test on the resulting 2 × 2
rating level k or higher. There is no threshold table.
t1 ; a case is assigned rating level 1 if the case’s The tests for thresholds t2 and tK are iden-
trait level does not exceed threshold t2 . tical to the tests of marginal homogeneity for
Threshold locations potentially differ between categories 1 and K (although the results are in-
raters. The locations of a rater’s thresholds de- terpreted differently). However, the tests for th-
termine how often the rater uses each rating ca- resholds t3 , . . . , tK−1 are unique.
tegory. For example in the situation below,
<--------|------------|------------>
Rater 1 t2 t3
18.6.5 Test of overall bias
<---------------|-----|------------> With ordered-category ratings, the McNemar
Rater 2 t2 t3 test can also be used to assess overall bias of ra-
Rater 2 has a higher threshold t2 . This cor- ters, defined as a tendency of one rater to make
responds to a wider definition of the lowest ra- ratings generally higher or lower than the other
160
Alexandre Souto Martinez Estatı́stica DFM/FFCLRP/USP
Tabela 18.10: Table 18.6.2 collapsed to test row/column homogeneity for the “high” category.
rater. This simple test is described by Bishop, McNemar Q. Note on the sampling error of
Fienberg and Holland (1975; pp. 284-285). For the difference between correlated proportions or
a K × K table, let b = the sum of frequencies in percentages. Psychometrika, 1947, 12, 153-157.
cells above the main diagonal, and let c = the Sheskin DJ. Handbook of parametric and
sum of frequencies in cells below the main diago- nonparametric statistical procedures (second
nal. For example, with reference to Table 18.6.2, edition). Boca Raton: Chapman & Hall, 2000.
b = n12 + n13 + n23 and c = n21 + n31 + n32. Somes G. McNemar test. Encyclopedia of sta-
One then uses these values of b and c in tistical sciences, vol. 5, S. Kotz & N. Johnson,
Eq. 18.26. The test has 1 df. A significant χ2 va- eds., pp. 361-363. New York: Wiley, 1983.
lue implies that one raters’ ratings are generally Stuart AA. A test for homogeneity of the mar-
higher or lower than those of the other rater. ginal distributions in a two-way classification.
Biometrika, 1955, 42, 412-416.
18.6.6 Software
The MH program will perform all the tests des-
cribed on this page for a K × K crossclassifica-
tion table, where K can be as large as 50.
SAS will perform a McNemar test for 2 × 2
tables. It is possible SPSS has similar features.
Other specialized biostatistics and epidemiologi-
cal software, such as Epistat, perform the McNe-
mar test. For additional suggestions, one might
search the web using the key words “McNemar
test” and “software”.
18.6.7 References
Agresti A. Categorical data analysis. New York:
Wiley, 1990.
Barlow W. Modeling of categorical agree-
ment. The encyclopedia of biostatistics, P. Ar-
mitage, T. Colton, eds., pp. 541-545. New York:
Wiley, 1998.
Bishop YMM, Fienberg SE, Holland PW. Dis-
crete multivariate analysis: theory and practice.
Cambridge, Massachusetts: MIT Press, 1975
Everitt BS. The analysis of contingency ta-
bles. London: Chapman & Hall, 1977.
Fleiss JL. Statistical methods for rates and
proportions (second ed.) New York: Wiley,
1981.
Maxwell AE. Comparing the classification of
subjects by two independent judges. British
Journal of Psychiatry, 1970, 116, 651-655.
161