Apostila de Métodos Estatísticos em Climatologia
Apostila de Métodos Estatísticos em Climatologia
Apostila de Métodos Estatísticos em Climatologia
Campina Grande
Abril 2017
Capítulo 1. Fundamentos da climatologia
Quando dizemos, por exemplo, que o clima de uma região tem invernos frios e secos, nos
referimos ao que ocorre normalmente nessa região durante o inverno. Porém, isto não implica
que em algum dia do inverno não haja uma temperatura agradável ou que a atmosfera não
tenha um alto grau de umidade.
O tempo meteorológico, geralmente, não tem efeitos sobre o solo ou relevo, por não se
tratar de eventos extraordinários, enquanto que o clima é um fator determinante tanto na
modelação da paisagem quanto na formação do solo e do desenvolvimento da vegetação. O
tempo e clima são resultado da atuação da:
- Radiação solar
- Atmosfera
- Forma e movimentos da Terra
- Das características da superfície terrestre
O estudo do clima é muito importante para se conhecer e analisar sua influência sobre a
produção vegetal. A capacidade produtiva de um cultivar depende basicamente de sua
constituição genética (vigor e produtividade), de seu estado sanitário. É importante, também,
que o cultivar esteja totalmente condicionado a possibilidades de adaptação a um determinado
tipo climático. Todos os elementos do clima ou parte deles podem favorecer ou limitar a
exploração de um cultivar, fazendo-o rentável ou não.
O movimento de rotação da Terra em torno de seu próprio eixo faz com que qualquer
local da superfície terrestre experimente uma variação diária em suas condições
meteorológicas, especialmente na radiação solar e na temperatura do ar. Isso gera a escala
diária de variação das condições meteorológicas. Quanto mais árido for o clima do local
maior será a variação diária dos elementos meteorológicos.
Outra escala de variação das condições meteorológicas é a anual, que se deve à posição
Terra-Sol e, gera as estações do ano ou sazonalidade. Aa região equatorial, devido à constante
insolação, as estações do ano apresentam poucas diferenças. Não são bem caracterizadas.
Quando se deseja realizar estudos sobre as mudanças do clima é preciso utilizar-se de
escalas decadal, secular, milenar etc., haja vista que essas mudanças só são detectadas em
longos períodos de observação.
1.4. Macroclima
São climas que ocorrem em escala regional ou geográfica e caracteriza o clima de uma
região. É a escala usada para se estudar as mudanças que podem ocorrer no clima de uma
região. Nesse estudo podem ser considerados permanentes: a latitude, a altitude, o relevo, a
continentalidade, etc. E variáveis: as correntes oceânicas, os centros semipermanentes de alta
e baixa pressão, massas de ar, composição atmosférica, etc.
1.5. Latitude
Quanto maior a latitude, isto é, quanto mais nos afastarmos do Equador, menor será a
incidência de radiação solar e, por conseguinte, menor será a média térmica local. Isto ocorre
porque os raios solares não conseguem incidir de forma perpendicular às regiões
extratropicais.
A Tabela 1 mostra a influência da latitude para quatro cidades brasileiras com mesma
altitude.
Tabela 1. Variação da temperatura do ar com a latitude
Cidade Latitude Temperatura média anual
Belém - PA 1°28’S 25,9°C
Salvador - BA 12°25’S 25,5°C
Vitória - ES 20°19’S 24,4°C
Porto Alegre - 31°01’S 20,1°C
RS
Fonte: Anuário estatístico do Brasil, 1995.
1.6. Altitude
1.7 Relevo
O relevo está associado à altitude, tem influência na circulação das massas de ar,
principalmente na circulação secundária.
1.8. Vegetação
Impede a incidência direta dos raios solares na superfície, amenizando o aquecimento. Por
isso, com o desmatamento há diminuição de chuvas, visto que a umidade do ar diminui, e
consequentemente há aumento da temperatura do ar na região.
1.9. Continentalidade e oceanidade
Esse termo se refere à proximidade ou distância de grandes massas de água até um ponto
de referência no interior do continente. A continentalidade ocorre em locais situados no
interior dos continentes, portanto sem sofrer efeito dos oceanos. Nessa condição, as
amplitudes térmicas são maiores, tanto em termos diários quanto em termos anuais.
A Oceanidade é o efeito do oceano sobre o clima de uma região litorânea. A água do
oceano atua como um moderador térmico, ou seja, não permite que grandes variações de
temperatura ocorram. Isso se dá pelo fato da água ter maior calor específico do que o ar,
resfriando-se e aquecendo-se mais lentamente. A massa de água ao trocar calor com o ar faz
com que haja uma atenuação tanto do aquecimento do ar quanto de seu resfriamento,
A circulação geral da atmosfera gera os ventos predominantes, que por sua vez são
responsáveis pela formação das zonas de convergência intertropical (ZCIT) e extratropical
(ZCET), e também dos anticiclones semipermanentes nas latitudes de cavalo. Na ZCIT os
ventos alísios de SE (HS) e de NE (HN) se encontram formando áreas de baixa pressão (B),
que mostram a posição do Equador Térmico, o que favorece a formação de nuvens e chuvas.
Na ZCET a convergência dos ventos de W e de E forma as frentes frias, que posteriormente
se deslocam em direção ao Equador provocando chuvas. Já nas latitudes de cavalos ocorre
subsidência de ar, formando as altas pressões (A) que inibem os movimentos convectivos e
consequentemente, desfavorecem a formação de nuvens e chuvas.
1.12. Massas de ar
São porções gasosas com temperatura e pressão definidas que circulam na troposfera.
No conceito da climatologia moderna é considerado o principal fator do clima. De acordo
com esse conceito os climas se organizam em decorrência dos movimentos das massas de ar.
A massa polar atlântica (Pa) é a que mais influencia na organização climática do Brasil. No
inverno ela ganha força e se desloca para o continente. Na região Sul provoca geada; na
região Sudeste, chuvas orográficas (Serra do Mar); no litoral nordestino chuvas frontais. No
sul da região Norte, essa massa chega enfraquecida, porém pode provocar queda brusca de
temperatura, denominada de friagem. Na região Centro Oeste provoca ondas de frio.
1.13. Mesoclima
Refere-se ao clima local, aqui o relevo é o principal condicionante desse clima. O tipo de
topografia local e o tempo de exposição da superfície à radiação solar determina o tipo
climático.
1.15. Microclima
São fatores que modificam o clima em microescala, devido ao tipo de cobertura do terreno
ou prática agrícola. A alteração do microclima pode realizada pelo homem. Quando
determinada cultura não esta apta ao macroclima da região, a alteração do microclima pode
ser efetuada artificialmente. Exemplos disso são os ambientes protegidos (estufas, telados,
etc.) que tem por finalidade reduzir a incidência de radiação solar sobre as culturas, elevar as
temperaturas ou evitar a ação da chuva nas plantas. Apesar dos aspectos favoráveis, a
alteração do microclima, se não for bem controlada, pode produzir efeitos desfavoráveis,
como é o que ocorre quando se adensa demasiadamente as culturas ou se irriga com muita
frequência.
A curva da radiação líquida total tende a ser simétrica com relação ao meio-dia (máximo)
e aproximadamente horizontal nas horas mais escuras do dia. O início do excedente de
radiação ocorre próximo às 07h00 e finda às 17h00, aproximadamente. A curva típica de
temperatura diária do ar é simétrica. O ponto mínimo é próximo do nascer do sol, à medida
que ocorre o excedente de radiação a temperatura do ar vai aumentando e alcança seu valor
máximo próximo das 14h00. Depois começa a diminuir. A defasagem entre o valor máximo
de insolação e da temperatura do ar deve-se a natureza das matérias, ou seja, solo e ar. O solo
aquece primeiro para depois aquecer o ar. A hora de ocorrência da temperatura mínima do ar
varia com o solistício e o equinócio, mas a hora de ocorrência da temperatura máxima do ar
permanece praticamente constante.
A pressão atmosférica diminui à mediada que aumenta a altitude por duas razões: 1) as
camadas de baixas pressões na atmosfera são mais densas do que as camadas de altas pressões
(ar mais rarefeito); 2) ao aumentar a altitude, reduz-se o peso da coluna de ar sobre as
camadas da atmosfera mais baixas. Até os 100 metros de altura, o decréscimo é de 1,0 mb/8
metros de altitude. À medida que se ascende na atmosfera se reduz o decréscimo de pressão.
Acima de 50 km de altura quase não há mais ar.
A superfície terrestre se aquece por radiação solar; esta radiação não é recebida com a
mesma intensidade em todas as zonas do planeta, por isso é que se origina um aquecimento
desigual dessas áreas. O ar das camadas atmosféricas mais baixas se aquece pela proximidade
da superfície terrestre. O ar mais aquecido se dilata, torna-se menos denso e reduz sua pressão
atmosférica. Por outro lado, o ar menos quente se dilata menos é mais denso e aumenta a
pressão atmosférica. Em consequência, esse aquecimento desigual da superfície terrestre é
que origina as distintas pressões na atmosfera, gerando o movimento do ar (vento) na direção
das altas para as baixas pressões. Se as isóbaras estiverem muito juntas, o gradiente é grande e
a diferença de pressão entre dois pontos próximos é elevada, assim se originam ventos fortes.
Caso contrário, se as isóbaras estiverem muito separadas, o gradiente é pequeno, assim se
originam ventos fracos. Portanto, o vento é um deslocamento do ar provocado pela diferença
de pressão de um local em relação a outro.
4.0. Estatística
Se a Estatística for entendida como a Ciência dos Dados, será de grande valia o domínio
que seu corpo de conhecimento pode oferecer. Primeiramente, como ponto de partida, pode-se
dividir a Estatística em duas áreas: Descritiva e Inferencial (Indutiva) – (observação: alguns
autores afirmam que a estatística pode ser dividida em três áreas: Estatística descritiva,
Probabilidade e Inferência estatística).
4.4.1. População
A população é o conjunto constituído por todos os indivíduos que representam pelo menos
uma característica comum, cujo comportamento interessa analisar (inferir). Assim sendo, o
objetivo das generalizações estatísticas está em dizer algo acerca de diversas características da
população estudada, com base em fatos conhecidos.
4.4.2. Amostra
A amostra pode ser definida como um subconjunto do total de observações contidas na
população. Através da amostra se faz inferência sobre as características dessa população. Uma
amostra tem que ser representativa, a escolha de uma amostra bem como seu manuseio requer
cuidados especiais para que os resultados não sejam distorcidos. A Figura 4 esboça os
conceitos de população e amostra.
. Parâmetro - é uma medida numérica que descreve uma característica de uma população.
São valores fixos, geralmente desconhecidos e usualmente representados por caracteres
gregos. Por exemplo, µ (média populacional), ρ (proporção populacional), σ (desvio-padrão
· Estatística - é uma medida numérica que descreve uma característica de uma amostra. O
valor de uma estatística passa a ser conhecido logo que a amostra é efetivamente retirada da
população. No entanto, esse pode variar de amostra para amostra. A isto se chama variação
amostral. A estatística é representada por caracteres latinos. Por exemplo, X (média amostral),
^p (proporção amostral), S (desvio-padrão amostral), S2 (variância amostral).
Ex. Suponha que o valor obtido do arremesso de um dado foi igual a 4. A probabilidade de
cada um dos seis valores possíveis é igual a 1/6. Portanto, a chance do 4 se repetir é igual a
1/6 e de ocorrer qualquer outo valor diferente de 4 é o complemento do universo de
probabilidades, ou seja: 1-1/3=2/3.
Por outro lado, se admitirmos que os mesmos fatores atuem da mesma maneira em
observações repetidas grande número de vezes, constata-se que existe uma possibilidade de
predição “de longo prazo”. Em outras palavras, certos resultados podem ser mais prováveis
que outros. Isso ocorre, por exemplo, quando se lança uma moeda mil vezes (1000 é o
tamanho da amostra), a probabilidade de ocorrência de “caras” e “coroas” é igual a 0,5 ou
50%.
Em geral, os eventos aleatórios se caracterizam por admitir dois ou mais resultados
possíveis, e de não ter elementos de juízo suficientes para predizer qual deles ocorrerá em
determinada realização do evento. Mesmo assim, a aleatoriedade não é um estado de
imprevisibilidade.
Especificamente, os processos atmosféricos, devido ao caos dinâmico (interrelações
desses processos), são inconstantes, geralmente não periódicos e irregulares. Essas
irregularidades conduzem esses processos atmosféricos à incerteza na tarefa da previsão do
tempo.
4.5.1. Conceitos básicos
Seja uma variável aleatória (V. A). Se o número de valores possíveis de for
enumerável (finito ou infinito), dizemos que é uma variável aleatória discreta. Isto é, os
possíveis valores de podem ser postos em lista como x1, x2, x3.........xn. No caso finito, a lista
possui um valor final xn, e no caso infinito, a lista continua indefinidamente.
Em suma, uma Variável Aleatória (V.A) assume uma descrição numérica do resultado do
experimento ou observação. É a forma encontrada para se narrar o que acontece. Por exemplo,
em meteorologia a temperatura do ar (T °C) é uma variável aleatória, e os valores assumidos
por ela ao longo do dia são os valores diários da temperatura. Se a observação for feita de
hora em hora, então a variável temperatura pode ser assumida como uma variável aleatória
discreta e finita para um período específico. Exemplo, T diária do ar (ºC)= [t (0), t(1),
t(2)..................., t(24)]. Temperaturas diárias do ar de hora em hora; de zero a 24 horas. Note
que 0 hora é igual a 24 horas. Note que o tamanho do espaço amostral da variável aleatória
(V.A) temperatura diária é igual a 24 valores ou N=24. Note também que o universo de
possíveis valores assumidos pela V.A temperatura pode se muito grande quando o intervalo
entre as observações tender para zero. Se tivermos 30 anos de observação diária de
temperatura do ar, então o tamanho da amostra é igual a 30 anos x 365 dias=10.950 valores.
Nesse caso, pX (x) representa a função massa de probabilidades (FMP) e indica com que
probabilidade a variável X assume o valor do argumento x. Por outro lado, PX (x) denota a
função acumulada de probabilidades (FAP), ou função de distribuição de probabilidades, e
indica com que probabilidade a variável X é menor ou igual ao argumento x, ou seja,
❑
P X ( x )=P ( X ≤ x ) = ∑ P X ( x i ) . Uma função massa de probabilidades possui as seguintes
todos os x i ≤ x
propriedades:
ii) ∑ P X ( x )=1
todos x
Por outro lado, se a variável aleatória X pode assumir qualquer valor real, ela é do tipo
contínuo e, nesse caso, a função equivalente à FMP é denominada função densidade de
probabilidade (FDP). Essa função não negativa, aqui denotada por fX (x) e ilustrada na Figura
abaixo, representa o caso limite de um polígono de frequências para uma amostra de tamanho
infinito e, portanto, com as larguras dos intervalos de classe tendendo a zero. É importante
notar que f X ( x 0 ) não fornece a probabilidade de X para o argumento x0 e, sim, a intensidade
com que a probabilidade de não superação de x0 é alterada na vizinhança do argumento
indicado. A área entre dois limites a e b, no eixo dos argumentos da variável aleatória, dá a
probabilidade de X estar compreendida no intervalo, tal como ilustrado na Figura abaixo.
Portanto, para a FDP fX (x), é válida a equação:
b
P ( a< X ≤ b ) =∫ f X ( x ) dx
a
x
F X ( x ) =∫ f X ( x ) dx
−∞
Inversamente, a FDP correspondente pode ser obtida pela diferenciação de FX(x), ou seja,
d FX ( x )
F X ( x) =
dx
A FAP de uma variável aleatória contínua é uma função não decrescente, sendo válidas as
expressões F X ¿) = 0 e F X ¿) = 1.
As funções massa e densidade de probabilidades, assim como suas correspondentes FAP’s,
descrevem completamente o comportamento estatístico das variáveis aleatórias discretas e
contínuas, respectivamente. Em particular, a função densidade de probabilidade de uma
variável contínua X pode ter uma grande variedade de formas, algumas delas ilustradas na
Figura abaixo. Como requisito geral, para que se trate de uma densidade de probabilidades, a
função deve ser não negativa e o resultado de sua integração, ao longo de todo o domínio de
variação de X, deve ser igual a 1.
Uma Variável Aleatória X (V.A) que pode assumir qualquer valor numérico em um
determinado intervalo ou coleção de intervalos é chamada de variável aleatória contínua. Os
lançamentos de martelo, disco ou lança numa olimpíada, ocorrem dentro de uma faixa de
valores. No máximo 60 e no mínimo 30 metros de distância (distância mínima classificatória).
Ou seja, todos os lançamentos serão dentro desse intervalo, podendo assumir uma infinidade
de possibilidades, pois sempre existirá uma fração para medir. Neste caso X seria uma
variável aleatória (V.A) contínua que assume qualquer valor no intervalo maior ou igual a 30
metros e menor ou igual a 60 metros. Matematicamente esse espaço amostral é dado por: X =
{30 ≤ x ≤ 60} . Qualquer valor entre esse intervalo é um valor assumido pela V.A contínua X.
Note que se usa X (letra maiúscula para denotar uma V.A) e minúscula x para denotar os
possíveis valores assumidos por X. Assim, pode-se denotar a probabilidade de ocorrência de
precipitação (mm) em um local qualquer como: P(p=20 mm) = 0,3 ou 30% no caso discreto
ou P(10 ≤ p ≤ 15 mm) = 0,18 ou 18%, no caso contínuo (nota: mm=milímetros). A altura
diária máxima anual de precipitação, num local qualquer, é uma variável hidrológica contínua
porque o conjunto de seus resultados possíveis estará totalmente contido no subconjunto dos
números reais não negativos.
As variáveis hidrometeorológicas quantitativas ainda podem ser classificadas em
limitadas e ilimitadas. As primeiras são aquelas em que os resultados possíveis são limitados
superior e inferiormente, seja por condicionantes físicas, seja pelo modo como são medidas. A
direção do vento local, registrada em um anemômetro, será um ângulo compreendido entre 0
e 360º. Por outro lado, as variáveis ilimitadas não possuem limites inferior e superior
definidos. Embora a variável vazão média diária de um curso d’água não pode,
evidentemente, ter valores negativos, ela não estará limitada, pelo menos do ponto de vista
estatístico, a um limiar superior. Portanto, é uma variável hidrológica, quantitativa, contínua e
ilimitada.
Qualitativas ou Nominal Não existe Cor dos olhos, sexo, estado civil, tipo
Categóricas nenhuma sanguíneo, tipo de nuvem, tipo de
ordenação vegetação, tipo de solo.
Existe uma Nível de escolaridade, colocação de
Ordinal ordenação I, II, concurso, ordenação em um rol, série
III temporal.
Nesses dados, nota-se certa variação. Assim, os métodos estatísticos são fundamentais
para o estudo de situações em que a variabilidade é inerente. A Estatística Descritiva ajuda na
percepção, avaliação e quantificação da variabilidade em tabelas e gráficos obtidos a partir de
um conjunto de dados que sintetizem os valores, com o objetivo de se ter uma visão global e
clara da variação existente nos valores da variável precipitação.
5.2. Rol
58,0; 58,0; 59,5; 59,5; 59,5; 60,2; 60,2; 60,2; 60,2; 60,2;
62,5; 62,5; 62,5; 62,5; 62,5; 62,5; 65,0; 65,0; 65,0; 65,0;
65,0; 65,0; 65,0; 65,0; 65,0; 66,4; 66,4; 66,4; 66,4; 66,4;
66,4; 66,4; 66,4; 67,0; 67,0; 67,0; 67,0; 67,0; 67,0; 67,0;
68,3; 68,3; 68,3; 68,3; 68,3; 70,1; 70,1; 70,1; 71,9; 71,9.
A Tabela 3 mostra a estatística descritiva dos dados dos totais mensais precipitados (mm)
As medidas de tendência central são aquelas que produzem um valor em torno do qual os
dados observados se distribuem, e que visam sintetizar em um único número o conjunto de
dados. As medidas de tendência central são: média aritmética, mediana e moda.
6.1.1. Média
∑ xi (1)
i=1
X=
N
Exemplo: Estime a média da Temperatura média mensal (ºC) da cidade de Campina Grande –
PB no período de 1965 a 1966.
Portanto, o valor médio é igual a 27,8 ºC. A média aritmética possui algumas propriedades
desejáveis e não desejáveis, são elas:
Como a média é influenciada por valores extremos da distribuição, ela só deve ser
utilizada em distribuições simétricas, ou levemente assimétricas, e em distribuições não
heterogêneas. Sua aplicação em casos fora dessas recomendações acima é precária e de pouca
utilidade prática, pois perde a capacidade de representar a distribuição que a originou.
Também nos casos de série temporal em que o fenômeno tem uma evolução não linear.
Não se recomenda, também, à aplicação da média aritmética nas séries cujos valores
representem relações recíprocas, como por exemplo, velocidades, expressas através da relação
espaço e o tempo. Neste último caso, recomenda-se a utilização da média harmônica.
6.1.2 Mediana
Nesta série tem-se número par de observações logo, após ordenar o rol têm-se dois valores
centrais: 27,7 e 28,0 Logo, a mediana é 27,8 ºC. Suponha que no mesmo exemplo da Tabela 4
seja acrescentado o valor 31,0, tornando a amostra da Tabela 4 em um número ímpar de
valores, Neste caso, a amostra ordenada em rol crescente tem como mediana o valor central,
que é igual a 28,0 ºC.
Propriedades da mediana:
Diz-se que uma medida de centralidade ou de dispersão é robusta quando ela é pouco
afetada pela presença de observações discrepantes. Entre as medidas de centralidade, a média
é bem menos robusta do que a mediana. Por outro lado, entre as medidas de dispersão, o
desvio- padrão é bem menos robusto do que o desvio interquartílico.
6.1.3 Moda
A Moda de um conjunto de valores é aquele valor que ocorre com maior frequência, sua
aplicação não depende do nível de mensuração da variável, sendo aplicada tanto a fenômenos
qualitativos quanto a quantitativos. Se todos os valores de uma amostra de dados forem
diferentes não há moda, por outro lado, uma amostra de dados pode ter mais do que uma
moda. Pode ser bimodal, trimodal ou multimodal.
Exemplo: Para os dados da Tabela 4 existem quatro modas: 26,0 ºC três vezes, 28,4 ºC duas
vezes, 28,6 ºC duas vezes e 30,4 ºC duas vezes. A moda pode ser utilizada para descrever
dados qualitativos.
Exemplo: Determinar amplitude total dos dados da Tabela 4: ΔT = 31,0 – 24,1= 6,0 ºC. A
utilidade da amplitude total como medida de dispersão é muito limitada, pois depende apenas
dos valores extremos. A maior vantagem em usá-la é a simplicidade do seu cálculo.
d i =( x ¿¿ i−X ) ¿ (2)
Para qualquer conjunto de dados, a soma de todos os seus desvios é igual a zero, isto é:
N
d i =∑ ( x ¿¿ i−X )¿ (3)
i=1
Neste caso, considera-se o módulo de cada desvio |x 1− X|, para evitar que o Σdi = 0. Dessa
forma, o desvio médio (DM) de um conjunto de n valores é dado por:
∑| xi −X| (4)
DM = i=1
n
6.2.3. Variância
Embora o desvio médio seja uma medida melhor do que a Amplitude total, ainda não é
uma medida ideal, pois não discrimina os pequenos dos grandes afastamentos em relação à
média. Se para eliminar o problema dos sinais, ao invés de considerarmos os valores
absolutos elevarmos os afastamentos ao quadrado, estaremos não apenas eliminando o
problema dos sinais como também potencializando os afastamentos, enfatizando os grandes
desvios em relação às observações mais próximas da média. Como resultado define a medida
de variação conhecida como variância, dada por:
∑ ( x i− X )2 (5)
S2= i=1
n−1
Esta estatística isolada é de difícil interpretação por apresentar unidade de medida dos dados
elevada ao quadrado.
6.2.4. Desvio-padrão
Devido à dificuldade de interpretação da variância, por ter sua unidade de medida elevada ao
quadrado, na prática usa-se o desvio-padrão que é a raiz quadrada da variância, ou seja:
S= √ S (6)
2
S S (7)
X=
√n
Uma pergunta que pode surgir é se o valor de um desvio-padrão é grande ou pequeno. Essa
questão é relevante, por exemplo, na avaliação da precisão de métodos. Para um desvio-
padrão ser considerado grande ou pequeno dependerá da ordem de grandeza da variável. Por
exemplo, um desvio-padrão igual a 10 pode ser insignificante se a observação típica for igual
a 10.000, mas será um valor bastante significativo para um conjunto de dados cuja observação
típica é 100. O coeficiente de variação (CV) é uma medida relativa de dispersão e é utilizada
para comparar, em termos relativos, o grau de concentração em torno da média. Assim o CV é
dado por:
S
CV = (8)
X
Já os decis dividem um conjunto de dados em dez partes iguais, isto é, 10% por parte.
Já, os percentis permitem dividir o conjunto de dados em 100 partes, sendo e 1% em cada
parte.
k .n
L= (9)
100
6.4.1 Momentos
São medidas descritivas de caráter mais geral e dão origem às demais medidas descritivas,
como as de tendência central, dispersão, assimetria e curtose. Conforme a potência
considerada tem-se a ordem ou o grau do momento calculado.
α Mr
r= r
S
Assimetria
Quando não for possível o cálculo do desvio-padrão podemos estimar a assimetria pela
seguinte fórmula:
α M3
3= 3
S
6.5. Curtose
Para uma curva relativamente à Normal, o valor de C = 0,263. Assim, Se C = 0,263 a curva é
mesocúrtica, C < 0,263 a curva é leptocúrtica e C > 0,263 curva platicúrtica. O coeficiente
momento de curtose (α 4 ) também pode ser dado pelo momento abstrato de quarta ordem,
assim;
α M4
4= 4
S
O diagrama box plot consiste em um retângulo definido pelo primeiro e pelo terceiro
quartis, contendo a mediana em seu interior, tal como ilustrado na Figura 7, relativa às vazões
médias anuais do Rio Paraopeba em Ponte Nova do Paraopeba -MG. A partir do lado superior
do retângulo, traça-se uma linha até o ponto que não exceda (Q3+1,5AIQ), considerado limite
superior para identificar “ouliers”. De modo análogo, traça-se outra linha a partir do lado
inferior do retângulo até o limite dado por (Q1-1,5AIQ). As observações que estiverem acima
ou abaixo desses limites são identificadas no diagrama e consideradas “outliers” ou valores
atípicos. A amplitude interquartílica é representada por AIQ, é dada pela diferença entre Q3 e
Q1.
Figura 7 – Diagrama Box Plot para as vazões médias anuais do Rio Paraopeba, em Ponte
Nova do Paraopeba – Período 1938-1999.
É muito comum aparecerem entre os dados coletados, observações atípicas (outliers), isto
é, valores muito grande ou muito pequeno em relação aos demais. Um conjunto de dados
pode apresentar apenas um ou vários outliers. Observações atípicas alteram fortemente as
médias e variabilidade dos grupos a que pertencem e podem até mesmo distorcer as
conclusões obtidas através de uma análise estatística padrão. Portanto, é de fundamental
importância detectar e dar um tratamento adequado a eles. É sempre boa a prática de se fazer
uma inspeção dos dados no início da análise estatística. Técnicas descritivas de dados têm um
papel importante nesta fase.
Quando examinamos uma amostra para tirar conclusões sobre as características da população,
normalmente, essas características são do tipo característica numérica dessa população. Por
exemplo, um parâmetro é uma característica numérica da população. É um número fixo, mas
em geral, não se conhece o seu valor. Uma estatística é uma característica numérica da
amostra. O valor de uma estatística passa a ser conhecido logo que a amostra é efetivamente
retirada da população. No entanto, esse pode variar de amostra para amostra. A isto se chama
variação amostral.
Para uma dada tentativa de uma experiência aleatória, não se sabe qual o valor do
resultado no espaço amostral. No entanto, se repetirmos a experiência muitas vezes, é possível
estimar a frequência relativa desse resultado. Isto é, se repetirmos a experiência M vezes e o
resultado igual a ai ocorrer mi vezes, pode-se obter a probabilidade de ocorrência do valor ai,
dada por:
p
i=
mi (12)
M
A soma das frequências dos n resultados deve ser igual ao número total de tentativas da
experiência, isto é:
m1 + m2 + m3 + ... + mn = M
p1 + p2 + p3 + ... + pn = 1
ou seja, a soma das probabilidades associadas a cada resultado da experiência deve ser igual a
1. Se um resultado ai nunca pode ocorrer na experiência, em M tentativas, a sua probabilidade
é igual a 0. Diz-se, neste caso, que o resultado é impossível. Se, por sua vez, o resultado a i
ocorrer em todas as tentativas, a sua probabilidade é igual a:
p M (13)
i= =1
M
Assim, diz-se que o resultado é certo. Do exposto acima, pode-se enunciar as duas leis da
probabilidade:
1) 0 ≤ pi ≤ 1, para i = 1, 2, ..., n
n
2) ∑ pi =1
i=1
Dois exemplos que ilustram casos simples de resultados igualmente prováveis são:
No entanto, nem todos os casos são tão simples. O exemplo da inspeção de uma amostra de
dias com chuva (DCC) e dias sem chuva (DSC) em uma região semiárida poderá ter, muito
provavelmente, uma probabilidade muito maior para o resultado DSC=, do que para o
resultado DCC. O conceito de probabilidade torna-se mais complicado quando se trata de uma
variável em um espaço amostral contínuo, uma vez que não é possível definir um conjunto
finito de resultados. Existe, agora, um conjunto infinito de valores, de um modo contínuo,
normalmente com limites inferior dado por Xmín e superior dado por Xmáx, respectivamente.
Isto é: Xmín ≤ xi ≤ Xmáx. Em vez de se falar na probabilidade de um valor, tem-se, neste caso, a
probabilidade do resultado estar compreendido entre dois valores r ≤ xi ≤ s.
Para uma variável aleatória discreta X, que pode tomar os valores x1, x2, x3, ..., xn, as
probabilidades p(xi) ou f(xi) formam a distribuição das probabilidades de X. Como já foi dito
anteriormente. Essas probabilidades satisfazem as leis básicas de probabilidade:
0 ≤ f(xi) ≤ 1, i = 1, 2, ..., n
e
n
∑ f (x ¿¿ i)=1¿
i=1
(14)
(15)
Sendo f(t) a função de probabilidade. Quando X é uma variável aleatória contínua f(t) se
chama função densidade de probabilidade.
A função distribuição acumulada de uma variável aleatória contínua é definida por:
(16)
A função distribuição acumulada goza das seguintes propriedades:
1. F(−∞) = 0
2. F(∞) = 1
3. F(x) é uma função não decrescente, de x;
4. F(x) é uma função contínua à direita de cada valor de x.
Tabela 5 - vazões médias anuais (m3/s) do rio Paraopeba, em Ponte Nova do Paraopeba, para
o período 1938 a 1999.
Ano civil Vazões médias anuais Ano civil Vazões médias anuais
Tabela 6 – Frequências das vazões médias anuais (m3/s) do rio Paraopeba, em Ponte Nova do
Paraopeba, para o período 1938 a 1999.
Classe Intervalo de Frequência Frequência Relativa Frequência
Classe (m3/s) Absoluta fj frj Acumulada
F=∑ frj
j
1 (30 - 50] 3 0,0484 0,0484
2 (50 - 70] 15 0,2419 0,2903
3 (70 - 90] 21 0,3387 0,6290
4 (90 - 110] 12 0,1935 0,8226
5 (110 - 130] 7 0,1129 0,9355
6 (130 - 150] 3 0,0484 0,9839
7 (150 - 170] 1 0,0161 1
Total 62 1
Figura 8 – Histograma das vazões médias anuais do rio Paraopeba em Ponte Nova do
Paraopeba – Período 1938 a 1999
Figura 10 – Diagrama de frequências relativas acumuladas das vazões médias anuais do rio
Paraopeba em Ponte Nova do Paraopeba – Período 1938 a 1999
5.determina-se o número de observações que caem dentro de cada intervalo de classe (cálculo
das frequências de classes);
6. frequência relativa (frequência da classe (fi) dividida pela frequência total (N)), expressa
em decimais ou percentagem;
8. constrói-se o polígono de frequência (ligação dos pontos médios de cada classe, fazendo
compensação de áreas);
7.4.1. Média
A fórmula para a média de uma distribuição de frequências, onde x 1, x2, ..., xn são os pontos
médios das classes, ponderados pelas frequências correspondentes f1, f2, ..., fn é dada por:
X =∑
f i xi
i=1 (18)
n
∑ f i ( x i − X )2 (20)
2 i=1
S=
n−1
S= √ S
2
(21)
7.4.3. Mediana
7.4.4. Moda
(23)
i) Quartis
Os quartis dividem um conjunto de dados em quatro partes iguais. A fórmula para o cálculo
dos quartis de uma distribuição de frequência é dada por:
[ ]
i .∑ f i
−f ac −1
4 (24)
Qi=l i + ac
f iQ i
i. ∑ f i
Primeiro calcula-se com i = 1 e 3 para identificar a classe do quantil desejado. Por
4
exemplo, Q1= ¼ do somatório das frequências e Q3=3/4 do somatório das frequências. Note
que Q2 é igual à mediana. Na (24) li é o limite inferior da classe que contém o Q i requerido;
f ac−1 é a frequência anterior à classe que contém Q i e f iQi é a frequência da classe que contém
Qi.
b) Decis
Os decis dividem um conjunto de dados em dez partes iguais. A fórmula para o cálculo dos
decis de uma distribuição de frequência é dada por:
[ ]
i. ∑ f i
−f ac−1
10 (25)
Di=l i + ac
fiD i
i .∑ f i
Primeiro calcula-se com i = 1,2, 3, ...., 9 para identificar a classe do decil desejado.
10
Por exemplo, D1= 1/10 do somatório das frequências e D9=9/10 do somatório das frequências.
Na (25) li é o limite inferior da classe que contém o D i requerido; f ac−1 é a frequência anterior
à classe que contém Di e f iDi é a frequência da classe que contém Di.
c) Percentis
Os percentis dividem um conjunto de dados em cem partes iguais. A fórmula para o cálculo
dos percentis de uma distribuição de frequência é dada por:
[ ]
i .∑ f i
−f ac−1
100 (26)
Pi=l i + ac
f iP i
i .∑ f i
Primeiro calcula-se com i = 1,2, 3,...., 99 para identificar a classe do percentil
100
desejado. Por exemplo, P1= 1/100 do somatório das frequências e D 99=99/100 do somatório
das frequências. Na (26) li é o limite inferior da classe que contém o Pi requerido; f ac−1 é a
frequência anterior à classe que contém Pi e f iPi é a frequência da classe que contém Pi.
A mediana é o percentil de ordem 50, já que a mediana é um valor que divide o conjunto
de dados em duas partes iguais, ou seja, 50% dos dados ficam abaixo e 50% acima. Os
percentis de ordem 25, 50 e 75 são chamados, respectivamente primeiro, segundo e terceiro
quartis porque dividem a distribuição em 1/4, 1/2 e 3/4. São representados por Q1, Q2 e Q3 e,
evidentemente, Q2 é outra notação para a mediana. Enquanto que os decis D1, D2,...., D9 são os
valores que dividem o conjunto em dez partes iguais, que coincidem com os percentis P 10,
P20,,...,P90 , que também dividem os dados em grupos com 10% em cada um. Assim, a fórmula
do percentil sintetiza as expressões da mediana, dos quartis e dos decis.
1
T r= (27)
P(X ≥ x)
Na verdade a correta probabilidade da Figura 11 deve ser dada por P ( X ≥ x T )=1−F X (xT )
n! 0
R=P ( Y ≥ 1 )=1−P ( Y =0 )=1− p (1− p)n−o
0 ! ( n−0 ) !
n! 0
e p =1, assim;
0 ! ( n−0 ) !
n
R=1−(1− p) (29)
n
1
R=1−(1− ) (30)
Tr
Uma fórmula para a estimativa da posição de plotagem para o caso de valores máximos
deve especificar a frequência com que um, entre n valores ordenados de modo decrescente,
será igualado ou superado. A estimativa da posição de plotagem de dados hidrológicos requer
observações individuais independentes entre si e representativas da população. Gumbel
(1958) estabeleceu os seguintes critérios para definição das fórmulas para estimativa das
posições de plotagem:
i) A posição de plotagem deve ser tal que todas as observações possam ser plotadas;
ii) A posição de plotagem deve estar compreendida entre (i-1)/n e i/n , em que i
denota a ordem de classificação de uma amostra ordenada de tamanho n;
iii) No caso de séries anuais, o período de retorno de um valor maior ou igual à maior
observação (ou menor ou igual à menor observação) deve convergir para n,
quando o tamanho da amostra (n) for grande;
iv) As observações devem ser igualmente espaçadas na escala de frequências;
v) A posição de plotagem deve ser intuitiva, analiticamente simples e fácil de usar.
i−a
F i= (27)
n+1−2 a
Em que a é uma constante que pode ter diferentes valores em conformidade com as hipóteses
distributivas. Se a = 0, obtém-se a fórmula de Weibull; se a = 0,44, a fórmula de Gringorten;
se a=0,375, a fórmula de Blom; se a= 0,5, a fórmula de Hazen e se a=0,40, a fórmula de
Cunnane. De uma forma geral, as séries hidrológicas de valores máximos ou médios anuais
são ordenadas de forma decrescente, o que faz com que a posição de plotagem represente a
probabilidade da variável X ser maior ou igual a certo quantil x, ou seja, P ¿≥ x).
Entretanto, quando os valores de uma série são ordenados de forma crescente, como na
análise de valores mínimos anuais, a posição de plotagem denota a probabilidade de não-
excedência, isso é, a probabilidade da variável X ser menor ou igual a x, ou seja, P ¿ x).
lim ¿N →∞ P [ ¿θ−θ
^ |≤ ε ] =1 ¿ (28)
x N −x
P X ( x )= p (1− p) (29)
Distribuição Binomial
PY ( y ) =
N!
y ! ( N− y ) !
y
p (1− p) =( )
N−y N y
y
p (1− p)
N− y
(30)
y
PY ( y ) =∑
i=0
( Ni ) p (1− p)
i N −i
(31)
Exemplo - Na situação ilustrada pela Figura 16, suponha que N = 10 anos e que a
probabilidade da vazão Q0 ser superada em um ano qualquer é p = 0,25. Pergunta-se:
(a) qual é a probabilidade de que a vazão Q0 tenha sido superada exatamente 2 vezes em 10
anos? e;
(b) qual é a probabilidade de que a vazão Q0 tenha sido superada pelo menos 2 vezes em 10
anos?
10 ! 2 10−2
PY ( 2 ) = 0,25 (1−0,25) = 0,2816
2 ! ( 10−2 ) !
(b) A probabilidade de que a vazão Q0 tenha sido superada pelo menos 2 vezes em 10 anos é
igual à probabilidade de que o evento tenha ocorrido 2, 3, 4, ... , 10 vezes, em 10 anos, ou
seja, a soma dos resultados da função massa para todos esses argumentos. Entretanto, esse
cálculo é equivalente ao complemento, em relação a 1, da soma das probabilidades de que o
evento não tenha ocorrido ou que tenha ocorrido apenas 1 vez. Portanto:
OBS. A distribuição binomial tem pouca aplicação em climatologia porque essa função requer
que os eventos não sejam correlacionados. Em geral a condição de independência não é
satisfeita para dados meteorológicos.
Distribuição de Poisson
Os processos de Poisson estão entre os mais importantes processos estocásticos. Aqui eles são
abordados como um caso limite de um processo de Bernoulli que se desenvolve em uma
escala de tempo, embora possam ser aplicados ao longo de um comprimento, ou de uma área,
ou de um volume. Considere um intervalo de tempo de comprimento t, subdividido em N
subintervalos de comprimento t/N. Suponha que cada subintervalo seja suficientemente
pequeno para que a probabilidade de mais de uma ocorrência de um certo evento S, no tempo
t/N, seja considerada desprezível, quando comparada à probabilidade p de apenas uma única
ocorrência do evento S nesse intervalo. Considere ainda que a probabilidade p é constante
para cada um dos subintervalos. Finalmente, suponha que o número médio de ocorrências do
evento S, em um intervalo de tempo qualquer, seja proporcional ao comprimento de tal
intervalo e que a constante de proporcionalidade é dada por λ. Sob tais condições, é possível
escrever que p = λt/N. O número de ocorrências Y do evento S, em um tempo t, é igual ao
número de subintervalos, nos quais se registrou a ocorrência de S. Se considerarmos tais
subintervalos como uma sequência de N experimentos independentes de Bernoulli, pode-se
escrever:
( )( ) ( )
y N−y
λt λt
PY ( y)= N 1− (32)
y N N
Se, nessa expressão, fizermos p = λt/N suficiente pequeno e N suficiente grande, de modo que
Np = λt, é possível demonstrar que:
( )( ) ( ) ( λt) y − λt
y N− y
λt λt
lim ¿N →∞ N 1− = e ¿ (33)
y N N y!
para y=0,1, ....... e λt > 0
y i
PY ( y )=∑ ν e−ν (35)
i=0 i!
E [ Y ] =ν ou E [ X ]=¿ λt (36)
Depreende-se da dedução da distribuição de Poisson que ela pode ser usada como uma
aproximação da distribuição binomial, desde que N seja suficientemente grande e p
suficientemente pequeno. Na prática, é possível aproximar a binomial pela distribuição de
Poisson, com parâmetro ν= N.p, para valores de N > 20 e p < 0,1. Essa aproximação apresenta
a vantagem de não exigir a especificação de N; de fato, desde que a probabilidade de
“sucesso” p seja suficientemente pequena, basta prescrever o número médio de ocorrências
por intervalo de tempo. A exemplo da distribuição binomial, a propriedade aditiva também se
aplica à distribuição de Poisson, ou seja, se as variáveis Y1e Y2 seguem a distribuição de
Poisson, com seus respectivos parâmetros λ1 e λ2, então (Y1+Y2) também é uma variável de
Poisson com parâmetro λ1 + λ2.
Definição
Processo estocástico - é uma coleção de variáveis aleatórias que, em geral, são utilizadas para
estudar a evolução de fenômenos que são observados ao longo do tempo. O processo
estocástico utiliza diversas trajetórias possíveis para estudar a evolução de fenômenos.
OBS. A vantagem da distribuição de Poisson é que ela pode ser utilizada tanto em dados
correlacionados quanto em dados independentes.
( K + X −1 ) ! P
p ( X )= . (39)
X ! ( K −1 ) ! (1+ P) K + X
e a função massa de probabilidade é:
N
P ( X )= ∑ p( X) (40)
X =0
1 2
P= (S − X ) (41)
X
e
X2
K= 2 (42)
S −X
A estimativa de K pela equação (4) só é suficiente quando o critério de Fisher for atendido, ou
seja;
Caso contrário, ou seja, CF menor que 20, devemos estimar o parâmetro K pelo método de
máxima verossimilhança, pela solução iterativa da seguinte equação:
∑ K + X −N . ln ( 1+ KX )=0
A ( x)
(44)
( K + X −1 ) !
( )
X
1 P
p ( X )= . (45)
X ! ( K −1 ) ! (1+ P) 1+ P
K
Fazendo A=
1
(1+ P) K
e B= ( )
P
1+ P pode-se escrever:
( K + X −1 ) !
p ( X )= . A . B2 (46)
X ! ( K −1 ) !
Note que o terceiro termo produto da eq. (47) é igual a B. Para X=0 e tomando a eq. (45)
temos:
( K +0−1 ) !
( ) , o primeiro e o terceiro termos é igual a 1.
0
1 P
p ( X=0 )= .
0 ! ( K−1 ) ! (1+ P) 1+ P
K
1
Assim p ( X=0 )= A=
(1+ P)K
Para X > 1 utiliza-se equação de recorrência, eq. (47), ou seja;
p ( 1 )= p ( X=0 ) . ( K0+1+ 0 . B )
p ( 2 )= p ( 1 ) . (
2+1 )
K +1
. B , generalizando;
.
.
p ( n )= p ( n−1 ) .
( K( n−1)+ 1 )
+(n−1)
.B
CF= 1+ ( 1
0,2306 )
. ( 16,9615+2 )=101,18
Mesmo com o critério de Fisher satisfeito, vamos estimar o parâmetro K pelo método da
máxima verossimilhança (eq. (44)). Ver planilha Excel.
A (x i) A (x i) A (x i) A (x i)
¿ ¿ ¿ ¿
(xi) fi f ac A(x i ) K + xi ¿ K + xi ¿ K + xi ¿ K + xi ¿
0 3 3
1 9 12
2 13 25
3 24 49
4 21 70
5 10 80
6 10 90
7 6 96
8 2 98
9 1 99
10 2 101
11 1 102
102
Distribuição Binomial Negativa Truncada
Essa distribuição corresponde à binomial negativa sem a ocorrência zero. A binomial truncada
tem a seguinte forma:
W K ( K + X −1 ) !
p ( X )= . .(1−W )X (48)
1−W X ! ( K −1 ) !
K
X 1
W= (1−f 1 ) (49)
S
2
N
1
W X −f 1
N
K=
1−W
(50)
A probabilidade de que uma sequência de dias com chuva atinja a duração X dias é dada pela
eq.(48). Considerando X+1 dias a eq.(48) torna-se:
W
K
(K + X ) ! X +1
p ( X +1 )= . .(1−W )
1−W
K
( X +1) ! ( K−1 ) !
(52)
Tabela 9 – Dias com chuva na cidade de Piracicaba – SP, no período de 1917 a 1989.
p ( x i) f e =N . p( x i )
2 2
Eventos (xi) fi f i xi f i (xi −X ) teórica
1 161
2 86
3 47
4 19
5 14
6 7
7 3
8 1
9 0
10 1
Soma 339
K 1,3049
W 0,5277
p ( X=1 ) = . K (1−W ) = p ( X=1 ) = . 1,3049 (1−0,5277 ) =0,4731
(1−W )
K
( 1−0,52771,3049 )
Para X > 1 utiliza-se a equação de recorrência eq.(51):
p ( X +1 )= p ( X ) . ( KX++1X ).(1−W )
A estimativa de K também pode ser obtida pelo método de máxima verossimilhança e é dada
pelo seguinte método iterativo:
∅
K i+ 1=K i− ' (54)
∅
Em que,
( X
)( 1
)(
X − p1 1
)
N
∅=
X− p 1
1+ p 1 ln 1−
K K+X N
+ ∑ ( K + X −1 )−1 . A( x) (55)
k=1
( )
X X p1 X − p1 1 N
∅'= − 2
K (K + X ) K ( X −p 1)
ln 1−
K+X N
+ ∑ ( K + X −1 )−2 . A ( x) (56)
k=1
Distribuição Geométrica
X −1
p ( X )=(1−θ) (57)
O parâmetro varia entre 0 <θ<1 e sua estimativa é efetuada pelo método dos momentos, ou
seja:
1
θ=1− (58)
X
Distribuição Logarítmica
α θX
p ( X )= (59)
X
θ
X= (60)
(θ−1 ) ln (1−θ)
na eq.(60) é necessário utilizar o método iterativo e o erro de 10−5 . O valor inicial de θ varia
entre 0,0001 e 0,9999.
Após estimar o valor de θ pela eq. (60), o parâmetro alfa é estimado por:
α =−ln ( 1−θ
1
) (61)
Tabela 11 – Dias com chuva no mês de março na cidade de Pelotas – RS no período de 1895 a
1989.
Eventos (X) fi fe
1 258
2 123
3 37
4 14
5 9
6 5
7 2
8 1
9 1
Soma 450
Distribuição Uniforme
Uma vez que P ¿) = 1, e ρ está contido entre (b−a) é verificar que ρ=1/(b−a). Portanto, para
qualquer a ≤ x ≤ b, a função de probabilidades acumuladas da distribuição uniforme é dadas
por:
x−a
F ( x )= (63)
b−a
1
f ( x )= se a ≤ x ≤ b (64)
b−1
A média e a variância de uma variável aleatória uniforme são dadas, respectivamente, por:
a+ b
E [ X ]= (65)
2
2
( a−b)
E [ X ]= (66)
12
Quando o intervalo de definição da variável X e fixado em [0,1], a distribuição uniforme
encontra sua maior aplicação que e a de representar a distribuição de X =F( y), onde F ( y) ,
denota um modelo distributivo qualquer para a variável aleatória continua Y. Como
0 ≤[ F ( y )=P(Y ≤ y )]≤ 1 para qualquer distribuição de probabilidades, X =F( y) pode ser vista
como uma variável aleatória uniforme no intervalo [0,1]. Esse fato é utilizado para gerar
números aleatórios uniformes x, no intervalo [0,1], que podem ser empregados para obter
números y=F−1 ( y ), distribuídos de acordo com a distribuição F ( y) , desde que a inversa
dessa função exista e possa ser expressa analiticamente. A geração de números aleatórios
uniformes é essencial para a simulação de um grande numero de diferentes conjuntos de
valores de uma variável aleatória, distribuída de acordo com certa função densidade de
probabilidades, com o propósito de avaliar cenários estatisticamente similares aos observados.
Exemplo
Denote por X a temperatura mínima diária em certa localidade e suponha que X varie
uniformemente no intervalo de 16 a 22ºC. Pede-se: (a) calcular a média e a variância de X; (b)
a probabilidade de X superar 18ºC; e (c) dado que, em certo dia, a temperatura já superou a
marca de 18ºC, calcular a probabilidade de X superar 20ºC.
Solução: a) A média e a variância decorrem de aplicação direta das equações (65) e (66), com
a =16 e b = 22ºC. Portanto, E [X] = 19ºC e Var [X] = 3 (ºC)2.
18−16
b) P(X >18ºC) =1- P(X < 18ºC) =1- F (18) = 1 - =¿2/3. (eq. (63))
22−16
[ ( )]
2
1 −1 x−μ
f ( x )= exp para−∞< x< ∞ (67)
√2π σ 2 2 σ
[ ( )]
x 2
1 −1 x−μ
F ( x )= ∫ exp dx (68)
−∞ √2 π σ 2 2 σ
A Figura 20 ilustra a forma da distribuição Normal, para o caso em que μ=8 e σ =1.
[ ( )]
2
1 −1 x−μ
f ( x )= exp , para −∞ < x <∞ (72)
√ 2 πσ 2 σ
Figura 21– Efeitos da variação marginal dos parâmetros de posição e escala sobre X~N( μ , σ ¿ .
É possível provar que, se X~N( μ X , σ X ), a variável aleatória Y= aX + b, resultante de uma
combinação linear de X, também é normalmente distribuída com média μY =a μ X +b e desvio-
padrão σ Y =a σ X , ou, sinteticamente, que Y~N( μY =a μ X +b , σ Y =a σ X ). Essa propriedade da
distribuição Normal, conhecida como reprodutiva, pode ser estendida a qualquer combinação
linear de n variáveis aleatórias independentes e normalmente distribuída, Xi.
Com X i =1, 2 , 3 ,… , n ,cada qual com seus respectivos parâmetros μi e σ i.
A função acumulada de probabilidade (FAP) da distribuição Normal, dada pela equação (68),
não tem solução analítica. Com efeito, cada par de valores específicos dos parâmetros μ e σ
requer uma integração numérica específica para a obtenção da função F(x). Esse
x −μ
inconveniente pode ser superado a partir da transformação linear de Z= da variável
σ
x −μ 1 μ
Normal X, de parâmetros μ e σ . Tomando Z tem-se: Z= = x− =ax−b. (ver Figura
σ σ σ
22). Essa é a propriedade reprodutiva da distribuição Normal, para o caso particular em que
1 −μ
os coeficientes da transformação linear são a= e b= , é fácil demonstrar que Z~N
σ σ
(μ Z =0 , σ Z =1) . A variável Z recebe o nome de variável Normal reduzida e a distribuição de
probabilidades de Z é conhecida como distribuição Normal padrão, ou distribuição Normal
em forma canônica. As funções densidade e de probabilidades acumuladas de Z são dadas,
respectivamente, por:
f ( z )=
1
√2 π
exp [ ]
−Z 2
2
, para ∞< x <∞ (73)
[ ]
x
1 −Z 2
F ( z )=∅ ( z )= ∫ exp dz (74)
−∞ √2 π 2
Exemplo
Suponha que as vazões naturais médias anuais Q de um afluente do rio Amazonas sejam
normalmente distribuídas com media de 10.000 m3/s e desvio-padrão de 5000 m3/s. Calcule
(a) P(Q < 5000) e (b) a vazão média anual de período de retorno T = 50 anos.
Solução: a) a probabilidade P(Q < 5000) pode ser obtida por: a P{z < [(5000-10000) /
5000]}= -1, ou seja a∅ (−1). A tabela da Normal fornece a∅ (−1) = 0,1587. (b) A definição de
período de retorno pode ser aqui empregada, de modo idêntico ao usado para valores
máximos anuais, ou seja, T = 1/P(Q ≥ q). Como T = 50 anos, P(Q≥ q) = 1/50 = 0,02 e,
portanto, Na tabela da Normal esse valor corresponde a z = 2,05. Logo, a vazão q para T = 50
anos corresponde ao quantil q=μq + zσ q = 10000 + 2,05 × 5000 = 20250 m3/s.
O exame da tabela da Normal pode ser visto que 68,26% da área da função densidade da
distribuição Normal esta compreendida entre os limites de um desvio-padrão abaixo e acima
da média, assim [ μ−σ , μ+σ ]. Do mesmo modo 95,44% da área corresponde ao intervalo [
μ−2 σ , μ+2 σ ], enquanto 99,74% está compreendida pela área da função densidade entre os
limites de [ μ−3 σ , μ+3 σ ]. Embora uma variável aleatória Normal seja definida entre - ∞ e +
∞ , a infima probabilidade de 0,0013 de um valor inferior a ( μ−3 σ ), demonstra a
aplicabilidade dessa distribuição à variáveis hidroclimatológicas não negativas, tais como
precipitações e vazões. De fato, se μ X > 3 σ X , a chance de se obter um valor de X negativo e
desprezível. (Figura 23).
∅ ( z ) ≅ 1−f ¿ (75)
√[ ]
m= ln
1
(1−∅ )
2
Foi visto que a variável discreta binomial, representada por X e com parâmetro p, resulta da
soma de n variáveis discretas de Bernoulli. Como consequência do teorema do limite central,
se n for suficientemente grande, é possível aproximar a distribuição Binomial por uma
distribuição Normal. Lembrando que a média e a variância da variável binomial X são,
respectivamente, iguais a np e np(1-p), pode ser verificado que a variável definida por:
tende a ser distribuída conforme uma N(0,1), quando n tende para infinito. A convergência é
mais rápida para valores de p em torno de 0,5; para valores de p próximos de 0 ou 1, maiores
valores de n serão necessários. Analogamente, pode-se aproximar uma variável de Poisson X,
de média e variância iguais a ν, pela variável Normal padrão:
quando ν > 5. Note, entretanto, que ao aproximar uma função massa de probabilidade (FMP)
de uma variável discreta por uma função densidade de probabilidade de uma variável
contínua, deve-se proceder a correção de continuidade. De fato, no caso discreto, quando X =
x, a FMP e uma linha ou um ponto; a linha ou a ordenada do ponto deve ser aproximada, no
caso contínuo, pela área da função acumulada de probabilidade (FAP), entre (x-0,5) e (x+0,5).
Suponha que certa variável contínua X resulte da ação multiplicativa de um grande número de
componentes aleatórios independentes Xi (i = 1, 2,...,n), ou seja que X= X1, X2, ... Xn. Nesse
caso, a variável Y = ln (Xi), tal que Y = ln (X1) + ln (X2) + ... + ln (Xn), em decorrência do
teorema do limite central, irá tender a uma variável Normal, com parâmetros μY e σ Y , quando
n for suficientemente grande para permitir a convergência. Sob tais condições, diz-se que a
variável X segue uma distribuição Log-Normal, com parâmetros μlnX e σ lnX, indicando-se
sinteticamente que X~LN ( μlnX e σ lnX ). A função densidade de uma variável log-normal X e
dada por:
f ( x )=
1
x σ lnX √ 2 π
exp
{ (
−1 lnX −μ lnX
2 σ lnX )} para x >0 (76)
O calculo de probabilidades e de funções inversas pode ser efetuado tal como demonstrado
para a FAP da distribuição Normal, tomando-se Y = ln(X) como variável e, em seguida, X =
exp(Y) para os quantis correspondentes. A Figura 24 exemplifica a variação da forma da
densidade Log-Normal para alguns valores específicos de μlnX e σ lnX.
Figura 24 - Exemplos de funções densidades de probabilidade Log-Normal
Dividindo a equação da variância por μ2X e, em seguida, extraindo a raiz quadrada, obtém-se a
seguinte expressão para o coeficiente de variação de uma variável log-normal:
(77)
O coeficiente de assimetria da distribuição log-normal é dado por:
Como CVX > 0, resulta que a distribuição log-normal é sempre assimetricamente positiva, com
coeficiente de assimetria proporcional ao coeficiente de variação.
Exemplo Log-Normal
Solução:
c) Pelo fato da variável transformada Y= ln(X) ter como padrão de variação a distribuição
Normal, ou seja, uma distribuição simétrica com a coincidência das medidas centrais
em um único ponto, a mediana de Y e igual a média de Y, ou seja ymd = 6,366617. Como
X passou pelo logaritmo neperiano, toma-se a função inversa do logaritmo: xmd =
exp(ymd). Portanto, a mediana das alturas pluviométricas trimestrais é xmd = exp(ymd) =
exp(6,366617) = 582,0 mm.
1 (78)
f ( x )=
¿¿
∞
F ( x )=∫ λ e−λx =1−e−λx (80)
0
1
f ( X )= γ
X γ −1 e−X / β
Γ ( γ )β (81)
Γ ( X )=
√ 2 π X [ Ln( X )−f ( X ) ]
X
e
(82)
em que,
1 1 1
f ( X )=1− + −
12 X 360 X 1260 X 6
2 4
(83)
Parâmetros da Gama:
X̄ =γβ −média ( 84 )
S 2 =γβ 2 −var iância ( 85 )
2
CA= −coeficiente de assimetria ( 86 )
√ γ
Note que βeγ podem ser obtidos pelas equações (84) e (85).
1
γ^ =
4A
1+ 1+[ √
4A
3 ] e, ( 87 )
^ X̄ / γ^
β= ( 88 )
Em que
A=Ln { X̄− X̄ g ¿
N N
1 1
X̄ = ∑ f i . xi e X̄ g = ∑ Ln( x i ). f i
N i=1 N i=1 é a média geométrica, ou ainda por:
2
0 , 5000876+0 , 1648852 Z−0 , 054427 Z
γ^ =
Z (89)
Em que
Z=Ln { X̄− X̄ g ¿ , para 0≤Z≤0,5772
e;
x
1
γ∫
F( X )= X γ−1 e− X / β dx
Γ ( γ )β 0 (90)
A Figura 25 apresenta os gráficos da função densidade Gama para os conjuntos de valores dos
parâmetros de forma γ e de escala β. Note nessa figura que a função do parâmetro β é a de
comprimir ou estender a densidade para a esquerda ou para a direita, por meio do
escalonamento dos valores de X. Por outro lado, a grande diversidade de formas da densidade
Gama é garantida pela variação do parâmetro γ. Como ilustrado na Figura 25, à medida que γ
decresce, a densidade da Gama torna-se cada vez mais positivamente assimétrica. Para γ =1, a
densidade intercepta o eixo vertical no ponto 1/ β e configura o caso particular em que a
distribuição Gama torna-se a distribuição exponencial, com parâmetro β. Para valores
crescentes do parâmetro de forma γ, a função densidade Gama torna-se menos assimétrica,
com o seu valor modal deslocando-se cada vez mais para a direita. Para valores muito
elevados de γ, a distribuição Gama aproxima-se da forma de uma distribuição Normal. Note
que o parâmetro de forma γ é um numero adimensional. A versatilidade de formas, o
coeficiente de assimetria variável e positivo, aliados ao fato da variável aleatória não ser
definida para valores negativos fazem da distribuição Gama um modelo probabilístico muito
atraente para a representação de variáveis hidroclimatológicas. A distribuição Gama pode ser
bem sucedida quando aplicada a alturas de precipitação pluvial de durações diárias, semanais,
mensais e anuais; também poderá modelar vazões médias anuais.
Figura 26 - Exemplos de funções densidades de probabilidade da distribuição Gama
F(t )=
tγ
γ . Γ (γ ). et[1 +
t1
+
t2
+
t3
γ +1 ( γ +1 ) ( γ+2 ) ( γ+1 ) ( γ +2 ) ( γ+3 )
+. .. . .. .. . .
] (91)
Desse modo, a P[X≤t]=F(t), ou seja a probabilidade de ocorrer um valor X≤t é dada pela
equação (91).
3) estime o valor de
A=Ln { X̄− X̄ g ¿
A função acumulada de probabilidade de X pode ser expressa pelo quociente entre a função
Gama incompleta e a função Gama completa, assim:
ᴦ i (ξ , Υ )
F ( x )=
ᴦ (Υ )
esse quociente pode ser aproximado pela distribuição Normal padrão ∅ (u), calculada no
ponto, definido por:
∅ ( u )=3 √ Υ .
2
(√ Υξ −1+ 91γ )
3
(92)
Exemplo da Gama
Distribuição Beta
A distribuição Beta e um modelo probabilístico para uma variável aleatória contínua X, cujos
valores possíveis são limitados superior e inferiormente. Na forma da distribuição Beta
padronizada, a variável X é definida no intervalo [0,1]. Nesse caso, a função densidade Beta é
expressa por:
1 α−1 β −1
f ( x )= x (1−x ) , para 0 ≤ x ≤1 , α e β> 0 (93)
B (α , β )
em que α e β são parâmetros e B ( α , β ) representa a função Beta completa e é dada por:
1
Г (α ) Г (β)
B ( α , β )=∫ t
α−1 β −1
(1−t) dt = (94)
0 Г (α + β)
x
1 Bi (x , α , β )
F ( x )= ∫
B ( α , β) 0
α −1 β −1
x (1−x ) dx=
B (α , β )
(95)
Em que, Bi (x , α , β ) denota a função beta incompleta. Quando α =1, a equação (95) pode ser
resolvida analiticamente. Entretanto, para α ≠ 1, o cálculo de probabilidades da distribuição
Beta exige aproximações numéricas da função Bi ( x , α , β ) . Os dois parâmetros α e β
determinam a forma da distribuição. Se β >1 a distribuição é unimodal; com α e β <1 a
distribuição assume a forma de U; quando α <1 e β ≥ 1 a distribuição assume a forma de J
invertido; com α ≥ 1 e β <1 a forma da distribuição é a do J e quando α =β a distribuição é
simétrica. A distribuição Uniforme é um caso particular da distribuição Beta, quando α =β=1
. A média e a variância de uma variável aleatória Beta são dadas, respectivamente, por:
α
E [ X ]= (96)
α+ β
αβ
VAR [ X ] = 2 (97)
(α+ β ) (α+ β+1)
A função Beta é flexível e toma diferentes formas, dependendo dos valores dos parâmetros.
Se a variável X for restrita a um intervalo {a, b} então ela poderá ser representada por uma
distribuição Beta, após passar pela transformação:
(x¿¿ i−a)
Y= +0,0001 ¿ (98)
(b−a)
Em que a e b são os limites inferior e superior da amostra, respectivamente. Assim, a
integração numérica da F(x) pode ser dada por:
x α −1 β−1 x k α −1 β−1
x (1−x) x .x .(1−x)
F ( x )=∫ dx=∫ dx (99)
0 B (α , β ) 0 B (α , β )
e
x
B ( α , β )=∫ x
α −1 β−1
(1−x) dx (100)
0
para 0< x <1 ou 0,0001< x <0,9999. As estimativas dos parâmetros são dadas por:
Y 2 (1−Y )
α^ = 2
−Y (101)
SY
[
F ( x )=exp −exp
α )]
( −x−β (103)
para−∞ < y <+ ∞;−∞< β <+∞ e α >0, em que α e β são os parâmetros de escala e posição,
respectivamente. A função densidade de probabilidade de Gumbel é:
1
f ( x )= exp
α [
−x−β
α
−exp
α(
−x−β
)] (104)
[
y ( T r )=β −α . ln −ln 1−
( 1
Tr )] (109)
F ( y )=exp −exp
[ ( −x i−β
α )] (111)
y (T r )=−ln [−ln 1−
( 1
Tr
]
) (118)
x i (T r )=α −β . ln [−ln 1−
( 1
Tr
]
) (119)
ou
x i ( T r ) =α −β .Y , com Y =ln [−ln 1−
1
Tr
]
( ) (120)
xi −α i
=−ln [ −ln ( 1−P ) ] , como a frequência de Kimball é dada por : F= ≅ P , temos:
β n+1
1
β
α
xi − =−ln −ln 1−
β
i
n+ 1 [ ( 1 α
, fazendo a= e b= tem-se:
β β )]
a x i−b=−ln −ln 1−
[ ( i
n+ 1 )]
, X =( x 1 , x 2 , x3 , x 4 , … … . x n ,) e
[ (
Y =−ln −ln 1−
i
n+1 )] 1
, assim Y =aX−b , com β = e α =b . β
a
Os valores de a e b podem ser determinados pelo método dos mínimos quadrados (MMQ).
Pelo uso da eq.(119) ou eq.(120) pode-se determinar a magnitude de qualquer evento x i em
função do período de retorno (Tr).
i
A frequência de Kimball é dada por: F= é uma das frequências empíricas que deve
n+1
se aproximar da frequência teórica P da distribuição de Gumbel, se se verificar o ajuste da
i
função aos dados da amostra. Assim; se F= ≅ P então;
n+1
(∑ )∑
n n
^β= X - xi . . e
−x i/ β
/ e−x i/β
i=1 i=1
e,
(∑ )
n
α^ =− β^. log
−x i/β
e /n
i=1
O valor inicial de ^β pode ser calculado pelo método dos momentos: ^β=S . √ 6 / π .
A relação entre y T e QT pode ser dada por:
r r
X T −X +0,45. S X
yT = r
(121)
r
0,7797. S X
518
496 Tr
483 2 0,5 -0,6931 0,69315 - 0,3665 319,6
409 2,33 0,5708 -0,5607 0,5607 - 0,5786 334,7
398 5 0,8 -0,2231 0,22314 - 1,4999 400,8
394 10 0,9 -0,1054 0,10536 - 2,2503 454,5
350 20 0,95 -0,0513 0,05129 - 2,9702 506,1
335 25 0,96 -0,0408 0,04082 - 3,1985 522,4
331 30 0,96667 -0,0339 0,0339 - 3,3842 535,7
323 50 0,98 -0,0202 0,0202 - 3,9019 572,8
320 100 0,99 -0,0101 0,01005 - 4,6001 622,9
311 200 0,995 -0,005 0,00501 - 5,2958 672,7
304 300 0,99667 -0,0033 0,00334 - 5,7021 701,8
296 500 0,998 -0,002 0,002 - 6,2136 738,4
284 1000 0,999 -0,001 0,001 - 6,9072 788,1
248
246 800.0
242
750.0
221
700.0
184
Vazões máximas (m3/s)
650.0
600.0
550.0
500.0
450.0
400.0
350.0
300.0
0 100 200 300 400 500 600 700 800 900 1000
Período de retorno Tr
Ordem (i) Q(m3/s) F= i/N+1 Ln (i/N+1) Ln(-Ln(i/N+1)) F'(x) Tr (anos)
1 518 0,0476 -3,0445 1,1133 0,2800 21,00
2 496 0,0952 -2,3514 0,8550 0,3464 10,50
3 483 0,1429 -1,9459 0,6657 0,4018 7,00
4 409 0,1905 -1,6582 0,5057 0,4529 5,25
5 398 0,2381 -1,4351 0,3612 0,5018 4,20
6 394 0,2857 -1,2528 0,2254 0,5499 3,50
7 350 0,3333 -1,0986 0,0940 0,5976 3,00
8 335 0,3810 -0,9651 -0,0355 0,6452 2,63
9 331 0,4286 -0,8473 -0,1657 0,6928 2,33
10 323 0,4762 -0,7419 -0,2985 0,7402 2,10
11 320 0,5238 -0,6466 -0,4360 0,7870 1,91
12 311 0,5714 -0,5596 -0,5805 0,8325 1,75
13 304 0,6190 -0,4796 -0,7349 0,8757 1,62
14 296 0,6667 -0,4055 -0,9027 0,9151 1,50
15 284 0,7143 -0,3365 -1,0892 0,9488 1,40
16 248 0,7619 -0,2719 -1,3022 0,9747 1,31
17 246 0,8095 -0,2113 -1,5544 0,9912 1,24
18 242 0,8571 -0,1542 -1,8698 0,9985 1,17
19 221 0,9048 -0,1001 -2,3018 1,0000 1,11
600
Vazões máximas (m3/s)
500
f(x) = 79.3821144112613 x + 376.21063132461
400 R² = 0.887313541554612
300
200
100
0
-3.5000-3.0000-2.5000-2.0000-1.5000-1.0000-0.5000 0.0000 0.5000 1.0000 1.5000
Variável reduzida
Probabildade empírica - F=i/N+1
1.000
0.900
f(x) = 0.842714916907809 x + 0.305244269579914
R² = 0.966730128027414
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0.000
0.0000 0.2000 0.4000 0.6000 0.8000 1.0000
Probabilidade teórica - F'(x)
Distribuição de Weibull
{[ ]}
α
( )
(α−1)
α x−μ ( x−μ)
f ( x )= .exp − (122)
β β β
Para x ≥ μ ; α , β >0
em que,
α – é o parâmetro de forma
μ– é o parâmetro de locação
β−¿ é o parâmetro de escala
( )( ) [ ( )]
(α −1) α
α x x
f ( x )= . . exp − (123)
β β β
para x , α e β >0
[ ( )]
α
x
F ( x )=P [ X ≤ x ] =1−exp − (124)
β
para x , β ≥0 e α > 0
O valor esperado e a variância de uma variável de Weibull são dados, respectivamente, por:
( )
E [ X ] =βГ 1+
1
α
(125)
2
VAR [ X ] =β Г 1+
[ ( α2 )−Г (1+ 1α )]
2
(126)
CV =
√ ( 2α )−Г (1+ α1 ) = √ B ( α )− A (α )
Г 1+ 2
2
(127)
Г (1+ )
1 A (α )
α
γ=
( α3 )−3 Г (1+ 2α ) . Г (1+ α1 )+ 2 Г (1+ 1α )
Г 1+
3
[ ]
1
1 α
X ( T r ) =β −ln (1− ) (130)
Tr
A frequência empírica de Kimball é dada por F=i /n+1 , substituindo−ana eq.(124) tem-se:
[ ( )] [ ( )]
α α
i x i x
F= =1−exp − =1− =exp − (131)
n+1 β n+ 1 β
( ) ()
α
i x
ln 1− =− (132)
n+1 β
[ (
−ln −ln 1−
i
n+ 1)] [ (
=α ln ( x )−α ln ( β) ; fazendo Y= −ln −ln 1−
i
n+ 1
, )]
α =a; ln ( x )= X e αln ( β )=b pode-se escrever: Y =aX +b
Procedimento Prático:
Alguns estados brasileiros adotam como vazão de referência, para a outorga de direito de uso
da água, a vazão média mínima anual de 7 dias de duração e de período de retorno de 10 anos,
representada por Q7,10 ; para um dado ano de registros fluviométricos, o valor de Q7 anual
corresponde a menor média de sete vazões consecutivas ocorridas naquele período. Suponha
que as Q7 anuais sejam denotadas pela variável aleatória Z e que, em um dado local, E[z] =
28,47 m3/s e σ(z) = 7,5956 m3/s. Calcule a vazão Q7,10 pelo modelo de Weibull.
4,2301. Com A(α) = 0,9093 na equação (125), tem-se E [ X ] =βГ 1+ ( 1α ) ∴ β=E [ X ] /Г (1+ 1α )
= E [ X ] / A ( α ) =31,3153. Com os dois parâmetros na eq. (130) obtêm-se:
[ ] [ ]
1 1
1 1 3
X ( T r ) =β −ln (1− ) α =X ( 10 )=31,3153 − ln (1− ) 4,2301
=18,4 m /s. Assim, conclui-se
Tr 10
(133)
para −∞ < x < ∞ e −∞ < y < ∞ . As probabilidades conjuntas P(X< x, Y< y) são dadas pela
integração dupla da função densidade da distribuição Normal bivariada e requerem métodos
numéricos para sua avaliação. Alguns programas de computador que implementam rotinas de
integração dupla da densidade Normal bivariada estão disponíveis na Internet para download.
A URL http://stat-athens.aueb.gr/~karlis/morematerial.html oferece uma lista de tópicos
relacionados à distribuição Normal bivariada e disponibiliza para download o programa
Bivar1b.exe, elaborado pelo Instituto Nacional de Saúde Ocupacional da Dinamarca, o qual
executa o calculo da FAP conjunta das variáveis X e Y. A Figura 29 ilustra a função densidade
Normal bivariada para três diferentes valores do coeficiente de correlação. Observe que,
quando as variáveis X e Y são independentes, o volume da função densidade se distribui
simetricamente e de modo mais disperso em torno da origem das variáveis. À medida que a
dependência linear entre as variáveis cresce os pares (x, y) e suas respectivas probabilidades
de não excedência concentram-se ao longo da projeção da reta de dependência, no plano xy.
As distribuições marginais são as respectivas distribuições normais univariadas de X e Y. Por
outro lado, as distribuições condicionais são obtidas por:
f (x , y )
f ( x| y )= (134)
f ( y)
Figura 29 – Exemplos de funções densidades conjuntas da distribuição Normal bivariada
7.10 – Estimativa por Intervalos
P ( I ≤θ ≤ S )=1−α (135)
( σX/−μ
√N ) (
N ( 0,1 ) . Logo, pode-se escrever que P 1,96<
X−μ
σ /√N )
<1,96 =0,95.
Ou, ( X−1,96
√N )
σ σ
< μ< X +1,96 =0,95. Essa expressão deve ser interpretada do
√N
Se uma amostra especifica produzir os limites [i, s], esses valores serão realizações das
variáveis I e S, e, pelo exposto, terão uma chance de 95% de conter μ. Note que 1,96 é um
valor obtido na Tabela da N(0,1). Como o intervalo é construído com base em
± o desvio−padrão , o valor de α =¿ 0,05, é contabilizado à esquerda e as direita da média μ,
portanto α =α /2=0,025. Assim, 1- 0,025 = 0,9750. Com esse valor na Tabela da N(0,1)
encontra-se Z=1,96.
Testes de Hipóteses
i) Formule a hipótese H0 a ser testada e a denomine de hipótese nula. Por exemplo, nos
últimos trinta anos, houve alteração da vazão média anual μ1 em certa seção fluvial, quando
comparada a média μ0, do período anterior. Se a hipótese nula for verdadeira, qualquer
diferença entre as médias populacionais μ1 e μ0 é devida meramente a flutuações das amostras
extraídas de uma única população. A hipótese nula é expressa por H0: μ1 - μ0 = 0.
ii) Formule a hipótese alternativa e denote-a por H1. De acordo com o exemplo da etapa
anterior, a hipótese alternativa, e contraria à H0, e expressa por H1: μ1 - μ0 ≠ 0.
iii) Especifique uma estatística de teste T, que esteja de acordo com as hipóteses nula e
alternativa, anteriormente formuladas. No exemplo em foco, a estatística de teste deve ter
como base a diferença T =X 1 −X 0, entre as médias observadas nos períodos correspondentes
às médias populacionais a serem testadas.
vi) Verifique se a estatística de teste T^ , estimada a partir das observações amostrais, está
dentro ou fora dos limites estabelecidos para a região de rejeição R. No exemplo, se < T0,025,
ou se > T0,975, a hipótese nula H0 deve ser rejeitada; nesse caso, interpreta-se que a diferença μ1
- μ0 é significativa, ao nível α = 0,05. Caso contrario, se estiver dentro dos limites [T0,025,
T0,975], a decisão é a de não rejeitar a hipótese H 0, implicando que não há diferença
significativa entre as médias populacionais μ1 e μ0 .
O exemplo citado refere-se diferenças positivas ou negativas entre μ1 e μ0 , o que implica que
a região crítica R estende-se pelas duas caudas da distribuição de amostragem da estatística de
teste T. Nesse caso, diz-se que o teste e bilateral. Se a hipótese nula tivesse sido formulada de
modo diferente, tal como H0: μ1>0 ou H0: μ1<0, o teste seria unilateral porque a região crítica
se estenderia apenas por uma das caudas da distribuição de amostragem da estatística do teste,
como pode ser visto na Figura 31.
Foram descritos alguns testes de hipóteses referentes aos parâmetros de certa população ou
referentes a atributos necessários a uma amostra aleatória simples. Outra classe importante de
testes de hipóteses refere-se à verificação da forma de uma distribuição de probabilidades.
Essa classe é constituída pelos testes de aderência, por meio dos quais, verifica-se a eventual
adequação entre as probabilidades ou frequências, tal como calculadas por um certo modelo
distributivo hipotético, e as correspondentes frequências com que, determinados valores
amostrais são observados. Os testes de aderência permitem, por exemplo, verificar se uma
variável aleatória discreta segue uma distribuição de Poisson ou se uma variável aleatória
contínua é distribuída segundo um modelo de Gumbel.
k 2
(f i −Ei)
χ =∑
2
=11,3510
i=1 Ei
(136)
em que,
f i – frequência absoluta observada (empírica);
Ei =n p i– frequência esperada ou calculada (teórica);
pi – probabilidade da função densidade ou de massa postulada;
n – tamanho da amostra;
k – número de classes ou valores observados de eventos Xi.
Uso da Eq.(136):
Se χ2 < χ2Tabelado não há razão para rejeitar a hipótese básica de ajuste ao nível de significância
α e υ = r-1-m graus de liberdade.
r – número de classes
m – número de parâmetros
Assim, se χ2 < χ2 1-α se aceita o ajuste dos dados à função densidade ou de massa de
probabilidade postulada.
Considere que uma ETA recebe água bruta de um manancial de superfície, captada por uma
tomada d’agua simples, instalada em determinada cota. Suponha que a variável aleatória
discreta X represente o número anual de dias em que o nível d’agua, medido na estação
fluviométrica local, é inferior a cota da tomada d’agua de projeto. Com base em 50 anos de
observações, determinou-se a distribuição empírica das frequências de X, dada pela Tabela 13.
Use o método dos momentos para ajustar uma distribuição de Poisson à variável X, calcule as
frequências esperadas por esse modelo e teste sua aderência aos dados empíricos, use um
nível de significância α = 0,05.
Tabela 13 - Número anual de dias em que o nível d’agua é inferior a cota da tomada d’agua de
projeto.
xi 0 1 2 3 4 5 6 7 8 9
f(xi) 0,0 3,0 9,0 10,0 13,0 6,0 4,5 3,0 1,5 0,0
x
ν −ν
Solução: A função massa de Poisson é p(x) = e , Para x=1, 2, 3...., e ν > 0, com valor
x!
esperado E[X]= ν. A média amostral pode ser calculada pela ponderação de x por suas
frequências observadas e resulta em X =¿ 3,86. Portanto, pelo método dos momentos, a
estimativa do parâmetro ν é igual a 3,86. A coluna 4 representa as frequências teóricas
estimadas pela função massa de probabilidades de Poisson e os valores Ei, coluna 5 da
Tabela 14 representam as frequências esperadas.
Tabela 14 – Frequências esperadas ou calculadas (Ei) e empíricas (fi)
Xi fi fi*Xi f(xi) Ei=f(xi)*50 (fi-Ei)^2 (fi-Ei)^2/Ei
(1) (2) (3) (4) (5) (6) (7)
0 0 0 0,02107 1,0534 1,1097 1,0534
1 3 3 0,08132 4,0661 1,1366 0,2795
2 9 18 0,15695 7,8476 1,3280 0,1692
3 10 30 0,20195 10,0973 0,0095 0,0009
4 13 52 0,19488 9,7439 10,6024 1,0881
5 6 30 0,15045 7,5223 2,3173 0,3081
6 4,5 27 0,09679 4,8393 0,1151 0,0238
7 3 21 0,05337 2,6685 0,1099 0,0412
8 1,5 12 0,02575 1,2876 0,0451 0,0350
9 0 0 0,01104 0,5522 0,3050 0,5522
50 193 49,68 3,5515
Média 3,86
Considere as vazões médias anuais do rio Paraopeba em Ponte Nova do Paraopeba, listadas na
Tabela 15, e faça um teste de aderência da distribuição Normal a esses dados, por meio do
teste do χ2, a um nível de significância α = 0,05.
Solução: No caso de variáveis aleatórias contínuas, as partições do espaço amostral são feitas
por meio da divisão em classes, com o cálculo das frequências observadas e esperadas, dentro
dos limites dos intervalos de classe.
Tabela 15 – Frequências esperadas e empíricas
Ei=f(x)*6
Classes Intervalo fi 2 (fi-Ei) (fi-Ei)^2/Ei
Solução: A terceira coluna da Tabela 16 apresenta as vazões médias anuais (m3/s) do rio
Paraopeba, em Ponte Nova do Paraopeba, classificadas em ordem crescente. As frequências
empíricas correspondentes às vazões classificadas podem ser calculadas pela frequência de
Kimball. As frequências teóricas correspondentes à distribuição Normal podem ser calculadas
pela Normal (0,1). Os parâmetros populacionais, supostamente representados pelos valores
amostrais são iguais a X =89,97m3/s e S=23,05 m3/s. A Figura 32 apresenta o gráfico das
frequências empíricas e teóricas, versus as vazões médias anuais classificadas em ordem
crescente. Na Tabela 16, está indicada a máxima diferença absoluta entre as frequências
empíricas e teóricas, calculada pela Eq.(137) e o valor é igual a D calc
56 =0,0875 . Consultando a
Tabela do K.S., para α = 0,05 e α =010 (teste unilateral) e N=56 obtemos os seguintes valores
críticos: D(56, 0,05) = 0,1817 e D(56, 0,10) = 0,1630. Esses valores definem o limite inferior
calc
da região de rejeição da hipótese nula Ho. Como D 56 < D56 ,0,05 < D 56 ,0,10 a decisão é a de não
rejeitar a hipótese Ho de que o comportamento probabilístico da variável aleatória em questão
possa ser modelado pela N(0 ,1).
Tabela 16 – Teste do K.S. para as vazões médias anuais (m3/s) do rio Paraopeba, em Ponte
Nova do Paraopeba, ajustadas à N(0, 1)
Ano Ordem (i) Vazão Crescente F=i/n+1 - Variável F'(x) - Teste
(m3/s) Empírica reduzida (Z) Teórica K.S
1944 1 57,3 0,0175 -1,42 0,0778 0,0603
1945 2 59,9 0,0351 -1,30 0,0968 0,0617
1946 3 60,6 0,0526 -1,27 0,102 0,0494
1947 4 61,2 0,0702 -1,25 0,1056 0,0354
1948 5 62,6 0,0877 -1,19 0,117 0,0293
1949 6 63,6 0,1053 -1,14 0,1271 0,0218
1950 7 64,2 0,1228 -1,12 0,1314 0,0086
1951 8 66,8 0,1404 -1,01 0,1562 0,0158
1952 9 67,2 0,1579 -0,99 0,1611 0,0032
1953 10 68,2 0,1754 -0,94 0,1736 0,0018
1954 11 68,7 0,1930 -0,92 0,1788 0,0142
1955 12 69,3 0,2105 -0,90 0,1841 0,0264
1956 13 71,6 0,2281 -0,80 0,2119 0,0162
1957 14 72 0,2456 -0,78 0,2177 0,0279
1958 15 72,4 0,2632 -0,76 0,2236 0,0396
1959 16 74,8 0,2807 -0,66 0,2546 0,0261
1960 17 76,4 0,2982 -0,59 0,2776 0,0206
1961 18 77,6 0,3158 -0,54 0,2946 0,0212
1962 19 78 0,3333 -0,52 0,3015 0,0318
1963 20 78,9 0,3509 -0,48 0,3156 0,0353
1964 21 79 0,3684 -0,48 0,3156 0,0528
1965 22 80,2 0,3860 -0,42 0,3372 0,0488
1966 23 80,9 0,4035 -0,39 0,3483 0,0552
1967 24 81,1 0,4211 -0,38 0,352 0,0691
1968 25 82,2 0,4386 -0,34 0,3669 0,0717
1969 26 83,2 0,4561 -0,29 0,3859 0,0702
1970 27 83,8 0,4737 -0,27 0,3936 0,0801
1971 28 85,1 0,4912 -0,21 0,4168 0,0744
1972 29 87,4 0,5088 -0,11 0,4562 0,0526
1973 30 87,6 0,5263 -0,10 0,4602 0,0661
1974 31 88,1 0,5439 -0,08 0,4681 0,0758
1975 32 89,2 0,5614 -0,03 0,488 0,0734
1976 33 89,8 0,5789 -0,01 0,496 0,0829
1977 34 92,7 0,5965 0,12 0,5478 0,0487
1978 35 93,9 0,6140 0,17 0,5675 0,0465
1979 36 96,3 0,6316 0,27 0,6064 0,0252
1980 37 97,3 0,6491 0,32 0,6255 0,0236
1981 38 97,8 0,6667 0,34 0,6331 0,0336
1982 39 97,9 0,6842 0,34 0,6331 0,0511
1983 40 98 0,7018 0,35 0,6368 0,0650
1984 41 99,1 0,7193 0,40 0,6554 0,0639
1985 42 100,2 0,7368 0,44 0,67 0,0668
1986 43 100,7 0,7544 0,47 0,6808 0,0736
1987 44 101 0,7719 0,48 0,6844 0,0875
1988 45 104,3 0,7895 0,62 0,7324 0,0571
1989 46 110,4 0,8070 0,89 0,8133 0,0063
1990 47 110,8 0,8246 0,90 0,8159 0,0087
1991 48 112,2 0,8421 0,96 0,8315 0,0106
1992 49 114,9 0,8596 1,08 0,8599 0,0003
1993 50 117,1 0,8772 1,18 0,881 0,0038
1994 51 118,4 0,8947 1,23 0,8907 0,0040
1995 52 122,8 0,9123 1,42 0,9222 0,0099
1996 53 133,4 0,9298 1,88 0,9699 0,0401
1997 54 141,7 0,9474 2,24 0,9875 0,0401
1998 55 141,8 0,9649 2,25 0,9878 0,0229
1999 56 166,9 0,9825 3,34 0,9996 0,0171
1.0000
0.9000
Frequências emp. e teórica
0.8000
0.7000
0.6000
0.5000
0.4000
0.3000
F=i/n+1 -
Empírica
0.2000 F'(x) - Teórica
0.1000
0.0000
50 70 90 110 130 150 170
Vazões médias anuais (m3/s)
4.00
2.00
1.00
0.00
-1.00
-2.00
40 60 80 100 120 140 160 180
Vazões média anuais (m3/s)