Apostila de Métodos Estatísticos em Climatologia

Fazer download em docx, pdf ou txt
Fazer download em docx, pdf ou txt
Você está na página 1de 121

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE – UFCG

CENTRO DE TECNOLOGIA E RECURSOS NATURAIS – CCT


UNIDADE ACADÊMICA DE CIÊNCIAS ATMOSFÉRICAS –
UACA
Av. Aprígio Veloso, 882 - Bodocongó - Campina Grande - PB
CEP: 58.109.970 - Fone: (083) 21011201
Fax: (083)21011202 - e-mail: meteoro@ufcg.edu.br

CURSO DE GRADUAÇÃO EM METEOROLOGIA

APOSTILA DE MÉTODOS ESTATÍSTICOS EM


CLIMATOLOGIA

Professor: Francisco de Assis Salviano de Sousa

Campina Grande
Abril 2017
Capítulo 1. Fundamentos da climatologia

1.1. Tempo e clima

A meteorologia é ciência que estuda os fenômenos que ocorrem na atmosfera terrestre. O


tempo atmosférico se define como o estado em que se encontra a atmosfera em determinado
lugar e momento. Assim, pode-se dizer, por exemplo, que o tempo está frio ou quente, seco
ou úmido, chuvoso ou sem chuva, com vento ou calmo.

A climatologia é a ciência que estuda o clima de um determinado lugar ou região. O


estudo do clima é baseado em dados meteorológicos. O clima de um lugar é o tempo que faz
normalmente nesse lugar ao longo dos meses e dos anos. A Organização Meteorológica
Mundial (O.M.M.), na Conferência de Varsóvia – Polônia em 1935 definiu como clima as
condições meteorológicas médias para os meses e anos, calculadas em um período de 30 anos.
Pode ser definido, também, como o estado médio da atmosfera em um determinado período
para uma dada região. Este período deve ser igual ou superior a 30 anos. Essa média é
chamada de Normal Climatológica (NC) e descreve a variabilidade estacional, porém com
valores estáticos para cada mês, descrevendo assim o clima do local.

Quando dizemos, por exemplo, que o clima de uma região tem invernos frios e secos, nos
referimos ao que ocorre normalmente nessa região durante o inverno. Porém, isto não implica
que em algum dia do inverno não haja uma temperatura agradável ou que a atmosfera não
tenha um alto grau de umidade.

O tempo meteorológico, geralmente, não tem efeitos sobre o solo ou relevo, por não se
tratar de eventos extraordinários, enquanto que o clima é um fator determinante tanto na
modelação da paisagem quanto na formação do solo e do desenvolvimento da vegetação. O
tempo e clima são resultado da atuação da:

- Radiação solar
- Atmosfera
- Forma e movimentos da Terra
- Das características da superfície terrestre

O estudo do clima é muito importante para se conhecer e analisar sua influência sobre a
produção vegetal. A capacidade produtiva de um cultivar depende basicamente de sua
constituição genética (vigor e produtividade), de seu estado sanitário. É importante, também,
que o cultivar esteja totalmente condicionado a possibilidades de adaptação a um determinado
tipo climático. Todos os elementos do clima ou parte deles podem favorecer ou limitar a
exploração de um cultivar, fazendo-o rentável ou não.

As condições meteorológicas são determinadas a partir de variáveis que caracterizam sua


condição física. Essas variáveis são chamadas de elementos meteorológicos, são elas:
temperatura do ar, umidade relativa do ar, velocidade e direção do vento, precipitação,
pluvial, pressão atmosférica, radiação solar, evaporação etc. Estes elementos, por sua vez, são
condicionados pelos fatores climáticos, como por exemplo, latitude, relevo, continentalidade,
oceanidade e vegetação. As variáveis meteorológicas variam de acordo com a época do ano e
a variação diária desses elementos depende de fatores meteorológicos que atuam em cada um
desses dias.

1.2. Escala temporal dos fatores meteorológicos

O movimento de rotação da Terra em torno de seu próprio eixo faz com que qualquer
local da superfície terrestre experimente uma variação diária em suas condições
meteorológicas, especialmente na radiação solar e na temperatura do ar. Isso gera a escala
diária de variação das condições meteorológicas. Quanto mais árido for o clima do local
maior será a variação diária dos elementos meteorológicos.
Outra escala de variação das condições meteorológicas é a anual, que se deve à posição
Terra-Sol e, gera as estações do ano ou sazonalidade. Aa região equatorial, devido à constante
insolação, as estações do ano apresentam poucas diferenças. Não são bem caracterizadas.
Quando se deseja realizar estudos sobre as mudanças do clima é preciso utilizar-se de
escalas decadal, secular, milenar etc., haja vista que essas mudanças só são detectadas em
longos períodos de observação.

1.3. Escala espacial dos fatores meteorológicos

O movimento aparente do Sol em relação à superfície da Terra origina também uma


variação espacial tanto da disponibilidade de radiação solar quanto do fotoperíodo (representa
o comprimento de um dia e consiste na duração do período de luz de um determinado lugar,
função da latitude e da estação do ano).

1.4. Macroclima

São climas que ocorrem em escala regional ou geográfica e caracteriza o clima de uma
região. É a escala usada para se estudar as mudanças que podem ocorrer no clima de uma
região. Nesse estudo podem ser considerados permanentes: a latitude, a altitude, o relevo, a
continentalidade, etc. E variáveis: as correntes oceânicas, os centros semipermanentes de alta
e baixa pressão, massas de ar, composição atmosférica, etc.

1.5. Latitude

Quanto maior a latitude, isto é, quanto mais nos afastarmos do Equador, menor será a
incidência de radiação solar e, por conseguinte, menor será a média térmica local. Isto ocorre
porque os raios solares não conseguem incidir de forma perpendicular às regiões
extratropicais.
A Tabela 1 mostra a influência da latitude para quatro cidades brasileiras com mesma
altitude.
Tabela 1. Variação da temperatura do ar com a latitude
Cidade Latitude Temperatura média anual
Belém - PA 1°28’S 25,9°C
Salvador - BA 12°25’S 25,5°C
Vitória - ES 20°19’S 24,4°C
Porto Alegre - 31°01’S 20,1°C
RS
Fonte: Anuário estatístico do Brasil, 1995.

1.6. Altitude

O aumento da altitude reduz a temperatura do ar. Isso ocorre devido à rarefação do ar e a


redução da pressão do ar atmosférico, portanto, quanto maior a altitude tanto menor será a
temperatura do ar, ou seja, mesmo estando na mesma latitude, uma cidade localizada a 900
metros acima do nível médio do mar, terá 5ºC a menos do que uma outra cidade localizada ao
nível médio do mar. A temperatura do ar diminui 1º C a cada 180 metros de altitude.
Esse fenômeno ocorre porque a troposfera se aquece através da irradiação (liberação
gradual do calor absorvido pelo contato contínuo da superfície terrestre com os raios solares).
À medida que altitude aumenta menos intensa é essa irradiação e menor é a temperatura.

Figura 1. Variação climática devido à altitude (Monte Kilimanjaro-África)


Fonte: www.twip.org.

1.7 Relevo

O relevo está associado à altitude, tem influência na circulação das massas de ar,
principalmente na circulação secundária.

1.8. Vegetação
Impede a incidência direta dos raios solares na superfície, amenizando o aquecimento. Por
isso, com o desmatamento há diminuição de chuvas, visto que a umidade do ar diminui, e
consequentemente há aumento da temperatura do ar na região.
1.9. Continentalidade e oceanidade

Esse termo se refere à proximidade ou distância de grandes massas de água até um ponto
de referência no interior do continente. A continentalidade ocorre em locais situados no
interior dos continentes, portanto sem sofrer efeito dos oceanos. Nessa condição, as
amplitudes térmicas são maiores, tanto em termos diários quanto em termos anuais.
A Oceanidade é o efeito do oceano sobre o clima de uma região litorânea. A água do
oceano atua como um moderador térmico, ou seja, não permite que grandes variações de
temperatura ocorram. Isso se dá pelo fato da água ter maior calor específico do que o ar,
resfriando-se e aquecendo-se mais lentamente. A massa de água ao trocar calor com o ar faz
com que haja uma atenuação tanto do aquecimento do ar quanto de seu resfriamento,

reduzindo assim a amplitude térmica (


T máx≈T mín ). Em grande escala, ocorre o poder
moderador dos oceanos: as amplitudes térmicas (verão – inverno) são maiores no HN (menor
massa de água) e menores do HS (maior massa de água).

1.10. Correntes oceânicas

A movimentação contínua das águas oceânicas em função de diferenças de densidade,


causadas por diferença de temperatura, salinidade e pela rotação da Terra, gera correntes que
se movem de maneira organizada, mantendo suas características físicas, diferentes das águas
adjacentes. As correntes que circulam dos Pólos para o Equador são frias e as que circulam
do Equador para os Pólos são quentes. A atmosfera em contato com essas massas de água
entram em equilíbrio térmico com a superfície. Por isso, as correntes têm grande efeito sobre
os regimes térmico e pluvial na faixa litorânea dos continentes.

1.11. Centros semipermanentes de alta e baixa pressão

A circulação geral da atmosfera gera os ventos predominantes, que por sua vez são
responsáveis pela formação das zonas de convergência intertropical (ZCIT) e extratropical
(ZCET), e também dos anticiclones semipermanentes nas latitudes de cavalo. Na ZCIT os
ventos alísios de SE (HS) e de NE (HN) se encontram formando áreas de baixa pressão (B),
que mostram a posição do Equador Térmico, o que favorece a formação de nuvens e chuvas.
Na ZCET a convergência dos ventos de W e de E forma as frentes frias, que posteriormente
se deslocam em direção ao Equador provocando chuvas. Já nas latitudes de cavalos ocorre
subsidência de ar, formando as altas pressões (A) que inibem os movimentos convectivos e
consequentemente, desfavorecem a formação de nuvens e chuvas.

Figura 2. Centros semipermanentes de alta e baixa pressão. Fonte: Sentelhas (2005)

1.12. Massas de ar

São porções gasosas com temperatura e pressão definidas que circulam na troposfera.
No conceito da climatologia moderna é considerado o principal fator do clima. De acordo
com esse conceito os climas se organizam em decorrência dos movimentos das massas de ar.
A massa polar atlântica (Pa) é a que mais influencia na organização climática do Brasil. No
inverno ela ganha força e se desloca para o continente. Na região Sul provoca geada; na
região Sudeste, chuvas orográficas (Serra do Mar); no litoral nordestino chuvas frontais. No
sul da região Norte, essa massa chega enfraquecida, porém pode provocar queda brusca de
temperatura, denominada de friagem. Na região Centro Oeste provoca ondas de frio.

1.13. Mesoclima

Refere-se ao clima local, aqui o relevo é o principal condicionante desse clima. O tipo de
topografia local e o tempo de exposição da superfície à radiação solar determina o tipo
climático.

1.14. Configuração e exposição do terreno

Planaltos e baixadas favorecem o acúmulo de ar frio, criando mesoclimas diferentes


daquele de meia-encostas e espigões. As plantações susceptíveis às geadas devem ser
cultivadas em áreas livres da concentração de ar frio. No HS os terrenos com faces voltadas
para o Norte são, em média, mais ensolarados, secos e quentes do que àqueles com faces
voltadas para o Sul. Nos terrenos com faces voltadas para o Sul, as temperaturas do ar são
menores e a umidade do ar são maiores. Nessas condições, esses tipos se terrenos apresentam
maiores riscos de ocorrência de geadas.

1.15. Microclima

São fatores que modificam o clima em microescala, devido ao tipo de cobertura do terreno
ou prática agrícola. A alteração do microclima pode realizada pelo homem. Quando
determinada cultura não esta apta ao macroclima da região, a alteração do microclima pode
ser efetuada artificialmente. Exemplos disso são os ambientes protegidos (estufas, telados,
etc.) que tem por finalidade reduzir a incidência de radiação solar sobre as culturas, elevar as
temperaturas ou evitar a ação da chuva nas plantas. Apesar dos aspectos favoráveis, a
alteração do microclima, se não for bem controlada, pode produzir efeitos desfavoráveis,
como é o que ocorre quando se adensa demasiadamente as culturas ou se irriga com muita
frequência.

2.0. Variabilidade dos elementos climáticos

O conhecimento do clima passado é importante para quantificar a natureza das mudanças


do clima observando nos dias atuais. A detecção da mudança climática é um processo que
demonstra que o clima tem mudado baseado em algum método estatístico sem, entretanto,
discutir as causas desta mudança. A atribuição de justificativas da mudança climática é o
processo que estabelece a mais provável causa da mudança detectada com um determinado
nível de confiança. Sendo assim, para que se possa avaliar se as mudanças climáticas são de
origem antrópica, três ações devem ser seguidas: (a) mostrar que o clima tem sido alterado;
(b) demonstrar que a mudança detectada é consistente com as simulações numéricas que
mostram que o sinal das mudanças no clima é uma resposta à forçante antropogênica; e (c)
verificar que a mudança detectável não está associada à variabilidade natural do sistema
climático terrestre. Tanto a atribuição quanto à detecção dependem diretamente de dados
observacionais e modelagem numérica.
De modo geral, é consenso atualmente que mudanças climáticas na temperatura e na
chuva têm um impacto direto e significativo na humanidade, cujas variações frequentemente
resultam em repercussões socioeconômicas, ambientais e políticas.

2.1. Variação diária da temperatura do ar

A Figura 3 apresenta as curvas típicas de radiação líquida e de temperatura do ar


relacionadas com a energia calorífica que entra e sai em uma localidade de latitude média (40
- 45º) com o nascer e pôr do sol às 06h00 e 18h00, respectivamente. Na Figura, a radiação
líquida à superfície mostra a diferença entre a energia radiante que chega (solar) e a energia
radiante que sai (terrestre). Quando existe excedente, a radiação solar é maior do que a
terrestre, nesse caso, a curva adquire valores positivos. Nesta situação, a superfície terrestre
aumenta sua temperatura e aumenta indiretamente a temperatura do ar. Quando há déficit, a
radiação terrestre é superior a solar, a terra enfria progressivamente e o ar reduzirá
indiretamente sua temperatura.

Figura 3. Curvas típicas da radiação líquida e da temperatura do ar

A curva da radiação líquida total tende a ser simétrica com relação ao meio-dia (máximo)
e aproximadamente horizontal nas horas mais escuras do dia. O início do excedente de
radiação ocorre próximo às 07h00 e finda às 17h00, aproximadamente. A curva típica de
temperatura diária do ar é simétrica. O ponto mínimo é próximo do nascer do sol, à medida
que ocorre o excedente de radiação a temperatura do ar vai aumentando e alcança seu valor
máximo próximo das 14h00. Depois começa a diminuir. A defasagem entre o valor máximo
de insolação e da temperatura do ar deve-se a natureza das matérias, ou seja, solo e ar. O solo
aquece primeiro para depois aquecer o ar. A hora de ocorrência da temperatura mínima do ar
varia com o solistício e o equinócio, mas a hora de ocorrência da temperatura máxima do ar
permanece praticamente constante.

2.2. Variação anual da temperatura

Em latitudes intertropicais as temperaturas máximas são registradas nos equinócios e as


mínimas nos solistícios. As oscilações entre as máximas e as mínimas são muito reduzidas.
Esses valores são influenciados pela nebulosidade e pelo regime de precipitação. As
temperaturas são afetadas pelo ritmo diário, estações do ano (devido à insolação recebida),
por fatores como continentalidade, latitude e altitude. Todas essas variações de temperatura
estão submetidas ao efeito de amortização da superfície terrestre, de maneira que nenhuma
zona da terra se esfria ou aquece demasiadamente. Existe uma uniformidade térmica global,
tanto para o nível médio de energia calorífica do sistema em seu conjunto (14ºC) quanto para
cada ponto geográfico. Esse efeito de amortização se realiza pela circulação geral da
atmosfera ao transferir calor através das massas de ar, pelos oceanos através das massas de
água das correntes marinhas.

2.3. Variação da pressão com a altura

A pressão atmosférica diminui à mediada que aumenta a altitude por duas razões: 1) as
camadas de baixas pressões na atmosfera são mais densas do que as camadas de altas pressões
(ar mais rarefeito); 2) ao aumentar a altitude, reduz-se o peso da coluna de ar sobre as
camadas da atmosfera mais baixas. Até os 100 metros de altura, o decréscimo é de 1,0 mb/8
metros de altitude. À medida que se ascende na atmosfera se reduz o decréscimo de pressão.
Acima de 50 km de altura quase não há mais ar.

2.4. Variação geográfica da pressão atmosférica

O aquecimento e resfriamento não uniforme da atmosfera terrestre faz com que a


distribuição horizontal da pressão barométrica também seja irregular. Os valores da pressão
atmosférica são: 1013 mb (normal); 982 a 1013 mb (baixa) e 1013 a 1040 mb (altas). A
persistência de pressões altas determina clima seco e pressões baixas determina clima úmido.
2.5. Origem do vento

A superfície terrestre se aquece por radiação solar; esta radiação não é recebida com a
mesma intensidade em todas as zonas do planeta, por isso é que se origina um aquecimento
desigual dessas áreas. O ar das camadas atmosféricas mais baixas se aquece pela proximidade
da superfície terrestre. O ar mais aquecido se dilata, torna-se menos denso e reduz sua pressão
atmosférica. Por outro lado, o ar menos quente se dilata menos é mais denso e aumenta a
pressão atmosférica. Em consequência, esse aquecimento desigual da superfície terrestre é
que origina as distintas pressões na atmosfera, gerando o movimento do ar (vento) na direção
das altas para as baixas pressões. Se as isóbaras estiverem muito juntas, o gradiente é grande e
a diferença de pressão entre dois pontos próximos é elevada, assim se originam ventos fortes.
Caso contrário, se as isóbaras estiverem muito separadas, o gradiente é pequeno, assim se
originam ventos fracos. Portanto, o vento é um deslocamento do ar provocado pela diferença
de pressão de um local em relação a outro.

2.6. Origem dos índices de umidade

A umidade atmosférica faz referência à quantidade de vapor d’água contido na atmosfera.


Ocupa um pequeno volume desta (menos de 2% do total), porém é a componente mais
importante do ponto de vista climático. Com esta variável inicia-se o estudo do ciclo
hidrológico caracterizado por suas três fases: evaporação, condensação e precipitação. A
entrada de vapor d’água no ar atmosférico se realiza através dos processos de evaporação das
águas superficiais, da água dos solos e da transpiração das plantas. A saída ocorre através das
precipitações pluviais e sólidas. Chama-se umidade absoluta a quantidade de vapor d’água
contida em um volume de ar (g/m3). Por umidade relativa é dada pelo quociente entre a
quantidade de vapor d’água contido na atmosfera e a máxima que poderia conter (%). Essa
medida refere-se a uma temperatura, já que a redução da temperatura, ainda que não se
adicione vapor d’água, se traduzirá em aumento da umidade relativa, haja vista que diminuirá
a capacidade da atmosfera conter vapor d’água. Poe sua vez, todo aumento de temperatura se
traduzirá em redução de umidade relativa por aumentar a capacidade de a atmosfera absorver
vapor d’água.

2.7. Processo de formação da precipitação e seus tipos

Ao esfriar-se a massa de ar se eleva devido aos processos de condensação ou


congelamento e que darão lugar ao surgimento de gotas de água ou de pequenos cristais de
gelo; as gotas irão crescendo e quando alcancem o tamanho suficiente cairão dando lugar a
precipitação. As precipitações se classificam em ciclônicas, orográficas e convectivas. As
precipitações podem ser líquidas ou sólidas. A frequência da chuva é expressa pelo número de
dias com chuva no ano. Esta variável pode estabelecer grandes diferenças climáticas entre
zonas que recebem pluviometria parecida. A distribuição estacional das chuvas é também um
fator importante para estabelecer diferenças climáticas. Os climas mediterrâneos se
caracterizam pela escassez de chuvas na estação quente; os climas oceânicos por sua
distribuição ao longo de todo o ano. Outro fator característico de chuvas é sua intensidade
(mm) – ou quantidade de água caída por unidade de tempo. Este fator influi sobre a erosão
produzida e sobre a porcentagem de chuva efetiva que penetra no solo. Os fatores que influem
a frequência e intensidade das precipitações são os seguintes: proximidade do mar, relevo,
vegetação e altitude.

3.0. Sistema de coleta e armazenamento de dados

3.1. Definição de Sistema de Informações:

i) Conjunto integrado de partes que se articulam para uma finalidade comum;


ii) Sistema de coleta, tratamento, armazenamento e recuperação de informações;
iii) Característica fundamental do sistema de informações: capacidade de reunir um
número amplo de registros, armazená-los, recuperá-los e transformá-los em
informações.

3.2. Áreas que compõem o Sistema de Sistema de Informações:

i) Sistema de aquisição, armazenamento e processamento de informações;


ii) Redes de monitoramento e análise de dados;
iii) Regionalização de dados;
iv) Sistema de informações geográficas;
v) Sensoriamento remoto.

3.3. Importância de um Sistema de Sistema de Informações:


i) Estratégico para o gerenciamento dos recursos hídricos e previsões do tempo e
climática;
ii) Base para o desenvolvimento de projetos em vários segmentos da economia;
iii) Base para a elaboração de planos de recursos hídricos em bacias hidrográficas;
iv) Suporte para a operação de sistemas de recursos hídricos que envolvam múltiplos
usos, sistemas de alerta, operação de reservatórios, etc.;
v) Suporte à análise dos pedidos e deferimento de outorgas.

3.4. Princípios de funcionamento de um Sistema de Sistema de Informações:

i) Descentralização na obtenção e na produção de dados e informações


ii) Coordenação unificada do sistema;
iii) Garantia de acesso às informações para toda a sociedade.

3.5. Tipos de dados

i) Uso da água (demandas) - problemas de distribuição, macro e micromedição;


ii) Disponibilidade – precipitação, vazão, meteorológico, água subterrânea;
iii) Socioeconômico - distribuição populacional, indicadores educacionais, saúde
pública
iv) Qualidade da água;
v) Sedimentometria;
vi) Geográficos – coordenadas, limites geográficos, relevo;
vii) Meio ambiente – vegetação, solo;
viii) Documentais / Gerenciais

3.6. Características desejáveis de um Sistema de Sistema de Informações:

i) Facilidade de uso - acesso fácil às informações;


ii) Robustez - abrange vários tipos de dados e permite relacionamentos entre eles;
iii) Agilidade - informações acessadas rapidamente, inclusive pela internet;
iv) Fácil atualização - usar mecanismos que facilite a alimentação (de preferência pela
internet);
v) Versatilidade - dispor de instrumentos automáticos de busca e análise para
possibilitar cruzamentos de informações e elaboração de estatísticas e permitir
relacionamentos entre banco de dados.

3.7. Coleta de dados

Para o estudo e análise das condições atmosféricas é necessário se realizar observações


sistemáticas de suas características. Para tanto, se utilizam Estações Meteorológicas de
superfície e de ar superior. Neste curso, também serão utilizado dados de bacias hidrográficas
como, por exemplo, vazão, nível de água no leito de rio, para a análise e estimativa de cheias.

3.8. Armazenamento dos dados

O grande diferencial de um sistema automatizado de dados é a possibilidade de armazenar


muitos dados de diferentes sensores, para possibilitar posterior analise de dados coletados. No
entanto, essa coleta precisa ser armazenada em um local, de modo seguro e de fácil acesso,
possibilitando assim uma análise fidedigna, de uma determinada variável física. O
armazenamento de dados pode ser feito de diversas formas utilizando-se disquetes, “hard
disk” (HD), “compact disc” (CD), “digital vídeo disc” (DVD), fita magnética entre outras.
No entanto, fatores como a confiabilidade e tamanho são importantes para um fácil acesso
aos dados armazenados, dinamizando o processo. A tecnologia de memória “flash” evoluiu e
tornou-se a mídia de armazenamento preferida para uma variedade de dispositivos de
consumo e industriais. Atualmente um dos tipos de memória “flash” mais difundido é o
dispositivo com conexão USB, conhecido como “pen-drive”. A vantagem do armazenamento
em memória “flash” com conexão via USB é que a leitura e gravação é mais rápida é mais
resistente à impactos e consome menos energia do que o atual HD.

3.9. Onde obter dados hidrometeorológico e climático?

INMET - Instituto Nacional de Meteorologia - www.inmet.gov.br;

ANA – Agência Nacional de Águas - www.ana.gov.br

AESA – Agência Executiva de Gestão das Águas do Estado da Paraíba -


www.aesa.pb.gov.br/

CPTEC/INPE - Centro de Previsão de Tempo e Estudos Climáticos - www.cptec.inpe.br/


1.
Embrapa - Portal Embrapa - https://www.embrapa.br/

4.0. Estatística

Desde a antiguidade vários povos já registravam o número de habitantes, de nascimento,


de óbitos, faziam estimativas das riquezas individual e social, distribuíam equitativamente
terras ao povo, cobravam impostos e até realizavam pesquisas quantitativas por processos que
hoje se conhece por Estatística. A palavra “Estatística” vem de status, que significa em latim
estado. Com essa palavra se faziam as descrições de dados relativos ao estado, tornando a
Estatística um meio de administração para governantes. Mais recentemente se passou a falar
em estatística em várias ciências de todas as áreas do conhecimento humano. Pode-se definir a
Estatística como “um conjunto de métodos e processos quantitativos que servem para estudar
e medir os fenômenos coletivos”. Ao se estudar os fenômenos coletivos, o que interessa são
os fatos que envolvem os elementos desses fenômenos, como eles se relacionam e qual o seu
comportamento. Para que tal estudo possa acontecer com toda a seriedade que a ciência exige,
é necessário que o levantamento seja feito através de uma pesquisa científica, definida como a
realização concreta de uma investigação planejada, desenvolvida e redigida de acordo com as
normas metodológicas. A Estatística é muito mais do que a simples construção de gráficos e o
cálculo de médias. As informações numéricas são obtidas com a finalidade de acumular
informação para a tomada de decisão. Assim, a estatística pode ser vista como um conjunto de
técnicas para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los,
interpretá-los e deles extrair conclusões.
As técnicas clássicas da estatística foram delineadas para serem as melhores possíveis, sob
rigorosas suposições. Entretanto, a experiência tem forçado os estudiosos a conhecer que as
técnicas clássicas se comportam mal quando situações práticas não apresentam o ideal
descrito por tais suposições. O desenvolvimento recente de métodos exploratórios robustos
está aumentando a eficiência da análise estatística.
Os bons profissionais de estatística têm sempre olhado com detalhes os dados antes de
levantar suposições estatísticas e testes de hipóteses. Mas o uso indiscriminado de pacotes
estatísticos computacionais, sem o exame cuidadoso dos dados, conduz, às vezes, a resultados
aberrantes. A abordagem utilizada neste curso tem a finalidade de obter dos dados a maior
quantidade possível de informação, a fim de sugerir o uso de modelos plausíveis numa fase
posterior: a análise confirmatória de dados ou inferência estatística.
Objetivo da Estatística - o objetivo dos estudos estatísticos está nos fenômenos que se
referem a populações muito numerosas, formadas por indivíduos semelhantes com respeito a
um atributo. Por população entende-se um conjunto qualquer de objetos, pessoas ou eventos.
A estatística tende a recolher, caracterizar numericamente e condensar grupos de fatos,
grupos geralmente numerosos e fatos geralmente complexos. Quando os fenômenos são
complexos, os métodos determinísticos são inaplicáveis.

4.1. Áreas da estatística

Se a Estatística for entendida como a Ciência dos Dados, será de grande valia o domínio
que seu corpo de conhecimento pode oferecer. Primeiramente, como ponto de partida, pode-se
dividir a Estatística em duas áreas: Descritiva e Inferencial (Indutiva) – (observação: alguns
autores afirmam que a estatística pode ser dividida em três áreas: Estatística descritiva,
Probabilidade e Inferência estatística).

4.2. Estatística descritiva

A Estatística Descritiva se preocupa com a organização, apresentação e sintetização de


dados. Utiliza gráficos, tabelas e medidas descritivas como ferramentas. É utilizada na etapa
inicial da análise de dados e é útil para obter informações que indique possíveis modelos a
serem utilizados na fase final, ou seja, na Inferência Estatística.

4.3. Estatística inferencial

A Estatística Inferencial postula um conjunto de técnicas que permitem utilizar dados


oriundos de uma amostra para generalizações sobre a população. Constitui esse conjunto de
técnicas: a determinação do número de observações (tamanho da amostra); o esquema de
seleção das unidades observacionais; o cálculo das medidas estatísticas; a determinação da
confiança nas estimativas; a significância dos testes estatísticos; a precisão das estimativas;
dentre outras. Essa generalização é feita a partir do processo de estimativa das medidas
estatísticas, que podem ser calculadas, porém não sem antes se antecipar um grau de certeza
de que a amostra esteja fornecendo os dados que seriam de se esperar caso toda a população
fosse estudada. Nesse caso, o ramo da matemática que será utilizado para se avaliar tal grau
de certeza é a probabilidade. Com ela se tem condições de mensurar a fidedignidade de cada
inferência feita com base na amostra.
A estatística descritiva organiza e resume os dados observados, a inferencial utiliza
metodologias para extrair conclusões acerca do processo gerador intrínseco dos dados após o
processo da análise estatística. Em resumo, a estatística é uma ferramenta que auxilia a
tomada de decisão em face das incertezas.
Antes de começar a estudar os métodos estatísticos que permitirá analisar dados, sejam
eles qualitativos ou quantitativos, é importante introduzir alguns conceitos preliminares a fim
de adequar e equalizar a terminologia a ser utilizada ao longo deste curso. Na terminologia
estatística, o grande conjunto de dados que contém a característica que temos interesse recebe
o nome de população. Esse termo refere-se não somente a uma coleção de indivíduos, mas
também ao alvo sobre o qual reside nosso interesse. Assim, nossa população pode ser de
todos os habitantes de Campina Grande, de todas as lâmpadas produzidas por uma fábrica em
certo período de tempo. Algumas vezes podemos acessar toda a população para estudarmos
características de interesse, mas, em muitas situações, tal procedimento não pode ser
realizado. Em geral, razões econômicas são determinantes nessas situações. Por exemplo, uma
empresa, usualmente, não dispõe de verba suficiente para saber o que pensam todos os
consumidores de seus produtos. Além disso, existem casos em que a impossibilidade de se
acessar toda a população de interesse é incontornável. Por exemplo, em um experimento para
determinar o tempo de funcionamento das lâmpadas produzidas por uma indústria, não
podemos observar toda a população de interesse. Tendo em vista as dificuldades de várias
naturezas para se observar todos os elementos da população, assim toma-se apenas alguns
deles para formar um grupo a ser estudado. Este subconjunto da população, com dimensão
menor, é denominado amostra.

4.4. População e amostra

4.4.1. População

A população é o conjunto constituído por todos os indivíduos que representam pelo menos
uma característica comum, cujo comportamento interessa analisar (inferir). Assim sendo, o
objetivo das generalizações estatísticas está em dizer algo acerca de diversas características da
população estudada, com base em fatos conhecidos.

4.4.2. Amostra
A amostra pode ser definida como um subconjunto do total de observações contidas na
população. Através da amostra se faz inferência sobre as características dessa população. Uma
amostra tem que ser representativa, a escolha de uma amostra bem como seu manuseio requer
cuidados especiais para que os resultados não sejam distorcidos. A Figura 4 esboça os
conceitos de população e amostra.

A Figura 4 – Conceitos de população e amostra

. Parâmetro - é uma medida numérica que descreve uma característica de uma população.
São valores fixos, geralmente desconhecidos e usualmente representados por caracteres
gregos. Por exemplo, µ (média populacional), ρ (proporção populacional), σ (desvio-padrão

populacional), σ2 (variância populacional).

· Estatística - é uma medida numérica que descreve uma característica de uma amostra. O
valor de uma estatística passa a ser conhecido logo que a amostra é efetivamente retirada da
população. No entanto, esse pode variar de amostra para amostra. A isto se chama variação
amostral. A estatística é representada por caracteres latinos. Por exemplo, X (média amostral),
^p (proporção amostral), S (desvio-padrão amostral), S2 (variância amostral).

· Unidade observável - é a portadora das características ou propriedades, que se deseja


investigar.

4.5. Variáveis aleatórias - discreta e contínua

Na realização de um fenômeno aleatório é comum termos interesse em uma ou mais


quantidades. Essas quantidades são funções das ocorrências do fenômeno. Em certos casos, se
o resultado é de interesse, a função identificada será utilizada. Note que, antes da realização
de um fenômeno aleatório não sabemos seu resultado, exceto em casos especiais.
Com a realização do fenômeno, teremos uma observação conhecida que não será mais
aleatória. Em muitas situações, os eventos que ocorrem são apenas uma ponte para o que
realmente nos interessa. Podemos considerar que a observação conhecida de um fenômeno
aleatório prediz um particular valor observado da variável aleatória. Assim, outra realização
do fenômeno fornecerá outro valor observado da variável, na maioria das vezes diferente do
anterior.

Ex. Suponha que o valor obtido do arremesso de um dado foi igual a 4. A probabilidade de
cada um dos seis valores possíveis é igual a 1/6. Portanto, a chance do 4 se repetir é igual a
1/6 e de ocorrer qualquer outo valor diferente de 4 é o complemento do universo de
probabilidades, ou seja: 1-1/3=2/3.

Por outro lado, se admitirmos que os mesmos fatores atuem da mesma maneira em
observações repetidas grande número de vezes, constata-se que existe uma possibilidade de
predição “de longo prazo”. Em outras palavras, certos resultados podem ser mais prováveis
que outros. Isso ocorre, por exemplo, quando se lança uma moeda mil vezes (1000 é o
tamanho da amostra), a probabilidade de ocorrência de “caras” e “coroas” é igual a 0,5 ou
50%.
Em geral, os eventos aleatórios se caracterizam por admitir dois ou mais resultados
possíveis, e de não ter elementos de juízo suficientes para predizer qual deles ocorrerá em
determinada realização do evento. Mesmo assim, a aleatoriedade não é um estado de
imprevisibilidade.
Especificamente, os processos atmosféricos, devido ao caos dinâmico (interrelações
desses processos), são inconstantes, geralmente não periódicos e irregulares. Essas
irregularidades conduzem esses processos atmosféricos à incerteza na tarefa da previsão do
tempo.
4.5.1. Conceitos básicos

Seja   uma variável aleatória (V. A). Se o número de valores possíveis de   for
enumerável (finito ou infinito), dizemos que   é uma variável aleatória discreta. Isto é, os
possíveis valores de   podem ser postos em lista como x1, x2, x3.........xn. No caso finito, a lista
possui um valor final xn, e no caso infinito, a lista continua indefinidamente.

Em suma, uma Variável Aleatória (V.A) assume uma descrição numérica do resultado do
experimento ou observação. É a forma encontrada para se narrar o que acontece. Por exemplo,
em meteorologia a temperatura do ar (T °C) é uma variável aleatória, e os valores assumidos
por ela ao longo do dia são os valores diários da temperatura. Se a observação for feita de
hora em hora, então a variável temperatura pode ser assumida como uma variável aleatória
discreta e finita para um período específico. Exemplo, T diária do ar (ºC)= [t (0), t(1),
t(2)..................., t(24)]. Temperaturas diárias do ar de hora em hora; de zero a 24 horas. Note
que 0 hora é igual a 24 horas. Note que o tamanho do espaço amostral da variável aleatória
(V.A) temperatura diária é igual a 24 valores ou N=24. Note também que o universo de
possíveis valores assumidos pela V.A temperatura pode se muito grande quando o intervalo
entre as observações tender para zero. Se tivermos 30 anos de observação diária de
temperatura do ar, então o tamanho da amostra é igual a 30 anos x 365 dias=10.950 valores.

4.5.2. Variável aleatória discreta

Uma variável aleatória pode assumir duas classificações, Discreta ou Contínua.


Para melhor explicar o conceito associamos a algum exemplo real. Um dado de seis lados,
muito comum em jogos de tabuleiros é o melhor exemplo para explicar o conceito de Variável
Aleatória Discreta Finita. Pois todas às vezes que lançarmos o dado, ele sempre nos dará um
"valor" inteiro. Não existe a possibilidade que ele caia de "lado" nos dando um valor
surpreendente como 2,5555. O seu Espaço Amostral é {1, 2, 3, 4, 5, 6} não havendo nenhum
valor intermediário. O número anual de dias consecutivos sem chuva, em um dado local, é
um exemplo de uma variável hidrometeorológica discreta cujos valores possíveis estarão
compreendidos integralmente no subconjunto dos números inteiros dado por {0, 1, 2,
3,....,366}. Já o exemplo de Variável Aleatória Discreta Infinita, pode ser dado pelo número
de carros que chegam a um pedágio. Sabe-se que virá carros infinitamente, no entanto, nunca
chegará a metade de um carro, não haverá "frações" no numero de carros.
No exemplo da Figura abaixo, a variável aleatória X é classificada como discreta porque
ela pode assumir apenas valores numéricos inteiros e, também, por estar associada a um
espaço amostral finito e numerável.

Nesse caso, pX (x) representa a função massa de probabilidades (FMP) e indica com que
probabilidade a variável X assume o valor do argumento x. Por outro lado, PX (x) denota a
função acumulada de probabilidades (FAP), ou função de distribuição de probabilidades, e
indica com que probabilidade a variável X é menor ou igual ao argumento x, ou seja,

P X ( x )=P ( X ≤ x ) = ∑ P X ( x i ) . Uma função massa de probabilidades possui as seguintes
todos os x i ≤ x

propriedades:

i) P X ( x ) ≥ 0 , para todo e qualquer valor de x;

ii) ∑ P X ( x )=1
todos x

Por outro lado, se a variável aleatória X pode assumir qualquer valor real, ela é do tipo
contínuo e, nesse caso, a função equivalente à FMP é denominada função densidade de
probabilidade (FDP). Essa função não negativa, aqui denotada por fX (x) e ilustrada na Figura
abaixo, representa o caso limite de um polígono de frequências para uma amostra de tamanho
infinito e, portanto, com as larguras dos intervalos de classe tendendo a zero. É importante
notar que f X ( x 0 ) não fornece a probabilidade de X para o argumento x0 e, sim, a intensidade
com que a probabilidade de não superação de x0 é alterada na vizinhança do argumento
indicado. A área entre dois limites a e b, no eixo dos argumentos da variável aleatória, dá a
probabilidade de X estar compreendida no intervalo, tal como ilustrado na Figura abaixo.
Portanto, para a FDP fX (x), é válida a equação:
b
P ( a< X ≤ b ) =∫ f X ( x ) dx
a

Se fizermos o limite inferior dessa integração se aproximar de b, a ponto de ambos se


confundirem, o resultado seria equivalente à “área de uma reta” no plano real que, por
definição, é nula. Generalizando, pode-se concluir que para uma variável aleatória contínua X,
P(X = x) = 0.

Figura – Funções densidade e acumulada de probabilidades de uma variável contínua

Analogamente ao caso discreto, a função acumulada de probabilidades (FAP) de uma


variável aleatória contínua X, aqui representada por FX(x), fornece a probabilidade de não
superação do argumento x, ou seja, P(X≤ x). Formalmente,

x
F X ( x ) =∫ f X ( x ) dx
−∞

Inversamente, a FDP correspondente pode ser obtida pela diferenciação de FX(x), ou seja,

d FX ( x )
F X ( x) =
dx

A FAP de uma variável aleatória contínua é uma função não decrescente, sendo válidas as
expressões F X ¿) = 0 e F X ¿) = 1.
As funções massa e densidade de probabilidades, assim como suas correspondentes FAP’s,
descrevem completamente o comportamento estatístico das variáveis aleatórias discretas e
contínuas, respectivamente. Em particular, a função densidade de probabilidade de uma
variável contínua X pode ter uma grande variedade de formas, algumas delas ilustradas na
Figura abaixo. Como requisito geral, para que se trate de uma densidade de probabilidades, a
função deve ser não negativa e o resultado de sua integração, ao longo de todo o domínio de
variação de X, deve ser igual a 1.

Figura – Formas variadas de uma função densidade de probabilidades

4.5.3. Variáveis aleatórias contínuas

Uma Variável Aleatória X (V.A) que pode assumir qualquer valor numérico em um
determinado intervalo ou coleção de intervalos é chamada de variável aleatória contínua. Os
lançamentos de martelo, disco ou lança numa olimpíada, ocorrem dentro de uma faixa de
valores. No máximo 60 e no mínimo 30 metros de distância (distância mínima classificatória).
Ou seja, todos os lançamentos serão dentro desse intervalo, podendo assumir uma infinidade
de possibilidades, pois sempre existirá uma fração para medir. Neste caso X seria uma
variável aleatória (V.A) contínua que assume qualquer valor no intervalo maior ou igual a 30
metros e menor ou igual a 60 metros. Matematicamente esse espaço amostral é dado por: X =
{30 ≤ x ≤ 60} . Qualquer valor entre esse intervalo é um valor assumido pela V.A contínua X.
Note que se usa X (letra maiúscula para denotar uma V.A) e minúscula x para denotar os
possíveis valores assumidos por X. Assim, pode-se denotar a probabilidade de ocorrência de
precipitação (mm) em um local qualquer como: P(p=20 mm) = 0,3 ou 30% no caso discreto
ou P(10 ≤ p ≤ 15 mm) = 0,18 ou 18%, no caso contínuo (nota: mm=milímetros). A altura
diária máxima anual de precipitação, num local qualquer, é uma variável hidrológica contínua
porque o conjunto de seus resultados possíveis estará totalmente contido no subconjunto dos
números reais não negativos.
As variáveis hidrometeorológicas quantitativas ainda podem ser classificadas em
limitadas e ilimitadas. As primeiras são aquelas em que os resultados possíveis são limitados
superior e inferiormente, seja por condicionantes físicas, seja pelo modo como são medidas. A
direção do vento local, registrada em um anemômetro, será um ângulo compreendido entre 0
e 360º. Por outro lado, as variáveis ilimitadas não possuem limites inferior e superior
definidos. Embora a variável vazão média diária de um curso d’água não pode,
evidentemente, ter valores negativos, ela não estará limitada, pelo menos do ponto de vista
estatístico, a um limiar superior. Portanto, é uma variável hidrológica, quantitativa, contínua e
ilimitada.

4.5.4. Variáveis qualitativa e quantitativa

Variáveis qualitativas são aquelas que assumem “valores” em categorias, classes ou


rótulos. São, portanto, por natureza, dados não numéricos. Apesar de ser considerada de baixo
nível de mensuração, do ponto de vista da aplicação da estatística, a variável qualitativa
oferece um vasto espectro de aplicação nas ciências sociais e do comportamento. Variáveis
qualitativas denotam características individuais das unidades sob análise, tais como sexo,
estado civil, naturalidade, raça, grau de instrução, dentre outras, permitindo estratificar as
unidades para serem analisadas de acordo com outras variáveis. Por outro lado, as variáveis
quantitativas são aquelas que assumem valores numa escala métrica definida por uma origem
e uma unidade, por exemplo: idade, salário, peso, total precipitado no dia, mês ou ano,
temperatura diária do ar etc. As variáveis qualitativas podem ser, também, classificadas como
nominal e ordinal. A Tabela 2 resume essas variáveis.

Variáveis Tipos Descrição Exemplos

Qualitativas ou Nominal Não existe Cor dos olhos, sexo, estado civil, tipo
Categóricas nenhuma sanguíneo, tipo de nuvem, tipo de
ordenação vegetação, tipo de solo.
Existe uma Nível de escolaridade, colocação de
Ordinal ordenação I, II, concurso, ordenação em um rol, série
III temporal.

Valor pertence a Número de filhos por casal, número de


Discretas um conjunto furações, número de dias com chuva ou
enumerável sem, número de geadas.

Quantitativas Medidas de altura e peso, amplitude de


Quando o valor temperatura do ar, faixa de variação da
Contínuas pertence a um precipitação pluvial, registro de vazão em
intervalo real fluviógrafo, registro do nível de
reservatório de água.

Em algumas situações se podem atribuir valores numéricos às várias qualitativas ou atributos


e depois proceder à análise como essa variável fosse quantitativa. Uma vez obtidos os dados
referentes às variáveis qualitativas, a tarefa seguinte é representá-los através de tabela e
gráfico. Posteriormente, poderá ser útil calcular as frequências absoluta, relativa e acumulada.

5.0. Análise preliminar de uma amostra de dados

A análise preliminar de uma amostra de dados compreende um conjunto de métodos e


técnicas que visam extrair as características empíricas essenciais do padrão de distribuição de
uma variável. Esse conjunto pode ser dividido em: (a) apresentação gráfica dos dados; (b)
estatísticas descritivas, (c) métodos exploratórios; (d) identificar valores que representem o
elemento típico e, (e) quantificar a variabilidade presente nos dados.

5.1. Dados brutos

Qualquer pesquisa é baseada em levantamento ou coleta de dados. Geralmente são dados


brutos que não passaram por nenhum processo de síntese ou análise. Por exemplo, suponha
que os dados abaixo sejam os totais mensais precipitados (mm) em um posto pluviométrico
hipotético, com N= 50.
58,0 62,5 65,0 67,0 68,3 65,0 66,4 58,0 67,0 67,0
62,5 62,5 66,4 66,4 65,0 65,0 60,2 60,2 60,2 60,2
59,5 59,5 59,5 65,0 66,4 66,4 66,4 60,2 62,5 67,0
67,0 67,0 70,1 70,1 71,9 70,1 67,0 66,4 66,4 68,3
68,3 68,3 65,0 65,0 62,5 62,5 65,0 65,0 68,3 71,9

Nesses dados, nota-se certa variação. Assim, os métodos estatísticos são fundamentais
para o estudo de situações em que a variabilidade é inerente. A Estatística Descritiva ajuda na
percepção, avaliação e quantificação da variabilidade em tabelas e gráficos obtidos a partir de
um conjunto de dados que sintetizem os valores, com o objetivo de se ter uma visão global e
clara da variação existente nos valores da variável precipitação.

5.2. Rol

A mão, ou com auxílio de computador, pode-se classificar os dados x 1, x2,...,xn em ordem


crescente. Pelo rol, pode-se verificar de maneira mais clara e rápida a composição do
conjunto, identificando o maior e o menor valor, além de alguns elementos que podem se
repetir várias vezes, mostrando assim o comportamento dos dados. Assim, o rol dos 50 dados
de precipitação fica:

58,0; 58,0; 59,5; 59,5; 59,5; 60,2; 60,2; 60,2; 60,2; 60,2;
62,5; 62,5; 62,5; 62,5; 62,5; 62,5; 65,0; 65,0; 65,0; 65,0;
65,0; 65,0; 65,0; 65,0; 65,0; 66,4; 66,4; 66,4; 66,4; 66,4;
66,4; 66,4; 66,4; 67,0; 67,0; 67,0; 67,0; 67,0; 67,0; 67,0;
68,3; 68,3; 68,3; 68,3; 68,3; 70,1; 70,1; 70,1; 71,9; 71,9.

A Tabela 3 mostra a estatística descritiva dos dados dos totais mensais precipitados (mm)

A Tabela 3 - Estatística descritiva dos totais mensais precipitados (mm)


Estatísticas Linha 1 Linha 2 Linha 3  Linha 4 Linha 5

Média 64,42 62,86 63,24 68,43 66,18


Erro-padrão 1,18 0,84 1,05 0,62 0,94
Mediana 65,70 62,50 63,75 67,65 65,00
Moda 67,00 60,20 59,50 67,00 65,00
Desvio-padrão 3,74 2,64 3,32 1,97 2,96
Variância 13,97 6,98 10,99 3,87 8,76
Curtose -0,11 -1,84 -2,21 -1,20 -0,06
Assimetria -1,11 0,25 -0,12 0,55 0,59
Mínimo 58,00 60,20 59,50 66,40 62,50
Máximo 68,30 66,40 67,00 71,90 71,90
Soma 644,20 628,60 632,40 684,30 661,80
Contagem 10,00 10,00 10,00 10,00 10,00
Considerando todos os dados os resultados são: Média=65,03 mm, desvio-padrão=3,54 mm,
mediana= 65,7; variância =12,50 mm2, coeficiente e curtose = 0,568, coeficiente de assimetria
= - 0,272; valor mínimo = 58, valor máximo = 71,9 e tamanho da amostra = 50 valores.

6.0. Medidas estatísticas

Além da construção de tabelas e gráficos, a análise exploratória de dados, consiste


também de cálculos de medidas estatísticas que resume as informações obtidas dando uma
visão global dos dados amostrais. Essas medidas, também conhecidas como medidas
descritivas recebem o nome genérico de estatísticas quando calculada com os dados da
amostra, e de parâmetros quando calculadas com dados populacionais. Dentre as medidas
estatísticas as mais utilizadas são as de tendência central (ou de posição) e as de dispersão
(ou de variabilidade). Destacam-se, ainda, as separatrizes, as assimetrias e os box plot.

6.1. Medidas de tendência central (posição)

As medidas de tendência central são aquelas que produzem um valor em torno do qual os
dados observados se distribuem, e que visam sintetizar em um único número o conjunto de
dados. As medidas de tendência central são: média aritmética, mediana e moda.

6.1.1. Média

Uma das medidas estatísticas mais utilizadas na representação de uma distribuição de


dados é a média aritmética, na sua forma simples, ou ponderada. No primeiro caso divide-se a
soma de todos os valores da série pelo número de observações, enquanto no segundo, mais
utilizado em distribuições de frequências, os valores são ponderados pelas frequências com
que ocorrem e depois os dividem pelo total das frequências (este segundo caso será visto em
distribuição de frequências).

∑ xi (1)
i=1
X=
N
Exemplo: Estime a média da Temperatura média mensal (ºC) da cidade de Campina Grande –
PB no período de 1965 a 1966.

Tabela 4 - Temperatura média mensal (ºC) da cidade de Campina Grande – PB no período de


1965 a 1966.
28,6 30,4 30,8 28,2 26,6 25,1 26,0 26,0 29,2 28,6 26,9 28,4
27,7 25,0 24,1 24,5 25,4 28,4 28,0 29,3 30,4 28,7 27,2 26,0

Portanto, o valor médio é igual a 27,8 ºC. A média aritmética possui algumas propriedades
desejáveis e não desejáveis, são elas:

i) Unicidade. Para um conjunto de dados existe somente uma média aritmética;


ii) Simplicidade. A média aritmética é fácil de ser interpretada e de ser calculada;
iii) Todos os valores entram para o cálculo da média aritmética, porém, os valores
extremos afetam o valor calculado, e em alguns casos pode haver uma grande
distorção, tornando, neste caso, a média aritmética indesejável como medida de
tendência central.

Como a média é influenciada por valores extremos da distribuição, ela só deve ser
utilizada em distribuições simétricas, ou levemente assimétricas, e em distribuições não
heterogêneas. Sua aplicação em casos fora dessas recomendações acima é precária e de pouca
utilidade prática, pois perde a capacidade de representar a distribuição que a originou.
Também nos casos de série temporal em que o fenômeno tem uma evolução não linear.
Não se recomenda, também, à aplicação da média aritmética nas séries cujos valores
representem relações recíprocas, como por exemplo, velocidades, expressas através da relação
espaço e o tempo. Neste último caso, recomenda-se a utilização da média harmônica.

6.1.2 Mediana

A mediana é o valor que ocupa a posição central de um conjunto de valores ordenados de


forma crescente, ou seja, essa medida divide a distribuição de valores em duas partes iguais:
50% acima e 50% abaixo do seu valor. O valor da mediana é obtido após a ordenação dos
dados em um rol crescente. Quando o conjunto possui quantidade par de valores, há dois
valores centrais, neste caso, a mediana é o valor médio dos dois valores centrais do conjunto
de dados ordenados.

Exemplo: com os dados da Tabela 4 calcule a mediana.


28,6 30,4 30,8 28,2 26,6 25,1 26,0 26,0 29,2 28,6 26,9 28,4
27,7 25,0 24,1 24,5 25,4 28,4 28,0 29,3 30,4 28,7 27,2 26,0

Nesta série tem-se número par de observações logo, após ordenar o rol têm-se dois valores
centrais: 27,7 e 28,0 Logo, a mediana é 27,8 ºC. Suponha que no mesmo exemplo da Tabela 4
seja acrescentado o valor 31,0, tornando a amostra da Tabela 4 em um número ímpar de
valores, Neste caso, a amostra ordenada em rol crescente tem como mediana o valor central,
que é igual a 28,0 ºC.

Propriedades da mediana:

i) Unicidade. Existe somente uma mediana para um conjunto de dados;


ii) Simplicidade. A mediana é fácil de ser calculada;
iii) A mediana não é tão afetada pelos valores extremos como a média aritmética,
por isso, se diz que a mediana é uma estatística robusta.

Conceito de robustez de uma medida:

Diz-se que uma medida de centralidade ou de dispersão é robusta quando ela é pouco
afetada pela presença de observações discrepantes. Entre as medidas de centralidade, a média
é bem menos robusta do que a mediana. Por outro lado, entre as medidas de dispersão, o
desvio- padrão é bem menos robusto do que o desvio interquartílico.

6.1.3 Moda

A Moda de um conjunto de valores é aquele valor que ocorre com maior frequência, sua
aplicação não depende do nível de mensuração da variável, sendo aplicada tanto a fenômenos
qualitativos quanto a quantitativos. Se todos os valores de uma amostra de dados forem
diferentes não há moda, por outro lado, uma amostra de dados pode ter mais do que uma
moda. Pode ser bimodal, trimodal ou multimodal.
Exemplo: Para os dados da Tabela 4 existem quatro modas: 26,0 ºC três vezes, 28,4 ºC duas
vezes, 28,6 ºC duas vezes e 30,4 ºC duas vezes. A moda pode ser utilizada para descrever
dados qualitativos.

6.2. Medidas de dispersão

A dispersão de um conjunto de dados é a variabilidade que os dados apresentam entre si.


Se todos os valores forem iguais, não há dispersão. Por outro lado, se os dados forem
desiguais, existe dispersão entre eles. A dispersão é pequena quando os valores são próximos
uns dos outros. Se os valores forem muito diferentes entre si, a dispersão é grande, sendo
assim, as medidas de dispersão medem o grau de agregação dos dados. As medidas
descritivas mais comuns para quantificar a dispersão são: amplitude, desvio médio, variância,
desvio-padrão e coeficiente de variação.

6.2.1 Amplitude Total (ΔT)

Uma maneira de medir a variação em um conjunto de valores é calcular a amplitude. A


amplitude é a diferença entre o maior e o menor valor de um conjunto de observações. Assim
a amplitude é dada por:

ΔT = o maior valor maior – menor valor

Exemplo: Determinar amplitude total dos dados da Tabela 4: ΔT = 31,0 – 24,1= 6,0 ºC. A
utilidade da amplitude total como medida de dispersão é muito limitada, pois depende apenas
dos valores extremos. A maior vantagem em usá-la é a simplicidade do seu cálculo.

6.2.2. Desvio médio


Uma vez que se deseja medir a dispersão ou grau de concentração dos valores de uma
amostra em torno da média, nada mais interessante do que analisar o comportamento dos
desvios de cada valor em relação à média, isto é:

d i =( x ¿¿ i−X ) ¿ (2)
Para qualquer conjunto de dados, a soma de todos os seus desvios é igual a zero, isto é:

N
d i =∑ ( x ¿¿ i−X )¿ (3)
i=1

Neste caso, considera-se o módulo de cada desvio |x 1− X|, para evitar que o Σdi = 0. Dessa
forma, o desvio médio (DM) de um conjunto de n valores é dado por:

∑| xi −X| (4)
DM = i=1
n

6.2.3. Variância

Embora o desvio médio seja uma medida melhor do que a Amplitude total, ainda não é
uma medida ideal, pois não discrimina os pequenos dos grandes afastamentos em relação à
média. Se para eliminar o problema dos sinais, ao invés de considerarmos os valores
absolutos elevarmos os afastamentos ao quadrado, estaremos não apenas eliminando o
problema dos sinais como também potencializando os afastamentos, enfatizando os grandes
desvios em relação às observações mais próximas da média. Como resultado define a medida
de variação conhecida como variância, dada por:

∑ ( x i− X )2 (5)
S2= i=1
n−1

Esta estatística isolada é de difícil interpretação por apresentar unidade de medida dos dados
elevada ao quadrado.

6.2.4. Desvio-padrão

Devido à dificuldade de interpretação da variância, por ter sua unidade de medida elevada ao
quadrado, na prática usa-se o desvio-padrão que é a raiz quadrada da variância, ou seja:
S= √ S (6)
2

6.2.5. Erro padrão

Diferentes amostras retiradas de uma mesma população podem apresentar médias


diferentes. A variação existente entre esse conjunto de médias é estimada pelo erro padrão.
Essa estatística corresponde ao desvio-padrão das médias, sendo representado por S X e
calculado pela fórmula:

S S (7)
X=
√n

Em que, S e n são o desvio-padrão e o tamanho da amostra, respectivamente.

6.2.6. Coeficiente de Variação

Uma pergunta que pode surgir é se o valor de um desvio-padrão é grande ou pequeno. Essa
questão é relevante, por exemplo, na avaliação da precisão de métodos. Para um desvio-
padrão ser considerado grande ou pequeno dependerá da ordem de grandeza da variável. Por
exemplo, um desvio-padrão igual a 10 pode ser insignificante se a observação típica for igual
a 10.000, mas será um valor bastante significativo para um conjunto de dados cuja observação
típica é 100. O coeficiente de variação (CV) é uma medida relativa de dispersão e é utilizada
para comparar, em termos relativos, o grau de concentração em torno da média. Assim o CV é
dado por:

S
CV = (8)
X

Em que, S e X são o desvio-padrão e a média amostral, respectivamente. CV é uma medida


adimensional, podendo ser expressa em termos decimais ou percentuais (multiplicando por
100).
Diz-se que uma distribuição é homogênea quando a variabilidade relativa expressa pelo
Coeficiente de Variação, não ultrapassar 20%. Obviamente a distribuição não deixa de ser
homogênea para valores maiores do que 20%, mas vai perdendo o grau de homogeneidade à
medida que o CV aumenta. Esta medida pode ser bastante útil para comparar duas variáveis
que a princípio não são comparáveis (por exemplo, variáveis com ordens de grandeza
diferentes).

6.3. Separatrizes: quartis, decis e percentis

As estimativas das separatrizes considera-se um conjunto de valores ordenados de forma


crescente. As estimativas dos quartis, decis e percentis são similares à mediana, uma vez que
também subdividem a distribuição de medidas de acordo com a proporção das frequências
observadas. Os quartis dividem um conjunto de dados em quatro partes iguais, isto é, 25% por
parte.

Em que: Q1 = é o 1º quartil e contém 25% dos dados;


Q2 = é o 2º quartil e contém 50% dos dados (coincide com a mediana);
Q3 = é o 3º quartil e contém 75% dos dados.

Já os decis dividem um conjunto de dados em dez partes iguais, isto é, 10% por parte.

Em que: D1 = 1º decil, contém 10% dos dados;


D2 = 20 decil, contém 20% dos dados;
. . . . . .
. . . . . .
D9 = 90 decil, contém 90% dos dados.

Já, os percentis permitem dividir o conjunto de dados em 100 partes, sendo e 1% em cada
parte.

Em que: P1 = 1º percentil, contém 1% dos dados;


P2 = 2º percentil, contém 2% dos dados;
. . . . . .
. . . . . .
P99 = 99º percentil, contém 99% dos dados.
A mediana é o percentil de ordem 50º, haja vista que é o valor que divide o conjunto de
dados em duas partes iguais, ou seja, 50% dos dados ficam abaixo e 50% acima. Os percentis
de ordem 25, 50 e 75 são os primeiro, segundo e terceiro quartis, respectivamente, porque
dividem a distribuição em 1/4, 1/2 e 3/4. Logo o Q2 é outra notação para a mediana. Enquanto
que os decis D1, D2,,...,D9 são os valores que dividem o conjunto em dez partes iguais e
coincidem com os percentis P10, P20,,...,P90. Portanto, os quartis e os decis estão inseridos nos
percentis.
Para determinar o valor correspondente a um quartil, decil ou percentil, deve-se seguir a
sequência de passos:

i) Ordenar os dados de forma crescente;


ii) Localizar a posição (L), dada por:

k .n
L= (9)
100

Em que: k é o percentual desejado e n é o número de valores do conjunto de dados. Se o valor


de L for decimal, arredonda-se para o maior inteiro mais próximo. Quando o valor de L for
inteiro, adiciona-se L+1 ao valor de L e divide-se tudo por dois.

6.4. Momentos, assimetria e curtose

As medidas de assimetria e curtose complementam as medidas de posição e de dispersão


no sentido de proporcionar uma descrição e compreensão mais completa das distribuições de
frequências. Essas distribuições não diferem apenas quanto ao valor médio e à variabilidade,
mas também quanto a sua forma (assimetria e curtose). Para estudar as medidas de assimetria
e curtose, é necessário o conhecimento de certas quantidades, conhecidas como momentos.

6.4.1 Momentos

São medidas descritivas de caráter mais geral e dão origem às demais medidas descritivas,
como as de tendência central, dispersão, assimetria e curtose. Conforme a potência
considerada tem-se a ordem ou o grau do momento calculado.

- Momentos simples ou centrados na origem (mr ) - o momento simples de ordem “r” é


definido por:
Em que: r é um número inteiro positivo; m0=1; e m 1= média aritmética.

- Momentos centrados na média ( M r ) - o momento de ordem “r” centrado na média é definido


por:

Em que: M 0=1; M 1=0 ; m2=¿ variância (S2).


- Momentos abstratos (ar) - são definidos da seguinte forma:

α Mr
r= r
S

Em que: S é o desvio-padrão e Mr é momento de ordem “r” centrado na média.

Assimetria

Embora as médias de posição e de variação possibilitem descrever estatisticamente um


conjunto de dados, é necessário verificar como se comporta, de forma geral, essa distribuição.
Essa verificação é possível através da distribuição de frequência e do histograma. Em uma
distribuição simétrica 50% dos dados estão à esquerda da média amostral e os outros 50%
estão à direita. As distribuições consideradas assimétricas apresentam uma “cauda” em uma
das extremidades, quando a “cauda” está à direita, é positivamente assimétrica, e quando
estiver à esquerda, é negativamente assimétrica. Para verificar o tipo e o grau da assimetria da
distribuição utiliza-se a medida estatística adimensional denominada de Coeficiente de
Assimetria de Pearson, definido por:
( X−M d )
As=3 (10)
S

Para uma distribuição perfeitamente simétrica, o valor de As é igual à zero> De modo


geral, os valores de As situam-se entre –3 e 3. Se 0,15 < |As| < 1 a assimetria é considerada
moderada; se |As| > 1 a assimetria é forte.
Em uma distribuição simétrica, a média ( X ), a mediana (Md) e a moda (Mo) são iguais,
isto é, X = Md = Mo. Em uma distribuição assimétrica positiva ou assimétrica à direita, a
distribuição assimétrica negativa ou assimétrica à esquerda, a média é menor do que a
mediana e menor do que a moda ( X < Md < Mo). A Figura 5 apresenta um esquema dessas
distribuições:

Figura 5 - Gráficos simétrico e assimétrico à direita e à esquerda

Quando não for possível o cálculo do desvio-padrão podemos estimar a assimetria pela
seguinte fórmula:

Em que: Q1, Q3 são o primeiro e terceiro quartil, respectivamente e Md é a mediana. O


coeficiente momento de assimetria ( a3) é dado pelo terceiro momento abstrato, assim;

α M3
3= 3
S

Em que: M3 é o momento de ordem 3 centrado na média e S é o desvio-padrão.

6.5. Curtose

Curtose é o grau de achatamento de uma distribuição em relação a uma distribuição


padrão, denominada de curva Normal. A curva Normal, que é a base referencial, recebe o
nome de mesocúrtica. A distribuição que apresentar uma curva de frequência mais pontiaguda
do que a Normal é denominada de leptocúrtica e a que apresentar uma curva de frequência
mais achatada do que a Normal recebe o nome de platicúrtica. A Figura 6 apresenta um
esquema dessas curvas mesocúrtica, leptocúrtica e platicúrtica.

Figura 6 - Classificação das curvas em relação a uma distribuição padrão

Para verificar o tipo de curva da distribuição e o grau de Curtose utiliza-se a medida


estatística adimensional denominada de Coeficiente de Curtose definido por:
Q 3−Q1
C= (11)
2 ( P 90−P10)

Para uma curva relativamente à Normal, o valor de C = 0,263. Assim, Se C = 0,263 a curva é
mesocúrtica, C < 0,263 a curva é leptocúrtica e C > 0,263 curva platicúrtica. O coeficiente
momento de curtose (α 4 ) também pode ser dado pelo momento abstrato de quarta ordem,
assim;
α M4
4= 4
S

Em que: M4 é o momento de ordem 4 centrado na média e S é o desvio-padrão. Se α 4 ¿ 3 a


curva é platicúrtica; se α 4 ¿ 3 a curva é mesocúrtica e se α 4 >3 a curva é leptocúrtica

6.6. Diagrama box plot

O diagrama box plot consiste em um retângulo definido pelo primeiro e pelo terceiro
quartis, contendo a mediana em seu interior, tal como ilustrado na Figura 7, relativa às vazões
médias anuais do Rio Paraopeba em Ponte Nova do Paraopeba -MG. A partir do lado superior
do retângulo, traça-se uma linha até o ponto que não exceda (Q3+1,5AIQ), considerado limite
superior para identificar “ouliers”. De modo análogo, traça-se outra linha a partir do lado
inferior do retângulo até o limite dado por (Q1-1,5AIQ). As observações que estiverem acima
ou abaixo desses limites são identificadas no diagrama e consideradas “outliers” ou valores
atípicos. A amplitude interquartílica é representada por AIQ, é dada pela diferença entre Q3 e
Q1.

Figura 7 – Diagrama Box Plot para as vazões médias anuais do Rio Paraopeba, em Ponte
Nova do Paraopeba – Período 1938-1999.

O box plot também fornece informações importantes sobre o comportamento do conjunto


de dados, como simetria e variabilidade. Se a amplitude for muito maior que à distância
interquartílica e a mediana estiver mais próxima do 1º quartil do que do 3º quartil, há forte
indicação de assimetria positiva e de grande dispersão das observações.

6.7. Observações atípicas (“outlier”)

É muito comum aparecerem entre os dados coletados, observações atípicas (outliers), isto
é, valores muito grande ou muito pequeno em relação aos demais. Um conjunto de dados
pode apresentar apenas um ou vários outliers. Observações atípicas alteram fortemente as
médias e variabilidade dos grupos a que pertencem e podem até mesmo distorcer as
conclusões obtidas através de uma análise estatística padrão. Portanto, é de fundamental
importância detectar e dar um tratamento adequado a eles. É sempre boa a prática de se fazer
uma inspeção dos dados no início da análise estatística. Técnicas descritivas de dados têm um
papel importante nesta fase.

6.8. Causas do aparecimento de “outliers”

Dentre as possíveis causas do aparecimento de outliers, pode citar as seguintes:

i) Leitura, anotação ou transcrição incorreta dos dados;


ii) Erro na execução do experimento;
iii) Mudanças não controláveis nas condições experimentais.

Quando examinamos uma amostra para tirar conclusões sobre as características da população,
normalmente, essas características são do tipo característica numérica dessa população. Por
exemplo, um parâmetro é uma característica numérica da população. É um número fixo, mas
em geral, não se conhece o seu valor. Uma estatística é uma característica numérica da
amostra. O valor de uma estatística passa a ser conhecido logo que a amostra é efetivamente
retirada da população. No entanto, esse pode variar de amostra para amostra. A isto se chama
variação amostral.

6.9. Teoria das probabilidades

Para uma dada tentativa de uma experiência aleatória, não se sabe qual o valor do
resultado no espaço amostral. No entanto, se repetirmos a experiência muitas vezes, é possível
estimar a frequência relativa desse resultado. Isto é, se repetirmos a experiência M vezes e o
resultado igual a ai ocorrer mi vezes, pode-se obter a probabilidade de ocorrência do valor ai,
dada por:
p
i=
mi (12)
M

A soma das frequências dos n resultados deve ser igual ao número total de tentativas da
experiência, isto é:

m1 + m2 + m3 + ... + mn = M

que resulta em:

p1 + p2 + p3 + ... + pn = 1

ou seja, a soma das probabilidades associadas a cada resultado da experiência deve ser igual a
1. Se um resultado ai nunca pode ocorrer na experiência, em M tentativas, a sua probabilidade
é igual a 0. Diz-se, neste caso, que o resultado é impossível. Se, por sua vez, o resultado a i
ocorrer em todas as tentativas, a sua probabilidade é igual a:

p M (13)
i= =1
M

Assim, diz-se que o resultado é certo. Do exposto acima, pode-se enunciar as duas leis da
probabilidade:

1) 0 ≤ pi ≤ 1, para i = 1, 2, ..., n
n
2) ∑ pi =1
i=1

Dois exemplos que ilustram casos simples de resultados igualmente prováveis são:

• o lançamento de uma moeda, com p(c) = 1/2 e p(C) = 1/ 2 e p(c) + p(C) = 1;


• lançamento do dado, com p(i) = 1/6, i = 1, 2, 3, 4, 5, 6 (qualquer uma das faces do dado têm
igual probabilidade de sair) e 1/6+1/6+1/6+1/6+1/6+1/6=1.

No entanto, nem todos os casos são tão simples. O exemplo da inspeção de uma amostra de
dias com chuva (DCC) e dias sem chuva (DSC) em uma região semiárida poderá ter, muito
provavelmente, uma probabilidade muito maior para o resultado DSC=, do que para o
resultado DCC. O conceito de probabilidade torna-se mais complicado quando se trata de uma
variável em um espaço amostral contínuo, uma vez que não é possível definir um conjunto
finito de resultados. Existe, agora, um conjunto infinito de valores, de um modo contínuo,
normalmente com limites inferior dado por Xmín e superior dado por Xmáx, respectivamente.
Isto é: Xmín ≤ xi ≤ Xmáx. Em vez de se falar na probabilidade de um valor, tem-se, neste caso, a
probabilidade do resultado estar compreendido entre dois valores r ≤ xi ≤ s.

6.10. Funções de probabilidade

Para uma variável aleatória discreta X, que pode tomar os valores x1, x2, x3, ..., xn, as
probabilidades p(xi) ou f(xi) formam a distribuição das probabilidades de X. Como já foi dito
anteriormente. Essas probabilidades satisfazem as leis básicas de probabilidade:

0 ≤ f(xi) ≤ 1, i = 1, 2, ..., n
e
n

∑ f (x ¿¿ i)=1¿
i=1

Essa função f(x) é conhecida por função de probabilidade da variável aleatória X.

Por vezes, pose-se estar interessado em conhecer a probabilidade de uma variável


aleatória X tomar um valor menor ou igual a certa quantidade, xi. Designando esta
probabilidade por F(xi) tem-se:

(14)

Essa função é conhecida por função de probabilidade acumulada associada a xi.

Se a variável aleatória X for contínua, a probabilidade de X tomar um valor específico é igual


a zero, em virtude de que:

(15)
Sendo f(t) a função de probabilidade. Quando X é uma variável aleatória contínua f(t) se
chama função densidade de probabilidade.
A função distribuição acumulada de uma variável aleatória contínua é definida por:

(16)
A função distribuição acumulada goza das seguintes propriedades:

1. F(−∞) = 0
2. F(∞) = 1
3. F(x) é uma função não decrescente, de x;
4. F(x) é uma função contínua à direita de cada valor de x.

As relações existentes entre as duas funções de probabilidade, de densidade e de


distribuição acumulada, respectivamente para os casos discreto e contínuo são:

7.0. Distribuição de frequência

Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o


comportamento dessa variável, analisando a ocorrência de suas possíveis realizações.
Considere uma variável quantitativa a ser estudada, como por exemplo, a série apresentada na
Tabela 5, de 62 anos de vazões médias anuais do rio Paraopeba, em Ponte Nova do
Paraopeba, para o período 1938 a 1999.

Tabela 5 - vazões médias anuais (m3/s) do rio Paraopeba, em Ponte Nova do Paraopeba, para
o período 1938 a 1999.
Ano civil Vazões médias anuais Ano civil Vazões médias anuais

1938 104,3 1969 62,6


1939 97,9 1970 61,2
1940 89,2 1971 46,8
1941 92,7 1972 79
1942 98 1973 96,3
1943 141,7 1974 77,6
1944 81,1 1975 69,3
1945 97,3 1976 67,2
1946 72 1977 72,4
1947 93,9 1978 78
1948 83,8 1979 141,8
1949 122,8 1980 100,7
1950 87,6 1981 87,4
1951 101 1982 100,2
1952 97,8 1983 166,9
1953 59,9 1984 74,8
1954 49,4 1985 133,4
1955 57 1986 85,1
1956 68,2 1987 78,9
1957 83,2 1988 76,4
1958 60,6 1989 64,2
1959 50,1 1990 53,1
1960 68,7 1991 112,2
1961 117,1 1992 110,8
1962 80,2 1993 82,2
1963 43,6 1994 88,1
1964 66,8 1995 80,9
1965 118,4 1996 89,8
1966 110,4 1997 114,9
1967 99,1 1998 63,6
1968 71,6 1999 57,3

Para as amostras relativamente grandes, é conveniente classificá-las ou agrupá-las em


subconjuntos, de modo que se tenha uma melhor compreensão do padrão de variabilidade da
variável em questão. Esse expediente dá origem a diversos tipos de gráficos, entre os quais se
destaca o histograma de frequência.
Para se construir um histograma, é necessário, primeiramente, agrupar as observações em
classes, definidas por intervalos de largura fixa ou variável, e, em seguida, contar o número
de ocorrências, ou seja, a frequência absoluta em cada classe. O número de classes (NC) a ser
considerado, depende do tamanho da amostra. De fato, um valor excessivamente pequeno
para NC não irá permitir a visualização de características importantes da amostra, enquanto
um valor excessivamente grande irá produzir flutuações exageradas das frequências das
classes. Na literatura especializada há várias sugestões para o NC, uma delas sugere que NC
seja dado pelo valor aproximado do inteiro mais próximo de √ N , com um número de classe
mínimo de cinco e máximo de 25. Outra indicação alternativa para o NC é a regra de Sturges
(1926) que sugere a seguinte aproximação para o número de classes:
NC =1+ 3,3logN (17)

Para ilustrar a elaboração da tabela de frequências, essencial para a construção do


histograma tome a amostra de vazões médias anuais da Tabela 5, cujo tamanho é N = 62. De
acordo com as recomendações mencionadas, o número de classes deve estar compreendido
entre 7 e 8, haja vista que √ 62=7,87 ; tome NC = 7, lembrando que o limite inferior da
primeira classe deve ser menor ou igual ao mínimo amostral (43,6 m 3/s), enquanto o limite
superior da sétima classe deve ser maior ou igual ao máximo amostral (166,9 m 3/s). Uma vez
que a amplitude (A) entre os valores máximo e mínimo da amostra é de 123,3 e que NC = 7,
pode-se arbitrar a largura de intervalo de classe (LIC) como fixa e igual a LIC = 20 m3/s, em
decorrência de ser um inteiro próximo a 17,61, resultado do quociente entre a amplitude (A) e
o número de classes (NC). A Tabela 6 apresenta um resumo do cálculo (a) das frequências
absolutas, obtidas pelo número de ocorrências em cada classe, (b) das frequências relativas,
resultantes da divisão das frequências por N= 62 e (c) das frequências relativas acumuladas.
Essa Tabela 6 é denominada distribuição de frequências da variável vazão média mensal.

Tabela 6 – Frequências das vazões médias anuais (m3/s) do rio Paraopeba, em Ponte Nova do
Paraopeba, para o período 1938 a 1999.
Classe Intervalo de Frequência Frequência Relativa Frequência
Classe (m3/s) Absoluta fj frj Acumulada
F=∑ frj
j
1 (30 - 50] 3 0,0484 0,0484
2 (50 - 70] 15 0,2419 0,2903
3 (70 - 90] 21 0,3387 0,6290
4 (90 - 110] 12 0,1935 0,8226
5 (110 - 130] 7 0,1129 0,9355
6 (130 - 150] 3 0,0484 0,9839
7 (150 - 170] 1 0,0161 1
Total 62 1

Com base nos elementos da Tabela 6, pode-se construir o histograma, da Figura 8. É um


simples gráfico de barras tendo, em abscissas, os intervalos de classes e, em ordenadas, as
frequências absolutas e/ou relativas. A observação do histograma da Figura 8 mostra algumas
características da amostra, tais como: (a) maior concentração de pontos no terceiro intervalo
de classe, o qual provavelmente contém o valor central em torno do qual os pontos restantes
se dispersam; (b) certa assimetria da distribuição de frequências, demonstrada pela maior
amplitude à direita da classe de maior frequência, quando comparada com a amplitude à
esquerda e (c) a ocorrência isolada de observações muito superiores ao valor central. É
importante ressaltar, entretanto, que a forma do histograma é muito sensível ao número, à
largura e aos limites dos intervalos de classe. De volta ao exemplo, note que os dois últimos
intervalos de classe contêm respectivamente 3 e 1 pontos amostrais, os quais certamente
poderiam ser concentrados em uma única classe de largura 40 m3/s, com limite inferior igual a
130 m3/s e superior igual a 170 m3/s.

Figura 8 – Histograma das vazões médias anuais do rio Paraopeba em Ponte Nova do
Paraopeba – Período 1938 a 1999

7.1. Polígono de frequências

O polígono de frequências é outra representação gráfica da tabela de frequências, sendo


muito útil para diagnosticar o padrão de distribuição de uma variável. Esse polígono é aquele
formado pela junção dos pontos médios dos topos dos retângulos do histograma, depois de
estendê-lo por uma classe adicional de cada um de seus lados. O polígono de frequências
correspondente ao histograma da Figura 8 é ilustrado pela Figura 9. Observe que, como o
polígono de frequências deve ter ordenadas inicial e final nulas e, por convenção, área igual à
do histograma, ele deve começar meio intervalo de classe à esquerda e finalizar meio
intervalo à direita (compensação de áreas). Em consequência, o polígono de frequências da
Figura 9 é efetuado com os pontos médios de cada classe contra os valores das frequências
relativas. O valor que corresponde à maior ordenada do polígono recebe a denominação de
moda; no caso da Figura 9, a moda, ou o valor mais frequente, é igual a 80 m3/s.
Note que as respectivas frequências relativas estão limitadas entre os valores extremos de 0
e 1. Além disso, o polígono de frequências relativas representa uma curva de frequência e
poderá se ajustar a um modelo matemático na forma de uma função densidade de
probabilidade.
Figura 9 – Polígono de frequências relativas das vazões médias anuais do rio Paraopeba em
Ponte Nova do Paraopeba – Período 1938 a 1999

7.2. Diagrama de frequências relativas acumuladas

O diagrama de frequências relativas acumuladas resulta da união, por linhas contínuas,


dos pares formados pelos limites superiores dos intervalos de classe e pelas ordenadas
acumuladas do histograma, desde a menor até a maior. No eixo das ordenadas, o diagrama
fornece a frequência de não superação do valor correspondente da variável, lido no eixo das
abscissas. De modo alternativo, o diagrama de frequências relativas acumuladas pode
também ser elaborado sem a prévia construção do histograma ou da tabela de frequências.
Para isso, basta (a) classificar os dados em ordem crescente; (b) associar aos dados
classificados os seus respectivos números de ordem da classificação m, com 1 ≤ m ≤ N; e (c)
associar aos dados classificados as correspondentes frequências ou probabilidades empíricas
de não superação, calculadas pelo quociente m/N. Esse modo alternativo foi aqui usado para
construir o diagrama de frequências relativas acumuladas das vazões médias anuais do rio
Paraopeba em Ponte Nova do Paraopeba, ilustrado na Figura 10. O diagrama de frequências
acumuladas permite a identificação imediata da mediana Q2, qual seja do valor
correspondente à frequência de não superação de 0,5; assim como do primeiro quartil Q1 e do
terceiro quartil Q3, que correspondem respectivamente às frequências de 0,25 e 0,75. No
diagrama da Figura 10 pode-se obter: Q2= 82,7, Q1= 68,2 e Q3= 99,1 m3/s. A amplitude
interquartílica é representada por AIQ, é dada pela diferença entre Q3 e Q1. A AIQ é usada
como parte de um critério para a identificação de pontos atípicos (ou ”outliers”’)
eventualmente presentes na amostra. Como o próprio nome indica, um ponto atípico afasta-se
de modo singular e dramático da tendência geral de variação dos outros elementos da amostra,
podendo ser resultado de erros grosseiros de observações ou simplesmente a manifestação de
eventos muito raros. Comprovado o primeiro caso, a sua remoção da amostra estaria
plenamente justificada; no segundo caso, entretanto, sua remoção seria uma decisão incorreta
ou, pelo menos, controvertida. De volta ao exemplo da Figura 10, e segundo o critério
exposto, a vazão média anual é igual a 166,9 m 3/s, correspondente ao ano civil de 1983, esse
valor é considerado um ponto amostral atípico.

Figura 10 – Diagrama de frequências relativas acumuladas das vazões médias anuais do rio
Paraopeba em Ponte Nova do Paraopeba – Período 1938 a 1999

7.3. Regras gerais para elaborar uma distribuição de frequência

1. calcula-se a amplitude total do rol (diferença entre o maior e o menor número);

2. calcula-se o número de classes, por exemplo, NC=5*LOG(N)+1, em que N é o tamanho da


amostra;

3. determina-se o intervalo de classe IC= amplitude total/NC;


−lim ⁡
lim inf
4. calcula-se o ponto médio de cada classe [ x i= ]
2

5.determina-se o número de observações que caem dentro de cada intervalo de classe (cálculo
das frequências de classes);

6. frequência relativa (frequência da classe (fi) dividida pela frequência total (N)), expressa
em decimais ou percentagem;

7. constrói-se o histograma de frequência;

8. constrói-se o polígono de frequência (ligação dos pontos médios de cada classe, fazendo
compensação de áreas);

9. frequência acumulada e representação gráfica (ogiva);


7.4. Estatísticas para dados agrupados

7.4.1. Média

A fórmula para a média de uma distribuição de frequências, onde x 1, x2, ..., xn são os pontos
médios das classes, ponderados pelas frequências correspondentes f1, f2, ..., fn é dada por:

X =∑
f i xi
i=1 (18)
n

7.4.2. Desvio médio

∑ f i|x i−X| (19)


i=1
DM =
n

Com média para dados agrupados (equação 18)

7.4.2. Variância e desvio-padrão

a variância e desvio-padrão são dadas, respectivamente por:

∑ f i ( x i − X )2 (20)
2 i=1
S=
n−1

S= √ S
2
(21)

7.4.3. Mediana

A mediana divide um conjunto de dados ordenados em duas partes iguais. A expressão


para determinar a mediana de uma distribuição de frequências é dada por:
n
−F ac−1
2 (22)
Md=li +[ ]aC
f Md

em que li é o limite inferior da classe da mediana; n é o tamanho da amostra; a C é a amplitude


da classe; F ac−1 = frequência acumulada anterior à classe da mediana; f Md é a frequência
simples da classe da mediana.
Antes da estimativa da mediana é preciso:

1) Calcular a posição, isto é, a ordem n/2;


2) Identificar a classe que contém a mediana, pela frequência acumulada.

7.4.4. Moda

A moda de um conjunto de n números é o valor que ocorre com maior frequência. A


expressão para determinar a moda de uma distribuição de frequências é dada por:

(23)

em que li é o limite inferior da classe modal; a C é a amplitude da classe; Δ1 é a diferença entre


a frequência da classe modal e a anterior; Δ2 é a diferença entre a frequência da classe modal e
a posterior.
Obs. Antes da estimativa da moda é preciso identificar a classe modal (maior frequência).

7.4.5. Separatrizes: quartis, decis e percentis

i) Quartis

Os quartis dividem um conjunto de dados em quatro partes iguais. A fórmula para o cálculo
dos quartis de uma distribuição de frequência é dada por:

[ ]
i .∑ f i
−f ac −1
4 (24)
Qi=l i + ac
f iQ i
i. ∑ f i
Primeiro calcula-se com i = 1 e 3 para identificar a classe do quantil desejado. Por
4
exemplo, Q1= ¼ do somatório das frequências e Q3=3/4 do somatório das frequências. Note
que Q2 é igual à mediana. Na (24) li é o limite inferior da classe que contém o Q i requerido;
f ac−1 é a frequência anterior à classe que contém Q i e f iQi é a frequência da classe que contém
Qi.

b) Decis

Os decis dividem um conjunto de dados em dez partes iguais. A fórmula para o cálculo dos
decis de uma distribuição de frequência é dada por:

[ ]
i. ∑ f i
−f ac−1
10 (25)
Di=l i + ac
fiD i

i .∑ f i
Primeiro calcula-se com i = 1,2, 3, ...., 9 para identificar a classe do decil desejado.
10
Por exemplo, D1= 1/10 do somatório das frequências e D9=9/10 do somatório das frequências.
Na (25) li é o limite inferior da classe que contém o D i requerido; f ac−1 é a frequência anterior
à classe que contém Di e f iDi é a frequência da classe que contém Di.

c) Percentis

Os percentis dividem um conjunto de dados em cem partes iguais. A fórmula para o cálculo
dos percentis de uma distribuição de frequência é dada por:

[ ]
i .∑ f i
−f ac−1
100 (26)
Pi=l i + ac
f iP i

i .∑ f i
Primeiro calcula-se com i = 1,2, 3,...., 99 para identificar a classe do percentil
100
desejado. Por exemplo, P1= 1/100 do somatório das frequências e D 99=99/100 do somatório
das frequências. Na (26) li é o limite inferior da classe que contém o Pi requerido; f ac−1 é a
frequência anterior à classe que contém Pi e f iPi é a frequência da classe que contém Pi.
A mediana é o percentil de ordem 50, já que a mediana é um valor que divide o conjunto
de dados em duas partes iguais, ou seja, 50% dos dados ficam abaixo e 50% acima. Os
percentis de ordem 25, 50 e 75 são chamados, respectivamente primeiro, segundo e terceiro
quartis porque dividem a distribuição em 1/4, 1/2 e 3/4. São representados por Q1, Q2 e Q3 e,
evidentemente, Q2 é outra notação para a mediana. Enquanto que os decis D1, D2,...., D9 são os
valores que dividem o conjunto em dez partes iguais, que coincidem com os percentis P 10,
P20,,...,P90 , que também dividem os dados em grupos com 10% em cada um. Assim, a fórmula
do percentil sintetiza as expressões da mediana, dos quartis e dos decis.

7.5. Período de retorno

Período de retorno (T r ) ou período de recorrência é definido como o tempo médio (em


anos) decorrido entre as ocorrências de um evento (X) que excede ou iguala-se a certa
magnitude. A relação entre a probabilidade P(X) de ocorrer esse evento (X) e o período de
retorno (T r ) é dada por:

1
T r= (27)
P(X ≥ x)

Ou seja, o período de retorno (T r ) é dado pelo inverso da probabilidade de ocorrer um valor


do evento (X) com magnitude igual ou superior a certo x. Note que um evento raro (altura de
chuva máxima a ser superada) demora em acontecer, assim se o evento é raro o valor da
probabilidade é baixo e o valor de (T r ) é alto.
Em hidrologia, o conceito de tempo de retorno é empregado com muita frequência no
estudo probabilístico de eventos máximos anuais, tais como enchentes ou alturas diárias de
chuvas máximas anuais. Tais variáveis aleatórias podem ser consideradas contínuas e,
portanto, têm seu comportamento definido por funções densidade de probabilidades, tais
como a ilustrada na Figura 11. Seja o quantil xT o valor a ser superado ou igualado da
variável X. Então, o período de retorno T r, associado a esse quantil, corresponde ao número
médio de anos necessário para que o evento (X ≥ xT) recorra uma vez, em um ano qualquer.
Pela equação (27), o período de retorno corresponde ao inverso de P(X≥ xT), indicada pela
área hachurada, na Figura 11.
Figura 11 – Ilustração do conceito de tempo de retorno para eventos máximos anuais

Na verdade a correta probabilidade da Figura 11 deve ser dada por P ( X ≥ x T )=1−F X (xT )

Um importante desdobramento da noção de período de retorno é a definição de risco


hidrológico (R), tal como aplicado em projetos de estruturas hidráulicas. O risco hidrológico
(R) é considerado um quantil de referência x T de período de retorno T r . O risco hidrológico é
definido como a probabilidade de que x T seja igualado ou superado pelo menos uma vez, em
um período de n anos. Em geral, o quantil de referência x T corresponde à cheia para a qual foi
projetada a estrutura hidráulica, enquanto o período de N anos corresponde à sua vida útil.
Uma das possíveis deduções da expressão do risco hidrológico, aqui denotado por R,
remete-nos à distribuição binomial. Com efeito, a probabilidade de que pelo menos um
“sucesso” ocorra em um período de n anos é equivalente à probabilidade do complemento, em
relação a 1, de que nenhum “sucesso” ocorra nesse período. Portanto, usando a notação Y para
o número de “sucessos” em n anos tem-se que:

R=P ( Y ≥ 1 )=1−P ( Y =0 )=1− (n0 ) p (1− p)


0 n−o
(28)

Desenvolvendo a (28) tem-se:

n! 0
R=P ( Y ≥ 1 )=1−P ( Y =0 )=1− p (1− p)n−o
0 ! ( n−0 ) !
n! 0
e p =1, assim;
0 ! ( n−0 ) !

n
R=1−(1− p) (29)

Se o quantil de referência x T tem período de retorno T r, a probabilidade de um “sucesso”, em


1
um ano qualquer, é igual a p= . Substituindo na equação (29) tem-se:
Tr

n
1
R=1−(1− ) (30)
Tr

Se o risco hidrológico é previamente fixado, em função da importância e das dimensões da


estrutura hidráulica, bem como das consequências de seu eventual colapso para as populações
ribeirinhas ou para as comunidades localizadas a jusante de sua posição no sistema fluvial,
pode-se empregar a equação (30) para determinar para qual período de retorno deve ser
calculada a cheia de projeto, por exemplo, do vertedouro de uma barragem, cuja vida útil
estimada é de n anos. A Figura 12 ilustra tal possibilidade.

Figura 12 – Período de retorno ( T r ) da cheia de projeto em função do risco hidrológico (R) e


da vida útil (n) estimada para uma estrutura hidráulica

Embora o conceito de período de retorno esteja, geralmente, vinculado a eventos máximos


anuais, ele também pode ser estendido ao estudo probabilístico de eventos mínimos anuais,
tais como vazões médias mensais mínimas anuais. O processo de Bernoulli, nesse caso, é
semelhante ao de máximos anuais, porém, o que determina o “sucesso” é o fato de o evento
mínimo anual encontrar-se abaixo de certo valor limiar x T . O período de retorno, nesse caso,
passa a ser entendido como o tempo médio, em anos, para que haja a recorrência de uma
estiagem mais severa do que a definida por x T , ou seja, a recorrência de um novo evento {X <
x T }, em um ano qualquer.
Supondo que X represente a variável aleatória contínua, característica do evento mínimo
anual em questão, verifica-se que, nesse caso, o período de retorno T, associado ao quantil de
referência, corresponde ao inverso de P(X < x T ), ou seja, ao inverso da função acumulada de
probabilidades FX ( x T ). A Figura 13 ilustra a extensão do conceito de período de retorno aos
eventos mínimos anuais, por meio de uma função densidade hipotética fX (x).

Figura 13 – Ilustração do conceito de tempo de retorno para eventos mínimos anuais

7.6. Posição de plotagem

Uma fórmula para a estimativa da posição de plotagem para o caso de valores máximos
deve especificar a frequência com que um, entre n valores ordenados de modo decrescente,
será igualado ou superado. A estimativa da posição de plotagem de dados hidrológicos requer
observações individuais independentes entre si e representativas da população. Gumbel
(1958) estabeleceu os seguintes critérios para definição das fórmulas para estimativa das
posições de plotagem:

i) A posição de plotagem deve ser tal que todas as observações possam ser plotadas;
ii) A posição de plotagem deve estar compreendida entre (i-1)/n e i/n , em que i
denota a ordem de classificação de uma amostra ordenada de tamanho n;
iii) No caso de séries anuais, o período de retorno de um valor maior ou igual à maior
observação (ou menor ou igual à menor observação) deve convergir para n,
quando o tamanho da amostra (n) for grande;
iv) As observações devem ser igualmente espaçadas na escala de frequências;
v) A posição de plotagem deve ser intuitiva, analiticamente simples e fácil de usar.

Várias fórmulas de posição de plotagem têm sido apresentadas na literatura, as quais,


geralmente, produzem valores similares no centro da distribuição, mas variam
consideravelmente nas caudas. Algumas dessas fórmulas e seus atributos de aplicação são
apresentados na Tabela 7.

Tabela 7 – Fórmulas para estimativas das posições de plotagem


Fórmula Autor Atributos de aplicação
i Weibull ou Kimbal Probabilidades de excedência
F i=
n+1 não enviesadas para todas as
distribuições
i−0,44 Gringorten Usada para quantis das
F i=
n+0,12 distribuições de Gumbel e
GEV
i−0,275 Blom Quantis não enviesados para
F i=
n+0,25 as distribuições Normal e
Log-Normal
i−0,5 Hazen Usada para quantis da
F i=
n distribuição Gama de 3
parâmetros
i−0,40 Cunnane Quantis aproximadamente
F i=
n+0,20 não enviesados para todas as
distribuições
i Califórnia
F i=
n
i é posição na amostra ordenada e n é o tamanho da amostra
As expressões apresentadas na Tabela 7 são casos particulares da fórmula mais geral
introduzida por Cunnane (1978);

i−a
F i= (27)
n+1−2 a
Em que a é uma constante que pode ter diferentes valores em conformidade com as hipóteses
distributivas. Se a = 0, obtém-se a fórmula de Weibull; se a = 0,44, a fórmula de Gringorten;
se a=0,375, a fórmula de Blom; se a= 0,5, a fórmula de Hazen e se a=0,40, a fórmula de
Cunnane. De uma forma geral, as séries hidrológicas de valores máximos ou médios anuais
são ordenadas de forma decrescente, o que faz com que a posição de plotagem represente a
probabilidade da variável X ser maior ou igual a certo quantil x, ou seja, P ¿≥ x).
Entretanto, quando os valores de uma série são ordenados de forma crescente, como na
análise de valores mínimos anuais, a posição de plotagem denota a probabilidade de não-
excedência, isso é, a probabilidade da variável X ser menor ou igual a x, ou seja, P ¿ x).

A estimativa do conjunto das posições de plotagem dos eventos observados, chamada de


distribuição empírica, permite a elaboração de um gráfico de probabilidades em conformidade
com as seguintes etapas:

1) classificação dos dados em ordem decrescente (análise de máximos) ou crescente


(análise de mínimos);

2) cálculo da posição de plotagem por uma das fórmulas apresentadas na Tabela 7;

3) seleção do tipo de gráfico, em escala aritmética ou papel de probabilidades apropriado;


e

4) plotagem dos pares [Fi, xi], formando o gráfico da distribuição empírica.

Quando são plotadas as distribuições empíricas dos dados hidrológicos, frequentemente,


um ou dois eventos extremos da amostra parecem ter comportamento atípico em relação aos
outros pontos amostrais, como pode ser visto na Figura 11. Nessa figura, estão plotadas as
alturas diárias de chuva máximas anuais (mm), por ano hidrológico, da estação pluviográfica
de Caeté – MG. Foram utilizados 47 máximos anuais na montagem da série (1941/42 a
1999/2000), sendo que o maior valor é 210,2 mm, registrado em 15/02/1978, e a segunda
maior precipitação diária é de 147,1mm. Por meio da fórmula de Gringorten, o tempo de
retorno empírico para a precipitação de 210,2 mm é igual a 84 anos, o qual foi estimado pelo
inverso da probabilidade de excedência com i = 1 e n = 47. Entretanto, observa-se no gráfico
da Figura 11 que este evento deveria estar associado a um tempo de retorno maior, caso fosse
mantida a tendência do alinhamento dos dados amostrais. Trata-se, nesse exemplo específico,
de uma observação atípica em relação àquele conjunto particular de observações amostrais.
Esse comportamento atípico pode decorrer de diversas razões, entre as quais, pode ser citada a
eventual existência de erros grosseiros de medição ou, ainda, a associação de uma
probabilidade empírica incorreta àquela observação específica, como resultado do pequeno
tamanho da amostra. Nesse último caso, supondo que a série de Caeté tivesse, digamos n=150
anos de observações e que, ainda assim, a altura de chuva de 210,2 mm continuasse sendo o
maior valor amostral, o seu tempo de retorno seria de 268 anos, pela fórmula de Gringorten.
Esse exemplo hipotético demonstra a incerteza intrínseca à associação de tempos de
retorno empíricos às observações amostrais. O tratamento desses “outliers” é uma questão
não resolvida e controvertida, mas é frequente a ocorrência de tais observações em amostras
de dados hidrológicos. De fato, como foi visto anteriormente, a probabilidade de um evento
de T anos de tempo de retorno, ocorrer pelo menos uma vez em um período de n anos, é
n
1
calculada pela relação P=1−(1− ) . Assim, a probabilidade de ocorrer pelo menos um
T
evento de 100 anos de tempo de retorno T, durante um período de observação de n=30 anos, é
igual a 0,26 ou 26%.

Figura 14 – Série com presença de pontos atípicos – papel de Gumbel

Ao se grafar a distribuição empírica, em papel de probabilidades, os pares [F i, xi] podem


apresentar uma tendência a se alinharem ao longo de uma reta, a qual pode ser extrapolada
para tempos de retorno superiores àquele associado à maior observação. Todavia, tal situação
é pouco frequente na análise de frequência de séries hidrológicas. Em geral, os pares [Fi, xi]
apresentam curvaturas e irregularidades que se devem a fatores diversos, entre os quais, os
mais importantes são (a) inadequação do modelo de distribuição definido pela seleção do
papel de probabilidades e (b) problemas de amostragem decorrentes de séries hidrológicas de
pequeno tamanho. Tais dificuldades impõem um limite ao uso da análise de frequência com
gráficos de probabilidade, principalmente, quando os quantis de tempos de retorno muito
elevados são o principal interesse.
7.7. Estimação de parâmetros

Nos capítulos precedentes, foram estabelecidas as bases do cálculo de probabilidades para


variáveis aleatórias discretas e continuas. Uma vez conhecido (ou presumido) o modelo
distributivo de uma variável aleatória e em seguida determinados os valores numéricos dos
parâmetros que o definem, podemos calcular as probabilidades associadas a quaisquer eventos
definidos pelos valores da variável em questão. Entretanto, o modelo distributivo e os
verdadeiros valores numéricos de seus parâmetros seriam conhecidos apenas se toda a
população tivesse sido amostrada, o que, na pratica, pelo menos no tocante as variáveis
climáticas, seria impossível. Assim, de posse apenas de uma amostra finita de observações de
uma variável aleatória, devemos extrair conclusões: (i) quanto ao modelo distributivo da
população que contém a amostra e (ii) quanto as estimativas dos valores numéricos dos
parâmetros que descrevem o modelo distributivo.
As técnicas de extração da informação probabilística e de obtenção das estimativas dos
parâmetros a partir de uma amostra de observações, podem ser englobadas nos métodos da
inferência estatística. Em termos gerais, esses métodos fazem a associação entre a realidade
física de um conjunto de observações e a concepção abstrata de um modelo probabilístico
sugerido para uma variável aleatória. De fato, a população é um termo conceitual porque
consiste de um conjunto de elementos possivelmente observáveis, mas que não existem no
sentido físico. Por outro lado, a amostra é constituída por um conjunto de N observações reais
(x1, x2,..., xN) que se supõem terem sido extraídas da população. Essas observações
representam os fatos concretos, a partir dos quais, são obtidas as estimativas de características
populacionais, tais como valor esperado, variância e coeficiente de assimetria, assim como as
inferências sobre a respectiva distribuição de probabilidades e seus parâmetros. A Figura 15
apresenta uma ilustração do raciocínio subjacente a esses métodos de inferência estatística.
Nessa figura, a população, associada a um fenômeno hipotético, foi mapeada por uma
variável aleatória continua X, cuja função densidade de probabilidade foi prescrita como fX(x),
definida por parâmetros θ1 , θ2 ,… … . , θk ; em alguns casos, a forma de fX(x) pode ser deduzida
pelas características físicas do fenômeno em questão, ou pelo cotejo das estatísticas amostrais.
Entretanto, mesmo que a sugestão da fX(x) tenha sido corretamente acertada, as estimativas
θ^ 1 , θ^ 1 ,… … . θ^ k dos parâmetros θ1 , θ2 ,… … . , θk , devem ser necessariamente obtidas das
observações amostrais.

Figura 15 – Amostragem e inferência estatística

O problema, anteriormente descrito, e denominado estimação de parâmetros; o termo


“estimação” significa o ato de produzir estimativas de parâmetros populacionais, a partir de
uma amostra. Dentre os métodos clássicos da inferência estatística, existem dois caminhos
possíveis para obter estimativas de parâmetros: a estimação pontual e a estimação por
intervalos. A estimação pontual refere-se à atribuição de um único valor numérico a certo
parâmetro populacional, a partir de estatísticas amostrais. A estimação por intervalos utiliza as
informações contidas na amostra, para estabelecer uma afirmação quanto à probabilidade, ou
grau de confiança, de que um intervalo de valores conterá o verdadeiro valor do parâmetro
populacional. Neste curso, iremos estabelecer as bases para estimativa pontual e por
intervalos, com maior ênfase, sobre a primeira, por ser frequentemente usada na climatologia
estatística.
Primeira propriedade do estimador: é indesejável que um procedimento de estimação
produza estimativas que, em seu conjunto, sejam sistematicamente maiores ou menores do
que o verdadeiro valor do parâmetro. Com efeito, o que se deseja e que a média das
estimativas seja igual ao valor populacional do parâmetro. Formalmente, um estimador
pontual θ^ e dito um estimador sem viés (ou não viciado) do parâmetro populacional θ se
E [ θ^ ] =θ .Caso o estimador seja enviesado, o viés, ou erro sistemático, é dado pela diferença,
E [ θ^ ] −θ . Muitos estimadores são enviesados, mas possuem outras propriedades desejaveis.
A segunda propriedade desejável dos estimadores e a consistência. Um estimador θ é
considerado um estimador consistente de θ , se, para qualquer número positivo ε ,

lim ¿N →∞ P [ ¿θ−θ
^ |≤ ε ] =1 ¿ (28)

Em alguns casos, um estimador não enviesado pode não ser consistente.

A terceira propriedade desejável dos estimadores é a eficiência. Um estimador não


enviesado é considerado o mais eficiente entre todos os outros estimadores não enviesados, se
sua variância, denotada por Var [θ^¿ ¿, é menor ou igual a variância de qualquer outro
estimador não enviesado de θ .
Finalmente, a quarta propriedade desejável de um estimador é a suficiência. Um
estimador θ^ é considerado um estimador suficiente de θ , se ele usa, ao máximo, toda a
informação sobre θ , contida na amostra {x1, x2,...,xN} de modo que nenhuma outra informação
pode ser adicionada por qualquer outro estimador. Essa e as propriedades de não
De enviesamento, consistência e eficiência, são os fundamentos que guiam a seleção dos
estimadores mais apropriados.
Uma vez escolhida a distribuição de probabilidade a ser ajustada aos dados amostrais,
seus parâmetros devem ser estimados por algum procedimento da estatística para o cálculo de
probabilidades e quantis. Há uma variedade de métodos de estimação de parâmetros, entre os
quais se destacam: (i) o método dos momentos (MOM); (ii) o método da máxima
verossimilhança (MVS); (iii) o método dos momentos-L (MML); (iv) o método da máxima
entropia; (v) o método dos mínimos quadrados; (vi) o método generalizado dos momentos; e
(vii) o método dos momentos mistos.
Desses, consideraremos aqui os três primeiros. O (MVS) é considerado o método mais
eficiente porque produz estimadores de menor variância. Entretanto, para alguns casos, a
maior eficiência do método (MVS) é apenas assintótica, o que faz com que sua aplicação a
amostras de pequeno tamanho produza estimadores de qualidade comparável ou inferior a
outros métodos. Os estimadores de (MVS) são consistentes, suficientes e assintoticamente
sem viés. Para amostras finitas, entretanto, os estimadores de (MVS) podem ser enviesados,
embora o viés possa ser corrigido. O método (MVS) exige um maior esforço computacional,
pelo fato de envolver soluções numéricas de sistemas de equações, frequentemente, não
lineares e implícitas. O método dos momentos (MOM) é um método de estimação mais
simples. Entretanto, seus os estimadores são, em geral, de qualidade inferior e menos
eficientes do que os estimadores de (MVS), particularmente para distribuições de três ou mais
parâmetros. Cabe salientar, no entanto, que para pequenas amostras, os estimadores (MOM)
podem ter atributos comparáveis ou ate mesmo superiores aos de outros estimadores. O
método dos momentos-L (MML) produz estimadores de parâmetros comparáveis, em
qualidade, àqueles produzidas pelo método da (MVS), com a vantagem de exigir menor
esforço computacional para a solução de sistemas de equações menos complexas. Para
amostras pequenas, os estimadores (MML) são, com alguma frequência, mais acurados do
que os de (MVS).

7.8. Funções distribuição de probabilidades

São modelos de distribuição de probabilidades capazes de sintetizar o comportamento das


variáveis aleatórias hidroclimatológicas. Um modelo de distribuição de probabilidades é uma
forma matemática abstrata, que por suas características intrínsecas de variabilidade e
conformação devem ser capazes de representar, as variações possíveis de uma variável
aleatória. Um modelo de distribuição de probabilidades também é uma forma paramétrica, ou
seja, um modelo matemático prescrito por parâmetros, cujos valores numéricos o definem
completamente e o particularizam para certa amostra de observações de uma variável
aleatória. Uma vez estimados os valores numéricos de seus parâmetros, um modelo de
distribuição de probabilidades pode constituir-se em uma síntese plausível do comportamento
de uma variável aleatória a fim de se interpolar ou extrapolar probabilidades e/ou quantis não
contidos na amostra de observações.
Uma função de distribuição discreta é aquela empregada para modelar o comportamento
de uma variável aleatória cujo espaço amostral é do tipo numerável, composto por valores
isolados, em geral, números inteiros. Os principais modelos de variáveis aleatórias discretas,
que encontram uma ampla gama de aplicações em hidroclimatologia, podem ser agrupados
em três grandes categorias. A primeira está relacionada às variações dos processos de
Bernoulli e inclui as distribuições binomial, geométrica e binomial negativa. A segunda
refere-se aos processos de Poisson, na qual se destaca a própria distribuição de Poisson. A
terceira inclui as distribuições hipergeométrica e multinomial.
Considere um experimento com somente dois resultados possíveis e dicotômicos:
“sucesso”, designado pelo símbolo S, e “falha”, por F. O espaço amostral desse experimento é
dado pelo conjunto {S, F}. Tal experimento é conhecido como de Processo de Bernoulli. Se a
probabilidade de ocorrer um sucesso é igual a p e se associarmos a esse experimento uma
variável aleatória discreta X, cujos valores possíveis são X = 1 para o resultado S e X = 0 para
o resultado F, diz-se que X segue uma distribuição de Bernoulli. Assim sua correspondente
função massa de probabilidades é dada por:

x N −x
P X ( x )= p (1− p) (29)

Com valor esperado E [ X ] = p e VAR [ X ] = p(1− p) para a população.

De modo mais geral, suponha que a escala de tempo de um determinado processo


estocástico tenha sido discretizada em intervalos de largura definida, por exemplo, em
intervalos anuais, indexados por i =1, 2, .... Suponha também que, em cada intervalo de
tempo, pode ocorrer um único “sucesso”, com probabilidade p, ou uma única “falha”, com
probabilidade (1-p), e que essas probabilidades não sejam afetadas pelas ocorrências
anteriores. Um processo composto por essa sequência de repetições independentes de
experimentos de Bernoulli é igualmente denominado Processo de Bernoulli. Para ilustrar a
aplicação dos processos de Bernoulli em hidrologia, considere uma seção fluvial hipotética
cujo nível d’água de extravasamento corresponde à vazão Q0. As vazões médias diárias nesta
seção fluvial são monitoradas por uma estação fluviométrica, cujos registros se estendem por
N anos de observações e constituem a série hidrológica completa para esse local. Para cada
ano, seleciona-se o máximo valor entre as 365 (ou 366) vazões médias diárias, Qmax, como
ilustra a Figura 16.
Figura 16 – Cheias máximas anuais como ilustração de um processo de Bernoulli.
Em um ano i qualquer, para 1≤ i ≤ N, pode-se definir como “sucesso” o evento {S : Q máx
i > Q0 }
e como “falha” o evento complementar {F :Qmáx
i ≤Q0 }. Pela natureza do mecanismo de
formação da cheia anual, é bastante plausível admitir a hipótese de que a probabilidade de
ocorrência de um “sucesso” (ou de uma “falha”), em um ano qualquer, não seja afetada pelas
ocorrências anteriores. Supondo que a probabilidade anual do evento {S : Qmáx
i > Q 0 } é igual a
p, verifica-se, então, o preenchimento de todos os requisitos para considerar essa sequência
independente como um Processo de Bernoulli. Aos processos de Bernoulli associam-se três
diferentes tipos de variáveis aleatórias discretas Y:

i) a variável é dita binomial, quando Y se refere ao número de “sucessos” em N


repetições independentes;
ii) a variável é denominada geométrica, quando Y se refere ao número de repetições
independentes necessárias para que um único “sucesso” ocorra; e
i) a variável é denominada binomial negativa, quando Y se refere ao número de
repetições independentes necessárias para que certo número r de “sucessos”
ocorram.

As distribuições de probabilidades dessas três variáveis, associadas aos processos de


Bernoulli, serão detalhadas a seguir.

Distribuição Binomial

Considere um experimento composto por uma sequência de N repetições independentes de


um experimento de Bernoulli. Em cada um desses experimentos, a probabilidade de ocorrer
um “sucesso”, designado por S, é constante e igual a p, e a probabilidade de “falha” F é dada
por (1-p). O espaço amostral do experimento composto contém 2N pontos, com cada um deles
correspondendo aos N pares de “S” e “F”. Para cada experimento isolado, a variável de
Bernoulli, denotada por X, pode ter o valor X = 1, se o resultado for um “sucesso”, ou X=0, se
o experimento resultar em uma “falha”. Um ponto qualquer, tomado ao acaso no espaço
amostral, poderia conter, por exemplo, a sequência {S, F, S, S,....., F, F}, o que faria com
que X1 = 1, X2 = 0, X3 = 1, X4 = 1,....., XN-1 = 0, XN = 0. O experimento composto desse modo é
caracterizado como um Processo de Bernoulli.
Com base no Processo de Bernoulli, tal como anteriormente descrito, considere que a
variável aleatória discreta Y representa o número de “sucessos”, entre as N possibilidades. É
N
evidente que a variável Y pode assumir os valores 0, 1,....., N e que Y =∑ X i. Como
i=1

decorrência da hipótese de independência entre os experimentos de Bernoulli, cada ponto do


espaço amostral com y “sucessos” e (N-y) “falhas” terá probabilidade de ocorrência igual a
p y (1− p) N− y . Entretanto, os y “sucessos” e as (N-y) “falhas” podem ser combinados de
N !/[ y ! ( N− y ) !] diferentes modos, cada um deles com probabilidade igual a p y (1− p) N− y .
Portanto, a função massa de probabilidade da variável Y é dada por:

PY ( y ) =
N!
y ! ( N− y ) !
y
p (1− p) =( )
N−y N y
y
p (1− p)
N− y
(30)

Para y=0,1,.........N e 0 < p < 1.

a equação (30) é denominada distribuição binomial, com parâmetros N e p. Note que a


distribuição de Bernoulli é um caso particular da distribuição binomial (equação (29) com
parâmetros N=1 e p. As funções massa da distribuição binomial com parâmetros N = 8, p =
0,3, p = 0,5 e p = 0,7 estão ilustradas na Figura 17. Observe nessa figura, que o valor central e
a forma da função massa de probabilidades da variável aleatória binomial sofrem alterações
quando o valor do parâmetro p é modificado, mantendo-se N constante.
Figura 17 – Exemplos de funções massa de probabilidades da distribuição binomial

A função acumulada de probabilidades da distribuição binomial fornece a probabilidade de X


ser menor ou igual ao argumento x e é dada por:

y
PY ( y ) =∑
i=0
( Ni ) p (1− p)
i N −i
(31)

Para y= 0,1, 2,........,N

O valor esperado, a variância e o coeficiente de assimetria da distribuição binomial (ver


exercício 16 do capítulo 3) são dados pelas seguintes expressões:

A função massa da distribuição binomial é simétrica quando p = 0,5. Positivamente


assimétrica quando p < 0,5 e negativamente assimétrica quando p > 0,5. Como mostrado na
Figura 17.

Exemplo - Na situação ilustrada pela Figura 16, suponha que N = 10 anos e que a
probabilidade da vazão Q0 ser superada em um ano qualquer é p = 0,25. Pergunta-se:

(a) qual é a probabilidade de que a vazão Q0 tenha sido superada exatamente 2 vezes em 10
anos? e;
(b) qual é a probabilidade de que a vazão Q0 tenha sido superada pelo menos 2 vezes em 10
anos?

Solução: É fácil verificar a completa adequação do cenário ilustrado pela Figura 16 a um


processo de Bernoulli, bem como da variável “número de sucessos em N anos” se adequar a
uma variável binomial Y.

a) pode ser calculada diretamente pela equação (30):

10 ! 2 10−2
PY ( 2 ) = 0,25 (1−0,25) = 0,2816
2 ! ( 10−2 ) !

(b) A probabilidade de que a vazão Q0 tenha sido superada pelo menos 2 vezes em 10 anos é
igual à probabilidade de que o evento tenha ocorrido 2, 3, 4, ... , 10 vezes, em 10 anos, ou
seja, a soma dos resultados da função massa para todos esses argumentos. Entretanto, esse
cálculo é equivalente ao complemento, em relação a 1, da soma das probabilidades de que o
evento não tenha ocorrido ou que tenha ocorrido apenas 1 vez. Portanto:

P ( Y ≥ 2 )=1−P ( Y =0 )−P ( Y =1 )=0,7560

Para o cálculo use a equação (30)

OBS. A distribuição binomial tem pouca aplicação em climatologia porque essa função requer
que os eventos não sejam correlacionados. Em geral a condição de independência não é
satisfeita para dados meteorológicos.

Distribuição de Poisson

Os processos de Poisson estão entre os mais importantes processos estocásticos. Aqui eles são
abordados como um caso limite de um processo de Bernoulli que se desenvolve em uma
escala de tempo, embora possam ser aplicados ao longo de um comprimento, ou de uma área,
ou de um volume. Considere um intervalo de tempo de comprimento t, subdividido em N
subintervalos de comprimento t/N. Suponha que cada subintervalo seja suficientemente
pequeno para que a probabilidade de mais de uma ocorrência de um certo evento S, no tempo
t/N, seja considerada desprezível, quando comparada à probabilidade p de apenas uma única
ocorrência do evento S nesse intervalo. Considere ainda que a probabilidade p é constante
para cada um dos subintervalos. Finalmente, suponha que o número médio de ocorrências do
evento S, em um intervalo de tempo qualquer, seja proporcional ao comprimento de tal
intervalo e que a constante de proporcionalidade é dada por λ. Sob tais condições, é possível
escrever que p = λt/N. O número de ocorrências Y do evento S, em um tempo t, é igual ao
número de subintervalos, nos quais se registrou a ocorrência de S. Se considerarmos tais
subintervalos como uma sequência de N experimentos independentes de Bernoulli, pode-se
escrever:

( )( ) ( )
y N−y
λt λt
PY ( y)= N 1− (32)
y N N
Se, nessa expressão, fizermos p = λt/N suficiente pequeno e N suficiente grande, de modo que
Np = λt, é possível demonstrar que:

( )( ) ( ) ( λt) y − λt
y N− y
λt λt
lim ¿N →∞ N 1− = e ¿ (33)
y N N y!
para y=0,1, ....... e λt > 0

Fazendo ν = λt na equação (33), obtém-se a função massa de probabilidade de Poisson, dada


por:
y
PY ( y )= ν e−ν (34)
y!
para y=0,1, ....... e ν > 0
na (34) o parâmetro ν (ni) representa o número médio de ocorrências por intervalo de tempo.
A função de probabilidades acumuladas de Poisson é dada pela seguinte expressão:

y i
PY ( y )=∑ ν e−ν (35)
i=0 i!

para y=0, 1, ..........


A média e a variância de uma variável discreta de Poisson são dadas por:

E [ Y ] =ν ou E [ X ]=¿ λt (36)

VAR [ Y ] =ν ouVAR [ X ] =¿ λt (37)

e o coeficiente de assimetria da distribuição de Poisson é:


1 1
Υ= ou Υ = (38)
√ν √ λt
A Figura 18 exibe alguns exemplos de funções massa de probabilidades de Poisson.

Figura 18 - Exemplos de funções massa de probabilidades de Poisson

O parâmetro ν representa o número médio de ocorrências de Poisson em um intervalo de


tempo t; a constante de proporcionalidade λ é denominada intensidade de Poisson e
representa a razão média de ocorrência dos eventos por intervalo de tempo. Os processos
estocásticos construídos com base nas premissas mencionadas recebem o nome de processos
de Poisson. Apesar de terem sido deduzidos como caso limite da distribuição binomial, os
processos de Poisson referem-se a uma escala de tempo contínua. Se ao longo dessa escala
contínua, ν e λ forem constantes, os processos de Poisson são considerados homogêneos ou
estacionários; caso contrário, para os processos de Poisson não homogêneos, λ(t) é uma
função do tempo e o número médio de ocorrências, em um intervalo [t1,t2], será dado pela
integral de λ(t) nesse intervalo.

Depreende-se da dedução da distribuição de Poisson que ela pode ser usada como uma
aproximação da distribuição binomial, desde que N seja suficientemente grande e p
suficientemente pequeno. Na prática, é possível aproximar a binomial pela distribuição de
Poisson, com parâmetro ν= N.p, para valores de N > 20 e p < 0,1. Essa aproximação apresenta
a vantagem de não exigir a especificação de N; de fato, desde que a probabilidade de
“sucesso” p seja suficientemente pequena, basta prescrever o número médio de ocorrências
por intervalo de tempo. A exemplo da distribuição binomial, a propriedade aditiva também se
aplica à distribuição de Poisson, ou seja, se as variáveis Y1e Y2 seguem a distribuição de
Poisson, com seus respectivos parâmetros λ1 e λ2, então (Y1+Y2) também é uma variável de
Poisson com parâmetro λ1 + λ2.
Definição

Processo estocástico - é uma coleção de variáveis aleatórias que, em geral, são utilizadas para
estudar a evolução de fenômenos que são observados ao longo do tempo. O processo
estocástico utiliza diversas trajetórias possíveis para estudar a evolução de fenômenos.  

Exemplo – Embarcações chegam a uma eclusa à razão média de 4/hora. Se a chegada de


embarcações é um processo de Poisson, calcule (a) a probabilidade de que 6 barcos cheguem
em 2 horas; e (b) a probabilidade de que o operador da eclusa possa se ausentar por 15
minutos sem que nenhum barco chegue nesse intervalo.

Solução: a) λ=4/ hora e t = 2 horas λt = ν = 8. Portanto, 

b) Para que o operador da eclusa possa se ausentar por 15 minutos e nenhuma


embarcação poder ter chegado nesse intervalo. Trata-se, portanto, de calcular a
probabilidade de nenhuma embarcação haver chegado à eclusa no intervalo de 0,25
horas. Para λ=4/hora e t = 0,25 hora, λt = ν = 1.

OBS. A vantagem da distribuição de Poisson é que ela pode ser utilizada tanto em dados
correlacionados quanto em dados independentes.

Distribuição Binomial Negativa

É empregada em análise de dados climatológicos para àquelas variáveis cuja variância é


maior do que a média. É o caso, por exemplo, do número de dias com granizo durante um
ano, numero de dias com chuva de alta intensidade etc. A função de probabilidade em forma
fatorial é dada por:

( K + X −1 ) ! P
p ( X )= . (39)
X ! ( K −1 ) ! (1+ P) K + X
e a função massa de probabilidade é:

N
P ( X )= ∑ p( X) (40)
X =0

Para X=1, 2, 3, ..........................N


Os parâmetros P e K podem, em alguns casos, ser estimados com base nos dois primeiros
momentos, assim:

1 2
P= (S − X ) (41)
X
e
X2
K= 2 (42)
S −X

A estimativa de K pela equação (4) só é suficiente quando o critério de Fisher for atendido, ou
seja;

CF= 1+( 1P ) . ( K + 2)> 20 (43)

Caso contrário, ou seja, CF menor que 20, devemos estimar o parâmetro K pelo método de
máxima verossimilhança, pela solução iterativa da seguinte equação:

∑ K + X −N . ln ( 1+ KX )=0
A ( x)
(44)

Em que A(x) representa as frequências que excedem as frequências acumuladas de X


A equação (1) pode ser reescrita como:

( K + X −1 ) !
( )
X
1 P
p ( X )= . (45)
X ! ( K −1 ) ! (1+ P) 1+ P
K

Fazendo A=
1
(1+ P) K
e B= ( )
P
1+ P pode-se escrever:
( K + X −1 ) !
p ( X )= . A . B2 (46)
X ! ( K −1 ) !

Para X > 1 é válida a seguinte equação de recorrência:

p ( X +1 )= p ( X ) . ( KX++1X . 1+PP ) (47)

Note que o terceiro termo produto da eq. (47) é igual a B. Para X=0 e tomando a eq. (45)
temos:

( K +0−1 ) !
( ) , o primeiro e o terceiro termos é igual a 1.
0
1 P
p ( X=0 )= .
0 ! ( K−1 ) ! (1+ P) 1+ P
K

1
Assim p ( X=0 )= A=
(1+ P)K
Para X > 1 utiliza-se equação de recorrência, eq. (47), ou seja;

p ( 1 )= p ( X=0 ) . ( K0+1+ 0 . B )
p ( 2 )= p ( 1 ) . (
2+1 )
K +1
. B , generalizando;

.
.

p ( n )= p ( n−1 ) .
( K( n−1)+ 1 )
+(n−1)
.B

Exemplo: Ajuste à Binomial Negativa

Tabela 8 – Distribuição de frequência do número de dias em que a chuva se igualou ou


superou 50 mm, em Pelotas - RS no período de 1893 a 1994.
Ocorrências 2 p ( x i)
2 f (x −X )
(xi) fi f i xi f i xi i i
teórica f e =N . p(x i )
0 3
1 9
2 13
3 24
4 21
5 10
6 10
7 6
8 2
9 1
10 2
11 1
102

Após o ajuste aplicando o critério de Fisher para verificar se é necessário estimar os


parâmetros pelo método da máxima verossimilhança.

CF= 1+ ( 1
0,2306 )
. ( 16,9615+2 )=101,18

Como CF > 20 a estimativa de K com base no método dos momentos é suficiente.

Mesmo com o critério de Fisher satisfeito, vamos estimar o parâmetro K pelo método da
máxima verossimilhança (eq. (44)). Ver planilha Excel.

A (x i) A (x i) A (x i) A (x i)
¿ ¿ ¿ ¿
(xi) fi f ac A(x i ) K + xi ¿ K + xi ¿ K + xi ¿ K + xi ¿
0 3 3
1 9 12
2 13 25
3 24 49
4 21 70
5 10 80
6 10 90
7 6 96
8 2 98
9 1 99
10 2 101
11 1 102
102
Distribuição Binomial Negativa Truncada

Essa distribuição corresponde à binomial negativa sem a ocorrência zero. A binomial truncada
tem a seguinte forma:

W K ( K + X −1 ) !
p ( X )= . .(1−W )X (48)
1−W X ! ( K −1 ) !
K

Para X=1, 2, 3,..........N


Os primeiros momentos são utilizados para estimar os parâmetros W e K da distribuição
binomial truncada.

X 1
W= (1−f 1 ) (49)
S
2
N

1
W X −f 1
N
K=
1−W
(50)

Em que f 1 é a frequência do primeiro evento e N o total de evento (tamanho da amostra). O


cálculo das probabilidades para X=1, 2, 3.....N pela eq.(48) é complexo dado que haverá
números fatoriais não inteiros (uma solução seria utilizar a função Gama) ou eliminar o
fatorial pela seguinte equação de recorrência:

p ( X +1 )= p ( X ) . ( KX++1X )(1−W ) (51)

A probabilidade de que uma sequência de dias com chuva atinja a duração X dias é dada pela
eq.(48). Considerando X+1 dias a eq.(48) torna-se:

W
K
(K + X ) ! X +1
p ( X +1 )= . .(1−W )
1−W
K
( X +1) ! ( K−1 ) !
(52)

A divisão da eq.(52) pela eq.(48) e após as simplificações resulta em:


WK
p ( X=1 ) = K
. K (1−W ) (53)
(1−W )

Exemplo: Ajuste à Binomial Negativa Truncada - (Excel)

Tabela 9 – Dias com chuva na cidade de Piracicaba – SP, no período de 1917 a 1989.
p ( x i) f e =N . p( x i )
2 2
Eventos (xi) fi f i xi f i (xi −X ) teórica
1 161
2 86
3 47
4 19
5 14
6 7
7 3
8 1
9 0
10 1
Soma 339

K 1,3049
W 0,5277
p ( X=1 ) = . K (1−W ) = p ( X=1 ) = . 1,3049 (1−0,5277 ) =0,4731
(1−W )
K
( 1−0,52771,3049 )
Para X > 1 utiliza-se a equação de recorrência eq.(51):

( KX++1X ).(1−W ) ===== p ( 2)= p ( 1) .( K2+1 ) .(1−W )


p ( X +1 )= p ( X ) .

p ( 2 )=0,4731 . ( ) .( 1−0,5277 )=0,2575


1,3049+ 1
2

p ( 3 )=0,2575 . ( ) . (1−0,5277 ) =0,1340


1,3049+1
2
.
.

p ( X +1 )= p ( X ) . ( KX++1X ).(1−W )
A estimativa de K também pode ser obtida pelo método de máxima verossimilhança e é dada
pelo seguinte método iterativo:

K i+ 1=K i− ' (54)

Em que,

( X
)( 1
)(
X − p1 1
)
N
∅=
X− p 1
1+ p 1 ln 1−
K K+X N
+ ∑ ( K + X −1 )−1 . A( x) (55)
k=1

( )
X X p1 X − p1 1 N
∅'= − 2
K (K + X ) K ( X −p 1)
ln 1−
K+X N
+ ∑ ( K + X −1 )−2 . A ( x) (56)
k=1

Em que p1é a probabilidade empírica do primeiro evento e A(x) é o excesso de frequência.

Distribuição Geométrica

A função distribuição de probabilidades Geométrica para variáveis discretas é dada por:

X −1
p ( X )=(1−θ) (57)

Para X=1, 2, 3,....................

O parâmetro varia entre 0 <θ<1 e sua estimativa é efetuada pelo método dos momentos, ou
seja:

1
θ=1− (58)
X

A distribuição geométrica pode ser considerada um caso particular da distribuição Binomial


Negativa Truncada quando o parâmetro K tende para a unidade.

Exemplo: Distribuição Geométrica – Excel

Tabela 10 – Dias com chuva na cidade de Piracicaba – SP no período de 1917 a 1989.


Eventos
(xi) fi fe
14
1 6
2 84
3 76
4 34
5 28
6 15
7 10
8 6
9 6
10 6
11 1
12 0
13 2
14 2
15 0
16 1
17 0
18 1
41
Soma 8

Distribuição Logarítmica

A função distribuição de probabilidades Logarítmica para variáveis discretas é dada por:

α θX
p ( X )= (59)
X

Para X=1, 2, 3, ............


O parâmetro θ varia entre 0 <θ<1 e sua estimativa é efetuada pelo método de máxima
verossimilhança, ou seja:

θ
X= (60)
(θ−1 ) ln ⁡(1−θ)
na eq.(60) é necessário utilizar o método iterativo e o erro de 10−5 . O valor inicial de θ varia
entre 0,0001 e 0,9999.

Após estimar o valor de θ pela eq. (60), o parâmetro alfa é estimado por:

α =−ln ( 1−θ
1
) (61)

Exemplo: Distribuição Logarítmica

Tabela 11 – Dias com chuva no mês de março na cidade de Pelotas – RS no período de 1895 a
1989.

Eventos (X) fi fe
1 258
2 123
3 37
4 14
5 9
6 5
7 2
8 1
9 1
Soma 450

7.9. Distribuições de probabilidades contínuas

Os modelos de distribuição de probabilidades a serem discutidos aqui se referem à modelação


de variáveis aleatórias contínuas. Dentre tais modelos destacaremos àqueles que apresentam
utilidade mais frequente na analise de frequência de variáveis hidroclimatológicas.

Distribuição Uniforme

Uma variável aleatória continua X, cujos valores possíveis x encontram-se restritos a


condição a ≤ x ≤ b, é distribuída uniformemente se a probabilidade de que ela esteja
compreendida em qualquer intervalo [m, n], contido em [a, b], for diretamente proporcional
ao comprimento (m--n). Se a constante de proporcionalidade for denotada por ρ , entao,
P ( m≤ X ≤ n )=ρ ( m−n ) se a ≤ m≤ n ≤ b (62)

Uma vez que P ¿) = 1, e ρ está contido entre (b−a) é verificar que ρ=1/(b−a). Portanto, para
qualquer a ≤ x ≤ b, a função de probabilidades acumuladas da distribuição uniforme é dadas
por:

x−a
F ( x )= (63)
b−a

Se x ≤ a , F ( x )=0 e se x ≥ b , F ( x )=1. A função densidade da distribuição Uniforme decorre da


diferenciação da eq. (63) e tem a seguinte expressão:

1
f ( x )= se a ≤ x ≤ b (64)
b−1

A Figura 19 ilustra as funções densidade e de probabilidades acumuladas da distribuição


uniforme

Figura 19 – Funções densidade e de probabilidades acumuladas da distribuição uniforme

A média e a variância de uma variável aleatória uniforme são dadas, respectivamente, por:

a+ b
E [ X ]= (65)
2
2
( a−b)
E [ X ]= (66)
12
Quando o intervalo de definição da variável X e fixado em [0,1], a distribuição uniforme
encontra sua maior aplicação que e a de representar a distribuição de X =F( y), onde F ( y) ,
denota um modelo distributivo qualquer para a variável aleatória continua Y. Como
0 ≤[ F ( y )=P(Y ≤ y )]≤ 1 para qualquer distribuição de probabilidades, X =F( y) pode ser vista
como uma variável aleatória uniforme no intervalo [0,1]. Esse fato é utilizado para gerar
números aleatórios uniformes x, no intervalo [0,1], que podem ser empregados para obter
números y=F−1 ( y ), distribuídos de acordo com a distribuição F ( y) , desde que a inversa
dessa função exista e possa ser expressa analiticamente. A geração de números aleatórios
uniformes é essencial para a simulação de um grande numero de diferentes conjuntos de
valores de uma variável aleatória, distribuída de acordo com certa função densidade de
probabilidades, com o propósito de avaliar cenários estatisticamente similares aos observados.

Exemplo
Denote por X a temperatura mínima diária em certa localidade e suponha que X varie
uniformemente no intervalo de 16 a 22ºC. Pede-se: (a) calcular a média e a variância de X; (b)
a probabilidade de X superar 18ºC; e (c) dado que, em certo dia, a temperatura já superou a
marca de 18ºC, calcular a probabilidade de X superar 20ºC.

Solução: a) A média e a variância decorrem de aplicação direta das equações (65) e (66), com
a =16 e b = 22ºC. Portanto, E [X] = 19ºC e Var [X] = 3 (ºC)2.

18−16
b) P(X >18ºC) =1- P(X < 18ºC) =1- F (18) = 1 - =¿2/3. (eq. (63))
22−16

A função densidade de X é f(x) = 1/6, eq.(64), para o intervalo 16 ≤ X ≤ 22. Entretanto,


conforme o enunciado, em certo dia, é um fato que a temperatura já superou a marca de 18ºC.
Uma vez que o espaço amostral da variável já foi reduzido, pode-se redefinir a nova função
densidade f ( x )=1 / ( 22−18 )=0,25 para o intervalo 18 ≤ X ≤ 22. Note que 18ºC é o novo limite
inferior para que a integral da função seja igual a 1. Nesse caso, P(X > 20|X > 18) = 1 – F(20)
20−18
=1- =1 /2.
22−18
Distribuição Normal
A distribuição Normal também e conhecida como de Gauss, em referencia ao emprego
pioneiro dessa distribuição no tratamento dos erros aleatórios de medidas experimentais,
atribuído ao matemático alemão Karl Friedrich Gauss (1777-1855).
A distribuição Normal e utilizada para descrever o comportamento de uma variável aleatória
que flutua simetricamente em torno de um valor central. Algumas de suas propriedades
matemáticas fazem do modelo Normal a distribuição apropriada à modelação de variáveis que
resultam da soma de um grande numero de outras variáveis independentes. Além disso, a
distribuição Normal esta na origem de toda a formulação teórica acerca da construção de
intervalos de confiança, testes estatísticos de hipóteses, bem como da teoria de regressão e
correlação. A distribuição Normal e um modelo a dois parâmetros, cujas funções densidade e
de probabilidades acumuladas são expressas, respectivamente, por:

[ ( )]
2
1 −1 x−μ
f ( x )= exp para−∞< x< ∞ (67)
√2π σ 2 2 σ

[ ( )]
x 2
1 −1 x−μ
F ( x )= ∫ exp dx (68)
−∞ √2 π σ 2 2 σ

A Figura 20 ilustra a forma da distribuição Normal, para o caso em que μ=8 e σ =1.

Figura 20 – FDP e FAP da distribuição Normal, com μ=8e σ =1.


O valor esperado, a variância e o coeficiente de assimetria de uma variável Normal, com
parâmetros μ e σ são dados, respectivamente por:
E [ X ] =μ (69)
VAR [ X ] =σ
2
(70)
γ=0 (71)
Como decorrência desses resultados, a função densidade da distribuição Normal é, em geral,
escrita na forma:

[ ( )]
2
1 −1 x−μ
f ( x )= exp , para −∞ < x <∞ (72)
√ 2 πσ 2 σ

Assim, diz-se que X é normalmente distribuída com media μ e desvio-padrão σ , ou,


sinteticamente, que X~N( μ,σ ). Portanto, a média de uma variável Normal X é igual ao
parâmetro de posição, em torno do qual os valores de X se dispersam simetricamente. O grau
com que a variável X se dispersa em torno de μ, é dado pelo parâmetro de escala, o desvio-
padrão σ . A Figura 21 exemplifica os efeitos das variações marginais dos parâmetros de
posição ( μ ¿ e escala (σ ¿ da distribuição Normal.

Figura 21– Efeitos da variação marginal dos parâmetros de posição e escala sobre X~N( μ , σ ¿ .
É possível provar que, se X~N( μ X , σ X ), a variável aleatória Y= aX + b, resultante de uma
combinação linear de X, também é normalmente distribuída com média μY =a μ X +b e desvio-
padrão σ Y =a σ X , ou, sinteticamente, que Y~N( μY =a μ X +b , σ Y =a σ X ). Essa propriedade da
distribuição Normal, conhecida como reprodutiva, pode ser estendida a qualquer combinação
linear de n variáveis aleatórias independentes e normalmente distribuída, Xi.
Com X i =1, 2 , 3 ,… , n ,cada qual com seus respectivos parâmetros μi e σ i.

A função acumulada de probabilidade (FAP) da distribuição Normal, dada pela equação (68),
não tem solução analítica. Com efeito, cada par de valores específicos dos parâmetros μ e σ
requer uma integração numérica específica para a obtenção da função F(x). Esse
x −μ
inconveniente pode ser superado a partir da transformação linear de Z= da variável
σ
x −μ 1 μ
Normal X, de parâmetros μ e σ . Tomando Z tem-se: Z= = x− =ax−b. (ver Figura
σ σ σ

22). Essa é a propriedade reprodutiva da distribuição Normal, para o caso particular em que
1 −μ
os coeficientes da transformação linear são a= e b= , é fácil demonstrar que Z~N
σ σ
(μ Z =0 , σ Z =1) . A variável Z recebe o nome de variável Normal reduzida e a distribuição de
probabilidades de Z é conhecida como distribuição Normal padrão, ou distribuição Normal
em forma canônica. As funções densidade e de probabilidades acumuladas de Z são dadas,
respectivamente, por:

f ( z )=
1
√2 π
exp [ ]
−Z 2
2
, para ∞< x <∞ (73)

[ ]
x
1 −Z 2
F ( z )=∅ ( z )= ∫ exp dz (74)
−∞ √2 π 2

A função de probabilidades acumuladas da distribuição normal padrão ∅ ( z ) pode ser obtida


mediante integração numérica. Em geral, os resultados da integração numérica são dispostos
em forma tabular. Para calcular a probabilidade P(X≤ x ), para X~N( μ X , σ X ), calcula-se
( x−μ X )
primeiro o valor de z= e ,em seguida, de posse do valor tabelado de ∅ ( z ), faz-se P(X≤
σX
x) = ∅ (z ). Inversamente, se o objetivo e o de calcular o quantil x, cuja probabilidade de não
superação é um dado P, verifica-se, inicialmente na Tabela da Normal, a qual valor de z
corresponde ∅ ( z )=¿ P; em seguida, acha-se o quantil x=μ X + zσ X .
Variável reduzida ( Z) 2.5
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2
-2.5
60.0 80.0 100.0 120.0 140.0 160.0 180.0 200.0 220.0 240.0
Variável X

Figura 22 – Variável X contra a variável Normal reduzida (Z)

Exemplo

Suponha que as vazões naturais médias anuais Q de um afluente do rio Amazonas sejam
normalmente distribuídas com media de 10.000 m3/s e desvio-padrão de 5000 m3/s. Calcule
(a) P(Q < 5000) e (b) a vazão média anual de período de retorno T = 50 anos.

Solução: a) a probabilidade P(Q < 5000) pode ser obtida por: a P{z < [(5000-10000) /
5000]}= -1, ou seja a∅ (−1). A tabela da Normal fornece a∅ (−1) = 0,1587. (b) A definição de
período de retorno pode ser aqui empregada, de modo idêntico ao usado para valores
máximos anuais, ou seja, T = 1/P(Q ≥ q). Como T = 50 anos, P(Q≥ q) = 1/50 = 0,02 e,
portanto, Na tabela da Normal esse valor corresponde a z = 2,05. Logo, a vazão q para T = 50
anos corresponde ao quantil q=μq + zσ q = 10000 + 2,05 × 5000 = 20250 m3/s.
O exame da tabela da Normal pode ser visto que 68,26% da área da função densidade da
distribuição Normal esta compreendida entre os limites de um desvio-padrão abaixo e acima
da média, assim [ μ−σ , μ+σ ]. Do mesmo modo 95,44% da área corresponde ao intervalo [
μ−2 σ , μ+2 σ ], enquanto 99,74% está compreendida pela área da função densidade entre os
limites de [ μ−3 σ , μ+3 σ ]. Embora uma variável aleatória Normal seja definida entre - ∞ e +
∞ , a infima probabilidade de 0,0013 de um valor inferior a ( μ−3 σ ), demonstra a
aplicabilidade dessa distribuição à variáveis hidroclimatológicas não negativas, tais como
precipitações e vazões. De fato, se μ X > 3 σ X , a chance de se obter um valor de X negativo e
desprezível. (Figura 23).

Figura 23 – áreas da Normal (0,1)

A função ∅ ( z ) pode ser aproximada por funções de fácil implementação em códigos de


programação de computadores. A aproximação mais frequente de ∅ (z ), para z≥0, é dada pela
seguinte expressão:

∅ ( z ) ≅ 1−f ¿ (75)

Em que f denota a função densidade Normal e a variável auxiliar t é dada por


t=1/1+rz , com r=0,2316419. Os valores dos coeficientes b i do argumento da
função densidade são:
Por outro lado, a inversa z (∅ ), para ∅ ≥ 0,5, pode ser aproximada por:

Em que a variável auxiliar m é dada por:

√[ ]
m= ln
1
(1−∅ )
2

E os valores dos coeficientes c i , d i são:

Foi visto que a variável discreta binomial, representada por X e com parâmetro p, resulta da
soma de n variáveis discretas de Bernoulli. Como consequência do teorema do limite central,
se n for suficientemente grande, é possível aproximar a distribuição Binomial por uma
distribuição Normal. Lembrando que a média e a variância da variável binomial X são,
respectivamente, iguais a np e np(1-p), pode ser verificado que a variável definida por:

tende a ser distribuída conforme uma N(0,1), quando n tende para infinito. A convergência é
mais rápida para valores de p em torno de 0,5; para valores de p próximos de 0 ou 1, maiores
valores de n serão necessários. Analogamente, pode-se aproximar uma variável de Poisson X,
de média e variância iguais a ν, pela variável Normal padrão:

quando ν > 5. Note, entretanto, que ao aproximar uma função massa de probabilidade (FMP)
de uma variável discreta por uma função densidade de probabilidade de uma variável
contínua, deve-se proceder a correção de continuidade. De fato, no caso discreto, quando X =
x, a FMP e uma linha ou um ponto; a linha ou a ordenada do ponto deve ser aproximada, no
caso contínuo, pela área da função acumulada de probabilidade (FAP), entre (x-0,5) e (x+0,5).

Distribuição Log-Normal de 2 parâmetros

Suponha que certa variável contínua X resulte da ação multiplicativa de um grande número de
componentes aleatórios independentes Xi (i = 1, 2,...,n), ou seja que X= X1, X2, ... Xn. Nesse
caso, a variável Y = ln (Xi), tal que Y = ln (X1) + ln (X2) + ... + ln (Xn), em decorrência do
teorema do limite central, irá tender a uma variável Normal, com parâmetros μY e σ Y , quando
n for suficientemente grande para permitir a convergência. Sob tais condições, diz-se que a
variável X segue uma distribuição Log-Normal, com parâmetros μlnX e σ lnX, indicando-se
sinteticamente que X~LN ( μlnX e σ lnX ). A função densidade de uma variável log-normal X e
dada por:

f ( x )=
1
x σ lnX √ 2 π
exp
{ (
−1 lnX −μ lnX
2 σ lnX )} para x >0 (76)

O calculo de probabilidades e de funções inversas pode ser efetuado tal como demonstrado
para a FAP da distribuição Normal, tomando-se Y = ln(X) como variável e, em seguida, X =
exp(Y) para os quantis correspondentes. A Figura 24 exemplifica a variação da forma da
densidade Log-Normal para alguns valores específicos de μlnX e σ lnX.
Figura 24 - Exemplos de funções densidades de probabilidade Log-Normal

O valor esperado e a variância de uma variável log-normal são, respectivamente,

Dividindo a equação da variância por μ2X e, em seguida, extraindo a raiz quadrada, obtém-se a
seguinte expressão para o coeficiente de variação de uma variável log-normal:

(77)
O coeficiente de assimetria da distribuição log-normal é dado por:

Como CVX > 0, resulta que a distribuição log-normal é sempre assimetricamente positiva, com
coeficiente de assimetria proporcional ao coeficiente de variação.

Exemplo Log-Normal

A partir dos registros pluviométricos de certa localidade é plausível a hipótese de que as


alturas de precipitação do trimestre mais chuvoso sejam distribuídas segundo o modelo Log-
Normal. A média e o desvio-padrão das alturas pluviométricas trimestrais são,
respectivamente, 600 e 150 mm. Calcule: (a) a probabilidade da altura pluviométrica do
trimestre mais chuvoso de um ano qualquer ficar compreendida entre 400 e 700 mm; (b) a
probabilidade da altura pluviométrica do trimestre mais chuvoso de um ano qualquer ser pelo
menos igual a 300 mm; e (c) a mediana das alturas pluviométricas, ou a mediana de X.

Solução:

a) Denotemos a variável em questão por X. O coeficiente de variação de X é CV X =S / X =


150/600 = 0,25. Com esse valor na equação (77) obtém-se σ lnX =0 ,246221. Com esse
resultado e com μ X = 600 na equação do valor esperado de X obtém-se μlnX =6,366617.
Portanto, X~LN( μlnX = 6,366617; σ lnX =0 ,246221). A probabilidade pedida é:

P ( 400< X< 700 )=∅ ( ln700−6,366617


0,246221 )−∅ (
ln 400−6,366617
0,246221 )=∅ ( 0,75 )−∅(−1,52)=0,7091
.

b) A probabilidade de P(X≥300)= 1-P(X<300)=1−∅ ( ln 300−6,366617


0,246221 )=1-
∅ (−2,69 )=1−0,0036=0,9964.

c) Pelo fato da variável transformada Y= ln(X) ter como padrão de variação a distribuição
Normal, ou seja, uma distribuição simétrica com a coincidência das medidas centrais
em um único ponto, a mediana de Y e igual a média de Y, ou seja ymd = 6,366617. Como
X passou pelo logaritmo neperiano, toma-se a função inversa do logaritmo: xmd =
exp(ymd). Portanto, a mediana das alturas pluviométricas trimestrais é xmd = exp(ymd) =
exp(6,366617) = 582,0 mm.

Obs. A transformação logarítmica também pode ser feita na base 10.


Como log10(X) = 0,4343.ln(X), a equação (76) deve ser multiplicada por 0,4343 e os quantis
serão x=10 y, ao invés de x=e y .

Distribuição Log-Normal de 3 parâmetros

A distribuição Log-Normal de 3 parâmetros (LN3) e similar a distribuição de 2 parâmetros, já


descrita, exceto o fato de que da variável X deduz-se a quantidade a que representa um limite
inferior. Nesse caso, a variável Y = ln(X-a) e distribuída de acordo com uma Normal com
média μY e desvio-padrão σ Y . A função densidade correspondente é:

1 (78)
f ( x )=
¿¿

A média e a variância da distribuição Log-Normal de 3 parâmetros são, respectivamente,

O coeficiente de variação de uma variável LN3 é expresso por:

Em que w e definido em função do coeficiente de assimetria da variável original X:

A proposição da distribuição log-normal justifica-se pela extensão dos princípios do teorema


do limite central à uma variável que resulta da ação multiplicativa de componentes aleatórios
independentes. (isso é controverso).
A controvérsia decorre da impossibilidade de enunciar tais fatores e compreender, com
precisão, sua ação multiplicativa. Além disso, para justificar a aplicação preferencial da
distribuição log-normal a variáveis hidroclimatológicas, tais como vazões de cheia ou de
estiagem, precipitação pluvial etc., existe ainda a necessidade da verificação, quase sempre
muito complexa, das condições de independência e de convergência, inerentes ao teorema do
limite central.
O fato da variável log-normal ser positiva, aliado a sua característica de ter como
coeficiente de assimetria um valor não fixo e sempre maior do que zero, fazem da distribuição
log-normal uma forma paramétrica que pode se adequar muito bem à modelagem de vazões e
alturas de chuva máximas (ou médias) mensais, trimestrais ou anuais.
Distribuição Exponencial
O tempo contínuo entre duas ocorrências sucessivas de um processo de Poisson pode ser
modelado pela distribuição exponencial. Além desse fato matemático, a distribuição
exponencial possui aplicações na hidroclimatologia, principalmente a dados com forte
assimetria positiva. A função densidade da distribuição exponencial e expressa por:

f ( x )= λ e−λx , para x≥0 (79)


1
Em que λ¿ é o único parâmetro da distribuição e a função acumulada de probabilidades é
X
dada por:


F ( x )=∫ λ e−λx =1−e−λx (80)
0

O valor esperado, a variância e o coeficiente de assimetria de uma variável exponencial são


expressos, respectivamente, por:
1
E [ X ]=
λ
1
VA R [ X ] = 2
λ
Υ =2
Note que o coeficiente de assimetria da distribuição exponencial é fixo e positivo. A Figura
25 ilustra a FDP e a FAP dessa distribuição para 1/λ = 2 e 1/λ = 4.

Figura 25 – FDP e FAP da Distribuição Exponencial para λ = 2 e λ = 4.

Exemplo: Ajuste à exponencial pelo Excel


Distribuição Gama

A função densidade de probabilidade Gama é dada por:

1
f ( X )= γ
X γ −1 e−X / β
Γ ( γ )β (81)

Para β , γeX >0 , em que Γ( γ) é a função tal de gama (γ)


x
Γ( X )=∫ X γ−1 e− X dx
0 , para todo X>0

Γ( X ) pode ser obtido por:

Γ ( X )=
√ 2 π X [ Ln( X )−f ( X ) ]
X
e
(82)

em que,

1 1 1
f ( X )=1− + −
12 X 360 X 1260 X 6
2 4
(83)

Parâmetros da Gama:

X̄ =γβ −média ( 84 )
S 2 =γβ 2 −var iância ( 85 )
2
CA= −coeficiente de assimetria ( 86 )
√ γ

Note que βeγ podem ser obtidos pelas equações (84) e (85).

Pode-se também estimar por:

1
γ^ =
4A
1+ 1+[ √
4A
3 ] e, ( 87 )
^ X̄ / γ^
β= ( 88 )

Em que
A=Ln { X̄− X̄ g ¿
N N
1 1
X̄ = ∑ f i . xi e X̄ g = ∑ Ln( x i ). f i
N i=1 N i=1 é a média geométrica, ou ainda por:

2
0 , 5000876+0 , 1648852 Z−0 , 054427 Z
γ^ =
Z (89)
Em que
Z=Ln { X̄− X̄ g ¿ , para 0≤Z≤0,5772

e;

8 ,898919+9, 05995 Z +0 , 9775373 Z 2


γ^ =
Z (17 , 79728)+11 ,968477 Z +Z2 , para 0,5772 ≤Z≤17,0

Em seguida a estimativa de γ^ poderá ser levada na equação (88) e se estimar β^ . Assim, a


função distribuição de probabilidade acumulada é dada por:

x
1
γ∫
F( X )= X γ−1 e− X / β dx
Γ ( γ )β 0 (90)

A Figura 25 apresenta os gráficos da função densidade Gama para os conjuntos de valores dos
parâmetros de forma γ e de escala β. Note nessa figura que a função do parâmetro β é a de
comprimir ou estender a densidade para a esquerda ou para a direita, por meio do
escalonamento dos valores de X. Por outro lado, a grande diversidade de formas da densidade
Gama é garantida pela variação do parâmetro γ. Como ilustrado na Figura 25, à medida que γ
decresce, a densidade da Gama torna-se cada vez mais positivamente assimétrica. Para γ =1, a
densidade intercepta o eixo vertical no ponto 1/ β e configura o caso particular em que a
distribuição Gama torna-se a distribuição exponencial, com parâmetro β. Para valores
crescentes do parâmetro de forma γ, a função densidade Gama torna-se menos assimétrica,
com o seu valor modal deslocando-se cada vez mais para a direita. Para valores muito
elevados de γ, a distribuição Gama aproxima-se da forma de uma distribuição Normal. Note
que o parâmetro de forma γ é um numero adimensional. A versatilidade de formas, o
coeficiente de assimetria variável e positivo, aliados ao fato da variável aleatória não ser
definida para valores negativos fazem da distribuição Gama um modelo probabilístico muito
atraente para a representação de variáveis hidroclimatológicas. A distribuição Gama pode ser
bem sucedida quando aplicada a alturas de precipitação pluvial de durações diárias, semanais,
mensais e anuais; também poderá modelar vazões médias anuais.
Figura 26 - Exemplos de funções densidades de probabilidade da distribuição Gama

Solução numérica da equação (90)

Mudança de variável: fazendo t=X/β tem-se X= βt e dx= βdt, assim;

F(t )=

γ . Γ (γ ). et[1 +
t1
+
t2
+
t3
γ +1 ( γ +1 ) ( γ+2 ) ( γ+1 ) ( γ +2 ) ( γ+3 )
+. .. . .. .. . .
] (91)

Desse modo, a P[X≤t]=F(t), ou seja a probabilidade de ocorrer um valor X≤t é dada pela
equação (91).

Procedimento Prático: utilize o EXCEL

1) estime a média e o desvio-padrão

2) estime a media geométrica para dados agrupados

3) estime o valor de
A=Ln { X̄− X̄ g ¿

4) use a equação (87) para estimar gama


5) use a equação (88) para estimar beta;

6) substitua X por γ na equação (83) e estime f (γ ) ;

7) substitua X por γ na equação (82) e estime Γ( γ)

8) obtenha o valor da probabilidade de um dado valor X usando a equação (81)

9) a probabilidade acumulada de um dado valor X é obtida pela equação (91) após


X
t=
transformar a variável X em t, ou seja, β^
10) obs. para obter a probabilidade acumulada, utilizando a equação (91) é necessário
faze-la convergir;

11) utilize os mesmos dados do ajuste da Log-normal, considerando os limites superiores


das classes como X e estime as probabilidades acumuladas.

A função acumulada de probabilidade de X pode ser expressa pelo quociente entre a função
Gama incompleta e a função Gama completa, assim:

ᴦ i (ξ , Υ )
F ( x )=
ᴦ (Υ )

esse quociente pode ser aproximado pela distribuição Normal padrão ∅ (u), calculada no
ponto, definido por:

∅ ( u )=3 √ Υ .
2
(√ Υξ −1+ 91γ )
3
(92)

Exemplo da Gama

Recalcule as probabilidades dos itens (a) e (b) do exemplo da Log-Normal usando a


distribuição Gama.

Solução: Inicialmente, devemos calcular os valores numéricos dos parâmetros γ e β. A


S 2 1502
combinação das equações (84) e (85) resulta em X =γβ ; S2=γ β 2 → β= = =37,5 mm.
X 600
600
Substituindo esse valor em uma das duas equações, resulta que γ= X / β=¿ =¿ ¿16.
37,5
(a) P(400 < X< 700) =F(700) - F(400). Para calcular probabilidades da distribuição Gama é
preciso normalizar a variável, dividindo o quantil pelo parâmetro de escala, ou seja, para x =
700, ξ=x / β=700 /¿ 37,5 = 18,67. Esse valor, levado na equação (92), com γ =16, resulta em
∅ ¿u) = 0,72. A Tabela da Normal fornece para F (0,72) = 0,7611 e, portanto, P(X < 700) =
0,7611. Procedendo do mesmo modo para x = 400, tem-se que P(X > 400) = 0,0758. Logo,
P(400 < X < 700) = 0,7611- 0,0758 = 0,6853. (b) A probabilidade P(X > 300) = 1- P(X < 300),
Para x = 300, ξ=x / β=300 /¿ 37,5= 8 . A equação (92), com γ = 16, resulta em ∅ ¿u) = - 2,39
e, finalmente, F(-2,39) = 0,0084. Logo, P(X > 300) = 1- 0,0084 = 0,9916. Note que esses
resultados não são muito diferentes daqueles obtidos para o exemplo da Log-Normal.

Distribuição Beta

A distribuição Beta e um modelo probabilístico para uma variável aleatória contínua X, cujos
valores possíveis são limitados superior e inferiormente. Na forma da distribuição Beta
padronizada, a variável X é definida no intervalo [0,1]. Nesse caso, a função densidade Beta é
expressa por:

1 α−1 β −1
f ( x )= x (1−x ) , para 0 ≤ x ≤1 , α e β> 0 (93)
B (α , β )
em que α e β são parâmetros e B ( α , β ) representa a função Beta completa e é dada por:

1
Г (α ) Г (β)
B ( α , β )=∫ t
α−1 β −1
(1−t) dt = (94)
0 Г (α + β)

Sinteticamente, indica-se que X Be ( α , β ) . A função de probabilidades acumuladas da


distribuição Beta é dada por:

x
1 Bi (x , α , β )
F ( x )= ∫
B ( α , β) 0
α −1 β −1
x (1−x ) dx=
B (α , β )
(95)

Em que, Bi (x , α , β ) denota a função beta incompleta. Quando α =1, a equação (95) pode ser
resolvida analiticamente. Entretanto, para α ≠ 1, o cálculo de probabilidades da distribuição
Beta exige aproximações numéricas da função Bi ( x , α , β ) . Os dois parâmetros α e β
determinam a forma da distribuição. Se β >1 a distribuição é unimodal; com α e β <1 a
distribuição assume a forma de U; quando α <1 e β ≥ 1 a distribuição assume a forma de J
invertido; com α ≥ 1 e β <1 a forma da distribuição é a do J e quando α =β a distribuição é
simétrica. A distribuição Uniforme é um caso particular da distribuição Beta, quando α =β=1
. A média e a variância de uma variável aleatória Beta são dadas, respectivamente, por:

α
E [ X ]= (96)
α+ β

αβ
VAR [ X ] = 2 (97)
(α+ β ) (α+ β+1)

A função Beta é flexível e toma diferentes formas, dependendo dos valores dos parâmetros.
Se a variável X for restrita a um intervalo {a, b} então ela poderá ser representada por uma
distribuição Beta, após passar pela transformação:

(x¿¿ i−a)
Y= +0,0001 ¿ (98)
(b−a)
Em que a e b são os limites inferior e superior da amostra, respectivamente. Assim, a
integração numérica da F(x) pode ser dada por:

x α −1 β−1 x k α −1 β−1
x (1−x) x .x .(1−x)
F ( x )=∫ dx=∫ dx (99)
0 B (α , β ) 0 B (α , β )
e

x
B ( α , β )=∫ x
α −1 β−1
(1−x) dx (100)
0

para 0< x <1 ou 0,0001< x <0,9999. As estimativas dos parâmetros são dadas por:

Y 2 (1−Y )
α^ = 2
−Y (101)
SY

^β= α^ (1−Y ) (102)


Y
α^ e ^β são parâmetros de forma e Y é o parâmetro de locação. As equações (99) e (100) podem
ser integradas numericamente. O valor da constante k pode ser obtido por tentativa e erro.

Exemplo – planilha Excel


Procedimento prático

1) determine os limites inferior e superior da amostra (a=9 e b=420);


(x¿¿ i−9)
2) estime os valores de Y = ¿;
(420−9)
3) estime a média Y ;
4) estime α pela equação (101) e β pela equação (102);
5) estime a curva teórica f(x) sem ordenar Yi;
6) ordene de forma crescente os valores de Yi e estime a F(x) acumulada.

Distribuição de Gumbel (Máximos)

A distribuição de valores extremos do Tipo I recebeu as seguintes outras denominações:


distribuição de Gumbel, Fisher-Tippet tipo I e dupla exponencial. No caso de valores
máximos, a distribuição de Gumbel refere-se à forma assintótica limite para um conjunto de N
variáveis aleatórias originais {X1, X2,......,XN}, independentes e igualmente distribuídas
conforme um modelo F(x), de cauda superior exponencial. A distribuição de Gumbel
(máximos) e a distribuição extrema mais usada na analise de frequência de variáveis
hidroclimatológicas, com inúmeras aplicações na determinação de relações intensidade-
duração-frequência de precipitações intensas e estudos de vazões de enchentes. A função de
probabilidades acumuladas da distribuição de Gumbel e dada por:

[
F ( x )=exp −exp
α )]
( −x−β (103)

para−∞ < y <+ ∞;−∞< β <+∞ e α >0, em que α e β são os parâmetros de escala e posição,
respectivamente. A função densidade de probabilidade de Gumbel é:

1
f ( x )= exp
α [
−x−β
α
−exp
α(
−x−β
)] (104)

O valor esperado, a variância e o coeficiente de assimetria de X são dados, respectivamente,


por:
E [ X ] =β +0,5772. α (105)
2 2
π α
VAR [ X ] = (106)
6
γ=1,1396 (107)

Observe que a distribuição Gumbel possui um coeficiente de assimetria positivo e constante.


A Figura 27 ilustra a função densidade Gumbel, para alguns valores específicos dos
parâmetros α e β .

Figura 27 – Exemplos de funções densidades da distribuição de Gumbel (máximos)

A função inversa da FAP de Gumbel, ou função de quantis, é expressa por:

y ( F )= β−α . ln [−ln ( F ) ] (108)


ou

[
y ( T r )=β −α . ln −ln 1−
( 1
Tr )] (109)

Em que T r é o período de retorno (em anos) e F representa a probabilidade anual de não


excedência. Em alguns estudos de regionalização de vazões de cheias, o quantil: y (T r = 2,33)
é denominado: “cheia media anual”.

Estimativa dos parâmetros α e β pelo método dos momentos

A variável reduzida de Gumbel é dada por:


y=(x i−α ) /β (110)
Substituindo a eq.(110) na eq.(103) tem-se:

F ( y )=exp −exp
[ ( −x i−β
α )] (111)

Assim, a eq.(11I) pode escrita como:


−y

P ( Y < y )=F ( y ) =e−e (112)

A eq.(112) é a probabilidade de não excedência e a probabilidade de excedência é:


−y
−e
P ( Y ≥ y )=F ( y )=1−e (113)
As estimativas dos parâmetros α e β pelo método dos momentos são dadas por:
^β=S . √ 6 / π (114)
α^ = X - γ ^β (115)
Em que S é o desvio-padrão e γ=0,5772é a constante de Euler.
Fazendo P ( Y ≥ y )=P na eq. (113) tem-se:
−y −y
−e −e
P=1−e ou 1−P=e (116)
Aplicando o (ln) duas vezes em ambos os membros da eq.(116) tem-se:
y=−ln ⁡[−ln ( 1−P ) ] (117)
1 ∴ P= 1
Mas, T r= , substituindo na eq.(117) tem-se:
P Tr

y (T r )=−ln ⁡[−ln 1−
( 1
Tr
]
) (118)

A eq. (118) é a variável reduzida da distribuição de probabilidade Gumbel em função do


período de retorno (Tr).

Estimativa dos parâmetros α e β pelo método da regressão

Considere as variáveis reduzidas y=−ln ⁡[−ln ( 1−P ) ] e y=(x i−α ) /β

Substituindo uma na outra se tem: x i−α =−β . ln ⁡[−ln ( 1−P ) ] ou


1
x i=α −β . ln ⁡[−ln ( 1−P ) ] , mas P=
T r , assim;

x i (T r )=α −β . ln ⁡[−ln 1−
( 1
Tr
]
) (119)

ou
x i ( T r ) =α −β .Y , com Y =ln ⁡[−ln 1−
1
Tr
]
( ) (120)

Em que α é o coeficiente de interceptação da reta e β é o coeficiente angular da reta.


Também podemos estimar os coeficientes assim: seja a equação;

y=−ln ⁡[−ln ( 1−P ) ] e y=(x i−α ) /β ou

xi −α i
=−ln [ −ln ( 1−P ) ] , como a frequência de Kimball é dada por : F= ≅ P , temos:
β n+1

1
β
α
xi − =−ln −ln 1−
β
i
n+ 1 [ ( 1 α
, fazendo a= e b= tem-se:
β β )]

a x i−b=−ln −ln 1−
[ ( i
n+ 1 )]
, X =( x 1 , x 2 , x3 , x 4 , … … . x n ,) e

[ (
Y =−ln −ln 1−
i
n+1 )] 1
, assim Y =aX−b , com β = e α =b . β
a

Os valores de a e b podem ser determinados pelo método dos mínimos quadrados (MMQ).
Pelo uso da eq.(119) ou eq.(120) pode-se determinar a magnitude de qualquer evento x i em
função do período de retorno (Tr).
i
A frequência de Kimball é dada por: F= é uma das frequências empíricas que deve
n+1
se aproximar da frequência teórica P da distribuição de Gumbel, se se verificar o ajuste da
i
função aos dados da amostra. Assim; se F= ≅ P então;
n+1

Estimativa dos parâmetros α e β pelo método da máxima verossimilhança

(∑ )∑
n n
^β= X - xi . . e
−x i/ β
/ e−x i/β

i=1 i=1

e,

(∑ )
n
α^ =− β^. log
−x i/β
e /n
i=1
O valor inicial de ^β pode ser calculado pelo método dos momentos: ^β=S . √ 6 / π .
A relação entre y T e QT pode ser dada por:
r r

X T −X +0,45. S X
yT = r
(121)
r
0,7797. S X

em que y T é a variável reduzida em função do período de retorno.


r

Exemplo da distribuição de Gumbel – Considere as vazões máximas diárias e anuais (m3/s)


do rio Jaguari. A média =334,7; desvio-padrão = 91,89; alfa=293,29 e beta= 71,65.

518
496 Tr
483 2 0,5 -0,6931 0,69315 - 0,3665 319,6
409 2,33 0,5708 -0,5607 0,5607 - 0,5786 334,7
398 5 0,8 -0,2231 0,22314 - 1,4999 400,8
394 10 0,9 -0,1054 0,10536 - 2,2503 454,5
350 20 0,95 -0,0513 0,05129 - 2,9702 506,1
335 25 0,96 -0,0408 0,04082 - 3,1985 522,4
331 30 0,96667 -0,0339 0,0339 - 3,3842 535,7
323 50 0,98 -0,0202 0,0202 - 3,9019 572,8
320 100 0,99 -0,0101 0,01005 - 4,6001 622,9
311 200 0,995 -0,005 0,00501 - 5,2958 672,7
304 300 0,99667 -0,0033 0,00334 - 5,7021 701,8
296 500 0,998 -0,002 0,002 - 6,2136 738,4
284 1000 0,999 -0,001 0,001 - 6,9072 788,1
248
246 800.0
242
750.0
221
700.0
184
Vazões máximas (m3/s)

650.0
600.0
550.0
500.0
450.0
400.0
350.0
300.0
0 100 200 300 400 500 600 700 800 900 1000
Período de retorno Tr
Ordem (i) Q(m3/s) F= i/N+1 Ln (i/N+1) Ln(-Ln(i/N+1)) F'(x) Tr (anos)
1 518 0,0476 -3,0445 1,1133 0,2800 21,00
2 496 0,0952 -2,3514 0,8550 0,3464 10,50
3 483 0,1429 -1,9459 0,6657 0,4018 7,00
4 409 0,1905 -1,6582 0,5057 0,4529 5,25
5 398 0,2381 -1,4351 0,3612 0,5018 4,20
6 394 0,2857 -1,2528 0,2254 0,5499 3,50
7 350 0,3333 -1,0986 0,0940 0,5976 3,00
8 335 0,3810 -0,9651 -0,0355 0,6452 2,63
9 331 0,4286 -0,8473 -0,1657 0,6928 2,33
10 323 0,4762 -0,7419 -0,2985 0,7402 2,10
11 320 0,5238 -0,6466 -0,4360 0,7870 1,91
12 311 0,5714 -0,5596 -0,5805 0,8325 1,75
13 304 0,6190 -0,4796 -0,7349 0,8757 1,62
14 296 0,6667 -0,4055 -0,9027 0,9151 1,50
15 284 0,7143 -0,3365 -1,0892 0,9488 1,40
16 248 0,7619 -0,2719 -1,3022 0,9747 1,31
17 246 0,8095 -0,2113 -1,5544 0,9912 1,24
18 242 0,8571 -0,1542 -1,8698 0,9985 1,17
19 221 0,9048 -0,1001 -2,3018 1,0000 1,11

20 184 0,9524 -0,0488 -3,0202 1,0000 1,05

600
Vazões máximas (m3/s)

500
f(x) = 79.3821144112613 x + 376.21063132461
400 R² = 0.887313541554612

300

200

100

0
-3.5000-3.0000-2.5000-2.0000-1.5000-1.0000-0.5000 0.0000 0.5000 1.0000 1.5000

Variável reduzida
Probabildade empírica - F=i/N+1

1.000
0.900
f(x) = 0.842714916907809 x + 0.305244269579914
R² = 0.966730128027414
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0.000
0.0000 0.2000 0.4000 0.6000 0.8000 1.0000
Probabilidade teórica - F'(x)
Distribuição de Weibull

A distribuição de Weibull refere-se à forma assintótica limite para um conjunto de N variáveis


aleatórias originais {X1, X2,....,XN}, independentes e igualmente distribuídas. A distribuição de
extremos do Tipo III recebeu a denominação de distribuição de Weibull por ter sido usada
pela primeira vez pelo engenheiro sueco Waloddi Weibull (1887-1979) na análise da
resistência à fadiga de certos materiais. A constatação de que, em um cenário extremo, as
vazões que escoam por uma seção fluvial são forçosamente limitadas inferiormente pelo valor
zero, faz com que a distribuição de Weibull seja uma candidata natural para a modelagem de
eventos hidrológicos mínimos. A fórmula geral da distribuição de probabilidades de Weibull
é:

{[ ]}
α

( )
(α−1)
α x−μ ( x−μ)
f ( x )= .exp − (122)
β β β

Para x ≥ μ ; α , β >0
em que,
α – é o parâmetro de forma
μ– é o parâmetro de locação
β−¿ é o parâmetro de escala

Quando μ=0 e β=1 obtém-se a distribuição padrão de Weibull. Quando μ=0 e β ≠ 1, a


distribuição é dita bi-paramétrica e é dada por:

( )( ) [ ( )]
(α −1) α
α x x
f ( x )= . . exp − (123)
β β β
para x , α e β >0

um aspecto conveniente da distribuição de Weibull é que ela é analiticamente integrável e sua


função distribuição de probabilidades acumuladas (FDA) é dada por:

[ ( )]
α
x
F ( x )=P [ X ≤ x ] =1−exp − (124)
β

para x , β ≥0 e α > 0
O valor esperado e a variância de uma variável de Weibull são dados, respectivamente, por:

( )
E [ X ] =βГ 1+
1
α
(125)

2
VAR [ X ] =β Г 1+
[ ( α2 )−Г (1+ 1α )]
2
(126)

Os coeficientes de variação e assimetria da distribuição Weibull são:

CV =
√ ( 2α )−Г (1+ α1 ) = √ B ( α )− A (α )
Г 1+ 2
2
(127)
Г (1+ )
1 A (α )
α

γ=
( α3 )−3 Г (1+ 2α ) . Г (1+ α1 )+ 2 Г (1+ 1α )
Г 1+
3

[√ Г (1+ 2α )−Г (1+ α1 )]


3 (128)
2

A Figura 28 ilustra a função densidade da distribuição de Weibull para alguns conjuntos


paramétricos específicos.

Figura 28 – Exemplos de funções densidades da distribuição de Weibull

Conhecidos os dois parâmetros α e β , os quantis de Weibull podem ser calculados por:

X ( F )=β [ −ln ⁡(1−F ) ]


α (129)
Ou, em função do período de retorno:

[ ]
1
1 α
X ( T r ) =β −ln ⁡(1− ) (130)
Tr

A frequência empírica de Kimball é dada por F=i /n+1 , substituindo−ana eq.(124) tem-se:

[ ( )] [ ( )]
α α
i x i x
F= =1−exp − =1− =exp − (131)
n+1 β n+ 1 β

Linearizando a eq.(131) tem-se:

( ) ()
α
i x
ln 1− =− (132)
n+1 β

multiplicando a eq.(132) e aplicando o ln tem-se:

[ (
−ln −ln 1−
i
n+ 1)] [ (
=α ln ( x )−α ln ⁡( β) ; fazendo Y= −ln −ln 1−
i
n+ 1
, )]
α =a; ln ( x )= X e αln ( β )=b pode-se escrever: Y =aX +b

Procedimento Prático:

1 – Faça o rol decrescente das vazões;

2 – calcule a frequência de Kimball, F=i/N+1;

3 – calcule os valores das variáveis: Y= −ln −ln 1−[ ( i


n+ 1 )]
4 – calcule os valores das variáveis: X=ln(x) e obtenha a = α; b = - αln(β) e β = invln (b/-α);

5 – substitua os valores de α e β na eq.(124) e estime as probabilidades de não excedência;

6 – estime Tr=1/1-F’(x) em anos.


Exemplo Weibull

Alguns estados brasileiros adotam como vazão de referência, para a outorga de direito de uso
da água, a vazão média mínima anual de 7 dias de duração e de período de retorno de 10 anos,
representada por Q7,10 ; para um dado ano de registros fluviométricos, o valor de Q7 anual
corresponde a menor média de sete vazões consecutivas ocorridas naquele período. Suponha
que as Q7 anuais sejam denotadas pela variável aleatória Z e que, em um dado local, E[z] =

28,47 m3/s e σ(z) = 7,5956 m3/s. Calcule a vazão Q7,10 pelo modelo de Weibull.

Solução: Com E[z] = 28,475 m3/s e σ[z] = 7,5956 m3/s, calcula-se CV = σ [z ]¿ ¿/ E [ z ] =¿ ¿


0,2667. Na Tabela 12, entra com CV = 0,2667, obtém-se A(α) = 0,9093, B(α) = 0,8856 e α =

4,2301. Com A(α) = 0,9093 na equação (125), tem-se E [ X ] =βГ 1+ ( 1α ) ∴ β=E [ X ] /Г (1+ 1α )
= E [ X ] / A ( α ) =31,3153. Com os dois parâmetros na eq. (130) obtêm-se:

[ ] [ ]
1 1
1 1 3
X ( T r ) =β −ln ⁡(1− ) α =X ( 10 )=31,3153 − ln ⁡(1− ) 4,2301
=18,4 m /s. Assim, conclui-se
Tr 10

que a Q7,10 pelo modelo de Weibull é igual a 18,4 m3/s.

Tabela 12 – Relações auxiliares para a estimativa do parâmetro de escala de Weibull


1/α A(α) B(α) CV 1/α A(α) B(α) CV 1/α A(α) B(α) CV
0,000 1,0000 1,0000 0,0000 0,105 0,9493 0,9155 0,1259 0,210 0,9155 0,8863 0,2394
0,005 0,9971 0,9943 0,0063 0,110 0,9474 0,9131 0,1316 0,215 0,9143 0,8860 0,2446
0,010 0,9943 0,9888 0,0127 0,115 0,9454 0,9107 0,1372 0,220 0,9131 0,8858 0,2498
0,015 0,9915 0,9835 0,0190 0,120 0,9435 0,9085 0,1428 0,225 0,9119 0,8856 0,2549
0,020 0,9888 0,9784 0,0252 0,125 0,9417 0,9064 0,1483 0,230 0,9107 0,8856 0,2601
0,025 0,9861 0,9735 0,0315 0,130 0,9399 0,9044 0,1539 0,231 0,9105 0,8856 0,2611
0,030 0,9835 0,9687 0,0376 0,135 0,9381 0,9025 0,1594 0,232 0,9103 0,8856 0,2621
0,035 0,9809 0,9641 0,0438 0,140 0,9364 0,9007 0,1649 0,234 0,9098 0,8856 0,2642
0,040 0,9784 0,9597 0,0499 0,145 0,9347 0,8990 0,1703 0,235 0,9096 0,8856 0,2652
0,045 0,9759 0,9554 0,0559 0,150 0,9330 0,8974 0,1758 0,2355 0,9095 0,8856 0,2657
0,050 0,9735 0,9513 0,0619 0,155 0,9314 0,8960 0,1812 0,2360 0,9094 0,8856 0,2662
0,055 0,9711 0,9474 0,0679 0,160 0,9298 0,8946 0,1866 0,2361 0,9093 0,8856 0,2663
0,060 0,9687 0,9435 0,0739 0,165 0,9282 0,8933 0,1919 0,2362 0,9093 0,8856 0,2664
0,065 0,9664 0,9399 0,0798 0,170 0,9267 0,8922 0,1973 0,2363 0,9093 0,8856 0,2665
0,070 0,9641 0,9364 0,0857 0,175 0,9252 0,8911 0,2026 0,2364 0,9093 0,8856 0,2666
0,075 0,9619 0,9330 0,0915 0,180 0,9237 0,8901 0,2079 0,2364 0,9093 0,8856 0,2667
0,080 0,9597 0,9298 0,0973 0,185 0,9222 0,8893 0,2132 0,2364 0,9093 0,8856 0,2667
0,085 0,9575 0,9267 0,1031 0,190 0,9208 0,8885 0,2185 0,2364 0,9093 0,8856 0,2667
0,090 0,9554 0,9237 0,1088 0,195 0,9195 0,8878 0,2238 0,2364 0,9093 0,8856 0,2667
0,095 0,9533 0,9208 0,1146 0,200 0,9181 0,8872 0,2290 0,2364 0,9093 0,8856 0,2667
0,100 0,9513 0,9181 0,1203 0,205 0,9168 0,8867 0,2342 0,2364 0,9093 0,8856 0,2667
Distribuição Normal Bivariada

A distribuição conjunta de duas variáveis aleatórias normais e denominada distribuição


Normal bivariada. Formalmente, se X e Y possuem distribuições marginais Normais, com
respectivos parâmetros μ X , σ X , μ Y , σ Y e se o coeficiente de correlação entre as variáveis for
representado por ρ , a funcao densidade da distribuição Normal bivariada é dada por:
1
f ( x , y , ρ)= . exp ¿
2 π σ X σ Y √ 1−ρ
2

(133)

para −∞ < x < ∞ e −∞ < y < ∞ . As probabilidades conjuntas P(X< x, Y< y) são dadas pela
integração dupla da função densidade da distribuição Normal bivariada e requerem métodos
numéricos para sua avaliação. Alguns programas de computador que implementam rotinas de
integração dupla da densidade Normal bivariada estão disponíveis na Internet para download.
A URL http://stat-athens.aueb.gr/~karlis/morematerial.html oferece uma lista de tópicos
relacionados à distribuição Normal bivariada e disponibiliza para download o programa
Bivar1b.exe, elaborado pelo Instituto Nacional de Saúde Ocupacional da Dinamarca, o qual
executa o calculo da FAP conjunta das variáveis X e Y. A Figura 29 ilustra a função densidade
Normal bivariada para três diferentes valores do coeficiente de correlação. Observe que,
quando as variáveis X e Y são independentes, o volume da função densidade se distribui
simetricamente e de modo mais disperso em torno da origem das variáveis. À medida que a
dependência linear entre as variáveis cresce os pares (x, y) e suas respectivas probabilidades
de não excedência concentram-se ao longo da projeção da reta de dependência, no plano xy.
As distribuições marginais são as respectivas distribuições normais univariadas de X e Y. Por
outro lado, as distribuições condicionais são obtidas por:

f (x , y )
f ( x| y )= (134)
f ( y)
Figura 29 – Exemplos de funções densidades conjuntas da distribuição Normal bivariada
7.10 – Estimativa por Intervalos

Uma estimativa pontual de um parâmetro de uma distribuição de probabilidades, tal como


apresentado nos itens anteriores, é um numero que se encontra na vizinhança do verdadeiro e
desconhecido valor populacional do parâmetro. A questão do erro presente na estimação
pontual de parâmetros, devido à variabilidade inerente as amostras aleatórias que lhe deram
origem, nos remete a construção dos intervalos de confiança. De fato, um estimador pontual
de um parâmetro θ é uma estatística θ^ , e por ser uma função de uma variável aleatória X, é
^ .
também uma variável aleatória e possui, ela mesma, uma densidade de probabilidades f ( θ)
Se construirmos as variáveis aleatórias I, correspondente a limite inferior, e S, correspondente
a limite superior, ambas em função da variável θ , é possível estabelecer a seguinte
formulação probabilística:

P ( I ≤θ ≤ S )=1−α (135)

Em que θ denota o valor populacional do parâmetro e ¿) representa o nível de confiança.


Como θ é um parâmetro e não uma variável aleatória deve-se ter cuidado com a interpretação
da equação (135). Seria incorreto interpretá-la como se a probabilidade do parâmetro θ , estar
contido entre os limites do intervalo, fosse igual a ¿). Precisamente porque θ não é uma
variável aleatória, a equação (135) deve ser corretamente interpretada da seguinte forma: a
probabilidade do intervalo [I, S] conter o verdadeiro valor populacional do parâmetro θ é
igual a ¿).
Para entender melhor a afirmação dada pela equação (135), considere que se queira
estimar a média μ de uma população qualquer, cujo desvio-padrão populacional é conhecido e
igual a σ . Para tal, usaremos a média aritmética de uma amostra de tamanho N,
suficientemente grande. Do teorema do limite central, sabe-se que a variável:

( σX/−μ
√N ) (
N ( 0,1 ) . Logo, pode-se escrever que P 1,96<
X−μ
σ /√N )
<1,96 =0,95.

Ou, ( X−1,96
√N )
σ σ
< μ< X +1,96 =0,95. Essa expressão deve ser interpretada do
√N

seguinte modo: se construíssemos 100 intervalos do tipo ( X−1,96


√N )
σ σ
; X +1,96 a partir
√N
de 100 amostras de tamanho N, o parâmetro μestaria contido em 95% desses intervalos e 5%
deles não o conteriam. A Figura 30 ilustra o raciocínio.
Figura 30 – Intervalo de confiança para μ, com σ conhecido e (1-α )=0,95

Se uma amostra especifica produzir os limites [i, s], esses valores serão realizações das
variáveis I e S, e, pelo exposto, terão uma chance de 95% de conter μ. Note que 1,96 é um
valor obtido na Tabela da N(0,1). Como o intervalo é construído com base em
± o desvio−padrão , o valor de α =¿ 0,05, é contabilizado à esquerda e as direita da média μ,
portanto α =α /2=0,025. Assim, 1- 0,025 = 0,9750. Com esse valor na Tabela da N(0,1)
encontra-se Z=1,96.

Testes de Hipóteses

Além dos métodos de estimação de parâmetros e de construção de intervalos de confiança, os


testes de hipóteses são procedimentos usuais da inferência estatística, uteis na tomada de
decisões em relação à forma ou a valores de parâmetros de uma distribuição de
probabilidades, da qual se conhece apenas uma amostra de observações. Tais testes envolvem
a formulação de uma hipótese, na forma de uma declaração conjectural sobre o
comportamento probabilístico da população. Essa hipótese pode se materializar, por exemplo,
em uma premissa (proposição para iniciar um estudo), formulada a priori, a respeito de um
parâmetro populacional de uma variável aleatória. A rejeição ou não de uma hipótese
dependerá do confronto entre a conjectura e a realidade física, concretizada pelas observações
que compõem a amostra. A rejeição da hipótese implica na necessidade de eventual revisão
da conjectura inicial, em decorrência de seu desacordo com a realidade imposta pelos dados
amostrais. Por outro lado, a não rejeição da hipótese significa que, com base nos dados
amostrais, não há elementos suficientes para descartar a plausibilidade da premissa inicial
sobre o comportamento da variável aleatória.
Por tratar-se de uma inferência a respeito de uma variável aleatória, a decisão de não rejeitar
(ou de rejeitar) uma hipótese, é tomada com base em certa probabilidade ou nível de
significância α . Pode-se, por exemplo, nao rejeitar a hipótese de que houve um decréscimo
significativo da vazão média dos últimos trinta anos, em certa seção fluvial. Contrariamente, a
eventual variação da vazão média amostral do período, pode ser um mero evento das
flutuações amostrais, sem consequências para a vazão média populacional em questão; nesse
caso, a variação e dita não significativa. A especificação prévia de um nível de significância α
, cumpre o papel de remover o grau de subjetividade associado à tomada de decisão intrínseca
a um teste de hipótese. De fato, para um mesmo nível de significância, dois analistas
diferentes, ao realizarem o teste de certa hipótese, sob condições idênticas, tomariam a mesma
decisão. O nível de significância α de um teste de hipótese é complementar à probabilidade
(1- α ) de que um intervalo de confiança [I, S] contenha o valor populacional de um parâmetro
θ . De fato, o intervalo [I, S] estabelece os limites de variação da chamada estatística de teste,
dentro dos quais a hipótese sobre θ não pode ser rejeitada. Contrariamente, se o valor da
estatística de teste se localizar fora dos limites impostos por [I, S], a hipótese sobre θ deve ser
rejeitada, a um nível de significância α .
Em essência, testar uma hipótese é recolher evidencias nos dados amostrais, que
justifiquem a rejeição ou a “não rejeição” de certa afirmação:

(i) sobre um parâmetro populacional; ou


(ii) sobre a forma de um modelo distributivo, tendo-se em conta as probabilidades
de serem tomadas decisões incorretas.

Os testes de hipóteses podem ser classificados em paramétricos ou não paramétricos. Eles


são ditos paramétricos se os dados amostrais, por premissa, tiverem sido extraídos de uma
população Normal ou de qualquer outra população, cujo modelo distributivo é conhecido ou
previamente especificado. Ao contrario, os testes “não paramétricos” não necessitam da
especificação prévia do modelo distributivo da população, da qual foram extraídos os dados
amostrais.
Do ponto de vista da hipótese a ser testada, os testes mais frequentes são aqueles que
se referem a afirmações sobre um parâmetro populacional. Quando a hipótese a ser testada diz
respeito à forma do modelo distributivo da população de onde a amostra foi extraída, os testes
são denominados de aderência.

Os elementos de um Teste de Hipótese


Os procedimentos gerais para a realização de um teste de hipótese são:

i) Formule a hipótese H0 a ser testada e a denomine de hipótese nula. Por exemplo, nos
últimos trinta anos, houve alteração da vazão média anual μ1 em certa seção fluvial, quando
comparada a média μ0, do período anterior. Se a hipótese nula for verdadeira, qualquer
diferença entre as médias populacionais μ1 e μ0 é devida meramente a flutuações das amostras
extraídas de uma única população. A hipótese nula é expressa por H0: μ1 - μ0 = 0.

ii) Formule a hipótese alternativa e denote-a por H1. De acordo com o exemplo da etapa
anterior, a hipótese alternativa, e contraria à H0, e expressa por H1: μ1 - μ0 ≠ 0.

iii) Especifique uma estatística de teste T, que esteja de acordo com as hipóteses nula e
alternativa, anteriormente formuladas. No exemplo em foco, a estatística de teste deve ter
como base a diferença T =X 1 −X 0, entre as médias observadas nos períodos correspondentes
às médias populacionais a serem testadas.

iv) Especifique a distribuição de amostragem da estatística de teste, de acordo com a hipótese


nula, bem como com a distribuição de probabilidades da população de onde as observações
foram extraídas. No exemplo em foco, caso as vazões médias anuais tenham sido extraídas de
uma população Normal, sabe-se que é possível deduzir a distribuição de amostragem da
estatística de teste T.

v) Especifique a região de rejeição ou região crítica R, para a estatística de teste. A


especificação da região critica depende da definição prévia do nível de significância α , que
cumpre o papel de remover o grau de subjetividade associado à tomada de decisão. No
exemplo em foco, o nível de significância poderia ser arbitrado em α = 5 %, o que resultaria
na fixação dos limites [T0,025, T0,975], respectivamente abaixo e acima dos quais inicia-se a
região de rejeição R.

vi) Verifique se a estatística de teste T^ , estimada a partir das observações amostrais, está
dentro ou fora dos limites estabelecidos para a região de rejeição R. No exemplo, se < T0,025,
ou se > T0,975, a hipótese nula H0 deve ser rejeitada; nesse caso, interpreta-se que a diferença μ1
- μ0 é significativa, ao nível α = 0,05. Caso contrario, se estiver dentro dos limites [T0,025,
T0,975], a decisão é a de não rejeitar a hipótese H 0, implicando que não há diferença
significativa entre as médias populacionais μ1 e μ0 .

O exemplo citado refere-se diferenças positivas ou negativas entre μ1 e μ0 , o que implica que
a região crítica R estende-se pelas duas caudas da distribuição de amostragem da estatística de
teste T. Nesse caso, diz-se que o teste e bilateral. Se a hipótese nula tivesse sido formulada de
modo diferente, tal como H0: μ1>0 ou H0: μ1<0, o teste seria unilateral porque a região crítica
se estenderia apenas por uma das caudas da distribuição de amostragem da estatística do teste,
como pode ser visto na Figura 31.

Figura 31 – Teste de hipóteses uni e bilateral

Testes de Aderência usuais em hidroclimatologia

Foram descritos alguns testes de hipóteses referentes aos parâmetros de certa população ou
referentes a atributos necessários a uma amostra aleatória simples. Outra classe importante de
testes de hipóteses refere-se à verificação da forma de uma distribuição de probabilidades.
Essa classe é constituída pelos testes de aderência, por meio dos quais, verifica-se a eventual
adequação entre as probabilidades ou frequências, tal como calculadas por um certo modelo
distributivo hipotético, e as correspondentes frequências com que, determinados valores
amostrais são observados. Os testes de aderência permitem, por exemplo, verificar se uma
variável aleatória discreta segue uma distribuição de Poisson ou se uma variável aleatória
contínua é distribuída segundo um modelo de Gumbel.

No contexto das variáveis aleatórias hidroclimatológicas, é muito frequente a situação em que


não se conhece a priori a distribuição de probabilidades que descreve a população da qual se
extraiu certo conjunto de observações. Nessas circunstancias, a seleção das distribuições de
probabilidades aptas à modelação de determinada variável hidrológica é realizada com base
(i) nas características físicas do fenômeno em foco; (ii) em possíveis deduções teóricas quanto
as propriedades distributivas da variável em questão; e (iii) na aderência da distribuição
teórica proposta para a distribuição empírica dos valores amostrais.

Os testes de aderência são instrumentos da estatística matemática que auxiliam a tomada de


decisão quanto à adequação, ou inadequação, de certo modelo de distribuição de
probabilidades a uma dada amostra de dados. Os principais testes de aderência, empregados
na hidroclimatologia estatística, são o Qui-quadrado e o Kolmogorov-Smirnov.

Teste de Aderência Qui-quadrado ( χ 2)

Considere que A1, A2 ,..., Ar representam um conjunto de eventos mútuos e coletivamente


disjuntos, de modo que o espaço amostral seja definido pela união desses eventos. Considere
r
também a hipótese nula H0: P(Ai) = pi, para i = 1, 2,..., r, tal que ∑ pi =1. Sendo assim, o teste
i=1

de aderência pretende verificar se uma função densidade ou de massa de probabilidade


(teórica) postulada é adequada para representar as frequências absolutas (empíricas) de
valores amostrais observados. Para tanto considere a seguinte estatística:

k 2
(f i −Ei)
χ =∑
2
=11,3510
i=1 Ei
(136)
em que,
f i – frequência absoluta observada (empírica);
Ei =n p i– frequência esperada ou calculada (teórica);
pi – probabilidade da função densidade ou de massa postulada;
n – tamanho da amostra;
k – número de classes ou valores observados de eventos Xi.
Uso da Eq.(136):

Se χ2 < χ2Tabelado não há razão para rejeitar a hipótese básica de ajuste ao nível de significância
α e υ = r-1-m graus de liberdade.
r – número de classes
m – número de parâmetros
Assim, se χ2 < χ2 1-α se aceita o ajuste dos dados à função densidade ou de massa de
probabilidade postulada.

Exemplo - Teste de aderência Qui-quadrado – Caso Discreto

Considere que uma ETA recebe água bruta de um manancial de superfície, captada por uma
tomada d’agua simples, instalada em determinada cota. Suponha que a variável aleatória
discreta X represente o número anual de dias em que o nível d’agua, medido na estação
fluviométrica local, é inferior a cota da tomada d’agua de projeto. Com base em 50 anos de
observações, determinou-se a distribuição empírica das frequências de X, dada pela Tabela 13.
Use o método dos momentos para ajustar uma distribuição de Poisson à variável X, calcule as
frequências esperadas por esse modelo e teste sua aderência aos dados empíricos, use um
nível de significância α = 0,05.

Tabela 13 - Número anual de dias em que o nível d’agua é inferior a cota da tomada d’agua de
projeto.
xi 0 1 2 3 4 5 6 7 8 9
f(xi) 0,0 3,0 9,0 10,0 13,0 6,0 4,5 3,0 1,5 0,0

x
ν −ν
Solução: A função massa de Poisson é p(x) = e , Para x=1, 2, 3...., e ν > 0, com valor
x!
esperado E[X]= ν. A média amostral pode ser calculada pela ponderação de x por suas
frequências observadas e resulta em X =¿ 3,86. Portanto, pelo método dos momentos, a
estimativa do parâmetro ν é igual a 3,86. A coluna 4 representa as frequências teóricas
estimadas pela função massa de probabilidades de Poisson e os valores Ei, coluna 5 da
Tabela 14 representam as frequências esperadas.
Tabela 14 – Frequências esperadas ou calculadas (Ei) e empíricas (fi)
Xi fi fi*Xi f(xi) Ei=f(xi)*50 (fi-Ei)^2 (fi-Ei)^2/Ei
(1) (2) (3) (4) (5) (6) (7)
0 0 0 0,02107 1,0534 1,1097 1,0534
1 3 3 0,08132 4,0661 1,1366 0,2795
2 9 18 0,15695 7,8476 1,3280 0,1692
3 10 30 0,20195 10,0973 0,0095 0,0009
4 13 52 0,19488 9,7439 10,6024 1,0881
5 6 30 0,15045 7,5223 2,3173 0,3081
6 4,5 27 0,09679 4,8393 0,1151 0,0238
7 3 21 0,05337 2,6685 0,1099 0,0412
8 1,5 12 0,02575 1,2876 0,0451 0,0350
9 0 0 0,01104 0,5522 0,3050 0,5522
50 193 49,68 3,5515

Média 3,86

A Tabela 14 também mostra os outros elementos necessários para o cálculo da estatística do


teste χ2, quais sejam, as diferenças simples e quadráticas padronizadas, entre as frequências
empíricas e esperadas pelo modelo de Poisson. A soma da coluna 7 da Tabela 17 fornece o
valor da estatística do teste χ2 = 3,5515. O número total de eventos (coluna 1, Tabela 14) do
espaço amostral, nesse caso, e r =10. Como foi estimado um parâmetro a partir da amostra, k
=1, o que resulta em ν = (r - k - 1) = 8 graus de liberdade para a distribuição da estatística de
teste. Trata-se de um teste unilateral, no qual, a região critica, para α = 0,05, é definida por
χ 20,95 , ν=8= 15,5 (Tabela do Qui-quadrado). Como χ2 < χ20,95, ν=8, a decisão é a de não rejeitar a
hipótese H0 de que o comportamento probabilístico da variável aleatória, em questão, possa
ser modelado pela distribuição de Poisson.

Exemplo - Teste de aderência Qui-quadrado – Caso Contínuo

Considere as vazões médias anuais do rio Paraopeba em Ponte Nova do Paraopeba, listadas na
Tabela 15, e faça um teste de aderência da distribuição Normal a esses dados, por meio do
teste do χ2, a um nível de significância α = 0,05.
Solução: No caso de variáveis aleatórias contínuas, as partições do espaço amostral são feitas
por meio da divisão em classes, com o cálculo das frequências observadas e esperadas, dentro
dos limites dos intervalos de classe.
Tabela 15 – Frequências esperadas e empíricas
Ei=f(x)*6
Classes Intervalo fi 2 (fi-Ei) (fi-Ei)^2/Ei

1 (0, 60] 8 9,1468 -1,1468 0,1438


2 (60, 70] 10 6,9179 3,0822 1,3732
3 (70, 90] 21 18,7621 2,2379 0,2669
4 (90, 105] 12 13,2355 -1,2355 0,1153
5 (105, 120] 6 8,5117 -2,5117 0,7412
6 (120, 200] 5 5,4085 -0,4085 0,0309
Soma 62 61,9824 —— 2,6712

Com r = 6 classes de largura variável, as frequências observadas fi variam em torno de


valores aceitáveis. Para o cálculo das frequências esperadas pela distribuição Normal, e
preciso estimar os seus parâmetros média e desvio-padrão. Com esses valores obtêm-se as
probabilidades usando variável reduzida da Normal e a tabela da Normal (0, 1). Note que a
tabela da Normal (0, 1) dá as probabilidades acumuladas, ou seja, F(x). Portanto, é necessário
manipular esses valores para obter as probabilidades para cada classe, ou seja, f(x).

A soma da ultima coluna da Tabela 15 fornece o valor da estatística do teste χ2 = 2,6712. O


número total de partições do espaço amostral, nesse caso, e r = 6. Como foram estimados dois
parâmetros a partir da amostra, k = 2, o que resulta em ν = (r - k - 1) = 3 graus de liberdade
para a distribuição da estatística do teste. Trata-se de um teste unilateral, no qual, a região
critica, para α = 0,05, é definida por χ 20,95 , ν=3= 7,81 (Tabela do Qui-Quadrado). Como χ2 <
χ20,95, ν=3, a decisão e a de não rejeitar a hipótese H 0 de que o comportamento probabilístico da
variável aleatória, em questão, possa ser modelado pela distribuição Normal.

Teste de Aderência de Kolmogorov-Smirnov (K.S)

O teste de aderência de Kolmogorov-Smirnov (KS) é um teste não paramétrico, cuja


estatística de teste tem como base a diferença máxima entre as funções de probabilidades
acumuladas, empírica e teórica, de variáveis aleatórias continuas. O teste não é aplicável a
variáveis aleatórias discretas. Considere a seguinte estatística:
D máx|F ' ( x )−F ( x)| (137)

em que F ' ( x ) – probabilidade acumulada teórica e F ( x ) – probabilidade acumulada empírica.


Se, ao nível de significância α, o valor calculado Dmáx for maior ou igual ao valor crítico Dmáx
Tabelado , a hipótese de que os dados amostrais provêm de uma população com distribuição
teórica F ' ( x ) é rejeitada.

Exemplo - Teste de aderência K.S – Caso Pontual

Solução: A terceira coluna da Tabela 16 apresenta as vazões médias anuais (m3/s) do rio
Paraopeba, em Ponte Nova do Paraopeba, classificadas em ordem crescente. As frequências
empíricas correspondentes às vazões classificadas podem ser calculadas pela frequência de
Kimball. As frequências teóricas correspondentes à distribuição Normal podem ser calculadas
pela Normal (0,1). Os parâmetros populacionais, supostamente representados pelos valores
amostrais são iguais a X =89,97m3/s e S=23,05 m3/s. A Figura 32 apresenta o gráfico das
frequências empíricas e teóricas, versus as vazões médias anuais classificadas em ordem
crescente. Na Tabela 16, está indicada a máxima diferença absoluta entre as frequências
empíricas e teóricas, calculada pela Eq.(137) e o valor é igual a D calc
56 =0,0875 . Consultando a

Tabela do K.S., para α = 0,05 e α =010 (teste unilateral) e N=56 obtemos os seguintes valores
críticos: D(56, 0,05) = 0,1817 e D(56, 0,10) = 0,1630. Esses valores definem o limite inferior
calc
da região de rejeição da hipótese nula Ho. Como D 56 < D56 ,0,05 < D 56 ,0,10 a decisão é a de não
rejeitar a hipótese Ho de que o comportamento probabilístico da variável aleatória em questão
possa ser modelado pela N(0 ,1).

Tabela 16 – Teste do K.S. para as vazões médias anuais (m3/s) do rio Paraopeba, em Ponte
Nova do Paraopeba, ajustadas à N(0, 1)
Ano Ordem (i) Vazão Crescente F=i/n+1 - Variável F'(x) - Teste
(m3/s) Empírica reduzida (Z) Teórica K.S
1944 1 57,3 0,0175 -1,42 0,0778 0,0603
1945 2 59,9 0,0351 -1,30 0,0968 0,0617
1946 3 60,6 0,0526 -1,27 0,102 0,0494
1947 4 61,2 0,0702 -1,25 0,1056 0,0354
1948 5 62,6 0,0877 -1,19 0,117 0,0293
1949 6 63,6 0,1053 -1,14 0,1271 0,0218
1950 7 64,2 0,1228 -1,12 0,1314 0,0086
1951 8 66,8 0,1404 -1,01 0,1562 0,0158
1952 9 67,2 0,1579 -0,99 0,1611 0,0032
1953 10 68,2 0,1754 -0,94 0,1736 0,0018
1954 11 68,7 0,1930 -0,92 0,1788 0,0142
1955 12 69,3 0,2105 -0,90 0,1841 0,0264
1956 13 71,6 0,2281 -0,80 0,2119 0,0162
1957 14 72 0,2456 -0,78 0,2177 0,0279
1958 15 72,4 0,2632 -0,76 0,2236 0,0396
1959 16 74,8 0,2807 -0,66 0,2546 0,0261
1960 17 76,4 0,2982 -0,59 0,2776 0,0206
1961 18 77,6 0,3158 -0,54 0,2946 0,0212
1962 19 78 0,3333 -0,52 0,3015 0,0318
1963 20 78,9 0,3509 -0,48 0,3156 0,0353
1964 21 79 0,3684 -0,48 0,3156 0,0528
1965 22 80,2 0,3860 -0,42 0,3372 0,0488
1966 23 80,9 0,4035 -0,39 0,3483 0,0552
1967 24 81,1 0,4211 -0,38 0,352 0,0691
1968 25 82,2 0,4386 -0,34 0,3669 0,0717
1969 26 83,2 0,4561 -0,29 0,3859 0,0702
1970 27 83,8 0,4737 -0,27 0,3936 0,0801
1971 28 85,1 0,4912 -0,21 0,4168 0,0744
1972 29 87,4 0,5088 -0,11 0,4562 0,0526
1973 30 87,6 0,5263 -0,10 0,4602 0,0661
1974 31 88,1 0,5439 -0,08 0,4681 0,0758
1975 32 89,2 0,5614 -0,03 0,488 0,0734
1976 33 89,8 0,5789 -0,01 0,496 0,0829
1977 34 92,7 0,5965 0,12 0,5478 0,0487
1978 35 93,9 0,6140 0,17 0,5675 0,0465
1979 36 96,3 0,6316 0,27 0,6064 0,0252
1980 37 97,3 0,6491 0,32 0,6255 0,0236
1981 38 97,8 0,6667 0,34 0,6331 0,0336
1982 39 97,9 0,6842 0,34 0,6331 0,0511
1983 40 98 0,7018 0,35 0,6368 0,0650
1984 41 99,1 0,7193 0,40 0,6554 0,0639
1985 42 100,2 0,7368 0,44 0,67 0,0668
1986 43 100,7 0,7544 0,47 0,6808 0,0736
1987 44 101 0,7719 0,48 0,6844 0,0875
1988 45 104,3 0,7895 0,62 0,7324 0,0571
1989 46 110,4 0,8070 0,89 0,8133 0,0063
1990 47 110,8 0,8246 0,90 0,8159 0,0087
1991 48 112,2 0,8421 0,96 0,8315 0,0106
1992 49 114,9 0,8596 1,08 0,8599 0,0003
1993 50 117,1 0,8772 1,18 0,881 0,0038
1994 51 118,4 0,8947 1,23 0,8907 0,0040
1995 52 122,8 0,9123 1,42 0,9222 0,0099
1996 53 133,4 0,9298 1,88 0,9699 0,0401
1997 54 141,7 0,9474 2,24 0,9875 0,0401
1998 55 141,8 0,9649 2,25 0,9878 0,0229
1999 56 166,9 0,9825 3,34 0,9996 0,0171

Média = 89,97 m3/s e desvio-padrão = 23,05 m3/s

1.0000
0.9000
Frequências emp. e teórica
0.8000
0.7000
0.6000
0.5000
0.4000
0.3000
F=i/n+1 -
Empírica
0.2000 F'(x) - Teórica
0.1000
0.0000
50 70 90 110 130 150 170
Vazões médias anuais (m3/s)

Figura 32 - Frequências empíricas e teóricas para o teste de aderência de


Kolmogorov-Smirnov

4.00

3.00 f(x) = 0.0433839479392625 x − 3.90325379609544


R² = 1
Variável reduzida (Z)

2.00

1.00

0.00

-1.00

-2.00
40 60 80 100 120 140 160 180
Vazões média anuais (m3/s)

Figura 33 – Reta da variável reduzida versus vazões médias anuais

Exemplo - Teste de aderência K.S – Caso Agrupado


Ver arquivo: Ajuste à normal com testes de aderência

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy