VILMA RESUMO DE Estatística
VILMA RESUMO DE Estatística
VILMA RESUMO DE Estatística
Estatística
1.1 Origem
Na antiguidade, tal como hoje, o Estado fazia levantamentos para obter informações sobre a
população disponível para pagar impostos, a idade dos jovens para irem para a guerra, etc.
Hoje a Estatística serve não só ao Estado, mas a todas as áreas, como na política, na
economia, na saúde, no campo da técnica entres outras áreas.
1.1.2 Definição
A estatística é uma ciência ou método que se ocupa da recolha, organização e análise de dados
e ou é um conjunto de técnicas e métodos de pesquisa que entre outros tópicos envolve o
planejamento do experimento a ser realizada, a colecta qualificada dos dados, a inferência, o
processamento, a análise e a dessiminação das informações.
Estatística descitiva
É a parte responsável pela sumarizacao dos dados.Tais sumários podem ser podem ser tabelas,
gráficos ou medidas estatísticas.
Inferência estatística
A inferência estatística, ou estatística indutiva trata de técnicas que permitem tirar conclusões
ou tomar decisões sobre uma população a partir de evidências apresentadas pelos dados
numéricos relativos à população, ou a uma amostra dela extraída.
1.3 População
1.4 Amostra
É um subconjunto da população e deverá ser considerada finita, a amostra deve ser
selecionada seguindo certas regras e deve ser representativa, de modo que ela represente todas
as características da população como se fosse uma fotografia desta.
1.5 Amostragem
É o processo de retirada de informações dos "n" elementos amostrais, no qual deve seguir um
método criterioso e adequado (tipos de amostragem).
1.8 Sondagem
1.10.1 Variável
É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmen te as variáveis
para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para
representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z, que pode
assumir qualquer valor de um conjunto de dados.
1.10.2 Classificação das variáveis
São características de uma população que não pode ser medidas e elas podem ser nominais e
ordinais. São qualitativas: o sexo, a cor dos olhos, e o nível social do aluno.
Nominal
São utilizados símbolos, ou números, para representar determinado tipo de dados, mostrando,
assim, a qual grupo ou categoria eles pertencem.
Ordinal
São características populacionais que podem ser quantificadas, ou seja, que indicam
quantidade de alguma coisa, sendo classificadas em discretas e contínuas.
Discretas
São aquelas variáveis que pode assumir somente valores inteiros num conjunto de valores. É
gerada pelo processo de contagem.
Contínuas
São aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É
gerada pelo processo de medição.
É a série cujos dados estão dispostos em correspondência com o tempo, ou seja, varia o
tempo e permanece constante o fato e o local.
Produção de Petróleo Bruto no Mocuba de 1976 a 1980 (x 1000 m³)
Anos Produção
1976 9 702
1977 9 332
1978 9 304
1979 9 608
1980 10 562
Fonte: Conjuntura Econômica (fev.
1983)
1.11.2 Série Geográfica ou Territorial
É a série cujos dados estão dispostos em correspondência com o local, ou seja, varia o
local e permanece constante a época e o facto.
População Urbana do Mocuba em 1980 (x
1000)
Região População
Norte 3 037
Nordeste 17 568
Sudeste 42 810
Sul
Total 11 408
80 878
Fonte: Anuário Estatístico
(1984)
1.11.3 Série Específica ou Qualitativa
É a série cujos dados estão dispostos em correspondência com a espécie ou qualidade,
ou seja, varia o fato e permanece constante a época e o local.
População Urbana e Rural do Mocuba em 1980 (x 1000)
Localização População
Urbana 80 408
Rural 38 566
Total 118 974
REGIÕES
N NE SE S CO
Anos
1940 406 3 3 81 7 232 1 591 271
1950 581 4 745 10 721 2 313 424
1960 958 7 517 17 461 4 361 1 007
1970 Anuário
Fonte: 1 624Estatístico
11 753(1984)
28 965 7 303 2 437
1500
1250
1000
750
500
250
0
1968 1974 1980 1986
1990 1994
O gráfico de barras constrói-se colocando no eixo horizontal (eixo das abcissas) os valores
observados e no eixo vertical (eixo das ordenadas) a frequência absoluta ou relativa
correspondente. Note que quanto maior for à frequência de uma observação, maior será
também a altura da barra correspondente.
Gráfico de barras
7
Freq. absoluta
6
5
4
3
2
1
0
17 18 19 20 21 23
Idade
É o tipo de série estatística na qual permanece constante o fato, o local e a época. Os dados
são colocados em classes preestabelecidas, registrando a freqüência de ocorrência. Uma
distribuição de freqüência pode ser classificada em discreta e intervalar.
Conjunto de dados numéricos obtidos em que ainda não sofreram alguma organização.
Exemplo: 14, 17, 15, 11, 14, 12, 14, 17, 15, 19, 17, 11, 12, 17, 19, 13,11
3.2 Rol
Exemplo: 11, 11, 11, 12, 12, 14, 14, 14, 15, 15, 17, 17, 17, 17, 19, 19
x
Frequência absoluta de valor ( i ) é o número de vezes que o elemento
x i aparece na amostra,
ou é o número de elemetos pertencentes a uma classe.
1 11 3
2 12 2
3 14 3
4 15 2
5 17 4
6 19 2
Total n=16
fi fi
f r= f r=
n ou n *100%
1 11 3 0,1875 18,75
2 12 2 0,125 12,5
3 14 3 0,1875 18,75
4 15 2 0,125 12,5
5 17 4 0,25 25
6 19 2 0,125 12,5
Total n=16 1 100%
Freqüência relativa
Ordem Frequência
(i) relativa(Fr) acumulada (Friac)
3
1 3
5
2 2
8
3 3
10
4 2
14
5 4
16
6 2
—
Total 16
4. Distribuição de frequências
Não há uma fórmula exacta para o cálculo de número de classes, podemos usar a Fórmula
de Sturges, mas temos algumas sugestões.
Se n ≤ 25, então k = 5 classes;
~
Se n ≥ 25, então usa-se a fórmula: k ¿ √ n
R
h=
K
Exemplo:
Dados brutos: 14, 17, 15, 11, 14, 12, 14, 17, 15, 19, 17, 11, 12, 17, 19, 13,11
Dados em rol: 11, 11, 11, 12, 12, 14, 14, 14, 15, 15, 17, 17, 17, 17, 19, 19.
Resolução:
16Ⱶ18 4 0,25 25 14 17
Total 16 1 100% — —
É a medida de tendência central mais utilizada, porque, além de ser fácil de calcular, tem uma
interpretação familiar e propriedades estatística que a tornam muito útil nas comparações
entre populações e outras situações que envolvem inferências. Uma vantagem da média é que
ela leva em conta todos os valores no seu cálculo, uma desvantagem é que ela e afectada por
valores extremos.
Sejam x1, x2, x3, ..., xn, portanto, “n” valores da variável X. A média aritmética simples
x̄=
∑ xi
n
Exemplo: Suponha que durante a quadra festiva (última semana do ano e primeira semana do
novo ano), uma loja de prendas tenha registado os seguintes valores (em mil meticais) na
venda dos seus produtos:
Qual é neste caso o valor médio (média aritmética) das vendas da loja no referido período?
9 , 5+8+7+10 ,5+8+ 5+8 , 5+10+8+11+9+6
x̄= =8 ,375
12 mil meticais.
Média Aritmética – dados agrupados numa tabela
Sejam x1, x2, x3, ..., xk, os valores da variável X associados as suas frequências absolutas
fa1, fa2, fa3, ..., fak, respectivamente. A média aritmética ponderada de X representada por
x é definida por:
x̄=
∑ xi f i
n
Exemplo:
xi Fi xi.Fi
3 6 18
5 4 20
10 5 50
12 2 24
Total 17 112
Resolução:
x̄=
∑ xi f i 112
=6 , 59
n =17
5.2 Moda¿ Mo ou ^
X¿
A moda é o valor mais frequente, mais típico ou mais comum numa distribuição, ou seja,
corresponde ao valor com maior frequência e não à frequência deste valor. Casos há em que
não há moda ou há mais que um valor da moda.
Ex.: 3 4 4 4 5 5 6 6 7 8 9 Mo = 4 (unimodal)
5 6 7 8 9 10 11 12 13 Mo = (amodal)
1 1 2 2 3 3 3 4 5 5 5 Mo1 = 3 Mo 2 = 5 (bimodal)
5 5 6 6 7 7 8 8 Mo = (amodal)
5 5 6 6 7 7 8 Mo1 = 5 Mo2 = 6 Mo3 = 7 (multimodal)
Quando os dados estiverem agrupados numa tabela de uma variável quantitativa discreta,
moda será o valor que apresentar maior frequência absoluta.
Exemplo:
xi Fi
3 19
5 17
10 10
12 32
15 15
A moda nesse exemplo é de 12 porque apresenta maior frequência absoluta que é 32.
~
Mediana (Md ou X )
É o valor que ocupa a posição central depois da ordenação, dividindo os dados em duas partes
iguais, correspondendo a cada uma 50% dos dados.
Exemplo:
12, 15, 14, 12, 13, 16, 11, 19, 18, 16, 14, 15,18
Resolusão
Para determinar a mediana primeiro devemos ordenar os dados (em ordem crescente ou
decrescente).
11 12 12 13 14 14 15 16 16 16 18 18 19
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª 12ª 13ª
6.1 Quartis (
Q c ) i=1, 2, 3
São valores separatrizes que dividem os dados em quatro (4) partes iguais, correspondendo a
cada uma 25%.
Por outras palavras podemos afirmar por exemplo que Q1 é o primeiro quartil que deixa 25%
das observações abaixo dela e pelo menos 75% das observações estão acima dela.
Podemos localizar a posição dos quartis usando estas formas
Posição de Q1 e Q3
n par n impar
Q1 n+2 n+1
4 4
Q3 3 n+2 n+1
4 3x 4
Exemplo: Considere a tabela:
xi Fi Fiac
0 1 1
1 5 6
2 6 12
3 4 16
4 2 18
5 1 19
6 1 20
Total n=20
Cálculo de Q2=Mediana
n 20
p= = =10
2 2 (significa o elemento da 10ª posição) e
n 20
p= = +1=11
2 2 (significa elemento da 11ª posição).
x 10 + x 11 2+ 2
Q2 = = =2
Então, 2 2 ; Logo Q 2 =2
Para a determinação dos quartís para dados agrupados numa tabela de classes, segue-se os
seguintes procedimentos:
i⋅n
1º - Determinar 4
2º - Identifica-se a classe mediana a partir das frequências absolutas acumuladas (a classe que
i⋅n i⋅n
Fi > Fi >
apresenta primeira ac 4 , isto é, identificar a primeira ac 4 ).
i⋅n
−F iac −1
4
Qi =Li + ∗hi
F iQ
3º - Aplicar a fórmula: i
Onde:
Li – Limite inferior da classe Quartil desejado.
F iac−1 - Frequência absoluta acumulada até a classe anterior a classe quartil.
F iQ
i - Frequência absoluta da classe Quartil (Qi).
Exemplo:
Determinar o primeiro quartil (Q1) e o terceiro quartil (Q3) dos dados constantes da tabela
acima:
Resolução
Determinação de Q1 (i=1)
n 31
= =7 , 75
1º Passo: 4 4
n
−F iac−1
4
Q 1 =Li + ∗hi
F iQ
3º Passo: Aplica-se a fórmula: i
n
−F iac−1
4 7 ,75−5 13 ,75
Q1 =Li + ∗hi =10+ ∗5=10+ =14 ,5833333≈14 , 58
F iQ 3 3
i
Este valor significa que 25% dos dados estão abaixo de 14,58 visto que quartís dividem os
dados duma distribuição em quatro (4) partes iguais
Determinação de Q3 (i=3)
3⋅n 3⋅31
= =23 , 25
1º Passo: 4 4
São valores separatrizes que dividem os dados em Dez (10) partes iguais, correspondendo a
cada uma 10%.
A fórmula neste caso também é semelhante às separatrizes anteriores. Ei-la:
i⋅n
1º Passo: Calcula-se 10 em que c = 1, 2, 3, 4, 5, 6, 7, 8 e 9.
Exemplo: Determinar o terceiro Decil (D3) dos dados constantes na tabela acima:
3⋅n 3⋅31
= =9 , 3
1º Passo: Calcula-se 10 10
3⋅n
−F iac−1
10
D 3 =Li + ∗hi
3º Passo: Aplica-se a fórmula: FiDi
3⋅n −1
−f ac
10 9 , 3−8 6,5
D3 =Li + ∗h i=15+ ∗5=15+ =15 , 8125≈15 , 81
f ai 8 8
Este valor significa que 30% dos dados estão abaixo de 15,81.
São valores separatrizes que dividem os dados em cem (100) partes iguais, correspondendo a
cada uma 1%.
A fórmula neste caso também é semelhante às separatrizes anteriores. Ei-la:
i⋅n
1º Passo: Calcula-se 100 em que i = 1, 2, 3, ...,99.
Exemplo:
Determinar o sexagésimo quarto Percentil (P64) dos dados constantes na tabela acima:
64⋅n 64⋅31
= =19 , 84
1º Passo: Calcula-se 100 100
2º Passo: O primeiro valor das fac maior que 19,84 é 22. Então a classe [20, 25[ é a classe P64.
3º Passo: Aplica-se a fórmula:
64⋅n
−F iac−1
100
P64 =Li + ∗hi
F iPi
64⋅n
−F iac−1
100 19 ,84−16 3 , 84 19 , 2
P64 =Li + ∗hi=20+ ∗5=20+ ∗5=20+ =23 , 2
F iPi 6 6 6
Este valor significa que 64% dos dados estão abaixo de 23,2.
7. Medidas de dispersão
Exemplo:
Dada a série: 10 13 15 11 9 8 19 28
R=X Max− X min
R=28−8
R=20
∑ ( x i−x )=0
Exemplo:
Dada a série de dados: 2; 3; 1; 5; 4
2+3+1+5+ 4
x= =3
1º Passo: calcula-se a média aritmética; 5
2º Passo: subtrai-se cada valor da variável xi pela média;
2−3=−1
3−3=0
1−3=−2
5−3=2
4−3=1
3º Passo: somam-se todos resultados: −1+0−2+2+1=0
∑ ( x i−x )=0
Logo provamos que
Esta medida não mede a variabilidade dos dados. Para resolver este problema, pode-se
desconsiderar o sinal da diferença, considerando-as em módulo e a média destas diferenças
em módulo é denominada desvio absoluto médio:
Tomando o exemplo anterior e pelo parágrafo acima, vem:
n
∑|xi −x| |−1|+|0|+|−2|+|+2|+|+1| 1+0+2+2+1 6
i−1
DM = = = = =1 , 2
n 5 5 5
x=
∑ x i F i =617 ,5 =19 , 9
1º. Passo: Calcula-se a média: n 31
2º Passo: faz-se a diferença de cada valor da variável pela média
3º Passo: Multiplica-se cada frequência absoluta pelo resultado da diferença em valor
absoluto
n
∑|xi −x|. F i
i−1 207 , 7
DM = = =6 , 7
4ºpasso: Faz-se o somatório e aplica-se a fórmula: n 31
7.3 Variância
Esta medida não tem certas propriedades importantes e não é muito utilizada. O mais comum
é considerar o quadrado dos desvios em relação à média e então calcular a média. Obtém-se,
assim a variância que é definida por:
x x
n n
2 2
i x i x Fi
S2 i 1
S2 i 1
n 1 n 1
x=
∑ x i F i =617 ,5 =19 , 9
1º. Passo: Calcula-se a média: n 31
Classes Fi Xi Xi.Fi ( x i −x ) ( x i −x )2 Fi
[05, 10[ 5 7,5 37,5 7,5−19 ,9=−12 ,4 ( 7, 5−19 , 9 )2 .5=768 ,8
[10, 15[ 3 12,5 37,5 12,5−19,9=−7 ,4 (12,5 – 19,9)2.3 = 461,28
[15, 20[ 8 17,5 140 17,5−19,9=−2,4 (17,5 – 19,9)2.8 = 46,08
[20, 25[ 6 22,5 135 22 ,5−19 ,9=2,6 (22,5 – 19,9)2.6 = 40,56
[25, 30[ 5 27,5 137,5 27,5−19,9=7,6 (27,5 – 19,9)2.5 = 288,8
[30, 35[ 4 32,5 130 32 ,5−19 , 9=12 ,6 (32,5 – 19,9)2.4 = 635,04
31 - 617,5 2240,56
n
∑ ( x i−x ) 2 F i
i−1 2240 , 56 2240 ,56
S2 = = = =74 , 68
n−1 31−1 30
S= √ S 2=√ 74,68=8,64
Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos de
grau de concentração em torno da média de séries distinta. E dada por:
S
CV = 100
x
Exemplo:
Turma A
xi x i− x̄ ( x i− x̄ )2
3 -3 9
4 -2 4
4 -2 4
5 -1 1
6 0 0
7 1 1
8 2 4
8 2 4
9 3 9
54 - 36
x̄=
∑ x i f i =54 =6
n 9
σ=
√ ∑ ( x i− x̄ )2 =
n √ 36
9
=2
σ 2
CV = ×100 %= ×100 %≈33 ,3
x̄ 6
Exemplos:
Consideremos uma amostra aleatória, formada por dez dos 98 alunos de uma turma de
Estudantes de AGE da Universidade Licungo e pelas notas obtidas por eles em Matemática e
Estatística:
Notas
Matemática Estatística
(x) (y)
1 5,0 6,0
2 8,0 9,0
3 7,0 8,0
4 10,0 10,0
5 6,0 5,0
6 7,0 7,0
7 9,0 8,0
8 3,0 4,0
9 8,0 6,0
1
0 2,0 2,0
Então, notas de matemática e notas de estatística dos alunos tem correlação positiva, porque
quando uma das variáveis cresce a outra, em média, também cresce.
Se as variáveis x e y variam em sentido contrário, isto é, quando x cresce, em média y
decresce, diz-se que as duas variáveis têm correlação negativa.
Como pode observar, os pares ordenados (x,y) acima, obtemos uma nuvem de pontos que
denominamos diagrama de dispersão. Esse diagrama nos fornece uma ideia grosseira, porém
útil da correlação existente entre as variáveis. Portanto, analisando os diagramas de dispersão
os aspectos abaixo são relevantes na análise dos Diagramas:
A análise gráfica da relação entre variáveis é importante, mas os olhos nem sempre são um
bom juiz da intensidade de uma relação linear.
Nossos olhos podem ser enganados por uma mudança de escalas, ou pela quantidade de
espaço em branco em torno do aglomerado dos pontos. Deve-se, então, utilizar uma medida
numérica para suplementar o gráfico. Esta medida é chamada de Coeficiente de Correlação.
n . ∑ ( x . y )−∑ x . ∑ y
r=
√ n . ∑ x −( ∑ x ) . √ n . ∑ y −( ∑ y )
2 2 2 2
Onde −1≤r≤1
d) Negativa
a) Positiva
e) Fortemente negativa
b) Fortemente positiva
f) Perfeitamente negativa
c) Perfeitamente positiva
Ausência de correlação
g) Ausência de Correlação (h) Exemplo de Correlação não Linear
Exemplo:
Sobre a mesma matéria uma turma foi avaliada, em seis testes, por dois professores diferentes.
Os resultados médios estão indicados na tabela seguinte. (notas de 0 a 20 valores).
T1 T2 T3 T4 T5 T6
Prof A 12 10,6 18 8 14 9,5 x
Resolução:
a)
Verifica-se a existência de uma associação linear positiva entre as variáveis nota Prof
A e nota Prof B, o que significa que, de um modo geral, quando a nota do Prof A
aumenta, também aumenta a nota do prof B e vice-versa, isto é, a medida que diminui
a nota do prof A, de um modo geral, diminui do Prof B.
b)
x y x. y x2 y2
12 15 180 144 225
10.6 13.6 144.16 112.36 184.96
18 15.5 279 324 240.25
8 5.8 46.4 64 33.64
14 13.5 189 196 182.25
9.5 12.3 116.85 90.25 151.29
Total 72.1 75.7 955.41 930.61 1017.39
n ∑ xy−∑ x ∑ y 6∗955,41−72.1∗75 ,7
r= = =
√ n∑ x −(∑ x) ∗√ n∑ y −(∑ y )
2 2 2 2
√ 6∗930,61−72 ,1 ∗√6∗1017,39−75 ,7
2 2
5732,46−5457,97
¿ =
√ 5583,66−5198,,44∗√6104 ,34−5730,49
274, 49 274,49 274,49
¿ = = =0,72
√ 385,25∗√ 373,85 19 ,6∗19 ,33 379,5072
Este valor produz associação linear positiva relativamente forte (0,72) entre as duas
variáveis ou seja espera-se que um aluno que aumenta a nota com o professor A,
também a aumenta com o professor B.
O modelo de regressão linear simples expressa-se como y=ax+ b+e . Onde “e” é a variável
residual que descreve os efeitos de y não explicados por x.
Dada uma colecção de dados amostrais emparelhados, a seguinte equação de regressão
descreve a relação entre as duas variáveis:
y=α+ β∗x
Onde :
n∗∑ x . y−∑ x∗∑ y
β=
β: coeficiente angular e é calculado por n∗∑ x 2 −( ∑ x )2
x=
∑x
Média de x: n
y=
∑y
Média de y: n
O gráfico da equação é chamado recta de regressão (ou recta de melhor ajuste, ou recta de
mínimos quadrados)
Exemplo:
Resolução:
x y x. y x2 y2
6 70 420 36 4900
8 110 880 64 12100
10 130 1300 100 16900
12 150 1800 144 22500
Total 36 460 4400 344 56400
n ∑ xy−∑ x ∑ y 4∗4400−36∗460 1040
β= = = =13
n ∑ x 2 −( ∑ x )
2
4∗344−362 80
y=
∑ y = 460 =115
n
4
x=
∑ x =36 =9
α= y −β∗x mas n 4
Assim:
α= y−β∗x
α=115−13∗9
α=115−117
α=−2
¿^ =−2+13∗x
y
¿^ =α+β∗x
y ¿ ¿
A recta traçada pelo método dos mínimos quadrados é aquela cujas distâncias entre a recta
estimada e os valores observados são mínimos; mais exactamente, fornece valores de a e b
que minimizam a soma dos quadrados dos desvios entre os valores observados e os estimados
da variável dependente, isto é, procura a e b tal que minimizam a soma ∑ ( y i− ^y )2 ; onde ^y é
o valor estimado.
a=
s xy
=
∑ ( x i− x̄ )( y 1− ȳ ) . b= ȳ−a x̄
s2x ∑ ( x i− x̄ )2
Exemplo:
Os dados que se seguem indicam a relação existente entre x, que representa a densidade
específica duma amostra de madeira, e y, que representa a pressão máxima que a referida
amostra pode suportar.
xi yi
0,41 1850
0,46 2620
0,44 2340
0,47 2690
0,42 2160
0,39 1760
0,41 2500
0,44 2750
0,43 2730
0,44 3120
(
x i− x̄ )( y i − ȳ (
y i − ȳ )
xi yi x i− x̄ y i − ȳ ) (
x i− x̄ )2 2
x y
a=
∑ ( x i− x̄ )( y 1− ȳ ) =64 , 78 ≈12245 ,7
b) ∑ ( x i− x̄ )2 0 , 00529
Bibliografia
FONSECA, J.S.; MARTINS, G.A. (19 93). Curso de estatística. 4a ed. São Paulo: Atlas.
LAPONNI, Juan Carlos (1997). Estatística usando o Excel. São Paulo: Lapponi
NEVES, Maria Augusta at al; Matemática aplicada às ciências sociais. Porto. Porto editora,
2005.
SNEDECOR, G. W.; COCHRAM, W. G. (1989). Statistical Methods. 8rd ed. Iowa: Iowa
Treinamento e Editora.
WONNACOTT, T.H.; WONNACOTT, R. J. (1990). Introductory Statistics. New York. John
wiley & Sons;