VILMA RESUMO DE Estatística

Fazer download em docx, pdf ou txt
Fazer download em docx, pdf ou txt
Você está na página 1de 36

1.

Estatística

1.1 Origem

Etimologicamente, a palavra estatística vem do latim STATUS, que significa ESTADO.

Na antiguidade, tal como hoje, o Estado fazia levantamentos para obter informações sobre a
população disponível para pagar impostos, a idade dos jovens para irem para a guerra, etc.
Hoje a Estatística serve não só ao Estado, mas a todas as áreas, como na política, na
economia, na saúde, no campo da técnica entres outras áreas.

1.1.2 Definição

A estatística é uma ciência ou método que se ocupa da recolha, organização e análise de dados
e ou é um conjunto de técnicas e métodos de pesquisa que entre outros tópicos envolve o
planejamento do experimento a ser realizada, a colecta qualificada dos dados, a inferência, o
processamento, a análise e a dessiminação das informações.

1.2 Divisão da estatística

Estatística descitiva

É a parte responsável pela sumarizacao dos dados.Tais sumários podem ser podem ser tabelas,
gráficos ou medidas estatísticas.

Inferência estatística

A inferência estatística, ou estatística indutiva trata de técnicas que permitem tirar conclusões
ou tomar decisões sobre uma população a partir de evidências apresentadas pelos dados
numéricos relativos à população, ou a uma amostra dela extraída.

1.3 População

É o conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo


menos uma característica em comum. A população é o conjunto Universo, podendo ser
finita ou infinita. Exemplo: Grupo de pessoas que estudam estatísticas.

Finita - apresenta um número limitado de observações, que é passível de contagem.

Infinita - apresenta um número ilimitado de observações que é impossível de contar e


geralmente esta associada a processos.

1.4 Amostra
É um subconjunto da população e deverá ser considerada finita, a amostra deve ser
selecionada seguindo certas regras e deve ser representativa, de modo que ela represente todas
as características da população como se fosse uma fotografia desta.

1.5 Amostragem

É o processo de retirada de informações dos "n" elementos amostrais, no qual deve seguir um
método criterioso e adequado (tipos de amostragem).

1.6 Cuidados a tomar na selecção da amostra

 Imparcialidade: Todos os elementos da população têm a mesma oportunidade de


fazer parte da amostra;

 Representatividade: A amostra deve conter qualitativamente todas as características


que a população possui;

 Tamanho: Deve ser suficientemente larga de modo que as características da amostra


se aproximem das características da população.

1.7 Recenciamento ou censo

É a coleta exaustiva de informações das "N" unidades populacionais.

1.8 Sondagem

É um tipo de investigação do solo, através de perfurações realizadas no terreno, que


precede o desenvolvimento de qualquer projeto de engenharia, podendo ser necessária no
transcorrer da obra, ou posteriormente à ela.

1.9 Unidade Estatística

É cada elemento desse conjunto.

1.10. Variável e sua classificação

1.10.1 Variável

É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmen te as variáveis
para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para
representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z, que pode
assumir qualquer valor de um conjunto de dados.
1.10.2 Classificação das variáveis

As variáveis podem ser classificadas em:

 Qualitativas (Nominal e Ordinal);

 Quantitativas (Discretas e Contínuas).

1.10.2.1 Variáveis Qualitativas

São características de uma população que não pode ser medidas e elas podem ser nominais e
ordinais. São qualitativas: o sexo, a cor dos olhos, e o nível social do aluno.

Nominal

São utilizados símbolos, ou números, para representar determinado tipo de dados, mostrando,
assim, a qual grupo ou categoria eles pertencem.

Exemplo: o sexo e a cor dos olhos.

Ordinal

Quando uma classificação for dividida em categorias ordenadas em graus convencionados,


havendo uma relação entre as categorias do tipo “maior do que”, “menor do que”, “igual a”,
os dados por postos consistem de valores relativos atribuídos para denotar a ordem de
primeiro, segundo, terceiro e, assim, sucessivamente.

1.10.2.1 Variáveis Quantitativas

São características populacionais que podem ser quantificadas, ou seja, que indicam
quantidade de alguma coisa, sendo classificadas em discretas e contínuas.

Exemplo: a altura, a idade, a última nota a Matemática, a distância casa-escola e o número de


irmãos,

Discretas

São aquelas variáveis que pode assumir somente valores inteiros num conjunto de valores. É
gerada pelo processo de contagem.

Exemplo: o número de veículos que passa em um posto de gasolina, o número de estudantes


na sala de aula.

Contínuas
São aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É
gerada pelo processo de medição.

Exemplo: o volume de água em um reservatório ou o peso de um pacote de cereal.

1.11 Séries estatísticas

É um conjunto de dados ordenados segundo uma característica comum, as quais servirão


posteriormente para se fazer análises e inferências.
1.11.1 Série Temporal ou Cronológica

É a série cujos dados estão dispostos em correspondência com o tempo, ou seja, varia o
tempo e permanece constante o fato e o local.
Produção de Petróleo Bruto no Mocuba de 1976 a 1980 (x 1000 m³)

Anos Produção
1976 9 702
1977 9 332
1978 9 304
1979 9 608
1980 10 562
Fonte: Conjuntura Econômica (fev.
1983)
1.11.2 Série Geográfica ou Territorial
É a série cujos dados estão dispostos em correspondência com o local, ou seja, varia o
local e permanece constante a época e o facto.
População Urbana do Mocuba em 1980 (x
1000)

Região População
Norte 3 037
Nordeste 17 568
Sudeste 42 810
Sul
Total 11 408
80 878
Fonte: Anuário Estatístico
(1984)
1.11.3 Série Específica ou Qualitativa
É a série cujos dados estão dispostos em correspondência com a espécie ou qualidade,
ou seja, varia o fato e permanece constante a época e o local.
População Urbana e Rural do Mocuba em 1980 (x 1000)

Localização População
Urbana 80 408
Rural 38 566
Total 118 974

1.11.4 Série Mista ou Composta


A combinação entre duas ou mais séries constituem novas séries denominadas compostas
e apresentadas em tabelas dupla entrada. O nome da série mista surge de acordo com a
combinação de pelo menos dois elementos.
Local + Época = Série Geográfica Temporal
População Urbana do Brasil por Região de 1940 a 1980 (x 1000)

REGIÕES
N NE SE S CO
Anos
1940 406 3 3 81 7 232 1 591 271
1950 581 4 745 10 721 2 313 424
1960 958 7 517 17 461 4 361 1 007
1970 Anuário
Fonte: 1 624Estatístico
11 753(1984)
28 965 7 303 2 437

2. Organização e apresentação dos dados


Os gráficos são uma forma de apresentação visual dos dados. Normalmente, contém menos
informações que as tabelas, mas são de mais fácil leitura. O tipo de gráfico depende da
variável em questão.

2.1 Gráfico Pictorial – Pictograma


Tem por objetivo despertar a atenção do público em geral, muito desses gráficos
apresentam grande dose de originalidade e de habilidade na arte de apresentação dos dados.

Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x


1000)

1500

1250

1000

750

500

250

0
1968 1974 1980 1986
1990 1994

2.2 Gráfico polar


É o tipo de gráfico ideal para representar séries temporais cíclicas, ou seja, toda a série que
apresenta uma determi nada periodicidade.
Como construir um gráfico polar
 Traça-se uma circunferência de raio arbitrário (preferencialmente, a um raio de
comprimento proporcional a média dos valores da série);
 Constrói-se uma semi-reta (de preferência horizontal) partindo do ponto 0 (pólo) e
com uma escala (eixo polar);
 Divide-se a circunferência em tantos arcos forem as unidades temporais;
 Traça-se semi-retas a partir do ponto 0 (pólo) passando pelos pontos de divisão;
 Marca-se os valores correspondentes da variável, iniciando pela semi-reta horizontal
(eixo polar);
 Ligam-se os pontos encontrados com segmentos de reta;
 Para fechar o polígono obtido, emprega-se uma linha interrompida.

2.3 Gráficos de barras

O gráfico de barras constrói-se colocando no eixo horizontal (eixo das abcissas) os valores
observados e no eixo vertical (eixo das ordenadas) a frequência absoluta ou relativa
correspondente. Note que quanto maior for à frequência de uma observação, maior será
também a altura da barra correspondente.

Gráfico de barras
7
Freq. absoluta

6
5
4
3
2
1
0
17 18 19 20 21 23
Idade

2.4 Gráfico circular


Este gráfico é utilizado para variáveis nominais e ordinais. É uma opção ao gráfico de barras
quando se pretende dar ênfase à comparação das percentagens de cada categoria. A
construção do gráfico de setores segue uma regra de 3 simples, onde as freqüências de
cada classe correspondem ao ângulo que se deseja representar em relação a freqüência total
que representa o total de 360 graus.

Redução Sem mudança Subida Subida acentuada

2.5 Polígonos de Freqüências

Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990


3. Distribuição de frequências

Dados de uma variável quantitativa discreta

É o tipo de série estatística na qual permanece constante o fato, o local e a época. Os dados
são colocados em classes preestabelecidas, registrando a freqüência de ocorrência. Uma
distribuição de freqüência pode ser classificada em discreta e intervalar.

3.1 Dados Brutos

Conjunto de dados numéricos obtidos em que ainda não sofreram alguma organização.

Exemplo: 14, 17, 15, 11, 14, 12, 14, 17, 15, 19, 17, 11, 12, 17, 19, 13,11

3.2 Rol

É a organizacao dos dados em ordem crescente ou decrescente.

Exemplo: 11, 11, 11, 12, 12, 14, 14, 14, 15, 15, 17, 17, 17, 17, 19, 19

3.3 Frequência absoluta (Fi)

x
Frequência absoluta de valor ( i ) é o número de vezes que o elemento
x i aparece na amostra,
ou é o número de elemetos pertencentes a uma classe.

Orde Variável em estudo Frequencia


m Notas absoluta
(i) (xi) (Fi)

1 11 3

2 12 2

3 14 3

4 15 2

5 17 4

6 19 2

Total n=16

3.4 Frequência relativa (Fr)

A frequência relativa de um valor xi é o quociente entre a frequência absoluta desse valor e o


número total da amostra ou da população. Muita das vezes essa frequência é expressa em
percentagens.

fi fi
f r= f r=
n ou n *100%

3.5 Frequência absoluta acumulada (Fiac)

É a soma das frequêcias de valores inferiores ou iguais ao valor dado.

Orde Variável em Frequencia Frequência relativa Frequência relativa (%)


m estudo Notas (xi) absoluta fi fi
f r= f r=
n n *100%
(i) (Fi)

1 11 3 0,1875 18,75

2 12 2 0,125 12,5

3 14 3 0,1875 18,75

4 15 2 0,125 12,5

5 17 4 0,25 25

6 19 2 0,125 12,5
Total n=16 1 100%

3.6 Freqüência Relativa Acumulada (Fri)

É o somatório da freqüência relativa da i-ésima classe com as freqüências relativas das


classes anteriores.

Freqüência relativa
Ordem Frequência
(i) relativa(Fr) acumulada (Friac)

3
1 3
5
2 2
8
3 3
10
4 2
14
5 4
16
6 2

Total 16

4. Distribuição de frequências

Dados de uma variável quantitativa contínua

4.1 Amplitude Total (Range)

É a diferença entre o maior valor da variável e o menor valor da variável.

R = Valor máximo dos dados – valor mínimo dos dados

4.2 Número de classes

Não há uma fórmula exacta para o cálculo de número de classes, podemos usar a Fórmula
de Sturges, mas temos algumas sugestões.
 Se n ≤ 25, então k = 5 classes;
~
 Se n ≥ 25, então usa-se a fórmula: k ¿ √ n

4.3 Amplitude de classe (h)

É a diferença entre doois limites inferiores ou superiores consecutivos à amplitude de


intervalo de classe deve ser constante em toda distribuição.

R
h=
K

Exemplo:

Dados brutos: 14, 17, 15, 11, 14, 12, 14, 17, 15, 19, 17, 11, 12, 17, 19, 13,11

Dados em rol: 11, 11, 11, 12, 12, 14, 14, 14, 15, 15, 17, 17, 17, 17, 19, 19.

Resolução:

 Amplitude Total: R = 19 – 11= 8


~
 Número de classes: k = √ 16 ¿ 4
R 8
h= = =2
 Amplitude de classes: K 2

4.4 Ponto médio da classe (Xi)

É média aritimética entre o limite inferior e superior da classe.

Classe Frequência Frequência Frequência Frequência Ponto médio


Absoluta (Fi) Relativa (fi) Relativa (%) Absoluta da classe
Acumulada (Xi)
(Fiac)

11Ⱶ12 3 0,1875 18,75 3 11,5

12Ⱶ13 2 0,125 12,5 5 12,5

13Ⱶ14 3 0,1875 18,75 8 13,5


15Ⱶ16 2 0,125 12,5 10 15,5

16Ⱶ18 4 0,25 25 14 17

18Ⱶ19 2 0,125 12,5 16 18,5

Total 16 1 100% — —

5. Medidas de tendência central ou de posição

5.1 Média Aritmética

É a medida de tendência central mais utilizada, porque, além de ser fácil de calcular, tem uma
interpretação familiar e propriedades estatística que a tornam muito útil nas comparações
entre populações e outras situações que envolvem inferências. Uma vantagem da média é que
ela leva em conta todos os valores no seu cálculo, uma desvantagem é que ela e afectada por
valores extremos.

 Média Aritmética - dados não agrupados numa tabela

Sejam x1, x2, x3, ..., xn, portanto, “n” valores da variável X. A média aritmética simples

de X representada por x é definida por:

x̄=
∑ xi
n

Exemplo: Suponha que durante a quadra festiva (última semana do ano e primeira semana do
novo ano), uma loja de prendas tenha registado os seguintes valores (em mil meticais) na
venda dos seus produtos:

9,5 8 7 10,5 8 5 8,5 10 8 11 9 6

Qual é neste caso o valor médio (média aritmética) das vendas da loja no referido período?
9 , 5+8+7+10 ,5+8+ 5+8 , 5+10+8+11+9+6
x̄= =8 ,375
12 mil meticais.
 Média Aritmética – dados agrupados numa tabela
Sejam x1, x2, x3, ..., xk, os valores da variável X associados as suas frequências absolutas
fa1, fa2, fa3, ..., fak, respectivamente. A média aritmética ponderada de X representada por
x é definida por:

x̄=
∑ xi f i
n

Exemplo:

Determinar a média aritmética dos dados constantes da seguinte tabela:

xi Fi xi.Fi

3 6 18

5 4 20

10 5 50

12 2 24

Total 17 112

Resolução:

x̄=
∑ xi f i 112
=6 , 59
n =17

5.2 Moda¿ Mo ou ^
X¿

A moda é o valor mais frequente, mais típico ou mais comum numa distribuição, ou seja,
corresponde ao valor com maior frequência e não à frequência deste valor. Casos há em que
não há moda ou há mais que um valor da moda.

Ex.: 3 4 4 4 5 5 6 6 7 8 9 Mo = 4 (unimodal)
5 6 7 8 9 10 11 12 13 Mo = (amodal)
1 1 2 2 3 3 3 4 5 5 5 Mo1 = 3 Mo 2 = 5 (bimodal)

5 5 6 6 7 7 8 8 Mo = (amodal)
5 5 6 6 7 7 8 Mo1 = 5 Mo2 = 6 Mo3 = 7 (multimodal)

Quando os dados estiverem agrupados numa tabela de uma variável quantitativa discreta,
moda será o valor que apresentar maior frequência absoluta.

Exemplo:

Determinar a moda da seguinte distribuição de frequências:

xi Fi

3 19

5 17

10 10

12 32

15 15

A moda nesse exemplo é de 12 porque apresenta maior frequência absoluta que é 32.

~
Mediana (Md ou X )

É o valor que ocupa a posição central depois da ordenação, dividindo os dados em duas partes
iguais, correspondendo a cada uma 50% dos dados.

Exemplo:
12, 15, 14, 12, 13, 16, 11, 19, 18, 16, 14, 15,18

Resolusão
Para determinar a mediana primeiro devemos ordenar os dados (em ordem crescente ou
decrescente).

11 12 12 13 14 14 15 16 16 16 18 18 19
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª 12ª 13ª

Logo a mediana é 15 (ocupa a posição central).

6. Medidas de tendência não central

6.1 Quartis (
Q c ) i=1, 2, 3

São valores separatrizes que dividem os dados em quatro (4) partes iguais, correspondendo a
cada uma 25%.

Q1 = 1º quartil, deixa abaixo de si 25% dos elementos.


Q2 = 2º quartil, coincide com a mediana também deixa abaixo de si, 50% dos elementos.
Q3 = 3º quartil, deixa abaixo de si, 75% dos elementos.

Por outras palavras podemos afirmar por exemplo que Q1 é o primeiro quartil que deixa 25%
das observações abaixo dela e pelo menos 75% das observações estão acima dela.
Podemos localizar a posição dos quartis usando estas formas
Posição de Q1 e Q3
n par n impar
Q1 n+2 n+1
4 4
Q3 3 n+2 n+1
4 3x 4
Exemplo: Considere a tabela:
xi Fi Fiac
0 1 1
1 5 6
2 6 12
3 4 16
4 2 18
5 1 19
6 1 20
Total n=20

 Cálculo de Q2=Mediana
n 20
p= = =10
2 2 (significa o elemento da 10ª posição) e
n 20
p= = +1=11
2 2 (significa elemento da 11ª posição).
x 10 + x 11 2+ 2
Q2 = = =2
Então, 2 2 ; Logo Q 2 =2

 Calculo de Q1. (n=20, par)


n+2 20+2
Q1 = = =5 ,5
4 4
x 5 + x6 1+ 1
Q1 = = =1
Então, 2 2 ; Logo Q 1 =1

 Calculo de Q3. (n=20, par)


3 n+2 3∗20+2
Q3= = =15 , 5
4 4
x15 + x 16 3+ 3
Q3 = = =3 Q =3
Então, 2 2 ; Logo 3

 Quartis para dados agrupados numa tabela de classes

Para a determinação dos quartís para dados agrupados numa tabela de classes, segue-se os
seguintes procedimentos:
i⋅n
1º - Determinar 4
2º - Identifica-se a classe mediana a partir das frequências absolutas acumuladas (a classe que
i⋅n i⋅n
Fi > Fi >
apresenta primeira ac 4 , isto é, identificar a primeira ac 4 ).
i⋅n
−F iac −1
4
Qi =Li + ∗hi
F iQ
3º - Aplicar a fórmula: i

Onde:
Li – Limite inferior da classe Quartil desejado.
F iac−1 - Frequência absoluta acumulada até a classe anterior a classe quartil.

hi - amplitude da classe Quartil (Q ).


i

F iQ
i - Frequência absoluta da classe Quartil (Qi).

Exemplo:
Determinar o primeiro quartil (Q1) e o terceiro quartil (Q3) dos dados constantes da tabela
acima:
Resolução
Determinação de Q1 (i=1)
n 31
= =7 , 75
1º Passo: 4 4

2º Passo: O primeiro valor das


F iac maior que 7,75 é 8. Então a classe [10, 15[ é a classe Q .
1

n
−F iac−1
4
Q 1 =Li + ∗hi
F iQ
3º Passo: Aplica-se a fórmula: i

n
−F iac−1
4 7 ,75−5 13 ,75
Q1 =Li + ∗hi =10+ ∗5=10+ =14 ,5833333≈14 , 58
F iQ 3 3
i

Este valor significa que 25% dos dados estão abaixo de 14,58 visto que quartís dividem os
dados duma distribuição em quatro (4) partes iguais
Determinação de Q3 (i=3)
3⋅n 3⋅31
= =23 , 25
1º Passo: 4 4

2º Passo: O primeiro valor das


F iac maior que 23,25 é 27. Então a classe [25, 30[ é a classe
Q3.
3⋅n
−F iac−1
4
Q 3 =Li + ∗hi
F iQ
3º Passo: Aplica-se a fórmula: i
3⋅n
−F iac−1
4 23 ,25−22
Q 3 =Li + ∗hi=25+ ∗5=25+1 , 25=26 ,25
FiQi 5
Este valor significa que 75% dos dados estão abaixo de 26,25 visto que quartís dividem os
dados duma distribuição em quatro (4) partes iguais.

6.2 Decis (Di) i=1, 2, 3,…,9

São valores separatrizes que dividem os dados em Dez (10) partes iguais, correspondendo a
cada uma 10%.
A fórmula neste caso também é semelhante às separatrizes anteriores. Ei-la:
i⋅n
1º Passo: Calcula-se 10 em que c = 1, 2, 3, 4, 5, 6, 7, 8 e 9.

2º Passo: Identifica-se a classe Di pela


F iac .
i⋅n
−F iac−1
10
Di =Li + ∗hi
F iD
3º Passo: Aplica-se a fórmula: i

Exemplo: Determinar o terceiro Decil (D3) dos dados constantes na tabela acima:
3⋅n 3⋅31
= =9 , 3
1º Passo: Calcula-se 10 10

2º Passo: O primeiro valor das


F iac maior que 9,3 é 16. Então a classe [15, 20[ é a classe D .
3

3⋅n
−F iac−1
10
D 3 =Li + ∗hi
3º Passo: Aplica-se a fórmula: FiDi

3⋅n −1
−f ac
10 9 , 3−8 6,5
D3 =Li + ∗h i=15+ ∗5=15+ =15 , 8125≈15 , 81
f ai 8 8
Este valor significa que 30% dos dados estão abaixo de 15,81.

6.3 Centis ou Percentes (Pi) i=1,2,3,…,99

São valores separatrizes que dividem os dados em cem (100) partes iguais, correspondendo a
cada uma 1%.
A fórmula neste caso também é semelhante às separatrizes anteriores. Ei-la:
i⋅n
1º Passo: Calcula-se 100 em que i = 1, 2, 3, ...,99.

2º Passo: Identifica-se a classe Pc pela


F iac .
i⋅n
−F iac−1
100
Pi =Li + ∗hi
3º Passo: Aplica-se a fórmula: F iPi

Exemplo:
Determinar o sexagésimo quarto Percentil (P64) dos dados constantes na tabela acima:
64⋅n 64⋅31
= =19 , 84
1º Passo: Calcula-se 100 100
2º Passo: O primeiro valor das fac maior que 19,84 é 22. Então a classe [20, 25[ é a classe P64.
3º Passo: Aplica-se a fórmula:
64⋅n
−F iac−1
100
P64 =Li + ∗hi
F iPi
64⋅n
−F iac−1
100 19 ,84−16 3 , 84 19 , 2
P64 =Li + ∗hi=20+ ∗5=20+ ∗5=20+ =23 , 2
F iPi 6 6 6
Este valor significa que 64% dos dados estão abaixo de 23,2.

7. Medidas de dispersão

7.1 Amplitude total


É a diferença entre o maior e o menor valor observado. A desvantagem desta medida é de não
levar em consideração os valores intermediários perdendo a informação de como os dados
estão distribuídos e/ou concentrados.

R=X Max− X min

Exemplo:
Dada a série: 10 13 15 11 9 8 19 28
R=X Max− X min
R=28−8
R=20

7.2 Desvio Absoluto Médio

É a diferença entre cada valor observado e é dado por ( x i −μ ) se o conjunto de dados é

populacional, ou por ( x i −x ) se os dados são amostrais. Ao somar todos os desvios, ou seja,


ao somar todas as diferenças de cada valor observado em relação a média, o resultado é igual
a zero.

∑ ( x i−x )=0

Exemplo:
Dada a série de dados: 2; 3; 1; 5; 4
2+3+1+5+ 4
x= =3
1º Passo: calcula-se a média aritmética; 5
2º Passo: subtrai-se cada valor da variável xi pela média;
2−3=−1
3−3=0
1−3=−2
5−3=2
4−3=1
3º Passo: somam-se todos resultados: −1+0−2+2+1=0

∑ ( x i−x )=0
Logo provamos que

Esta medida não mede a variabilidade dos dados. Para resolver este problema, pode-se
desconsiderar o sinal da diferença, considerando-as em módulo e a média destas diferenças
em módulo é denominada desvio absoluto médio:
Tomando o exemplo anterior e pelo parágrafo acima, vem:
n
∑|xi −x| |−1|+|0|+|−2|+|+2|+|+1| 1+0+2+2+1 6
i−1
DM = = = = =1 , 2
n 5 5 5

Se os dodos estiverem agrupados numa tabela de distribuição de frequências, pode ser


calculado usando a fórmula:
n
∑|xi −x|. F i
DM = i−1
n

Exemplo: Determine o desvio absoluto médio


Classes Fi Xi Xi.Fi ( x i −x ) |x i −x|Fi
[05, 10[ 5 7,5 37,5 7,5−19 ,9=−12 ,4 62
[10, 15[ 3 12,5 37,5 12,5−19,9=−7 ,4 22,5
[15, 20[ 8 17,5 140 17,5−19,9=−2,4 19,2
[20, 25[ 6 22,5 135 22 ,5−19 ,9=2,6 15,6
[25, 30[ 5 27,5 137,5 27,5−19,9=7,6 38
[30, 35[ 4 32,5 130 32 ,5−19 , 9=12 ,6 50,4
 31 - 617,5 207,7

x=
∑ x i F i =617 ,5 =19 , 9
1º. Passo: Calcula-se a média: n 31
2º Passo: faz-se a diferença de cada valor da variável pela média
3º Passo: Multiplica-se cada frequência absoluta pelo resultado da diferença em valor
absoluto
n
∑|xi −x|. F i
i−1 207 , 7
DM = = =6 , 7
4ºpasso: Faz-se o somatório e aplica-se a fórmula: n 31

7.3 Variância
Esta medida não tem certas propriedades importantes e não é muito utilizada. O mais comum
é considerar o quadrado dos desvios em relação à média e então calcular a média. Obtém-se,
assim a variância que é definida por:

 x   x 
n n
2 2
i x i  x Fi
S2  i 1
S2  i 1

n 1 n 1

Para dados não agrupados Para dados agrupados

x=
∑ x i F i =617 ,5 =19 , 9
1º. Passo: Calcula-se a média: n 31

Classes Fi Xi Xi.Fi ( x i −x ) ( x i −x )2 Fi
[05, 10[ 5 7,5 37,5 7,5−19 ,9=−12 ,4 ( 7, 5−19 , 9 )2 .5=768 ,8
[10, 15[ 3 12,5 37,5 12,5−19,9=−7 ,4 (12,5 – 19,9)2.3 = 461,28
[15, 20[ 8 17,5 140 17,5−19,9=−2,4 (17,5 – 19,9)2.8 = 46,08
[20, 25[ 6 22,5 135 22 ,5−19 ,9=2,6 (22,5 – 19,9)2.6 = 40,56
[25, 30[ 5 27,5 137,5 27,5−19,9=7,6 (27,5 – 19,9)2.5 = 288,8
[30, 35[ 4 32,5 130 32 ,5−19 , 9=12 ,6 (32,5 – 19,9)2.4 = 635,04
 31 - 617,5 2240,56

n
∑ ( x i−x ) 2 F i
i−1 2240 , 56 2240 ,56
S2 = = = =74 , 68
n−1 31−1 30

7.4 Desvio padrão

O desvio padrão é a raiz quadrada da variância.


Assim:
S= √ S 2
Exemplo:
Usando o exemplo anterior, vem:

S= √ S 2=√ 74,68=8,64

Interpretação do desvio padrão

 Na prática, o desvio padrão é usado mais frequentemente do que a variância. A razão


disso é que o desvio padrão tem a mesma unidade de medida que a média, em vez da
unidade elevada ao quadrado.
 Em uma comparação de dois grupos de dados, o grupo com menor desvio padrão tem
as observações mais homogéneas; o grupo com maior desvio padrão exibe maior
variabilidade. Como o desvio padrão tem unidade de medida, não tem sentido
comparar desvios padrão para duas quantidades não relacionadas.
 Com os propósitos acima, a média e o desvio padrão de um conjunto de dados podem
ser usados para resumir as características da distribuição inteira de valores.

7.5 Coeficiente de variação

Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos de
grau de concentração em torno da média de séries distinta. E dada por:

S
CV = 100
x

O coeficiente de variação e expressa em percentagens. A partir do coeficiente de variação


pode-se avaliar a homogeneidade do conjunto de dados e, consequentemente, se a média é
uma boa medida para representar estes dados. É utilizado, também, para comparar conjuntos
com unidades de medidas distintas.
Se:

CV ≤15 % 15<CV ≤30 % CV >30 %


Considera-se baixa dispersão Considera-se uma dispersão Considera-se alta dispersão
média

Exemplo:

Turma A
xi x i− x̄ ( x i− x̄ )2
3 -3 9
4 -2 4
4 -2 4
5 -1 1
6 0 0
7 1 1
8 2 4
8 2 4
9 3 9
54 - 36

x̄=
∑ x i f i =54 =6
n 9

σ=
√ ∑ ( x i− x̄ )2 =
n √ 36
9
=2

σ 2
CV = ×100 %= ×100 %≈33 ,3
x̄ 6

8. Correlação Linear simples


 Quando estão em jogo somente duas variáveis, fala-se em correlação e regressão
simples.
 Quando se trata de mais de duas variáveis, fala-se em correlação e regressão múltipla.
 Contudo, duas variáveis estão relacionadas se a mudança de uma provoca a mudança
na outra.
Correlação entre duas variáveis
 Quando uma delas está, de alguma forma, relacionada com a outra.
 Quando a alteração no valor de uma variável (dita independente) provoca alterações
no valor da outra variável (dita dependente)
8.1 Relação entre variáveis
Um diagrama de dispersão mostra a relação entre duas variáveis quantitativas, medidas sobre
os mesmos indivíduos.
 Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo
vertical.
 Cada indivíduo aparece como o ponto do gráfico definido pelos valores de ambas as
variáveis para aquele indivíduo.

Exemplos:
Consideremos uma amostra aleatória, formada por dez dos 98 alunos de uma turma de
Estudantes de AGE da Universidade Licungo e pelas notas obtidas por eles em Matemática e
Estatística:

Notas
Matemática Estatística
(x) (y)
1 5,0 6,0
2 8,0 9,0
3 7,0 8,0
4 10,0 10,0
5 6,0 5,0
6 7,0 7,0
7 9,0 8,0
8 3,0 4,0
9 8,0 6,0
1
0 2,0 2,0
Então, notas de matemática e notas de estatística dos alunos tem correlação positiva, porque
quando uma das variáveis cresce a outra, em média, também cresce.
Se as variáveis x e y variam em sentido contrário, isto é, quando x cresce, em média y
decresce, diz-se que as duas variáveis têm correlação negativa.

Como pode observar, os pares ordenados (x,y) acima, obtemos uma nuvem de pontos que
denominamos diagrama de dispersão. Esse diagrama nos fornece uma ideia grosseira, porém
útil da correlação existente entre as variáveis. Portanto, analisando os diagramas de dispersão
os aspectos abaixo são relevantes na análise dos Diagramas:

 Direção (crescente e decrescente);


 Forma (linear, não-linear, aglomerados);
 Pontos (discrepantes)

A análise gráfica da relação entre variáveis é importante, mas os olhos nem sempre são um
bom juiz da intensidade de uma relação linear.
Nossos olhos podem ser enganados por uma mudança de escalas, ou pela quantidade de
espaço em branco em torno do aglomerado dos pontos. Deve-se, então, utilizar uma medida
numérica para suplementar o gráfico. Esta medida é chamada de Coeficiente de Correlação.

8.2 Coeficiente de Correlação Linear (r)

Duas ou mais variáveis expressam a relação de causa e efeito ou se elas variam


concomitantemente, são variáveis consideradas correlacionadas. O grau de relacionamento
para dados amostrais é dado pela seguinte expressão:

n . ∑ ( x . y )−∑ x . ∑ y
r=
√ n . ∑ x −( ∑ x ) . √ n . ∑ y −( ∑ y )
2 2 2 2
Onde −1≤r≤1

Este coeficiente é também chamado de Coeficiente de Correlação de Pearson (Karl Pearson,


1857-1936).

Propriedade do coeficiente de correlação linear


 O valor de r está sempre entre –1 e 1.
 Quanto mais próximo de –1: maior correlação negativa
 Quanto mais próximo de 1: maior correlação positiva
 Quanto mais próximo de 0: menor a correlação linear
 Mede a intensidade, ou grau, de um relacionamento linear. Não serve para medir a
intensidade de um relacionamento não-linear.

8.3 Correlação positiva e correlação negativa

Se as variáveis x e y crescem no mesmo sentido, isto é, quando x cresce, y também cresce,


diz-se que as duas variáveis têm correlação positiva.

Graficos (Diagramas de dispersão)

Correlacao positiva r>0 Correlacao negativa r<0

d) Negativa
a) Positiva
e) Fortemente negativa
b) Fortemente positiva
f) Perfeitamente negativa
c) Perfeitamente positiva

Ausência de correlação
g) Ausência de Correlação (h) Exemplo de Correlação não Linear

Exemplo:
Sobre a mesma matéria uma turma foi avaliada, em seis testes, por dois professores diferentes.
Os resultados médios estão indicados na tabela seguinte. (notas de 0 a 20 valores).

T1 T2 T3 T4 T5 T6
Prof A 12 10,6 18 8 14 9,5 x

Prof B 15 13,6 15,5 5,8 13,5 12,3 y

a) Desenhar o diagrama de dispersão. Da análise do gráfico pode concluir pela existência


de alguma associação linear entre as variáveis?
b) Calcular o coeficiente de correlação. Comente justificando este valor.

Resolução:

a)

 Verifica-se a existência de uma associação linear positiva entre as variáveis nota Prof
A e nota Prof B, o que significa que, de um modo geral, quando a nota do Prof A
aumenta, também aumenta a nota do prof B e vice-versa, isto é, a medida que diminui
a nota do prof A, de um modo geral, diminui do Prof B.

b)
x y x. y x2 y2
12 15 180 144 225
10.6 13.6 144.16 112.36 184.96
18 15.5 279 324 240.25
8 5.8 46.4 64 33.64
14 13.5 189 196 182.25
9.5 12.3 116.85 90.25 151.29
Total 72.1 75.7 955.41 930.61 1017.39

Substituindo os valores na fórmula, teremos:

n ∑ xy−∑ x ∑ y 6∗955,41−72.1∗75 ,7
r= = =
√ n∑ x −(∑ x) ∗√ n∑ y −(∑ y )
2 2 2 2
√ 6∗930,61−72 ,1 ∗√6∗1017,39−75 ,7
2 2

5732,46−5457,97
¿ =
√ 5583,66−5198,,44∗√6104 ,34−5730,49
274, 49 274,49 274,49
¿ = = =0,72
√ 385,25∗√ 373,85 19 ,6∗19 ,33 379,5072

 Este valor produz associação linear positiva relativamente forte (0,72) entre as duas
variáveis ou seja espera-se que um aluno que aumenta a nota com o professor A,
também a aumenta com o professor B.

9. Análise de Regressão Linear

O modelo de regressão linear simples expressa-se como y=ax+ b+e . Onde “e” é a variável
residual que descreve os efeitos de y não explicados por x.
Dada uma colecção de dados amostrais emparelhados, a seguinte equação de regressão
descreve a relação entre as duas variáveis:
y=α+ β∗x
Onde :
n∗∑ x . y−∑ x∗∑ y
β=
β: coeficiente angular e é calculado por n∗∑ x 2 −( ∑ x )2

α: ponto onde a recta intercepta eixo y e calcula-se por α= y −β∗x

x=
∑x
Média de x: n

y=
∑y
Média de y: n

O gráfico da equação é chamado recta de regressão (ou recta de melhor ajuste, ou recta de
mínimos quadrados)

Exemplo:

Considere a idade e as alturas de crianças da Escola Primaria Completa de Coalane.


Idade (x) 6 8 10 12
Altura (cm) (y) 70 110 130 150

Determine a equação da recta de regressão

Resolução:

x y x. y x2 y2
6 70 420 36 4900
8 110 880 64 12100
10 130 1300 100 16900
12 150 1800 144 22500
Total 36 460 4400 344 56400
n ∑ xy−∑ x ∑ y 4∗4400−36∗460 1040
β= = = =13
n ∑ x 2 −( ∑ x )
2
4∗344−362 80

y=
∑ y = 460 =115
n
4
x=
∑ x =36 =9
α= y −β∗x mas n 4

Assim:
α= y−β∗x
α=115−13∗9
α=115−117
α=−2

Logo a equação da recta de regressão será dada por:

¿^ =−2+13∗x

y
¿^ =α+β∗x
y ¿ ¿

9.1 Método dos mínimos quadrados

A recta traçada pelo método dos mínimos quadrados é aquela cujas distâncias entre a recta
estimada e os valores observados são mínimos; mais exactamente, fornece valores de a e b
que minimizam a soma dos quadrados dos desvios entre os valores observados e os estimados
da variável dependente, isto é, procura a e b tal que minimizam a soma ∑ ( y i− ^y )2 ; onde ^y é
o valor estimado.

Usando este método, os valores de a e b são:

a=
s xy
=
∑ ( x i− x̄ )( y 1− ȳ ) . b= ȳ−a x̄
s2x ∑ ( x i− x̄ )2

Exemplo:

Os dados que se seguem indicam a relação existente entre x, que representa a densidade
específica duma amostra de madeira, e y, que representa a pressão máxima que a referida
amostra pode suportar.

xi yi

0,41 1850

0,46 2620

0,44 2340

0,47 2690

0,42 2160

0,39 1760

0,41 2500

0,44 2750

0,43 2730

0,44 3120

a)Trace o gráfico referente aos dados.

b)Estime os coeficientes de regressão.


c)Preveja a pressão que uma amostra de madeira suporta quando a sua densidade específica é
de 0.43.

(
x i− x̄ )( y i − ȳ (
y i − ȳ )
xi yi x i− x̄ y i − ȳ ) (
x i− x̄ )2 2

x y

0,41 1850 0,00044


i i

-0,021 -602 12,642 362404


1
0,00084
0,46 2620 0,029 168 4,872 28224
1
0,44 2340 0,009 -112 -1,008 8,1E-05 12544
0,00152
0,47 2690 0,039 238 9,282 56644
1
0,00012
0,42 2160 -0,011 -292 3,212 85264
1
0,00168
0,39 1760 -0,041 -692 28,372 478864
1
0,00044
0,41 2500 -0,021 48 -1,008 2304
1
0,44 2750 0,009 298 2,682 8,1E-05 88804
0,00000
0,43 2730 -0,001 278 -0,278 77284
1
0,44 3120 0,009 668 6,012 8,1E-05 446224
4,31 24520 - - 64,78 0,00529 1638560

a=
∑ ( x i− x̄ )( y 1− ȳ ) =64 , 78 ≈12245 ,7
b) ∑ ( x i− x̄ )2 0 , 00529

b= ȳ−a x̄ =2452−12245 , 7×0 , 431=2452−5277 , 9=2825 , 9


c) y=12245 , 7 x−2825 , 9

y=12245 , 7×0 , 43−2825 , 9=5265 , 651−2825 , 9=2439 ,751

Bibliografia

ANDERSON, D. R; Estatística aplicada à Administração e economia; São Paulo: Thomson


Leaning; 2003.

FONSECA, J.S.; MARTINS, G.A. (19 93). Curso de estatística. 4a ed. São Paulo: Atlas.
LAPONNI, Juan Carlos (1997). Estatística usando o Excel. São Paulo: Lapponi

GUIMARÃES E CABRAL. Estatística. Amadora:. Mc graw Hill, 1997.

MILONE, G.; ANGELINI, F. (1995). Estatística aplicada. São Paulo: Atlas.

MURTEIRA, B, et al, Introdução à Estatística. Portugal. Mc Graw-Hill, 2002

NEVES, Maria Augusta at al; Matemática aplicada às ciências sociais. Porto. Porto editora,
2005.

SNEDECOR, G. W.; COCHRAM, W. G. (1989). Statistical Methods. 8rd ed. Iowa: Iowa

State University Press, 1989.

Treinamento e Editora.
WONNACOTT, T.H.; WONNACOTT, R. J. (1990). Introductory Statistics. New York. John
wiley & Sons;

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy