0% acharam este documento útil (0 voto)
2 visualizações36 páginas

Unid 2

O documento aborda os fundamentos da análise e validação de modelos de regressão, focando na estimativa de parâmetros por meio dos métodos de Mínimos Quadrados Ordinários (MQO) e Máxima Verossimilhança (MV). Ele descreve o cálculo de valores previstos e residuais, além de discutir a importância da análise de variância, testes de hipóteses e a significância dos parâmetros do modelo. O texto também apresenta os princípios do MQO, como linearidade, amostragem aleatória e homocedasticidade, fundamentais para a aplicação correta do método.

Enviado por

André Xavier
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
2 visualizações36 páginas

Unid 2

O documento aborda os fundamentos da análise e validação de modelos de regressão, focando na estimativa de parâmetros por meio dos métodos de Mínimos Quadrados Ordinários (MQO) e Máxima Verossimilhança (MV). Ele descreve o cálculo de valores previstos e residuais, além de discutir a importância da análise de variância, testes de hipóteses e a significância dos parâmetros do modelo. O texto também apresenta os princípios do MQO, como linearidade, amostragem aleatória e homocedasticidade, fundamentais para a aplicação correta do método.

Enviado por

André Xavier
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 36

07/12/2023, 22:10 E-book

ECONOMETRIA APLICADA
ANÁLISE E VALIDAÇÃO
DOS MODELOS DE
REGRESSÃO
Autor(a): Dra. Marcela Gimenes Bera Oshita

Revisor: Me. Marco Antonio Santos

Tempo de leitura do conteúdo estimado em 1 hora e 15 minutos.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V4… 1/36
07/12/2023, 22:10 E-book

Introdução
Olá, estudante!

Neste material, estudaremos os fundamentos da análise e da validação dos modelos


de regressão, o que o ajudará a estimar os parâmetros do modelo pelo método dos
mínimos quadrados e da verossimilhança. Esses parâmetros são importantes para
entender o tipo de modelo que poderá ser estimado de acordo com o que se busca
medir. Serão abordados o cálculo dos valores previstos e residuais do modelo de
regressão, bem como a análise da variância e os testes de hipóteses. Para fixar
ainda mais o conteúdo, veremos como calcular o erro-padrão e a estatística do teste
de cada parâmetro do modelo estimado. Será dado destaque à análise de
significância e aos intervalos de confiança do modelo estimado. Assim, neste estudo,
você terá a oportunidade de compreender as análises que tornam um modelo de
regressão robusto e, a partir disso, estará apto a realizar análises e validação do
modelo múltiplo de forma que faça sentido com relação aos fundamentos
estatísticos.

Bons estudos!

Estimação de
Parâmetro do Modelo
https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V4… 2/36
07/12/2023, 22:10 E-book

Múltiplo e do Cálculo
dos Valores Previstos
e Residuais

Estudante, você já ouviu falar nos parâmetros dos modelos de Mínimos Quadrados
Ordinários (MQO) e da Máxima Verossimilhança (MV)? Os MQOs referem-se a uma
forma de estimar os parâmetros de um modelo estatístico em uma regressão linear.
A estimativa MV, por sua vez, é um método muito empregado para regressões não
lineares e para adequar um modelo aos dados.

Além disso, veremos também como realizar os cálculos dos valores previstos e
residuais. Assim, entenderemos que os valores previstos são calculados a partir da
equação de regressão estimada; e os resíduos brutos são calculados a partir do valor
observado menos o valor previsto.

Método dos Mínimos Quadrados Ordinários


(MQO)
O método dos Mínimos Quadrados Ordinários (MQO) é uma forma de regressão
estatística usada para prever valores desconhecidos de um conjunto de dados
existentes. Um exemplo de um cenário em que se pode usar o MQO está na previsão
do tamanho de um indivíduo, a partir de um conjunto de dados, que inclui altura e
peso de indivíduos. Com os dados, você pode usar a fórmula do MQO para criar uma
taxa de mudança e prever o peso do indivíduo, dada a altura de um sujeito.

Em suma, o MQO toma uma entrada, a variável independente, e produz uma saída, a
variável dependente. Segundo Tiryaki e Andrade (2017, p. 37, grifos dos autores).

O modelo mais popular para estudar a relação entre duas variáveis é o


modelo de regressão linear clássico, no qual os parâmetros de interesse

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V4… 3/36
07/12/2023, 22:10 E-book

são estimados a partir da minimização da soma dos quadrados dos


resíduos. Estes estimadores são conhecidos como estimadores de
mínimos quadrados ordinários.

A partir do método MQO, a relação entre uma variável de resposta contínua (Y) e uma
variável explicativa contínua (X) pode ser representada usando uma linha de melhor
ajuste, em que Y é previsto, pelo menos até certo ponto, por X. Se essa relação é
linear, ela pode ser apropriadamente representada, matematicamente, usando a reta
equação de linha 'Y = B 0 + B 1X'.

A relação entre as variáveis Y e X é descrita usando a equação da linha de melhor


ajuste, com B 0 indicando o valor de Y quando X é igual a zero (também conhecido
como intercepto) e B 1 indicando a inclinação da linha (também conhecido como
coeficiente de regressão). O coeficiente de regressão B 1 descreve a mudança em Y
que é associada a uma mudança de unidade em X. O B 1 fornece apenas uma
indicação da mudança média esperada (dos dados observados estão espalhados ao
redor da linha).

O B 1 é útil também para verificar o quão bem o modelo ajusta-se aos dados. O ajuste
do modelo pode ser determinado comparando-se as pontuações observadas de Y (a
valores de Y da amostra de dados) com os valores esperados de Y (os valores de Y
previstos pela equação de regressão).

Quando pensamos no método MQO, precisamos ter em mente que ele tem as seis
ideias iniciais, que citaremos a seguir, a respeito de como o método deve ser
aplicado: como linear os parâmetros; aleatoriedade das amostras escolhidas; valor
zero da média condicional; inexistência de multicolinearidade; homocedasticidade,
que é quando os erros têm variância comum; e erro normalmente distribuído.

Princípios do método de MQO

Princípios do método de MQO

1. Linearidade nos parâmetros (B j): Quando a variável dependente (Y) é


uma função linear de variáveis independentes (X') e o termo de erro; a
regressão é linear em parâmetros, e não necessariamente linear nas
variáveis independentes.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V4… 4/36
07/12/2023, 22:10 E-book

2. Amostra aleatória: A amostra colhida para o modelo de regressão linear


deve ser extraída de forma aleatória da população, em vez de adotar um
procedimento de amostragem conveniente. Além disso, o número de
observações da amostra deve ser maior do que o número de parâmetros
a serem estimados.
3. A média condicional deve ser zero: O valor esperado da média dos
termos de erro da regressão de MQO deve ser zero, dados os valores das
variáveis independentes.
4. Não há multicolinearidade: Essa suposição diz que, na regressão
múltipla, devem ser selecionadas variáveis independentes que não estão
correlacionadas entre si.
5. Homocedasticidade e nenhuma correção automática do erro: Se a
variância não for constante (ou seja, dependente de X), então, o modelo
de regressão linear tem erros heterocedásticos e, provavelmente,
apresentará estimativas incorretas. A não correção automática diz que
os termos de erro de diferentes observações não devem ser
correlacionados entre si.
6. O erro deve ser normalmente distribuído: Apenas os termos de erro
precisam ser normalmente distribuídos. A variável dependente Y não
precisa ser distribuída normalmente. Se os termos de erro não forem
normais, então os erros-padrão das estimativas do MQO não serão
confiáveis, o que significa que os intervalos de confiança seriam muito
amplos ou estreitos.

Fonte: Adaptado de Pereda e Alves (2018) e Tiryaki e Andrade (2017).

Continuando nossos estudos acerca do assunto método de MQO, os seis princípios


iniciais citados, naturalmente, auxiliarão seu aprendizado, como no momento de você
encontrar os estimadores para os parâmetros do modelo. Nesse sentido, precisamos
compreender dois conceitos importantes: 1) o valor estimado de y (ŷ ); 2) o resíduo
para cada observação i (û); assim, o valor estimado de y e o que chamamos de reta
de regressão da amostra: ŷ = B̂ 0 + B̂ 1 xi , ∀ i, isto é, o valor estimado para y
considerando os estimadores e o valores de x (PEREDA; ALVES, 2018).

Observe a Figura 2.1, que traz uma equação de regressões das amostras ŷ e
população (E(y|x)).

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V4… 5/36
07/12/2023, 22:10 E-book

Figura 2.1 — Representação da equação de regressões das amostras ŷ e da população


(E(y|x))
Fonte: Adaptada de Pereda e Alves (2018, p. 70).

#PraCegoVer: a figura apresenta um gráfico que está representado pelas variáveis x e y,


na horizontal e na vertical, de forma respectiva, com duas retas, que começam acima do
zero, no eixo y, e se cruzam em um dado momento. Essas retas representam a mesma
regressão, mas uma está em função do y estimado e a outra, em função do erro E. Em
torno da reta em função do estipulado, temos alguns pontos que representam os
resíduos.

A partir da Figura 2.1, você pode visualizar o resíduo da regressão, em que, para cada
observação i , e a diferença entre o valor observado de y e o valor previsto para y (ŷ,
que está sobre a reta de regressão):

^ ^
ui = yi − yi

^
u i = y i − B 0 − B 1 xi

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V4… 6/36
07/12/2023, 22:10 E-book

Note que o termo û, no modelo de regressão, é chamado de residual, que é a


^
diferença entre o valor real de y i e o valor previsto de y i (linha de regressão). Assim, o
valor residual é calculado subtraindo-se o valor real do ponto de dados do valor
previsto desse ponto de dados. O valor previsto pode ser obtido a partir da análise da
regressão.

Exemplo:

^ ^
Considere y = 5 e y = 1.1 + 1.3x , se x for 2, temos que: = 1.1 + 1.3 (2) = 3.7.
y
^ ^
Aplicando na seguinte fórmula: u i = y i − y i, encontramos:

^
u i = 5 − 3.7

^
u i = 1.3

O resíduo (û) é diferente do erro (u) do modelo populacional. Segundo Pereda e Alves
(2018, p. 70), “há um resíduo para cada observação da amostra (portanto, n
resíduos). Quanto melhor for o ajuste da reta de regressão amostral dos dados,
menores os valores dos resíduos”. Assim, os estimadores de MQO (B 0 e B 1x) são
aqueles que minimizam a Soma dos Quadrados dos Resíduos (SQR):

^
(B 0,B x) = Argmin ∑ N u 2 = Argmin (SQR)
i=1 i

^ ^
Diante disso, considere que as incógnitas B 0 e B 1x são representadas pelas
seguintes equações:

^ ^
B 0 = y − − x − B 1x

^
B 1x =

( x1 − x −
)( )
yi − y −

∑ ( x1 − x − ) 2

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V4… 7/36
07/12/2023, 22:10 E-book

^ ^
Assim, os estimadores B 0 e B 1x são pontos mínimos. Embora eles não sejam pontos
de mínimo quando ∑ (x 1 − x − ) 2 = 0, o que significa que não há variação de x na
amostra. E, nesse caso, não conseguimos derivar o estimador de mínimos quadrados
ordinários (PEREDA; ALVES, 2018). Reorganizando em termos de notação matricial,
temos, para um modelo com k variáveis e n observações amostrais, a equação:

(X X )B̂ = X Y
′ ′

Assim, temos o vetor de parâmetros estimados:

−1 ′
B̂ = (X ′ X) X Y

Note que os chapéus sobre os betas indicam que essas são estimativas de
parâmetros, enquanto u representa os resíduos, que são estimativas do erro
aleatório. Normalmente, as estimativas são úteis quando são imparciais (corretas
em média) e precisas (variância mínima). A variância dos erros deve ser consistente
para todas as observações. Em outras palavras, veja uma explicação simples no
infográfico a seguir.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V4… 8/36
07/12/2023, 22:10 E-book

#PraCegoVer: o infográfico estático apresenta dois subtítulos, com seus respectivos


gráficos e definições. O primeiro subtítulo é “Homocedasticidade”, sendo definido como “a
variância não muda para cada observação ou para uma série de observações, ou seja,
mesma dispersão”. O gráfico apresenta as linhas verticais e horizontais, em que duas
bolinhas estão na linha horizontal e as demais estão ao redor. O segundo subtítulo é
“Heteroscedasticidade”, e apresenta como conceito: “se a variância mudar, haverá uma
dispersão diferente”. O gráfico é parecido com o outro, porém há três bolinhas na linha
horizontal, distribuídas, homogeneamente, na linha do gráfico.

Cabe destacar, ainda, que, na diferença entre os dois valores, temos o resíduo que
fornece uma indicação de quão bem o modelo prevê cada ponto de dados. Somando
os desvios para todos os pontos de dados depois de terem sido elevados ao
quadrado (isso, basicamente, remove desvios negativos) é fornecida uma simples
medida do grau em que os dados se desviam do modelo geral. Diante disso, convido
você a refletir um pouco mais sobre a importância da estatística do desvio, que
contribuirá de forma ampla para a sua formação.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V4… 9/36
07/12/2023, 22:10 E-book

REFLITA

O desvio é uma estatística importante, pois possibilita


a contribuição feita por variáveis para a previsão da
resposta variável a ser determinada. Se, ao adicionar
uma variável ao modelo, o desvio é muito reduzido,
pode ser dito que a variável adicionada teve um grande
efeito na previsão de y para esse modelo.
Se, por outro lado, o desvio não é muito reduzido,
pode-se dizer que a variável teve um pequeno efeito na
previsão de y para esse modelo. Assim, a mudança no
desvio resulta da variável explicativa sendo adicionada
ao modelo que é usado para determinar o significado
desse efeito da variável na previsão de y naquele
modelo.

Com o apoio dessa reflexão, compreendemos que a soma de todos os quadrados


resíduos é conhecida como a soma residual dos quadrados e fornece uma medida
de ajuste do modelo para um modelo de regressão pelo método dos MQOs. É
importante ressaltar que um modelo mal ajustado se desviará marcadamente dos
dados e, consequentemente, terá um resíduo relativamente grande. Enquanto um
modelo de bom ajuste não se desviará muito dos dados e, consequentemente, terá
um resíduo relativamente pequeno (um modelo perfeitamente ajustado terá um
resíduo igual a zero, pois não haverá desvio entre os valores observados e esperados
de y).

Método da Máxima Verossimilhança (MV)


Uma alternativa ao modelo de MQO seria o método da Máxima Verossimilhança
(MV), que é uma forma muito útil para estimar os parâmetros dos modelos de
regressão não linear, por exemplo: probit, logit, logit e probit multinomial (GUJARATI,

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 10/36
07/12/2023, 22:10 E-book

2019). Na regressão linear, assumimos que os resíduos do modelo são idênticos e


distribuídos de forma independente.

u = y − B̂x ∼ N 0, α 2 ( )
Considerando essa suposição, a função de probabilidade de registro para o vetor

parâmetro desconhecido, θ = {B, α }, condicionada aos dados observados, y e x, é


2

dada por:

1
[
ln L(θ | y, x) = − ∑ ni= 1 ln α 2 + ln(2π) +
2
ˆ
y − Bx
α2 ]
As estimativas máximas de probabilidade de B e α 2 são aquelas que maximizam a
probabilidade. Nessa perspectiva, a estimativa de MV começa com a expressão
matemática conhecida como função de verossimilhança dos dados da amostra. Isto
é, envolve a probabilidade de um conjunto de dados, que é a probabilidade de obter
esse conjunto específico de dados dado o modelo de probabilidade escolhido
(PEREDA; ALVES, 2018). Essa expressão também contém parâmetros
desconhecidos. Por sua vez, os valores do parâmetro que maximizam a
probabilidade da amostra são conhecidos como estimativas de máxima
verossimilhança ou MV.

A MV fornece uma abordagem consistente para problemas de estimativa de


parâmetros. Isso significa que as estimativas de MV podem ser desenvolvidas para
uma grande variedade de situações de estimativa. Por exemplo, elas podem ser
aplicadas na análise de confiabilidade a dados censurados sob vários modelos de
censura. Por meio do vídeo a seguir, vamos conhecer outros exemplos de modelos
de probabilidades que podem ser empregadas para realizar estimativas pelo método
da MV.

SAIBA MAIS

Método da MV

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 11/36
07/12/2023, 22:10 E-book

Estudante, o vídeo “O que é um estimador de máxima


verossimilhança?” apresenta, dentro das teorias de
estimação, alguns exemplos de modelos de
probabilidades que podem ser empregadas para
realizar estimativas pelo método da MV. Ao longo
deste vídeo, você poderá aprofundar ainda mais os
conceitos tratados até aqui, de forma a entender as
diferenças envolvidas na estimação pelo método da
máxima verossimilhança, em comparação com os
mínimos quadrados ordinários.

ASSISTIR

Nessa perspectiva, as equações de verossimilhança precisam ser elaboradas


especificamente para um determinado problema de distribuição e estimativa. A
matemática é muitas vezes não trivial, particularmente se intervalos de confiança
para os parâmetros forem desejados.

Nesse caso, se uma população é conhecida por seguir uma distribuição normal, mas
a média e a variância são desconhecidas, o método da MV pode ser usado para
estimá-las usando uma amostra limitada da população, encontrando valores
particulares da média e variância para que a observação tenha o resultado mais
provável de ocorrer.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 12/36
07/12/2023, 22:10 E-book

No entanto, no modelo de regressão, não podemos fazer suposições sobre a


distribuição de probabilidade do termo de erro. Por sua vez, no método da máxima
verossimilhança, presumimos que o termo de erro tem uma distribuição de
probabilidades.

No modelo clássico de regressão linear normal, presume-se que o termo


de erro segue uma distribuição normal com uma variância com média
zero e constante (isto é, homocedástica). Com base nesta suposição,
temos como derivar a distribuição amostral dos estimadores dos
parâmetros de regressão e realizar o teste de hipóteses (GUJARATI, 2019,
p. 26, grifos nossos).

Cabe destacar que os estimadores dos dois métodos são os mesmos, mas o que os
diferencia seria o estimador do termo do erro u e da variância α 2. Entretanto, para
amostras grandes, a diferença é mínima (GUJARATI, 2019). Assim, o estimador por
MV compreende:

^ ∑ u 2i
2
α Ml = n

Ao passo que o do MQO:

^ ∑ u 2i
2
α = n−k

Isso significa que o estimador MV da variância desconhecida não é ajustado para os


graus de liberdade, enquanto o estimador de mínimos quadrados ordinários é
ajustado. O que indica que as estimativas de máxima verossimilhança podem ser
fortemente tendenciosas para amostras pequenas.

Segundo Gujarati (2019, p. 27), “em grandes amostras, no entanto, os dois


estimadores geram aproximadamente o mesmo valor, apesar de, em uma amostra
pequena, o estimador de MV ser um estimador tendencioso da verdadeira variância

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 13/36
07/12/2023, 22:10 E-book

do erro". Assim, se o valor do erro for distribuído normalmente, os coeficientes de


regressão serão os mesmos para os dois métodos. Por isso a importância de
descobrir se o termo de erro realmente é distribuído normalmente em qualquer
aplicação.

Em que o erro-padrão de uma estatística refere-se à estimativa do desvio-padrão da


média amostral da média populacional verdadeira.

S
Sx =
n−

Para isso, precisamos, inicialmente, calcular a média da amostra:

x1 + x2 . . . + xn
x− = n

Considerando que temos uma amostra de mais de 30 indivíduos, encontramos uma


média de x − = 2,5.

Agora, vamos encontrar o desvio-padrão S:

1
S=
√ n−1
∑ ni= 1(x i − x − ) 2

Como já temos a média, vamos subtrair os valores de x da média x − e elevar o valor


ao quadrado. Ao fazer isso, encontramos 0,5. Inserindo os valores na fórmula do
desvio-padrão, temos:

1
S=
√ 3−1
0, 5 = 0, 1724

Agora que encontramos o desvio-padrão, vamos calcular o erro-padrão amostral:

S 0 , 01724 0 , 01724
Sx = = = 5.3851
= 0.0032
n− 29
√ √ _

Assim, o erro-padrão é de 0.032.

Na distribuição amostral normalmente distribuída, o erro-padrão pode ser utilizado


no cálculo dos intervalos de confiança da média populacional.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 14/36
07/12/2023, 22:10 E-book

Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)

Considerando que desejamos usar uma linha reta para relacionar a variável Y, a
variável dependente, com a variável x, a variável independente, há uma questão
sobre qual linha usar. Em qualquer dispersão de observações de valores x e Y,
haveria um número infinito de linhas retas que poderiam ser usadas para
representar a relação.

Nessa perspectiva, podemos afirmar que a linha reta a ser escolhida seria aquela
que:

a) fosse a mais inclinada do modelo.


b) eliminasse todos os erros do modelo.
c) maximizasse a quantidade de erros.
d) minimizasse a quantidade de erros.
e) fosse encontrada primeiro pelo pesquisador.

No próximo tópico, compreenderemos como realizar testes de significância para uma


relação de regressão múltipla. Veremos, de forma bastante esclarecedora, a
diferença dos testes F e T por meio de conceitos e exemplificações.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 15/36
07/12/2023, 22:10 E-book

Análise de Variância
de Teste de
Significância do
Modelo Múltiplo

Os testes de significância que, normalmente, usamos na regressão linear são o teste


F e o teste T. Segundo Gujarati (2019, p. 14), “[...] a utilização dos testes T e F é
explicitamente baseada na premissa de que o termo de erro, u j , e em geral
distribuído, ..., se a premissa não for aplicável, o procedimento dos testes T e F é
inválido em amostras pequenas”, mas eles podem ser usados em amostras grandes.

Teste F
O teste F é utilizado para determinar se existe uma relação significativa entre a
variável dependente e o conjunto de todas as variáveis independentes; vamos nos
referir ao teste F como o teste para significância geral. De acordo com Gujarati e
Porter (2011), para o teste F, utilizamos o modelo de regressão com k variáveis:

Y i = β 1 + β 2X 2i + β 3X 3i + . . . + β kX ki + u i

Assim, testamos as hipóteses:

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 16/36
07/12/2023, 22:10 E-book

H 0 : β 2 = β 3 = . . . = β k = 0, em que todos os parâmetros são iguais a zero de


forma simultânea;

H 1: nem todos os parâmetros são simultaneamente iguais a zero.

Se H 0 for rejeitado, o teste nos dá evidências estatísticas suficientes para concluir


que um ou mais parâmetros não são iguais a zero e que a relação geral entre Y e o
conjunto de variáveis independentes x 1, x 2. . . . No entanto, se H 0 não pode ser
rejeitado, não temos evidências suficientes para concluir que uma relação
significativa está presente.

Para isso, calculamos,

SQE / gl SQE / ( n − k )
F= =
SQF / gl SQF / ( k − 1 )

Em que:

Soma dos Quadrados Explicados é SQE = ∑ (ŷ − y − ) 2

Soma Residual dos Quadrados é SRQ = ∑ e 2


i

Assim, para calcular o teste F, primeiramente, é necessário conhecer a soma dos


quadrados dos erros dentro dos grupos ou a Soma dos Quadrados dos Erros (SQE),
que é dada por:

SQE = ∑ ki= 1(ŷ − y − ) 2

Em que: SQE = Y ′ Y − B̂X ′ Y

Estudante, observe o seguinte, se considerarmos a matriz a seguir, pois nela temos:

[]
− 8 10 8 22 −8

= SQE [ ] Y′
10
8
Y = 712

22

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 17/36
07/12/2023, 22:10 E-book

[]
11 2 −3 32
− SQE = 712 [ ] Bˆ 18
4
X ′Y = 712 − 708 = 4

A Soma dos Quadrados dos Fatores (SQF) entre os grupos é dada por:

SQF = ∑ ki= 1n i(y i − Y − ) 2

Em que:

SQF = B̂X ′ Y − ny − 2

Continuando com a matriz que trabalhamos na regressão múltipla, temos:

[]
11 2 −3 32
SQF = [ ] Bˆ 18
4
X ′Y − 4(8)² = 708 − 256 = 452ny − 2

Antes de calcular o F, será necessário realizar os cálculos apresentados a seguir:

SQE 4
Entre os grupos: QME = n−k
= 4−3
= 4.

SQF 456
Dentro dos grupos: QMF = k−1
= 3−1
= 226.

Cabe destacar que n é o número de variáveis de resposta para cada grupo e k o


número de variáveis (explicativas e dependentes) do modelo.

Para calcular o F, devemos considerar:

Variância entre os grupos


F=
Variância dentro dos grupos

QME 4
F= = = 0, 0176.
QMF 226

“Se F > F α(k − 1, n − k), rejeite H 0; caso contrário, não o rejeite, em que F α(k − 1, n − k)
é o valor crítico de F no nível α de significância; (k − 1), os graus de liberdade do
numerador; e (n − k), os graus de liberdade do denominador” (GUJARATI; PORTER,
2011, p. 258).

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 18/36
07/12/2023, 22:10 E-book

Como alternativa, se o p-valor (0,01; 0,05 ou 0,10) de F obtido mediante os cálculos


for suficientemente baixo, poderemos rejeitar H 0. Diante disso, no nosso exemplo
anterior, podemos rejeitar o H 0, o que significa que, como o p-valor é de 1%, temos
evidências suficientes para concluir que uma relação significativa está presente. O
teste F também indica que os coeficientes não são simultaneamente iguais a zero, já
que o p-valor é menor que 5%.

Além disso, as variâncias são a soma dos desvios quadrados da média. Se você tem
uma amostra maior, há mais desvios quadrados para somar. O resultado é que a
soma torna-se maior e maior à medida que você adiciona mais observações. Ao
incorporar o grau de liberdade, os quadrados médios são responsáveis pelos
diferentes números de medições para cada estimativa da variância. Caso contrário,
as variâncias não são comparáveis e a razão para a estatística F não tem sentido.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 19/36
07/12/2023, 22:10 E-book

A análise de variância (ANOVA) realiza “um teste de significância para as somas dos
quadrados do ajuste de MQO. A estatística de teste utilizada é a F, a qual, por
definição, é obtida quando se realiza a razão entre dois quadrados médios
(variâncias amostrais)” (MAIA, 2017, p. 88).

Se o teste F mostra que a relação de regressão múltipla é significativa, o teste T


analisa se os meios de dois conjuntos de dados são muito diferentes um do outro, ou
seja, se a média populacional é igual ou diferente da média-padrão. Também pode
ser usado para verificar se a linha de regressão tem uma inclinação diferente de zero.

Teste T
O teste T é usado para determinar se cada uma das variáveis independentes
individuais é significativa. Um teste T separado é realizado para cada uma das
variáveis independentes no modelo; referimo-nos a cada um desses testes T como
um teste para significância individual. Um teste T de duas amostras sempre usa a
seguinte hipótese nula:

H 0 : as duas médias populacionais são iguais.

Pensando em uma curva de distribuição normal, a hipótese alternativa pode ser de


duas caudas, de cauda esquerda ou de cauda direita.

H 1 (duas caudas): μ 1 ≠ μ 2 (os dois meios populacionais não são


 iguais). 

Os desvios médio e padrão das duas amostras são utilizados para se fazer a
comparação entre eles, de tal forma que:

x1 − x2
_ _
T =
S 21 S 22

√ n1
+n
2

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 20/36
07/12/2023, 22:10 E-book

x 1 = média do primeiro conjunto de dados;


_
x 2 = média do segundo conjunto de dados;
_
S 21 = desvio-padrão do primeiro conjunto de dados;

S 22 = desvio-padrão do segundo conjunto de dados;


n 1 = tamanho do primeiro conjunto de dados;
n 2 = tamanho do segundo conjunto de dados.

Decida sobre o valor alfa (ou α valor, que pode ser 0,01; 0,05 ou 0,10). Isso envolve
determinar o risco que você está disposto a correr para tirar a conclusão errada. Por
exemplo, suponha que você defina α=0,05 ao comparar dois grupos independentes.
Aqui, você decidiu sobre um risco de 5% de concluir que os meios populacionais
desconhecidos são diferentes, quando não são. Vejamos a representação a seguir,
que esclarece essas diferenças de probabilidades:

Probabilidade > α não há como rejeitar a hipótese nula do teste estatístico.

Probabilidade ≤ α não há como rejeitar a hipótese nula do teste estatístico.

O valor crítico que a maioria dos estatísticos escolhe é ⍺ = 0,05, que significa que, se
executarmos o experimento 100 vezes, 5% das vezes seremos capazes de rejeitar a
hipótese nula e 95% não. Nesse contexto, podemos dizer que a estatística T segue a
distribuição t-student, sob hipótese nula. Considerando a distribuição t, temos que:

S S
P (x − − t c < μ < x − + tc ) = 1 − α
√n √n

x − = média amostral;
t = valor crítico (valor crítico de uma distribuição t-student, com os limites do
intervalo de confiança adquiridos na tabela de t-student);
S
= desvio-padrão dividido pela raiz quadrada de n.
√n

Assim, uma variável aleatória tem distribuição normal com média 𝜇 e variância 𝜎2
desconhecidas. Nessa perspectiva, vamos calcular o intervalo de confiança retirando
uma amostra de 15 indivíduos e, na sequência, calculamos a média amostral x − = 10

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 21/36
07/12/2023, 22:10 E-book

e a variância amostral S = 5, para, assim, construirmos um intervalo de confiança de


95% (0,05/2 = 0,025 e utilizar a tabela t-student) para a média dessa população.

S S
P (x − − t c < μ < x − + tc ) = 1 − α
√n √n
5 5
P (10 − 2, 145 < μ < 10 + 2, 145 ) = 1 − 0, 05
√15 √15

P (7, 22 < μ < 12, 77) = 95%

Assim, o intervalo de confiança [7,22; 12,77] contém uma média populacional com
95% de confiança.

Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)

A partir dos nossos estudos, pudemos compreender que a hipótese é uma simples
proposição que pode ser comprovada ou refutada, deixando a suposição de
pesquisa válida ou não. Nessa perspectiva, temos o teste F, que pode ser utilizado
para verificar se os dados estão em conformidade com uma regressão, por
exemplo.

Com relação ao teste F, podemos afirmar que:

a) é determinado pela igualdade das variâncias das duas populações


normais.
b) é aplicado quando o tamanho da amostra é pequeno.
c) é distribuído pela t-student sob hipótese nula.
d) é usado para comparar os meios de duas populações.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 22/36
07/12/2023, 22:10 E-book

e) analisa se os meios de dois conjuntos de dados são diferentes um do


outro.

No tópico a seguir, estudaremos o teste de significância dos parâmetros de modelo


múltiplo. A análise de regressão é uma forma de estatística inferencial e o teste de
significância dos parâmetros do modelo (p-valor) ajudam a determinar se as relações
que você observa em sua amostra também existem na população maior.

Teste de Significância
dos Parâmetros do
Modelo Múltiplo

O teste de significância dos parâmetros do modelo p-valor para cada variável


independente testa a hipótese nula de que a variável não tem correlação com a
variável dependente. Se não houver correlação, não há associação entre as
mudanças na variável independente e as mudanças na variável dependente. Em
outras palavras, não há evidências suficientes para concluir que há um efeito no nível
populacional.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 23/36
07/12/2023, 22:10 E-book

Nessa perspectiva, p-valor e os coeficientes na análise de regressão trabalham


juntos para dizer quais relações em seu modelo são estatisticamente significativas e
a natureza dessas relações. Os coeficientes descrevem a relação matemática entre
cada variável independente e a variável dependente, e, por sua vez, o p-valor para os
coeficientes indicam se essas relações são estatisticamente significativas
(GUJARATI, 2019).

Além dos testes T e F, você pode testar a significância dos parâmetros do modelo
múltiplo, considerando os intervalos de confiança (intervalo que pode variar de 0.01 a
0,10), que é o limite de evidência significativa contra H 0 para o p-valor (probabilidade
da significância), em que se rejeita a hipótese nula e se aceita a hipótese alternativa.
Dessa forma, temos que:

se valor p-valor < α, rejeita-se H 0;


se valor p-valor > α, não se rejeita H 0.

Por exemplo, se o p-valor for inferior a 0,05, rejeitamos a hipótese nula de que a
verdadeira correlação é zero (ou seja, são independentes). Nessa perspectiva, quanto
menor o p-valor, menor a chance de que a correlação entre as variáveis do modelo
tenha acontecido por acaso. Como resultado, o p-valor tem que ser muito baixo para
que confiemos na métrica calculada. Quanto menor o p-valor (< 0,01 ou 0,05,
tipicamente), mais forte é o significado da relação.

No material a seguir, vamos entender como é fácil analisar as hipóteses por meio de
um vídeo explicativo.

SAIBA MAIS

Como simplificar os cálculos nos


testes de hipóteses
O vídeo “P-valor ou nível descritivo em testes de
hipóteses” apresenta, na prática, como analisar
graficamente as variáveis de forma a aceitar ou rejeitar

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 24/36
07/12/2023, 22:10 E-book

a hipótese nula do modelo. Ao longo da apresentação


deste vídeo, o apresentador já faz uma abordagem
sobre os testes unilaterais e bilaterais, realizando, de
forma prática, um teste de hipótese e apresentando a
região crítica e a de aceitação da hipótese nula.

ASSISTIR

Suponha agora que os resultados de sua regressão mostram que as variáveis


preditoras da população do Leste e Oeste são estatisticamente significativas porque
o p-valor foi de 0,000. Por outro lado, o Leste não é estatisticamente significativo
porque o p-valor (0,092) é maior do que o nível de significância usual de 0,05.

Note que uma estatística é significativa se o p-valor situa-se na região crítica, o que
possibilita a rejeição da hipótese nula. De forma semelhante, um teste é considerado
não significativo se p-valor situar-se na região de aceitação. Nessa situação, a
hipótese nula é aceita (GUJARATI; PORTER, 2011). Isto é, se o p-valor for maior do
que o nível de significância, indica que não há evidências suficientes em sua amostra
para concluir que existe uma correlação “não zero”.

Na dúvida de qual nível de significância utilizar, você pode considerar os seguintes


parâmetros:

p-valor ≥ 0,10, não podemos rejeitar H 0;


p-valor < 0,10, podemos rejeitar H 0, com uma fraca evidência;
p-valor < 0,05, podemos rejeitar H 0, com uma forte evidência;
p-valor < 0,01, podemos rejeitar H 0, com uma evidência altamente
significativa.

Assim, se o p-valor para uma variável for inferior ao seu nível de significância, seus
dados amostrais fornecem evidências suficientes para rejeitar a hipótese nula para
toda a população. Seus dados favorecem a hipótese de que há uma correlação “não
zero”. Alterações na variável independente estão associadas a alterações na variável
dependente no nível populacional. Essa variável é estatisticamente significante e
provavelmente uma adição valiosa ao seu modelo de regressão.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 25/36
07/12/2023, 22:10 E-book

Cabe destacar que nenhum teste de hipótese é 100% certo e, por isso, utilizamos as
probabilidades de 1%, 5% ou 10%, podendo ocorrer de encontrarmos uma solução
incorreta. Incorrendo, assim, em possíveis erros conhecidos como tipo I e tipo II. Nas
estatísticas, um erro do tipo I é uma conclusão falsa positiva, enquanto um erro do
tipo II é uma falsa conclusão negativa.

Vejamos o Quadro 2.1, que traz uma explicação a respeito desses tipos de erros.

H 0 é verdadeira H 0 é falsa

Erro tipo I Falso positivo


Decisão correta (rejeitar
Rejeitar H 0 (rejeitar H 0 , quando H 0 é
H 0 , quando H 0 é falsa)
verdadeira)

Decisão correta (não Erro tipo II Falso


Não rejeitar H 0 rejeitar H 0, quando H 0 é negativo (não rejeitar H 0,
Quadro 2.1 — Erro tipo I e erro tipo II verdadeira) quando H 0 é falsa)
Fonte: Elaborado pela autora.

#PraCegoVer: o quadro explicativo apresentado tem três colunas. A primeira


parte da coluna tem o item “Rejeitar H 0”, retratando o fato de que, quando ‘‘H 0 é
verdadeira”, esse erro tipo I é falso positivo, ou seja, (rejeitar H 0 , quando H 0 é
verdadeira). E, se for ‘‘H 0 é falsa”, essa decisão é correta, ou seja, (rejeitar H 0 ,
quando H 0 é falsa). Na segunda parte da coluna, temos “não rejeitar H 0”, que
retrata quando ‘‘H 0 é verdadeira” é a decisão correta, ou seja, (não rejeitar H 0,
quando H 0 é verdadeira). E, por fim, se for ‘‘H 0 é falsa”, esse erro tipo II é falso
negativo, ou seja, (não rejeitar H 0, quando H 0 é falsa).

Veja, no elemento interativo a seguir, uma explicação simples a respeito desses dois
tipos de erros.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 26/36
07/12/2023, 22:10 E-book

Erro tipo I
É rejeitar a hipótese nula quando ela é realmente verdade, concluir que os resultados são
estatisticamente significativos quando, na realidade, surgiram puramente por acaso ou por
fatores não relacionados.

Erro tipo II
É não rejeitar a hipótese nula quando ela é realmente falsa. Isso não é exatamente o
mesmo que "aceitar" a hipótese nula, porque os testes de hipóteses só podem dizer se
rejeitam a hipótese nula. Em vez disso, esse erro significa não concluir que houve um
efeito quando realmente havia. Na realidade, seu estudo pode não ter tido poder
estatístico suficiente para detectar um efeito de um certo tamanho.

Além disso, o risco de se cometer o erro tipo I é o nível de significância (alfa ou α)


que você escolher. Esse é um valor que você define no início do seu estudo para
avaliar a probabilidade estatística de obter seus resultados (p-valor). O nível de
significância é geralmente fixado em 0,05 ou 5%. Isso significa que seus resultados
só têm 5% de chance de ocorrer, ou menos, se a hipótese nula for realmente
verdadeira.

Se o p-valor do seu teste for inferior ao nível de significância, significa que seus
resultados são estatisticamente significativos e consistentes com a hipótese
alternativa. Se o seu p-valor for maior do que o nível de significância, então seus
resultados são considerados estatisticamente não significativos. Para reduzir a
probabilidade de erro tipo I, você pode simplesmente definir um nível de significância
mais baixo.

Já o risco de um erro tipo II está inversamente relacionado ao poder estatístico de


um estudo. Quanto maior o poder estatístico, menor a probabilidade de se cometer
um erro tipo II. Para reduzir (indiretamente) o risco de um erro tipo II, você pode
aumentar o tamanho da amostra ou o nível de significância.

praticar
https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 27/36
07/12/2023, 22:10 E-book

Vamos Praticar
As taxas de erro tipo I e tipo II influenciam umas às outras porque o nível de
significância (a taxa de erro tipo I) afeta o poder estatístico, que está inversamente
relacionado à taxa de erro tipo II. Isso significa que há uma importante troca entre
erros do tipo I e tipo II, como: definir um nível de significância mais baixo diminui o
risco de erro tipo I, mas aumenta um risco de erro tipo II; aumentar o poder de um
teste diminui o risco de erro tipo II, mas aumenta um risco de erro tipo I.

A partir dessas considerações, desenvolva uma hipótese nula e outra alternativa e


discorra sobre o risco de se realizar uma conclusão errada com relação aos erros
tipo I e tipo II.

No último tópico, estudaremos a análise de regressão linear, que tem papel de


destaque na extração das informações estatísticas dos dados por meio da
determinação da relação entre o estudo e as variáveis explicativas. Um modelo de
regressão linear adequado fornece inferências estatísticas válidas em várias
aplicações, incluindo a previsão.

Coeficiente de
Determinação do

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 28/36
07/12/2023, 22:10 E-book

Modelo Múltiplo:
Intervalo de
Confiança para a
Previsão

O sucesso da análise de regressão linear reside na adequação do modelo na


explicação das variações no conjunto de dados. Uma ferramenta popular para
determinar a adequação do modelo é o coeficiente de determinação (R 2) e a sua
versão ajustada (R 2) (GUJARATI; PORTER, 2011). São tratadas como medidas
sumárias para a bondade do ajuste de qualquer modelo de regressão linear.

O R 2 baseia-se na proporção de variabilidade da


variável estudo, que pode ser explicada por meio do
conhecimento de um determinado conjunto de
variáveis explicativas. É o quadrado do coeficiente de
correlação múltipla entre a variável estudo e todas as
variáveis explicativas presentes no modelo de
regressão linear.

Fonte: nexusplexus /
123RF.

O R 2 e sua versão ajustada também são usados para a seleção do modelo. Por
exemplo, se houver vários modelos equipados disponíveis a partir do mesmo
conjunto de dados, então um modelo com a menor falta de ajuste é preferido e pode

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 29/36
07/12/2023, 22:10 E-book

ser determinado com base nos valores do coeficiente de determinação ou sua versão
ajustada.

∑ ( ŷ − y − ) 2 SQE
2
R =1− =1−
∑ ( yi − Y − )2 SQF

Em que SQE representa a soma dos quadrados dos resíduos mínimos, e a parcela de
variação de y não explicada pelo modelo e SQF a variação de y em torno de sua
média (HILL; JUDGE; GRIFFITHS, 2010). Ao aplicarmos a fórmula considerando os
números que encontramos quando realizamos o teste F (SQE = 4 e SQF = 456),
temos que:

SQE 4
R2 = 1 − SQF
=1− 456
= 1 − 0.0087 = 0.991

Assim, a interpretação de R 2 é de que 99,1% da variação de Y é explicada pela


variação no X. Significa que, na amostra, apenas 0,009 da variação de Y permanece
não explicada e “deve-se à variação no termo de erro ou à variação em outras
variáveis que implicitamente fazem parte do termo de erro” (HILL; JUDGE;
GRIFFITHS, 2010, p. 188, grifos nossos). Assim, quanto mais próxima de 1, maior
será a capacidade de previsão do modelo, e quanto mais próxima de zero, menor
será a capacidade de explicação do modelo. Nesse contexto, você percebe que o
coeficiente ajustado de determinação é sempre menor ou igual ao coeficiente de
determinação. Por exemplo, se o pesquisador adicionar variáveis para que a
regressão apresente um maior coeficiente de determinação, ele pode ser penalizado
pelo coeficiente ajustado, se a adição for de variáveis independentes que não se
enquadram no modelo.

2 SQE / ( n − k )
R− =1− SQF / ( k − 1 )

Inserindo os dados calculados anteriormente no teste F, temos que SQE / (n − k) = 4 e


SQF / (k − 1) = 226, inserindo na fórmula, encontramos:

2 4
R− = 1− 226
= 0, 982

Note que o R − 2 que encontramos é menor que R 2. Assim, o coeficiente de


determinação é uma ferramenta que tem a capacidade de explicar um modelo
estatístico. Em outras palavras, se temos variável dependente Y e variável
independente X em um modelo, então, R 2 ajuda a determinar a variação em Y por

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 30/36
07/12/2023, 22:10 E-book

variação X. Essa é uma das principais saídas de análise de regressão e é usada


quando queremos prever futuros ou testar alguns modelos com informações
relacionadas.

praticar
Vamos Praticar
Em análise estatística, o coeficiente do método de determinação é usado para
prever e explicar os resultados futuros de um modelo, esse método também é
conhecido como R 2. Esse método também age como uma diretriz que ajuda a
medir a precisão do modelo. Sendo assim, a proporção da variância na variável
dependente é prevista a partir da variável independente.

Diante disso, considere SQE = 6 e SQF = 232 e, na sequência, realize os cálculos do


R 2 e interprete o resultado.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 31/36
07/12/2023, 22:10 E-book

Material
Complementar

FILME

O que são testes de hipóteses | Para que


servem os testes de hipóteses
Ano: 2017

Comentário: Esse vídeo apresenta o que são testes de hipóteses


e, ao assisti-lo, você poderá fixar o conteúdo visto até agora.
Esses testes são essenciais no processo de validação do seu
parâmetro populacional, uma vez que, nas estatísticas, referem-
se à análise de uma suposição sobre um parâmetro
populacional. É usado para fazer um palpite sobre uma
suposição utilizando estatísticas. Com o uso de dados
amostrais, o teste de hipóteses pressupõe o quão verdadeira é a
suposição para toda a população de onde a amostra está sendo
colhida.

Para assistir ao vídeo, acesse o link:

TRAILER

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 32/36
07/12/2023, 22:10 E-book

LIVRO

Econometria na prática
Autores: Gisele Ferreira Tiryaki e Cláudia Sá Malbouisson
Andrade

Editora: Alta Books

Capítulo: 2

Ano: 2017

ISBN: 978-6-555-20170-3

Comentário: O livro faz uma abordagem completa e abrangente


sobre os mínimos quadrados ordinários. Dentro do tema análise
de regressão, esse material traz, de forma aprofundada, os
aspectos relacionados aos mínimos quadrados ordinários a
partir de exemplos práticos, em especial, aspectos práticos do
cotidiano das pesquisas na área da economia aplicada. Nessa
perspectiva, convido você a ler o material, que trará
contribuições para um aprofundamento do tema.

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 33/36
07/12/2023, 22:10 E-book

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 34/36
07/12/2023, 22:10 E-book

Conclusão
Prezado(a) estudante!

Você teve a oportunidade de compreender os fundamentos da análise e da validação dos


modelos de regressão, o que possibilitará que você possa estimar uma regressão e
analisá-la de forma consistente, de maneira que faça sentido com relação aos
fundamentos estatísticos. Uma vez que, quando desenvolvemos um modelo, tentamos
provar alguma relação entre as variáveis dependentes e independentes dele. No entanto,
para isso, precisamos que esse modelo seja consistente, de acordo com os fundamentos
estatísticos.

Um modelo consistente apresentará testes T, F e p-valor estatisticamente válidos, com


intervalos de confiança aceitáveis, bem como um coeficiente de determinação aceitável.
Nesse contexto, pudemos entender a importância do cálculo dos valores previstos e
residuais do modelo de regressão e, ainda, a análise da variância, bem como os testes de
hipóteses e os intervalos de confiança do modelo estimado.

Espero que esse material de estudo tenha lhe proporcionado muito aprendizado e
reflexões.

Referências
GUJARATI, D. Econometria: princípios,
teoria e aplicações práticas. Tradução
de Cristina Yamagami. São Paulo:
Saraiva, 2019. (Disponível na Minha
Biblioteca).

GUJARATI, D. N.; PORTER, D. C.


Econometria básica. 5. ed. Porto

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 35/36
07/12/2023, 22:10 E-book

Alegre: Bookman, 2011. (Disponível na


Minha Biblioteca).

HILL, R. C.; JUDGE, G. G.; GRIFFITHS, W. E. Econometria. 3. ed. São Paulo: Saraiva, 2010.

MAIA, A. G. Econometria: conceitos e aplicações. São Paulo: Saint Paul, 2017. (Disponível
na Minha Biblioteca).

O QUE É um estimador de máxima verossimilhança? [S. l.: s. n.], 2021. 1 vídeo (11 min.).
Publicado pelo canal A Escola de Exatas. Disponível em: https://www.youtube.com/watch?
v=KF9IrsAlc_E. Acesso em: 29 mar. 2022.

O QUE SÃO testes de hipóteses | Para que servem os testes de hipóteses. [S. l.: s. n.], 2017.
1 vídeo (16 min.). Publicado pelo canal Professor Guru. Disponível em:
https://www.youtube.com/watch?v=h4QcWDDlrW0&list=RDCMUCkBKRTla-WORg2aKwLo-
iZg&index=2. Acesso em: 29 mar. 2022.

PEREDA, P. C.; ALVES, D. Econometria aplicada. Rio de Janeiro: Elsevier, 2018. (Disponível
na Minha Biblioteca).

P-VALOR ou nível descritivo em testes de hipóteses. [S. l.: s. n.], 2019. 1 vídeo (6 min.).
Publicado pelo canal Professor Guru. Disponível em: https://www.youtube.com/watch?
v=8t9PlD7S5zk. Acesso em: 29 mar. 2022.

TIRYAKI, G. F.; ANDRADE, C. M. Econometria na prática. Rio de Janeiro: Alta Books, 2017.
(Disponível na Minha Biblioteca).

https://student.ulife.com.br/ContentPlayer/Index?lc=Ws3Dw%2ftNHvQjNuaE3Re8Sw%3d%3d&l=q1K5aws4c7PXQbLT546fyQ%3d%3d&cd=V… 36/36

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy