60
ME613 - Análise de Regressão Parte 3 Benilton S Carvalho - 1S2020

LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

ME613 - Análise de RegressãoParte 3

Benilton S Carvalho - 1S2020

Page 2: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Diagnóstico do Modelo

Page 3: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

George Box

“All models are wrong but some are useful.”

By DavidMCEddy at en.wikipedia, CC BY-SA 3.0

3/60

Page 4: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Introdução

Como saber se a função de regressão é adequada para explicar a relação entreas variáveis observadas?

Caso a função de regressão não seja adequada, o que fazer?

Gráficos·

Testes·

Transformação de variáveis.·

Outro tipo de modelo.·

4/60

Page 5: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Diagnósticos para a variável preditora

Quantas observações em cada valor diferente de ?

Amplitude dos valores de .

· X

· X

5/60

Page 6: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Diagnósticos para a variável preditora

Se as observações são feitas ao longo do tempo, há correlação entre seusvalores e o tempo de observação?

6/60

Page 7: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Diagnósticos para a variável preditora

7/60

Page 8: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Resíduos

Gráficos de diagnósticos para não são úteis em análise de regressão, pois avariável resposta é uma função da preditora.

Os gráficos de diagnósticos são feitos para os resíduos.

Se assumimos , esperamos que ’s, os resíduos observados,

reflitam as propriedades assumidas para ’s.

Y

Resíduos:·

= −ei Yi Y  i

Erros:·

= − E( )εi Yi Yi

(0, )εi ∼iid

σ2 ei

εi

8/60

Page 9: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Propriedades dos resíduos

Como é sempre nula, não fornece informação sobre .

Se o modelo é apropriado, é um estimador não viesado para .

Média dos resíduos:·

= = 0e∑n

i=1 ei

n

e E( )εi

Variância dos resíduos:·

= = = QMErros2 ( −∑n

i=1 ei e)2

n − 2

SQErro

n − 2

s2 σ2

9/60

Page 10: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Propriedades dos resíduos

Quanto maior o número de observações com relação ao número de parâmetrosestimados, menor é a dependência dos resíduos (pode ser ignorada).

Independência: ’s não são variáveis aleatórias independentes, poisdependem de , que por sua vez dependem das mesmas estimativas para osparâmetros e .

· ei

Y  i

β0 β1

10/60

Page 11: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Resíduos semi-studentizados

Para detectar outliers, muitas vezes é mais útil observar resíduos padronizados.

Resíduo semi-studentizado:

=e∗i

ei

QME‾ ‾‾‾‾√

11/60

Page 12: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Suposições do modelo estudadas através daanálise de resíduos

Podemos utilizar análise de resíduos para verificar se:

1. a função de regressão não é linear

2. erros não possuem variância constante (heterocedasticidade)

3. erros não são independentes

4. o modelo ajustado é adequado, com exceção de algumas observaçõesoutliers

5. erros não seguem distribuição normal

6. uma ou mais variáveis preditoras foram omitidas no modelo

12/60

Page 13: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Análise de Resíduos: gráficos

Resíduos x Variável preditora·

Resíduos absolutos x Variável preditora·

Resíduos x Valores ajustados ( )· Y  

Resíduos ao longo do tempo/em sequência·

Resíduos X Variável preditora não incluída no modelo·

Boxplot dos resíduos·

Gráfico de probabilidade normal dos resíduos·

13/60

Page 14: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Preço do diamante

Preços de diamantes (dólares de Singapura) e peso em quilates (1 quilate = 0.2g).

14/60

Page 15: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Preço do diamante

Resíduos: comprimento das linhas vermelhas, mantendo o sinal.

15/60

Page 16: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Preço do diamante

Resíduos X Variável preditora

16/60

Page 17: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Preço do diamante

Resíduos X ordem

17/60

Page 18: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Preço do diamante

Boxplot dos resíduos

18/60

Page 19: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Preço do diamante

Gráfico de normalidade dos resíduos

(ver Kutner pag 110)

19/60

Page 20: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: não-linearidade

## `geom_smooth()` using formula 'y ~ x'

20/60

Page 21: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: não-linearidade

Resíduos X Variável preditora

21/60

Page 22: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: heterocedasticidade

## `geom_smooth()` using formula 'y ~ x'

22/60

Page 23: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: heterocedasticidade

23/60

Page 24: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Análise de Resíduos: testes de hipóteses

Além de gráficos, podemos também utilizar testes de hipóteses estatísticos paraavaliar algumas suposições do modelo.

24/60

Page 25: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste de correlação para normalidade

Calcular coeficiente de correlação entre e seus valores esperados, segundo adistribuição normal

Quanto maior a correlação, maior o indício de normalidade dos resíduos.

Detalhes sobre o teste: Looney & Gulledge (1985) - Use of the CorrelationCoefficient with Normal Probability Plots

ei

25/60

Page 26: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste de correlação para normalidade

Calcular a correlação entre os resíduos ordenados e

em que é o valor esperado do -ésimo resíduos, segundo a suposição denormalidades.

é o percentil da distribuição normal padrão.

Obs: Outro teste conhecido: Teste de Shapiro-Wilks.

r = { , , … , … , }r1 r2 rk rn

rk k

≈ [z( )]rk QME‾ ‾‾‾‾√k − 0.375

n + 0.25

z(A) A × 100

26/60

Page 27: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste de homocedasticidade: Brown-Forsythe

Não depende da suposição de normalidade·

Aplicável no caso de regressão linear simples quando a variância do erroaumenta ou decresce com a variável preditora .

·X

Tamanho amostral grande o suficiente para que possamos assumir que osresíduos são independentes.

·

Idéia parecida com um teste-t para duas amostras.·

27/60

Page 28: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste de homocedasticidade: Brown-Forsythe

é dividida em (valores mais baixos de ) e (valores mais altos de ).Isto é, temos dois grupos.

· X X1 X X2 X

é o -ésimo resíduo para o grupo 1 e é o -ésimo resíduo para o grupo2.

· ei1 i ei2 i

é o número de observações no grupo · nj j

.· n = +n1 n2

é a mediana dos resíduos do grupo .· e  j j

· = | − | = | − |di1 ei1 e  1 di2 ei2 e  2

28/60

Page 29: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste de homocedasticidade: Brown-Forsythe

Estatística do teste:

Se a variância é constante e e grandes o suficiente, então segue

distribuição com graus de liberdade.

Valores altos de indicam heterocedasticidade.

=t∗BF

−d1 d2

s +1n1

1n2

‾ ‾‾‾‾‾‾‾√

=s2 ∑( − + ∑( −di1 d1)2 di2 d2)2

n − 2

n1 n2 t∗BF

t n − 2

t∗BF

29/60

Page 30: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Toluca

data <- read.table("./dados/CH01TA01.txt") x = data[,1] y = data[,2] ind1 = which(x<80) ind2 = which(x>=80) fit = lm(y~x) resi = fit$resi resi1 = resi[ind1] resi2 = resi[ind2] d1 = abs(resi1-median(resi1)) d2 = abs(resi2-median(resi2)) t.test(d1,d2)

30/60

Page 31: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Toluca

Não rejeitamos , isto é, não obtemos evidências para rejeitar a hipótese dehomocedasticidade dos erros.

## ## Welch Two Sample t-test ## ## data: d1 and d2 ## t = 1.3215, df = 22.999, p-value = 0.1993 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -9.253335 41.982809 ## sample estimates: ## mean of x mean of y ## 44.81507 28.45034

H0

31/60

Page 32: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste de homocedasticidade: Breusch-Pagan

Assume que .

O seguinte modelo é assumido:

Se temos homocedasticidade.

: vs : .

∼ (0, )εi σ2i

= +loge σ2i γ0 γ1Xi

= 0γ1

H0 = 0γ1 H1 ≠ 0γ1

32/60

Page 33: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste de homocedasticidade: Breusch-Pagan

Estatística do teste:

em que é a soma de quadrados da regressão de em e é a soma

de quadrados do erro da regressão de em .

Sob , .

=X2BP

SQRq

2

( )SQE

n

2

SQRq e2i X SQE

Y X

H0 ∼X2BP χ2

1

33/60

Page 34: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Toluca

fit = lm(y~x) resi = fit$resi fit2 = lm(resi^2~x) a1 <- anova(fit) a2 <- anova(fit2) estatistica <- (a2$`Sum Sq`[1]/2)/((a1$`Sum Sq`[2]/length(y))^2)

34/60

Page 35: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Toluca

## Analysis of Variance Table ## ## Response: y ## Df Sum Sq Mean Sq F value Pr(>F) ## x 1 252378 252378 105.88 4.449e-10 *** ## Residuals 23 54825 2384 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## Analysis of Variance Table ## ## Response: resi^2 ## Df Sum Sq Mean Sq F value Pr(>F) ## x 1 7896142 7896142 1.0914 0.307 ## Residuals 23 166395896 7234604

## [1] 0.8209192

35/60

Page 36: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste de homocedasticidade: Breusch-Pagan

Diretamente pelo R:

library('car')

## Loading required package: carData

ncvTest(fit)

## Non-constant Variance Score Test ## Variance formula: ~ fitted.values ## Chisquare = 0.8209192, Df = 1, p = 0.36491

36/60

Page 37: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste F para falta de ajuste

Queremos testar se a função de regressão proposta é adequada para os dados.

Suposições: as observações de são

É preciso que tenhamos mais de uma observação para cada nível de (replicações).

Y|X

independentes

seguem distribuição normal

variância constante

·

·

· σ2

X

37/60

Page 38: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste F para falta de ajuste

Suponha que tenhamos valores distintos para

Para cada valor diferente de , , temos observações.

m X

X xj nj

são repetições para .

são repetições para .

são repetições para .

· , , … ,Y11 Y12 Y1n1n1 X = x1

· , , … ,Y21 Y22 Y2n2n2 X = x2

· , , … ,Ym1 Ym2 Ymnmnm X = xm

n = 1 =∑j=1

m

∑u=1

nj

∑j=1

m

nj

38/60

Page 39: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste F para falta de ajuste

Com replicações para cada , temos um estimador para para todo .

Por exemplo, quando , podemos usar e o seguinteestimador para :

Combinando todas as observações (não apenas as replicações para um dadonível de ), temos o seguinte estimador para :

X = xk

Var(Y|X = ) =xk σ2 k

X = x1 , , … ,Y11 Y12 Y1n1

Var(Y|X = )x1

( −1

− 1n1 ∑j=1

n1

Y1j Y1)2

X σ2

=s2p

( −∑m

j=1 ∑nj

u=1 Yju Y j)2

( − 1)∑m

j=1 nj

39/60

Page 40: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste F para falta de ajuste

com graus de liberdade .

SQ = = ( −Ep ∑j=1

m

∑u=1

nj

Yju Y j)2

= ( − 1) = − mnp ∑m

j=1 nj ∑m

j=1 nj

QM = =Epuro s2p

( −∑m

j=1 ∑nj

u=1 Yju Y j)2

− m∑m

j=1 nj

40/60

Page 41: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste F para falta de ajuste

Relembrando:

Mostre que a pode ser particionada da seguinte forma:

SQE = ( −∑j=1

m

∑u=1

nj

Yju Y  j)

2

1 SQE

( − = ( − + ( −∑j=1

m

∑u=1

nj

Yju Y  j)

2

∑j=1

m

∑u=1

nj

Yju Y j)2

∑j=1

m

nj Y  j Y j)

2

41/60

Page 42: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste F para falta de ajuste

é a soma de quadrados dos resíduos, representando a variação em tornoda reta.

é a soma de quadrados do erro puro, representando a variação de ,

para fixo, independente do modelo (pois utilizamos as replicações).

é a soma de quadrados da falta de ajuste, representando a falta de ajustedo modelo.

= +( −∑j=1

m

∑u=1

nj

Yju Y  j)

2

SQE

( −∑j=1

m

∑u=1

nj

Yju Y j)2

SQEp

( −∑j=1

m

nj Y  j Y j)

2

SQFa

SQE

SQEp Y

X

SQFa

42/60

Page 43: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste F para falta de ajuste

é o numerador de e é o numerador de .

Valores relativamente altos de indicam discrepância entre esses doisestimadores e, consequentemente, indicam evidência contra a adequação domodelo de regressão linear simples.

Quanto mais alto o valor de , pior é o ajuste do modelo, pois, se o modelofosse perfeito, teríamos que .

SQE s2 SQEp s2p

SQFa

SQFa

SQ = 0Fa

43/60

Page 44: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste F para falta de ajuste

: o MRLS é adequado

: o MRLS não é adequado

Estatística do teste:

H0

H1

=F∗ SQ /(m − 2)Fa

SQ /(n − m)Ep

∼sob H0Fm−2,n−m

44/60

Page 45: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Teste F para falta de ajuste

Fonte de Variação gl SQ

Regressão

Erro

(Falta de ajuste)

(Erro puro)

Total (ajustada)

1 SQReg = ( −∑n

i=1 Y  i Y)2

n − 2 SQE = ( −∑n

i=1 Yi Y  )2

m − 2 SQ = ( −Fa ∑m

j=1 nj Y  j Y j)

2

n − m SQ = ( −Ep ∑m

j=1 ∑nj

u=1 Yju Y j)2

n − 1 SQT = ( −∑n

i=1 Yi Y)2

45/60

Page 46: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Agências bancárias

11 agências de um certo banco ofereceram brindes para novos clientes.

Um depósito inicial mínimo era necessário para qualificar para o brinde.

Cada agência especificou o valor do depósito mínimo.

Interesse: valor do depósito mínimo inicial e número de contas que foramabertas na agência.

46/60

Page 47: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Agências bancárias

47/60

Page 48: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Agências bancárias

Modelo completo:

Temos que , isto é, temos esperança diferente para cada .

= +Yij μj εij

E( ) =Yij μj Xj

48/60

Page 49: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Agências bancárias

Full=lm(y~as.factor(x)-1) summary(Full)

## ## Call: ## lm(formula = y ~ as.factor(x) - 1) ## ## Residuals: ## 1 2 3 4 5 6 7 8 9 10 11 ## 5 -12 10 -7 0 16 7 -16 -5 -10 12 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## as.factor(x)75 35.00 10.71 3.267 0.022282 * ## as.factor(x)100 124.00 10.71 11.573 8.45e-05 *** ## as.factor(x)125 155.00 10.71 14.466 2.85e-05 *** ## as.factor(x)150 152.00 15.15 10.031 0.000168 *** ## as.factor(x)175 140.00 10.71 13.066 4.68e-05 *** ## as.factor(x)200 114.00 10.71 10.640 0.000127 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 15.15 on 5 degrees of freedom ## Multiple R-squared: 0.9933, Adjusted R-squared: 0.9852 ## F-statistic: 123.1 on 6 and 5 DF, p-value: 2.893e-05

49/60

Page 50: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Agências bancárias

Modelo reduzido: reta de regressão.

enquanto que, usando o modelo anterior, temos que .

Reduced=lm(y~x) summary(Reduced)

## ## Call: ## lm(formula = y ~ x) ## ## Residuals: ## Min 1Q Median 3Q Max ## -59.23 -34.06 12.61 32.44 48.44 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 50.7225 39.3979 1.287 0.23 ## x 0.4867 0.2747 1.772 0.11 ## ## Residual standard error: 40.47 on 9 degrees of freedom ## Multiple R-squared: 0.2586, Adjusted R-squared: 0.1762 ## F-statistic: 3.139 on 1 and 9 DF, p-value: 0.1102

s = 40.47 = 15.15se

50/60

Page 51: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Agências bancárias

Estatística do teste:

Reduced=lm(y~x) Full=lm(y~as.factor(x)-1) anova(Reduced, Full)

## Analysis of Variance Table ## ## Model 1: y ~ x ## Model 2: y ~ as.factor(x) - 1 ## Res.Df RSS Df Sum of Sq F Pr(>F) ## 1 9 14742 ## 2 5 1148 4 13594 14.801 0.005594 ** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

= =F∗ SQ /(m − 2)Fa

SQ /(n − m)Ep

∼sob H0Fm−2,n−m F4,5

51/60

Page 52: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Agências bancárias

valor de p: 0.0055938.

Valor crítico para : 5.19

= = = 14.8F∗obs

[SQE(Reduced) − SQE(Full)]/4

SQE(Full)/5

1.3593571 × /4104

1148/5

α = 0.05

52/60

Page 53: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Ligas de cobre e níquel

13 ligas de cobre e níquel, mas quantidades diferentes de ferro.

As ligas foram submersas em água do mar por 60 dias e a perda de peso devidoà corrosão foi anotada em miligramas por decímetro quadrado por dia.

53/60

Page 54: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Ligas de cobre e níquel

## ## Call: ## lm(formula = loss ~ Fe, data = corrosion) ## ## Residuals: ## Min 1Q Median 3Q Max ## -3.7980 -1.9464 0.2971 0.9924 5.7429 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 129.787 1.403 92.52 < 2e-16 *** ## Fe -24.020 1.280 -18.77 1.06e-09 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 3.058 on 11 degrees of freedom ## Multiple R-squared: 0.9697, Adjusted R-squared: 0.967 ## F-statistic: 352.3 on 1 and 11 DF, p-value: 1.055e-09

54/60

Page 55: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Ligas de cobre e níquel

enquanto que, usando o modelo anterior, temos que .

## ## Call: ## lm(formula = loss ~ factor(Fe) - 1, data = corrosion) ## ## Residuals: ## Min 1Q Median 3Q Max ## -1.2500 -0.9667 0.0000 1.0000 1.5333 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## factor(Fe)0.01 128.5667 0.8090 158.91 4.19e-12 *** ## factor(Fe)0.48 123.0000 0.9909 124.13 1.84e-11 *** ## factor(Fe)0.71 111.9500 0.9909 112.98 3.24e-11 *** ## factor(Fe)0.95 103.9000 1.4013 74.15 4.05e-10 *** ## factor(Fe)1.19 101.5000 1.4013 72.43 4.66e-10 *** ## factor(Fe)1.44 91.8500 0.9909 92.70 1.06e-10 *** ## factor(Fe)1.96 84.9500 0.9909 85.73 1.70e-10 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 1.401 on 6 degrees of freedom ## Multiple R-squared: 0.9999, Adjusted R-squared: 0.9998 ## F-statistic: 1.145e+04 on 7 and 6 DF, p-value: 6.062e-12

= 1.4se s = 3.06

55/60

Page 56: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Ligas de cobre e níquel

Estatística do teste:

anova(modeloreduzido,modelocompleto)

## Analysis of Variance Table ## ## Model 1: loss ~ Fe ## Model 2: loss ~ factor(Fe) - 1 ## Res.Df RSS Df Sum of Sq F Pr(>F) ## 1 11 102.850 ## 2 6 11.782 5 91.069 9.2756 0.008623 ** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

= = = 9.28F∗ SQ /(m − 2)Fa

SQ /(n − m)Ep

91.069/5

11.782/6

56/60

Page 57: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Exemplo: Ligas de cobre e níquel

library(alr3) pureErrorAnova(modeloreduzido)

## Analysis of Variance Table ## ## Response: loss ## Df Sum Sq Mean Sq F value Pr(>F) ## Fe 1 3293.8 3293.8 1677.4028 1.417e-08 *** ## Residuals 11 102.9 9.4 ## Lack of fit 5 91.1 18.2 9.2756 0.008623 ** ## Pure Error 6 11.8 2.0 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

57/60

Page 58: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Como melhorar o modelo

Se nos testes e/ou gráficos de diagnóstico do modelo determinarmos que omesmo não é adequado, o que fazer?

Abandonar o modelo e procurar outro mais adequado: regressão logística,regressão não-paramétrica, regressão robusta…

·

Aplicar alguma transformação nos dados, de maneira que a regressão linearsimples fique adequada.

·

58/60

Page 59: LDJQµVWLFRGR0 RGHORme613-unicamp.github.io/aulas_pdf/parte03.pdf5HV¯GXRV *U £ILFRVGHGLDJQµVWLFRVSDU D Q¥RV¥R¼WHLVHPDQ£OLVHGHU HJU HVV¥R SRLVD YDUL£YHOU HVSRVWD«XPDIXQ©¥RGDSU

Agradecimento

Slides criados por Samara F Kiihl / IMECC / UNICAMP·

59/60