of 31 /31
Modelo de Regressão Simples

Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i = β 0 + β 1 X i + ξ i E(ξ i) = 0; Var(ξ i) = σ2 e COV(ξ i,ξ j) = 0 14 Modelo

  • Author
    others

  • View
    1

  • Download
    0

Embed Size (px)

Text of Modelo de Regressão Simples - UFPErmcrs/ESAP/arquivos/Regressao...Regressão Linear Simples Y i =...

  • Modelo de Regressão Simples

  • 2

    Historia

    HistóriaTermo regressão foi introduzido por Francis Galton(1822-1911). Estudo sobre altura de pais e filhos. Karl Pearson coletou mais de mil registros e verificou a “lei de regressão universal” de Galton (1857-1936)

    Atualmente é uma das técnicas de estimação mais usadas.

    Aplicações: Industria, Economia, Estudos Biológicos, etcObjetivos: descrição de dados, estimação de parâmetros, predição e controle.Ampla literatura

    Modelo de Regressão LinearModelo de Regressão Não-LinearModelo Linear GeneralizadoEntre outros

  • 3

    Exemplos

    X1 = rendaX2 = taxa de jurosX3 = poupança

    Y = consumo

    Aplicação na economia:

    X1 = área construídaX2 = custo do m2X3 = localização

    Y = preço doimóvel

    Aplicação no mercado mobiliário (avaliação) :

    X1 = memória RAMX2 = sistema operacionalX3 = tipo de processador

    Y = tempo deresposta

    Aplicação na ciência da computação:

  • 4

    Análise de regressãoDados

    Teoria

    Especificação domodelo

    Estimação dosparâmetros Testando a adequacidade

    do modelo

    Validaçãodo modelo

    sim

    não

    Uso doModelo

    “método estatístico que utiliza a relação entre duas ou mais variáveis de modo que uma variável pode ser estimada (ou predita) a partir da

    outra ou das outras”

    sim

    não

  • 5

    RelaRelaçção funcional x Relaão funcional x Relaçção ão estatestatíísticastica

    As variáveis podem possuir dois tipos de relações:1) Funcional: a relação é expressa por uma

    fórmula matemática: Y = f(X)Todos os pontos caem na curva da relação funcional

    Nesse caso, temos um modelo determinístico. Ex: relação entre o perímetro (P) e o lado de um

    quadrado (L)

  • 6

    RelaRelaçção funcional x Relaão funcional x Relaçção ão estatestatíísticastica

    Estatística: não é uma relação perfeita como no caso da relação funcional. As observações em geral não caem exatamente na curva da relação.

    Nesse caso temos um modelo probabilístico. O modelo captura a aleatoriedade que é parte de um processo do mundo real.

    Ex: relação entre tamanho de casa (T) e preço (P). Todas as casas de mesmo tamanho são vendidas pelo mesmo preço?

  • 7

    Relação estatística:

    50556065707580859095

    100

    150 160 170 180 190

    Altura (cm)

    Peso

    (kg)

    A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y depende de X, ou que existe uma relação de causa-efeito entre X e Y.

  • 8

    Medida de AssociaMedida de Associaççãoão

    X

    Y

    XY

    X

    YX

    Y

    Coeficiente de Correlação (de Pearson)mede o grau de relação linear entre X e Y

    ( , )( ) * ( )

    Cov X YrVar X Var Y

    =

    ( )( )

    ( ) ( )1

    2 2

    1 1

    n

    i ii

    n n

    i ii i

    X X Y Yr

    X X Y Y

    =

    = =

    − −=

    − −

    ∑ ∑

    1 1r− ≤ ≤

    1 1 1

    2 22 2

    1 1 1 1

    n n n

    i i i ii i i

    n n n n

    i i i ii i i i

    n X Y X Y

    n X X n Y Y

    = = =

    = = = =

    −=

    ⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞− −⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

    ∑ ∑ ∑

    ∑ ∑ ∑ ∑

    r = 0,9 r = 0,3 r = 0

    r = - 0,9

  • 9

    Coeficiente de CorrelaCoeficiente de CorrelaççãoãoInterpretações errôneas dos coeficientes de correlação

    1. Um alto coeficiente de correlação nem sempre indica que a equação de regressão estimada está bem ajustada aos dados.

    X

    Y

    X

    Y

    ?

    ?

  • 10

    Coeficiente de CorrelaCoeficiente de CorrelaççãoãoInterpretações errôneas dos coeficientes de correlação

    2. Um coeficiente de correlação próximo de zero nem sempre indica que X e Y não são relacionadas.

    X

    Y

    X

    Y X

    Y A

    X

    Y B

  • 11

    Um modelo determinístico

    Tamanho da casa

    Preço dacasa

    Preço= 2

    5000 +

    75×(tam

    anho)

    Neste modelo, o preço da casa é completamente determinado pelo tamanho.

  • 12

    Um modelo estatístico

    Tamanho da casa

    Preçoda Casa

    25$

    VariabilidadeBaixa vs. Alta

    x

    Preço = 25,000 + 75(Tamanho) + ξ

    É o termo aleatório (variável erro). É a diferença entre o preço atual e o preço estimadobaseando-se no tamanho da casa.

  • 13

    AnAnáálise de Regressãolise de Regressão1. Determinar como duas ou mais variáveis se relacionam.

    2. Estimar a função que determina a relação entre as variáveis.

    3. Usar a equação ajustada para prever valores da variável dependente.

    Regressão Linear Simples

    Yi = β0 + β1Xi + ξi

    E(ξi) = 0; Var (ξi) = σ2 e COV (ξi,ξj) = 0

  • 14

    Modelo de Regressão Modelo de Regressão Linear SimplesLinear Simples

    iii XY ξββ ++= 10

    Inclinaçãopopulacional

    Interceptopopulacional Erro Aleatório

    Variável Independente

    Variável Dependente

    ξi

    X

    Y

    β0

    β1 Coeficienteangular

    E(Y) = β0 + β1 X

  • 15

    Em geral não se conhece os valores de β0 e β1. Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado:

    ξi = Yi – (β0 + β1 Xi)Em particular, o método dos mínimos quadrados requer que consideremos a soma dos n desvios quadrados, denotado por Q:

    210

    1

    ][ iin

    i

    XYQ ββ −−=∑=

    EstimaEstimaçção dos parâmetrosão dos parâmetros

  • 16

    EstimaEstimaçção dos parâmetrosão dos parâmetrosDe acordo com o método dos mínimos quadrados, os estimadores de β0 e β1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor de Q.Derivando ][2 10

    10ii

    n

    iXYQ ββ

    β−−−=

    ∂∂ ∑

    =

    iii

    n

    iXXYQ ][2 10

    11

    βββ

    −−−=∂∂ ∑

    =

    2

    1

    11

    )(

    ))((

    XX

    YYXXb

    i

    n

    i

    ii

    n

    i

    −−=

    =

    =

    XbYb 10 −=iii YYe

    XbbY

    XYE

    ˆ

    ˆ)(

    10

    10

    −=

    +=

    += ββ

    (resíduo)

    Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:

  • 17

    1)

    2) é mínima

    3)

    4) A reta de regressão passa sempre pelo ponto

    01

    =∑=

    n

    iie

    ∑=

    n

    iie

    1

    2

    ∑∑==

    =n

    ii

    n

    ii YY

    11

    ˆ

    Propriedades da equaPropriedades da equaçção ão de regressãode regressão

    ),( YX

    X

    Y

    X

    Y

  • 18

    Predição

    Um dos objetivos da análise de regressãoPara um determinado valor x0 de X, queremos prever o valor que deveráser assumido por Y.

    0ˆˆˆ xy βα +=

  • 19

    Inferência em AnInferência em Anáálise de Regressãolise de Regressão

    Considere o modelo: Yi = β0 + β1 Xi + ξi

    ξ ~ N(0; σ2) e COV (ξi,ξj)= 0

    ∑=

    −= n

    ii XX

    bs

    1

    21

    2

    )(

    QMRes)(2

    1

    11 ~)( −

    −= ntbs

    bt β

    0:H0:H

    11

    10

    <=

    ββ

    IC para β0 e β1, IC para Ynovo

    β0 = 0 ? β1 = 0 ? (teste de hipótese)

    X

    Y ?

    21

    1 ~)( −

    = ntbsbt

  • 20

    } YYi −Yi

    {iiYY ˆ−

    {YYi −ˆ iŶ

    Precisão do modeloPrecisão do modelo

    0 20 40 60 80 X

    Y∑∑∑===

    −+−=−n

    iii

    n

    ii

    n

    ii YYYYYY

    1

    2

    1

    2

    1

    2 )ˆ()ˆ()(

    SQTo = SQReg + SQRes

    SQToSQRes1

    SQToSQRes-SQTo

    SQToSQReg2

    −=

    =

    =RCoeficiente de determinação

    0 ≤ R2 ≤ 1

    XbbY 10ˆ +=

    Y

    Interpretação: R2 mede a fração da variação total de Y explicada pela regressão.

  • 21

    Considerações sobre o coeficiente de determinação

    O coeficiente de determinação deve ser usado com cautela. Embora o coeficiente não pode diminuir quando mais regressores são adicionados no modelo, isto não significa que o novo modelo é melhor do que o anterior.O coeficiente depende do range de variabilidade de x. Um alto valor do coeficiente pode ser porque x teve um grande range de variação não realístico. Por outro lado, um valor pequeno do coeficiente pode ser porque x teve um pequeno range de variação que não permitiu que a sua relação com y seja detectada.. A média dos quadrados dos resíduos é uma medida adequada de qualidade do ajuste.

  • 22

    Análise de variância: teste de significância do modelo

    SQT tem n-1 graus de liberdadeSQR tem n-2 graus de liberdadeSQM tem 1 grau de liberdade

    Soma de quadrados

    Graus de liberdade

    Média

    1

    n-2

    n-1

    SQM

    SQR

    SQT

    Regressão

    Residual

    Total

    ( )∑=

    −n

    ii yy

    1

    ( )

    2

    ˆ1

    2

    −∑=

    n

    yyn

    iii

    ( )

    11

    2

    −∑=

    n

    yyn

    ii

    ( )

    0F

    H0: β1=0

    If H0 é verdadeira SQR/n-2 tem distribuição qui-quadrado com n-2 graus de liberdade. SQM/1 tem distribuição qui-quadrado com 1 grau de liberdade. SQR e SQM são independentes. Por definição, F0 segue uma distribuição F-Snedecor com 1 e n-2 graus de liberdade. Rejeita H0 F0 >F1,n2

    ⎥⎥⎥⎥

    ⎢⎢⎢⎢

    −∑=

    2

    /ˆ 21

    2

    n

    yyn

    iii σ

    ( )

    1

    /ˆ 21

    2 σ⎥⎦

    ⎤⎢⎣

    ⎡−∑

    =

    n

    ii yy

  • 23

    Considerações

    Os modelos de regressão são construídos baseando-se no range de valores dos regressores.A equação dos mínimos quadrados é fortemente afetada por pontos extremos da distribuição de x. Os métodos de mínimos quadrados são influenciados por outliers (pontos aberrantes). Porque a regressão indicou forte correlação entre duas variáveis não significa que exista uma relação de causa e efeito.

  • 24

    Modelos LinearizModelos LinearizááveisveisModelo Padrão: Yi = β0 + β1Xi + ξi

    iiiiXY ξβ β0= iii XY ξββ lnlnlnln 10 ++= iii XY ξββ ′+′+′=′ 10

    iX

    iieY ξβ β10= iii XY ξββ lnlnln 10 ++= iii XY ξββ ′++′=′ 10

    exponencial

    potencial

    iii XY ξββ +′+=′ 10logaritmopotênciainverso

    ),0(~ 2σξ Ni′

  • 25

    AnAnáálise de Reslise de Resííduosduos

    Resíduo = iii YYe ˆ−=

    Y = 0,9983X + 0,1306R2 = 0,9496

    0

    2

    4

    6

    8

    10

    0 2 4 6 8 10

    X

    Y

    -1.5

    -1.0

    -0.5

    0.0

    0.5

    1.0

    1.5

    0 2 4 6 8 10

    XRe

    sídu

    os

    9496,01306,09983,0ˆ

    2 =

    +=

    RXY

  • 26

    AnAnáálise de Reslise de Resííduosduos

    MQReseiResíduo Padronizado =

    Y = 0,9983X + 0,1306R2 = 0,9496

    0

    2

    4

    6

    8

    10

    0 2 4 6 8 10

    X

    Y

    -2.0

    -1.5

    -1.0

    -0.5

    0.0

    0.5

    1.0

    1.5

    2.0

    0 2 4 6 8 10

    XRe

    sídu

    os P

    adro

    niza

    do9496,01306,09983,0ˆ

    2 =

    +=

    RXY

  • 27

    AnAnáálise de Reslise de Resííduosduos

    -2.0

    -1.5

    -1.0

    -0.5

    0.0

    0.5

    1.0

    1.5

    2.0

    0 2 4 6 8 10

    X

    Resí

    duos

    Pad

    roni

    zado

    s

    “ideal”

    -2.0

    -1.5

    -1.0

    -0.5

    0.0

    0.5

    1.0

    1.5

    2.0

    0 2 4 6 8 10

    X

    Resí

    duos

    Pad

    roni

    zado

    s

    σ2 não constante

    -2.0

    -1.5

    -1.0

    -0.5

    0.0

    0.5

    1.0

    1.5

    2.0

    0 2 4 6 8 10

    X

    Resí

    duos

    Pad

    roni

    zado

    s

    não linearidade

    -2.0

    -1.5

    -1.0

    -0.5

    0.0

    0.5

    1.0

    1.5

    2.0

    0 2 4 6 8 10

    X

    Resí

    duos

    Pad

    roni

    zado

    s

    não independência

    tempo-2.0

    -1.5

    -1.0

    -0.5

    0.0

    0.5

    1.0

    1.5

    2.0

    0 2 4 6 8 10

    X

    Resí

    duos

    Pad

    roni

    zado

    s

    “outlier”

  • 28

    x y8 782 925 90

    12 5815 439 746 81

    FaltasNotafinal

    Aplicação

    959085807570656055

    4540

    50

    0 2 4 6 8 10 12 14 16

    Not

    a fin

    al

    FaltasX

  • 29

    6.0848.4648.1003.3641.8495.4766.56139.898

    y2

    624 184450696 645666486

    3.75157 516

    1 8 782 2 923 5 904 12 58 5 15 436 9 747 6 81

    x y

    579

    644

    251442258136

    x2xy

    Cálculo de r

    975.013030804

    31552

    11

    22

    11

    2

    111 −=−

    =

    ⎟⎠

    ⎞⎜⎝

    ⎛−⎟

    ⎞⎜⎝

    ⎛−

    −=

    ∑∑∑∑

    ∑∑∑

    ====

    ===

    n

    ii

    n

    ii

    n

    ii

    n

    ii

    n

    ii

    n

    ii

    n

    iii

    yynxxn

    yxyxnr

  • Escreva a equação dareta de regressão comx = número de faltase y = nota final.

    6.0848.4648.1003.3641.8495.4766.561

    624 184450696 645666486

    57 516 39.898

    1 8 782 2 923 5 904 12 58 5 15 436 9 747 6 81

    644

    251442258136

    xy x2 y2x y

    3.751 579

    924,3)(

    )()(ˆ

    1

    2

    1 −=−

    −−=

    =

    =n

    ii

    i

    n

    ii

    xx

    yyxxβ

    667,105ˆˆ =−= xy βα

    ixy 924,3667,105ˆ −=

    A equação de regressão é dada por:

  • 31

    Com a reta de regressão, é possível prevervalores de y correspondentes aos valores de x.

    Usando a equação de regressão podemosprever a nota esperada de um aluno com:

    (a) 3 faltas (b) 12 faltas

    (a)

    (b)

    Prevendo Valores

    = –3,924(3) + 105,667 = 93,895= –3,924(12) + 105,667 = 58,579

    Modelo de Regressão SimplesHistoriaExemplosAnálise de regressãoRelação funcional x Relação estatísticaRelação funcional x Relação estatísticaRelação estatística:Medida de AssociaçãoCoeficiente de CorrelaçãoCoeficiente de CorrelaçãoUm modelo determinísticoUm modelo estatísticoAnálise de RegressãoModelo de Regressão Linear SimplesEstimação dos parâmetrosEstimação dos parâmetrosPropriedades da equação de regressãoPrediçãoInferência em Análise de RegressãoPrecisão do modeloConsiderações sobre o coeficiente de determinaçãoAnálise de variância: teste de significância do modeloConsideraçõesModelos LinearizáveisAnálise de ResíduosAnálise de ResíduosAnálise de ResíduosAplicaçãoCálculo de rPrevendo Valores